Text Analytics ontem, hoje e amanhã
Luana Carolina Baio [email protected]
2
Uma história que começa por volta de 1930...
... junto com o crescimento dos regimes totalitários, surgem diversos estudos com foco em propaganda. Eles se multiplicaram ainda mais durante a II Guerra e visavam analisar o conteúdo dos jornais veiculados na época (objetivo: entender o impacto das mensagens no público)
3
Em 1940 Harold Lasswell utilizou o termo análise de conteúdo pela primeira vez em uma pesquisa científica.
Junto com a criação do termo se desenvolve também toda uma preocupação com formas de mensuração e metodologias
is a research technique for the objective, systematic, and quantitative description of the manifest content of communication is the statistical semantics of political discourse provides precise means of describing the contents of any sort of communication aims at a classification of content in more precise, numerical terms than is provided by impressionistic ‘more or less’ judgements ‘either-or’ is any research technique for making inferences by systematically and objectively identifying specified characteristics within text
Análise de Conteúdo: algumas definições nos deixam claro do que se trata tudo isso
Como fazer?
categoria de codificação 1
categoria de codificação 2
categoria de codificação 3
categoria de codificação N
esquema de codificação
codificação
Texto 3 Texto N
Texto 2 Texto 1
Transformando palavras em números
Categoria 1 Categoria 2 Categoria 3 Categoria N
Como fazer?
7
Puta trampo, não?
Trabalhoso e assustadoramente familiar!!!
9
O trabalho de monitoramento em mídias sociais pede por evoluções
E o trabalho iniciado em
1940 ainda tem muito a nos ensinar
Sociologia Entendimento do
comportamento humano
Linguística Linguagem em sua forma,
significado e contexto
Tecnologia
Técnicas e sistemas de organização com o fim de
resolver problemas
Estatística Coleção, organização, análise e apresentação
de dados
Análise de Conteúdo
Desde o início, apoiado nos seguintes pilares:
Sociologia Entendimento do
comportamento humano
Linguística Linguagem em sua forma,
significado e contexto
Tecnologia
Técnicas e sistemas de organização com o fim de
resolver problemas
Estatística Coleção, organização, análise e apresentação
de dados
Análise de Conteúdo
Desde o início, apoiado nos seguintes pilares:
Por que ainda fazemos tanta coisa manualmente?
Só agora nos confrontamos com alguns desafios:
Grande volume de dados
Necessidade por dados quentes
Longas séries históricas
Pesquisa de dados retroativos
13
Geração Y
Ainda não temos, dentro de nossos monitoramentos, uma mentalidade de longo prazo
14
Mas é possível SIM trabalhar com grandes volumes de dados e tirar
insights preciosos sem a classificação manual
15
Estudo completo: http://dp6.bi/case-cafe-social
16
Feb-
12
Mar
-12
Apr
-12
May
-12
Jun-
12
Jul-
12
Aug
-12
Sep-
12
Oct
-12
Nov
-12
Dec
-12
Jan-
13
Trending mensal
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
D S T Q Q S S
Hor
a
Dia da Semana
Heat map
Café da tarde
Café da manhã
Férias Férias Férias
Uma análise dos picos do Heat Map mostra que o café pela tarde é muito citado em situações domésticas, associado a prévia ou pausa de estudo. É citado no trabalho geralmente comemorando um momento de folga.
Baixa
Alta
1% do total são os posts que mencionam alguma marca de café
Conc
entr
ação
de
post
s
17
Existem poucos posts com local definido. O consumo caseiro ainda se mostra maior que os demais. Comidas que possam acompanhar o consumo de café ou mesmo bebidas que o tenham como base são citadas com a mesma frequência em cada um dos diferentes locais.
Locais e Acompanhamentos
3% 1,5%
0,5% 0,5%
94,5% ? 5%
dos posts mencionam acompanhamentos ou bebidas à base de café, seja qual for o local.
23%
17%
9%
18
Apesar do grande número de produtos oferecidos, o consumo de acompanhamentos tem grande concentração nos produtos tradicionais. Pão e bolo estão entre os prediletos na maioria dos locais de consumo.
54% 10%
6%
Participação de produtos em relação ao total de acompanhamentos de cada local
10%
10% 10%
15% 24%
9%
12%
5%
19
Os posts sem local definido possuem padrão de consumo de acompanhamentos semelhante aos posts feitos em casa, o que sugere um consumo caseiro ainda maior, indo ao encontro de pesquisas off-line.
54% 10%
6%
Participação de produtos em relação ao total de acompanhamentos de cada local
10%
10% 10%
15% 24%
9%
12%
6% 6%
20%
12% ?
Ferramentas atuais já possibilitam visões interessantes (se bem aplicadas):
BuzzGraph (Sysomos) Associação entre palavras representadas por linhas, que podem ser grossas, finas ou tracejadas, de acordo com a força da associação.
Ferramentas atuais já possibilitam visões interessantes (se bem aplicadas):
Sparks and Bursts (UberVU) Identifica aumentos significantes dentro de uma série histórica
Queremos mais!
Maiores taxas de acertividade nas classificações automáticas
Dinâmica de trending topics em nossas ferramentas de monitoramento (foco em variação, não em volume)
Buscas e regras mais inteligentes, sensíveis a palavras semelhantes
Um mercado educado em analítica e que entende os ganhos em investir em ferramentas e pessoas
23
Luana Carolina Baio [email protected]
Top Related