Text Analytics

Preview:

DESCRIPTION

Apresentação da @LuanaBaio no Social Media Week 2013 sobre text analytics, análise de conteúdo, análise de discurso e sua aplicação em monitoramento de redes sociais

Citation preview

Text  Analytics  ontem,  hoje  e  amanhã  

Luana Carolina Baio luanabaio@dp6.com.br

2

Uma história que começa por volta de 1930...

... junto com o crescimento dos regimes totalitários, surgem diversos estudos com foco em propaganda. Eles se multiplicaram ainda mais durante a II Guerra e visavam analisar o conteúdo dos jornais veiculados na época (objetivo: entender o impacto das mensagens no público)

3

Em 1940 Harold Lasswell utilizou o termo análise de conteúdo pela primeira vez em uma pesquisa científica.

Junto com a criação do termo se desenvolve também toda uma preocupação com formas de mensuração e metodologias

is a research technique for the objective, systematic, and quantitative description of the manifest content of communication is the statistical semantics of political discourse provides precise means of describing the contents of any sort of communication aims at a classification of content in more precise, numerical terms than is provided by impressionistic ‘more or less’ judgements ‘either-or’ is any research technique for making inferences by systematically and objectively identifying specified characteristics within text

Análise de Conteúdo: algumas definições nos deixam claro do que se trata tudo isso

Como fazer?

categoria de codificação 1

categoria de codificação 2

categoria de codificação 3

categoria de codificação N

esquema de codificação

codificação

Texto 3 Texto N

Texto 2 Texto 1

Transformando palavras em números

Categoria 1 Categoria 2 Categoria 3 Categoria N

Como fazer?

7

Puta trampo, não?

Trabalhoso e assustadoramente familiar!!!

9

O trabalho de monitoramento em mídias sociais pede por evoluções

E o trabalho iniciado em

1940 ainda tem muito a nos ensinar

Sociologia Entendimento do

comportamento humano

Linguística Linguagem em sua forma,

significado e contexto

Tecnologia

Técnicas e sistemas de organização com o fim de

resolver problemas

Estatística Coleção, organização, análise e apresentação

de dados

Análise de Conteúdo

Desde o início, apoiado nos seguintes pilares:

Sociologia Entendimento do

comportamento humano

Linguística Linguagem em sua forma,

significado e contexto

Tecnologia

Técnicas e sistemas de organização com o fim de

resolver problemas

Estatística Coleção, organização, análise e apresentação

de dados

Análise de Conteúdo

Desde o início, apoiado nos seguintes pilares:

Por que ainda fazemos tanta coisa manualmente?

Só agora nos confrontamos com alguns desafios:

Grande volume de dados

Necessidade por dados quentes

Longas séries históricas

Pesquisa de dados retroativos

13

Geração Y

Ainda não temos, dentro de nossos monitoramentos, uma mentalidade de longo prazo

14

Mas é possível SIM trabalhar com grandes volumes de dados e tirar

insights preciosos sem a classificação manual

15

Estudo completo: http://dp6.bi/case-cafe-social

16

Feb-

12

Mar

-12

Apr

-12

May

-12

Jun-

12

Jul-

12

Aug

-12

Sep-

12

Oct

-12

Nov

-12

Dec

-12

Jan-

13

Trending mensal

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

D S T Q Q S S

Hor

a

Dia da Semana

Heat map

Café da tarde

Café da manhã

Férias Férias Férias

Uma análise dos picos do Heat Map mostra que o café pela tarde é muito citado em situações domésticas, associado a prévia ou pausa de estudo. É citado no trabalho geralmente comemorando um momento de folga.

Baixa

Alta

1% do total são os posts que mencionam alguma marca de café

Conc

entr

ação

de

post

s

17

Existem poucos posts com local definido. O consumo caseiro ainda se mostra maior que os demais. Comidas que possam acompanhar o consumo de café ou mesmo bebidas que o tenham como base são citadas com a mesma frequência em cada um dos diferentes locais.

Locais e Acompanhamentos

3% 1,5%

0,5% 0,5%

94,5% ? 5%

dos posts mencionam acompanhamentos ou bebidas à base de café, seja qual for o local.

23%

17%

9%

18

Apesar do grande número de produtos oferecidos, o consumo de acompanhamentos tem grande concentração nos produtos tradicionais. Pão e bolo estão entre os prediletos na maioria dos locais de consumo.

54% 10%

6%

Participação de produtos em relação ao total de acompanhamentos de cada local

10%

10% 10%

15% 24%

9%

12%

5%

19

Os posts sem local definido possuem padrão de consumo de acompanhamentos semelhante aos posts feitos em casa, o que sugere um consumo caseiro ainda maior, indo ao encontro de pesquisas off-line.

54% 10%

6%

Participação de produtos em relação ao total de acompanhamentos de cada local

10%

10% 10%

15% 24%

9%

12%

6% 6%

20%

12% ?

Ferramentas atuais já possibilitam visões interessantes (se bem aplicadas):

BuzzGraph (Sysomos) Associação entre palavras representadas por linhas, que podem ser grossas, finas ou tracejadas, de acordo com a força da associação.

Ferramentas atuais já possibilitam visões interessantes (se bem aplicadas):

Sparks and Bursts (UberVU) Identifica aumentos significantes dentro de uma série histórica

Queremos mais!

Maiores taxas de acertividade nas classificações automáticas

Dinâmica de trending topics em nossas ferramentas de monitoramento (foco em variação, não em volume)

Buscas e regras mais inteligentes, sensíveis a palavras semelhantes

Um mercado educado em analítica e que entende os ganhos em investir em ferramentas e pessoas

23

Luana Carolina Baio luanabaio@dp6.com.br