30
Uma Análise Comparativa de Técnicas de Aprendizagem Supervisionada aplicadas a Mineração de Opinião João Emanoel [email protected] Recife-PE 17/03/2012

Uma Análise Comparativa de Técnicas de Aprendizagem Supervisionada aplicadas a Mineração de Opinião

Embed Size (px)

DESCRIPTION

Apresentação de seminário, 17-Mar-2012, Uma Análise Comparativa de Técnicas de Aprendizagem Supervisionada aplicadas a Mineração de Opinião

Citation preview

Page 1: Uma Análise Comparativa de Técnicas de Aprendizagem Supervisionada aplicadas a Mineração de Opinião

Uma Análise Comparativa de Técnicas de Aprendizagem Supervisionada aplicadas a

Mineração de Opinião

João Emanoel [email protected]

Recife-PE 17/03/2012

Page 2: Uma Análise Comparativa de Técnicas de Aprendizagem Supervisionada aplicadas a Mineração de Opinião

Agenda

•  Conceitualização

•  Mineração de Opinião

•  Objetivos

•  Trabalhos Relacionados

•  Protótipo Implementado

•  Testes e Resultados

•  Considerações e resultados Esperados

•  Referências

2

Page 3: Uma Análise Comparativa de Técnicas de Aprendizagem Supervisionada aplicadas a Mineração de Opinião

Conceitualização

•  Mudanças na Web

•  Surgimento das Redes Sociais

•  Oportunidades

•  Análise de Redes Sociais

•  Análise de Sentimentos

•  A web vista como uma plataforma para serviços e exploração de conteúdo

3

Page 4: Uma Análise Comparativa de Técnicas de Aprendizagem Supervisionada aplicadas a Mineração de Opinião

4

Page 5: Uma Análise Comparativa de Técnicas de Aprendizagem Supervisionada aplicadas a Mineração de Opinião

Fonte: comScore

5

Page 6: Uma Análise Comparativa de Técnicas de Aprendizagem Supervisionada aplicadas a Mineração de Opinião

6

Page 7: Uma Análise Comparativa de Técnicas de Aprendizagem Supervisionada aplicadas a Mineração de Opinião

Mineração de opinião

•  Tornando evidente a necessidade de criar sistemas computacionais capazes de extrair e analisar, de forma inteligente, o conhecimento sobre tais volumes de dados (FREITAS et al., 2008)

•  Problema de categorização de textos pelo qual deseja-se detectar opiniões favoráveis e adversas com relação a um tema

7

Page 8: Uma Análise Comparativa de Técnicas de Aprendizagem Supervisionada aplicadas a Mineração de Opinião

Mineração de Opinião

•  Problemas Relacionados

– Análise de Influências

–  Inteligência Competitiva

– Mineração de Subjetividade

8

Page 9: Uma Análise Comparativa de Técnicas de Aprendizagem Supervisionada aplicadas a Mineração de Opinião

Objetivo •  Realizar uma analise comparativa entre diferentes

técnicas de aprendizagem supervisionada para o problema de Análise de Sentimentos – Objetivos Específicos:

•  Realizar uma revisão bibliográfica sobre as técnicas de aprendizado supervisionado para o problema de Mineração de Opinião

•  Identificar diferentes modelos textuais e técnicas para seleção de características, aplicáveis a análise de sentimentos

•  Comparar e analisar o desempenho dos classificadores para cada modelo encontrado, aplicando diferentes métricas de avaliação

9

Page 10: Uma Análise Comparativa de Técnicas de Aprendizagem Supervisionada aplicadas a Mineração de Opinião

Trabalhos Relacionados

•  (Pang, 2002) •  Corpus extraído do IMBd (base de dados de filmes na

internet), composto por 2000 avaliações de filmes (1000 positivas e 1000 negativas)

•  Compara 3 técnicas de aprendizagem de máquina: Naive Bayes, Máxima Entropia e SVM

10

Page 11: Uma Análise Comparativa de Técnicas de Aprendizagem Supervisionada aplicadas a Mineração de Opinião

Trabalhos Relacionados

•  (Pedro Oguri, 2006) – Mesmo Corpus utilizado por Pang (2002) – Comparou o desempenho dos Classificadores Naive

Bayes E SVM – Testes: Validação cruzada com K-folds

11

Page 12: Uma Análise Comparativa de Técnicas de Aprendizagem Supervisionada aplicadas a Mineração de Opinião

Trabalhos Relacionados

•  (Pedro Oguri, 2006) – Os modelos e classif icadores apresentaram

desempenhos muitos parecidos – Corpus utilizado é razoavelmente pequeno e limitado a

um domínio e fonte específicos – O autor conclui que os experimentos não trazem

conclusões definitivas quanto aos melhores modelos

12

Page 13: Uma Análise Comparativa de Técnicas de Aprendizagem Supervisionada aplicadas a Mineração de Opinião

Protótipo Desenvolvido •  Objetivo Geral

o  Efetuar a mineração de opiniões a partir dos tweets coletados no Twitter, utilizando os algoritmos de aprendizagem supervisionada Naive Bayes e KNN ;

•  Entrada o  Tweets coletados

•  Saída o  Análise de sentimentos. o  Resultados da análise para os diferentes algoritmos

§ Precisão

13

Page 14: Uma Análise Comparativa de Técnicas de Aprendizagem Supervisionada aplicadas a Mineração de Opinião

Base de Dados

•  Twitter – Rede Social que utiliza o conceito de Microblogging – Tweets (140 caracteres) – Busca de FeedBack pelas Organizações – API Twitter4j – Grande diversidade de Usuário (Empresários, políticos,

Artistas, etc), possibilitando a coleta de diferentes domínios e classes de usuários

–  “Objetividade” dos Tweets.

14

Page 15: Uma Análise Comparativa de Técnicas de Aprendizagem Supervisionada aplicadas a Mineração de Opinião

Protótipo Desenvolvido

15

Page 16: Uma Análise Comparativa de Técnicas de Aprendizagem Supervisionada aplicadas a Mineração de Opinião

Descrição dos Experimentos •  Corpus utilizado: tweets (em português) opiniativos

ou neutros (não expressam opinião) sobre diversos produtos, serviços e empresas (Bradesco, Santander, DELL, etc) –  450 Tweets

•  150 para cada categoria (Positivo, Negativo e Neutro)

– Corpus dividido em duas partes •  65% para Treinamento •  35% para Testes

•  API Twitter4j •  Modelo textual Utilizado: Saco de Palavras(binário)

16

Page 17: Uma Análise Comparativa de Técnicas de Aprendizagem Supervisionada aplicadas a Mineração de Opinião

Descrição dos Experimentos

•  Variações de técnicas de pré-processamento: –  (1) apenas Tokenização; –  (2) variação (1) + eliminação de stopwords e caracteres

especiais; –  (3) variação (2) + Stemming; –  (4) variação (3) + utilização de adjetivos e verbos como

atributos relevantes; –  (5) variação (3) + utilização de adjetivos, substantivos,

verbos e advérbios como atributos relevantes.

17

Page 18: Uma Análise Comparativa de Técnicas de Aprendizagem Supervisionada aplicadas a Mineração de Opinião

Descrição dos Experimentos

•  APIs Utilizadas: – Lucene – TreeTagger – LingPipe

•  Avaliação – Precisão

18

Page 19: Uma Análise Comparativa de Técnicas de Aprendizagem Supervisionada aplicadas a Mineração de Opinião

Metodologia de Testes

FONTE: Carrilho Junior (2007)

Validação cruzada com K-folds

19

Page 20: Uma Análise Comparativa de Técnicas de Aprendizagem Supervisionada aplicadas a Mineração de Opinião

Resultados Obtidos Desempenho do Classificador Naive Bayes

20

Page 21: Uma Análise Comparativa de Técnicas de Aprendizagem Supervisionada aplicadas a Mineração de Opinião

Resultados Obtidos Desempenho do Classificador KNN com K = 7

21

Page 22: Uma Análise Comparativa de Técnicas de Aprendizagem Supervisionada aplicadas a Mineração de Opinião

Resultados Obtidos Desempenho do Classificador KNN com K = 13

22

Page 23: Uma Análise Comparativa de Técnicas de Aprendizagem Supervisionada aplicadas a Mineração de Opinião

Resultados Obtidos Resultado dos Classificadores Naive Bayes e KNN

Técnicas de Pré-Processamento/Algoritmos  

Naive Bayes   KNN

com K = 7  

KNN

Com K = 13  

(1) Tokenização   52.22%   38.44%   38.66%  

(2) (1) + StopWords   50.66%   39.33%   39.99%  

(3) (2) + Stemming   48.88%   40.22%   40.66%  

(4) (3) + POS (ADJ, V, NOM e ADV)  

48.88%   40.60%   36.44%  

23

Page 24: Uma Análise Comparativa de Técnicas de Aprendizagem Supervisionada aplicadas a Mineração de Opinião

Possíveis modelagens textuais a serem adicionadas

•  Saco de Palavras (Utilizada no Experimento) •  N-Gramas •  Part of Speech tagging •  Filtro de Subjetividade •  Seleção de Features

–  Informação Mutua Média

24

Page 25: Uma Análise Comparativa de Técnicas de Aprendizagem Supervisionada aplicadas a Mineração de Opinião

Possíveis Algoritmos adicionados •  Baseado em Wu (2008) – onde o autor lista os 10

principais algoritmos de Data Mining •  Além dos dois já implementados (Naive Bayes e

KNN): •  SVM •  PageRank •  Máxima Entropia (ME) •  AdaBoost

25

Page 26: Uma Análise Comparativa de Técnicas de Aprendizagem Supervisionada aplicadas a Mineração de Opinião

Considerações

•  Apenas um protótipo inicial •  Analisar novos modelos de representação textual •  Incluir técnicas mais eficientes para a etapa de extração de

atributos relevantes, e medir o impacto dessas técnicas na precisão dos classificadores;

•  Realizar novos experimentos utilizando outros algoritmos de Aprendizagem Supervisionada

•  Problema de pesquisa relevante – Porque realizar Uma Análise Comparativa de Técnicas

de Aprendizagem Supervisionada aplicadas a Mineração de Opinião?

26

Page 27: Uma Análise Comparativa de Técnicas de Aprendizagem Supervisionada aplicadas a Mineração de Opinião

Resultados Esperados

•  Elencar para as diversas variações de modelos textuais e técnicas para seleção de características, quais Class i f icadores de aprendizagem supervisionada apresentam melhores resultados para as métricas de avaliações definidas

27

Page 28: Uma Análise Comparativa de Técnicas de Aprendizagem Supervisionada aplicadas a Mineração de Opinião

Referências FREEMAN, 1979] FREEMAN, Linton C.. Centrality in social networks: Conceptual clarification. Social Networks, 1:215-239, 1979. [HANNEMAN; RIDDLE, 2005] HANNEMAN, Robert A.; RIDDLE, Mark. Introduction to social network methods. University of California, Riverside, CA, 2005. [PAGERANK, 2007] Google PageRank: What Do We Know About It?. 2007. Disponível em: <http://www.smashingmagazine.com/2007/06/05/google-pagerank-what-do-we-really-know-about-it/>. Acesso em: 21 nov. 2011. [KLEINBERG, 1999] KLEINBERG, Jon M. Authoritative sources in a hyperlinked environment. J. ACM, 46:604-632, September 1999. B. Pang, L. Lee and S. Vaithyanathan, Thumbs up? Sentiment classification using machine learning techniques, In Proc. of the EMNLP, 2002 FREITAS, C. M. D. S.; NEDEL, L. P.; GALANTE, R.; et al. Extração de Conhecimento e Análise Visual de Redes Sociais. In: XXVIII CONGRESSO DO SBC, 2008, Bélem do Pará, PA, Brasil. Anais... 2008. p. 106-120. 28

Page 29: Uma Análise Comparativa de Técnicas de Aprendizagem Supervisionada aplicadas a Mineração de Opinião

Referências [NIELSEN, 2009] NIELSEN, Global faces and networked places, A Nielsen Report on Social Networkings:New Global Footprint Nielson Online. Março, 2009. [CARRILHO JUNIOR, 2007] João Ribeiro. Desenvolvimento de uma Metodologia para Mineração de Textos. 2007. 96 f. Dissertação (Mestrado) - Pontifícia Universidade Católica do Rio de Janeiro, Rio de Janeiro, 2007. [LIU, 2010] LIU, Bing. Sentiment Analysis and Subjectivity. In. Handbook of Natural Language Processing. Segunda Edição. 2010. [ABBASI, 2008] ABBASI, Ahmed, et. al. Sentiment Analysis in Multiple Languages: Feature Selection for Opinion Classification in Web Forums. ACM Transactions on Information Systems, Vol. 26, No. 3, Artigo 12. 2008. [oguri, 2006] Aprendizado de Máquina para o Problema de Sentiment Classification. 2006. 54 f. Dissertação (Mestrado) - Pontifícia Universidade Católica do Rio de Janeiro, Rio de Janeiro, 2006.

29

Page 30: Uma Análise Comparativa de Técnicas de Aprendizagem Supervisionada aplicadas a Mineração de Opinião

Uma Análise Comparativa de Técnicas de Aprendizagem Supervisionada aplicadas a

Mineração de Opinião

João Emanoel [email protected]

Orientadores: Silvio Meira e Vinicius Garcia

Recife-PE 17/03/2012