Upload
eduardo-s-pereira
View
29
Download
0
Embed Size (px)
Citation preview
Dr. Eduardo S. Pereira
Analise de Sentimentos em Processamento de Linguagem
Natural
Entrega de API de Análise de sentimentos de Linguagem Natural que leva em conta contexto e
relativismo.
Dr. Eduardo S. Pereira
Dr. Eduardo S. Pereira
Visão Geral● Definições:
– Qualquer texto selecionado para analise poderá ser classificado como: positivo, negativo ou neutro.
– Textos Positivos/Negativos: São aqueles cujo conteúdo impactem favorável/desfavoravelmente no objeto de estudo (pessoa física, jurídica)
– Numa analise contextual, a menor unidade para classificar os sentimentos serão as sentenças, isto é frases separadas por ponto.
Dr. Eduardo S. Pereira
Problemas
● Logicamente, um texto qualquer poderia variar no intervalo negativo a positivo ao longo de seu conteúdo, devido à contextualização, explanação, redação, etc.
● Nesse contexto, o sentimento final associado a um texto deve levar em conta essa distribuição para sua analise.
● Além disso, a presença de certo grupo de palavras neutras no texto poderá mudar a intonação final.
Dr. Eduardo S. Pereira
Objetivo
O objetivo da API é fornecer uma solução que não só inclua análise individual das sentenças como também o contexto.
– Isto poderia ser definido por um grupo de palavras supervisionadas para a classificação.
– Assim como, incluindo a distribuição relativa na analise dos sentimentos
Dr. Eduardo S. Pereira
API
● Levando em conta o que foi dito anteriormente, um texto não será absolutamente positivo ou negativo, mas será classificado de forma relativa.
● Assim, ao se analisar tal resposta propõe-se utilizar lógica difusa para realizar comparações entre textos, levando em conta também um possível relativismo cultural.
Dr. Eduardo S. Pereira
API
● Levando em conta a lógica difusa, a API retornará como sentimento para um texto, valores entre zero (0) e um (1).
● Sendo que:– 0.0: Texto completamente negativo;
– 0.5 : Texto completamente neutro;
– 1.0: Texto completamente positivo;
● Além disso, a API retornará o conjunto de palavras principais e sua ocorrência relativa no texto, permitindo assim uma melhor análise e classificação do contexto.
Dr. Eduardo S. Pereira
API
● Também, a API proposta permite fazer uma comparação analítica relativa entre vários textos, possibilitando ainda obter um melhor contexto entre eles.
● A seguir é apresentado um texto que foi analisado pela API.
Dr. Eduardo S. Pereira
● Texto analisado como Exemplo:– “O ministro da Justiça, Alexandre de Moraes, afirmou nesta terça-feira (24), que a força-tarefa
especial de agentes penitenciários criada pelo governo começará sua atuação pelo Rio Grande do Norte, a partir desta quarta (25). Segundo o ministro, será enviada parte dos cem homens que compõem a FTIP (Força-tarefa de Intervenção Penitenciária) à penitenciária de Alcaçuz, que enfrenta uma rebelião de presos há 11 dias. Eles têm permanência autorizada pelo governo federal de 30 dias, com possibilidade de renovação. O grupo faz parte da Força Nacional e terá, afirmou, treinamento específico para atuar em situações de emergência em presídios. Foram cedidos dez agentes penitenciários do Rio de Janeiro, São Paulo, Ceará e Distrito Federal, além de 30 homens do Depen (Departamento Penitenciário Nacional). Devem ser cedidos cem agentes no total, afirmou o ministro. A portaria que criou a força-tarefa será publicada nesta quarta no "Diário Oficial" da União. De acordo com Moraes, o grupo deve auxiliar a "reconquistar e manter a normalidade em Alcaçuz, para que as obras [no presídio] sejam feitas para que o Estado retome e esse grupo possa sair". A forma de atuação da força-tarefa deve ser decidida na quarta, em reunião com autoridades do Estado. Uma força-tarefa nos mesmos moldes já funcionou uma vez, no ano passado, em unidades prisionais do Ceará. A crise no presídio de Alcaçuz teve início no último dia 14, quando 26 presos foram mortos em decorrência de um confronto entre membros do PCC (Primeiro Comando da Capital) e do Sindicato do Crime do RN. Outros confronto aconteceram entre as duas facções, mas ainda não foram divulgados números oficiais de mortos e feridos após os tumultos. A polícia voltou a entrar na unidade nesta terça (24) para buscar armas e munições. O ministro afirmou ainda que não será enviada ajuda federal para Bauru (SP), onde uma rebelião terminou com mais de 150 fugitivos. "A situação já está controlada", afirmou. Com a fuga, escolas, parte do comércio e órgãos públicos fecharam no fim da manhã. De acordo com a SAP (Secretaria de Administração Penitenciária), até as 16h30, 90 presos haviam sido recapturados. Moraes, que participava da abertura da Semana Nacional de Combate ao Trabalho Escravo, não quis comentar sobre sua possível indicação para a vaga de Teori Zavascki, morto na quinta (19), no Supremo Tribunal Federal, que vem perdendo força.”
Dr. Eduardo S. Pereira
Resultado
● Sentimento: – Dando peso maior a ocorrência e variações da palavra
“Morte”: 0,37
– Analisando apenas texto, sem essa contextualização: 0,43.
● Principais palavras encontradas: não, confronto, mortos, força, será, 24, tarefa, moraes, atuação, penitenciária, cem , alcaçuz, presídio, nesta, rebelião, quarta, terça, homens, enviada, cedidos, 30, penitenciários, presos, agentes, ceará.
Tendencias: negativa < 0,45; 0,45 < neutra > 0,55; positiva > 0,55
Dr. Eduardo S. Pereira
Conclusões
● Podemos notar que o texto anterior possui uma carga grande de textos neutros, pois sem a análise de palavra de contexto, o sentimento fica acima de 0,4 (0,43), tendendo a ser um texto neutro. Isso indica que o texto tem muito conteúdo que serve mais para contextualizar o leitor, porém ainda é um texto negativo;
● Ao se levar em conta a ocorrência e variações da palavra negativa “morte”, vemos que o texto tem um peso negativo maior, pois o valor do sentimento ficou abaixo de 0,4 (0,37).
● Ou seja, a contextualização fornece uma maior negatividade ao texto do que a análise pura do texto.
Dr. Eduardo S. Pereira
Questões a serem resolvidas
● Ao fazer a análise de ocorrencia de palavras, observa-se ainda a presença de Stop Words como a palavra não. Logo ainda falta calibrar esse ponto.
● Usando matriz de confusão e fazendo comparações com subamostras de dados, o classificador absoluto, por frases, tem resultado maior que 90%. Contudo, não está claro ainda se esse resultado é universal, ou, si é válido apenas para o perfil de textos que foram usados para calibrar o sistema (Corpus jornalístico da Folha).