27
Descoberta de conhecimento em textos - Análise semântica Diogo Cardoso Eduardo Camilo Inácio Eduardo Monteiro Dellandréa Guilherme Gomes

Análise semântica Descoberta de conhecimento em textosalvares/INE5644/KDT-Apresentacao.pdf · Ferramentas de mineração de conhecimento em textos Intext Mining - Text Mining Suite

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Análise semântica Descoberta de conhecimento em textosalvares/INE5644/KDT-Apresentacao.pdf · Ferramentas de mineração de conhecimento em textos Intext Mining - Text Mining Suite

Descoberta de conhecimento em textos - Análise semântica

● Diogo Cardoso● Eduardo Camilo Inácio● Eduardo Monteiro Dellandréa● Guilherme Gomes

Page 2: Análise semântica Descoberta de conhecimento em textosalvares/INE5644/KDT-Apresentacao.pdf · Ferramentas de mineração de conhecimento em textos Intext Mining - Text Mining Suite

Introdução

● Diversidade de textos não padronizados;

● Emails, artigos, documentos digitalizados poderiam ser

perdidos na ausência de uma análise criteriosa;

● Expor as técnicas de KDT.

Page 3: Análise semântica Descoberta de conhecimento em textosalvares/INE5644/KDT-Apresentacao.pdf · Ferramentas de mineração de conhecimento em textos Intext Mining - Text Mining Suite

Visão Geral KDT

● Descoberta de Conhecimento em Textos;

● KDT (Knowledge Discovered in Texts);

● Feldman e Dagan em 1995;

● Evolução da técnica de recuperação de informações;

● Mecanismo de busca X Mineração de texto;

● Extrair dados, encontrar padrões.

Page 4: Análise semântica Descoberta de conhecimento em textosalvares/INE5644/KDT-Apresentacao.pdf · Ferramentas de mineração de conhecimento em textos Intext Mining - Text Mining Suite

Etapas do Processo de Descoberta.

1 - Definição de objetivos.

2 - Seleção dos dados.

3 - Limpeza dos dados.

4 - Redução ou projeção dos dados.

5 - Escolha da técnica, método ou tarefa de mineração.

6 - Mineração.

Page 5: Análise semântica Descoberta de conhecimento em textosalvares/INE5644/KDT-Apresentacao.pdf · Ferramentas de mineração de conhecimento em textos Intext Mining - Text Mining Suite

Etapas do Processo de Descoberta. (cont.)

7 - Interpretação dos resultados.

8 - Consolidação do conhecimento descoberto.

Page 6: Análise semântica Descoberta de conhecimento em textosalvares/INE5644/KDT-Apresentacao.pdf · Ferramentas de mineração de conhecimento em textos Intext Mining - Text Mining Suite

Técnicas de KDT

● Desafio

○ Processamento de Linguagens Naturais

● Abordagens de Aprendizado

○ Supervisionado

○ Não Supervisionado

Page 7: Análise semântica Descoberta de conhecimento em textosalvares/INE5644/KDT-Apresentacao.pdf · Ferramentas de mineração de conhecimento em textos Intext Mining - Text Mining Suite

Técnicas de KDT (cont.)● Extração de Informação

● Rastreamento de Tópicos (Topic Tracking)

● Sumarização

● Categorização ou Classificação

● Agrupamento (Clustering)

● Acoplamento de Conceitos (Concept Linkage)

● Visualização de Informação

● Respondendo a Perguntas (Question Answering)

● Associação

Page 8: Análise semântica Descoberta de conhecimento em textosalvares/INE5644/KDT-Apresentacao.pdf · Ferramentas de mineração de conhecimento em textos Intext Mining - Text Mining Suite

Extração de Informação

● Produzir uma saída estruturada a partir de documentos de texto não estruturados

● Baseado na identificação de frases-chave a partir de

sequências pré-definidas

● Normalmente associado a uma etapa de pré-processamento de dados

Page 9: Análise semântica Descoberta de conhecimento em textosalvares/INE5644/KDT-Apresentacao.pdf · Ferramentas de mineração de conhecimento em textos Intext Mining - Text Mining Suite

Topic Tracking● Encontrar documentos relacionados com

determinados tópicos● Aplicações que buscam documentos baseados no

perfil dos usuários (Yahoo! Alerts)

● Baseado em identificação de palavras-chave nos

textos e comparação com tópicos desejados

● Maior parte dos métodos de identificação de palavras-

chave utilizam a quantidade de aparições dos termos

no texto como métrica

Page 10: Análise semântica Descoberta de conhecimento em textosalvares/INE5644/KDT-Apresentacao.pdf · Ferramentas de mineração de conhecimento em textos Intext Mining - Text Mining Suite

Sumarização

● Criar um resumo ou sumário de um documento automaticamente

● Busca por palavras ou frases com grande

importância no texto

● Redução do conteúdo sem perda de significado geral● Especialmente interessante para documentos muito

extensos

Page 11: Análise semântica Descoberta de conhecimento em textosalvares/INE5644/KDT-Apresentacao.pdf · Ferramentas de mineração de conhecimento em textos Intext Mining - Text Mining Suite

Categorização

● Determinar a classe ou categoria a qual pertence um documento

● Bastante similar a técnica utilizada em Data Mining● Capacidade de reconhecimento associada ao conjunto

de testes● Utilizada para indexação de documentos

Page 12: Análise semântica Descoberta de conhecimento em textosalvares/INE5644/KDT-Apresentacao.pdf · Ferramentas de mineração de conhecimento em textos Intext Mining - Text Mining Suite

Clustering

● Documentos agrupados de acordo com suas semelhanças e co-relacionamentos

● Bastante similar a técnica utilizada em Data Mining● Necessita de avaliação de um especialista do domínio

● Performance melhorada quando considera a

semântica do texto

Page 13: Análise semântica Descoberta de conhecimento em textosalvares/INE5644/KDT-Apresentacao.pdf · Ferramentas de mineração de conhecimento em textos Intext Mining - Text Mining Suite

Concept Linkage● Identificação de conexões entre documentos● Baseado na identificação de conceitos

compartilhados entre os documentos

● Exemplo:

Documento 1 relaciona os tópicos X com Y

Documento 2 relaciona os tópicos Y com Z

Concept Linkage identifica relacionamento entre X e Z

Page 14: Análise semântica Descoberta de conhecimento em textosalvares/INE5644/KDT-Apresentacao.pdf · Ferramentas de mineração de conhecimento em textos Intext Mining - Text Mining Suite

Visualização de Informação● Apresentação de fontes textuais em uma hierarquia

ou mapa● Implementações oferecem recursos de navegação e

busca● Preparação dos dados, análise e extração dos dados,

construção da apresentação● Utiliza outras técnicas nas etapas de preparação,

análise e extração dos dados

Page 15: Análise semântica Descoberta de conhecimento em textosalvares/INE5644/KDT-Apresentacao.pdf · Ferramentas de mineração de conhecimento em textos Intext Mining - Text Mining Suite

Question Answering

● Capacidade de responder perguntas feitas em linguagem natural

● Utiliza outras técnicas para determinar o assunto da questão

● Solução para interfaces de entrada de sistemas especialistas

Page 16: Análise semântica Descoberta de conhecimento em textosalvares/INE5644/KDT-Apresentacao.pdf · Ferramentas de mineração de conhecimento em textos Intext Mining - Text Mining Suite

Associação● Encontrar regras de associação entre tópicos ou

conceitos em um conjunto de documentos● Determinações do tipo:

Se um conceito X existe no documento, então um

conceito Y também existe.

● Bastante similar a técnica utilizada em Data Mining

Page 17: Análise semântica Descoberta de conhecimento em textosalvares/INE5644/KDT-Apresentacao.pdf · Ferramentas de mineração de conhecimento em textos Intext Mining - Text Mining Suite

Ferramentas de mineração de conhecimento em textos

SAS Text Miner

● Empresa líder de mercado em soluções de inteligência analítica.

● Permite análises avançadas, tornando possível compreender as tendências futuras e atuar em novas oportunidades, mais precisamente e com menos risco.

● Inclui recursos avançados de linguística da solução de mineração de dados núcleo da SAS ® Enterprise Miner.

Page 18: Análise semântica Descoberta de conhecimento em textosalvares/INE5644/KDT-Apresentacao.pdf · Ferramentas de mineração de conhecimento em textos Intext Mining - Text Mining Suite

Ferramentas de mineração de conhecimento em textos

SAS Text Miner

Page 19: Análise semântica Descoberta de conhecimento em textosalvares/INE5644/KDT-Apresentacao.pdf · Ferramentas de mineração de conhecimento em textos Intext Mining - Text Mining Suite

Ferramentas de mineração de conhecimento em textos

Intext Mining - Text Mining Suite

● Classificação: para identificação de assuntos, temas;● Clustering de textos: separação automática de textos

em grupos sem a necessidade prévia de determinação do número de grupos;

● Recuperação de textos por similaridade: a partir de um texto de entrada a ferramenta retorna uma lista de textos similares ordenado por nível de similaridade;

● Possui um módulo Wizard. Basta responder a algumas perguntas do assistente para receber o resultado da análise.

Page 20: Análise semântica Descoberta de conhecimento em textosalvares/INE5644/KDT-Apresentacao.pdf · Ferramentas de mineração de conhecimento em textos Intext Mining - Text Mining Suite

Ferramentas de mineração de conhecimento em textos

Intext Mining - Text Mining Suite

Page 21: Análise semântica Descoberta de conhecimento em textosalvares/INE5644/KDT-Apresentacao.pdf · Ferramentas de mineração de conhecimento em textos Intext Mining - Text Mining Suite

Ferramentas de mineração de conhecimento em textos

IBM TAKMI – Text Mining System

● Uma das várias ferramentas de Data Mining e BI, que trabalham com Text Mining da IBM;

● Destaca-se pela especialização em mineração de texto para a análise de logs de call centers, mas pode ser aplicável a qualquer tipo de dados de texto grandes em geral;

● Há também uma versão especializada para a análise de publicações médicas chamada de MedTAKMI.

Page 22: Análise semântica Descoberta de conhecimento em textosalvares/INE5644/KDT-Apresentacao.pdf · Ferramentas de mineração de conhecimento em textos Intext Mining - Text Mining Suite

Ferramentas de mineração de conhecimento em textos

NetOwl TextMiner

Permite encontrar, organizar, analisar e extrair um grande volume de informações não estruturadas.

● Pesquisa semântica avançada;● Integrado Análise Geoespacial;● Link de Análise Integrada;● Análise biográfica;● Reduz o tempo de análise e decisão;● Revela riscos e oportunidades;● Melhora o serviço ao cliente;● Aumenta a introspecção de negócio e tendências.

Page 23: Análise semântica Descoberta de conhecimento em textosalvares/INE5644/KDT-Apresentacao.pdf · Ferramentas de mineração de conhecimento em textos Intext Mining - Text Mining Suite

Ferramentas de mineração de conhecimento em textos

NetOwl TextMiner

Page 24: Análise semântica Descoberta de conhecimento em textosalvares/INE5644/KDT-Apresentacao.pdf · Ferramentas de mineração de conhecimento em textos Intext Mining - Text Mining Suite

Ferramentas de mineração de conhecimento em textosSobek

● Desenvolvido por alunos de pós-graduação em educação da Universidade Federal do Rio Grande do Sul (UFRGS).

● Procura e registra ocorrências de palavras repetidas ou sinônimas no documento, fazendo relações e criando grafos de interação entre elas, expondo os principais termos/conceitos do texto em mineração.

● Cria um banco de conceitos e possíveis relações associativas para ajudar na procura de palavras-chave, encontrando um maior número de ligações entre os conceitos.

Page 25: Análise semântica Descoberta de conhecimento em textosalvares/INE5644/KDT-Apresentacao.pdf · Ferramentas de mineração de conhecimento em textos Intext Mining - Text Mining Suite

Ferramentas de mineração de conhecimento em textosReferral Web

● Capaz de descobrir quais são as pessoas mais experientes em determinado assunto ou área, além de analisar co-relacionamentos entre pessoas.

● Princípio de que as pessoas mais experientes são aquelas mais citadas ou requisitadas na rede informal.

● Utiliza qualquer rede informal on-line (e-mail, foruns, página WEB, sites de busca) como fonte de informação.

Site de teste para análise de opinião

● School of Computer Science, The University of Manchester, UK ● Somente em Inglês● http://www.nactem.ac.uk/opminpackage/opinion_analysis

Page 26: Análise semântica Descoberta de conhecimento em textosalvares/INE5644/KDT-Apresentacao.pdf · Ferramentas de mineração de conhecimento em textos Intext Mining - Text Mining Suite

Conclusão

Com a grande disponibilidade de textos na internet, uma pesquisa comum não nos fornece todas as informações de uma forma padronizada e estruturada.

De acordo com o que foi exposto neste trabalho, o KDT possui técnicas como topic tracking, sumarização, categorização que nos permite selecionar, de forma inteligente, a informação mais útil e relevante.

Page 27: Análise semântica Descoberta de conhecimento em textosalvares/INE5644/KDT-Apresentacao.pdf · Ferramentas de mineração de conhecimento em textos Intext Mining - Text Mining Suite

ReferênciasGupta, V., & Lehal, G. S. (2009). A Survey of Text Mining Techniques and Applications. Journal of Emerging

Technologies in Web Intelligence, 1(1), 60–76.

Ferramenta SAS Text Miner, disponível em http://www.sas.com/text-analytics/text-miner/index.htmlFerramenta Text Mining Suite, disponível em http://www.intext.com.br/Ferramenta SOBEK, disponível em http://sobek.ufrgs.brFerramenta IBM TAKMI, disponível em http://www.research.ibm.com/trl/projects/textmining/takmi/takmi_e.htmFerramenta NetOwl TextMiner, disponível em http://www.netowl.com/textminer/Ferramenta Referral Web, disponível em http://dl.acm.org/citation.cfm?id=245123