48
Extração da Informação Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana

Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana

Embed Size (px)

Citation preview

Page 1: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana

Extração da Informação

Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana

Page 2: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana

Motivação Processo de extração da informação Abordagens para um sistema de EI Aplicações Conclusão

Roteiro

Page 3: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana

Crescimento desordenado da internet:◦ Em Dez/2012 o site InternetArchive afirmou que a

internet possuia 10PetaBytes◦ Em 2015 estudos prevêm 966ExaBytes

(1,000,000,000,000,000,000bytes)

Oportunidade de extrair informações da rede◦ Problemas

Documentos na maioria das vezes: não-estruturas ou semi-estruturados

Migração de dados entre interfaces distintas: Web-service -> Banco de Dados

Motivação

Page 4: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana

Com Extração de Informações é possível:◦ Gerar resumos de textos

◦ Minerar Dados

◦ Preencher Base de Dados

◦ Sumarizar Textos

Motivação

Page 5: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana

O que é EI?

◦ Encontra informações em documentos não estruturados ou semi-estruturados

◦ Conversão para estruturas de tabelas WebServices Banco de Dados

◦ Exibição dos dados de forma legível

Introdução

Page 6: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana

Introdução

Sistema de

Extração de

Informação

Sistema de

Extração de

Informação

Page 7: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana

Processo de extração de informação

Page 8: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana

História

◦ JASPER (1980s) Sistema para finanças

◦ MUC-Message Understanding Conference [final da década de 80]

◦ Internet/Web [década de 90]

Introdução

Page 9: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana

Recuperação de informação trata documentos relevantes, levando em conta os termos que aparecem no documento

Análise sintática do documento

Recuperação de Informação

Page 10: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana

Busca mais direta nos textos. Pesquisa direcionada em partes específicas

do texto Possui custo computacional mais baixo,

menor esforço

Extração de Informação

Page 11: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana

Extração de informação é uma tarefa na área de Recuperação da Informação

As informações são extraídas baseando-se no prévio conhecimento do documento

Procura encontrar informações e derivar conhecimento de documentos recuperados através da estrutura de sua representação

Extração de Informação

Page 12: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana

Mineração na web

Page 13: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana

Processo de extração de informação

Documento Reconhecimento de entidades

Análise Léxica e Morfológica

Análise Sintática

Análise de relacionamentos e contexto

Análise semântica

InferênciaInformação estruturada e contexto

Extração individual

Integração

Page 14: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana

A Implementação de sistemas de Extração de Informação distinguem-se entre duas abordagens:◦ Engenharia de conhecimento◦ Treinamento automático

As abordagens são diferenciadas pela forma com que as regras são definidas

Sistema de EI

Page 15: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana

Regras são elaboradas manualmente Para isso é necessário que um especialista

em sistemas de Extração de Informação participe efetivamente da criação das regras

Sistemas mais precisos Mais tempo para desenvolvê-lo

Engenharia de conhecimento

Page 16: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana

Algoritmos de Inteligência Artificial para treinar o sistema

Documentos são utilizados no treinamento e na geração das regras

Usuários podem interagir◦ O algoritmo aprende regras com a interação com o

usuário

Tempo menor de desenvolvimento

Menor precisão nos resultados

Treinamento automático

Page 17: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana

Wrappers

Processamento de Linguagem Natural – PLN

Abordagens para um Sistema de EI

Page 18: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana

Módulo que extrai a informação de documentos e a exporta como parte de uma estrutura de dados

Avanço da WEB, necessidade de sistemas mais eficientes com capacidade suficiente para extrair informação dos textos

Wrappers

Page 19: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana

Textos estão◦ Estruturados◦ Semi-estruturados

Utilizam dados sobre a formatação do texto, marcadores, freqüência estatística das palavras

Wrappers

Page 20: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana

Automática◦ Define regras de extração com um corpus de

treinamento com de técnicas de aprendizagem de máquina.

Semi-automática◦ Auxiliado por ferramentas, o usuário especifica a

estrutura e o contexto dos dados a serem extraídos.

Manual◦ Mais demorada e trabalhosa, porém com maior

precisão nos dados extraídos.

Construção de wrappers

Page 21: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana

Textos estão◦ Semi-Estruturados (pouca estrutura)◦ Sem estrutura

PLN trabalha com língua e suas nuances para descobrir dados relevantes a serem extraídos

Processamento de Linguagem Natural - PLN

Page 22: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana

Nível Morfológico Nível Sintático Nível Semântico Nível Discursivo Nível Pragmático

Visão Geral

Page 23: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana

A análise Morfológica determina:

Nível Morfológico

Radical + Sufixo

Classe da Palavra

Conjugação Pessoa

Eat+s Verbo Singular 3ª Pessoa

Dog+s Substantivo Plural ----------

Page 24: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana

A análise sintática faz uso do dicionário gerado pela análise morfológica procurando mostrar relacionamento entre palavras.

As palavras que apresentam apenas um sentido possível podem ser substituídas pela sua representação semântica

Tem como saída a representação da sentença que representa as dependências entre palavras

As sentenças de exemplo apenas diferem na sintaxe e apresentam significados diferentes

Nível Sintático

Page 25: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana

Não é apenas neste nível que o significado é determinado, todos os níveis contribuem para a determinação do significado

O nível semântico determina o possível significado de uma sentença, focando nas interações entre os significados das palavras na sentença

Sem ambiguidade semântica◦ A cabeça une-se ao tronco pelo pescoço◦ Ele é o cabeça da rebelião◦ Sabrina tem boa cabeça

Nível Semântico

Page 26: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana

Analisa textos maiores que sentenças Foca nas propriedades do texto como um

todo, determinando significado através das conexões de sentenças

Resolução de Anáfora: ◦ Substituição de pronomes pelas entidades que

eles referenciam

Reconhecimento de estrutura de texto: ◦ em um revistas temos; artigos de capa, opiniões,

eventos passados, anúncios

Nível Discursivo

Page 27: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana

Foca no significado que vai além do contexto do texto

Requer um conhecimento global Os exemplos seguintes utilizam anáforas

mas as resoluções necessitam de um conhecimento global◦ Os vereadores recusaram receber os

manifestantes, porque eles temiam o confronto◦ Os vereadores recusaram receber os

manifestantes, porque eles defendiam a revolução.

Nível Pragmático

Page 28: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana

Autômatos finitos Casamento de padrões Classificadores de texto Modelos de Markov escondidos (HMM)

Técnicas de Extração

Page 29: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana

Bons para textos estruturados. Definidos manualmente ou aprendidos

automaticamente. Tipos:

◦ Acceptors: com resposta sim ou não◦ Recognizers: um ou mais estados finais

(categorização)◦ Transducers

Autômatos Finitos

Page 30: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana

Textos estruturados, semi-estruturados e livres.

Padrões descritos através de expressões regulares (ER) que “casam” com o texto para extrair as informações.

ER mais intuitivas do que autômatos.

Casamento de Padrões

Page 31: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana

Textos semi-estruturados Documento é dividido em fragmentos,

podendo utilizar várias características deles (tamanho, posição, formatação, presença de palavras)

Realiza classificação local independente para cada fragmento, perdendo informações estruturais importantes do documento

Classificadores de Texto

Page 32: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana

Textos livres e semi-estruturados. Verifica a ocorrência de padrões em

sequência no texto de entrada. Assume-se que a probabilidade de se visitar

um site depende do site que foi visitado anteriormente.

Maximiza a probabilidade de acerto para o conjunto todo de padrões.

Modelos de Markov Escondidos (HMM)

Page 33: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana

Ubibus◦ UbibusAnalysis

TG de vgl2 do Cin UFPE Extrator de Dados Contextuais - responsável por

buscar nas redes sociais informações sobre ocorrências de trânsito no Recife

Aplicações de Extração de Informação

Page 34: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana

Filtragem de Fóruns◦ Controle de Conteúdo◦ Assunto do Dialogo

Monitoramento da WEB◦ Buscar por Hackers◦ Busca por Terroristas

Aplicações de Extração de Informação

Page 35: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana

DEWI◦ É uma ferramenta baseada na Web que permite

aos usuários encontrar e extrair as variáveis de conjuntos de dados selecionados dentro da ciência social, a coleta de dados numéricos “The Stanford University Libraries”.

◦ Ele está disponível para uso pela comunidade de Stanford para investigação e instrução.

◦ O Sistema DEWI foi inspirado no Codebook Eletrônico (BCE) para Windows que foi desenvolvido por Dennis Carroll no Centro Nacional para Estatísticas da Educação (ENC).

Aplicações de Extração de Informação

Page 36: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana

Software aplicado em várias áreas:

A seguir, histórias de sucesso de clientes para extração de dados Web

Aplicações de Extração de Informação

Page 37: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana

Aplicações de Extração de Informação

Page 38: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana

Aplicações de Extração de Informação

Page 39: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana

Aplicações de Extração de Informação

Page 40: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana

Aplicações de Extração de Informação

Page 41: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana

Aplicações de Extração de Informação

Page 42: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana

Aplicações de Extração de Informação

Page 43: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana

Aplicações de Extração de Informação

Page 44: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana

Extrair Informação é preciso WEB é um pandemônio de informações Soluções inteligentes

Conclusões

Page 45: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana

Dúvidas

Page 46: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana

MANFREDINI, V. H.; Proposta de uma Técnica de Extração de Informação de Arquivos de Log de Servidores Proxy

Silva, E. F. A.; Barros, F. A.; Prudencio, R. B. C.; Uma Abordagem de Aprendizagem Híbrida para Extração de Informação em Textos Semi-Estruturados

http://en.wikipedia.org/wiki/Information_extraction

Liddy, E. D. In Encyclopedia of Library and Information Science, 2nd Ed. Marcel Decker, Inc http://www.cnlp.org/publications/03NLP.LIS.Encyclopedia.pdf

Referências

Page 47: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana

Schneider O. M., Rosa, L.J., Processamento de Linguagem Natural (PLN), http://moschneider.tripod.com/pln.pdf

Aranha C., Passos E. A Tecnologia de Mineração de Textos, PUC-RIO

Bulegon H., Moro M. C. C., Text Mining and Natural Language Processing in Discharge Summaries, PPGTS,PUCPR

http://143.54.31.10/reic/edicoes/2003e2/tutoriais/MineracaoNaWeb.pdf

Referências

Page 48: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana

www.cin.ufpe.br/~if796/2006-1/ExtracaoInformacao.ppt

http://sare.unianhanguera.edu.br/index.php/rcext/article/viewFile/413/409

MELO, Taciana. Um Sistema Especialista para Extração e Classificação de Receitas Culinárias em Páginas Eletrônicas. Trabalho de Conclusão de Curso. UFPE, CIn. 2000. - www.cin.ufpe.br/~tg/2000-2/tmlm.doc

Referências