Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha Modificado por Flávia Barros

Extração da Informação

Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha

Modificado por Flávia Barros

Índice

Motivação Introdução Processo de extração da informação Abordagens para um sistema de EI Desafios Conclusão

Motivação

Problema:

Vasta quantidade de documentos textuais na Web Como apresentar ao usuário apenas o que interessa?

Como transmitir os dados entre Web services e bases de dados existentes? Necessário definir templates

Motivação O que se quer?

Respostas relevantes para o usuário Não apenas links para documentos

Gerar resumos/sumários de textos

Minerar dados

Preencher Base de dados e Bases de conhecimento

Introdução

Sistemas de Extração de informação (EI) visam Localizar e extrair,informações relevantes em um

documento ou uma coleção de documentos De forma automática A fim de preencher um template de saída.

Extração de informação

Trata o problema de extração de dados relevantes a partir de uma coleção de documentos.

Os dados a serem extraídos são previamente definidos em um template (formulário)

CriaçãoDos slots

Documentocom tags

Tabelas com campos pré-definidos ou templates

Extração de informação

Sistema de

Extração de

Informação

Sistema de

Extração de

Informação

Exemplo de Sistema de EI

Exemplo de Sistema de EI

RI x EI Recuperação de Informação

Recupera documentos relevantes baseando-se em cálculos estatísticos sobre os termos que ocorrem no documento.

Visualiza o documento apenas como um conjunto de palavras.

Extração de Informação Extrai informações relevantes baseando-se no domínio de

conhecimento do documento Filtra o resultado de uma tarefa de RI graças a restrição do

domínio Busca derivar conhecimento dos documentos recuperados

segundo a estruturada do documento.

Breve História

JASPER (1980s) Sistema para finanças

MUC-Message Understanding Conference [final da década de 80]

Internet/Web [década de 90]

Abordagens para Sistema de EI

Observamos nos sistemas de Extração de Informação a distinção entre duas abordagens: Engenharia de conhecimento Aprendizagem de Máquina

As abordagens são diferenciadas pela forma com que as regras são definidas

Engenharia de conhecimento Construção de regras é feita manualmente. Requer que um especialista em sistemas de

Extração de Informação participe efetivamente da criação das regras.

Construção baseada no conhecimento que o engenheiro possui do cenário e domínio com o qual vai trabalhar.

Precisão nos resultados é maior. O tempo de desenvolvimento é maior Possibilita reuso de regras e extensibilidade

Para lidar com pequenas mudanças no template

Alana Brito – Fernando Rodrigues – Josias Barbosa 05/05/2010

Aprendizagem de Máquina Utiliza algoritmos de Inteligência Artificial

Algoritmos de treinamento automático Para indução de regras de extração

Um corpus de documentos etiquetados é usado para treinamento e vallidação das regras induzidas

Tempo menor de desenvolvimento Boa precisão nos resultados Difícil adaptação a novos domínios/problemas

(reuso) Requer novo processo de treinamento

Tipos de texto e Técnicas para EI A técnica mais adequada para construir o sistema

de EI depende do tipo do texto a ser tratado

Processamento de Linguagem Natural – PLN Textos livres

Wrappers Textos estruturados

com formato predefinido e rígido Textos semi estruturados

permitem a ocorrência de variações na ordem e no formato dos dados

E.g., notícias de classificados de jornal

Processamento de Linguagem Natural – PLN

Utilizado no tratamento de documentos com pouco ou nenhum grau de estruturação

Caracteriza-se pela análise e manipulação ou codificação de informações expressas em língua natural

PLN – Níveis de Análise Nível Morfológico

Estuda a constituição das palavras em seus elementos básicos;

Nível Sintático Determina a relação entre as palavras em uma sentença

(papel) Nível Semântico

Determina o significado e inter-relacionamento semântico das palavras

Nível Discursivo Estuda as relações entre sentenças

Nível Pragmático Estuda o objetivo do uso da língua

Nível Morfológico

A análise Morfológica determina: O radical + sufixo da palavra, e geralmente constrói um dicionário adicionando informações relacionadas como: Classe da palavra Conjugação Pessoa A análise morfológica pode ser implementada através de algorítmos baseados em regras

eats eat + s verbo, singular, 3rd persdog dog nome, singular

Nível Sintático A análise sintática faz uso do dicionário gerado pela

análise morfológica procurando mostrar relacionamento entre palavras.

As palavras que apresentam apenas um sentido possível podem ser substituídas pela sua representação semântica

Tem como saída a representação da sentença que representa as dependências entre palavras

As sentenças de exemplo apenas diferem na sintáxi e apresentam significados diferentes

‘The dog chased the cat.’ ‘The cat chased the dog.’

Nível Semântico

Não é apenas neste nível que o significado é determinado, todos os níveis contribuem para a determinação do significado

O nível semântico determina o possível significado de uma sentença, focando nas interações entre os significados das palavras na sentença

Desambigüidade semântica

A cabeça une-se ao tronco pelo pescoçoEle é o cabeça da rebeliãoSabrina tem boa cabeça

Nível Discursivo

Analisa textos maiores que sentenças Foca nas propriedades do texto como um

todo, determinando significado através das conexões de sentenças

Resolução de Anáfora: Substituição de pronomes pelas entidades que eles referenciam

Reconhecimento de Estrutura de Texto: Em um jornal temos; Artigos de capa, opniões, eventos passados, anúcios

Nível Pragmático

Foca no significado que vai além do contexto do texto

Requer um conhecimento global Os exemplos seguintes utilizam anáforas mas as

resoluções necessitam de um conhecimento global

Os vereadores recusaram receber os manifestantes, porque eles temiam o confrontoOs vereadores recusaram receber os manifestantes, porque eles defendiam a revolução.

Processo de extração de informação

Documento

Analisador sintático/semânti

co

Integração e preenchimento de templates Templates preenchidos

Processador léxico

Analisador do discurso

Reconhecimento de nomes

Padrões de extração

ClusterizaçãoAssociaçãoClassificação

Processo de extração de informaçãoEI

Segmentação

Microsoft CorporationCEOBill GatesMicrosoftGatesMicrosoftBill VeghteMicrosoftVPRichard StallmanfounderFree Software Foundation

Microsoft CorporationCEOBill GatesMicrosoftGatesMicrosoftBill VeghteMicrosoftVPRichard StallmanfounderFree Software Foundation

Cluster A

Cluster B

Cluster C

Problemas com sistemas de PLN

Maior desenvolvimento da WEB nos anos 90... Necessidade de sistemas mais eficientes

Sistemas baseados em PLN são computacionalmente caros

Baixa precisão nos resultados Devido à imprecisão e à flexibilidade das línguas

naturais

Wrappers Extraem informação de documentos

A fim de preencher templates Relembrando...

Textos estruturados com formato predefinido e rígido

Textos semi estruturados permitem a ocorrência de variações na ordem e no

formato dos dados Utilizam dados sobre a formatação do texto,

marcadores, freqüência estatística das palavras, etc.

Wrappers - Técnicas de Extração

Autômatos finitos

Casamento de padrões

Classificadores de texto

Modelos de Markov escondidos (HMM)

Autômatos Finitos

Regras de extração na forma de autômatos finitos

Bons para textos estruturados e semi estruturados

Definidos manualmente ou aprendidos automaticamente.

Definidos por: Estados que “aceitam” os símbolos do texto que

preenchem algum campo do fórmulario de saída Os estados que apenas consomem os símbolos

irrelevantes encontrados no texto Os símbolos que provocam as transições de

estado

Autômatos Finitos

Casamento de Padrões Padrões descritos através de expressões

regulares (ER) que “casam” com o texto para extrair as informações.

ER mais intuitivas do que autômatos.

Exemplo:

Classificadores de Texto Textos semi-estruturados Documento é dividido em fragmentos

podendo utilizar várias características de cada segmento para a classificação tamanho, posição, formatação, presença de palavras

Desvantagem: realiza classificação local independente para cada fragmento, erdendo informações estruturais importantes do

documento

Classificadores de Texto

Classificam fragmentos do documento para determinar que campo do fórmulario eles devem preencher

Classificadores de Texto

Modelos de Markov Escondidos (HMM) Textos livres e semi-estruturados. Verifica a ocorrência de padrões em sequência

no texto de entrada. Maximiza a probabilidade de acerto para o

conjunto todo de padrões.

Modelos de Markov Escondidos (HMM) É um autômato finito probabilístico que

consiste em: Um conjunto de estados ocultos Uma probabilidade de transição entre os

estados ocultos Um conjunto de símbolos emitidos pelos

estados ocultos Uma distribuição de probabilidade de emissão

de cada símbolo que pertence ao conjunto de símbolos para cada estado oculto

Processo de classificação Algoritmo de Viterbi Retorna a sequência de estados ocultos com

maior probabilidade de ter emitido cada sequência de símbolos de entrada.

Modelos de Markov Escondidos (HMM)

Modelos de Markov Escondidos (HMM) Vantagens

Classificação ótima para a sequência de entrada Desvantagens

Não é capaz de fazer uso de múltiplas características de Tokens

por exemplo, formatação, tamanho e posição

Construção de Wrappers

Automática Define regras de extração com um corpus de

treinamento com de técnicas de aprendizagem de máquina.

Semi-automática Auxiliado por ferramentas, o usuário especifica a

estrutura e o contexto dos dados a serem extraídos.

Manual Mais demorada e trabalhosa, porém com maior precisão

nos dados extraídos.

PLN x Wrappers

Desafios

Técnicas de Extração “Dividir pra Conquistar” Linguagem natural Idiomas Métricas de avaliação Classificar stop words Apredizagem de Máquina

Desafios

Ontologias Acesso do Usuário Conteúdo preciso, claro Padrões de Ontologia

Aplicações de EI

Filtragem de Fóruns Controle de Conteúdo Assunto do Dialogo

Monitoramento da WEB Buscar por Hackers Busca por Terroristas

Aplicações de EI Extração de Informações Estratégicas

Inteligência de Negócios Análise de mercado

Análise de Arquivos de LOG Análise de LOGs de erro Análise de LOGs de acesso

Conclusões

Extrair Informação é preciso Web é um pandemônio de informações Precisamos de soluções inteligentes

Dúvidas

Referências MANFREDINI, V. H.; Proposta de uma Técnica de

Extração de Informação de Arquivos de Log de Servidores Proxy

Silva, E. F. A.; Barros, F. A.; Prudencio, R. B. C.; Uma Abordagem de Aprendizagem Híbrida para Extração de Informação em Textos Semi-Estruturados

http://en.wikipedia.org/wiki/Information_extraction

Liddy, E. D. In Encyclopedia of Library and Information Science, 2nd Ed. Marcel Decker, Inc http://www.cnlp.org/publications/03NLP.LIS.Encyclopedia.pdf



http://www.cnlp.org/publications/03NLP.LIS.Encyclopedia.pdf

http://www.cnlp.org/publications/03NLP.LIS.Encyclopedia.pdf

Referências

Schneider O. M., Rosa, L.J., Processamento de Linguagem Natural (PLN), http://moschneider.tripod.com/pln.pdf

Aranha C., Passos E. A Tecnologia de Mineração de Textos, PUC-RIO

Bulegon H., Moro M. C. C., Text Mining and Natural Language Processing in Discharge Summaries, PPGTS,PUCPR

http://143.54.31.10/reic/edicoes/2003e2/tutoriais/MineracaoNaWeb.pdf

http://moschneider.tripod.com/pln.pdf

Referências

www.cin.ufpe.br/~if796/2006-1/ExtracaoInformacao.ppt

http://sare.unianhanguera.edu.br/index.php/rcext/article/viewFile/413/409

MELO, Taciana. Um Sistema Especialista para Extração e Classificação de Receitas Culinárias em Páginas Eletrônicas. Trabalho de Conclusão de Curso. UFPE, CIn. 2000. - www.cin.ufpe.br/~tg/2000-2/tmlm.doc

http://www.cin.ufpe.br/~if796/2006-1/ExtracaoInformacao.ppt

http://www.cin.ufpe.br/~if796/2006-1/ExtracaoInformacao.ppt

http://www.cin.ufpe.br/~tg/2000-2/tmlm.doc

Documents

Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha Modificado por Flávia Barros