SBBD 2006 Extração de dados e metadados em textos semi-estruturados usando HMMs Universidade...

Preview:

Citation preview

SBBD 2006SBBD 2006

Extração de dados e metadadosem textos semi-estruturados

usando HMMs

Universidade Federal do AmazonasUniversidade Federal do AmazonasDepartamento de Ciência da ComputaçãoDepartamento de Ciência da Computação

Roberto Oliveira dos SantosFilipe de Sá Mesquita

Altigran Soares da SilvaEli Cortez

{ros, fsm, alti, eccv}@dcc.ufam.edu.br

SBBD 2006SBBD 2006 22

• Introdução

• Trabalhos relacionados

• Extração em textos semi-estruturados usando HMM

• Extração de dados e metadados

• Experimentos

• Conclusões e trabalhos futuros

Roteiro

SBBD 2006SBBD 2006 33

Introdução

• A Web pode ser considerada como sendo um grande repositório de dados

• Produzidos para consumo humano• Difícil de realizar tarefas como:

– Busca– Consulta– Mineração

• Texto semi-estruturado [Laender, SIGMOD/02]– Escondem uma estrutura implícita– Contém dados dispostos de forma contínua onde não há

delimitadores explícitos

SBBD 2006SBBD 2006 44

Introdução

Notícias

Por Exemplo:

SBBD 2006SBBD 2006 55

Introdução

Anúncios de Imóveis

Por Exemplo:

SBBD 2006SBBD 2006 66

Introdução

Por Exemplo:

Anúncios de Imóveis

SBBD 2006SBBD 2006 77

Introdução

Ano Bom. Av. Major José Bento, ótima casa, c/ varanda, gar., sl., 3 qtos. (ste.), banh. soc., copa, coz.

Ano Bom. Av. Major José Bento, ótima casa, c/ varanda, gar., sl., 3 qtos. (ste.), banh. soc., copa, coz.

SBBD 2006SBBD 2006 88

Introdução

Ano Bom. Av. Major José Bento, ótima casa, c/ varanda, gar., sl., 3 qtos. (ste.), banh. soc., copa, coz.

Ano Bom. Av. Major José Bento, ótima casa, c/ varanda, gar., sl., 3 qtos. (ste.), banh. soc., copa, coz.

BAIRRO ENDEREÇO

QUARTOS

SALA

SBBD 2006SBBD 2006 99

• [Embley, DKE/99]– Escrever ontologias para extração

• Identificar palavras-chaves para extrair o dado relacionado

• As ontologias são escritas manualmente

• [Viola, SIGIR/05]– Gramáticas livres de contexto– Extração em textos semi-estruturados– Treino exaustivo.

Trabalhos relacionados

SBBD 2006SBBD 2006 1010

• DATAMOLD [Borkar, SIGMOD/01]– HMM– Extração em textos semi-estruturados– Todos os termos são Dados;

• Nestes trabalhos, é desconsiderada a necessidade de extração dos metadadosmetadados.

• Muitos textos semi-estruturados disponíveis na Web são ricos em metadados, como é o caso de anúncios de classificados.

Trabalhos relacionados

SBBD 2006SBBD 2006 1111

Objetivo

• Principal ContribuiçãoPrincipal Contribuição

– Uma novanova formulação para o problema de extração em textos semi-estruturados, visando extrair dados e metadadosmetadados em cada atributo.

SBBD 2006SBBD 2006 1212

Importância do metadado

Vendo casa grande com 2 qtos., sl., banheiro, coz. e quintal, por apenas R$ 82.000,00.

Vendo casa grande com 2 qtos., sl., banheiro, coz. e quintal, por apenas R$ 82.000,00.

SBBD 2006SBBD 2006 1313

Importância do metadado

Vendo casa grande com 2 qtos., sl., banheiro, coz. e quintal, por apenas R$ 82.000,00.

Vendo casa grande com 2 qtos., sl., banheiro, coz. e quintal, por apenas R$ 82.000,00.

QUARTOS 2 qtos.

ATRIBUTO VALOR

SBBD 2006SBBD 2006 1414

Importância do metadado

Vendo casa grande com 2 qtos., sl., banheiro, coz. e quintal, por apenas R$ 82.000,00.

Vendo casa grande com 2 qtos., sl., banheiro, coz. e quintal, por apenas R$ 82.000,00.

QUARTOS 2 qtos.

SALA Sim sl.

ATRIBUTO VALOR

SBBD 2006SBBD 2006 1515

Importância do metadado

Vendo casa grande com 2 qtos., sl., banheiro, coz. e quintal, por apenas R$ 82.000,00.

Vendo casa grande com 2 qtos., sl., banheiro, coz. e quintal, por apenas R$ 82.000,00.

QUARTOS 2 qtos.

SALA Sim sl.

... ... ... ...

PREÇO 82.000,00 R$

ATRIBUTO VALOR

SBBD 2006SBBD 2006 1616

Importância do metadado

Vendo casa grande com 2 qtos., sl., banheiro, coz. e quintal, por apenas R$ 82.000,00.

Vendo casa grande com 2 qtos., sl., banheiro, coz. e quintal, por apenas R$ 82.000,00.

QUARTOS 2 qtos.

SALA Sim sl.

... ... ... ...

PREÇO 82.000,00 R$

METADADOATRIBUTO VALOR

SBBD 2006SBBD 2006 1717

Importância do metadado

Vendo casa grande com 2 qtos., sl., banheiro, coz. e quintal, por apenas R$ 82.000,00.

Vendo casa grande com 2 qtos., sl., banheiro, coz. e quintal, por apenas R$ 82.000,00.

QUARTOS 2 qtos.

SALA Sim sl.

... ... ... ...

PREÇO 82.000,00 R$

TIPO casa -

METADADOATRIBUTO VALOR

SBBD 2006SBBD 2006 1818

Conceitos

• Caracterizamos textos semi-estruturados (TS) como um conjunto de Atributos, onde:– TS = {A1, A2,...,An};– Ai = {D, M}– D = {d1, d2,..., dk};– M = {m1, m2, ..., ml}– D ou M podem ser vazios

• D = , assume-se que ele é verdadeiro.

– Aextra: São extraídos mas não fazem parte de nenhum outro atributo (ruídos).

SBBD 2006SBBD 2006 1919

Conceitos

Ano Bom. Av. Major, josé bento, casa grande c/ varanda, gar., sl.,

3 qtos. (ste.), banh. soc., copa, coz.

Ano Bom. Av. Major, josé bento, casa grande c/ varanda, gar., sl.,

3 qtos. (ste.), banh. soc., copa, coz.

SALASALA

Metadado: “sl.”

Dado: vazio

QUARTOSQUARTOS

Metadado: “qtos.”

Dado: “3”

EXTRAEXTRA

Dado: grande c/

SBBD 2006SBBD 2006 2020

Problemas

SBBD 2006SBBD 2006 2121

• Determinar os metadadosmetadados

Ano Bom. Av. Major José bento, ótima casa, c/ varanda, gar., sl., 3 qtos. (ste.), banh. soc., copa, coz.

Ano Bom. Av. Major José bento, ótima casa, c/ varanda, gar., sl., 3 qtos. (ste.), banh. soc., copa, coz.

Problemas

SBBD 2006SBBD 2006 2222

• Determinar os metadadosmetadados

• Associar o(s) dado(s) ao seu metadadometadado relacionado;

Ano Bom. Av. Major José bento, ótima casa, c/ varanda, gar., sl., 3 qtos. (ste.), banh. soc., copa, coz.

Ano Bom. Av. Major José bento, ótima casa, c/ varanda, gar., sl., 3 qtos. (ste.), banh. soc., copa, coz.

Problemas

Ano Bom. Av. Major José bento, ótima casa, c/ varanda, gar., sl., 3 qtos. (ste.), banh. soc., copa, coz.

Ano Bom. Av. Major José bento, ótima casa, c/ varanda, gar., sl., 3 qtos. (ste.), banh. soc., copa, coz.

SBBD 2006SBBD 2006 2323

Problemas

• Determinar os metadadosmetadados

• Associar o(s) dado(s) ao seu metadadometadado relacionado;

• Delimitar quais os termos fazem parte de um atributo;

Ano Bom. Av. Major José bento, ótima casa, c/ varanda, gar., sl., 3 qtos. (ste.), banh. soc., copa, coz.

Ano Bom. Av. Major José bento, ótima casa, c/ varanda, gar., sl., 3 qtos. (ste.), banh. soc., copa, coz.

Ano Bom. Av. Major José bento, ótima casa, c/ varanda, gar., sl., 3 qtos. (ste.), banh. soc., copa, coz.

Ano Bom. Av. Major José bento, ótima casa, c/ varanda, gar., sl., 3 qtos. (ste.), banh. soc., copa, coz.

Ano Bom. Av. Major José bento, ótima casa, c/ varanda, gar., sl., 3 qtos. (ste.), banh. soc., copa, coz.

Ano Bom. Av. Major José bento, ótima casa, c/ varanda, gar., sl., 3 qtos. (ste.), banh. soc., copa, coz.

SBBD 2006SBBD 2006 2424

Extração em textos semi-estruturados usando HMM

• Proposto por Rabiner [Rabiner, IEEE/89]

• Procura determinar eventos não-observáveis/ocultos (ATRIBUTOS) a partir de estados observáveis (SÍMBOLOS)

• Cada estado emite um símbolo

• Sabemos: os símbolos

• Queremos descobrir: a sequência de estados que emitiram os símbolos

SBBD 2006SBBD 2006 2525

• Um HMM é um autômato finito determinístico– Vértices: ESTADOS (Ex: SALA, QUARTO, VALOR,

etc.)– Arestas: PROBABILIDADE DE TRANSIÇÃO– Um símbolo é consumido/emitido em cada estado

• Símbolos– Termos como: “qto.”, “sl.”, “coz.”, “2”, “R$”, etc.

Extração em textos semi-estruturados usando HMM

SBBD 2006SBBD 2006 2626

• Probabilidades de emissão:– Probabilidade do estado E emitir símbolos S: E (S)

• Probabilidade de transição– Probabilidade de um estado ocorrer após outro– QUARTO COZINHA = 43%

Extração em textos semi-estruturados usando HMM

SBBD 2006SBBD 2006 2727

• Alg. ViterbiAlg. Viterbi

• O algoritmo de Viterbi:– Baseado em programação dinâmica– Encontra a sequência mais provável a um

custo O(xN2)• x é a quantidade de SÍMBOLOS de entrada• N é o número de ESTADOS conhecidos

Extração em textos semi-estruturados usando HMM

SBBD 2006SBBD 2006 2828

HMM em dois níveis para extração de dados e metadados

SBBD 2006SBBD 2006 2929

HMM em dois níveis para extração de dados e metadados

HMM ExternoHMM ExternoHMM ExternoHMM ExternoESTADOS → Atributos

SBBD 2006SBBD 2006 3030

HMM em dois níveis para extração de dados e metadados

N

HMM ExternoHMM ExternoHMM ExternoHMM Externo

HMM InternoHMM InternoHMM InternoHMM Interno

ESTADOS → Atributos

ESTADOS → Dados e Metadados

SBBD 2006SBBD 2006 3131

HMM em dois níveis para extração de dados e metadados

• Alterações no HMM clássico– Suavização: Função para gerar a probabilidade de

emissão de símbolos no 2º nível (HMM interno)– Viterbi Externo

• Detectar a seq. de atributos mais prováveis

– Viterbi Interno• Detectar os dados e metadados mais prováveis para um

conjunto de termos observáveis

– Queremos descobrir: a seqüência de estados que emitiram os símbolos(termos) e qual a característica de cada termo.

• Dados e Metadados dos atributos

SBBD 2006SBBD 2006 3232

Vendo casa grande c/ 2 qtos., sl., banh., coz., por apenas R$ 82.000,00.Vendo casa grande c/ 2 qtos., sl., banh., coz., por apenas R$ 82.000,00.

HMM em dois níveis para extração de dados e metadados

• TreinamentoTreinamento

SBBD 2006SBBD 2006 3333

• TreinamentoTreinamento

Vendo casa grande c/ 2 qtos., sl., banh., coz., por apenas R$ 82.000,00.Vendo casa grande c/ 2 qtos., sl., banh., coz., por apenas R$ 82.000,00.

[ATRIBUTO (HMM Externo) = <(D,M): ... , (M,D): ...> (HMM Interno)];

HMM em dois níveis para extração de dados e metadados

SBBD 2006SBBD 2006 3434

• TreinamentoTreinamento

Vendo casa grande c/ 2 qtos., sl., banh., coz., por apenas R$ 82.000,00.Vendo casa grande c/ 2 qtos., sl., banh., coz., por apenas R$ 82.000,00.

[EXTRA=<D: Vendo >];[TIPO=<D: casa >];[EXTRA=<D: c/ >];[QUARTOS=<D: 2, M: qtos. >];[SALA=<M: sl. >];[BANHEIRO=<M: banheiro >];[COZINHA=<M: coz. >];[EXTRA=<D: por apenas >];[PREÇO=<M: R$, D: 82.000,00. >];

HMM em dois níveis para extração de dados e metadados

[ATRIBUTO (HMM Externo) = <(D,M): ... , (M,D): ...> (HMM Interno)];

SBBD 2006SBBD 2006 3535

ExperimentosExperimentos

SBBD 2006SBBD 2006 3636

• Sites de anúncios para testes

• 120 exemplos de cada Web site– 20 para treinamento; (Rotulados manualmente)– 100 para testes (cada site);

Experimentos

SBBD 2006SBBD 2006 3737

• Objetivo– Verificar a eficácia do processo de extração em

três granularidades de problemas:• 1. Dados e Metadados• 2. Atributos• 3. Anúncios extraídos corretamente como um todo

Experimentos

SBBD 2006SBBD 2006 3838

Experimentos 1

Percentual de precisão nos acertos na extração dos dados, metadados e termos o atributo extra.

Vendo Casa, sl., 2 qtos. e cozinha.Vendo Casa, sl., 2 qtos. e cozinha.

SBBD 2006SBBD 2006 3939

Vendo Casa, sl., 2 qtos. e cozinha.Vendo Casa, sl., 2 qtos. e cozinha.MMM

Experimentos 1

Percentual de precisão nos acertos na extração dos dados, metadados e termos o atributo extra.

SBBD 2006SBBD 2006 4040

Vendo Casa, sl., 2 qtos. e cozinha.Vendo Casa, sl., 2 qtos. e cozinha.MMM DD

Experimentos 1

Percentual de precisão nos acertos na extração dos dados, metadados e termos o atributo extra.

SBBD 2006SBBD 2006 4141

Vendo Casa, sl., 2 qtos. e cozinha.Vendo Casa, sl., 2 qtos. e cozinha.X MMM DDX

Experimentos 1

Percentual de precisão nos acertos na extração dos dados, metadados e termos o atributo extra.

SBBD 2006SBBD 2006 4242

Tipo

Vendo Casa, sl., 2 qtos. e cozinha.Vendo Casa, sl., 2 qtos. e cozinha.X MMM DDX

Experimentos 1

Percentual de precisão nos acertos na extração dos dados, metadados e termos o atributo extra.

SBBD 2006SBBD 2006 4343

Tipo

Vendo Casa, sl., 2 qtos. e cozinha.Vendo Casa, sl., 2 qtos. e cozinha.X MMM DDX

Experimentos 1

Percentual de precisão nos acertos na extração dos dados, metadados e termos o atributo extra.

SBBD 2006SBBD 2006 4444

Vendo Casa, sl., 2 qtos. e coz.Vendo Casa, sl., 2 qtos. e coz.

Experimentos 2

Médias por site da medida-F para delimitaçãodelimitação dos atributos.

SBBD 2006SBBD 2006 4545

[EXTRA: Vendo]

[TIPO: Casa]

[SALA: sl.]

[QUARTO: 2 qtos.]

[EXTRA: e]

[COZINHA: coz.]

Vendo Casa, sl., 2 qtos. e coz.Vendo Casa, sl., 2 qtos. e coz.

Experimentos 2

Médias por site da medida-F para delimitaçãodelimitação dos atributos.

SBBD 2006SBBD 2006 4646

Vendo Casa, sl., 2 qtos. e coz.Vendo Casa, sl., 2 qtos. e coz.

AtributosAtributos

Experimentos 2

[EXTRA: Vendo]

[TIPO: Casa]

[SALA: sl.]

[QUARTO: 2 qtos.]

[EXTRA: e]

[COZINHA: coz.]

Médias por site da medida-F para delimitaçãodelimitação dos atributos.

SBBD 2006SBBD 2006 4747

Vendo Casa, sl., 2 qtos. e coz.Vendo Casa, sl., 2 qtos. e coz.

AtributosAtributos

Experimentos 2

[EXTRA: Vendo]

[TIPO: Casa]

[SALA: sl.]

[QUARTO: 2 qtos.]

[EXTRA: e]

[COZINHA: coz.]

Médias por site da medida-F para delimitaçãodelimitação dos atributos.

SBBD 2006SBBD 2006 4848

Experimentos 3

Corretude na extração dos anúncios

SBBD 2006SBBD 2006 4949

Experimentos 3

Corretude na extração dos anúncios

Anúncios que foram extraídos corretamente

SBBD 2006SBBD 2006 5050

Corretude na extração dos anúncios

Experimentos 3

Atributos que existiam no anúncio e foram extraídos corretamente pelo método

SBBD 2006SBBD 2006 5151

• Neste artigo apresentamos:– Nova formulação para extração em texto semi-

estruturado, a qual considera a importância dos metadados.

– Nova abordagem que utiliza uma estrutura aninhada de HMM:

• Um HMM externo identifica os atributos implícitos ocorrendo no texto

• Vários HMMs internos identificam os dados e metadados de cada atributo individualmente.

Conclusões

SBBD 2006SBBD 2006 5252

• Experimentos sobre 7 conjuntos de anúncios de classificados de imóveis coletados da Web mostram:– Precisão média 97% na identificação de dados e

metadados.– A qualidade da extração de atributos superior a 0,97

(medida-F).– Eficácia da extração de anúncios 0,98 (medida-F).

• Resultados foram obtidos usando 20% dos anúncios no treinamento.– Este percentual é consideravelmente menor do que os

utilizados na literatura.– Isso pode ser explicado em parte pela ênfase que é

dada à identificação de metadados.

Conclusões

SBBD 2006SBBD 2006 5353

• Testar o método em outros domínios

• Aumentar a precisão na detecção dos metadados

• Propor uma maneira de reduzir, ainda mais, o esforço do usuário no momento do treinamento

• Construir aplicações reais utilizando o método proposto.

Trabalhos futuros

SBBD 2006SBBD 2006

• Projetos:– Tamanduá (MCT/FINEP/CT-INFO-Grade-01/2004)– Gerindo (MCT/CNPq/CT-INFO 552.087/02-5)– SIRIAA (CNPq/ CT-Amazônia 55.3126/2005-9).

• CAPES

Agradecimentos

UOL (www.uol.com.br), através do Programa UOL Bolsa Pesquisa.UOL Bolsa Pesquisa.

SBBD 2006SBBD 2006 5555

Referências

• [Embley, DKE/99] David W. Embley et. Al. Conceptual-model-based data extraction from multiplerecord web pages. Data & Knowledge Engineering, 31(3):227–251.

• [Borkar, SIGMOD/01] Vinayak R. Borkar, Kaustubh Deshmukh and Sunita Sarawagi. Automatic Segmentation of Text into Structured Records. SIGMOD Conference, 2001.

• [Laender, SIGMOD/02] Laender, A. H. F. et al. (2002). A brief survey of web data extraction tools. SIGMOD Record, 31(2):84–93.

• [RAPIER, CIAAI/99] Califf, M. E., and Mooney, R.J. Relational Learning of Pattern-Match Rules for Information Extraction. In Proceedings of the Sixteenth National Conference on Artificial Inteligence and Eleventh Conference on Innovative Application of Artificial Inteligence (Orlando, Florida, 1999), pp. 328-334.

• [Rabiner, IEEE/89] Rabiner, L. R. (1989). A tutorial on hidden markov models and selected applications in speech recongnition. Proceedings of the IEEE, 77(2):257–286.

SBBD 2006SBBD 2006 5656

Medida-F

Fi = 2(Ri Pi) / (Ri + Pi)

Ri = (Si Ti) / Si

Pi = (Si Ti) / Ti

Si = Termos que pertencem ao atributo

Ti = Termos identificados corretamente como dados ou metadados

SBBD 2006SBBD 2006 5757

• EMBLEY– Foi um journal, com resultados de vários outros trabalhos

• Outros exemplos de metadados (MCT)• Diferenca em relacao ao VIOLA

– Ele não usa HMM– Treino é muito exaustivo

• Diferenca em relacao ao BORKAR– Não considera metadados– Ele é aplicado em bases onde todos os termos são importantes e

devem ser extraídos(ref. Bib e enderecos)

• Os textos de anúncios são extraídos através de um processo existente como alguns apresentados na literatura.

Recommended