38
Extração de Informação Ana Carolina do Amaral Marcílio José A. Gomes Filh Rodrigo C. Mendes Fl!ia "arros

Como extrair informações

  • Upload
    luis

  • View
    216

  • Download
    0

Embed Size (px)

DESCRIPTION

O objetivo é demostrar mais uma forma de compreender as várias maneiras de elaborar uma captura de informações dos diversos meios de comunicação digitais existentes até o momento. Levando-se em conta da constante evolução tecnológica que é incontida.

Citation preview

  • Extrao de InformaoAna Carolina do AmaralMarclio Jos A. Gomes FilhoRodrigo C. MendesFlvia Barros

  • RoteiroIntroduoMotivaoUm pouco de HistriaProcesso de ExtraoConceitosWrappersAplicaesReferncias

  • MotivaoO volume de informao vem aumentado consideravelmente, principalmente com o advento da internet.Como conseguir extrair informao relevante de tantos artefatos digitais?

  • MotivaoO Problema:Documentos em sua maioria no estruturados ou semi-estruturados. (Internet - WEB)Migrao de dados entre interfaces diferentes. (WebServices Banco de Dados)

  • MotivaoO que queremos:responder a consultas de usuriosgerar resumos do texto originalpreencher bancos de dados preencher bases de conhecimentominerao de dadossumarizar textos...

  • Processo de ExtraoTrata o problema da extrao de dados relevantes a partir de uma coleo de documentos [Mus99]Os dados a serem extrados so previamente definidos em um template (formulrio)

  • Um pouco de HistriaMUC-Message Understanding Conference [final da dcada de 80]Uso de tcnicas de PLN (Processamento de Linguagem Natural) Internet/Web [dcada de 90]Desenvolvimento de wrappers

  • ConceitosSistemas baseados em PLNProcessamento de Linguagem Natural.Criados para extrair informao a partir de textos livres (sem estruturao).WrappersCrescimento da Web a partir dos anos 1990.Incapacidade dos sistemas anteriores para extrair informaes de seus textos, motivou a criao de sistemas especficos para esse domnio.

  • ConceitosQuadro Comparativo

  • ConceitosTipos de TextoEstruturado - segue um formato predefinido e rgido.

  • ConceitosTipos de TextoNo estruturado (Livre) - No apresentam nenhuma estrutura regular e as informaes apresentam-se como sentenas livres, escritas em alguma lngua natural.

  • ConceitosTipos de TextoSemi-estruturado - No possuem uma formatao rgida, permitindo, por exemplo, a ocorrncia de variaes na ordem dos dados. Em geral, no respeitam rigidamente a gramtica da lngua natural, e podem possuir muitas palavras abreviadas.

  • ConceitosTipos de WrappersSingleshot - so aqueles que extraem do documento de entrada apenas dados isolados, ou seja, eles no so capazes de ligar uma instncia de um campo (slot) do formulrio de sada a uma instncia de outro campo. Multishot - so aqueles capazes de extrair do documento de entrada os dados relacionados entre si, ou seja eles so capazes de ligar as instancias de diferentes campos.

  • ConceitosTipos de Wrappers Exemplo:

  • Sistemas baseados em PLNPrecisam de um pr-processamento lingstico para a realizao da extraoClasses sintticas e semnticas das palavrasAlgumas vezes impossvel fazer este pr-processamento (Informal Domains)Web!

  • WrappersA princpio no eram capazes de tratar textos livresRecentemente, tornaram-se mais poderosos fazem uso das informaes de formatao e tambm das caractersticas lingsticas

  • WrappersTcnicas para extrao de informaopreencherFormulario(documento) = fomularioPreenchidoDeterminam as regras de extraoAutmatos finitos, casamento de padres, classificadores de texto e modelos de Markov escondidos

  • Wrappers Autmatos finitosDefinio(S, ,T,s0,F)S um conjunto finito de estados um alfabeto finito de smbolos de entrada T a funo de transio (T : S -> S) s0 S o estado inicial F S o conjunto de estados finais Excelentes em textos estruturadosPodem ser definidos manualmente ou ser aprendidos automaticamente

  • Wrappers Autmatos finitosTiposAcceptors: apenas um estado inicial, resposta sim ou noFiltragem e existncia do dadoRecognizers: um ou mais estados finais. Categorizao!Transducers: geram um conjunto de smbolos de sada para a entrada

  • Wrappers Autmatos finitosExemplo

  • Wrappers Autmatos finitosDevemos definirOs estados que devero aceitar os smbolos a serem extrados para preencher o formulrio de sada Os estados que iro apenas consumir os smbolos irrelevantes encontrados no documento Os smbolos do documento de entrada que provocaram a transio de um estado para outro

  • Wrappers Casamento de padresPadres podem ser descritos atravs de expresses regulares ou em uma linguagem especfica ao sistema de EIO processo de extrao se d quando se realiza o casamento dos padres definidos com o texto de entrada

  • Wrappers Casamento de padresTrata textos estruturados, semi-estruturados e livresExpresses regulares so mais intuitivas do que autmatosRealizam extrao multi-slot

  • Wrappers - ClassificaoClassifica(fragmentoTexto) = [escore campo 1, ..., escore campo n]Limitaes:Criao dos fragmentosClassificam cada fragmento de forma independente => tima localmente, mas nada garante que seja tima tambm globalmente

  • Wrappers - Classificao

  • Wrappers Modelos de Markov escondidosExploram a ocorrncia dos padres em seqncia no texto de entrada para classific-los de uma s vezMaximiza a probabilidade de acerto para todo o conjunto de padres

  • Wrappers Modelos de Markov escondidosModelos de Markov - definioConjunto de estados S Probabilidade a priori (s) para os estados s S Probabilidade de transio Pr[s/s] do estado s S para o estado s S S = {ensolarado, chuvoso, nublado} (nublado) Pr[chuvoso/ensolarado]

  • Wrappers Modelos de Markov escondidosEstados ocultos possvel observar os smbolos (estados visveis) emitidos pelos estados escondidosA cada estado oculto, associada uma das classes a serem extradasCada estado oculto emite tokens de acordo com a probabilidade de pertencer classe associada ao estadoCriado o modelo, pode-se utilizar o algoritmo Viterbi para decodificar uma entrada e determinar os estados ocultos associados

  • Wrappers Modelos de Markov escondidos

  • Aplicaes de RIExtrao de Informao em DocumentosPalavras-chaveIndexaoCatalogao

    Empresa do Rio de Janeiro com mais de 12 anos de experinciaem Gerenciamento Eletrnico de Documentos.

  • Aplicaes de RIExtrao de Informao em DocumentosContedoAnlise EstruturalAnlise Semntica

    Empresa portuguesa responsvel por 3,4% do PIB de Portugal.

  • Aplicaes de RIExtrao de Informao em DocumentosAnlise do Cdigo Fonte de AplicaesUso de PadresQualidade do Cdigo

    Empresa de Curitiba, oferece sistemas de anlise do cdigo fonteem diversas linguagens.

  • Aplicaes de RIExtrao de Informao na WEBFiltragem de FrunsControle do ContedoAssunto dos Dilogos

    Empresa de So Paulo com mais de 20 anos de mercado. Oferecesolues para e-learning.

  • Aplicaes de RIExtrao de Informao na WEBMonitoramento da WEBBusca por HackersBusca por Terroristas

    Empresa mundialmente reconhecida, presente no Brasil h 10 anos,oferecendo solues nas reas de segurana web e redes.

  • Aplicaes de RIExtrao de Informaes EstratgicasBusiness IntelligenceAnlise de MercadoMelhoria de Processos

    Empresa brasileira que oferece solues na rea de BI.

  • Aplicaes de RIExtrao de Informaes EstratgicasAnlises Biolgicas de DadosRegies Codificantes (DNA)Regies Ativas (Protenas)

    National Center for Biotechnology Information, criado em 1988, localizadonos Estados Unidos. a principal fonte de informaes sobre Genmicana Internet.

  • Aplicaes de RIExtrao de Informaes EstratgicasAnlises de Arquivos de LOGLogs de ErroLogs de Acesso

    Empresa mundialmente reconhecida, com mais de 25 anos, oferecesolues para a anlise de logs de erro e acesso a bancos de dados.

  • Aplicaes de RIExtrao de Informaes EstratgicasAnlises de ImagensGeologiaClimatologiaAstrologia

    Empresa brasileira com 10 anos de mercado, oferece solues paraanlise e classificao de imagens.