View
216
Download
0
Category
Preview:
DESCRIPTION
O objetivo é demostrar mais uma forma de compreender as várias maneiras de elaborar uma captura de informações dos diversos meios de comunicação digitais existentes até o momento. Levando-se em conta da constante evolução tecnológica que é incontida.
Citation preview
Extrao de InformaoAna Carolina do AmaralMarclio Jos A. Gomes FilhoRodrigo C. MendesFlvia Barros
RoteiroIntroduoMotivaoUm pouco de HistriaProcesso de ExtraoConceitosWrappersAplicaesReferncias
MotivaoO volume de informao vem aumentado consideravelmente, principalmente com o advento da internet.Como conseguir extrair informao relevante de tantos artefatos digitais?
MotivaoO Problema:Documentos em sua maioria no estruturados ou semi-estruturados. (Internet - WEB)Migrao de dados entre interfaces diferentes. (WebServices Banco de Dados)
MotivaoO que queremos:responder a consultas de usuriosgerar resumos do texto originalpreencher bancos de dados preencher bases de conhecimentominerao de dadossumarizar textos...
Processo de ExtraoTrata o problema da extrao de dados relevantes a partir de uma coleo de documentos [Mus99]Os dados a serem extrados so previamente definidos em um template (formulrio)
Um pouco de HistriaMUC-Message Understanding Conference [final da dcada de 80]Uso de tcnicas de PLN (Processamento de Linguagem Natural) Internet/Web [dcada de 90]Desenvolvimento de wrappers
ConceitosSistemas baseados em PLNProcessamento de Linguagem Natural.Criados para extrair informao a partir de textos livres (sem estruturao).WrappersCrescimento da Web a partir dos anos 1990.Incapacidade dos sistemas anteriores para extrair informaes de seus textos, motivou a criao de sistemas especficos para esse domnio.
ConceitosQuadro Comparativo
ConceitosTipos de TextoEstruturado - segue um formato predefinido e rgido.
ConceitosTipos de TextoNo estruturado (Livre) - No apresentam nenhuma estrutura regular e as informaes apresentam-se como sentenas livres, escritas em alguma lngua natural.
ConceitosTipos de TextoSemi-estruturado - No possuem uma formatao rgida, permitindo, por exemplo, a ocorrncia de variaes na ordem dos dados. Em geral, no respeitam rigidamente a gramtica da lngua natural, e podem possuir muitas palavras abreviadas.
ConceitosTipos de WrappersSingleshot - so aqueles que extraem do documento de entrada apenas dados isolados, ou seja, eles no so capazes de ligar uma instncia de um campo (slot) do formulrio de sada a uma instncia de outro campo. Multishot - so aqueles capazes de extrair do documento de entrada os dados relacionados entre si, ou seja eles so capazes de ligar as instancias de diferentes campos.
ConceitosTipos de Wrappers Exemplo:
Sistemas baseados em PLNPrecisam de um pr-processamento lingstico para a realizao da extraoClasses sintticas e semnticas das palavrasAlgumas vezes impossvel fazer este pr-processamento (Informal Domains)Web!
WrappersA princpio no eram capazes de tratar textos livresRecentemente, tornaram-se mais poderosos fazem uso das informaes de formatao e tambm das caractersticas lingsticas
WrappersTcnicas para extrao de informaopreencherFormulario(documento) = fomularioPreenchidoDeterminam as regras de extraoAutmatos finitos, casamento de padres, classificadores de texto e modelos de Markov escondidos
Wrappers Autmatos finitosDefinio(S, ,T,s0,F)S um conjunto finito de estados um alfabeto finito de smbolos de entrada T a funo de transio (T : S -> S) s0 S o estado inicial F S o conjunto de estados finais Excelentes em textos estruturadosPodem ser definidos manualmente ou ser aprendidos automaticamente
Wrappers Autmatos finitosTiposAcceptors: apenas um estado inicial, resposta sim ou noFiltragem e existncia do dadoRecognizers: um ou mais estados finais. Categorizao!Transducers: geram um conjunto de smbolos de sada para a entrada
Wrappers Autmatos finitosExemplo
Wrappers Autmatos finitosDevemos definirOs estados que devero aceitar os smbolos a serem extrados para preencher o formulrio de sada Os estados que iro apenas consumir os smbolos irrelevantes encontrados no documento Os smbolos do documento de entrada que provocaram a transio de um estado para outro
Wrappers Casamento de padresPadres podem ser descritos atravs de expresses regulares ou em uma linguagem especfica ao sistema de EIO processo de extrao se d quando se realiza o casamento dos padres definidos com o texto de entrada
Wrappers Casamento de padresTrata textos estruturados, semi-estruturados e livresExpresses regulares so mais intuitivas do que autmatosRealizam extrao multi-slot
Wrappers - ClassificaoClassifica(fragmentoTexto) = [escore campo 1, ..., escore campo n]Limitaes:Criao dos fragmentosClassificam cada fragmento de forma independente => tima localmente, mas nada garante que seja tima tambm globalmente
Wrappers - Classificao
Wrappers Modelos de Markov escondidosExploram a ocorrncia dos padres em seqncia no texto de entrada para classific-los de uma s vezMaximiza a probabilidade de acerto para todo o conjunto de padres
Wrappers Modelos de Markov escondidosModelos de Markov - definioConjunto de estados S Probabilidade a priori (s) para os estados s S Probabilidade de transio Pr[s/s] do estado s S para o estado s S S = {ensolarado, chuvoso, nublado} (nublado) Pr[chuvoso/ensolarado]
Wrappers Modelos de Markov escondidosEstados ocultos possvel observar os smbolos (estados visveis) emitidos pelos estados escondidosA cada estado oculto, associada uma das classes a serem extradasCada estado oculto emite tokens de acordo com a probabilidade de pertencer classe associada ao estadoCriado o modelo, pode-se utilizar o algoritmo Viterbi para decodificar uma entrada e determinar os estados ocultos associados
Wrappers Modelos de Markov escondidos
Aplicaes de RIExtrao de Informao em DocumentosPalavras-chaveIndexaoCatalogao
Empresa do Rio de Janeiro com mais de 12 anos de experinciaem Gerenciamento Eletrnico de Documentos.
Aplicaes de RIExtrao de Informao em DocumentosContedoAnlise EstruturalAnlise Semntica
Empresa portuguesa responsvel por 3,4% do PIB de Portugal.
Aplicaes de RIExtrao de Informao em DocumentosAnlise do Cdigo Fonte de AplicaesUso de PadresQualidade do Cdigo
Empresa de Curitiba, oferece sistemas de anlise do cdigo fonteem diversas linguagens.
Aplicaes de RIExtrao de Informao na WEBFiltragem de FrunsControle do ContedoAssunto dos Dilogos
Empresa de So Paulo com mais de 20 anos de mercado. Oferecesolues para e-learning.
Aplicaes de RIExtrao de Informao na WEBMonitoramento da WEBBusca por HackersBusca por Terroristas
Empresa mundialmente reconhecida, presente no Brasil h 10 anos,oferecendo solues nas reas de segurana web e redes.
Aplicaes de RIExtrao de Informaes EstratgicasBusiness IntelligenceAnlise de MercadoMelhoria de Processos
Empresa brasileira que oferece solues na rea de BI.
Aplicaes de RIExtrao de Informaes EstratgicasAnlises Biolgicas de DadosRegies Codificantes (DNA)Regies Ativas (Protenas)
National Center for Biotechnology Information, criado em 1988, localizadonos Estados Unidos. a principal fonte de informaes sobre Genmicana Internet.
Aplicaes de RIExtrao de Informaes EstratgicasAnlises de Arquivos de LOGLogs de ErroLogs de Acesso
Empresa mundialmente reconhecida, com mais de 25 anos, oferecesolues para a anlise de logs de erro e acesso a bancos de dados.
Aplicaes de RIExtrao de Informaes EstratgicasAnlises de ImagensGeologiaClimatologiaAstrologia
Empresa brasileira com 10 anos de mercado, oferece solues paraanlise e classificao de imagens.
Recommended