18
Extracção de U nidadesTextuaisR elevantes Joaquim Ferreira da Silva DI/FCT/U NL Sem ináriosD I/FCT/U N L 2004/2005

Os possíveis elementos numa UTR: .Palavras (o caso mais comum) .Caracteres

  • Upload
    umika

  • View
    16

  • Download
    0

Embed Size (px)

DESCRIPTION

Os possíveis elementos numa UTR: .Palavras (o caso mais comum) .Caracteres .Etiquetas Morfossintácticas Também chamada MWU (Multiword Unit), a UTR com palavras é uma sequência de palavras que corresponde a um nome próprio, a uma frase idiomática ou a uma colocação com categoria gramatical. - PowerPoint PPT Presentation

Citation preview

Page 1: Os possíveis elementos numa UTR: .Palavras (o caso mais comum) .Caracteres

Extracção de Unidades Textuais Relevantes

Joaquim Ferreira da Silva DI/FCT/UNL

Seminários DI/FCT/UNL 2004/2005

Page 2: Os possíveis elementos numa UTR: .Palavras (o caso mais comum) .Caracteres

Aplicação das Unidades Textuais Relevantes (UTRs):

.Agrupamento e Classificação de Documentos

.Caracterização Automática de Documentos

.Pesquisas mais eficientes

.Enriquecimento de Léxicos

.Outras aplicações

Seminários DI/FCT/UNL 2004/2005

Page 3: Os possíveis elementos numa UTR: .Palavras (o caso mais comum) .Caracteres

Os possíveis elementos numa UTR:.Palavras (o caso mais comum).Caracteres.Etiquetas Morfossintácticas

Também chamada MWU (Multiword Unit), a UTR com palavras é uma sequência de palavras que corresponde a um nome próprio, a uma frase idiomática ou a uma colocação com categoria gramatical.

Seminários DI/FCT/UNL 2004/2005

Page 4: Os possíveis elementos numa UTR: .Palavras (o caso mais comum) .Caracteres

Exemplos de UTRs

Common agriculture policyCommon CustomsProduits agricolesEconomia de energiaRational use of energyEnergy saving in the public sectorPublication au journal officiell des Communautés

Seminários DI/FCT/UNL 2004/2005

Como extrair as UTRs a partir dos textos ?

Page 5: Os possíveis elementos numa UTR: .Palavras (o caso mais comum) .Caracteres

Primeiras experiências: Frequências dos bigramas e tetragramas por ordem decrescente

Freq. Bigrama Freq. Tetragrama

1528 - O 75 - Notícias breves da891 - A 74 Notícias breves da actualidade348 Estados Unidos 64 - A bolsa de203 05 Jan 60 do Banco de Portugal195 De acordo 59 ministro dos negócios estrangeiros188 Agência Lusa 58 - Notícias breves da 179 Banco de 57 Notícias breves da actualidade 165 Conselho de 54 De acordo com o 51 De acordo com a 40 Libertação Nacional 49 por cento do que 40 Irlanda do 49 disse à Agência Lusa 40 Câmara de 46 na africa do Sul 40 13 - 45 com o objectivo de 39 Nacional de

Seminários DI/FCT/UNL 2004/2005

Page 6: Os possíveis elementos numa UTR: .Palavras (o caso mais comum) .Caracteres

15 Câmara dos 20 do campeonato português de 15 Comissão Nacional 20 Ministro dos Negócios Estrangeiros 15 Com o 20 - A Camara Municipal 15 Carvalho da 19 presidente de Camara Municipal 15 Cabo Verde 19 por cento para o 15 Bósnia e 19 face às principais divisas 15 Associação 25 19 disse hoje à Agência 15 As conversações 19 de final da Taça 19 da Santa Casa da 4 Mês Cultural 4 México e 4 visita oficial de dois 4 Mário Tomé 4 visa protestar contra a 4 Municipalizados de 4 vila franca do campo 4 Municipal e 4 vice-ministro dos negócios estrangeiros 4 Mundo dos 4 verde deverá continuar a 4 Ministério de 4 venda e do transkei 4 Minas Gerais 4 valores estavam hoje a

Este critério penaliza o comprimento da sequência; e não existe um limiar natural na frequência para decidir quais os n-grams que são unidades.

Seminários DI/FCT/UNL 2004/2005

Page 7: Os possíveis elementos numa UTR: .Palavras (o caso mais comum) .Caracteres

UTRs obtidas após a inclusão dos filtros de Justeson e Katz

f(w1 w2) w1 w2 Padrão f(w1 w2) w1 w2 Padrão

11487 New York A N 2001 Middle East A N 7261 United States A N 1942 Saddam Hussein N N 5412 Los Angeles N N 1867 Soviet Union A N 3301 last year A N 1850 White House A N 3191 Saudi Arabia N N 1633 United Nations A N 2699 last week A N 1337 York City N N 2514 vice president A N 1328 oil prices N N 2378 Persian Gulf A N 1210 next year A N 2161 San Francisco N N 1074 chief executive A N 2106 President Bush N N 1073 real estate A N

Este critério necessita de informação morfo-sintáctica. As longas sequências continuam a ser penalizadas pelo critério da frequência . Critério com boa precisão mas muito dependente da língua !

Seminários DI/FCT/UNL 2004/2005

Page 8: Os possíveis elementos numa UTR: .Palavras (o caso mais comum) .Caracteres

Algoritmo LocalMaxs

. Abordagem estatística

. Não necessita de filtros morfossintácticos

. Não depende da língua

. Não necessita de limiares empíricos de decisão.

[Silva and Lopes 99]

Seminários DI/FCT/UNL 2004/2005

Page 9: Os possíveis elementos numa UTR: .Palavras (o caso mais comum) .Caracteres

Algoritmo LocalMaxs

Em primeiro lugar é necessário medir a coesão entre as palavras de cada n-grama, usando por exemplo a medida estatística SCP_f(.).

Seminários DI/FCT/UNL 2004/2005

F

wwpwwfSCP n

n

21

1

))(())((_

)().(1

11

1

11 ni

ni

ii wwpwwp

nF

)( 1 nwwp é a probabilidade do n-grama nww 1

Page 10: Os possíveis elementos numa UTR: .Palavras (o caso mais comum) .Caracteres

Ex:

))sec,,,,(().(16

1torpublictheinsavingpenergypF

))sec,,,(()).,(( torpublictheinpsavingenergyp

))sec,,(()).,,(( torpublicthepinsavingenergyp

))sec,(()).,,,(( torpublicptheinsavingenergyp

)(sec)).,,,,(( torppublictheinsavingenergyp

F

torpublictheinsavingenergyp 2))sec,,,,,((

))sec,,,,,((_ torpublictheinsavingenergyfSCP

Seminários DI/FCT/UNL 2004/2005

Page 11: Os possíveis elementos numa UTR: .Palavras (o caso mais comum) .Caracteres

Algoritmo LocalMaxs W é uma UTR se e só se, para

)(),( 11 WyWx nn

[length(W)=2 and g(W)>y] or [length(W)>2 and g(W)>(x+y)/2]

é o conjunto dos valores de coesão g(.) de todos os (n-1)-gramas contidos no n-grama W

é o conjunto dos valores de coesão g(.) de todos os (n+1)-gramas que contêm o n-gram W

Seminários DI/FCT/UNL 2004/2005

Page 12: Os possíveis elementos numa UTR: .Palavras (o caso mais comum) .Caracteres

in energysaving

energysaving

energysaving in

energysaving in the

energy savingin the public

energy savingin the publicsector

energysaving in thepublic sectorhas

g(.)=SCP_f(.)

Por outras palavras, W é uma UTR se e só se o valor da coesão g(W) entre as suas palavras corresponde a um máximo local em relação à vizinhança de W.

Algoritmo LocalMaxs Seminários DI/FCT/UNL 2004/2005

Page 13: Os possíveis elementos numa UTR: .Palavras (o caso mais comum) .Caracteres

Universidade Autodidacta Universidade Nova Universidade Tecnica Universidade Técnica Universidades Portuguesas Associacao de Estudantes da Universidade do Algarve * cento dos estudantes da Universidade de Coimbra reitor da Universidade Nova de Lisboa Faculdade de Economia da Universidade Nova

Exemplos de UTRs extraídas pelo LocalMaxs a partir de textos em Português:

Seminários DI/FCT/UNL 2004/2005

Page 14: Os possíveis elementos numa UTR: .Palavras (o caso mais comum) .Caracteres

sub-Thatcherite theology sine qua non deformed by the removal of a tumour Vocational Training Reform of the common agricultural Council of Agriculture Ministers Common agricultural policy

Spread of Organized Crime Sanz Fernández SIR JACK STEWART-CLARK Royal Society Richard Attenborough Red Cross LUCAS PIRES Henry the Navigator

A partir de textos em Inglês: Seminários DI/FCT/UNL 2004/2005

Page 15: Os possíveis elementos numa UTR: .Palavras (o caso mais comum) .Caracteres

Contrôle de la croissance démographique Infrastructures nécessaires Résolutions adoptées Président du tribunal Mise en marché commune Protection de la petite enfance Miskito Tawahka Pech Protection du touriste Drame algérien Commission a données aux amendements adoptés Sécurité de nos approvisionnements énergétiques Directive relative à la sécurité

Seminários DI/FCT/UNL 2004/2005

A partir de textos em Francês:

Page 16: Os possíveis elementos numa UTR: .Palavras (o caso mais comum) .Caracteres

Annahme einer Richtlinie über die Werbung Rechte beim Gerichtshof der Europäischen Gemeinschaft

geltend Algerischen Volkes Gefahr für die Volksgesundheit Zusammensetzung der Ausschüsse und Delegationen Schaffung des EWR Währung und Industriepolitik über den Vorschlag Gemischten Parlamentarischen

Seminários DI/FCT/UNL 2004/2005

A partir de textos em Alemão:

Eficiência global do LocalMaxs: 75% de precisão; 75% de abrangência

Page 17: Os possíveis elementos numa UTR: .Palavras (o caso mais comum) .Caracteres

trateg trutur xtracç éctric tratam struíd tradiç trangeir ntratuai ncentraç xtraí xtrem tritiva trocas* tráfico trânsit utras*in )

Seminários DI/FCT/UNL 2004/2005

“Substituindo” as palavras por caracteres, no LocalMaxs: extracção de UTRs de caracteres. Exemplos:

Page 18: Os possíveis elementos numa UTR: .Palavras (o caso mais comum) .Caracteres

As UTRs apontam para informação relevante: topicos and subtopicos. Ex. o tópico “Human Rights” tem várias UTRs que correspondem a subtópicos seus:

European Convention on Human Rights European Court of Human Rights Universal Declaration of Human Rights European Commission of the Human Rights Etc.

Esta subdivisão pode facilitar as pesquisas em diversos ambientes.

Aplicação das UTRs na Information Retrieval

Seminários DI/FCT/UNL 2004/2005