Linguagem Natural

Embed Size (px)

Citation preview

  • 8/6/2019 Linguagem Natural

    1/28

    PONTIFCIA UNIVERSIDADE CATLICA DE CAMPINAS

    CURSO DE MESTRADO EM SISTEMAS DE COMPUTAO

    MATRIA DE SISTEMAS INTELIGENTES

    PROF.DR.JOO LUS GARCIA ROSA

    PROCESSAMENTO DE LINGUAGEM NATURAL (PLN)

    ALUNO: Marvin Oliver Schneider

    CAMPINAS

    2001

  • 8/6/2019 Linguagem Natural

    2/28

    I

    ,1752'8d2

    5(&21+(&,0(172'(92=

    2.1. INTRODUO.........................................................................................................................................1

    2.2. OBJETIVO .............................................................................................................................................. 2

    2.3. DISCIPLINAS ENVOLVIDAS .................................................................................................................... 2

    2.4. HISTRICO ............................................................................................................................................ 2

    2.5. SISTEMAS ATUAIS ................................................................................................................................. 3

    6LVWHPDVGH9R]'LVFUHWD

    6LVWHPDVGH9R]&RQWtQXD

    2.6. PROBLEMAS CONHECIDOS..................................................................................................................... 3

    2.7. TECNOLOGIAS .......................................................................................................................................4

    &RPSDUDomRGH3DGU}HV

    +LGGHQ0DUNRY

    5HGH1HXUDO

    2.8. VISES PARA O FUTURO ........................................................................................................................6

    5(&21+(&,0(172'((6&5,7$

    3.1. INTRODUO.........................................................................................................................................6

    3.2. OBJETIVO .............................................................................................................................................. 6

    3.3. PRODUTOS E TECNOLOGIA .................................................................................................................... 6

    3.4. APLICAO DE REDES NEURAIS............................................................................................................7

    352'8d2'(92=$3$57,5'(7(;72

    4.1. OBJETIVOS E PRODUTOS........................................................................................................................8

    4.2. APLICAO DE REDES NEURAIS............................................................................................................8

    $1/,6('(7(;72

    5.1. CONSIDERAES GERAIS ......................................................................................................................8

    5.2. PROCESSO TRADICIONAL ......................................................................................................................8

    $QiOLVH/p[LFD

    $QiOLVH6LQWiWLFD

    $QiOLVH6HPkQWLFD

    5.3. UTILIZAO DE REDE NEURAIS ..........................................................................................................11

    8WLOL]DomRGH5HGHV)HHGIRUZDUG

    8WLOL]DomRGH5HGH5HFRUUHQWHV

    ([SHULrQFLDFRP5HGHV5HFRUUHQWHV

  • 8/6/2019 Linguagem Natural

    3/28

    II

    0LFURIHDWXUH5HSUHVHQWDWLRQ

    5.4. APLICAES........................................................................................................................................14

    &RUUHomRHUHVXPRVGHWH[WRV

    7UDGXWRUHVDXWRPiWLFRV

    &RPSLODGRUHV

    352-(72'(352*5$0$d2

    6.1. INFORMAES GERAIS ........................................................................................................................15

    6.2. LIMITAES E CARACTERSTICAS .......................................................................................................15

    6.3. SCREENSHOTS E UTILIZAO DO SISTEMA..........................................................................................16

    &21&/862

    %,%/,2*5$),$

    2%5$6&2168/7$'$6

  • 8/6/2019 Linguagem Natural

    4/28

    Processamento de Linguagem Natural (PLN)

    Pgina 1

    ,1752'8d2

    Seres humanos conversam utilizando uma lngua e isso desde os primeiros

    KRPR VDSLHQV na face da terra. A lngua falada um meio bastante rico de

    comunicao. Ele no apenas proporciona o fornecimento de informaes, mas

    tambm pode expressar sentimentos e at dar um sentido contrrio ao bvio,

    utilizando a entonao. [Jung, 1999] [Rosa4, 1995]

    A escrita no tem uma histria to longa possvel observar suas razes no

    antigo Egito. Naquela poca usavam-se smbolos para palavras e quem sabia

    escrever j tinha um bom lugar reservado na sociedade.

    No incio do sculo passado os computadores pessoais surgiram. Ento ns nos

    comunicvamos com eles atravs de um teclado uma forma bastante artificial e

    complicada. Outros meios como mouse, touch-screen etc. j foram desenvolvidos,

    porm, estes meios no revolucionaram a maneira de acesso.

    Neste ambiente poucos anos atrs surgiram os primeiros produtos de

    reconhecimento de voz, escrita etc. At hoje muitas pessoas no acreditam que

    essas ferramentas realmente possam substituir a maneira normal de operar um

    microcomputador, provavelmente porque as implementaes atuais tm falhasgrandes e se assume que uma certa inteligncia humana necessria.

    Exatamente isto o ponto de partida para a utilizao de uma nova tecnologia

    dentro Processamento de Linguagens Naturais: Redes Neurais.

    5(&21+(&,0(172'(92=

    ,QWURGXomR

    H algum tempo o reconhecimento de lngua tem sido um assunto de fico

    cientfica. Assim foi normal para o Sr. Spok de Jornada nas Estrelas dar comandos

    para o computador em voz alta. O legendrio computador HAL em Odissia no

    Espao at conseguia ler os lbios. At hoje as pesquisas no chegaram neste

  • 8/6/2019 Linguagem Natural

    5/28

    Processamento de Linguagem Natural (PLN)

    Pgina 2

    ponto, mas muito se evoluiu nos ltimos anos no desenvolvimento de aplicaes

    de reconhecimento de lngua [linguatec, 2001] [Wood, 2000].

    2EMHWLYR

    Os sistemas existentes so utilizados por exemplo como digitadores automticos

    que reconhecem as palavras sendo faladas por determinada pessoa ou como

    sistemas de controle que executam uma certa ao a partir de comandos de voz.

    [Wood, 2000]

    Uma outra aplicao interessante o uso para o reconhecimento de uma pessoa

    em sistemas de segurana. [Barton, 1997]

    'LVFLSOLQDV(QYROYLGDVA tarefa de reconhecimento de voz no apenas requer um bom conhecimento

    computacional, mas envolve tambm as disciplinas Fontica, Lingstica,

    Reconhecimento de Padres e Inteligncia Artificial em geral. [linguatec, 2001]

    +LVWyULFR

    Desde os anos 1960 se fez pesquisas na rea de reconhecimento de voz. Porm,

    at os anos 1980 apenas foram implantados sistemas capazes de reconhecer no

    mximo 100 palavras distintas.

    1984 um sistema foi introduzido pela IBM capaz de tratar 5000 palavras o

    processo de clculo, entretanto, levava sempre vrios minutos.

    Em 1986 ento foi desenvolvido o prottipo Tangora 4 para a lngua inglesa o

    nome foi escolhido em homenagem ao campeo mundial em datilografia, Alberto

    Tangora. O sistema trabalhava em tempo real utilizando Trigramas para o controle

    de contexto.

    Em 1988 o sistema Tangora foi projetado para a lngua alem e quando

    apresentado no CeBit em Hannover, fez-se necessrio a utilizao de uma sala

    especial em completo silncio.

  • 8/6/2019 Linguagem Natural

    6/28

    Processamento de Linguagem Natural (PLN)

    Pgina 3

    Utilizando a tecnologia de Tangora a IBM lanou em 1993 o Personal Dictation

    System com um preo mais acessvel (aproximadamente R$1000,00) e a

    possibilidade de rodar em computadores pessoais.

    Desde ento vrios sistemas surgiram, cada vez mais perfeitos. Ainda no se

    chegou a um sistema realmente 100% confivel. Justamente nesse caso o uso de

    redes neurais pode significar um avano tecnolgico muito grande, talvez o

    avano que esteja faltando para criar programas realmente poderosos. [linguatec,

    2001]

    6LVWHPDV$WXDLV

    Os sistemas atuais se dividem em sistemas de reconhecimento de voz discreta e

    voz contnua.

    6LVWHPDVGH9R]'LVFUHWD

    Os sistemas de reconhecimento de voz discreta so sistemas que requerem que o

    usurio fale cada palavra separada. Isto traz uma necessidade muito menor de

    clculos, porm, completamente impraticvel para sistemas de ditado. Se utiliza

    estes programa principalmente para fornecer comandos distintos para um

    computador como em Telebanking, mas tambm para por exemplo o controle de

    jogos. [linguatec, 2001]

    6LVWHPDVGH9R]&RQWtQXD

    Utilizados como uma forma de secretria automtica os sistemas de Voz Contnua

    tm tarefas muito mais complicadas para resolver, pois a separao das palavras

    em uma frase contnua requer bem mais recursos e solues tecnologicas

    inteligentes. [linguatec, 2001]

    3UREOHPDV&RQKHFLGRV

    Encontram-se vrios problemas nesse caso:

    Uma palavra pode ser falada de maneira mais curta ou mais extensa

    dependendo do momento, da pessoa, do microfone etc.

  • 8/6/2019 Linguagem Natural

    7/28

    Processamento de Linguagem Natural (PLN)

    Pgina 4

    Quem fala pode engolir silabas, vogais etc. (imagine um portugus, por

    exemplo)

    O sentido pode estar altamente ambguo (O mais/mas em Mais feijo

    bom.). Isto se chama de homfonos e um problema grande para programas

    computacionais.

    muito difcil de distinguir certas palavras para um sistema que desconhece o

    contexto em si: Um sistema automtico nunca iria entender as frases faladas

    em uma Cocktail-Party com msica alta o homem enquanto isso entende o

    contexto e pode mesmo nessa situao interpretar um significado.

    Lnguas diferentes tm problemas diferentes e um vocabulrio ativo bem

    diferente: Na lngua inglesa se utiliza apenas cerca de 800 palavras enquanto a

    lngua alem possui em volta de 4000 palavras no vocabulrio ativo excludos

    os poetas, que usam bem mais.

    O sistema precisa de um conhecimento extra para criar escrita minscula e

    maiscula problemtico especialmente em alemo, onde os substantivos

    todos so escritos com letra maiscula.

    O nmero de informaes disponveis se multiplica com uma grande

    velocidade. Sendo assim os sistemas devem estar em contnuo

    desenvolvimento. [linguatec, 2001] [Richter, 2001]

    7HFQRORJLDV

    Sendo que o foco deste artigo so Redes Neurais aplicadas no Processamento de

    Linguagem Natural, as outras tecnologias sero tratadas de uma maneira breve,

    apenas para comparao.

    &RPSDUDomRGH3DGU}HV

    Em um sistema simples apenas se compara os padres apresentados pela fala

    com palavras j salvas no sistema. Isto deve ser feito atravs de um processo no

    linear. [linguatec, 2001]

  • 8/6/2019 Linguagem Natural

    8/28

    Processamento de Linguagem Natural (PLN)

    Pgina 5

    +LGGHQ0DUNRY

    Um sistema mais exato, mas levando tambm mais tempo de calculo o Hidden

    Markov em qual se utiliza autmatos para modelar as probabilidades de

    seqenciais de fonemas. [Barton, 1997] [Cole, 1996] [linguatec, 2001]

    5HGH1HXUDO

    Geralmente os sistemas de reconhecimento de voz usam Perceptrons

    Mulitcamadas. O sinal cru fornecido nas entradas. Isto pode acontecer pela

    decodificao da onda em sinais binrios e a alimentao da rede com os padres

    ou a entrada com o padro binrio. Conforme o tamanho mximo de uma palavra

    se precisa de mais neurnios de entrada. A camada escondida pode ser escolhida

    livremente. Recomenda-se no empregar uma camada muito pequena para ter

    mais recurso de processamento para a rede, que cria uma representao interna

    da palavra com a camada escondida.

    Na sada se l o sinal, que representa uma codificao da palavra. Mais palavras

    reconhecidas requerem mais neurnios de sada.

    Sendo assim o maior problema o uso de um nmero relativamente grande de

    neurnios e sinapses o que pode tornar a aplicao da rede neural invivel nas

    condies computacionais atuais. [Warth, 1997]

    Porm, com sistemas mais poderosos se pode considerar a alternativa bem

    interessante, pois o reconhecimento de voz requer uma forma de inteligncia

    humana o qu muito bem implementado com uma rede neural. [Helbig1, 2000]

    [Helbig2, 1995]

  • 8/6/2019 Linguagem Natural

    9/28

    Processamento de Linguagem Natural (PLN)

    Pgina 6

    ILJXUDIRQWH>OLQJXDWHF@8PDUHGHEHPVLPSOHVSDUDRWUDWDPHQWRGHUHFRQKHFLPHQWRGH

    YR]

    9LV}HVSDUDRIXWXUR

    Mesmo no estando ainda altamente aceita a forma de ditado ou comando de voz

    como forma de interao com o computador, se pode considerar tal processo

    como uma seqncia natural, sendo que falar requer muito menos esforo

    humano do que digitar.

    Atualmente a alta taxa de erros ainda torna as solues um tanto quanto

    complicadas para o uso dirio. Mas a pesquisa no pra e com mais recursos

    computacionais modelos cada vez mais ambiciosos podem ser criados.

    5(&21+(&,0(172'((6&5,7$

    ,QWURGXomR

    Em paralelo ao reconhecimento de voz se desenvolveram os sistemas de

    reconhecimento de escrita.

    2EMHWLYRCom a finalidade de reconhecer geralmente um texto de letra de forma os

    sistemas utilizam algoritmos de reconhecimento de padres. Tambm j esto

    sendo desenvolvidos projetos que conseguem transformar letra de mo em texto.

    3URGXWRVH7HFQRORJLD

    Com scanners geralmente so fornecidos produtos de reconhecimento de escrita.

    A qualidade dependendo do conjunto de palavras que o produto conhece

    normalmente (ainda) duvidosa.

    Os programas trabalham com anlises de cada caracter (comparao com

    padres salvos e reconhecimento na base de uma lista de probabilidades) ou com

    anlises holsticos, isto , comparando palavra por palavra. Especialmente em

  • 8/6/2019 Linguagem Natural

    10/28

    Processamento de Linguagem Natural (PLN)

    Pgina 7

    sistemas que reconhecem letra de mo se usa esta tcnica para minimizar os

    erros de reconhecimento. [Cole, 1996]

    $SOLFDomRGH5HGHV1HXUDLV

    O seguinte projeto pode ser considerados tpico para a aplicao de redes neurais

    no reconhecimento de escrita:

    ILJXUD8PDSURSRVWDGHXPDUHGHTXHUHFRQKHFHHVFULWD

    Se usa uma matriz para receber a entrada da rede. Mais ampla seja essa matriz,

    melhor a rede reconhecer letras diferentes. Porm, o tempo de treinamento

    aumenta consideravelmente.

    No caso do exemplo se trata novamente de um perceptron multicamadas uma

    estrutura que pode ser aplicada perfeitamente nesse caso.

  • 8/6/2019 Linguagem Natural

    11/28

    Processamento de Linguagem Natural (PLN)

    Pgina 8

    352'8d2'(92=$3$57,5'(7(;72

    2EMHWLYRVH3URGXWRV

    Desde o incio dos anos 1980 existem vrios produtos no mercado queconseguem gerar fala a partir de um texto escrito. Os programa que no comeo

    produziam uma voz parecendo bastante mecnica e de vez em quando at

    incompreensvel evoluram bastante. Atualmente existem sistemas que

    conseguem ler vrias lnguas com diferentes personagens, velocidades etc. Alm

    da brincadeira, estes sistemas so bastante teis para a leitura de textos para

    cegos.

    $SOLFDomRGH5HGHV1HXUDLVO problema pode ser bem tratado sem o uso de uma rede neural (por exemplo

    com Hidden Markov).

    $1/,6('(7(;72

    &RQVLGHUDo}HV*HUDLV

    A rea de anlise de textos a mais complexa do Processamento de Linguagem

    Natural e sua maior aplicao. Existem vrios produtos prontos no mercado, mas

    a rea em si est em pleno desenvolvimento.

    3URFHVVR7UDGLFLRQDO

    $QiOLVH/p[LFD

    5.2.1.1. FuncionamentoUm analisador lxico transforma um texto em elementos sintticos, como por

    exemplo: preposies, verbos, adjetivos etc. Um certa inteligncia requerida,

    pois podem existir muitas ambigidades e construes compostas.

  • 8/6/2019 Linguagem Natural

    12/28

    Processamento de Linguagem Natural (PLN)

    Pgina 9

    Se deve definir chamadas sintagmas. Dependendo do entendimento de lxico

    certas palavras podem ser tratadas de uma maneira que no corresponde muito

    maneira como elas esto sendo definidas normalmente (por exemplo por meio do

    tipo nome se pode representar nomes e substantivos).

    Tendo lido e transformado toda frase a anlise sinttica comea. [Michel, 2000]

    5.2.1.2. Realizaes Tcnicas

    Todo compilador tem um analisador lxico. A gramtica pode chegar a dimenses

    realmente assustadoras de complexidade dependendo da aplicao.

    5.2.1.3. Anlise Top-Down

    A partir de um estado inicial pode-se criar uma rvore como mostrado na figura

    abaixo:

    ILJXUDIRQWH>0LFKHO@

    Com isto se pode chegar a bons resultados sem o uso de uma rede neural. O

    algoritmo recursivo.

    Porm, em certas constelaes o mesmo sintagma pode ser analisado duas vezes

    (anlise redundante). [Michel, 2000]

    5.2.1.4. Anlise Bottom-Up

    Na anlise bottom-up parte de uma palavra que analisada em todas suas

    possibilidades. A partir da todas as palavras sero colocadas com todas suas

  • 8/6/2019 Linguagem Natural

    13/28

    Processamento de Linguagem Natural (PLN)

    Pgina 10

    possibilidades. Novas categorias sero criadas e se acha uma soluo do

    problema. [Michel, 2000]

    ILJXUDIRQWH>0LFKHO@([HPSORGRPpWRGRERWWRPXS

    $QiOLVH6LQWiWLFD

    5.2.2.1. Funcionamento e Objetivo

    Na anlise sinttica testa se os sintagmas foram postos na seqncia correta, ouseja, se por exemplo dois substantivos podem se seguir ou no.

    5.2.2.2. Tecnologias

    Existem autmatos finitos para tratar o assunto. A complexidade aumenta

    consideravelmente com a quantidade da informao.

    $QiOLVH6HPkQWLFD

    5.2.3.1. Funo

    Como ltimo passo a anlise semntica deve determinar se o contexto est

    correto ou no. necessrio entrar no mrito de tipos de palavras e se elas

    combinam.

  • 8/6/2019 Linguagem Natural

    14/28

    Processamento de Linguagem Natural (PLN)

    Pgina 11

    5.2.3.2. Projetos

    Em compiladores relativamente fcil resolver esta tarefa. Porm, para uma frase

    em uma lngua distinta existem muitos dados a serem computados. O mquina

    tem de entender um pouco do contexto. Isso freqentemente feito de uma

    maneira simplista, tambm utilizando autmatos de estados.

    8WLOL]DomRGH5HGH1HXUDLV

    Foram realizados estudos para determinar, se redes neurais podem ou no ser

    utilizadas para a tarefa de determinar se uma frase gramaticalmente correta ou

    no. Se partiu do princpio que mesmo em situaes aparentemente

    complicadas do ponto de vista computacional o falante nativo tem uma viso

    ntida dos acontecimentos.

    A utilizao de redes neurais principalmente interessante, pois estruturas

    hierrquicas gramaticais no pode ser modeladas com estados finitos.

    [Lawrence1, 1998] [Lawrence2, 1995]

    8WLOL]DomRGH5HGHV)HHGIRUZDUG

    Rede Feedforward foram includas nos estudos, porm, desde o incio se estava

    convencido, que os recursos da Rede Feedforward eram insuficientes para a

    resoluo do problema. Especialmente por causa da falta de memria e assim o

    problema de no poder internamente montar uma gramtica. [Lawrence1, 1998]

    [Lawrence2, 1995]

    8WLOL]DomRGH5HGH5HFRUUHQWHV

    Redes recorrentes oferecendo mais recursos foram a escolha certa para iniciar

    o teste. Soube-se que Redes Recorrentes so capazes de at se comportar bemno teste de Turing, amplamente aceito para determinar a inteligncia de um

    sistema. Se deve destacar que se trata e resultados experimentais e at agora

    redes neurais no so amplamente usadas para anlises de texto.

  • 8/6/2019 Linguagem Natural

    15/28

    Processamento de Linguagem Natural (PLN)

    Pgina 12

    A maneira de organizar uma rede neural para a anlise gramatical pode ser

    dividida em Sistemas Baseados em Casos, Sistemas Baseados em Regras e

    Sistemas Baseados em Princpios.

    Assim se define a filosofia da Rede. No caso do experimento se partiu de um

    sistema Baseado em Princpios. [Rosa2, 1997] [Lawrence1, 1998] [Lawrence2,

    1995]

    5.3.2.1. Sistemas Baseados em Casos

    Sistemas Baseados em Casos so aqueles que fazer suas concluses apenas a

    partir de casos concretos. Se deve destacar que neste caso o esforo necessrio

    para um treinamento satisfatrio bem mais alto. Porm, um princpio

    originalmente utilizado para Redes Neurais na confiana que a rede se auto-ajusteem qualquer situao, pois contm uma estrutura parecida com o crebro

    humano.

    Os Sistemas Baseados em Casos tm sua raiz na cincia cognitiva.

    O trabalho mais crtico neste caso escolha de casos significativos a serem

    aprendidos. [Rosa2, 1997] [Rosa3, 1996]

    5.3.2.2. Sistemas Baseados em Regras

    Uma regra determina claramente como certas seqncias na linguagem ocorrem.

    Estas sistemas rgidas, que tendem a descrever tudo em regras, so dependentes

    de uma certa linguagem e de uma construo. Mais ainda, se trata de Sistemas

    unidirecionais, ou seja, uma regra no pode ser usadas para interpretao e

    gerao de linguagem ao mesmo tempo. [Rosa2, 1997]

    5.3.2.3. Sistemas Baseados em Princpios

    Em Sistemas Baseados em Princpios se tenta chegar a regras que valem para

    vrios casos, que so flexveis, e podem assim ser aplicados para vrias lnguas

    ou seja, se parte do princpio que no fundo todas as lnguas tm construes em

    comum.

  • 8/6/2019 Linguagem Natural

    16/28

    Processamento de Linguagem Natural (PLN)

    Pgina 13

    O Sistemas Baseado em Princpios pode ser visto como um meio-termo entre

    Sistemas Baseados em Regras e Sistemas Baseados em casos. [Rosa2, 1997]

    ([SHULrQFLDFRP5HGHV5HFRUUHQWHV

    No experimento se utilizou um Sistema Baseado em Princpios. A partir de um

    conjunto de frases foi feita uma anlise lxica anteriormente determinando tipos de

    palavras e modificadores (substantivo sigular=s1, substantivo plural=s2) etc.

    Com essas entradas vrias redes foram alimentadas. [Lawrence1, 1998]

    [Lawrence2, 1995]

    5.3.3.1. Frasconi-Gori-Soda (FGS)

    O FGS uma rede feedforward com recorrncia local nos neurnios escondidos.

    Ela foi submetida ao teste apenas para comparao com as outras redes. J se

    suspeitava que o resultado no seria satisfatrio. [Lawrence1, 1998] [Lawrence2,

    1995]

    5.3.3.2. Narendra and Parthasarathy

    Se trata de uma rede recorrente com conexes de feeback de cada neurnio de

    sada para cada neurnio escondido.

    5.3.3.3. Elman

    A Rede Elman uma rede com feedback de cada neurnio escondido para todos

    os neurnios escondidos.

    5.3.3.4. Williams e Zisper

    Na Rede Williams e Zisper todos os neurnios so conectados a todos os outros.

    5.3.3.5. Procedimento

    Foram passados valores reais para as redes, da maneira: no substantivo = 0.0,

    substantivo classe 1 = 0.5, substantivo classe 2 = 0.7 e assim por diante.

  • 8/6/2019 Linguagem Natural

    17/28

    Processamento de Linguagem Natural (PLN)

    Pgina 14

    Primeiramente se descobriu que a capacidade da rede dependia fortemente do

    nmero de entradas. Porm, com poucas entradas a rede forada a armazenar

    informao. Por isso, se escolheu poucas entradas.

    Para todas as redes recorrentes se utilizou o algoritmo backpropagation through

    time.

    Se obteve os seguintes resultados:

    A rede Elman teve o melhor aproveitamento com 99,6% no treinamento e

    74,2% no teste

    A rede FGS como esperado consegui apenas alcanar 67,1% na

    classificao e 59% no teste

    AS redes N&P e W&Z ficaram com valores intermedirios

    Sendo assim se pode concluir que principalmente uma rede Elman altamente

    indicada para tratar assuntos gramaticais. [Lawrence1, 1998] [Lawrence2, 1995]

    0LFURIHDWXUH5HSUHVHQWDWLRQ

    Uma outra abordagem interessante o uso de redes neurais para analisadores

    semnticos. Isto feito atravs o uso de microfeatures, que so alimentados para

    a rede. Cada palavra tem um array de bits que descrevem as caractersticas como

    humano ou no, macies, sexo, volume, forma etc. Sendo assim a rede capaz de

    distinguir se certas palavras cabem ou no juntos. Mais ainda, ela pode resolver

    ambigidades que os mtodos atuais no so capazes de tratar to

    satisfatoriamente. [Rosa1, 1997] [Rosa5, 1998] [Rosa6, 1997]

    $SOLFDo}HV

    &RUUHomRHUHVXPRVGHWH[WRV

    Mesmo o programa Word oferece este tipo de opo, mas os resultados vriasvezes no so exatos. necessria a presena de um operador humano para

    avaliar e se for o caso modificar o resultado.

  • 8/6/2019 Linguagem Natural

    18/28

    Processamento de Linguagem Natural (PLN)

    Pgina 15

    7UDGXWRUHVDXWRPiWLFRV

    Tradutores automticos independentemente dos nomes sugestivos que eles tm

    no tendem a fornecer ainda um texto apresentvel. Isto apenas ocorre em

    estruturas quase banais e em textos tcnicos fornecida apenas uma leve idia

    do que est escrito.

    &RPSLODGRUHV

    Como o vocabulrio e as estruturas de um compilador so bem limitados, o

    funcionamento dos analisadores quase perfeito. Compiladores existem j faz

    bastante tempo como forma primitiva da anlise de linguagem natural.

    352-(72'(352*5$0$d2

    ,QIRUPDo}HV*HUDLV

    O programa existe em uma segunda verso otimizada. A seguinte rede est sendo

    utilizada para o processamento sinttico das frases.

    ILJXUD$UHGHXWLOL]DGDQRSURMHWR

    Foi utilizado o sistema Turbo Pascal 7.0 para a programao.

    /LPLWDo}HVH&DUDFWHUtVWLFDV

  • 8/6/2019 Linguagem Natural

    19/28

    Processamento de Linguagem Natural (PLN)

    Pgina 16

    Pela rede o programa est limitado em frases de 6 palavras no mximo. Antes do

    fornecimento dos dados para a rede uma anlise lxica simples est sendo feita.

    Em caso de dvidas de reconhecimento o lxico pergunta para o usurio. As

    palavras reconhecidas so no mximo 150. Elas esto sendo lidas de disco e

    armazenados em um array esttico.

    Para o treinamento da rede encontram-se 20 frases em disco. Isto tambm o

    nmero mximo que a rede pode aprender, pois o array, onde so armazenados

    os elementos tem esse nmero de posies. 10 dessas frases so corretas e 10

    erradas.

    A rede geralmente consegue aprender as 20 frases em 3000 a 5000 iteraes.

    Se trata de um perceptron multicamada que usa o algoritmo backpropagation

    como forma de aprendizagem.

    6FUHHQVKRWVH8WLOL]DomRGR6LVWHPD

    Aps a leitura do programa de disc encontra-se o menu principal.

    Esto disponveis as seguintes funes:

  • 8/6/2019 Linguagem Natural

    20/28

    Processamento de Linguagem Natural (PLN)

    Pgina 17

    Inicializar Rede = inicializar os neurnios com 0s e as sinapses com valores

    randmicos entre 0.1 e 0.1.

    Mostrar Palavras Disponveis = mostrar as palavras conhecidas pelo programa

    Teste Randmico da Rede = Se fornece valores aleatrios para a rede com a

    finalidade de fazer um teste de funcionamento genrico com a rede. Aplicando

    um certo nmero de iteraes e uma entrada esperada se pode monitorar o

    progresso de aprendizagem nesse caso especfico. Com o modo debug se

    pode acompanhar todos os passo tambm a utilizao do algoritmo

    backpropagation.

    Treinar Rede = So fornecidas 20 frases repetidamente rede com a

    finalidade de que ela aprenda a estrutura sinttica. O nmero de iteraes

    pode ser escolhido livremente.

    Analisar Frase = Uma nica frase analisada com os valores atuais da rede.

    Dump Rede = Mostra os valores da Rede na Tela

    Sair = Sai imediatamente.

  • 8/6/2019 Linguagem Natural

    21/28

    Processamento de Linguagem Natural (PLN)

    Pgina 18

    Tendo escolhido Inicializar Rede o dilogo abaixo ser mostrado como

    confirmao por 2 segundos.

    Um exemplo de entradas para o Lxico.

  • 8/6/2019 Linguagem Natural

    22/28

    Processamento de Linguagem Natural (PLN)

    Pgina 19

    Aps escolher Teste Randmico se entra na tela acima. A sada desejada

    (tambm valores quebrados possveis) se deve determinar. O nmero de iteraes

    determina quantas vezes a rede ser alimentada com os dados. Definindo debug

    com s o funcionamento ser monitorado a cada passo.

    Um dump tpico da rede est sendo exibido na tela acima.

  • 8/6/2019 Linguagem Natural

    23/28

    Processamento de Linguagem Natural (PLN)

    Pgina 20

    Aps a escolha do treinamento da rede as frase so lidas do disco. Perguntas do

    analisador lxico so provveis e as informaes devem ser determinadas pelo

    usurio como visto acima.

  • 8/6/2019 Linguagem Natural

    24/28

    Processamento de Linguagem Natural (PLN)

    Pgina 21

    Tendo lido os dados de disco um output para controle est sendo exibido. Estes

    valores sero efetivamente copiados na entrada da rede.

    Depois de ter escolhido o nmero de iteraes o progresso ser mostrado a cada

    passo.

  • 8/6/2019 Linguagem Natural

    25/28

    Processamento de Linguagem Natural (PLN)

    Pgina 22

    Para fins de anlise de uma frase se deve entrar com uma estrutura de no mximo

    6 palavras tudo escrito em letras minsculas.

    &21&/862

    Mesmo que a aplicao de redes neurais no Processamento de Linguagem

    Natural est apenas comeando, se trata de uma rea bastante promissora para

    um futuro que precisa de inteligncia humana simulada para executar tarefas que

    apenas o ser humano at agora pode resolver satisfatoriamente.

    %,%/,2*5$),$

    [Barton] Siegmund Barton et alii: 6SUDFKHUNHQQXQJ. http://www.fh-

    friedberg.de/users/secunet/sprache/sprache.htm , 1997

    [Cole] Ronald A. Cole et alii: 6XUYH\RIWKH6WDWHRIWKH$UWLQ+XPDQ/DQJXDJH

    7HFKQRORJ\. http://cslu.cse.ogi.edu/HLTsurvey/, 1996

  • 8/6/2019 Linguagem Natural

    26/28

    Processamento de Linguagem Natural (PLN)

    Pgina 23

    [Helbig1] Hermann Helbig, Andreas Scherer: 1HXURQDOH1HW]H. Fernuniversitt

    Hagen, 2000

    [Helbig2] Hermann Helbig et alii: *UXQGODJHQ GHU .QVWOLFKHQ ,QWHOOLJHQ].

    Fernuniversitt Hagen, 1995

    [Jung] Doris Jung: 6SUDFKHU]HXJXQJXQGZDKUQHKPXQJWUDEDOKRQR6HPLQiULR

    5HFRQKHFLPHQWR GH /LQJXD H 6LQWHVH. Faculdade de Informtica, FU-Berlin,

    Alemanha, 1999

    [Lawrence1] Steve Lawrence et alii: 1DWXUDO/DQJXDJH*UDPPDWLFDO,QIHUHQFHZLWK

    5HFXUUHQW1HXUDO1HWZRUNV. Princeton, 1998

    [Lawrence2] Steve Lawrence et alii: 2Q WKH $SSOLFDELOLW\RI1HXUDO 1HWZRUN DQG

    0DFKLQH/HDUQLQJ7HFKQRORJLHVWR1DWXUDO/DQJXDJH3URFHVVLQJ. Princeton, 1995

    [Linguatec] linguatec Sprachtechnologien GmbH: *UXQGODJHQ GHU

    6SUDFKHUNHQQXQJ. http://www.spracherkennung.de/service/sebuch.htm , 2001

    [Michel] Michel Gagnon: 3URFHVVDPHQWR GD /LQJXDJHP 1DWXUDO .

    http://www.inf.ufpr.br/~michel/Disciplinas/Bac/IA/PLN/pln.html , 2000

    [Richter] Nicolai Richter: 6SUDFKHUNHQQXQJ ,QIRUPDWLRQHQ7HVWHXQG3URGXNWH.

    http://www.diktatstarten.de/, 2001

    [Rosa1] Joo Lus Garcia Rosa: $ 7KHPDWLF &RQQHFWLRQLVW $SSURDFK WR

    3RUWXJXHVH /DQJXDJH 3URFHVVLQJ. Proceedings of the IASTED International

    Conference ARTIFICIAL INTELLIGENCE AND SOFT COMPUTING, Banff,

    Canada, 1997

  • 8/6/2019 Linguagem Natural

    27/28

    Processamento de Linguagem Natural (PLN)

    Pgina 24

    [Rosa2] Joo Lus Garcia Rosa: $ERUGDJHQV DR 3URFHVVDPHQWR 6LPEyOLFR GD

    /LQJXDJHP 1DWXUDO. Revista do Instituto de Informtica da PUC-Campinas,

    Campinas, 1997

    [Rosa3] Joo Lus Garcia Rosa: &RPSXWDomR/LQJXDJHPH&LrQFLDGD&RJQLomR.

    Revista do Instituto de Informtica da PUC-Campinas, Campinas, 1996

    [Rosa4] Joo Lus Garcia Rosa: 2 3URFHVVDPHQWR GD /LQJXDJHP 1DWXUDO.

    Caderno de Informtica do jornal Dirio de Povo de Campinas, 1995

    [Rosa5] Joo Lus Garcia Rosa: 26LJQLILFDGRGD3DODYUDSDUDR3URFHVVDPHQWR

    GH /LQJXDJHP1DWXUDO. Anais dos Seminrios do GEL, So Jos do Rio Preto,

    1998

    [Rosa6] Joo Lus Garcia Rosa: 3DUVHU8P$QDOLVDGRU6LQWiWLFRH6HPkQWLFRSDUD

    6HQWHQoDVGR3RUWXJXrV. Anais de Seminrios do GEL, Campinas, 1997

    [Warth] Dora Warth: .QVWOLFKH ,QWHOOLJHQ] 6SUDFKHUNHQQXQJ XQG

    6SUDFKYHUVWHKHQ. http://www.fask.uni-mainz.de/user/warth/Ki.html , 1997

    [Wood] Leslie Wood: ,QWUR WR 9RLFH 5HFRJQLWLRQ 6RIWZDUH.

    http://www.weeno.com/art/1099/183.html , 2000

    2%5$6&2168/7$'$6

    Center for Spoken Language Understanding: 9RLFHFRQYHUVLRQ

    http://cslu.cse.ogi.edu/demos/ttsdemos.htm , 2001

    Christopher Moore: '\QDPLF 5HFRJQL]HUV 5HDOWLPH /DQJXDJH 5HFRJQLWLRQ E\

    $QDORJ&RPSXWHUV. Santa Fe Institute, 1997

  • 8/6/2019 Linguagem Natural

    28/28

    Processamento de Linguagem Natural (PLN)

    Pgina 25

    Joo Lus Garcia Rosa: 8P 6LVWHPD +tEULGR 6LPEyOLFR&RQH[LRQLVWD 3DUD R

    3URFHVVDPHQWR GH 3DSpLV 7HPiWLFRV. Instituto de Estudos da Linguagem,

    Unicamp, Campinas, 1999

    Joo Lus Garcia Rosa: /HDUQLQJ WKHPDWLF UHODWLRQV IURP VHPDQWLFDOO\ VRXQG

    VHQWHQFHV. Proceedings of the 2001 IEEE International Conference on Systems,

    Man and Cybernetics, Tucson-Arizona, Estados Unidos, 2001

    Joo Lus Garcia Rosa, Mrcio Luiz de Andrade Netto: /yJLFDH&RQH[LRQLVPRHP

    3URFHVVDPHQWRGH/LQJXDJHP1DWXUDO. Anais da 2a. Jornada USP SUCESU-SP

    de Informtica e Telecomunicaes, So Paulo, 1994

    Matthias Wolf: 6SUDFKHUNHQQXQJ. http://www-wv.informatik.uni-erlangen.de/fg-

    wv/Jahresberichte/1998/node3.html, 1999

    Ravi Ganesan: 6WDWLVWLFDO 7HFKQLTXHV IRU/DQJXDJH5HFRJQLWLRQ$Q ,QWURGXFWLRQ

    DQG*XLGHIRU&U\SWDQDO\VWV. http://citeseer.nj.nec.com/ravi93statistical.html , 1993