171
Aprendizaje Automático ILN 2005-06 Aprendizaje Automático Armando Suárez

Aprendizaje Automático - rua.ua.esrua.ua.es/dspace/bitstream/10045/3878/1/Aprendizaje_Automático.pdf · • El médico en casa Introducción Clasificación de métodos de AA

Embed Size (px)

Citation preview

  • Aprendizaje Automtico ILN 2005-06

    Aprendizaje Automtico

    Armando Surez

  • ILN 2005-06Aprendizaje Automtico 2

    Contenidos

    Introduccin Clasificacin de mtodos de aprendizaje

    automtico Aprendizaje Automtico basado en corpus

    textuales Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la

    ambigedad lxica categorial

  • ILN 2005-06Aprendizaje Automtico 3

    Qu es el aprendizaje automtico

    aprender (Del lat. apprehendre).1. tr. Adquirir el conocimiento de algo por

    medio del estudio o de la experiencia.3. tr. Tomar algo en la memoria.

    Real Academia Espaola Todos los derechos reservados

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 4

    Qu es el aprendizaje automtico

    Aprender automticamente1. tr. Adquirir automticamente? el

    conocimiento de algo por medio del estudio o de la experiencia.

    3. tr. Tomar automticamente? algo en la memoria.

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

    Hacer que un ordenador adquiera cierto conocimiento de un dominio particular

    Hacer que un ordenador adquiera cierto Hacer que un ordenador adquiera cierto conocimiento de un dominio particularconocimiento de un dominio particular

  • ILN 2005-06Aprendizaje Automtico 5

    Qu es el aprendizaje automtico

    Hacer que un ordenador adquiera cierto conocimiento de un dominio particular El alumno es el ordenador Nosotros le decimos cmo aprender Nosotros le proporcionamos los datos de los que aprender y l aprende slo (la mayora de las veces)

    y vosotros?

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 6

    Qu es el aprendizaje automtico

    Aprendizaje automticoes una rama de la Inteligencia Artificial cuyo objetivo es desarrollar tcnicas que permitan a las computadoras aprender. De forma ms concreta, se trata de crear programas capaces de generalizar comportamientos a partir de una informacin no estructurada suministrada en forma de ejemplos. Es por lo tanto, un proceso de induccin del conocimiento.

    Wikipedia

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 7

    Un ejemplo

    La buena msica

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

    La guitarra es un instrumento musicalLa batera es un instrumento musicalLa bicicleta es un vehculoLa motocicleta es un vehculoLos vehculos aceleranLos instrumentos musicales suenan

    Juan aceler su guitarra hasta los cien km/hLa batera de Pepe suena fatal

  • ILN 2005-06Aprendizaje Automtico 8

    Otro ejemplo

    El mdico en casa

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

    Estornudar = catarroFiebre = gripeEstornudar = alergiaPolen = alergiaDolor muscular = gripe

    Antonio no estornuda, tiene fiebre y dolor muscular Mara estornuda, no tiene fiebre, y estamos en mayo

  • ILN 2005-06Aprendizaje Automtico 9

    Por qu aprendizaje automtico

    porqu no una mquina especialmente diseada para la tarea

    algunas tareas no pueden ser bien definidas si no es por ejemplos

    relaciones y correlaciones importantes pueden estar ocultas dentro de una gran cantidad de datos

    la cantidad de conocimiento disponible puede ser, simplemente, excesiva para un humano

    adaptabilidad a los cambios, no rediseo constante descubrimiento de nuevos

    conocimientos

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 10

    Por qu ahora

    Antes Inabordable en la mayor parte de los casos

    El AA usa grandes cantidades de datos Los algoritmos necesitan gran cantidad de recursos

    (memoria, procesador ) para ser eficientes

    Despus El conocimiento lo suministra el experto

    Ahora El AA ya es abordable

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 11

    Por qu ahora

    Basado en el conocimiento Las personas, cuando estn despiertas, no roncan

    pepe, despierto = NO RONCA juan, dormido = ?

    Basado en ejemplos pepe, dormido juan, dormido, ronca mara, despierta antonia, dormida, ronca manuel, dormido, ronca francisco, despierto josefa, dormida patricia, despierta

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

    las personas, cuando estndespiertas, no roncan

    las personas, cuando estndespiertas, no roncan

  • ILN 2005-06Aprendizaje Automtico 12

    Por qu ahora

    El resurgimiento del AA Ingentes cantidades de informacin disponible

    electrnicamente Mquinas muy potentes Cada vez ms importante la automatizacin

    de las tareas, por ejemplo, del lenguaje humano Los idiomas de la Unin Europea: cunto

    cuesta, en tiempo y personal, traducir TODOS los documentos a TODOS los idiomas de la UE?

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 13

    Aplicaciones

    Control de procesos industriales Cmo debe comportarse un sistema ante un conjunto de

    eventos concurrentes

    Control del trfico Establecer las modificaciones a las frecuencias de los

    semforos para hacer ms fluido el trfico

    Diagnsticos mdicos Ayuda al diagnstico por los sntomas y pruebas realizadas

    Robots Contestadores automticos

    Qu informacin desea? Carreteras cortadas en Huesca Lo siento no tengo informacin sobre muescas en jarreterasholgadas

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 14

    Aplicaciones

    El AA tiene muchas reas de aplicacin, centrmonos en el Lenguaje Natural Prcticamente todas

    Anlisis sintctico y morfolgico Recuperacin de informacin Extraccin de informacin Bsqueda de respuestas Traduccin automtica Reconocimiento y generacin de voz Creacin de resmenes Minera de textos

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 15

    El caso particular del Lenguaje Natural

    Los problemas de clasificacin son uno de los casos particulares del AA Las TLH son, en general, problemas de

    clasificacin clasificar = ordenar en clases

    cama = nombre dormir = verbo bonito = nombre o adjetivo?

    Quiero dormir en la cama con un bonito pijama

    clase = una de las opciones de anotacin contexto = informacin que nos permite decidir

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 16

    Lo que veremos

    El aprendizaje automtico en general La importancia de la informacin de

    aprendizaje qu seleccionar, cmo usarlo

    algunos mtodos de AA ejemplos, descripciones de tareas

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 17

    ClasificaciClasificacin de mn de mtodos de todos de Aprendizaje AutomAprendizaje Automticotico

    aprendizaje y clasificacin representacin de ejemplos de aprendizaje el problema de la dispersin de datos en TLH

    IntroduccinClasificacin de mtodos de AAAA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 18

    Clasificacin de Mtodos

    Segn la naturaleza del conocimiento simblico subsimblico

    Por la forma del aprendizaje supervisado no supervisado

    Por las tcnicas empleadas aprendizaje estadstico razonamiento inductivo

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 19

    Clasificacin de Mtodos

    Segn la naturaleza del conocimiento simblico

    Representacin explcita (se reconoce lo que dice el ejemplo)

    Subsimblico representacin no directamente

    interpretable por un humano, codificada

    Por la forma del aprendizaje Por las tcnicas empleadas

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 20

    Clasificacin de Mtodos

    Segn la naturaleza del conocimiento Por la forma del aprendizaje

    Supervisado Los ejemplos estn previamente anotados,

    se conoce la clase a la que pertenece cada uno

    no supervisado No hay anotacin, se agrupan

    automticamente los ejemplos en categoras (preestablecidas o no)

    Por las tcnicas empleadas

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 21

    Clasificacin de Mtodos

    Segn la naturaleza del conocimiento Por la forma del aprendizaje Por las tcnicas empleadas

    aprendizaje estadstico Obtencin de un modelo de probabilidad a partir de

    un conjunto de observaciones

    razonamiento inductivo Modalidad de razonamiento no deductivo que

    consiste en obtener conclusiones generales a partir de premisas que contienen datos particulares.cuervo1: negro, cuervo2: negro cuervo1000: negro todos los cuervos son negros

    (Wikipedia)

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 22

    Otra clasificacin de mtodos

    Aprendizaje estadstico HMM, Bayesian Networks, Maximum Entropy

    Tradicionales de la IA Decision trees/lists, Exemplar-based learning, Rule induction,

    Neural Networks, etc.

    Del rea Computational Learning Theory (CoLT) Winnow, AdaBoost, SVMs, etc.

    Combinacin de clasificadores cmo hacer la combinacin

    Aprendizaje semi-supervisado bootstrapping, superar el cuello de botella de la adquisicin

    de conocimiento

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 23

    Interesados en

    Aprendizaje estadstico HMM, Bayesian Networks, Maximum Entropy

    Tradicionales de la IA Decision trees/lists, Exemplar-based learning, Rule induction,

    Neural Networks, etc.

    Del rea Computational Learning Theory (CoLT) Winnow, AdaBoost, Support Vector Machines, etc.

    Combinacin de clasificadores cmo hacer la combinacin

    Aprendizaje semi-supervisado bootstrapping, superar el cuello de botella de la adquisicin

    de conocimiento

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 24

    Aprendizaje automAprendizaje automtico basado en tico basado en corpus textualescorpus textuales

    IntroduccinClasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 25

    corpus textuales

    Para aprender necesitamos datos, ejemplos

    El AA para las TLH se basa en corpus textuales

    documentos artculos de prensa transcripciones de conversaciones

    Depende de la tarea, contienen ms o menos anotacin

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 26

    Qu es un corpus

    Un conjunto de ejemplos Anotado, si estn marcadas las categoras que

    nos interesan No anotado

    Algunos y famosos Noticias: EFE, WSJ, AA Heterogneos: Brown, BNC, LexEsp

    Todos ellos son la base para obtener nuevos corpus anotados con informacin morfolgica, sintctica, semntica DSO, SemCor, Senseval, Penn Treebank

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 27

    Qu es un corpus

    Por ejemplo, LexEspCLiC dispone actualmente de un corpus de 6 millones de ocurrencias anotado morfolgica y sintcticamente mediante sus propias herramientas. Este corpus es el resultado de los proyectos de investigacin Lexesp-I (APC 93-0122) y Lexesp-II (APC 96-0125) y se compone de textos de diversos gneros: prensa, ensayo, novela, revistas, artculos de divulgacin cientfica, etc.

    http://clic.fil.ub.es/

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 28

    Problemas de clasificacin

    Generalmente, el AA ve las TLH como problemas de clasificacin

    Ejemplo: un filtro contra el correo basura el problema: hay correos que quiero leer

    (deseados) y correos que no (no_deseados) hay alguna forma de conseguir clasificarlos

    automticamente?

    la solucin: entrenar a un clasificador basado en AA que asigne la etiqueta apropiada a los mensajes nuevos

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 29

    Problemas de clasificacinUn filtro anti-spam

    Correos antiguosy clasifi-cados

    Aprendiz Clasificador

    Correos nuevosdatos

    del clasificador

    Correos clasificados

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 30

    Correos antiguosy clasifi-cados

    Aprendiz Clasificador

    Correos nuevosdatos

    del clasificador

    Correos clasificados

    Problemas de clasificacinUn filtro anti-spamejemplos de aprendizaje

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 31

    Correos antiguosy clasifi-cados

    Aprendiz Clasificador

    Correos nuevosdatos

    del clasificador

    Correos clasificados

    Problemas de clasificacinUn filtro anti-spamejemplos de aprendizaje

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

    From From -- Wed Nov 07 16:22:29 2001Wed Nov 07 16:22:29 2001Received: from aitana.cpd.ua.es (aitana.cpd.ua.es [193.145.233.5Received: from aitana.cpd.ua.es (aitana.cpd.ua.es [193.145.233.5])])

    by aitana.cpd.ua.es (8.9.3/8.9.3) with ESMTP id OAA25794;by aitana.cpd.ua.es (8.9.3/8.9.3) with ESMTP id OAA25794;Wed, 7 Nov 2001 14:51:59 +0100Wed, 7 Nov 2001 14:51:59 +0100

    Received: from altea.dlsi.ua.es (altea.dlsi.ua.es [193.145.232.9Received: from altea.dlsi.ua.es (altea.dlsi.ua.es [193.145.232.97])7])by aitana.cpd.ua.es (8.9.3/8.9.3) with ESMTP id OAA54870;by aitana.cpd.ua.es (8.9.3/8.9.3) with ESMTP id OAA54870;Wed, 7 Nov 2001 14:51:58 +0100Wed, 7 Nov 2001 14:51:58 +0100

    Received: from aitana.cpd.ua.es (aitana.cpd.ua.es [193.145.233.5Received: from aitana.cpd.ua.es (aitana.cpd.ua.es [193.145.233.5])])by altea.dlsi.ua.es (8.9.3/8.9.3/Debian 8.9.3by altea.dlsi.ua.es (8.9.3/8.9.3/Debian 8.9.3--21) with ESMTP id 21) with ESMTP id

    OAA29856OAA29856for ; Wed, 7 Nov 2001 14:51:56 +0100for ; Wed, 7 Nov 2001 14:51:56 +0100

    Received: from aitana.cpd.ua.es (aitana.cpd.ua.es [193.145.233.5Received: from aitana.cpd.ua.es (aitana.cpd.ua.es [193.145.233.5])])by aitana.cpd.ua.es (8.9.3/8.9.3) with ESMTP id OAA54766by aitana.cpd.ua.es (8.9.3/8.9.3) with ESMTP id OAA54766for ; Wed, 7 Nov 2001 14:51:58 +0100for ; Wed, 7 Nov 2001 14:51:58 +0100

    Received: from ua.es ([172.16.242.69])Received: from ua.es ([172.16.242.69])by aitana.cpd.ua.es (8.9.3/8.9.3) with ESMTP id OAA54764by aitana.cpd.ua.es (8.9.3/8.9.3) with ESMTP id OAA54764for ; Wed, 7 Nov 2001 14:51:57 +0100for ; Wed, 7 Nov 2001 14:51:57 +0100

    MessageMessage--ID: ID: Date: Wed, 07 Nov 2001 14:52:42 +0100Date: Wed, 07 Nov 2001 14:52:42 +0100From: Sergio =?isoFrom: Sergio =?iso--88598859--1?Q?Luj=E1n?= Mora 1?Q?Luj=E1n?= Mora Organization: DLSI Organization: DLSI -- Universidad de AlicanteUniversidad de AlicanteXX--Mailer: Mozilla 4.78 [en] (Windows NT 5.0; U)Mailer: Mozilla 4.78 [en] (Windows NT 5.0; U)XX--AcceptAccept--Language: esLanguage: es--ES,en,pdfES,en,pdfMIMEMIME--Version: 1.0Version: 1.0To: [email protected]: [email protected]

  • ILN 2005-06Aprendizaje Automtico 32

    Correos antiguosy clasifi-cados

    Aprendiz Clasificador

    Correos nuevosdatos

    del clasificador

    Correos clasificados

    Problemas de clasificacinUn filtro anti-spamejemplos de aprendizaje

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

    Subject: [Fwd: (DBWORLD) NLIS 2002 Subject: [Fwd: (DBWORLD) NLIS 2002 -- Call for Papers]Call for Papers]ContentContent--Type: multipart/mixed;Type: multipart/mixed;boundary="boundary="------------------------7095D3B8C13D3939F5F1329D"7095D3B8C13D3939F5F1329D"

    ContentContent--TransferTransfer--Encoding: 8bitEncoding: 8bitStatus: OStatus: OXX--MozillaMozilla--Status: 8001Status: 8001XX--MozillaMozilla--Status2: 00000000Status2: 00000000XX--UIDL: 3be9357a00000005UIDL: 3be9357a00000005This is a multiThis is a multi--part message in MIME format.part message in MIME format.----------------------------7095D3B8C13D3939F5F1329D7095D3B8C13D3939F5F1329DContentContent--Type: text/plain; charset=isoType: text/plain; charset=iso--88598859--11ContentContent--TransferTransfer--Encoding: 8bitEncoding: 8bitHola.Hola.Os reenvOs reenvo un CFP sobre lenguaje natural. Supongo que ya lo o un CFP sobre lenguaje natural. Supongo que ya lo tendrtendris...is...pero por si las moscas.pero por si las moscas.----Sergio LujSergio Lujn Moran MoraDpto. Lenguajes y Sistemas InformDpto. Lenguajes y Sistemas InformticosticosUniversidad de AlicanteUniversidad de AlicanteApdo. de correos 99Apdo. de correos 99EE--03080 Alicante03080 AlicanteSpainSpain

  • ILN 2005-06Aprendizaje Automtico 33

    Correos antiguosy clasifi-cados

    Aprendiz Clasificador

    Correos nuevosdatos

    del clasificador

    Correos clasificados

    Problemas de clasificacinUn filtro anti-spamejemplos de aprendizaje

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

    Subject: [Fwd: (DBWORLD) NLIS 2002 Subject: [Fwd: (DBWORLD) NLIS 2002 -- Call for Papers]Call for Papers]ContentContent--Type: multipart/mixed;Type: multipart/mixed;boundary="boundary="------------------------7095D3B8C13D3939F5F1329D"7095D3B8C13D3939F5F1329D"

    ContentContent--TransferTransfer--Encoding: 8bitEncoding: 8bitStatus: OStatus: OXX--MozillaMozilla--Status: 8001Status: 8001XX--MozillaMozilla--Status2: 00000000Status2: 00000000XX--UIDL: 3be9357a00000005UIDL: 3be9357a00000005This is a multiThis is a multi--part message in MIME format.part message in MIME format.----------------------------7095D3B8C13D3939F5F1329D7095D3B8C13D3939F5F1329DContentContent--Type: text/plain; charset=isoType: text/plain; charset=iso--88598859--11ContentContent--TransferTransfer--Encoding: 8bitEncoding: 8bitHola.Hola.Os reenvOs reenvo un CFP sobre lenguaje natural. Supongo que ya lo o un CFP sobre lenguaje natural. Supongo que ya lo tendrtendris...is...pero por si las moscas.pero por si las moscas.----Sergio LujSergio Lujn Moran MoraDpto. Lenguajes y Sistemas InformDpto. Lenguajes y Sistemas InformticosticosUniversidad de AlicanteUniversidad de AlicanteApdo. de correos 99Apdo. de correos 99EE--03080 Alicante03080 AlicanteSpainSpain

    ccmo introduzco esta informacimo introduzco esta informacin en el n en el aprendizaprendiz

  • ILN 2005-06Aprendizaje Automtico 34

    Correos antiguosy clasifi-cados

    Aprendiz Clasificador

    Correos nuevosdatos

    del clasificador

    Correos clasificados

    Problemas de clasificacinUn filtro anti-spamrepresentacin de la informacin

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

    From - Wed Nov 07 16:22:29 2001Received: from aitana.cpd.ua.es (aitana.cpd.ua.es [193.145.233.5])

    by aitana.cpd.ua.es (8.9.3/8.9.3) with ESMTP id OAA25794;Wed, 7 Nov 2001 14:51:59 +0100

    Received: from altea.dlsi.ua.es (altea.dlsi.ua.es [193.145.232.97])by aitana.cpd.ua.es (8.9.3/8.9.3) with ESMTP id OAA54870;Wed, 7 Nov 2001 14:51:58 +0100

    Received: from aitana.cpd.ua.es (aitana.cpd.ua.es [193.145.233.5])by altea.dlsi.ua.es (8.9.3/8.9.3/Debian 8.9.3-21) with ESMTP id OAA29856for ; Wed, 7 Nov 2001 14:51:56 +0100

    Received: from aitana.cpd.ua.es (aitana.cpd.ua.es [193.145.233.5])by aitana.cpd.ua.es (8.9.3/8.9.3) with ESMTP id OAA54766for ; Wed, 7 Nov 2001 14:51:58 +0100

    ReceivedReceived:: fromfrom ua.es ([172.16.242.69])ua.es ([172.16.242.69])byby aitana.cpd.ua.esaitana.cpd.ua.es (8.9.3/8.9.3) with ESMTP id OAA54764for ; Wed, 7 Nov 2001 14:51:57 +0100

    Message-ID: Date: Wed, 07 Nov 2001 14:52:42 +0100

    FromFrom:: Sergio =?isoSergio =?iso--88598859--1?Q?Luj=E1n?= MoraOrganization: DLSI - Universidad de AlicanteX-Mailer: Mozilla 4.78 [en] (Windows NT 5.0; U)X-Accept-Language: es-ES,en,pdfMIME-Version: 1.0

    ToTo: : [email protected]@dlsi.ua.esSubjectSubject: [: [Fwd: (DBWORLD) NLIS 2002 Fwd: (DBWORLD) NLIS 2002 -- Call for PapersCall for Papers]]Content-Type: multipart/mixed;boundary="------------7095D3B8C13D3939F5F1329D"

    Content-Transfer-Encoding: 8bitStatus: OX-Mozilla-Status: 8001X-Mozilla-Status2: 00000000X-UIDL: 3be9357a00000005This is a multi-part message in MIME format.--------------7095D3B8C13D3939F5F1329DContent-Type: text/plain; charset=iso-8859-1Content-Transfer-Encoding: 8bitHola.Os reenvo un CFP sobre lenguaje natural. Supongo que ya lo tendris...pero por si las moscas.--Sergio Lujn MoraDpto. Lenguajes y Sistemas InformticosUniversidad de AlicanteApdo. de correos 99E-03080 AlicanteSpain

  • ILN 2005-06Aprendizaje Automtico 35

    Correos antiguosy clasifi-cados

    Aprendiz Clasificador

    Correos nuevosdatos

    del clasificador

    Correos clasificados

    Problemas de clasificacinUn filtro anti-spamrepresentacin de la informacin

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

    From - Wed Nov 07 16:22:29 2001Received: from aitana.cpd.ua.es (aitana.cpd.ua.es [193.145.233.5])

    by aitana.cpd.ua.es (8.9.3/8.9.3) with ESMTP id OAA25794;Wed, 7 Nov 2001 14:51:59 +0100

    Received: from altea.dlsi.ua.es (altea.dlsi.ua.es [193.145.232.97])by aitana.cpd.ua.es (8.9.3/8.9.3) with ESMTP id OAA54870;Wed, 7 Nov 2001 14:51:58 +0100

    Received: from aitana.cpd.ua.es (aitana.cpd.ua.es [193.145.233.5])by altea.dlsi.ua.es (8.9.3/8.9.3/Debian 8.9.3-21) with ESMTP id OAA29856for ; Wed, 7 Nov 2001 14:51:56 +0100

    Received: from aitana.cpd.ua.es (aitana.cpd.ua.es [193.145.233.5])by aitana.cpd.ua.es (8.9.3/8.9.3) with ESMTP id OAA54766for ; Wed, 7 Nov 2001 14:51:58 +0100

    ReceivedReceived:: fromfrom ua.es ([172.16.242.69])ua.es ([172.16.242.69])byby aitana.cpd.ua.esaitana.cpd.ua.es (8.9.3/8.9.3) with ESMTP id OAA54764for ; Wed, 7 Nov 2001 14:51:57 +0100

    Message-ID: Date: Wed, 07 Nov 2001 14:52:42 +0100

    FromFrom:: Sergio =?isoSergio =?iso--88598859--1?Q?Luj=E1n?= MoraOrganization: DLSI - Universidad de AlicanteX-Mailer: Mozilla 4.78 [en] (Windows NT 5.0; U)X-Accept-Language: es-ES,en,pdfMIME-Version: 1.0

    ToTo: : [email protected]@dlsi.ua.esSubjectSubject: [: [Fwd: (DBWORLD) NLIS 2002 Fwd: (DBWORLD) NLIS 2002 -- Call for PapersCall for Papers]]Content-Type: multipart/mixed;boundary="------------7095D3B8C13D3939F5F1329D"

    Content-Transfer-Encoding: 8bitStatus: OX-Mozilla-Status: 8001X-Mozilla-Status2: 00000000X-UIDL: 3be9357a00000005This is a multi-part message in MIME format.--------------7095D3B8C13D3939F5F1329DContent-Type: text/plain; charset=iso-8859-1Content-Transfer-Encoding: 8bitHola.Os reenvo un CFP sobre lenguaje natural. Supongo que ya lo tendris...pero por si las moscas.--Sergio Lujn MoraDpto. Lenguajes y Sistemas InformticosUniversidad de AlicanteApdo. de correos 99E-03080 AlicanteSpain

    dir= [email protected]= Fwd;DBWORLD;NLIS;Call;for;Papersto= [email protected]= 0reply_to= receivedFrom= ua.es ([172.16.242.69])receivedBy= aitana.cpd.ua.es

    dir= [email protected]= Fwd;DBWORLD;NLIS;Call;for;Papersto= [email protected]= 0reply_to= receivedFrom= ua.es ([172.16.242.69])receivedBy= aitana.cpd.ua.es

  • ILN 2005-06Aprendizaje Automtico 36

    Correos antiguosy clasifi-cados

    Aprendiz Clasificador

    Correos nuevosdatos

    del clasificador

    Correos clasificados

    Problemas de clasificacinUn filtro anti-spamrepresentacin de la informacin

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

    Inbox1Inbox2

    Inbox3Inbox4Inbox5Inbox6Inbox7Inbox8Inbox9Inbox10Inbox11Inbox12Inbox13Inbox14Inbox15Inbox16Inbox17

  • ILN 2005-06Aprendizaje Automtico 37

    Correos antiguosy clasifi-cados

    Aprendiz Clasificador

    Correos nuevosdatos

    del clasificador

    Correos clasificados

    Problemas de clasificacinUn filtro anti-spamrepresentacin de la informacin

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

    Inbox1

    Inbox2Inbox3Inbox4Inbox5Inbox6Inbox7Inbox8Inbox9Inbox10Inbox11Inbox12Inbox13Inbox14Inbox15Inbox16Inbox17

  • ILN 2005-06Aprendizaje Automtico 38

    Correos antiguosy clasifi-cados

    Aprendiz Clasificador

    Correos nuevosdatos

    del clasificador

    Correos clasificados

    Problemas de clasificacinUn filtro anti-spamrepresentacin de la informacin

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

    Inbox1Inbox2

    Inbox3Inbox4Inbox5Inbox6Inbox7Inbox8Inbox9Inbox10Inbox11Inbox12Inbox13Inbox14Inbox15Inbox16Inbox17

  • ILN 2005-06Aprendizaje Automtico 39

    Problemas de clasificacinUn filtro anti-spam

    Correos antiguosy clasifi-cados

    Aprendiz Clasificador

    Correos nuevos

    Abstraccin

    datosdel

    clasificador

    Correos clasificados

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

    Correos antiguos y clasificados, resumidos

  • ILN 2005-06Aprendizaje Automtico 40

  • ILN 2005-06Aprendizaje Automtico 41

    Representacin de la informacin

    El AA como problemas de clasificacin de vectores de rasgos o atributos Representar el conocimiento con vectores de

    valores heterogneos Establecer las categoras, las clases Obtener funciones de prediccin de la clase

    para casos nuevos

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 42

    Representacin de la informacin

    Rasgos o atributos (features) Extraer la informacin esencial del contexto

    Xi = {xi1,xi2,,xin} valores discretos o reales el mtodo de ML determina la forma de representar

    estos datos (reglas, rboles de decisin, funciones booleanas...)

    Vectores de atributos aprendizaje (Xi ,Cj ) y clasificacin (Xk ,?)

    se conoce la clase!

    se conoce la clase!

    nuestro problema: clasificar Xknuestro problema: clasificar Xk

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 43

    Problemas de clasificacin

    Espacio de hechos X = {x1,x2,,xm}

    Conjunto de clases C = {c1, c2, , cn}

    Objetivo: funcin de clasificacin (clasificador)

    f : X C desconocida!...desconocida!...

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 44

    Problemas de clasificacin

    Conjunto de entrenamiento D X d D, f(d) es conocido

    Conjunto de clases C = {c1, c2, , cn}

    Objetivo: funcin de clasificacin h H : X C d D, h(d) = f(d)

    el resto de X se tratarn como predicciones

    mi limitado conocimiento del problema

    mi limitado conocimiento del problema

    no es tan fcilno es tan fcil

    si no, por qubamos a estar aqu?

    si no, por qubamos a estar aqu?

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

    utopa?utopa?

  • ILN 2005-06Aprendizaje Automtico 45

    Problemas de clasificacinEjemplo

    Ejemplo: clasificador anti-spam clasificacin de documentos

    clases: DESEADO, SPAM todos los correos del mundo, pasados presentes

    y futuros = X los que yo tengo en mi cuenta y que he clasificado

    a mano =D

    codificacin de ejemplos: atributos palabras en el asunto, direccin del remitente, dominio

    del remitente

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 46

    Problemas de clasificacinEjemploCunta informacin necesito?

    : DESEADO : SPAM

    : ? : ?

    APRENDIENDO:

    CLASIFICANDO:

    corpus de aprendizajecorpus de aprendizaje

    correos nuevoscorreos nuevos

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 47

    Problemas de clasificacinEjemploCunta informacin necesito?

    : DESEADO : SPAM : SPAM

    : ? : ?

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

    APRENDIENDO:

    CLASIFICANDO:

  • ILN 2005-06Aprendizaje Automtico 48

    Problemas de clasificacinEjemploCunta informacin necesito?

    : DESEADO : SPAM : SPAM : SPAM

    : ? : ?

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

    APRENDIENDO:

    CLASIFICANDO:

  • ILN 2005-06Aprendizaje Automtico 49

    Problemas de clasificacinEjemploCunta informacin necesito?

    : DESEADO : SPAM : SPAM : SPAM

    : ? : ?

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

    APRENDIENDO:

    CLASIFICANDO:

  • ILN 2005-06Aprendizaje Automtico 50

    Problemas de clasificacinEjemploCunta informacin necesito?

    : DESEADO : SPAM : SPAM : SPAM : DESEADO

    : ? : ?

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

    APRENDIENDO:

    CLASIFICANDO:

  • ILN 2005-06Aprendizaje Automtico 51

    Problemas de clasificacinEjemploCunta informacin necesito?

    : DESEADO : SPAM : SPAM : SPAM : DESEADO

    : ? : ?

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

    APRENDIENDO:

    CLASIFICANDO:

  • ILN 2005-06Aprendizaje Automtico 52

    Problemas de clasificacinEjemploCunta informacin necesito?

    : DESEADO : SPAM : SPAM : SPAM : DESEADO

    : ? : ?

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

    APRENDIENDO:

    CLASIFICANDO:

  • ILN 2005-06Aprendizaje Automtico 53

    Problemas de clasificacinEjemploCunta informacin necesito?

    : DESEADO : SPAM : SPAM : SPAM : DESEADO

    : ? : ?

    APRENDIENDO:

    CLASIFICANDO:

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 54

    APRENDIENDO:

    CLASIFICANDO:

    Problemas de clasificacinEjemploCunta informacin necesito?

    : DESEADO : SPAM : SPAM : SPAM : DESEADO

    : ? : ?

    cmoadquiero el conocimiento, encuentro

    relaciones entre atributos consigo la funcin de clasificacin?

    (no basta con la frecuencia de aparicin )

    cmoadquiero el conocimiento, encuentro

    relaciones entre atributos consigo la funcin de clasificacin?

    (no basta con la frecuencia de aparicin )

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 55

    Problemas de clasificacinObjetivos

    Sesgo inductivo (inductive bias) las elecciones que se realizan al disear,

    implementar y configurar un sistema de aprendizaje que conducen al sistema a aprender una generalizacin en lugar de otra (Mitchell,1980) Un mtodo sin sesgo es nicamente memorstico,

    no puede hacer predicciones sobre casos no aprendidos

    Un mtodo sin sesgo no puede adaptarse a situaciones (datos) nuevos

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 56

    Problemas de clasificacinDispersin de datos

    Tamao de la muestra El problema de la dispersin de datos

    Data sparseness

    e1 = Juan est esperndonos en el banco#2 de abajoe2 = El banco#1 devolvi los recibose3 = Bancos#1 hay muchos, elige el menos caroe4 = El pescador conoce la posicin de los bancos#3 peligrosos

    x1 = #2 (Juan, estar, esperar, abajo)x2 = #1 (devolver, recibo)x3 = #1 (haber, elegir, menos, caro)x4 = #3 (pescador, conocer, posicin, peligroso)

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 57

    Problemas de clasificacinDispersin de datos

    Tamao de la muestra El problema de la dispersin de datos

    Data sparseness

    e1 = Juan est esperndonos en el banco#2 de abajoe2 = El banco#1 devolvi los recibose3 = Bancos#1 hay muchos, elige el menos caroe4 = El pescador conoce la posicin de los bancos#3 peligrosos

    x1 = #2 (Juan, estar, esperar, abajo)x2 = #1 (devolver, recibo)x3 = #1 (haber, elegir, menos, caro)x4 = #3 (pescador, conocer, posicin, peligroso)

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

    f1=IN(e,Juan)=ciertof2=IN(e,estar)=ciertof3=IN(e,esperar)=ciertof4=IN(e,abajo)=ciertof5=IN(e,devolver)=ciertof6=IN(e,recibo)=ciertof7=IN(e,haber)=ciertof8=IN(e,elegir)=cierto

    f1=IN(e,Juan)=ciertof2=IN(e,estar)=ciertof3=IN(e,esperar)=ciertof4=IN(e,abajo)=ciertof5=IN(e,devolver)=ciertof6=IN(e,recibo)=ciertof7=IN(e,haber)=ciertof8=IN(e,elegir)=cierto

  • ILN 2005-06Aprendizaje Automtico 58

    Problemas de clasificacinDispersin de datos

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

    x1=100000000000000000000000000000000000000000...x2=000000010000000000000010000000000000000000...x3=000000000001000000000000000000000000000000...x4=000000000000001000000100000000000000000000...x5=010000000000000000000000100000000000000000...x6=000000010000000000000000000000000000000000...x7=000000000000000000000000000100000000001000...x8=000000000000000100000000000000000000000000...x9=100000000000000000000000000000000000000000...x10=000000000000000000000000000000000000000000...x11=000000000000000000000000000000000100000000...x12=000000000000000000000000000000000000000001...x13=010000000000000000000000000000000000000000...x14=000000000000000001000000000000000000010000...

    ...

    x1=100000000000000000000000000000000000000000...x2=000000010000000000000010000000000000000000...x3=000000000001000000000000000000000000000000...x4=000000000000001000000100000000000000000000...x5=010000000000000000000000100000000000000000...x6=000000010000000000000000000000000000000000...x7=000000000000000000000000000100000000001000...x8=000000000000000100000000000000000000000000...x9=100000000000000000000000000000000000000000...x10=000000000000000000000000000000000000000000...x11=000000000000000000000000000000000100000000...x12=000000000000000000000000000000000000000001...x13=010000000000000000000000000000000000000000...x14=000000000000000001000000000000000000010000...

    ...

  • ILN 2005-06Aprendizaje Automtico 59

    Problemas de clasificacinDispersin de datos

    Minimizar el error esperado estamos trabajando con un subconjunto del

    espacio de hechos (potencialmente infinito) buscamos una funcin que se parezca a la

    realno tenemos datos suficientes para saber cul es, el mtodo determina las condiciones para determinar ese parecido

    son frecuentes los problemas de sobreentrenamiento (sobreajuste, overfitting)

    ajuste excesivo a los datos de entrenamientotcnicas de alisado (smoothing), seleccin de atributos, ...

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 60

    Problemas de clasificacinSobre-sub ajuste

    Muestra

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 61

    Problemas de clasificacinSobre-sub ajuste

    Error de entrenamiento = error real?

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 62

    Problemas de clasificacinSobre-sub ajuste

    Subajuste (underfitting)

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 63

    Problemas de clasificacinSobre-sub ajuste

    muestra

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 64

    Problemas de clasificacinSobre-sub ajuste

    Error de entrenamiento = error real?

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 65

    Problemas de clasificacinSobre-sub ajuste

    Sobreajuste (overfitting)

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 66

    Problemas de clasificacinMtodos

    Descripcin de algunos mtodos Nave Bayes Mxima entropa

    Maximum entropy

    rboles de decisinDecision trees

    Mquinas de vector soporteSupport vector machines

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 67

    Problemas de clasificacinMtodosmtodos bayesianos

    Mtodos bayesianos (Mitchell 1997)

    Mtodo prctico para realizar inferencias a partir de los datos, induciendo modelos probabilsticosque despus sern usados para razonar (formular hiptesis) sobre nuevos valores observados.

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 68

    Problemas de clasificacinMtodosmtodos bayesianos

    Mtodos bayesianos ventajas

    asignan una probabilidad a cada hiptesis ordenador es nombre (s 0,75) ordenador es verbo (s 0,01) ordenador es adjetivo (s 0,24)

    permiten elegir entre varias opciones positivas slido enfoque terico

    Desventajas coste computacional alto

    reducir la complejidad de los modelos Nave Bayes, Redes Bayesianas

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 69

    Redes bayesianas En realidad, es habitual que haya

    dependencias entre las variables

    NB es muy sensible a variables irrelevantes o redundantes

    aportaciones de la teora de toma de decisiones, estadstica e inteligencia artificial

    Problemas de clasificacinMtodosredes bayesianas

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

    estornudaestornudacatarrocatarro

  • ILN 2005-06Aprendizaje Automtico 70

    Conocimiento cualitativo grafo dirigido acclico relaciones de independencia / dependencia

    Conocimiento cuantitativo distribuciones de probabilidad

    fuerza de las relaciones entre las variables

    Problemas de clasificacinMtodosredes bayesianas

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 71

    Est enfermo? Probabilidades sin evidencia

    Problemas de clasificacinMtodosredes bayesianas

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

    estornudaestornuda

    catarrocatarro p(cat)s = 0,06no = 0,94

    p(est)s = 0,15no = 0,85

    6 de cada 100 pacientes tienen

    catarro

    6 de cada 100 pacientes tienen

    catarro

    15 de cada 100 pacientes estornudan

    15 de cada 100 pacientes estornudan

  • ILN 2005-06Aprendizaje Automtico 72

    Aprender y clasificar Estimacin de las probabilidades condicionales

    Problemas de clasificacinMtodosredes bayesianas

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

    estornudaestornuda

    catarrocatarro p(cat)s = 1,00no = 0,00

    p(est)s = 0,92no = 0,08

    ste tiene catarroste tiene catarro

    es posible que tenga catarro y estornude?

    es posible que tenga catarro y estornude?

  • ILN 2005-06Aprendizaje Automtico 73

    Redes bayesianas para clasificacin Nave Bayes es la RB ms simple

    sin dependencia entre variables

    TAN, BAN Tree Augmented Nave Bayes, Bayesian Network Augmented

    Nave Bayes la clase se trata de forma separada a los atributos

    Otros todas las variables se tratan igual

    existen varios algoritmos para hacer la estimacin en todos ellos

    B, BIC, K2, EM, PC

    Problemas de clasificacinMtodosredes bayesianas

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 74

    Software Elvira (http://leo.ugr.es/elvira/) WEKA (http://www.cs.waikato.ac.nz/ml/weka/) Listas de software

    http://www.cs.ubc.ca/~murphyk/Bayes/bnsoft.html http://directory.google.com/Top/Computers/Artificial_Int

    elligence/Belief_Networks/Software/

    Problemas de clasificacinMtodosredes bayesianas

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

    http://leo.ugr.es/elvira/
  • ILN 2005-06Aprendizaje Automtico 75

    Modelos de probabilidad de mxima entropa (ME)

    Cuando no tenemos informacin suficiente para distinguir entre dos eventos la mejor estrategia es considerarlos equiprobables(Laplace)

    Maximizar la entropa a partir de informacin incompleta

    Estar de acuerdo con todo aquello que es conocido Evitar asumir nada que sea desconocido

    Problemas de clasificacinMtodosmxima entropa

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 76

    Modelos de probabilidad de mxima entropa (ME) (Lau et al. 1993)

    Reconocimiento del habla (speech recognition)

    (Berger et al. 1996) Clasificacin de documentos

    (Ratnaparkhi, 1998) POS-tagging Anlisis sintctico (parsing) Deteccin oraciones (sentence boundary detection)

    Problemas de clasificacinMtodosmxima entropa

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 77

    Modelos de probabilidad de ME Basado en rasgos o atributos (features)

    =

    =casootroen 0

    ')(si1),(

    ccxcpcxf

    contexto

    claseCaracterstica a

    observar

    Clase asociada

    Problemas de clasificacinMtodosmxima entropa

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 78

    Clasificacin de contextos no anotadosf1(x,c) = 1 si w-1=el y c= s1f2(x,c) = 1 si w-1=el y c= s2f3(x,c) = 1 si w-2=es y c= s1f4(x,c) = 1 si w+1=de y c= s2

    x = Ese es el banco#? que mejor inters da.

    p(s1|x)p(s2|x)

    El contexto x se clasificara como s2

    = p(1010)= p(0100)

    = 0.4= 0.6

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

    =

    =K

    i

    cxfi

    i

    xZxcp

    1

    ),(

    )(1)|(

    Problemas de clasificacinMtodosmxima entropa

  • ILN 2005-06Aprendizaje Automtico 79

    Ventajas combina atributos (features) heterogneos aproximacin general al PLN, reusabilidad buen comportamiento general

    Desventajas El proceso de estimacin de los coeficientes es

    costoso computacionalmente Sufre de sobreentrenamiento en algunos casos Necesita suavizado, seleccin de atributos, ...

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

    Problemas de clasificacinMtodosmxima entropa

  • ILN 2005-06Aprendizaje Automtico 80

    rboles de decisin (decision trees) Una manera de representar reglas implcitas

    en los datos de aprendizaje, con estructuras jerrquicas que particionan esos datos recursivamente

    Utilizados en reconocimiento de patrones, estadstica, aprendizaje automtico, descripcin, clasificacin, generalizacin

    Perspectiva del aprendizaje automtico

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

    Problemas de clasificacinMtodosrboles de decisin

  • ILN 2005-06Aprendizaje Automtico 81

    Ejemplo: debo operarme?

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

    Problemas de clasificacinMtodosrboles de decisin

    edad?edad?

    astigmatismo?astigmatismo?

    miopa?miopa?

    miopa?miopa?

    SS

    SSNONO

    NONO

    NONONONO

    NONO

    no

    s

    2550

    6

    1,510

  • ILN 2005-06Aprendizaje Automtico 82

    Ejemplo: reglas derivables

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

    Problemas de clasificacinMtodosrboles de decisin

    edad?edad?

    astigmatismo?astigmatismo?

    miopa?miopa?

    miopa?miopa?

    SS

    SSNO

    NO

    NONO

    NONO NO

    NO

    NONO

    no

    s

    2550

    6

    1,510

    operacin?SI astigmatismo=NO Y 25

  • ILN 2005-06Aprendizaje Automtico 83

    Ventajas Representacin comprensible del

    conocimiento Algoritmos y variantes muy estudiados Fcil traduccin a reglas Software disponible

    CART (Breiman et al. 84),ID3, C4.5, C5.0 (Quinlan 86,93,98),ASSISTANT, ASSISTANT-R (Cestnik et al. 87) (Kononenko et al. 95)

    Integracin fcil en sistemas multi-clasificador

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

    Problemas de clasificacinMtodosrboles de decisin

  • ILN 2005-06Aprendizaje Automtico 84

    Desventajas Coste computacional cuando la cantidad de

    datos es grande (ejemplos, atributos, ) Dispersin de datos AA.DD. es un modelo con gran variabilidad Tendencia al sobreajuste, necesidad de poda

    y reestructuracin Mucho esfuerzo para afinar el proceso

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

    Problemas de clasificacinMtodosrboles de decisin

  • ILN 2005-06Aprendizaje Automtico 85

    Mquinas vector soporte (SVM, support vector machines)

    sistemas de entrenamiento que usan un espacio de hiptesis de funciones lineales en un espacio de atributos de alta dimensionalidad, entrenados con un algoritmo de aprendizaje de la teora de la optimizacin que implementa un sesgo de aprendizaje derivado de la teora del aprendizaje estadstico

    Cristianini & Shawe-Taylor, 2000

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

    Problemas de clasificacinMtodosmquinas vector soporte

  • ILN 2005-06Aprendizaje Automtico 86

    Problemas de clasificacinMtodosmquinas vector soporte

    Descripcin SVM pertenecen a la

    familia de los clasificadores lineales

    inducen separadores lineales (hiperplanos) en espacios de muy alta dimensionalidad (funciones ncleo, kernels) con un sesgo inductivo muy particular (maximizacin del margen)

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 87

    Problemas de clasificacinMtodosmquinas vector soporte

    Clasificacin en espacio bidimensional

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

    b+= xwx )h(

    >+==

    casootroenxhsi

    signo1

    0)(1))h((f(x) x

    w

    ++ +

    +

    ++

    _

    _ _ _

    __

    __

    _wb

    po fale

  • ILN 2005-06Aprendizaje Automtico 88

    Problemas de clasificacinMtodosmquinas vector soporte

    Objetivo (sesgo inductivo) maximizar el margen geomtrico

    hiperplano en la posicin ms neutra respecto de los conjuntos de clases

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 89

    Problemas de clasificacinMtodosmquinas vector soporte

    Objetivo (sesgo inductivo) maximizar el margen geomtrico

    hiperplano en la posicin ms neutra respecto de los conjuntos de clases

    slo tiene en cuenta los puntos en la frontera (los ms dudosos), no se arrima a la clase mas poblada

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

    hiperplano con el margen mximo

    vectores soportevectores soportevectores soporte

  • ILN 2005-06Aprendizaje Automtico 90

    Problemas de clasificacinMtodosmquinas vector soporte

    Diferentes problemas, diferentes objetivos no todos son linealmente separables

    lo normal funciones ncleo

    mapean el espacio de atributos de entrada a un espacio de dimensin mucho mayor y que s es separable

    a veces no interesa obtener el mejorseparador algunos ejemplos de aprendizaje pueden no ser

    correctos SVM con margen blando (soft margin)

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 91

    Problemas de clasificacinMtodosmquinas vector soporte

    Ventajas eficiencia en espacios de alta dimensionalidad reduce el peligro de sobreentrenamiento se basa en algoritmos de optimizacin cuadrtica no slo para clasificacin: regresin, clustering utilizado con xito en muchas aplicaciones: OCR,

    visin, bioinformtica, reconocimiento del habla, categorizacin de textos, anlisis morfolgico, sintctico y semntico,

    Inconvenientes es difcil encontrar los parmetros adecuados para

    el aprendizaje (convergencia a la solucin ptima, dispersin de datos, )

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 92

    Problemas de clasificacinMtodosmquinas vector soporte

    Ms ventajas informacin disponible

    www.kernel-machines.org

    bastantes implementaciones de libre distribucin

    LIBSVM (www.csie.ntu.edu.tw/~cjlin/libsvm) SVMlight (svmlight.joachims.org) SVMTorch (www.idiap.ch/learnings/SVMTorch.html)

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

  • Aprendizaje Automtico ILN 2005-06

    Aprendizaje Automtico (y 2)

    Armando Surez

  • ILN 2005-06Aprendizaje Automtico 94

    Aproximaciones a las tareas de las Aproximaciones a las tareas de las TecnologTecnologas del Lenguaje Humanoas del Lenguaje Humano

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLHUn caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 95

    Tratamiento de la ambigedad

    Tratamiento de la ambigedad del LN mediante tcnicas de aprendizaje automtico

    Acercamiento a unos cuantas tareas de las TLH bsicamente, casos simples de representacin de

    ejemplos de aprendizaje

    Las soluciones aportadas no son las ms eficaces, slo ilustrativas

    Distintas aproximaciones segn el problema a tratar

    Iniciacin en la descripcin de los contextos por la extraccin de la informacin relevante (?)

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLHUn caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 96

    Tratamiento de la ambigedad

    Tratamiento de la ambigedad del LN mediante tcnicas de aprendizaje automtico

    Segmentador de frases Reconocimiento de entidades Clasificacin de preguntas (QA) Anlisis morfolgico Desambiguacin del sentido de las palabras

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLHUn caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 97

    Tratamiento de la ambigedadSegmentacin en frasesDefinicin de la tarea

    Segmentador en frases Determinar los lmites de la frase

    Inicio = mayscula, final = punto

    O1-La Reina visit a su nuera en la clnica Ruber.O2-Ambas dos se quieren mucho.

    La Reina visit a su nuera en la clnica Ruber. Ambas dos se quieren mucho.

    La Reina visit a su nuera en la clnica Ruber. Ambas dos se quieren mucho.

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLHUn caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 98

    Tratamiento de la ambigedadSegmentacin en frasesDefinicin de la tarea

    Segmentador en frases Determinar los lmites de la frase

    Inicio = mayscula, final = punto

    O1-S.O2-M.O3-Ambas dos se quieren mucho.

    S.M. la Reina visit a su nuera en la clnica Ruber. Ambas dos se quieren mucho.

    S.M. la Reina visit a su nuera en la clnica Ruber. Ambas dos se quieren mucho.

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLHUn caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 99

    Tratamiento de la ambigedadSegmentacin en frasesDefinicin de la tarea

    Segmentador en frases Determinar los lmites de la frase

    Inicio = mayscula, final = punto

    O1-S.O2-M.

    S.M. la Reina visit a su nuera en la clnica Ruber. Ambas dos, se quieren mucho?

    S.M. la Reina visit a su nuera en la clnica Ruber. Ambas dos, se quieren mucho?

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLHUn caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 100

    Tratamiento de la ambigedadSegmentacin en frasesDefinicin de la tarea

    Hiptesis de trabajo Suponemos correccin ortogrfica

    y los signos de puntuacin no estn separados.

    Clasificacin de tokens Buscamos slo el final de la frase

    Slo interesa clasificar: x. x! x? x)

    Clases: { s | no } Es final de frase o no lo es

    No necesariamente es el mejor modelo

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLHUn caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 101

    Tratamiento de la ambigedadSegmentacin en frasesDefinicin de la tarea

    Clasificacin de tokens relevantes

    S.M. la Reina visit a su nuera en la clnica Ruber. Ambas dos, se quieren mucho?

    SS SS

    NoNo

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLHUn caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 102

    Tratamiento de la ambigedadSegmentacin en frasesEleccin de rasgos

    Rasgos Prefijo Sufijo Si el candidato es un tratamiento o dato

    corporativo Sr. Dr. Sa. D. S.A. S.L. Co.

    Si la palabra anterior empieza por mayscula Si la palabra posterior empieza por mayscula

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLHUn caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 103

    Tratamiento de la ambigedadSegmentacin en frasesEleccin de rasgos

    Rasgos

    Candidato Si el candidato es un

    tratamiento o dato corporativo

    Sr. Dr. Sa. D. S.A. S.L. Co.

    Si la palabra anterior empieza por mayscula

    Si la palabra posterior empieza por mayscula

    S.M

    0

    No aplicable

    0

    S.M. la Reina visit a su nuera en la clnica Ruber. Ambas dos, se quieren mucho?

    Tened en cuenta que esto no es lo habitual, habr

    muchas, muchasoraciones

    Tened en cuenta que esto no es lo habitual, habr

    muchas, muchasoraciones

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLHUn caso prctico: resolucin de la ambigedad lxica

    Porque no hay espacio detrs del punto

    Porque no hay espacio detrs del punto

  • ILN 2005-06Aprendizaje Automtico 104

    Tratamiento de la ambigedadSegmentacin en frasesEleccin de rasgos

    Rasgos

    Candidato Si el candidato es un

    tratamiento o dato corporativo

    Sr. Dr. Sa. D. S.A. S.L. Co.

    Si la palabra anterior empieza por mayscula

    Si la palabra posterior empieza por mayscula

    Ruber

    0

    0

    1

    S.M. la Reina visit a su nuera en la clnica Ruber. Ambas dos, se quieren mucho?

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLHUn caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 105

    Tratamiento de la ambigedadSegmentacin en frasesEleccin de rasgos

    Rasgos

    Candidato Si el candidato es un

    tratamiento o dato corporativo

    Sr. Dr. Sa. D. S.A. S.L. Co.

    Si la palabra anterior empieza por mayscula

    Si la palabra posterior empieza por mayscula

    mucho

    0

    0

    No aplicable

    S.M. la Reina visit a su nuera en la clnica Ruber. Ambas dos, se quieren mucho?

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLHUn caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 106

    Tratamiento de la ambigedadSegmentacin en frasesEleccin de rasgos

    Rasgos Resumiendo

    ejemplos de aprendizaje

    e1(S.M,0,-,0: NO)e2(Ruber,0,0,1: S)e3(mucho,0,0,-: S)

    S.M. la Reina visit a su nuera en la clnica Ruber. Ambas dos, se quieren mucho?

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLHUn caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 107

    Tratamiento de la ambigedadSegmentacin en frasesEleccin de rasgos

    No siempre se cumple la correccin ortogrfica

    Candidato Si el candidato es un tratamiento o dato

    corporativo Sr. Dr. Sa. D. S.A. S.L. Co.

    Si la palabra anterior empieza por mayscula Si la palabra posterior empieza por mayscula Prefijo S.M. Sufijo S.M.

    y toda la informacin que se pueda aadir

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLHUn caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 108

    Tratamiento de la ambigedadSegmentacin en frasesEleccin de rasgos

    No siempre se cumple la correccin ortogrfica O no siempre es tan sencillo

    Actuar en L.A. S. M. La Reinadel cabaret . .

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLHUn caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 109

    Tratamiento de la ambigedadSegmentacin en frasesms difcil

    TeletiposG00D EVENING GIANNI VERSACE ONE OF THE WORLDS LEADING FASHION DESIGNERS HAS BEEN MURDERED IN MIAMI POLICE SAY IT WAS A PLANNED KILLING CARRIED OUT LIKE AN EXECUTION SCHOOLS INSPECTIONS ARE GOING TO BE TOUGHER TO FORCE BAD TEACHERS OUT AND THE FOUR THOUSAND COUPLES WH0 SHARED THE QUEENS GOLDEN DAY

    Good evening. Gianni Versace, one of the world's leading fashion designers, has been murdered in Miami. Police say it was a planned killing carried out like an execution. Schools inspections are going to be tougher to force bad teachers out. And the four thousand couples who shared the Queen's golden day.

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLHUn caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 110

    Tratamiento de la ambigedadreconocimiento de entidades

    Reconocimiento y clasificacin de entidades Porciones de texto que representan entidades,

    nombres propios dos problemas:

    reconocer qu es una entidaddnde empieza, dnde termina

    clasificar la entidadclases: persona, lugar, organizacin

    El estadio Santiago Bernabeu ser cerrado por...

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLHUn caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 111

    Tratamiento de la ambigedadreconocimiento de entidadesmodelo BIO

    Reconocimiento de entidades modelo BIO (Begin Inside Outside) Clasificacin estndar Clasificacin secuencial

    la decisin de etiquetar un cierto ejemplo depende, tambin, de las etiquetas anteriores

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 112

    Tratamiento de la ambigedadreconocimiento de entidadesmodelo BIO

    BIO Clasificar tokens Clases: { b | i | o }

    El estadio Santiago Bernabeu ser cerrado por...o b i i o o o

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 113

    Tratamiento de la ambigedadreconocimiento de entidadeseleccin de rasgos

    BIOw-2 w-1 t w+1 w+2

    Palabra objetivott empieza por mayscula?

    Palabras del contextow-2, w-1, w+1, w+2

    Empiezan por mayscula?mw-2, mw-1, mw+1, mw+2

    colocaciones (bigramas)w-2w-1, w-2w+1, w-2w+2, w-1w+1, w-1w+2, w+1w+2

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 114

    Tratamiento de la ambigedadreconocimiento de entidadeseleccin de rasgos

    RepresentacinEl Doctor Palomar inaugur la exposicin de relojes antiguos.

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

    t

    t empieza por mayscula?

    w-2, w-1, w+1, w+2

    mw-2, mw-1, mw+1, mw+2

    w-2w-1, w-2w+1,w-2w+2,w-1w+1,w-1w+2,w+1w+2

    el

    s

    doctor palomar

    1 1

    doctor_palomar

  • ILN 2005-06Aprendizaje Automtico 115

    Tratamiento de la ambigedadreconocimiento de entidadeseleccin de rasgos

    RepresentacinEl Doctor Palomar inaugur la exposicin de relojes antiguos.

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

    t

    t empieza por mayscula?

    w-2, w-1, w+1, w+2

    mw-2, mw-1, mw+1, mw+2

    w-2w-1, w-2w+1,w-2w+2,w-1w+1,w-1w+2,w+1w+2

    doctor

    s

    El palomar inaugur

    1 1 0

    el_palomar el_inaugurpalomar_inaugur

  • ILN 2005-06Aprendizaje Automtico 116

    Tratamiento de la ambigedadreconocimiento de entidadeseleccin de rasgos

    t t empieza por

    mayscula? w-2, w-1, w+1, w+2 mw-2, mw-1, mw+1,

    mw+2 w-2w-1, w-2w+1,w-2w+2,

    w-1w+1,w-1w+2,w+1w+2

    RepresentacinEl Doctor Palomar inaugur la exposicin de relojes antiguos.

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

    el 1 doctor palomar 1 1 doctor_palomar

    doctor 1 El palomar inaugur 1 1 0 el_palomar el_inaugur palomar_inaugur

    palomar 1 el doctor inaugur la 1 1 0 0 el_doctorel_inaugur el_la doctor_inaugur doctor_lainaugur_la

    inaugur 0 doctor palomar la exposicin 1 1 0 0doctor_palomar doctor_la doctor_exposicinpalomar_la palomar_exposicin la_exposicin

  • ILN 2005-06Aprendizaje Automtico 117

    Tratamiento de la ambigedadreconocimiento de entidadeseleccin de rasgos

    ClasificacinEl Doctor Manuel Palomar inaugur la

    o i b i o o

    Qu hacemos con las combinaciones imposibles Post-proceso: reglas para sustituir las

    combinaciones erroneas BIO secuencial

    El proceso de clasificacin exige esperar a la etiqueta anterior

    Tampoco es que lo garantice al 100% pero

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 118

    Tratamiento de la ambigedadreconocimiento de entidadeseleccin de rasgos

    BIO secuencial Palabra objetivo Palabras del contexto Empiezan por mayscula? colocaciones Etiquetas del contexto colocaciones de las etiquetas

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 119

    Tratamiento de la ambigedadreconocimiento de entidadeseleccin de rasgos

    t t empieza por

    mayscula? w-2, w-1, w+1, w+2 mw-2, mw-1, mw+1,

    mw+2 w-2w-1, w-2w+1,w-2w+2,

    w-1w+1,w-1w+2,w+1w+2 ew-2, ew-1 ew-2ew-1

    RepresentacinEl Doctor Palomar inaugur la exposicin de relojes antiguos.

    el 1 doctor palomar 1 1 doctor_palomar

    doctor 1 El palomar inaugur 1 1 0 el_palomar el_inaugur palomar_inaugur o

    palomar 1 el doctor inaugur la 1 1 0 0 el_doctorel_inaugur el_la doctor_inaugur doctor_lainaugur_la o b ob

    inaugur 0 doctor palomar la exposicin 1 1 0 0 doctor_palomar doctor_la doctor_exposicinpalomar_la palomar_exposicin la_exposicin b i bi

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 120

    Tratamiento de la ambigedadreconocimiento de entidadeseleccin de rasgos

    Otras fuentes de informacin Anlisis morfo-sintctico

    POS-tagger, parser, stemmer

    Listas de palabras Stop-words, gazetteers,

    Conocimiento externo dominios (tema o fuente de los documentos)

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 121

    Tratamiento de la ambigedadClasificacin de preguntas (QA)

    Bsqueda de respuestas Fase preliminar: clasificacin de preguntas

    El tipo de pregunta permite restringir las respuestas posibles

    clases: tiempo, lugar, personas, Quin mat a Kennedy?Cundo vendr la ola de fro?Dnde se fabrica el mejor aceite de oliva?

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 122

    Tratamiento de la ambigedadClasificacin de preguntas (QA) atributos

    Depende de cunta informacin quiera procesar palabras lemas o stems categoras gramaticales sintagmas nominales y adverbiales entidades (personas, lugares, organizaciones)

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLHUn caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 123

    Tratamiento de la ambigedadClasificacin de preguntas (QA) atributos

    Lo fcil partcula interrogativa

    Quin, Qu, Cmo, Cundo, Dnde el problema es identificarla

    bolsa de palabras es la aparicin o no de las palabras en los

    contextos se pierde informacin estructural

    qu palabras van delante de cules si se repite

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLHUn caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 124

    Tratamiento de la ambigedadClasificacin de preguntas (QA)atributos

    La partcula interrogativa Parece, a priori, fuertemente relacionada con

    las clases posiblesCuantas ms clases, ms difcil ser el aprendizaje dada la dispersin de datos del lenguaje

    SupongamosDefinicionesPersonasLugaresTemporales (fechas, principalmente)OrganizacionesProcesos

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 125

    quin?dnde?cundo?

    La partcula interrogativaQuin mat a Kennedy?Cundo vendr la ola de fro?Dnde se fabrica el mejor aceite de oliva?Qu es la fotosntesis?

    peroQu lugar produce el mejor aceite de oliva?Dime quin mat a KennedyKennedy fue asesinado por alguien, dime su nombreEn qu fecha vendr la ola de froProvincia con el mejor aceite de oliva

    DefinicionesPersonas

    LugaresTemporales

    OrganizacionesProcesos

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

    Tratamiento de la ambigedadClasificacin de preguntas (QA)atributos

  • ILN 2005-06Aprendizaje Automtico 126

    Bolsa de palabras eliminar stop-words (palabras sin carga

    semntica)Quin mat a Kennedy? mat KennedyCundo vendr la ola de fro? vendr ola froDnde se fabrica el mejor aceite de oliva?

    fabrica mejor aceite olivaQu es la fotosntesis? fotosntesis

    pasar a minsculas? lemas o prefijos (stems)?

    necesitaramos un lematizador o un stemmer

    informacin sintctica?

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

    Tratamiento de la ambigedadClasificacin de preguntas (QA)atributos

  • ILN 2005-06Aprendizaje Automtico 127

    Tratamiento de la ambigedadanlisis morfolgico

    Anlisis morfolgico POS-tagging

    clasificar cada palabra dentro de una frase en una de sus etiquetas posibles

    ejemplos: palabras dentro de frases

    la ambigedad es ms alta de lo que parece

    El ama de llaves ama al portero de aqu no hay quin vivaNN NN NN NN V VNP NP NP NP VA VAV V VA VA

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLHUn caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 128

    Tratamiento de la ambigedadanlisis morfolgicoclases

    Etiquetas posibles Depende de la cantidad de informacin que se

    quiera manejar (gnero, nmero, tiempo verbal,)

    Supongamos que slo la categora gramatical nombres nombres propios verbos verbos auxiliares determinantes adverbios pronombres

    El conjunto de clases puede ser ms o menos extenso

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLHUn caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 129

    Tratamiento de la ambigedadanlisis morfolgicoatributos

    La estructura de la secuencia de etiquetas Det + Det no Det + Nombre s

    Sera interesante disponer de las etiquetas anteriores y posteriores

    por ejemplo de las 3 palabras anteriores y de las 3 posteriores

    pero en la clasificacin no vamos a disponer de las etiquetas posteriores! slo las anteriores

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLHUn caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 130

    Tratamiento de la ambigedadanlisis morfolgicoatributos

    Una posibilidad

    w0 la palabra objetivo e-1 etiqueta de la palabra anterior e-2e-1 secuencia de las etiquetas de las 2 pal. ants. w-2 palabras en posicin -2 respecto del objetivo w-1 w+1 w+2

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLHUn caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 131

    Tratamiento de la ambigedadanlisis morfolgicoatributos

    Ejemplos de aprendizaje

    el (DET) 0 0 0 0 ama deama (N) DET 0 0 el de llavesde (C) N DET_N el ama llaves amallaves (N) C N_C ama de ama alama (V) N C_N de llaves al portero

    w0e-1

    e-2e-1w-2w-1w+1w+2

    El ama de llaves ama al portero de aqu no hay quin viva

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLHUn caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 132

    Tratamiento de la ambigedadanlisis morfolgicoatributos

    Ms rasgos Ratnaparkhi (1998) introduce el concepto de

    palabra rara que aparece menos de 5 veces en el corpus

    2 tipos de caracterizacin si la palabra objetivo es rara

    todos los prefijos de 4 o menos caracteres todos los sufijos de 4 o menos caracteres si contiene nmeros si contiene letras maysculas si contiene smbolos _ -

    w0e-1

    e-2e-1w-2w-1w+1w+2

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLHUn caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 133

  • ILN 2005-06Aprendizaje Automtico 134

    DesambiguaciDesambiguacin del sentido de n del sentido de las palabraslas palabras

    definicin de la tarea definicin de clases

    corpus, idiomas, diccionarios, ...

    aproximaciones tradicionales combinaciones de clasificadores aprendizaje semi-supervisado

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 135

    El problema

    Qu significa, qu sentido tiene

    an sabindolo, cmo lo represento de una forma simblica?

    algo que entienda un ordenador:

    COMPRENSIN DEL TEXTO

    an sabindolo, cmo lo represento de una forma simblica?

    algo que entienda un ordenador:

    COMPRENSIN DEL TEXTO

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 136

    El problema

    Ms fcil, dividamos el problema

    Insisto, cmo lo represento de una forma simblica?

    COMPRENSIN DE LA FRASE

    Insisto, cmo lo represento de una forma simblica?

    COMPRENSIN DE LA FRASE

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 137

    El problema

    Ms fcil todava

    >

    temtico, ca. (Del gr. ). 1. adj. Perteneciente o relativo al tema, especialmente el gramatical. 2. adj. Que se arregla, ejecuta o dispone segn el tema o asunto de cualquier materia. 3. adj. En filatelia, perteneciente o relativo a una serie, a una emisin o a una coleccin de sellos, en los que se utiliza nicamente un tema o motivo, como la fauna, los deportes, etc. 4. adj. Gram. Dicho de un elemento: Que, para la flexin, modifica la raz de un vocablo.5. adj. desus. temoso. 6. f. Conjunto de los temas parciales contenidos en un asunto general. V. parque temticoReal Academia Espaola Todos los derechos reservados

    temtico, ca. (Del gr. ). 1. adj. Perteneciente o relativo al tema, especialmente el gramatical. 2. adj. Que se arregla, ejecuta o dispone segn el tema o asunto de cualquier materia. 3. adj. En filatelia, perteneciente o relativo a una serie, a una emisin o a una coleccin de sellos, en los que se utiliza nicamente un tema o motivo, como la fauna, los deportes, etc. 4. adj. Gram. Dicho de un elemento: Que, para la flexin, modifica la raz de un vocablo.5. adj. desus. temoso.

    6. f. Conjunto de los temas parciales contenidos en un asunto general. V. parque temticoReal Academia Espaola Todos los derechos reservados

    Esto s tiene una representacin fcil

    RESOLUCIN DE LA AMBIGEDAD SEMNTICA DE LAS PALABRAS

    An as...

    Esto s tiene una representacin fcil

    RESOLUCIN DE LA AMBIGEDAD SEMNTICA DE LAS PALABRAS

    An as...

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 138

    La dificultad del problema

    AsientoAsiento

    de peces de peces

    de datos de datos de rganos de rganos de arena de arena

    Institucin FinancieraInstitucin Financiera

    Pero nos hace falta ms informacin, ms contexto

    Pero nos hace falta ms informacin, ms contexto

    Algunos sentidos parece que ya los podemos descartar .

    Algunos sentidos parece que ya los podemos descartar .

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 139

    La dificultad de la tarea

    Estado de la tecnologa Senseval (International Workshop on Evaluating Word

    Sense Disambiguation Systems)

    mximas tasas de acierto:

    2001 2003

    Muestra lxica ingls 64% 73-79%

    Muestra lxica espaol 71% 84%

    Texto completo ingls 69% 65%

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 140

    La importancia de la tarea

    Tarea intermedia Anlisis morfo-sintctico-semntico Apoyo a

    Recuperacin de informacin Traduccin automtica Bsqueda de respuestas Extraccin de informacin Resolucin de la anfora Web semntica

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 141

    Soluciones a la tarea

    Mtodos no supervisados Modelado del lenguaje por expertos que aportan

    su conocimiento Tasas de acierto relativamente bajas

    Mtodos supervisados Actualmente, los ms eficaces Aprendizaje automtico a partir de ejemplos

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 142

    Mtodos supervisados

    Dependencia de los ejemplos de aprendizaje La anotacin manual por expertos es

    dificultosa, por lo que Son escasos y cubren pocas palabras No para todos los idiomas Son pequeos?

    Las precisiones no son aceptables Son fiables?

    No basta con tener muchos ejemplos Son completos?

    El cambio de dominio (y anotacin) afecta mucho

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 143

    Los recursos

    Antes de aprender Corpus

    cules son los textos, prrafos, frases objetivo de la desambiguacin

    cules son los que voy a utilizar para aprender

    Anlisis si conozco la categora (nombre, verbo, adjetivo,

    adverbio) va a ser ms fcil puedo utilizar datos sintcticos profundos como

    atributos (es nombre propio?, es sujeto?)

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 144

    Los recursos

    Corpus anotados semnticamente Semcor (ingls) line, serve, hard (ingls) interest (ingls) DSO (ingls) Senseval (ingls, espaol, ) 3LB (CESS-ECE) (espaol, catal, euskera)

    Introduccin Clasificacin de mtodos de AA AA basado en corpus textuales

    Aproximaciones a las tareas de las TLH Un caso prctico: resolucin de la ambigedad lxica

  • ILN 2005-06Aprendizaje Automtico 145

    Los recursos

    Corpus anotado semnticamente Semcor

    Ingls Extracto del Brown Corpus anotado con WordNet

    Br