SIMPÓSIO BRASILEIRO DE AUTOMAÇÃO … · de teorias. La pila de situaciones deseables esta constituída por los efectos predichos de las teorias que

22 SIMPSIO BRASILEIRO DE AUTOMAO INTELIGENTE C EFET-P R, 13 a 15 de Setembro de 1995 Curitiba Paran

FORMACION Y PONDERACION DE TEORIAS COMO PARADIGMA DE APRENDIZAJE AUTOMATICO

NO SUPERVISADO EN SISTEMAS INTELIGENTES AUTONOMOS

Abstract

Ilariuzzi, H. y Garca Martnez, R.

Laboratorio de Inteligencia Artificial Instituto Tecnolgico de Buenos Aires

Avenida Madero 399. (1106) Buenos Aires. ARGENTINA. e-mail: [email protected]

This pape r presents an e~1'Crience with the general architecture of an autonomous intelligent system with an embeded unsupervised machine learning mechanism based on theory formation. The system architecture is described experimental results on its behavior are presented and limitations of the research and future trends are discussed.

Resumen

En este trabajo se presenta una arquitectura general de un sistema inteligente autnomo que incorpora aprendizaje automtico no supervisado basado en formacin de teorias. Se deseribe la arquitectura. se presentan resultados experimentales deI comportamiento y se analizan limitaciones y futuras lneas de investigacin y desarrollo.

1. Descripcin General de Sistema

1.1 Entorno

Se seleccion el modelo de robot utilizado por Kersten. Koperczak y Szapakowics [1989]. el cual deseribe el comportamiento de agentes autnomos frente a diversos escenarios. Para la descripcin deI modelo de escenarios nos basamos en el modelo sugerido por [Lozano-Perez y Wesley~ 1979: Iyengar y otros 1985 ~ Gil de Lamadrid y Gini. 1987~ McKendrick, 1988~ Dudek y otros 1991 ~ Borenstein y Koren, 1991 ~ Evans y otros, 1992]~ los cuales establecen para estudiar los procesos de aprendizaje. planificacin y simulacin en un escenario bidimensional. La descripcin deI entorno puede simularse en una matriz en la que cada elemento representa una porcin deI espacio, la cual puede ser un obstculo, un punto de energa o un punto del -espacio transitable por el robot. Se trabaja la representacin de obstculos en el entorno real a traves de los obstculos digitalizados en el entorno simulado. Para la distincin en la simulacin de espacios ocupados por elementos y espacios libres se opt por configurar a cada elemento de la matriz en forma binaria.

1.2 Arquitectura

El sistema puede describirse como un robot explorador que percibe el entorno. A partir de la situacin en la cual se encuentra el sistema intenta determinar una secuencia de acciones que le permita alcanzar un objetivo cercano, aI cual llama plano Dicha secuencia es presentada aI ponderador de planes, quien determina su aceptabilidad. El controlador de planes en ejecucin se encarga de verificar que el plan sea cumplido exitosamente. Todo movimiento -deI robot se acompafia de la deseripcin de su entorno. la conjuncin de la accin aplicada a dicha deseripcin y obtenida la situacin resultante hacen aI aprendizaje deI sistema. Si dicho conocimiento ya fue aprendido se lo refuerza, en otro caso se lo incorpora y se generan teorias mutantes. A continuacin se presenta un esquema que resume la arquitectura deI sistema :

140

Sistema

Ejecutor

Accin

Controlador de

Planes en Ejecucio

Ponderar

Plan

Sistema

Sensor

Situacin

Armado de

Teoria Local

Teoria Local

SI

NO

PLAN

Reforzar

eoria Rejtistrada

NO

Armar

Plan

1.3 Sistema de Sensoramiento

2' SIMPSIO BRASILEIRO DE AUTOMAAO INTELIGENTE

ENTORNO

SISTEMA

AjUStar

Ponderaci6n de

Teoria similares

T eoriaa Mutantes

Repiltrar-

Ponderar

Retiltnr-

Ponderar

Teoria Local

~.~

El modelado deI sistema sensor fue e~1rado y modificado dei propuesto por Mahadevan y ConneU [1992c]~ quienes sugerian un sistema de 24 sectores. distribuidos en tres niveles. Garcia Martinez sugiri que el modelo deba presentar 8 sectores constituidos en dos niveles y distribuidos en tres regiones: una Lateral Izquierda. una Frontal y una Lateral Derecha. La regin Frontal se encuentra particionada en forma vertical en dos subregiones. Como anteriormente mencionamos cada regin posee dos niveles de alcance. un nivel de sensoramiento cercano y un nivel de sensoramiento lejano. El sistema de sensoramiento posee ocho sectores~ cada sector se corresponde con una representacin binaria la cual se rene en un conjunto que nos describe la percepcin de una situacin.

2. Formacin de Teorias

El modelo de estructura para la formacin de teorias fue sugerido por Garca Martnez [1991a, 1991b. 1992a, 1992b). EI mismo es una extensin deI modelo de Fritz [Fritz y otros. 1989]. en el coaI una unidad de experiencia estaba constituida por:

[Situacin Inicial. Accin. Sitoacin Final].

En trabajos citados, propone el agregado de coeficientes que permitan determinar la aceptabilidad de una teoria. EI modelo de experiencia propuesto posee la siguiente estructura:

Ti = rSI.: ~ A.: ~ SF.: ~ p~ K. ul

21 SIMPSIO BRASILEIRO DE AUTOMAAO INTELIGENTE

Teora: Ti

K U

Situacin Inicial

Accin

Situacin Final

Cantidad de veces que la teora Ti conc1uy exitosamente ( Arribo a la situacin final esperada ) . Cantidad de veces que la teoria Ti se utiliz Nivel de utilidad alcanzado por la situacin final de la teoria.

141

Hemos asumido para calcular la utilidad de las teorias la frmula abajo citada. la cual ref1~ja una medida de estimacin de la distancia deI robot aI punto de energia ms cercano.

Utilidad = 1 D I . Ob + lstancla ~

Conocemos corno DistanciaObj a la distancia que existe entre la ubicacin actual deI robot y el punto de energa ms cercano. Tal descripcin de una unidad de experiencia puede ser interpretada como: Dada la Situacin Inicial percibida por el autmata. en un instante deI tiempo (llammoslo TI) aplicando una Accin. arribamos a la Situacin Final (en un espacio deI tiempo T2). Teniendo en cuenta el modelo de teoria presentado podemos decir que dada una teoria Ti. las condiciones supuestas Cti de la teora Ti. la accin Ati . los efectos predichos Eti de la teora, la cantidad de veces que la teora se aplic con bto P. el nmero de veces que la teoria se aplico K. siendo S la situacin a la cual se aplic y SI la situacin a la que se arrib.

3. Planificacin

El planificador es el mecanismo por medio deI cual se vale el sistema para generar planes. lo que le permitir alcanzar objetivos de manera ms eficiente. Cada vez que se encuentra en una situacin particular, trata de armar un plan que aplicado a la situacin actual alcance una situacin deseable (Punto de energa) . Si dicho plan existe la situacin deseable se convierte en situacin objetivo. Eventualmente podra ocurrir que no existiese un plano para lo cual hay que seleccionar otra situacin como deseable (elemento deI tope de la pila de situaciones deseables). si ninguno de las situaciones deseables pueden ser alcanzadas por un plan, entonces se ejecuta algunas de los planes de contingencias. A partir de todas las situaciones conocidas el planificador arma la pila de situaciones deseables. Una situacin es conocida si esta registrada como una unidad de experiencia deI co~junto de teorias. La pila de situaciones deseables esta constituda por los efectos predichos de las teorias que poseen mayor nivel de utilidad adems de encontrarse ordenada por orden decreciente deI mismo. Cada situacin puede ser interpretada corno la resultante de baber aplicado una accin a una situacin previa. Esto determina la precedencia entre las distintas situaciones. a partir de las cuales se arma el grafo de situaciones. Una vez armado el grafo se procede a encontrar el plan entre la situacin actual y las situaciones deseables. De no encontrarse camino, se toma otra situacin de la pila de situaciones deseables. as sucesivamente basta que no existan ms situaciones deseables o se encuentre un plano Si la pila se vaca y no se logro obtener ningn plano se generan planes por contingencia. Si se encontr aI menos un plano se lo pondera para obtener su aceptabilidad. En caso de baber ms de un plan se selecciona aquel de mayor aceptabilidad.

4. Ponderador de Planes

Si se considera que para un determinado estado deI tiempo el conjunto de teorias conforma la totalidad de todo el conocirniento que posee el sistema. El cociente PIK de una teoria dada. es la probabilidad [Calistri-Yeh. 1990] de que la accin A aplicada a una situacin Sa d la situacin resultante Sr que verifica los efectos predecidos de la teoria considerada. Por lo tanto el conocirniento que el sistema tiene para un instante dado se lo puede pensar corno la matriz de transicin Mk de la accin Ak, se conforman colocando en la posicin ( ij ) el cociente PIK de la teoria que posee las condiciones supuestas Si, los efectos predecidos Sj y la accin Ak.

142

5. Controlador de Planes en Ejecucin

2' SIMPSID BRASILEIRO DE AUTOMAAO INTELIGENTE ~

I~

EI controlador deI plan en ejecucin tiene dos misiones. Si existe un planen ejecucin y la situacin actual es la situacin que se esperaba obtener una vez aplicada la accin a la situacin anterior entonces ordena la siguiente accin deI plan a ser ejecutada por el sistema. Si existe un plan en ejecucin y la situacin actual no es la situacin que se esperaba obtener una vez aplicada la accin a la situacin anterior entonces ordena abortar el plan en ejecucin y pasa el mando aI planificador deI sistema.

6. Experimentacin.

6.1 Marco General.

En el entorno de simulacin el sistema autnomo demostr capacidad para comprender y manifestar comportamientos inteligentes a medida que tomaba conciencia deI marco en que estaba sumergido. Esto puede explicarse de .Ia siguiente manera cada vez que l robot efecta una percepcin de su entorno. selecciona y ejecuta la accin que cree ms adecuada y arriba a una situacin final. 10 que le permite ir construyendo su base de teoras las cuales se ven reforzadas con el tiempo. Para la presentacin de los resultados obtenidos en la experimentacin nos hemos guiado por la estructura propuesta por Matheus [1990a.1990b].

6.2 Hiptesis

Hiptesis I : Se someter aI sistema a interactuar con su entorno~ observando el comportamiento de aprendizaje a travs de: unidades de experiencia obtenidas por observacin y generacin de teorias por diferentes heursticas.

Hiptesis lI: El desenvolvimiento deI sistema aI interactuar con su entorno queda supeditado a la planificacin para alcanzar objetivos: su planificacin se basa en las unidades de experiencia obtenidas por observacin. en teoras generadas por mutacin o en la conjuncin de las dos anteriores.

6.3 Diseo Experimental.

Los experimentos descriptos en la presente seccin fueron disefiados para estudiar los efectos de la aplicacin de distintas configuraciones dei mecanismo de formacin de teorias.

6.3.1 Variables Independientes

Tiempo: Los experimentos para teoras son basados en esta nica variable independiente. Se define una unidad de tiempo como ellapso transcurrido entre una percepcin dei entorno y otra. Es una variable cuantitativa cuyo valor permanece al intervalo (0-8000] .

Azar: Es una variable cualitativa. Indica que el sistema navega a travs de decisiones tomadas por azar.

Curiosidad: Es una variable cualitativa. Indica que el sistema navega a travs de decisiones dirigidas por curiosidad.

Planes (SIM): Esta variable indica que los planes a ejecutar por el sistema se han generado a partir de teorias que no ban sido mutadas. Es una variable cualitativa. .

Planes (CIM): Es una variable cualitativa. Indica que los planes y ejecutados por el sistema provienen de teoras que han sido mutadas.

Ponderacin: Indica que los planes que se ejecutan han sido generados a partir de teoras que han sido ponderadas. Es una variable cualitativa.

% P.E. Base: La misma indica que los planes exitosos deI sistema se han generados a partir de teorias que no ban sido abstradas oi ponderadas. Es una variable cualitativa.

21 SIMPSIO BRASILEIRO DE AUTOMAAO INTELIGENTE 143

0/0 P.E. CIM: Indica que los planes exitosos deI sistema se han generado a partir de teoras que han sido mutadas. Es una variable cualitativa .

. % P.E. CIP: Estavariable indica que los planes exitosos deI sistema se generan a partir de teoras ponderadas. Es una variable cualitativa.

% P.E. C(M+P): Esta variable que es cualitativa. indica que los planes exitosos deI sistema se generan con teoras que han sido mutadas y ponderadas.

6.3.2 Variables Dependientes.

6.4 Grficas

Cantidad de Teoras

Cantidad de Situaciones

Tiempo Promedio en Alcanzar Objetivos

Porcentaje de Planes Exitosos

Esta variable indica la cantidad de teoras que han sido reconocidas por el sistema hasta el instante dado por la variable tiempo. Es una variable cuantitativa cuyo valor pertenece intervalo [0-2000]. Esta variable indica la cantidad de situaciones diferentes que han sido reconocidas por el sistema hasta el instante dado por la variable tiempo. Es una variable cuantitativa cuyo valor pertenece al intervalo [0-1000]. Esta variable indica la cantidad promedio de unidades de variable tiempo que han transcurrido entre dos situaciones las que el sistema alcanzo el objetivo en el intervalo de tiempo [Tiempo-500, Tiempo]. Es una variable cuantitativa cuyo valor pertenece aI intervalo [0.20 J. Esta variable indica el porcentaje promedio de planes exitosos para que han sido generados por el sistema en el intervalo de tiempo [Tiempo-500. Tiempo]. Es una variable cuantitativa cuyo valor pertenece aI intervalo [0,100].

TIEMPO PRONEOIO EN ALCANZAR OElJETPlOS USANDO

Cf)

o ~ ~

AZAR. CURIOSIDAD Y PONOERACION VS TIEMPO

w 18~----------------------------------------~ [i3 o 16- ........................................ '.'.' ............... . rr ~ 14- ............................................................................... .

(J 12- ' . .il'.~' .. '.".' ..... '.' ... ~'~.'.' ... '.'.' ..... '.'~' ............. ~ 10- ii~ .. ~~~A...& ... ..A ... ni 8- ..................................................................... o i :~ ~~~:~.~~~:~.~~~::~~~.~:~~~~~~~~~~~:~~~~~~~~~~~~:~~~~~~!.~~~~~:~~~ o . H: 2- ........................................................................ R .. o n. :! w ~

o I I I I I I I I I I I~I I I I O 1(0) 2ID} 3ID) 4OJ) 5(D) uuuu 7IDl 8(D)

500 1500 2fD) 3500 4fiOO 5500 6fiII) 7500 8500 TIEMPO = BOOO ITEP.ACIONES

.. AZAR '. : CURIOSDAD PONOERACION

Grfica 1: Aqu se observa que bay un periodo inicial en donde el robot acta mejor por curiosidad que actuando con planes con ponderacin. Luego de pasado el perodo de inicio (aproximadamente ms de 2500 iteraciones de la variable tiempo) el tiempo promedio mejora a la curiosidad notablemente. Es importante destacar que en ningn momento las actuaciones por planes ponderados superan a las de azar, si bien aI comienzo poseen los mismos valores.

144 ~21~, 21 SIMPSIO BRASILEIRO DE ~ AUTOMAAO INTELIGENTE TIEMPO PROMEDlO EN ALCANZAR OEi..lETI\tOS USANDO

PLANES SIM. PLANES ClM Y PONDERACION

~ 18------------------------------------------------~ C: ~ UJ

rD O ([

~ ~ -l a=: Z UJ

O UJ :! O [[ o... O o... :! UJ i=

16- ---- ---- ------------ -- -- -------- ---- ------- ------- ---- ------- ------- ------ -- -- ----- -----

14- ---__ ----- -- -- ---- -- -- -- -- -- -- ---- -- ------- -- ---- ------------------------ ----- ----- ---

12- -- -- -- --~-- -- ---- -- -- -- ------ -- -- -- -- -.. ---------------------------------------------

10- ---- -- --'1'X'!'" --.- -- -- -- -- -- -- -- -- -- -- -- ----------------- ---- --- -- --- -- -----------------IS:J

8- ---- -- -- ------ ---- -.-- ------ -- -------- ---- -- -- ------ ------ -------- ----- ----- -- --- -- ---. ,,,, ................ ....

6- ---- -- -- -- -- -- ---- -- ---- - ---& --~ -- ------------------ -------------- --- ----- -_. __ ,- IS:J IS:J IS:J

4- -- -- -- ---- -- -- ---- -- -- -- ---- --:----- . -- -:;----:~---;----rlS:l--lB:I--.g---&--I:iSI'--1:8:I---

2- -- -- -- -- ------ ---- -- -- -- ---- ---- -- ---- -- ---- ---------- -------------------~---- ;;;';;..--"-- ---

0'~~1--T-1-T-1-~1~1r-'1--~1--~1--~1-~1-1r-'1r-'1--~1--~1--~1~ O 1 (Dl 2(D) 3(D) 4(D) 5lD) 6ID) 7IDl fID)

500 1500 2500 3500 oIm) 5500 6500 7500 850J TIEMPO = SOOO ITEP.ACIONES

, I .... PLANES SIM IS:J PLANES ClM PONDERACION I

Grfica 2: Esta grfica es un contraste entre las actuaciones de planes sin mutacin. con mutacin y ponderacin, a travs de la cual se manifiesta que la ponderacin actua mejor que los planes con rnutacin o sin rnutacin de teorias.

ti'.1

PORCENTAJE DE PLANES EXITOSOS

SIN USAR NADA Y USANDO MUTACION

~~~------------------------------------------~ ~ 45%-- --- ---- ------ -- ---- -- -- -- ---- -- -- -- -- ---- -- -- ------ -- -- -- -- ------ -- ---- ---- -- -- -- --o ~ 40*-- ----.. -........ -..... -.... -......... -.- .... -.. -.. -..... -.. -.... -..... -.. -.... -- ... . ~ J.I)

w ~;;- ----- -- ---- -- -- ---- -- ---- ---- -- -- -------- ---- -------- -- -- _. __ ..... --- _ .. _ ...... __ .-

5 3}%- .. -- ... -.---.---.-----.-- .. - -...... -.-.- .. ---.- .. -.. -.-.-- ...... -.-. -.-.--- .. -.-.-~ ~{.- _ ... __ ............... _ ................ _ ... _ ... _ ...... ~._._----- .... _ ...... _ .. _._ .. ~ 2(f'k- --- -- --.- -... -- -- -- -- -- -- ---- -- -- ~- -- --.0. -:-~ -- -: -- -- -- -- -- -- --.- -- -- -- ---- -- -- -- --w

~ Z w a:: o !L

15'""*--------------~ .---~--~-~A-A-~-~-*-------.---10%- ---"JJf..--~ .. - -.. ------------------. ---. ---.... -------... ---. --------------------

~k- r- ------ --.- -- ---- -- -- -- -- -- -- ---- ---- -- -- -- -- -- ____ o. -- -"---'-'-'- -- -. -..... -.....

Wk I I I I I I I I I I I I I I I I O ltm 2(D) 301) 4(D) 5ID) 6000 7IDl 8(D)

500 1500 2500 3500 4500 5500 6500 7500 8WJ TIEMPO = 8000 Iteraciones

I .... %SINNADA % CON MUTACION Grfica 3:Corresponde a las grficas de porcentaje de planes exitosos. Como conc1usin se obtiene que los rnejores porcentajes se dan cuando el robot acta con mutacin de teorias.

21 SIMPSIO BRASILEIRO DE AUTQMAAO INTELIGENTE

PORCENTAJE DE PLANES EXITOSOS USA.NDO

MUTActON. PONDERACION Y AMBAS

60%~------------------------------------------~ ~~- -----------------------~---------------- --- -- -- -- -- -- ---- -- -- -- ---- ---- ---. -- ----ro=:'- ---- --- ---- --- -- --------- --------- --- --'---- ------ -------- -- -----iii --. ----- --------4'~- -------------- ------------------------- -- -- -- ---- -- -- -- ---- -- -- -- -- -- -- -- -. -' -- -' --- [J W~':t - ---.- ------ ,._. -_ .. --- ............ _--- --------- ---- .... -- .... -- -_ .... -- -..... _ .... -............... _ ...... _ .... _ .. ..

I :::~::~::~:~:~:~:~:~::~::~::~::~::~::~::~::~:: 5'*,- ---~--------------------------------- -- -- -- ------ ------ ---- -- -- -- ---- -- ------ ------(Y~ I I I I I I I I I I I

O 1(11) 2lDl 3D) 4(D) filO) 6(D) 7(D) 8lDl

lO) 1 OO 2fiOO 3500 oWIl 5500 6fiOO 7500 8fD} TIEMPO = 8000 lterscionE!:!

% CON MUTACION % CON PONDERACION % USA.NDO AMBAS

145

Grfica 4: La misma permite observar el contraste entre las actuaciones de mutacin. ponderacin y una nueva manera de hacer actuar ai robot que es la utilizacin de mutacin y ponderacin juntas. de lo que se obtuvo que esta ltima manera de actuacin mejora aproximadamente en un 10 % los porcentajes de planes exitosos con respecto a la actuacin de ponderacin.

6.5 Tesis demostradas

EI aprendizaje a partir de la generacin de teoras por dif~rentes heursticas permite ai sistema autnomo_ comportarse de manera ms efectiva que haciendo uso solamente de las unidades de experiencia obtenidas por observacin. Los resultados obtenidos en las grficas I y 3 corroboran empricamente la tesis mencionada. La incorporacin de un mecanismo de planificacin y Ponderacin de la aceptabilidad de planes~ incrementa el nmero de planes concluidos exitosamente. La corroboracin emprica de dicha tesis se encuentra reflejado en los resultados obtenidos en las grficas 2 y 4.

7. Limitaciones y Futuras Lneas de Investigacin ~. Desarrollo

Dentro de las limitaciones podemos citar el inconveniente de no poder contar con una plataforma robot real. Se ha recurrido a la simulacin para poder desarrollar el sistema~ simulando el entorno y los efectos de aplicar determinadas acciones sobre el mismo. Otra limitacin es el mtodo de percepcin dei entorno, que si bien es til para el entorno simulado, no significa que se adecue de la misma manera a un entorno real. Una de las lineas de investigacin que se plantea es la de trabajar con el mismo sistema en un entorno reaL contando con una plataforma real con mtodos de sensoramiento para percibir el entorno. Otra lnea de investigacin es tratar de disefiar e implementar un mecanismo que le permita ai robot interactuar ms rpidamente con el entorno.

8. Referencias

BARES, 1.. HEBERT, M., KANADE, T., KROTWOW, E., MITCHEL, T., SIMMONS, R. Y WHITIAKER, R. 1989. Ambler: An Autonomous-Robot for Planetary Exploration. IEEE Computer Vol. 22 N 6 Paginas 18-26.

BLANQUE,1. 1986. La Mente Como un Sistema Ec%gico. Mundo Informatico. Vol 5 Nro. 122. Bs. As.

146 ~, 2! SIMPSIO BRASILEIRO DE AUTOMAAO INTELIGENTE BORENSTEIN, H. y KOREN. Y. 1991. Histogramc in Aioton Aiappingfor Alobile Robot ObstacJe

Avoidance. IEEE Transactions on Robotics and Automation. Volurnen 7. Nber~. DUDEK, G .. JENKIN. M .. MILLOS~ E. y WILKES,D. 1991. Robotics Exploration as graph

ObstacJe Avoidance . . IEEE transactions on Robotics and Automation VoI. 7 N 6. pp. 859-865. EEUU.

EVANS, 1., KRISHNAMURTY, B .. BARROWS. B . SKEWIS. T. y LUMELSKY. V. 1992. Handling Real JVorld Motion P/anning: A Hospital Transport Robot. IEEE Control Systems. Volurnen 12. N 1.

FRITZ, W., 1994. Sistemas Inteligentes A rtiji ci aleS: lntituto Tecnologico de Buenos Aires. FRITZ, W .. GARCIA MARTINEZ. R., BLANQUE, 1.. RAMA A .. ADOBATIL R. y SARNO. M .

1989. The Autonomous Inte/ligent S:vstem. Robotics and Autonomous Systems. VoI. 5 N 2. pag 109-125. Elsevier.

FRITZ, W .. GARCIA MARTlNEZ~ R. y MARSIGLIO. A. 1990. Sistemas Inteligentes Artijiciales. C.E.I.L.P. La Plata. Buenos Aires.

GARCIA MARTINEZ, R. 1991a. Un lv/todo de Aprendizaje por Ajuste de Coejicientes en Sistemas Inteligentes A rtificiales. Anales deI II Simposio de Inteligencia Artificial y Robotica. Pg. 113-114. Bs. As.

GARCIA MARTINEZ, R. 1991b. Heursticas de Ajustes de Unidades de Experiencia para Sistemas Inteligentes Artijicia/es. En Produccin Cientifica deI Progama IDEIA. Pg. 20-29. Departamento de Ciencias Basicas. Univ. Nacioanl de Lujn. Bs. As.

GARCIA MARTINEZ. R. 1992a. Aprendizaje Automtico no Supervisado. Cuademo N 4. Secretaria de Ciencia y Tecnica. Univ. Nacional de Lujn. Bs. As.

GARCIA MARTINEZ, R. 1992b. Aprendizaje Automatico por Interaccin con el Entorno. Anales de las fi Jornadas de Pesquisa de UFSM. Pg. 594. Univ. Federal de Santa Maria. Ro Grande do Sul. Brasil.

GARCIA MARTINEZ, R. 1992c. Aprendizaje Basado en Formacin de Teoras sobre el Efecto de las Acciones en el Entorno. Tesis de Master. Departamento de Inteligencia Artificial. Facultadad de Informatica. Univ. Politcnica de Madrid.

GIL DE LAMADRID, 1. 1987. Obstacle avoidance Heuristic for Three Dimensional Moving Objects. TR 87-42. Computer Science Departament. Institute of Techonology. University of Minnesota. Estados Unidos.

GIL DE LAMADRID, 1. Y GINI, M. 1987. Path Tracking for a Mobil Robot among Moving Obstacle with Unknown Trajectories. TR 87-42. Computer Science Departament. Institute of Techonology. University of Minnesota. Estados Unidos.

IYENGAR, S., JORGENSEN, C .. RAO, S. Y WEISBIN, C. 1985. Learned Navigation Path for a Robot in Unexp/ored terrain. Proceedings of the Second Conference on Artificial Intelligence Applications. pp. 148-155. IEEE CS Press. Massachusetts. Estados Unidos.

KERSTEN, G., KOPERCZAK, Z. y SZAPAKOWICS, S. 1989. Mode/ling Autonomous Agents in Changing Enviroments. Computer Science Departament TR-89-32. Universidad de Otawa. Canad.

LOZANO-PEREZ, T. y WESLEY, M. 1979. An A/gorithm for Planning Collision Free Paths Among Po/ihedral Obstacles. Communications ofthe ACM. Volurnen 22 N 10. 1979.

MAHADEV AN, S. y CONNELL, 1. 1992. Automatic Programming of Behavior-Based Robots using Reinforcement Leaming. Artificial Intelligence Vol55 pp. 311-365.

MCKENDRICK.1. 1988. Autonomous Know/edge-Based Navegation in Unknown Two-Dimensional Enviroment. Praceedings of the frrst Florida Artificial Intelligence Research Symposiurn. pp. 59-63. University of South Florida. Estados Unidos.

SHEN, H. y SIGNAROWSKI, G. 1985. A Know/edge Representation for Roving Robots. Proceedings 2nd Congress on Artificial Intelligence Applications. pp. 621-628.

-,

Documents

SIMPÓSIO BRASILEIRO DE AUTOMAÇÃO … · de teorias. La pila de situaciones deseables esta constituída por los efectos predichos de las teorias que