6
Clasificaci´ on autom´ atica de coberturas del suelo en im´ agenes satelitales utilizando redes neuronales convolucionales: Un caso aplicado en Parques Nacionales Naturales de Colombia Arnol Suarez 1 , Andr´ es Jim´ enez 2 , Mauricio Castro Franco 3 and ´ Angel Cruz-Roa 4 Abstract— La clasificaci ´ on de la cobertura del suelo es impor- tante para estudios de cambio clim ´ atico y monitoreo de servicios ecosist´ emicos. Los m´ etodos convencionales de clasificaci´ on de coberturas se realizan mediante la interpretaci´ on visual de im´ agenes satelitales, lo cual es costoso, dispendioso y poco preciso. Implementar M´ etodos computacionales podr´ ıa generar procedimientos de clasificaci´ on de coberturas en im´ agenes satelitales de manera r´ apida, precisa y econ´ omica. Los m´ etodos de aprendizaje autom´ atico son m´ etodos computacionales pro- misorios para la estimaci´ on de cambios cobertura del suelo. El aprendizaje autom´ atico es una rama de la inteligencia artificial cuyo prop´ osito es desarrollar t´ ecnicas, m´ etodos y algoritmos que permitan a los computadores reconocer patrones a partir de datos de un modelo de inferencia con prop´ ositos predictivos. En este trabajo presentamos un m´ etodo de aprendizaje autom´ atico basado en redes neuronales convolucionales de arquitectura tipo ConvNet para la clasificaci´ on autom´ atica de coberturas del suelo a partir de im´ agenes Landsat 5. La ConvNet fue entrenada a partir de las anotaciones manuales por medio de interpretaci´ on visual sobre las im´ agenes de teledetecci´ on con las que los expertos generaron el mapa de cobertura del parque nacional el Tuparro, de Parque Nacionales Naturales de Colombia. El modelo de validaci´ on se realiz´ o con datos de los mapas de coberturas del amazonas colombiano realizado por el Sistema de informaci´ on ambiental de Colombia. Los resultados obtenidos de la diagonal de la matriz de confusi´ on de la exactitud promedio fue de 91.25 % entrenamiento y 82.51 % en validaci´ on para la clasificaci´ on entre Bosques, ´ Areas con vegetaci´ on herb´ acea y/o arbustiva, ´ Areas abiertas sin o con poca vegetaci´ on y Aguas continentales. Palabras Clave- Aprendizaje autom´ atico, Coberturas de suelo, Parques naturales, Redes neuronales convolucionales, Teledetecci´ on I. INTRODUCCI ´ ON La cobertura de la tierra es la caracter´ ıstica m´ as importante de los escenarios de la tierra y es esencial para la clasifica- ci´ on de coberturas de suelo [12], por lo cual se ha convertido en parte importante en los estudios del cambio clim´ atico global, fen´ omenos naturales, monitoreo y cuantificaci´ on de recursos entre otros [7] [3][4]. 1 A. Suarez, hace parte del Grupo de Investigaci´ on Macrypt de la Universidad de los Llanos, Kil´ ometro 8 v´ ıa Puerto L´ opez, Villavicencio (Meta), Colombia. [email protected] 2 A. Jim´ enez, hace parte del grupo de investigaci´ on Macrypt de la Universidad de los Llanos y del grupo de investigaci´ on Un-robot de la Universidad Nacional de Colombia. [email protected] 3 M. Castro-Franco, esta con el Concejo Nacional de Investigaciones Cient´ ıficas y Tecnicas CONICET - Argentina. [email protected] 4 A. Cruz-Roa, hace parte del Grupo de Investigaci´ on GITECX y es Profe- sor Asistente de la Escuela de Ingenier´ ıa de la Facultad de Ciencias B´ asicas e Ingenier´ ıa de la Universidad de los Llanos, Kil´ ometro 8 v´ ıa Puerto L´ opez, Villavicencio (Meta), Colombia. [email protected] En la clasificaci´ on autom´ atica de coberturas de suelo uno de los insumos m´ as utilizado es el procesamiento de im´ agenes de teledetecci´ on. El tipo de im´ agenes usadas para caracterizar coberturas del suelo son usualmente im´ agenes satelitales de observaci´ on de la tierra. Las im´ agenes de satelite se estudian como la representaci´ on visual de la reflectancia de la tierra adquirida por el sensor particular [13]. En Colombia se sigue creando gran cantidad de mapas de coberturas de suelo por medio de interpretaci´ on visual por parte de un experto, tal como la mayor´ ıa de mapas utilizados en este trabajo, incluyendo los mapas de cobertura de suelo realizados por Parques Naturales Nacionales (PNN) de Colombia [1] y del Sistema de Informaci´ on Ambiental de Colombia (SIAC) [2]. Por otro lado, el alto costo y el tiempo invertido en la crea- ci´ on de los mapas de coberturas de suelo est´ an vinculados a la calidad y disposici´ on de im´ agenes de teledetecci´ on, y el juicio del profesional a cargo de la realizaci´ on del mapa, la disponibilidad de informaci´ on de bandas del espectro visible y otras bandas generadas por el sensor. Con el fin de dismi- nuir el costo y el error humano, se ha estado investigando etodos computacionales para mejorar el rendimiento y la precisi´ on de la clasificaci ´ on de coberturas del suelo [17],[14]. Por ejemplo, Maximum Likelihood Classification (MLC) ha sido uno de los m´ etodos de clasificaci´ on autom´ atica m´ as usados en los ´ ultimos 40 aˆ nos en coberturas de la tierra [16]. En la actualidad los algoritmos de aprendizaje compu- tacional como M´ aquinas de Soporte Vectorial (en ingl´ es, Support Vector Machine - SVM) y Random Forest, han sido ampliamente utilizados para la clasificaci´ on autom´ atica con con resultados de Precisi´ on general de 86.5 % [7] y 95.10 % de precisi´ on de clasificaci´ on [9]. Las redes neu- ronales convolucionales (En ingl´ es - Convolutional Neural Networks - CNN), un m´ etodo bioinspirado de aprendizaje computacional, han demostrado ser eficientes en diferentes ´ areas, como en el reconocimiento de voz [8], as´ ı como en clasificaci´ on autom´ atica de de im´ agenes de personas por g´ enero, ropa inferior y superior [11], aplicaciones en im´ agenes medicas detecci´ on de cancer de mama invasivo [15] [6] diferenciaci´ on de tumor meduloblastoma [5]. Este trabajo presenta el desarrollo y evaluaci´ on de un etodo computacional basado en redes neuronales convo- lucionales para la clasificaci´ on de suelos con la definici´ on de clases de primer nivel: bosques, ´ areas con vegetaci´ on herb´ acea y/o arbustiva, ´ areas abiertas, sin o con poca vege- taci´ on y ´ areas h´ umedas continentales. Clases definidas por

Clasificacion autom´ atica de coberturas del suelo en …fcbi.unillanos.edu.co/cici/Articulos/CICI_2016_paper_71.pdf · Clasificacion autom´ atica de coberturas del suelo en im´

  • Upload
    lamthu

  • View
    218

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Clasificacion autom´ atica de coberturas del suelo en …fcbi.unillanos.edu.co/cici/Articulos/CICI_2016_paper_71.pdf · Clasificacion autom´ atica de coberturas del suelo en im´

Clasificacion automatica de coberturas del suelo en imagenes satelitalesutilizando redes neuronales convolucionales: Un caso aplicado en

Parques Nacionales Naturales de Colombia

Arnol Suarez1, Andres Jimenez2, Mauricio Castro Franco3 and Angel Cruz-Roa4

Abstract— La clasificacion de la cobertura del suelo es impor-tante para estudios de cambio climatico y monitoreo de serviciosecosistemicos. Los metodos convencionales de clasificacion decoberturas se realizan mediante la interpretacion visual deimagenes satelitales, lo cual es costoso, dispendioso y pocopreciso. Implementar Metodos computacionales podrıa generarprocedimientos de clasificacion de coberturas en imagenessatelitales de manera rapida, precisa y economica. Los metodosde aprendizaje automatico son metodos computacionales pro-misorios para la estimacion de cambios cobertura del suelo. Elaprendizaje automatico es una rama de la inteligencia artificialcuyo proposito es desarrollar tecnicas, metodos y algoritmos quepermitan a los computadores reconocer patrones a partir dedatos de un modelo de inferencia con propositos predictivos. Eneste trabajo presentamos un metodo de aprendizaje automaticobasado en redes neuronales convolucionales de arquitecturatipo ConvNet para la clasificacion automatica de coberturasdel suelo a partir de imagenes Landsat 5. La ConvNet fueentrenada a partir de las anotaciones manuales por mediode interpretacion visual sobre las imagenes de teledeteccioncon las que los expertos generaron el mapa de cobertura delparque nacional el Tuparro, de Parque Nacionales Naturalesde Colombia. El modelo de validacion se realizo con datos delos mapas de coberturas del amazonas colombiano realizadopor el Sistema de informacion ambiental de Colombia. Losresultados obtenidos de la diagonal de la matriz de confusion dela exactitud promedio fue de 91.25 % entrenamiento y 82.51 %en validacion para la clasificacion entre Bosques, Areas convegetacion herbacea y/o arbustiva, Areas abiertas sin o conpoca vegetacion y Aguas continentales.

Palabras Clave- Aprendizaje automatico, Coberturas desuelo, Parques naturales, Redes neuronales convolucionales,Teledeteccion

I. INTRODUCCIONLa cobertura de la tierra es la caracterıstica mas importante

de los escenarios de la tierra y es esencial para la clasifica-cion de coberturas de suelo [12], por lo cual se ha convertidoen parte importante en los estudios del cambio climaticoglobal, fenomenos naturales, monitoreo y cuantificacion derecursos entre otros [7] [3][4].

1A. Suarez, hace parte del Grupo de Investigacion Macrypt de laUniversidad de los Llanos, Kilometro 8 vıa Puerto Lopez, Villavicencio(Meta), Colombia. [email protected]

2A. Jimenez, hace parte del grupo de investigacion Macrypt de laUniversidad de los Llanos y del grupo de investigacion Un-robot de laUniversidad Nacional de Colombia. [email protected]

3M. Castro-Franco, esta con el Concejo Nacional deInvestigaciones Cientıficas y Tecnicas CONICET - [email protected]

4A. Cruz-Roa, hace parte del Grupo de Investigacion GITECX y es Profe-sor Asistente de la Escuela de Ingenierıa de la Facultad de Ciencias Basicase Ingenierıa de la Universidad de los Llanos, Kilometro 8 vıa Puerto Lopez,Villavicencio (Meta), Colombia. [email protected]

En la clasificacion automatica de coberturas de suelouno de los insumos mas utilizado es el procesamiento deimagenes de teledeteccion. El tipo de imagenes usadas paracaracterizar coberturas del suelo son usualmente imagenessatelitales de observacion de la tierra. Las imagenes desatelite se estudian como la representacion visual de lareflectancia de la tierra adquirida por el sensor particular[13]. En Colombia se sigue creando gran cantidad de mapasde coberturas de suelo por medio de interpretacion visualpor parte de un experto, tal como la mayorıa de mapasutilizados en este trabajo, incluyendo los mapas de coberturade suelo realizados por Parques Naturales Nacionales (PNN)de Colombia [1] y del Sistema de Informacion Ambiental deColombia (SIAC) [2].

Por otro lado, el alto costo y el tiempo invertido en la crea-cion de los mapas de coberturas de suelo estan vinculados ala calidad y disposicion de imagenes de teledeteccion, y eljuicio del profesional a cargo de la realizacion del mapa, ladisponibilidad de informacion de bandas del espectro visibley otras bandas generadas por el sensor. Con el fin de dismi-nuir el costo y el error humano, se ha estado investigandometodos computacionales para mejorar el rendimiento y laprecision de la clasificacion de coberturas del suelo [17],[14].Por ejemplo, Maximum Likelihood Classification (MLC) hasido uno de los metodos de clasificacion automatica masusados en los ultimos 40 anos en coberturas de la tierra[16]. En la actualidad los algoritmos de aprendizaje compu-tacional como Maquinas de Soporte Vectorial (en ingles,Support Vector Machine - SVM) y Random Forest, hansido ampliamente utilizados para la clasificacion automaticacon con resultados de Precision general de 86.5 % [7] y95.10 % de precision de clasificacion [9]. Las redes neu-ronales convolucionales (En ingles - Convolutional NeuralNetworks - CNN), un metodo bioinspirado de aprendizajecomputacional, han demostrado ser eficientes en diferentesareas, como en el reconocimiento de voz [8], ası comoen clasificacion automatica de de imagenes de personaspor genero, ropa inferior y superior [11], aplicaciones enimagenes medicas deteccion de cancer de mama invasivo[15] [6] diferenciacion de tumor meduloblastoma [5].

Este trabajo presenta el desarrollo y evaluacion de unmetodo computacional basado en redes neuronales convo-lucionales para la clasificacion de suelos con la definicionde clases de primer nivel: bosques, areas con vegetacionherbacea y/o arbustiva, areas abiertas, sin o con poca vege-tacion y areas humedas continentales. Clases definidas por

Page 2: Clasificacion autom´ atica de coberturas del suelo en …fcbi.unillanos.edu.co/cici/Articulos/CICI_2016_paper_71.pdf · Clasificacion autom´ atica de coberturas del suelo en im´

leyenda nacional de coberturas de la tierra metodologıa CO-RINE Land Cover, adaptada para Colombia, escala 1:100.000[10]. El metodo propuesto empieza con la construccion deun conjunto de entrenamiento con el mapa de cobertura desuelo del parque nacional el Tuparro realizado por PNN,con el cual se entreno una red neuronal convolucional dearquitectura ConvNet alcanzando un 91.25 % de exactitudpromedio para el conjunto de entrenamiento, mientras queen el conjunto de validacion se evaluo con los mapas decoberturas del Amazonas del 2007 y 2012 realizado por elSIAC con el cual la ConvNet alcanzo un 82.51 % de exactitudpromedio.

En la seccion II se describio la metodologıa del metodopropuesto para la clasificacion de las coberturas del suelo, enla seccion III se describe el conjunto de datos generados parael entrenamiento y validacion para la CNN, en la seccionIV se discuten los resultados obtenidos de los experimentosrealizados, y por ultimo en la seccion V se describe lasconclusiones del proyecto.

II. METODO COMPUTACIONAL PARA LACLASIFICACION DE COBERTURA DE SUELO A

PARTIR DE IMAGENES SATELITALES

Para el desarrollo de este trabajo se realizaron los proce-dimientos que se aprecian en la Figura 1. Inicialmente serealizo un algoritmo de preprocesamiento de la informacionespectral de imagenes satelitales LandSat 5.0 que permitieraobtener los mapas utiles como conjunto de entrenamiento yvalidacion, teniendo en cuenta los aspectos relacionados conla georreferenciacion y la correccion de defectos tanto enimagenes como en mapas de insumo. El segundo procedi-miento consiste en la etapa de extraccion y generacion delconjunto de entrenamiento y validacion por medio de extrac-cion de muestras (parches) de las clases sobre las imagenessatelitales y balance de muestras por clases. Posteriormentese selecciono el tipo de arquitectura de CNN y el softwarede aprendizaje automatico para el entrenamiento de la CNNa partir de las muestras obtenidas. Posteriormente, se realizoel diseno experimental ajustando los parametros de la CNNpara realizar el algoritmo de entrenamiento y validacion, y asıencontrar el modelo final con los parametros seleccionadosen la etapa anterior, modelo que es finalmente usado paracalcular las medidas de desempeno de la solucion propuesta.

Fig. 1. Pasos para la clasificacion de coberturas de suelo.

II-A. Seleccion y preprocesamiento

Se utilizo informacion de cobertura correspondiente amapas del parque el Tuparro realizado el 2007 por ParquesNacionales Naturales de colombia (PNN) y los mapas decoberturas del Amazonas del 2007 y 2012 realizados por elSistema de Informacion Ambiental de Colombia (SIAC). Sedescargaron las imagenes satelitales utilizadas para realizarestos mapas de cobertura compuestas por imagen Landsat456 21/01/2008, las cuales se utilizaron como insumo parael mapa del parque el Tuparro. De la misma manera parael mapa de cobertura del Amazonas del 2012 se descarga-ron las imagenes Landsat 658 2010/01/24 y Landsat 5582011/01/20, que cuentan con cobertura de areas de interespara el estudio. Para el mapa de cobertura del Amazonasdel 2007 se utilizaron las imagenes Landsat 462 2007/07/29,Landsat 461 2005/09/25, Landsat 463 2007/07/29, Landsat759 2008, que tambien corresponden a las areas de interes.Para garantizar que la informacion corresponda espacialmen-te, se homogeniza el sistema de referencia de coordenadas(SRC) de imagenes y mapas a Magna-Sirgas de Colombia.El mapa del parque el Tuparro y la imagen satelital se leasigno el SRC Magna-Sirgas 3118 y a las demas imagenes ymapas se le asigno el SRC Magna-Sirgas 3117. Las imagenesLandsat 658 2010/01/24 y Landsat 558 2011/01/20 contenıanpıxeles con gran cantidad de nubosidad, lo cual introducıaerrores a la hora de procesar la imagen. Por lo tanto, seeliminaron para el analisis los sectores que coincidıan conlas areas con estos artefactos.

II-B. Extraccion de muestras (parches)

Para generar el conjunto de entrenamiento se utilizoel mapa del parque el Tuparro con un area de total de5564425674,58472m2 del cual se utilizo 4915083600,0m2

para realizar la extraccion de parches (muestras de las clases)de 20×20 pıxeles. Para realizar la extraccion de los parchesse realizo un algoritmo en el lenguaje de programacionPython, el cual se encarga de leer las imagenes satelitales ylos mapas de cobertura. Los mapas se separaron por clasesy se desarrollo el procedimiento de extraccion de parches20 × 20 pıxeles con un 80 % de la clase o mayor y con unsolapamiento del 50 %. A las clases areas abiertas, sin o conpoca vegetacion y areas humedas continentales se les hizo unsobremuestreo, debido a que las areas de interes eran muypequenas o delgadas relacionadas con rıos. A cada parchese le realizaron rotaciones de 90 grados e inversiones paragenerar 8 parches adicionales por clase. En total se genero untotal de 676906 parches, correspondientes a 8122872000m2

(el tamano es parches es mayor al tamano total del parquedebido al solapamiento y el sobre muestreo); el numero deparches por clases se aprecia en la Tabla 1. Los parchesgenerados no son diferenciables a simple vista ya que lasimagenes satelitales de cada banda estan representada enescala de grises como se ve en la Figura 2.

Los parches generados de cada clases contienen las 7bandas de la imagen original como se muestra en la Figura3. Los parches sin informacion en alguna de sus bandasson desechados. El conjunto de entrenamiento para la CNN

Page 3: Clasificacion autom´ atica de coberturas del suelo en …fcbi.unillanos.edu.co/cici/Articulos/CICI_2016_paper_71.pdf · Clasificacion autom´ atica de coberturas del suelo en im´

Fig. 2. Imagen satelital de siete bandas. (Elaboracion propia)

TABLE INUMERO PARCHES CLASES ENTRENAMIENTO

DISTRIBUCION DE PARCHES POR CLASEClases Numero de parches Area total en parchesBosques 19319 231828000Areas con vegetacion herbacea y/o arbustiva 117477 1409724000Areas abiertas, sin o con poca vegetacion 52772 633264000Areas humedas continentales 11171 148656000

8122872000

necesita estar balanceado para que el modelo predictivo nose incline a la clase con el mayor numero de muestras, porlo tanto se descartaron datos de las clases para obtener unacantidad de parches por clase mas homogenea, tal como sepuede ver en la Tabla 2.

TABLE IINUMERO PARCHES CON BALANCE DE CLASES

BALANCE DE CLASESClases Numero de parches Area total en parchesBosques 10824 129888000Areas con vegetacion herbacea y/o arbustiva 10824 129888000Areas abiertas, sin o con poca vegetacion 10824 129888000Areas humedas continentales 11171 134052000

523716000

La informacion que se utilizo para elaborar el conjunto devalidacion corresponde a mapas de cobertura del Amazonasdel 2007 y 2012 con una extension total de 8270600000m2;se corrio el algoritmo para la extraccion de parches generan-do un total de 76634 y distribuidos como se muestra en laTabla 3. Note que el conjunto de validacion no tiene que serbalanceado.

II-C. Red neuronal convolucional

Las redes neuronales convolucionales son el estado delarte en la clasificacion automatica de imagenes naturales. LasCNN tienen una fase de extraccion de caracterısticas y declasificacion. La extraccion de caracterısticas consta de unacapa de convolucion de la imagen de entrada con el filtro

Fig. 3. Ejemplo de parches por clase y sus bandas. (Elaboracion propia)

TABLE IIINUMERO PARCHES CLASES VALIDACION

DISTRIBUCION DE PARCHES POR CLASES VALIDACIONClases Numero de parches Area total en parchesBosques 43337 520044000Areas con vegetacion herbacea y/o arbustiva 30255 363060000Areas abiertas, sin o con poca vegetacion 24 288000Areas humedas continentales 3018 36216000

919608000

(kernel) con un numero determinado de neuronas, una capade sub-muestreo o pooling en la cual se reduce la salida de laconvolucion. Posteriormente continua una etapa de reduccionde dimensionalidad y seleccion de caracterısticas relevantespor la capa de Fully-connected, y finalmente esta la capa finalde clasificacion donde el modelo entrenado clasifica a queclase pertenece una imagen en particular. Durante el procesode entrenamiento, se utilizo el algoritmo de backpropagationusando el gradiente estocastico con la CNN, el cual ajustalos pesos de los filtros y reduce el error de clasificacion. Unesquema del tipo de CNN usada en este trabajo se muestraen la Figura 4.

Fig. 4. Ejemplo de una Red neuronal convolucional. (Elaboracion propia)

Las CNN requieren de conjuntos de datos de entrena-miento grandes, con el fin de ser mas robustas a la horade clasificar automaticamente. Tambien es necesario que losdatos de las clases esten balanceados si es un problema demulti-clases.

III. SOLUCION PROPUESTA

Se selecciono la librerıa de codigo abierto de googleTensorflow para elaborar el algoritmos de aprendizaje au-tomatico de CNN de arquitectura ConvNet con el fin deentrenar un modelo para la clasificacion de coberturas. Elalgoritmo cuenta con dos capas de convolucion y pooling;

Page 4: Clasificacion autom´ atica de coberturas del suelo en …fcbi.unillanos.edu.co/cici/Articulos/CICI_2016_paper_71.pdf · Clasificacion autom´ atica de coberturas del suelo en im´

la primera capa realiza la convolucion entre la imagen deentrada y el filtro kernel donde la imagen de entrada esde 20 × 20 × 7, donde siete es el numero de bandas dela imagen satelital y el filtro kernel de 5× 5× 7@C1 dondeC1 es el numero de neuronas por capa; a continuacion serealiza la etapa de pooling que para este caso corresponde aMaxpooling, que hace un sub muestreo eligiendo los valoresmaximos de la imagen en una ventana de 2 × 2. Se realizauna vez mas las etapas de convolucion y pooling, estavez la convolucion se realiza con los datos de la primeraconvolucion y pooling de tamano 8×8×7@C1 y otro filtrokernel de 5×5×C1@C2 donde C2 es el numero de neuronasde la segunda capa, otra capa de Maxpooling y por ultimose realiza la capa de fully connected (FC) que serıan losdatos que entran en el clasificador. Experimentalmente sedefinieron tres tipos de combinaciones de neuronas por capaslos cuales se muestran en la Tabla 4. Se propuso variar losparametros de taza de aprendizaje (en ingles -Learning Rate)y decaimiento de la tasa de aprendizaje (en ingles - LearningRate Decay).

TABLE IVNUMERO DE NEURONAS POR CAPAS

NEURONAS POR CAPASConvolucion 1 Convolucion 2 FC

128 256 1024256 256 25664 128 512

Se probaron doce modelos en total, se realizaron dosvariaciones en el learning rate en cada combinacion deneuronas por capa, se escogio un learnig rate de 0.000001 yse hizo un incremento en potencia de diez. AdamOptimizeroptimizador que realiza el algoritmo de propagacion haciaatras trae por defecto el decaimiento de la tasa de aprendizajeen 0,9; se probaron dos valores diferentes 0,93 y 0,96. Seeligio el modelo tres que mostraba un mejor desempeno enlas primeras 11 epocas, la configuracion de los modelos semuestra en la Tabla 5. El resultado despues de las primeras11 epocas se muestra en la Tabla 6.

TABLE VMODELOS Y VARIACIONES DE PARAMETROS

Modelos Nueronas Learning rate Learning rate decay1 128x256x1024 0.000001 0.92 128x256x1024 0.00001 0.93 128x256x1024 0.00001 0.934 128x256x1024 0.00001 0.965 256x256x256 0.000001 0.96 256x256x256 0.00001 0.97 256x256x256 0.00001 0.968 256x256x256 0.00001 0.939 64x128x512 0.000001 0.910 64x128x512 0.00001 0.911 64x128x512 0.00001 0.9312 64x128x512 0.00001 0.96

Solo se realizo una prueba con el learning rate a 0,000001en cada combinacion de neuronas por capas debido a que laconvergencia del modelo era lenta; por esta razon se decidioutilizar el learning rate a 0,00001 y variar el decaimientode la tasa de aprendizaje obteniendo los resultados de losexperimentos de cada modelo como se muestran en la Tabla6.

TABLE VIDESEMPENO DE LOS MODELOS

DESEMPENO DE LOS MODELOSModelo Promedio de exactitud Desviacion estandar

1 0.430 0.45022 0.728 0.39523 0.604 0.4814 0.649 0.4515 0.383 0.38366 0.651 0.44657 0.726 0.40718 0.604 0.45229 0.1445 0.169810 0.661 0.453811 0.668 0.290712 0.509 0.2458

III-A. Procedimiento de entrenamiento y validacion

Para realizar el entrenamiento de la CNN se desarrollo unmodulo en Python que lee los grupos, un 10 % para prueba yel resto para entrenamiento. Devuelve un objeto con atributos(imagenes y etiquetas) con un metodo que retorna un lotede estos parametros, los cuales entraran a la CNN, una vezcompletada una epoca los datos se bajan y vuelven a pasarpor la CNN hasta completar el numero de once epocas. Seeligio el modelo dos por ser el que genero el mayor resultadoen el promedio de exactitud y menor desviacion estandarsobre su matriz de confusion. El entrenamiento del modelose realizo por fases de once epocas; despues de las primerasonce se realizo una prueba de rendimiento, se imprimiola matriz de confusion sobre los datos de entrenamiento yvalidacion como se muestra en las Figuras 5 y 6.

Como se muestra en las Figuras 5 y 6 se puede evidenciarque la mayor parte de confusion del modelo yace en lasclases areas con vegetacion herbacea y/o arbustiva y areasabiertas, sin o con poca vegetacion y tiene mayor exactitud enlas clases Bosques y Aguas Continentales. El entrenamientodel modelo se realizo a lo largo de 66 epocas lograndoun promedio de exactitud del 91.25 % en entrenamiento y82.51 % en validacion.

La matriz de confusion de los datos de entrenamientodel modelo final muestra como el modelo puede diferenciarentre las clase areas con vegetacion herbacea y/o arbustivay areas abiertas, sin o con poca vegetacion, llegando a unapromedio de exactitud del 84.4 % y un 87 % respectivamente.Al modelo final con los datos de validacion le cuesta poderdistinguir entre estas dos clases, llegando a un maximo de0.6 % y 0.75 % como se puede ver en las Figura 7 y Figura8.

Page 5: Clasificacion autom´ atica de coberturas del suelo en …fcbi.unillanos.edu.co/cici/Articulos/CICI_2016_paper_71.pdf · Clasificacion autom´ atica de coberturas del suelo en im´

Fig. 5. Matriz de confusion primeras 11 epocas en entrenamiento

Fig. 6. Matriz de confusion primeras 11 epocas validacion

Fig. 7. Matriz de confusion modelo final en entrenamiento

III-B. Medidas de desempeno

Los resultados finales obtenidos en rendimiento son altosde la CNN. El total de area afectiva en parche se reducedebido a factores mencionados antes en este artıculo. Conuna cantidad de datos de entrenamiento mayor se puedereducir aun mas el promedio de exactitud. Un 82.5 % en

Fig. 8. Matriz de confusion modelo final en validacion

Fig. 9. Mapa de cobertura anotado manualmente por expertos.

validacion siendo en una primera instancia de la aplicacionde CNN a la clasificacion de coberturas de suelo es un no-table avance comparado en trabajos previos de clasificacionde coberturas [7] donde lograron 86.5 % de efectividad y un95.10 % de precision global en [9]. Solo habiendo probado laarquitectura mas basica de las CNN y variado unas cuantasvariables de las muchas posibles en este problema, indica elpoder obtener mejores resultados continuando el estudio declasificacion de coberturas con las CNN.

IV. CONCLUSIONES

Se logro entrenar un modelo de aprendizaje de redes neu-ronales convolucionales para la clasificacion de coberturasde la tierra capaz de distinguir entre 3 clases de bosquesy areas Seminaturales y una clase de superficies de agua.Se desarrollo un modulo para la extraccion de parches elcual contena metodos de lectura de imagenes y mapas decoberturas, con el cual se genero el modelo de entrenamientoy validacion. Un modulo de lectura y generacion de objetospara el ingreso de lotes de imagenes y etiquetas de lasclases a la CNN. Y por ultimo un algoritmo de aprendizajecomputacional de arquitectura ConvNet el cual entreno elmodelo predictivo con un promedio de exactitud del 91.25en entrenamiento y 82.51 en validacion. Se puede concluirque las CNN son capaces de clasificar satisfactoriamentecoberturas de suelo, se planea probar mas arquitecturas eir mas profundo al capaz de distinguir mas clases sobrelas ya presentadas, tambien tratar de conseguir mas mapas

Page 6: Clasificacion autom´ atica de coberturas del suelo en …fcbi.unillanos.edu.co/cici/Articulos/CICI_2016_paper_71.pdf · Clasificacion autom´ atica de coberturas del suelo en im´

Fig. 10. Mapa de cobertura generado automaticamente.

de coberturas e imagenes para entrenar todas las clases decoberturas definidas en la leyenda nacional de coberturas deColombia.

AGRADECIMIENTOS

Se agradece a la Gobernacion del Meta por el credito-becacondonable de pasantia de joven investigador Arnol Suarezy a los grupos de investigacion Macrypt y GITECX de laUniversidad de Llanos.

REFERENCES

[1] Grupo de planeacion y manejo Subdireccion De Gestion Y ManejoDe Areas Protegidas. Acevedo, L. Parques nacionales naturales decolombia. Estrategia de vida salvestre para parques nacionalesnaturales de Colombia, pages 1–57, 2012.

[2] Axesnet S.a.S. Sistema de Informacion Ambiental de Colombia -SIAC, 2012.

[3] Georges F. Backoulou, Norman C. Elliott, Kristopher L. Giles, andMustapha Mirik. Processed multispectral imagery differentiates wheatcrop stress caused by greenbug from other causes. Computers andElectronics in Agriculture, 115:34–39, 2015.

[4] R. Bokusheva, F. Kogan, I. Vitkovskaya, S. Conradt, and M. Batyr-bayeva. Satellite-based vegetation health indices as a criteria forinsuring against drought-related yield losses. Agricultural and ForestMeteorology, 220:200–206, 2016.

[5] Angel Cruz-Roa, John Arevalo, Alexander Judkins, Anant Madab-hushi, and Fabio Gonzalez. A method for medulloblastoma tumordifferentiation based on convolutional neural networks and transferlearning. International Symposium on Medical Information Processingand Analysis, 9681:968103, 12 2015.

[6] Angel Cruz-Roa, Ajay Basavanhally, Fabio Gonzalez, Hannah Gil-more, Michael Feldman, Shridar Ganesan, Natalie Shih, John Tomas-zewski, and Anant Madabhushi. Automatic detection of invasive ductalcarcinoma in whole slide images with convolutional neural networks.Proc. SPIE, 9041(216):904103–904115, 3 2014.

[7] Vahid Eisavi, Saeid Homayouni, Ahmad Maleknezhad Yazdi, andAbbas Alimohammadi. Land cover mapping based on random forestclassification of multitemporal spectral and thermal images. Environ-mental Monitoring and Assessment, 187(5):1–14, 2015.

[8] Jui-Ting Huang, Jinyu Li, and Yifan Gong. An analysis of con-volutional neural networks for speech recognition. In 2015 IEEEInternational Conference on Acoustics, Speech and Signal Processing(ICASSP), pages 4989–4993. IEEE, 4 2015.

[9] Ying Liu, Bai Zhang, Li min Wang, and Nan Wang. A self-trainedsemisupervised SVM approach to the remote sensing land coverclassification. Computers and Geosciences, 59:98–107, 2013.

[10] Ministerio del Medio Ambiente. Leyenda nacional de coberturas dela tierra. 2010.

[11] Hugo Alberto Perlin and Heitor Silverio Lopes. Extracting humanattributes using a convolutional neural network approach. PatternRecognition Letters, 68:250–259, 2015.

[12] V. F. Rodriguez-Galiano, B. Ghimire, J. Rogan, M. Chica-Olmo,and J. P. Rigol-Sanchez. An assessment of the effectiveness of arandom forest classifier for land-cover classification. ISPRS Journalof Photogrammetry and Remote Sensing, 67(1):93–104, 2012.

[13] Robert A Schowengerdt. Chapter 1 - The nature of remote sensing.pages 1–X, 2007.

[14] Frank Thonfeld, Hannes Feilhauer, Matthias Braun, and Gunter Menz.Robust Change Vector Analysis (RCVA) for multi-sensor very highresolution optical satellite data. International Journal of Applied EarthObservation and Geoinformation, 50:131–140, 2016.

[15] Haibo Wang, Angel Cruz-Roa, Ajay Basavanhally, Hannah Gilmore,Natalie Shih, Mike Feldman, John Tomaszewski, Fabio Gonzalez,and Anant Madabhushi. Mitosis detection in breast cancer pat-hology images by combining handcrafted and convolutional neuralnetwork features. Journal of medical imaging (Bellingham, Wash.),1(3):034003, 10 2014.

[16] Timothy A. Warner, Giles M. Foody, and M. Duane. Nellis. The SAGEHandbook of Remote Sensing. page 504, 2009.

[17] Rongqun Zhang and Daolin Zhu. Study of land cover classification ba-sed on knowledge rules using high-resolution remote sensing images.Expert Systems with Applications, 38(4):3647–3652, 2011.