Estudio comparativo de técnicas estadística multivariada

ESTUDIO COMPARATIVO DE TÉCNICAS ESTADÍSTICA MULTIV ARIADA VERSUS LAS REDES NEURONALES ARTIFICIALES EN EL ANÁL ISIS DE

DATOS DE CALIDAD DE AGUA

JUAN CARLOS RODRÍGUEZ CAMPO

PONTIFICIA UNIVERSIDAD JAVERIANA FACULTAD DE INGENIERÍA

MAESTRIA EN HIDROSISTEMAS BOGOTÁ D.C.

2008

2

ESTUDIO COMPARATIVO DE TÉCNICAS ESTADÍSTICA MULTIV ARIADA VERSUS LAS REDES NEURONALES ARTIFICIALES EN EL ANÁL ISIS DE

DATOS DE CALIDAD DE AGUA

JUAN CARLOS RODRÍGUEZ CAMPO

Trabajo de grado para optar el título de

MAGISTER EN HIDROSISTEMAS

Director

OSCAR GARCÍA-CABREJO

Geólogo, M.Sc.

PONTIFICIA UNIVERSIDAD JAVERIANA FACULTAD DE INGENIERÍA

MAESTRIA EN HIDROSISTEMAS BOGOTÁ D.C.

2008

3

ACEPTACIÓN

____________________________

____________________________

____________________________

____________________________

____________________________

4

Este trabajo lo dedico a Dios y a mi familia,

por su apoyo incondicional en la realización de este sueño

Gracias…..

5

AGRADECIMIENTO

El autor expresa su agradecimiento a: Oscar García-Cabrejo; Geólogo, amigo y director del proyecto, por su orientación y tiempo compartido para la ejecución de proyecto Nelson Obregón Neira; Ing. Civil, director de la Maestría, por su constante motivación y amistad Compañeros de estudio y profesores; por compartir su amistad y hacer amena el tiempo que pase realizando la maestría.

6

TABLA DE CONTENIDO OBJETIVOS INTRODUCCIÓN

1 MARCO TEÓRICO 15

1.1 ESTADÍSTICA MULTIVARIADA 15 1.1.1 MÉTODOS MULTIVARIADOS APLICADOS EN LA INVESTIGACIÓN 18

1.1.1.1 Análisis de Componentes Principales (ACP) 19 1.1.1.2 Análisis Discriminante (AD) 21

1.2 REDES NEURONALES 23 1.2.1 NEURONAS BIOLÓGICAS 23 1.2.2 REDES NEURONALES ARTIFICIALES (RNA) 24

1.2.2.1 Modelo General de una Neurona Artificial 26 1.2.3 CARACTERÍSTICAS DE LAS REDES NEURONALES ARTIFICIALES 27

1.2.3.1 Arquitectura o topología de las redes neuronales 28 1.2.3.2 Mecanismo de aprendizaje 30

1.2.4 PRINCIPALES TIPOS DE REDES NEURONALES ARTIFICIALES (RNA) 33 1.2.5 REDES NEURONALES HEBBIANAS 34

1.2.5.1 Componentes Principales Usando Redes Neuronales Hebbianas 35 1.2.6 RED NEURONAL TIPO PERCEPTRON 37

1.2.6.1 Estructura de la Red 38

2 DATOS USADOS EN LA APLICACIÓN DE LOS METODOS DE ANÁ LISIS 41

2.1 ÁREA DE ESTUDIO 41 2.1.1 LOCALIZACIÓN GEOGRÁFICA 41

2.2 CONJUNTO DE DATOS UTILIZADOS 42

3 ANÁLISIS EXPLORATORIO DE DATOS (AED) 46

3.1 ESTADÍSTICA BÁSICA 46 3.1.1 TABLAS 46 3.1.2 GRÁFICAS 50

4 APLICACIÓN DE LOS MÉTODOS 61

4.1 ASOCIACIÓN ENTRE VARIABLES 63 4.1.1 ANÁLISIS DE COMPONENTES PRINCIPALES (ACP) 63

4.1.1.1 Procedimiento 63 4.1.1.2 Resultados 68

4.1.2 REDES NEURONALES ARTIFICIALES (RNA) 69 4.1.2.1 Procedimiento 69 4.1.2.2 Resultados 73

4.1.3 ANALISIS DE RESULTADOS DE LA COMPARACIÓN 74 4.2 CLASIFICACIÓN DE LAS VARIABLES 74

4.2.1 ANALISIS DISCRIMINANTE (AD) 76 4.2.1.1 Procedimiento 76 4.2.1.2 Resultados 77

7

4.2.1.3 Matriz de Confusión 80 4.2.2 REDES NEURONALES ARTIFICIALES (RNA) 82

4.2.2.1 Procedimiento 83 4.2.2.2 Resultados 87

4.2.3 ANÁLISIS DE RESULTADOS DE LA COMPARACIÓN 90

5 CONCLUSIONES 91

6 RECOMENDACIONES 93

7 BIBLIOGRAFÍA 94

8 ANEXOS 96

8

LISTA DE TABLAS TABLA 1. PARÁMETROS FISICOQUÍMICOS MEDIDOS 43 TABLA 2. MATRIZ DE DATOS DE LA ESTACIÓN NO. 1 USADOS EN EL PROYECTO 44 TABLA 3. RESULTADOS DEL ANÁLISIS ESTADÍSTICOS BÁSICO 47 TABLA 4. PROMEDIO DE LA DESVIACIÓN ESTÁNDAR DE LOS PARÁMETROS MEDIDOS 48 TABLA 5. METODOLOGÍAS EMPLEADAS EN LA INVESTIGACIÓN 61 TABLA 6. MATRIZ DE CORRELACIÓN - ACP MÉTODO ESTADÍSTICO CONVENCIONAL 66 TABLA 7. MATRIZ DE CORRELACIÓN OBTENIDA CON LA RED NEURONAL ARTIFICIAL 71 TABLA 8. MATRIZ DE RESULTADO DEL AD - MÉTODO ESTADÍSTICO 78 TABLA 9. MATRIZ DE CONFUSIÓN BAYESIANA PARA LA CLASIFICACIÓN REALIZADA CON EL CONJUNTO DE

DATOS CALIBRADOS 81 TABLA 10. MATRIZ DE CONFUSIÓN BAYESIANA PARA LA CLASIFICACIÓN REALIZADA CON EL CONJUNTO DE

DATOS DE VALIDACIÓN 81 TABLA 11. MATRIZ DE CONFUSIÓN BAYESIANA PARA LA CLASIFICACIÓN REALIZADA CON EL CONJUNTO DE

DATOS DE CALIBRACIÓN 85 TABLA 12. MATRIZ DE CONFUSIÓN BAYESIANA PARA LA CLASIFICACIÓN REALIZADA CON EL CONJUNTO DE

DATOS DE VALIDACIÓN 86 TABLA 13. RESULTADO DEL AD CON LA RNA 87 TABLA 14. MATRIZ DE CONFUSIÓN BAYESIANA PARA LA CLASIFICACIÓN REALIZADA CON EL CONJUNTO DE

DATOS COMPLETOS 89

9

LISTA DE FIGURAS ILUSTRACIÓN 1. ESQUEMA DE LA REPRESENTACIÓN DE UNA MATRIZ DE DATOS 18 ILUSTRACIÓN 2. FUNCIÓN DISCRIMINANTE 22 ILUSTRACIÓN 3. ESTRUCTURA Y PARTES DE UNA NEURONA BIOLÓGICA 23 ILUSTRACIÓN 4. ESTRUCTURA DE UNA RED NEURONAL ARTIFICIAL 25 ILUSTRACIÓN 5. MODELO GENÉRICO DE UNA NEURONA ARTIFICIAL 27 ILUSTRACIÓN 6. ESTRUCTURA JERÁRQUICA DE UN SISTEMA BASADO EN RNA 28 ILUSTRACIÓN 7. ESTRUCTURAS DE UNA RED MULTICAPA Y MONOCAPA 30 ILUSTRACIÓN 8. ESTRUCTURA DE UNA RED NEURONAL DE TIPO HEBBIANO MODIFICADO DE MORENO-

SÁNCHEZ & GARCÍA-CABREJO (2003) 35 ILUSTRACIÓN 9. ESTRUCTURA DE UNA RED PERCEPTRON 39 ILUSTRACIÓN 10. LOCALIZACIÓN DE LOS PUNTOS DE MUESTREO 42 ILUSTRACIÓN 11. ESQUEMA RED NEURONAL USADA EN EL ANÁLISIS DISCRIMINANTE 82

10

LISTA DE GRÁFICAS

GRÁFICA 1. ANÁLISIS TEMPORAL DEL DBO5 EN LAS ESTACIONES DE MONITOREO 51 GRÁFICA 2. ANÁLISIS TEMPORAL DEL PH EN LAS ESTACIONES DE MONITOREO 54 GRÁFICA 3. ANÁLISIS ESPACIAL DE LOS COLIFORMES FECALES EN LAS ESTACIONES DE MONITOREO 58 GRÁFICA 4. ANÁLISIS ESPACIAL DEL CROMO EN LAS ESTACIONES DE MONITOREO 58 GRÁFICA 5. ANÁLISIS ESPACIAL DE DBO5 EN LAS ESTACIONES DE MONITOREO 59 GRÁFICA 6. ANÁLISIS ESPACIAL DEL PH EN LAS ESTACIONES DE MONITOREO 59 GRÁFICA 7. ANÁLISIS ESPACIAL DE LA TURBIDEZ EN LAS ESTACIONES DE MONITOREO 60 GRÁFICA 8. ANÁLISIS ESPACIAL DE LOS SÓLIDOS TOTALES EN LAS ESTACIONES DE MONITOREO 60 GRÁFICA 9. VARIANZA ACUMULADA POR COMPONENTES 64 GRÁFICA 10. HISTOGRAMA DE PRECIPITACIÓN MENSUAL 75 GRÁFICA 11. DISTRIBUCIÓN DE LOS DATOS ENTRE LOS PERIODOS 80 GRÁFICA 12. NÚMERO DE ÉPOCAS 85

11

OBJETIVOS OBJETIVO GENERAL Realizar un estudio comparativo de las técnicas estadísticas multivariadas versus

las redes neuronales artificiales en el análisis estadístico de datos de calidad de

agua

OBJETIVOS ESPECÍFICOS

1. Aplicar las técnicas multivariadas convencionales como: Análisis de

Componentes Principales y Análisis Discriminante en el análisis exploratorio

de un conjunto de datos de calidad de agua

2. Estudiar la viabilidad de aplicación de técnicas de redes neuronales

artificiales de aprendizaje supervisado y no supervisado en el análisis de

información relacionada con la calidad del agua

3. Realizar una comparación de los resultados obtenidos del análisis de un

conjunto de datos de calidad de agua empleando las técnicas estadísticas

multivariadas tradicionales y las redes neuronales artificiales

12

INTRODUCCIÓN

Los programas de monitoreo de la calidad de agua son una herramienta

importante para obtener un conocimiento directo de las condiciones químicas de

un cuerpo de agua, y por ende su estado de calidad con respecto a diferentes

usos. Una característica de dichos programas de monitoreo es que producen

conjuntos de datos que se caracterizan por ser grandes (en cuanto a número de

muestras), y multidimensionales (ya que miden numerosas variables al mismo

tiempo); los cuales en muchas oportunidades son difíciles de analizar e interpretar.

A nivel tradicional, el análisis de estos conjuntos de datos se concentra en una

sola variable lo cual permite determinar las posibles tendencias, ya sea de

crecimiento o decrecimiento. Sin embargo aplicar este tipo de análisis a un

conjunto de datos multivariado como el que se obtiene comúnmente en los

programas de monitoreo de calidad es tedioso y lo más grave es que descarta las

posibles relaciones entre la variable analizada y las otras que se midieron. Es por

esta razón cobra interés la utilización de las técnicas estadísticas multivariadas

como herramientas para el análisis e interpretación de este tipo de información.

Las técnicas estadísticas multivariadas permiten estudiar conjuntos de datos que

se encuentren conformados por un número muy grande de variables explotando

las correlaciones que presentan dichos parámetros. Estas técnicas multivariadas

se emplean comúnmente en problemas de reducción de dimensionalidad, en

donde el conjunto de datos multidimensional es proyectado en un espacio de

menor dimensionalidad y los resultados de estas proyecciones pueden ser

empleados para visualización y/o para determinar asociaciones significativas entre

variables. Estos últimos aspectos resultan de especial importancia para el análisis

de la información de calidad de agua, y es por esta razón que la utilización de los

métodos estadísticos multivariados ha aumentado en los últimos años (Vega et al,

1998).

13

Los métodos estadísticos multivariados convencionales se han aplicado en el

análisis de información de calidad de agua por los siguientes autores:

• Vega et al (1998) aplicaron Análisis de Componentes Principales y Análisis

de Agrupamientos en el Rio Pisuerga (España), el cual se encuentra

afectado por vertimientos de procesos agrícolas y aguas residuales.

• Wunderlin et al (2001) aplicaron Análisis de componentes principales,

Análisis de Factor, Análisis de Agrupamiento y Análisis Discriminante en la

Cuenca del Rio Suquia.

• Ouyang (2005) aplicó el análisis de componentes principales y análisis de

factor para determinar la efectividad de la red de monitoreo de calidad de

agua en la cuenca LSJR en el NE de Florida, USA.

Sin embargo una de las principales limitaciones de la técnica estadísticas

multivariadas corresponde al hecho que la gran mayoría de ellas hacen

suposiciones de normalidad y dependencia lineal entre las variables analizadas

(Kottegoda y Rozzo, 1993). Esto tiene serias limitaciones en cuanto a la aplicación

a los datos obtenidos en los monitoreos de calidad de agua, ya que estas

variables difícilmente cumplen con esas condiciones y por lo tanto los resultados

obtenidos deben interpretarse con mucha cautela.

Como alternativa de solución al problema antes mencionado se tienen las

denominadas Redes Neuronales Artificiales. Estos son modelos que se

encuentran basados en la estructura del cerebro de los animales, y que

reproducen una de las características más sorprendentes de este órgano: su

capacidad de aprendizaje. Por lo tanto las Redes Neuronales Artificiales son

modelos matemáticos que pueden aprender de un conjunto de datos. Esto se ha

aplicado con un relativo éxito en labores de predicción y clasificación, pero un uso

menos publicitado de estos modelos matemáticos es que se pueden emplear para

14

construir representaciones de la información analizada que pueden ser empleadas

en el análisis exploratorio de datos. Esto es especialmente aplicable en el caso

que el conjunto de datos tenga una función de densidad de probabilidad diferente

a la normal y que las relaciones de dependencia entre las variables sea altamente

complejas y de tipo no-lineal, características propias de las variables de calidad de

agua.

Las técnicas multivariadas convencionales empleadas en este trabajo fueron

Análisis de Componentes principales (CP) y el Análisis discriminante (AD);

mientras que las RNA utilizadas en éste ejercicios fueron, la red perceptrón

multicapa, y la red hebbiana de aprendizaje no supervisado

Para esta investigación, los datos usados provinieron del programa del Plan de

Seguimiento y Monitoreo (PSM) realizado en el embalse del Muña, que se

encuentra localizado en el municipio de Sibaté en el departamento de

Cundinamarca, las aguas de este embalse es utilizado para la generación de

energía eléctrica y su afluente más representativo son las aguas que se bombean

desde el río Bogotá. EMGESA S.A. es la empresa propietaria y encargada de la

operación del embalse. Para realizar el PSM se seleccionaron siete estaciones de

monitoreo para la toma de las muestras de agua, de cada muestra se

determinaron 21 parámetros fisicoquímicos, el periodo de muestreo estuvo

comprendido desde abril del 2004 hasta octubre del 2006, para un total de 4557

datos.

15

1 MARCO TEÓRICO

A continuación, se hace una breve descripción teórica de los métodos usados en

la investigación, las RNA y los métodos multivariados.

1.1 ESTADÍSTICA MULTIVARIADA

En la estadística, los métodos multivariados son un conjunto de técnicas que

permiten al investigador interpretar y visualizar conjuntos grandes de datos (tanto

en individuos como en variables), a partir de su simplificación o reducción. Su

importancia radica en que las distintas características o variables pueden estar

correlacionadas ya que se miden de un mismo individuo, por lo tanto, si se

realizan análisis separados de cada una de estas características, se pierde la

información dada por esta correlación.

En el mundo, las técnicas multivariadas se utilizan en diferentes campos de la

ciencia o del conocimiento, donde se requieren estas técnicas para el análisis o

exploración de datos. Las áreas en las que se han utilizado las técnicas

multivariadas se pueden mencionar la geología, que buscan determinar las

características relevantes del suelo y hacer una clasificación de estos; también se

aplica estos conocimientos en áreas como la antropología, donde buscan

determinar de un individuo (mediciones de algunos huesos de un cadáver) un

modelo con el cual se pueda predecir algunas características como la edad, el

sexo entre otras. Otros campos en los que se aplican las técnicas multivariadas se

pueden mencionar el mercadeo, la psicología, la biología, la medicina y la

arqueología, entre otras.

16

Una primera diferencia entre los distintos métodos se basa en los objetivos que

persiguen. Generalmente, se distinguen cuatro posibles objetivos1:

• Simplificación estructural , se trata de describir la información original de

forma sintética o resumida. Se busca la simplicidad a base de conseguir una

reducción de la complejidad del problema. El método consiste en condensar

las p variables originales en un número menor de nuevas variables creadas

por el propio análisis, que contienen sin embargo gran parte de la información

original. A este tipo de objetivo, y de método, se denomina reducción de la

dimensión ya que los datos originales se expresan en un espacio de

dimensión p mientras que como resultado del análisis podemos expresarles

en otro espacio de menor dimensión. Las nuevas variables creadas por el

análisis se denominan ejes, factores, o componentes principales. Son

variables sintéticas, que estarán en función de las p variables originales.

Generalmente, estos factores tienen una interpretación o significado que el

investigador debe descubrir. El análisis de componentes principales (ACP), el

análisis factorial (AF), y el análisis de correspondencias (AC) son métodos de

reducción de la dimensión.

• Clasificación o agrupación , estos métodos incluyen los de agrupamiento

(análisis clúster) y los de segmentación. La agrupación de individuos consiste

en formar grupos de individuos homogéneos en cuanto a las p variables, y

heterogéneos respecto a los otros grupos. La agrupación de variables busca

la formación de grupos de variables similares en cuanto a su comportamiento

en un colectivo de objetos.

• Análisis de interdependencia , se trata de buscar la interdependencia entre

grupos de variables, sin que a priori se suponga relación de causalidad entre

ellas. El método más conocido es el análisis de correspondencias, que es

una generalización del análisis de correspondencias bivariante. 1 http://dmi.uib.es/~dmiram0/anadadesbio/ADbio0304/apuntesadades.pdf

17

• Análisis de dependencia , explica las relaciones entre grupos de variables,

donde se supone que unas pueden ser causas de otras. El análisis de

regresión pertenece a este grupo de métodos. Un tipo interesante de análisis

de dependencia consiste en buscar un criterio que permita separar o

discriminar entre objetos pertenecientes a priora a grupos diferentes. Dicho

criterio es una función de las variables originales. En último término, se trata

de usar los resultados en el futuro para predecir a qué grupo pertenecen

nuevos objetos que no formaban parte de la información original y para los

cuales se han medido las p variables. El análisis discriminante y la regresión

logística son métodos que persiguen este objetivo.

Generalmente, los datos son estáticos, en el sentido de que son mediciones

realizadas en un momento o periodo dado de tiempo. Sin embargo, el Análisis

Multivariado se puede aplicar también para analizar la evolución temporal del

fenómeno en estudio. En este caso, los n individuos son n momentos de tiempo. A

veces, se emplean métodos multivariados para comparar una determinada

situación en dos momentos de tiempo.

Como se ha mencionado anteriormente la estadística o análisis multivariado utiliza

diferentes muestras o características medidas de un mismo individuo y estos

datos se deben presentar en forma de tablas o matriz.

A continuación, en la siguiente ilustración se muestra un ejemplo de cómo se

presentan normalmente los datos para su análisis.

18

VARIABLES

X1i X2i …… …… Xji

M U E S T R A S

1 X11 X21 …… …… Xj1

2 X12 X22 …… …… Xj2

…… …… …… …… …… ……

…… …… …… …… …… ……

n X1n X2n …… …… Xjn

Ilustración 1. Esquema de la representación de una matriz de datos

En los métodos multivariados, se supone que las variables están

correlacionadas, pero las observaciones sobre los individuos son independientes.

Generalmente se supone también que el conjunto de variables que intervienen

en el análisis poseen una distribución normal multivariada. Esta suposición

permite que el análisis multivariado se desarrolle paralelamente al

correspondiente análisis univariado basado en una distribución normal.

1.1.1 MÉTODOS MULTIVARIADOS APLICADOS EN LA INVESTI GACIÓN

Como se ha mencionado anteriormente, los métodos multivariados surgen a partir

del interés de analizar la correlación que existe entre varias características

medidas de un mismo individuo. Según el objetivo del análisis y el tipo de datos

obtenidos se sugiere un tipo de tratamiento de la información, a partir de esto

existen distintas metodologías o técnicas multivariadas, las cuales han sido

clasificadas o agrupadas en dos métodos, el primero es el método de dependencia,

éste se enfoca en las relaciones entre los individuos, entre ellos tenemos: Análisis

Discriminante, Regresión Múltiple, Análisis de Varianza Multivariado, entre otras.

Y el segundo grupo corresponde a los llamados métodos de interdependencia,

este grupo contrario al anterior se enfoca a la relación entre variables, entre ellas

se pueden mencionar: El Análisis de Componentes Principales, Análisis de

19

Conglomerado, Análisis de Factores, entre otras. A continuación, se hace una

breve definición de los métodos multivariados que se utilizaron en este proyecto.

1.1.1.1 Análisis de Componentes Principales (ACP)

El análisis de componentes principales tiene como objetivo la estructuración de un

conjunto de datos multivariado mediante la reducción del número de variables.

Esta es una metodología de tipo matemático para la cual no es necesario asumir

distribución probabilística alguna. El análisis de componentes principales tiene

como objetivos, entre otros, los siguientes2:

• Generar nuevas variables que expresen la información contenida en un

conjunto de datos

• Reducir la dimensión del espacio donde están inscritos los datos

• Eliminar las variables (si es posible) que aporten poco al estudio del problema

• Facilitar la interpretación de la información contenida en los datos

Entre las aplicaciones del análisis de componentes principales podemos

mencionar: el uso como método para reducir la dimensión de la matriz de datos en

busca de evitar redundancias y destacar relaciones; en muchos casos,

seleccionando únicamente los primeros componentes, se puede explicar la mayor

parte de la variación de los datos originales. También se pueden utilizar como

técnicas para el análisis exploratorio que permitan revelar interrelaciones entre los

datos y por último, permiten construir variables no observables a partir de

variables observables.

En fin, un componente principal es el producto de los datos originales y vector

propio; el resultado de proyectar los datos en un nuevo eje, es una nueva variable.

Hay tantos componentes principales como variables originales, no obstante los

2 Estadística Multivariada: inferencia y métodos. Díaz Luis G. Facultad de Ciencias. Universidad Nacional de Colombia

20

componentes principales proporcionan la información en los parámetros más

significativos, que describen nuestro conjunto de datos completos que produce la

reducción de datos con la pérdida mínima de información3.

En el caso de la no correlación entre las variables originales, el análisis de

componentes principales no tiene mucho que hacer, pues las componentes se

corresponderían con cada variable por orden de magnitud en la varianza; es decir,

la primera componente coincide con la variable de mayor varianza, la segunda

componente con la variable de segunda mayor varianza, y así sucesivamente4.

1.1.1.1.1 Modelo Matemático

En componentes principales no tenemos a priori ninguna hipótesis acerca de la

cualidad de los factores. El valor que toma una variable en un determinado caso

se explica en un 100% por los K factores. El modelo matemático es el siguiente5:

Xij = a1j Fi1 + a2j Fi2 +…………. + akj Fik

En el modelo anterior parte de la base de que tenemos K variables inicialmente y,

a partir de ellas, hemos calculado K factores linealmente independiente y

ortogonales. Xij es el valor de la pésima variable que tiene el pésimo caso; este

valor viene determinado por el producto de los coeficientes factoriales de la

pésima variable con cada uno de los factores; el valor que tiene cada caso en

cada uno de los factores, por ejemplo a2j, es el coeficiente factorial de la pésima

variable con el segundo factor y Fi2 es el valor del segundo factor correspondiente

al pésimo caso.

3 Pattern recognition techniques for the evaluation of spatial and temporal variations in water quality. a case study: suquia river basin (córdoba–argentina). WUNDERLIN DANIEL ALBERTO. Universidad Nacional de Córdoba, Facultad de Ciencias Químicas, Dto. Bioquímica. 4 Estadística Multivariada: inferencia y métodos. Díaz Luis G. Facultad de Ciencias. Universidad Nacional de Colombia 5 Estadística multivariante y no paramétrica con SPSS. Aplicación a la ciencia de la salud. Rafael Álvarez Cáceres. Editorial Diaz de Santos

21

Conceptualmente, el modelo indica que el 100% de la información de la variable

se explica por los K factores.

1.1.1.2 Análisis Discriminante (AD)

El análisis discriminante es una técnica estadística multivariado que tiene como

finalidad establecer si existen diferencias significativas entre grupos de objetos

respecto a un conjunto de variables medidas sobre los mismos, en el caso de

existir, se debe explicar en qué sentido se dan y proporcionar procedimientos de

clasificación sistemática de nuevas observaciones de origen desconocido en uno

de los grupos analizados.

Dos son los objetivos centrales del análisis discriminante:

• Descriptivo , si estamos sólo interesados en poner en evidencia la capacidad

discriminante de un cierto conjunto de variables

• Decisional , si buscamos un criterio que nos permita decidir sobre la

adscripción a uno de los grupos de un caso nuevo, no perteneciente a la

muestra de entrenamiento.

La diferencia que existe entre análisis discriminante y los métodos de

agrupamientos como el de clúster es que, en el primero, los grupos están

definidos, mientras que en el segundo se trata de definir los grupos ante un

conjunto de individuos.

Según cuál sea nuestro interés, se utilizarán alguno de los dos siguientes

métodos6:

6 Estadística multivariante y no paramétrica con SPSS. Aplicación a la ciencia de la salud. Rafael Álvarez Cáceres. Editorial Diaz de Santos

22

• Análisis factorial discriminante . Su objetivo es explicar la permanencia de

un individuo a un determinado grupo. Este método también permite realizar

predicciones, asignando a cada individuo al grupo más cercano a su

puntuación factorial.

• Funciones discriminantes . Este método pretende predecir la pertenencia de

un individuo a un determinado agrupo, en función a al probabilidad calculada,

conocidos una serie de datos.

1.1.1.2.1 Fundamento Matemático

En el análisis discriminante el interés es el de encontrar una función o funciones

que maximicen el cociente entre la variabilidad entre grupos y la variabilidad

dentro de grupos. De esta manara, la función debe tener el máximo poder posible

de discriminación de los grupos7.

Ilustración 2. Función Discriminante

En el gráfico anterior podemos observar que hay valores de las variables X e Y

que pueden darse tanto en elementos del grupo A como del B; por tanto, dichas

variables, por sí solas, no pueden discriminar los dos grupos. Proyectando ambos

grupos sobre el eje Z, podemos discriminar los elementos pertenecientes a los

7 Estadística multivariante y no paramétrica con SPSS. Aplicación a la ciencia de la salud. Rafael Álvarez Cáceres. Editorial Diaz de Santos

Y

Z

X

00

AB

Y

Z

X

00

AB

23

grupos A y B. por lo tanto, debemos calcular una función discriminante D,

combinación lineal de X e Y definida sobre el eje Z.

El caso anterior es un caso ideal de discriminación, en la mayoría de los casos

prácticos, el poder de discriminación no es total.

1.2 REDES NEURONALES

El cerebro humano continuamente recibe señales de entrada de muchas fuentes y

las procesa a manera de crear una apropiada respuesta de salida. Nuestros

cerebros cuentan con millones de neuronas que se interconectan para elaborar

"Redes Neuronales". Estas redes ejecutan los millones de instrucciones

necesarias para mantener una vida normal8.

1.2.1 NEURONAS BIOLÓGICAS

Las neuronas son las células que forman la corteza cerebral de los seres vivos,

cada una está formada por elementos llamados cuerpo, axón y dendritas.

Fuente: Imagen tomada de internet - http://www.filosofiayliteratura.org/Revista/Articulos/biologia/neurona.gif

Ilustración 3. Estructura y partes de una neurona b iológica

8 http://electronica.com.mx/neural/informacion/index.html

24

Como se puede ver en la figura anterior, las dendritas son una estructura de

filamentos que rodean el cuerpo de la neurona. El axón es un tubo largo y delgado

que se ramifica en su extremo en pequeños bulbos que no alcanzan a tocan las

dendritas de las células vecinas. La pequeña separación entre los bulbos finales y

las dendritas se le denomina sinapsis.

Una de las características de las neuronas es su capacidad de comunicarse. En

términos generales las dendritas y el cuerpo celular reciben señales de entrada; el

cuerpo celular las combina e integra y emite señales de salida. El axón transmite

dichas señales a los terminales axónicos, que distribuyen información o un nuevo

conjunto de neuronas, se calcula que en el cerebro humano existen del orden de

1015 conexiones.

Las señales que se utilizan son de dos tipos: eléctrica y química. La señal

generada por la neurona y transportada a lo largo del axón es un impulso eléctrico,

mientras que la señal que se transmite entre los terminales axónicos de una

neurona y las dendritas de la otra es de origen químico9.

1.2.2 REDES NEURONALES ARTIFICIALES (RNA)

Las Redes Neuronales Artificiales (RNA) son sistemas o modelos

computacionales que buscan la manera de imitar la forma en que el cerebro

procesa la información para resolver problemas reales.

La clase de problemas que mejor se resuelven con las redes neuronales son los

mismos que el ser humano resuelve mejor: Asociación, evaluación, y

reconocimiento de patrones. Las redes neuronales son perfectas para problemas

que son muy difíciles de calcular pero que no requieren de respuestas perfectas,

sólo respuestas rápidas y buenas10.

9 www.monografias.com 10 http://electronica.com.mx/neural/informacion/index.html

Las neuronas artificiales son modelos que tratan de simular el comportamiento de

las neuronas biológicas

proceso que forma parte de una entidad mayor, la red neuronal.

Dicha unidad de proceso consta de una serie de e

dendritas de donde reciben la estimulació

representan como los impulsos entrant

función de red que nos dará el nivel potencial de la neurona.

La salida de la función de red es evaluada en la función de activación que da lugar

a la salida de la unidad de proceso.

la neurona artificial se comporta como la neurona biológica pero de una forma muy

simplificada.

Ilustración

Por las entradas Xi llegan unos valores que pueden se

Estos valores equivalen a las señales que enviarían otras neuronas a la nuestra a

través de las dendritas.

25


biológicas. Cada neurona se representa como una unidad de

ceso que forma parte de una entidad mayor, la red neuronal.

proceso consta de una serie de entradas Xi, que equivalen a las

de donde reciben la estimulación, ponderadas por unos pesos Wi

representan como los impulsos entrantes son evaluados y se combinan con la

de red que nos dará el nivel potencial de la neurona.


a la salida de la unidad de proceso. Como se puede ver en la siguiente

a neurona artificial se comporta como la neurona biológica pero de una forma muy

Ilustración 4. Estructura de una red neuronal artificial

Por las entradas Xi llegan unos valores que pueden ser enteros, reales o binarios.



. Cada neurona se representa como una unidad de

ntradas Xi, que equivalen a las

n, ponderadas por unos pesos Wi, que

es son evaluados y se combinan con la


r en la siguiente ilustración,

a neurona artificial se comporta como la neurona biológica pero de una forma muy

. Estructura de una red neuronal artificial

r enteros, reales o binarios.


26

Los pesos que hay en las sinapsis Wi, equivaldrían en la neurona biológica a los

mecanismos que existen en las sinapsis para transmitir la señal. De forma que la

unión de estos valores (Xi y Wi) equivalen a las señales químicas inhibitorias y

excitadoras que se dan en las sinapsis y que inducen a la neurona a cambiar su

comportamiento.

Estos valores son la entrada de la función de ponderación o red que convierte

estos valores en uno solo llamado típicamente el potencial que en la neurona

biológica equivaldría al total de las señales que le llegan a la neurona por sus

dendritas. La función de ponderación suele ser una la suma ponderada de las

entradas y los pesos sinápticos.

La salida de función de ponderación llega a la función de activación que

transforma este valor en otro en el dominio que trabajen las salidas de las

neuronas.

Suele ser una función no lineal como la función paso o sigmoidea aunque también

se usa funciones lineales.

1.2.2.1 Modelo General de una Neurona Artificial

Bonitacio Martín del Brio y Alfredo Sanz Molina, en su libro Redes Neuronales y

Sistemas Difuso, definen, que una neurona es un dispositivo simple de cálculo que,

a partir de un vector de entrada procedente del exterior o de otras neuronas,

proporciona una respuesta o salida. Los elementos que constituyen la neurona de

etiqueta i son los siguientes:

• Conjunto de entradas , Xj (t)

• Pesos sinápticos de la neurona i, W ij que representan la intensidad de

interacción entre cada neurona presináptica j y la neurona postsináptica i.

• Reglas de propagación

postsináptico hi(t)

entradas.

• Función de activación

activación actual

estado anterior ai

• Func ión de salida

la neurona i en función de su estado de activación.

De este modo, la operación de la neurona

Ilustración

1.2.3 CARACTERÍSTICAS DE LAS REDES NEURONALES ARTIFICIALE S

Existen tres propiedades que caracterizan a las redes neuronales artificiales: 1. Topología de la red. F

27

Reglas de propagación σ(Wij, Xj(t)), que proporciona el valor del potencial

(t)= σ(Wij, Xj(t)) de la neurona i en función de sus pesos y

Función de activación fi(ai(t-1), hi(t)), que proporciona el estado de

ai(t)= fi(ai(t-1), hi(t)) de la neurona i,

i(t-1) y de su potencial postsináptico actual.

ión de salida Fi(ai(t)), que proporciona la salida actual y

en función de su estado de activación.

De este modo, la operación de la neurona i puede expresarse como:

yi(t)= Fi (fi [(ai(t-1), σ(Wij, Xj(t)) ])

Ilustración 5. Modelo genérico de una neurona artificial

CARACTERÍSTICAS DE LAS REDES NEURONALES ARTIFICIALE S

Existen tres propiedades que caracterizan a las redes neuronales artificiales:

Forma como las capas se encuentran conectadas

que proporciona el valor del potencial

en función de sus pesos y

(t)), que proporciona el estado de

en función de su

y de su potencial postsináptico actual.

), que proporciona la salida actual yi(t)= Fi(ai(t)) de

puede expresarse como:

neurona artificial

CARACTERÍSTICAS DE LAS REDES NEURONALES ARTIFICIALE S

Existen tres propiedades que caracterizan a las redes neuronales artificiales:

orma como las capas se encuentran conectadas.

2. Mecanismo de aprendizaje

los pesos de la red para cumplir un objetivo particular. 3. Funciones de activación

estímulo de entrada.

1.2.3.1 Arquitectura o topología de las redes neuronales

La topología o arquitectura de las RNA consiste en la organización y disposición

de las neuronas en la red ya sea formando capas o agrupación de neuronas que

se encuentran entre la entrada y salida de la red. Por tal motivo, según José R.

Hilera/Víctor J. Martínez, los parámetros fundamentales de una red son: el número

de capas, el número de neuronas por capas, el grado de conectividad y el tipo de

conexiones entre neuronas.

Cuando se realiza una clasificación de la redes en términos topológicos, se suele

distinguir entre las redes con una sola capa y las redes con múltiples capas

neuronas de una capa pueden agruparse, a su vez, formando grupos neuronales

(Clúster). Dentro de un grupo, o de una capa sino existe esta agrupación, las

neuronas suelen ser del mismo tipo. Finalmente, el conjunto de una o más capas

constituye la red neuronal

Ilustración 6 . Estructura jerárquica de un sistema basa

11 Redes Neuronales y Sistemas Difusos, Bonifacio Martín del Brio edición

28

de aprendizaje. Corresponde a la forma como se pueden modificar los pesos de la red para cumplir un objetivo particular.

Funciones de activación. Definen la respuesta de una neurona an

Arquitectura o topología de las redes neuronales



la entrada y salida de la red. Por tal motivo, según José R.



conexiones entre neuronas.

do se realiza una clasificación de la redes en términos topológicos, se suele

distinguir entre las redes con una sola capa y las redes con múltiples capas


un grupo, o de una capa sino existe esta agrupación, las


constituye la red neuronal11.

. Estructura jerárquica de un sistema basa do en RNA

Redes Neuronales y Sistemas Difusos, Bonifacio Martín del Brio – Alfredo Zan Molina, Ed. Alfaomega 2

orresponde a la forma como se pueden modificar

efinen la respuesta de una neurona ante un



la entrada y salida de la red. Por tal motivo, según José R.



do se realiza una clasificación de la redes en términos topológicos, se suele

distinguir entre las redes con una sola capa y las redes con múltiples capas. Las


un grupo, o de una capa sino existe esta agrupación, las


do en RNA

Alfredo Zan Molina, Ed. Alfaomega 2

29

En las redes de una capa, se establecen conexiones laterales entre las neuronas

que pertenecen a la única capa que constituye la red; estas redes son utilizadas

en tareas que se conocen como auto-asociación.

Por lo contrario, las redes multicapas están conformadas por un conjunto de

neuronas agrupadas en varias capas, para distinguir a que capa pertenece una

neurona es necesario establecer el origen de la señal que la neurona recibe a la

entrada y el destino de señal de la salida.

Normalmente, todas las neuronas de una capa reciben señales de entrada de una

capa anterior, más cercana a las entradas de la red, y envían las señales de salida

a una capa posterior, más cercana a la salida de la red. A estas conexiones se les

denomina conexiones hacia adelante o feedforward.

Sin embargo, en un gran número de estas redes también existe la posibilidad de

conectar las salidas de las neuronas de capas posteriores a las entradas de las

capas anteriores, a estas conexiones se les denomina conexiones hacia atrás o

feedback.

Estas dos posibilidades permiten distinguir entre dos tipos de redes con múltiples

capas: las redes con conexiones hacia adelante o redes feedforward, y las redes

que disponen de conexiones tanto hacia adelante como hacia atrás o redes

feedforward/feedback12.

Se distinguen tres tipos de capas: de entrada, de salida y ocultas. Una capa de

entrada está compuesta por neuronas que reciben datos procedentes del entorno,

una capa de salida es aquella que proporciona la respuesta de la red neuronal, y

la capa oculta, es aquella que no tiene conexión directa con el entorno. Este tipo

de capa proporciona a la red grados de libertad adicionales, gracias a los cuales

12 RNA Fundamentos, Modelos y Aplicaciones – José R. Hilera / Víctor J. Martínez – Addison-Wesley Iberoamérica

puede encontrar representaciones internas correspondientes a determinados

rasgos del entorno, proporcionando una mayor riqueza computacional.

Ilustración

1.2.3.2 Mecanismo de aprendizaje Es el proceso por el cual una red neuronal

a una información de entrada. Los cambios que se producen se reducen a la

modificación y creación de conexiones entre las neuronas, la creación de una

nueva conexión implica que el peso de la misma pasa a tener un valor distinto de

cero, una conexión se destruye cuando su peso pasa a ser cero. Se puede

afirmar que el proceso de aprendizaje ha finalizado (la red ha aprendido) cuando

los valores de los pesos permanecen estables (dw

Un aspecto importante respecto al aprendizaje en las

conocer cómo se modifican los valores de los pesos; es decir, cuáles son los

criterios que se siguen para cambiar

pretende que la red aprenda una nueva información.

Estos criterios determinan lo que se conoce como la regla de aprendizaje de la

red. De forma general, se suelen considerar dos tipos de regla: las que responden

30


entorno, proporcionando una mayor riqueza computacional.

Ilustración 7. Estructuras de una red multicapa y monocapa

Mecanismo de aprendizaje

l proceso por el cual una red neuronal artificial cambia sus pesos en re

una información de entrada. Los cambios que se producen se reducen a la



ión se destruye cuando su peso pasa a ser cero. Se puede


los valores de los pesos permanecen estables (dwij / dt = 0).

Un aspecto importante respecto al aprendizaje en las redes neuronales es el


criterios que se siguen para cambiar el valor asignado a las conexiones cuando se

pretende que la red aprenda una nueva información.

inan lo que se conoce como la regla de aprendizaje de la



entorno, proporcionando una mayor riqueza computacional.

. Estructuras de una red multicapa y monocapa

cambia sus pesos en respuesta

una información de entrada. Los cambios que se producen se reducen a la



ión se destruye cuando su peso pasa a ser cero. Se puede


redes neuronales es el


el valor asignado a las conexiones cuando se

inan lo que se conoce como la regla de aprendizaje de la


31

a lo que habitualmente se conoce como aprendizaje supervisado, y las

correspondientes a un aprendizaje no supervisado13.

Los mecanismos de aprendizajes se diferencian en la existencia o no de un

agente externo que realice el control de todo el proceso de aprendizaje de la red

neuronal.

Aprendizaje supervisado . Para este tipo de aprendizaje, se dice que hay un

profesor externo encargado de determinar si la red se está comportando de forma

adecuada, mediante la comparación entre la salida producida y la esperada, y de

actuar en consecuencia modificando apropiadamente los valores de los pesos14.

En este tipo de aprendizaje existen tres formas para realizan las modificaciones o

ajustes de los pesos de las conexiones, las cuales se presentan a continuación:

• Aprendizaje por corrección de error. Consiste en ajustar los pesos en

función de la diferencia entre los valores deseados y obtenidos en la salida

de la red; es decir, en función del error cometido en la salida

• Aprendizaje por refuerzo. Se basa en la idea de no disponer de un ejemplo

completo del comportamiento deseado; es decir, de no indicar durante el

entrenamiento exactamente la salida que se desea que proporcione la red

ante una determinada entrada.

• Aprendizaje estocástico. Consiste en realizar cambios aleatorios en los

valores de los pesos de las conexiones de la red y evaluar su efecto a partir

del objetivo deseado y de distribuciones de probabilidad.

Aprendizaje no supervisado. En este caso no existe ningún supervisor externo

que vigile el proceso de aprendizaje, la red modificará los valores de los pesos a

partir de la información interna, determinando características de los datos del

conjunto de entrenamiento: rasgos significativos, regularidades o redundancias. A 13 RNA Fundamentos, Modelos y Aplicaciones, José R. Hilera – Víctor J. Martínez; Addison – Wesley Iberoamérica 14 19 RNA un enfoque práctico; Pedro Isasi Viñuela / Inés M. Galvan – Editorial Person

32

este tipo de modelos se les conoce también como sistemas autoorganizados,

debido a que la red se ajusta dependiendo únicamente de los valores recibidos

como entrada15.

- Asociación entre la información de entrada y salida

Las RNA son sistemas que almacenan cierta información aprendida; está

información se registra de forma distribuida en los pesos asociados a las

conexiones entre neuronas de entrada y salida. Existen dos formas primarias de

realizar esa asociación de entrada/salida. Una primera sería la denominada

hetero-asociación, que se refiere al caso en el que la red aprende parejas de datos

[(A1, B1), (A2, B2)… (An, Bn)], de tal forma que cuando se presente cierta

información de entrada Ai, deberá responder generándola correspondiente salida

Bi. La segunda se conoce como auto-asociación, donde la red aprende ciertas

informaciones A1, A2…An, de tal forma que cuando se le presenta una información

de entrada realizará una autocorrelación, respondiendo con uno de los datos

almacenados, el más parecido al de la entrada16.

Estos dos mecanismos de asociación de asociación dan lugar a dos tipos de redes

neuronales: las redes hetero-asociativas y las auto-asociativas.

- Representación de la Información

Las redes neuronales pueden también clasificarse en función de la forma en que

se representan las informaciones de entrada y las respuestas o datos de salida.

Así un gran número de redes, tanto los datos de entrada como de salida son de

naturaleza analógica, cuando esto ocurre, las funciones de activación de las

neuronas serán también continuas, del tipo lineal o sigmoidal. Otras redes sólo

admiten valores discretos o binarios a su entrada, generando también unas

16 www.monografias.com

33

respuestas en la salida de tipo binario. En este caso, las funciones de activación

de las neuronas son de tipo escalón. Existe también un tipo de redes híbridas en

las que las informaciones de entrada pueden ser valores continuos, aunque las

salidas de la red son discretas17.

1.2.4 PRINCIPALES TIPOS DE REDES NEURONALES ARTIFIC IALES (RNA)

En 1943 Warren McCulloch y Walter Pitts dieron origen a la primera red neuronal

conocida, definiendo a la neurona como una maquina binaria con varias entradas

y salidas, esta consistía en la suma de las señales de entrada, multiplicada por

unos valores de pesos escogidos aleatoriamente.

Después de este adelanto se desarrollaron en los años posteriores otros tipos de

redes neuronales basados en la aplicación o problema que el investigador quería

resolver. Entre los más conocidos tenemos:

• La Red Neuronal Perceptrón

• La Red Neuronal Hebbianas

• La Red Neuronal Adaline

• La Red Backpropagation, dentro de estas técnica encontramos la red

Backpropagation con Momentum, la red Backpropagation con rata de

aprendizaje variable

• La Redes de Aprendizaje Asociativo, entre estas encontramos la redes

Instar y las redes Outstar

• Redes Competitivas, entre estas tenemos las redes de Kohonen y la de

Hamming, y por último,

• Las Redes Recurrentes, entre estas se encuentran la red de Hopfield, las

redes Multicapas y la red de Elman

17 www.monografias.com

34

1.2.5 REDES NEURONALES HEBBIANAS Este tipo de redes neuronales artificiales se propusieron originalmente como un

modelo simplificado de interacción entre neuronas por Donald Hebb a finales de

los años 40. Hebb encontró que si una neurona excita de forma repetida a otra, la

comunicación o conexión entre estas se ve reforzada (Ilustración 8). Dado que la

conexión entre neuronas esta cuantificada por el peso de conexión entre estas, el

reforzamiento de la conexión se puede expresar por medio de:

)1(1 Ttt YXWW α+=+

Donde Wt son los pesos en el tiempo t, Wt+1 son los pesos actualizados, α es la

denominada tasa de aprendizaje, X es el patrón de entrada e YT es la salida de la

red neuronal dada por:

)2(XxWY tt =

La expresión anterior permite modificar los pesos de la red neuronal y por lo tanto

se constituye en un esquema de entrenamiento como tal. La gran diferencia entre

este y el procedimiento de retro – propagación de error consiste en que no se

requiere la señal deseada, y al usar solamente información de los patrones de

entrada, este tipo de entrenamiento se denomina no – supervisado.

Una característica de este tipo de esquema de entrenamiento es que el valor de

los pesos se incrementará sin límite a medida que se repite el procedimiento

expresado por la ecuación (1) haciendo que este algoritmo sea inestable. Para

hacer que el aprendizaje hebbiano sea útil es necesario contar con una versión

estable del mismo, lo cual se puede hacer normalizando el valor de los pesos.

Este procedimiento fue propuesto inicialmente por Oja (1982) y desde entonces se

conoce como la regla de Oja y esta dado por:

35

( ) ( )31

∑ ++

=+

i

ti

tti

ti

ttit

ixyw

xyww

αα

Y donde la actualización de los pesos se realiza neurona por neurona.

Fuente: Moreno-Sánchez & García-Cabrejo

Ilustración 8. Estructura de una red neuronal de t ipo hebbiano modificado de Moreno-Sánchez & García-Cabrejo (2003)

1.2.5.1 Componentes Principales Usando Redes Neuron ales Hebbianas Un aspecto interesante de la aplicación de la regla de Oja consiste en que el

conjunto de pesos W obtenido cumple la relación CW=λ1W, donde C es la matriz

de covarianza de los patrones de entrada y λ1 es una constate. Es similar a

afirmar que los pesos obtenidos al aplicar la regla de Oja corresponden a un

vector propio de la matriz de covarianza, y específicamente al primer componente

principal del conjunto de patrones.

x1

x2

x3

xn

y1

y2

ym

W10

y=W10*XX

36

Con el fin de extraer los componentes principales (vectores propios) del conjunto

de patrones de entrada, la actualización de los pesos dada por la ecuación (3) se

puede aplicar de forma secuencial sobre la proyección del respectivo componente

en un procedimiento similar a la ortogononalización de Gram – Schmidt (Marsden

& Tromba, 2000). Esta metodología fue implementada por Sanger (1989) y el

esquema de entrenamiento de la red neuronal de tipo hebbiano ecuación (1)

queda expresada por:

( )41

−=∆ ∑=

i

k

tk

tkjj

ti

tij ywxyw α

En esta regla de actualización la entrada a cada neurona se le resta el producto de

la salida de las neuronas anteriores por sus respectivos pesos. La salida yt de la

red neuronal se determina usando la expresión (2), y por lo tanto este tipo de

esquema permite extraer los componentes principales lineales o tradicionales.

Este procedimiento se puede modificar para la extracción de componentes

principales no lineales, si se utiliza una función de activación no lineal del tipo:

( ) ( ) ( )5tanh yyg β=

Donde y corresponde a la salida de la red neuronal ecuación (2) y β es un

parámetro que determina el grado de activación que se aplica sobre la salida de la

red neuronal. De acuerdo a Tagliaferri et al., (1999) la única condición que debe

cumplir una función para ser empleada en este procedimiento de modificación de

la salida de la red neuronal, es que sea derivable y que presente un crecimiento

de rapidez menor a |t2|, para que no se presenten problemas de estabilidad

numérica en la modificación de los pesos.

Sin embargo existen otros algoritmos para el entrenamiento de este tipo de redes

neuronales artificiales que incorporan directamente elementos de la función de

37

activación empleada. Uno de estos corresponde al denominado Algoritmo

Hebbiano Generalizado (AHG), el cual se encuentra dado por:

( )

( )61

1

∑=

+

−=

+=i

jkkjjk

kkkij

kij

ywxe

eygww α

Donde ek es el término de error para la época k, y g(y) es la salida de la función de

activación, ecuación (5).

El entrenamiento de este tipo de redes neuronales artificiales se realiza de la

siguiente forma:

1. Se inicializa la matriz de pesos W con valores aleatorios uniformemente

distribuidos entre [-0.5,0.5].

2. Para cada patrón de entrada X se determina la salida de la red neuronal.

(Ecuaciones 2 o 5, según sea el caso).

3. Se modifican los pesos de la red neuronal usando expresiones como las

presentadas en las ecuaciones 1, 3 y 4.

4. Si la variación de los pesos de una época a otra es menor que el valor de

tolerancia especificado, entonces se detiene todo el procedimiento; sino se

continúa a la siguiente época.

1.2.6 RED NEURONAL TIPO PERCEPTRON

Este tipo de red fue inventada por el sicólogo Frank Rosenblatt en 1957, su interés

consistía en ilustrar algunas propiedades fundamentales de los sistemas

inteligentes, sin entrar en mayores detalles con respecto a condiciones específicas

y desconocidas para organismos biológicos.

38

El perceptrón es un tipo de red de aprendizaje supervisado, es decir, necesita

conocer los valores esperados para cada una de las entradas presentadas; su

comportamiento está definido por pares de esta forma:

�� , ��, �� , ��, … . … . . , �� , ��

Cuando p es aplicado a la red, la salida de la red es comparada con el valor

esperado t, y la salida de la red está determinada por:

� � ��

� � ��

�

Los valores de los pesos determinan el funcionamiento de la red, estos valores se

pueden fijar o adoptar utilizando diferentes algoritmos de entrenamiento de la

red18.

1.2.6.1 Estructura de la Red

En la figura número 9 se presenta un esquema de la estructura de una red

perceptrón, la única neurona de salida realiza la suma ponderada de las entradas,

resta el umbral y pasa el resultado a una función de transferencia de tipo escalón.

La regla de decisión es responder +1 si el patrón presentado pertenece a la clase

A o -1 si el patrón pertenece a la clase B, la salida depende de la entrada neta

(n=suma de las entradas pi ponderadas)19.

18 19 Tutorial de las Redes neuronales, Universidad Tecnológica de Pereira

Ilustración

La red tipo perceptrón

hardlim con salidas 1, 0 ó hardlims

la salida que se espera para la red, es decir, si la salida de la red es unipolar o

bipolar.

Para realizar el entrenamiento de la red,

conjunto de datos o patrones de entrada, los pesos de la red se ajustan de forma

que al final del entrenamiento se obtengan las salidas esperadas para cada uno

de los datos de entrada.

El algoritmo de entrenamiento del

“Redes Neuronales”, de la Universidad Tecnológica de Pereira en los siguientes

pasos:

1. Se inicializa la matriz de pesos y el valor de la ganancia, por lo general se

asignan valores aleatorios a cada uno de los pesos

2. Se presenta el primer patrón a la red, junto con la salida esperada en forma

de pares entrada/salida

3. Se calcula la salida de la red

39

Ilustración 9. Estructura de una red Perceptrón

emplea principalmente dos funciones de

hardlim con salidas 1, 0 ó hardlims con salidas 1, -1; su uso depende del valor de


entrenamiento de la red, es necesario presentar



El algoritmo de entrenamiento del perceptrón puede resumirse según

de la Universidad Tecnológica de Pereira en los siguientes

Se inicializa la matriz de pesos y el valor de la ganancia, por lo general se

asignan valores aleatorios a cada uno de los pesos Wi y al valo

Se presenta el primer patrón a la red, junto con la salida esperada en forma

de pares entrada/salida

Se calcula la salida de la red

emplea principalmente dos funciones de transferencia,

1; su uso depende del valor de


es necesario presentar inicialmente un



esumirse según el tutorial

de la Universidad Tecnológica de Pereira en los siguientes

Se inicializa la matriz de pesos y el valor de la ganancia, por lo general se

y al valor de b

Se presenta el primer patrón a la red, junto con la salida esperada en forma

40

4. Cuando al red no retorna la salida correcta, es necesario alterar el valor de

los pesos, tratando de llevarlos hasta p y así aumentar las posibilidades de

que la clasificación sea correcta.

41

2 DATOS USADOS EN LA APLICACIÓN DE LOS METODOS DE A NÁLISIS

Para poder realizar el ejercicio de aplicar las RNA y los métodos multivariados

relacionados en el proyecto, se tomó la decisión de utilizar datos reales

provenientes de un programa de seguimiento y monitoreo que se realizó en el

Embalse del Muña en el municipio de Sibaté en el Departamento de

Cundinamarca. Esto con el fin de poder garantizar que al comparar los resultados

arrojados por los métodos anteriormente mencionados se estaría trabajando sobre

datos reales y no sobre datos imaginarios.

2.1 ÁREA DE ESTUDIO

Hay que recordar que con el proyecto no se buscó realizar el análisis de la calidad

del agua del Embalse del Muña, pero de igual manera para poder interpretar los

resultados arrojados por los métodos es necesario realizar una pequeña

descripción del área donde se tomaron las muestras de agua para su análisis

fisicoquímicos.

2.1.1 LOCALIZACIÓN GEOGRÁFICA

El Embalse del Muña se encuentra ubicado en el municipio de Sibaté en el

Departamento de Cundinamarca, el embalse posee una extensión de 711 Ha a

una altura de 2565 msnm. Este embalse se construyó en 1948 y desde entonces

y hasta a la fecha se han utilizado sus aguas en la generación de energía

eléctrica, este posee tres afluentes, el río Muña, el río Aguas Clara y el río Bogotá,

las agua de este último son bombeadas hasta el embalse, en la actualidad, el río

Bogotá presenta un alto nivel de contaminación por vertimientos domiciliarios e

industriales que se realizan en gran parte de su trayecto, afectando la calidad del

agua del río y por consiguiente del embalse.

42

2.2 CONJUNTO DE DATOS UTILIZADOS

EMGESA S.A., realizó un Plan de Manejo Ambiental en el embalse del Muña y

sus alrededores, el cual incluía un programa de monitoreo de calidad del agua del

embalse, para esto determinaron siete (7) estaciones de muestreo los cuales se

observan a continuación.

Fuente: Laboratorio VELZEA-STL

Ilustración 10. Localización de los puntos de mues treo

Las muestras de agua se tomaron mensualmente durante 31 meses, desde abril

del 2004 hasta octubre del 2006. Se determinaron 21 parámetros de las muestras

de agua tomadas en cada periodo de muestreo, lo que nos indica que para

ejecutar los métodos evaluados se contó con una matriz de 4557 datos.

Es importante resaltar que el plan de monitoreo estuvo auditado permanentemente

para garantizar la calidad de las muestras y de sus resultados por una entidad

externa a Emgesa S.A, exigida por la Corporación Autónoma Regional –CAR

1 2

3

4

5

6

7

43

A continuación, en la tabla No. 1 se presentan los parámetros fisicoquímicos

medidos en cada punto de muestreo

Tabla 1. Parámetros fisicoquímicos medidos

PARÁMETROS

C. fecales (NMP/100ml) Ortofosfatos (mg/l) Sólidos s. totales (mg/l)

C. Totales (NMP/100ml) Fósforo Total (mg/l) Sólidos s. volátiles (mg/l)

Cromo (mg/l) Nitrógeno amoniacal (mg/l) Sulfatos (mg/l)

Plomo (mg/l) Nitrógeno kjeldaha (mg/l) Sulfuros (mg/l)

RAS (mg/l) Oxigeno disuelto (mg/l) Turbidez (UNT)

DBO (mg/l) Sólidos totales (mg/l) Conductividad (µs)

DQO (mg/l) Sólidos suspendidos (mg/l) pH

Por ser un programa de monitoreo privado y vigilado por las autoridades

ambientales existe una mayor credibilidad en los resultados de los análisis

fisicoquímicos.

Es importante resaltar que los resultados que se presentan de algunos parámetros

como el cromo y el plomo corresponden a los valores del límite de detección en

laboratorio, lo que indicaba que las concentraciones de estos eran mínimas, a

pesar de esos resultados se tomo la decisión de incluirlos en la matriz de datos

para la ejecución del proyecto.

A continuación, se presenta en la tabla No. 2 los resultados de los parámetros

fisicoquímicos medidos en la estación de muestreo No. 1. Los datos de las otras

estaciones de muestreo se encuentran en el anexo 1.

44

Tabla 2. Matriz de datos de la estación No. 1 usa dos en el proyecto

No. PERIODO DE MUESTREO

ESTACIÓN C FECALES C. TOTALES CROMO DBO5 DQO ORTOFOSFATOS F. TOTAL N. AMONIACAL N. KJELDAHL O. DISUELTO

1 abr-04 1 106667 380000 0,025 24 94 3,32 3,79 23,24 28,13 0,2

2 may-04 1 60000 140000 0,040 28 68 2,22 3,73 15,25 19,19 0,2

3 jun-04 1 90000 170000 0,010 13 43 1,94 2,59 12,59 16,74 0,2

4 jul-04 1 1100000 1100000 0,010 18 96 2,17 2,85 14,09 16,77 0,2

5 ago-04 1 1600000 1600000 0,010 15 56 2,06 2,46 12,91 16,34 0,2

6 sep-04 1 2 14000 0,010 10 91 1,80 2,92 13,48 18,84 0,2

7 oct-04 1 160000 1600000 0,010 19 73 2,16 3,73 14,93 21,13 0,2

8 nov-04 1 1600000 1600000 0,010 13 58 1,15 2,89 13,03 14,21 0,2

9 dic-04 1 220000 220000 0,010 8 60 1,80 2,59 10,75 13,22 0,2

10 ene-05 1 1600000 1600000 0,010 53 122 2,64 4,54 24,37 27,28 0,2

11 feb-05 1 500000 500000 0,010 47 87 3,24 5,02 22,62 24,67 0,2

12 mar-05 1 1600000 1600000 0,010 27 90 3,22 4,99 23,66 26,34 0,2

13 abr-05 1 1100000 877000 0,010 40 104 3,75 3,80 24,20 42,00 0,2

14 may-05 1 93000 877000 0,010 36 80 3,02 3,53 22,90 33,54 0,2

15 jun-05 1 46000 915231 0,010 29 80 2,37 3,51 18,20 35,62 0,2

16 jul-05 1 20 974864 0,010 34 42 2,52 2,88 27,90 37,80 0,2

17 ago-05 1 24000 1036777 0,010 19 78 2,73 3,49 16,70 24,49 0,2

18 sep-05 1 41 9500 0,006 20 72 1,03 2,24 12,27 15,85 0,7

19 oct-05 1 93000 20400000 0,080 29 61 3,20 3,50 23,60 34,70 0,2

20 nov-05 1 4300 11000 0,080 19 64 2,75 3,60 15,30 21,00 0,2

21 dic-05 1 2400000 2400000 0,080 25 65 1,47 2,23 20,90 24,90 0,2

22 ene-06 1 90000 23000 0,080 26 135 2,82 5,42 22,60 23,90 0,2

23 feb-06 1 90 210 0,080 25 103 1,16 3,04 30,70 33,20 0,2

24 mar-06 1 70 210 0,080 43 168 3,59 3,65 33,40 34,60 0,2

25 abr-06 1 430000 7500000 0,080 32 44 3,83 4,26 33,30 37,00 0,2

26 may-06 1 3000 24000 0,011 35 67 1,43 2,66 17,47 19,80 1,2

27 jun-06 1 4500 18000 0,001 28 42 1,09 2,02 8,32 10,96 2,2

28 jul-06 1 2 500 0,001 43 81 0,88 1,09 10,53 12,22 0,8

29 ago-06 1 21 900 0,001 35 62 0,82 0,90 8,00 9,78 0,2

30 sep-06 1 80 5000 0,001 29 53 0,27 1,55 11,06 12,85 1,2

31 oct-06 1 2 500 0,001 30 66 0,96 1,84 9,19 14,80 0,5

45


ESTACIÓN PLOMO RAS S. S S.S.T S.S.V S.T SULFATOS S ULFUROS TURBIDEZ CONDUCTIVIDAD PH

1 abr-04 1 0,013 2,7 0,1 16 8 293 12,07 3,13 13,20 458 6,91

2 may-04 1 0,010 0,4 0,1 21 19 238 6,90 3,55 16,00 408 6,95

3 jun-04 1 0,010 2,6 0,1 13 8 224 16,30 0,50 21,90 376 7,04

4 jul-04 1 0,010 3,0 0,1 29 21 240 10,40 1,00 14,40 340 7,04

5 ago-04 1 0,010 2,4 0,1 32 25 242 10,10 1,00 7,10 340 7,06

6 sep-04 1 0,010 2,5 0,1 9 6 201 7,80 1,00 6,90 425 6,38

7 oct-04 1 0,010 2,3 0,1 19 14 237 7,00 8,50 11,60 473 6,83

8 nov-04 1 0,050 1,9 0,1 18 8 196 11,00 3,90 10,50 400 6,66

9 dic-04 1 0,010 2,2 0,1 29 8 222 15,70 3,40 14,10 335 7,01

10 ene-05 1 0,030 2,3 0,1 33 26 329 14,60 12,60 17,30 497 6,78

11 feb-05 1 0,010 2,9 0,1 26 10 318 8,30 7,90 9,90 484 6,85

12 mar-05 1 0,010 2,3 0,4 28 10 338 24,90 9,60 12,00 522 7,09

13 abr-05 1 0,010 2,3 0,1 32 22 328 20,50 4,50 60,00 599 7,09

14 may-05 1 0,010 2,3 0,1 15 11 262 12,74 5,40 7,90 418 7,03

15 jun-05 1 0,010 2,4 0,1 4 2 260 12,79 3,80 1,60 433 7,14

16 jul-05 1 0,010 2,4 0,1 9 2 224 8,70 1,00 8,80 544 7,07

17 ago-05 1 0,010 2,3 0,1 12 4 259 12,49 2,30 6,30 405 6,94

18 sep-05 1 0,008 2,5 0,1 11 8 217 16,76 1,18 9,80 388 6,66

19 oct-05 1 0,160 0,9 0,1 12 9 276 6,40 3,40 13,30 520 6,78

20 nov-05 1 0,160 0,8 0,1 13 11 256 3,40 1,90 14,70 455 7,00

21 dic-05 1 0,160 2,2 0,1 18 16 251 39,40 2,70 19,10 434 6,73

22 ene-06 1 0,160 0,6 0,1 17 13 270 10,60 4,10 17,60 512 6,91

23 feb-06 1 0,160 0,3 0,1 11 9 270 34,00 5,10 13,40 574 7,01

24 mar-06 1 0,160 0,5 0,1 10 9 286 20,00 1,30 13,70 644 6,93

25 abr-06 1 0,160 1,7 0,1 14 13 265 14,50 3,70 16,00 576 6,78

26 may-06 1 0,005 2,6 0,1 18 4 269 8,98 1,20 16,62 223 6,69

27 jun-06 1 0,005 3,3 0,1 31 21 199 2,00 1,60 10,16 305 6,60

28 jul-06 1 0,005 1,2 0,1 14 5 155 6,39 2,85 13,90 254 6,89

29 ago-06 1 0,005 1,7 0,1 13 7 169 2,43 1,95 6,16 299 6,47

30 sep-06 1 0,005 2,4 0,1 13 9 232 25,71 1,36 12,70 350 6,94

31 oct-06 1 0,005 1,5 0,1 12 7 160 5,20 1,75 10,50 329 6,45

46

3 ANÁLISIS EXPLORATORIO DE DATOS (AED)

Antes de usar los datos en la aplicación de los métodos estadísticos y las RNA

se realizó un análisis exploratorio para poder lograr un entendimiento general

de los datos y la relación entre las variables analizadas.

El primer paso para la exploración fue la organización de los datos en una tabla

o matriz que permitiera visualizarlos de manera clara (ver tabla No. 1), no hubo

necesidad de completar datos puesto que se contó con toda la información

completa.

El paso siguiente del AED consistió en realizar un análisis estadístico básico y

gráfico, y con base en estos se realizaron los respectivos análisis generales.

3.1 ESTADÍSTICA BÁSICA

Los resultados de la estadística básica se recopilaron en tablas y gráficas, las

cuales se presentan a continuación.

3.1.1 TABLAS

Dentro del análisis estadístico básico aplicado en la exploración de los datos

encontramos, desviación estándar, el promedio, el coeficiente de variación, el

valor máximo y mínimo, la mediana, el cuartil 1 y 3.

Estos métodos estadísticos se le aplicaron a la matriz o conjunto de datos

global, donde se incluyen los datos de todas las estaciones.

47

A continuación, se presenta la tabla No. 3 donde se muestran los resultados del

análisis estadístico básico realizado a la matriz de datos.

Tabla 3. Resultados del análisis estadísticos bási co

PARÁMETROS FISICOQUÍMICOS

C. FECALES C. TOTALES CROMO DBO5 DQO ORTOFOSFATOS F . TOTAL

PROMEDIO 2083325,759 4622386,927 0,043 47,029 125,907 2,273 3,346

D. ESTANDAR 5341731,448 19832886,764 0,064 28,189 64,224 0,907 1,062

C. VARIACIÓN 2,564 4,291 1,487 0,599 0,510 0,399 0,317

MAX 24000000,000 240000000,000 0,800 155,000 420,000 6,100 6,830

MIN 2,000 11,000 0,001 8,000 33,000 0,006 0,800

MEDIANA 260000,000 1600000,000 0,026 39,000 111,000 2,310 3,357

CUARTIL 3 1600000,000 1600000,000 0,080 64,000 156,000 2,900 3,820

CUARTIL 1 8000,000 140000,000 0,010 26,000 74,000 1,675 2,670


N. AMONIACAL N. KJELDAHL O. DISUELTO PLOMO RAS S. S S.S.T

PROMEDIO 19,206 24,039 0,337 0,051 1,939 0,449 50,228

D. ESTANDAR 6,669 8,646 0,366 0,064 0,882 1,262 56,832

C. VARIACIÓN 0,347 0,360 1,088 1,256 0,455 2,815 1,131

MAX 39,400 70,000 2,400 0,160 4,060 12,000 350,000

MIN 6,200 8,150 0,200 0,005 0,300 0,100 3,000

MEDIANA 18,200 23,320 0,200 0,010 2,300 0,100 29,000

CUARTIL 3 23,430 27,710 0,200 0,135 2,510 0,300 60,000

CUARTIL 1 14,200 18,430 0,200 0,010 1,000 0,100 15,000


S.S.V S.T SULFATOS SULFUROS TURBIDEZ CONDUCTIVIDAD PH

PROMEDIO 27,655 297,221 15,857 4,659 37,151 454,547 6,877

D. ESTANDAR 30,488 85,037 8,428 3,577 36,704 90,468 0,186

C. VARIACIÓN 1,102 0,286 0,531 0,768 0,988 0,199 0,027

MAX 182,000 934,000 62,700 17,900 250,000 651,000 7,440

MIN 1,000 137,000 1,960 0,500 1,600 183,500 6,350

MEDIANA 16,000 280,000 15,400 3,700 24,750 444,333 6,889

CUARTIL 3 36,000 331,000 20,100 5,800 46,800 512,000 7,020

CUARTIL 1 9,000 247,000 10,100 2,200 13,400 400,000 6,745

48

Al realizar el análisis general de los resultados se obtuvieron las siguientes

observaciones:

• Con excepción del pH, los demás parámetros presentaron una diferencia

significativa entre el valor máximo y mínimo obtenido durante las

mediciones, esto nos muestra que las variables o elementos cambian

durante el tiempo, describiéndose como un sistema dinámico.

• De la muestra de datos analizados también se puede decir que las

variables que se presentan a continuación: coliformes fecales, coliformes

totales, cromo, plomo, o. disuelto, SS, SST y los SSV presentan una

desviación estándar alta, siendo más significativa en los coliformes, lo

que indica que existe mucha variación entre los datos. Esta dispersión

de valores también se ve reflejado en los resultados de los coeficientes

de variación.

A continuación, se presenta la tabla número No. 4 donde se resaltan con una

línea los valores de la desviación estándar que se encuentran por encima del

valor promedio de la desviación estándar global. De esta manera, podemos

observar que tan dispersos se encuentran los valores de las variables por

estación.

Tabla 4. Promedio de la desviación estándar de los parámetros medidos

VALORES PROMEDIO DE LA DESVIACIÓN ESTÁNDAR DE LOS P ARÁMETROS POR ESTACIONES

ESTACIÓN C. FECALES C. TOTALES CROMO DBO5 DQO ORTOFOSFATOS F . TOTAL

1 680056 3840789 0,031 11 29 0,97 1,10

2 6333929 17439199 0,028 23 47 0,96 0,97

3 7950694 22306583 0,053 36 79 0,79 1,20

4 4364385 1721494 0,031 22 50 0,99 1,30

5 6174657 4255348 0,144 22 56 0,84 1,02

6 4331890 1249466 0,031 20 47 0,97 1,06

7 4336788 44194473 0,030 19 36 0,80 0,80

Promedio Global D. Estándar

5341731 19832887 0,064 28 64 0,91 1,06

49


ESTACIÓN N. AMONIACAL N. KJELDAHL O. D. PLOMO RAS S. S S.S.T

1 7,28 9,15 0,44 0,06 0,82 0,05 8,15

2 6,16 7,81 0,48 0,06 0,95 0,57 44,83

3 6,51 10,54 0,41 0,07 1,01 1,47 89,04

4 7,99 9,74 0,37 0,06 0,83 2,25 29,20

5 6,01 7,99 0,40 0,06 0,86 0,20 19,14

6 7,00 9,31 0,18 0,07 0,93 1,91 27,06

7 6,15 6,20 0,23 0,07 0,86 0,24 36,69


6,67 8,65 0,37 0,06 0,88 1,26 56,83


ESTACIÓN S.S.V S.T SULFATOS SULFUROS TURBIDEZ CONDUCTIVIDAD PH

1 6,58 47,27 8,76 2,85 9,74 104,53 0,20

2 24,69 51,55 11,12 4,51 26,35 91,07 0,19

3 46,89 84,61 6,79 3,86 54,57 90,66 0,23

4 21,26 136,06 5,45 2,72 20,92 107,99 0,18

5 13,76 38,76 8,00 3,61 14,39 78,84 0,18

6 16,37 57,29 7,19 3,88 30,09 79,86 0,15

7 22,76 57,91 6,97 3,12 22,15 79,45 0,15


30,49 85,04 8,43 3,58 36,70 90,47 0,19

Se puede observar que la estación de muestreo número tres, presenta un

mayor número de variables (14 en total) que muestran una desviación estándar

mayor que la desviación global, por tal motivo seria la estación con mayor

dispersión o fluctuaciones de datos. Situación contraria ocurre en la estación

número siete que presenta solamente dos desviaciones sobre la media, las

demás estaciones mantienen una similitud en el número de datos por encima

de la media.

Respecto a las variables, se observa un comportamiento similar en la dispersión

de los datos, presentándose en el oxigeno disuelto y en el plomo una mayor

variabilidad en los datos debido a que la desviación estándar es mayor.

50

Mediante este análisis general, se puede decir que el 63 % de los datos de las

variables obtenidas mediante el programa de muestreo son homogéneos, o

sea, los valores no son muy diferentes, mientras que el 37% restante presenta

una heterogeneidad mayor.

3.1.2 GRÁFICAS

Las gráficas también fueron una herramienta que permitió establecer otras

observaciones respecto a los datos.

Las gráficas que se elaboraron fueron la temporal y la espacial, un vistazo

general de las gráficas espaciales muestran que la temporalidad es un factor

que incide en las concentraciones de los parámetros, motivo por el cual se

presentan fluctuaciones significativas en los valores arrojados en las

mediciones.

Respecto a las gráficas espaciales, se observa que los parámetros o variables

mantienen un comportamiento distinto en cada estación, por ejemplo, la

estación tres presenta generalmente los valores más altos de concentración de

los parámetros, mientras que en la estación uno se presenta los más bajos, y

así en cada estación.

Hay que recordar que el embalse en un sistema dinámico, el cual se ve

afectado por la temporalidad, así como los vertimientos esporádicos que

realizan para mantener el nivel del agua en él para la generación de energía.

A continuación, se presentan algunas gráficas del comportamiento temporal y

espacial de algunos parámetros fisicoquímicos, en el anexo No. 2 se muestran

algunas gráficas complementarias.

51

Gráfica 1. Análisis temporal del DBO 5 en las estaciones de monitoreo

0

20

40

60

abr-

04

may

-04

jun

-04

jul-

04

ago

-04

sep

-04

oct

-04

no

v-0

4

dic

-04

ene

-05

feb

-05

mar

-05

abr-

05

may

-05

jun

-05

jul-

05

ago

-05

sep

-05

oct

-05

no

v-0

5

dic

-05

ene

-06

feb

-06

mar

-06

abr-

06

may

-06

jun

-06

jul-

06

ago

-06

sep

-06

oct

-06

mg\

L

PERIODO DE MUESTREO

ESTACIÓN DE MONITOREO 1

DBO5

020406080

100120

abr-

04

may

-04

jun

-04

jul-

04

ago

-04

sep

-04

oct

-04

no

v-0

4

dic

-04

ene-

05

feb

-05

mar

-05

abr-

05

may

-05

jun

-05

jul-

05

ago

-05

sep

-05

oct

-05

no

v-0

5

dic

-05

ene-

06

feb

-06

mar

-06

abr-

06

may

-06

jun

-06

jul-

06

ago

-06

sep

-06

oct

-06

mg\

L

PERIODO DE MUESTREO


DBO5

52

0

50

100

150

200

abr-

04

may

-04

jun

-04

jul-

04

ago

-04

sep

-04

oct

-04

no

v-0

4

dic

-04

ene-

05

feb

-05

mar

-05

abr-

05

may

-05

jun

-05

jul-

05

ago

-05

sep

-05

oct

-05

no

v-0

5

dic

-05

ene-

06

feb

-06

mar

-06

abr-

06

may

-06

jun

-06

jul-

06

ago

-06

sep

-06

oct

-06

mg\

L

PERIODO DE MUESTREO


DBO5

020406080

100120

abr-

04

may

-04

jun

-04

jul-

04

ago

-04

sep

-04

oct

-04

no

v-0

4

dic

-04

ene

-05

feb

-05

mar

-05

abr-

05

may

-05

jun

-05

jul-

05

ago

-05

sep

-05

oct

-05

no

v-0

5

dic

-05

ene

-06

feb

-06

mar

-06

abr-

06

may

-06

jun

-06

jul-

06

ago

-06

sep

-06

oct

-06

mg\

L

PERIODO DE MUESTREO


DBO5

53

020406080

100120

abr-

04

may

-04

jun

-04

jul-

04

ago

-04

sep

-04

oct

-04

no

v-0

4

dic

-04

en

e-0

5

feb

-05

mar

-05

abr-

05

may

-05

jun

-05

jul-

05

ago

-05

sep

-05

oct

-05

no

v-0

5

dic

-05

en

e-0

6

feb

-06

mar

-06

abr-

06

may

-06

jun

-06

jul-

06

ago

-06

sep

-06

oct

-06

mg\

L

PERIODO DE MUESTREO


DBO5

020406080

100120

abr-

04

may

-04

jun

-04

jul-

04

ago

-04

sep

-04

oct

-04

no

v-0

4

dic

-04

ene-

05

feb

-05

mar

-05

abr-

05

may

-05

jun

-05

jul-

05

ago

-05

sep

-05

oct

-05

no

v-0

5

dic

-05

ene-

06

feb

-06

mar

-06

abr-

06

may

-06

jun

-06

jul-

06

ago

-06

sep

-06

oct

-06

mg\

L

PERIODO DE MUESTREO


DBO5

54

Gráfica 2. Análisis temporal del pH en las estacion es de monitoreo

0

20

40

60

80

100

abr-

04

may

-04

jun

-04

jul-

04

ago

-04

sep

-04

oct

-04

no

v-0

4

dic

-04

ene-

05

feb

-05

mar

-05

abr-

05

may

-05

jun

-05

jul-

05

ago

-05

sep

-05

oct

-05

no

v-0

5

dic

-05

ene-

06

feb

-06

mar

-06

abr-

06

may

-06

jun

-06

jul-

06

ago

-06

sep

-06

oct

-06

mg\

L

PERIODO DE MUESTREO


DBO5

6,006,206,406,606,807,007,20

abr-

04

may

-04

jun

-04

jul-

04

ago

-04

sep

-04

oct

-04

no

v-0

4

dic

-04

ene-

05

feb

-05

mar

-05

abr-

05

may

-05

jun

-05

jul-

05

ago

-05

sep

-05

oct

-05

no

v-0

5

dic

-05

ene-

06

feb

-06

mar

-06

abr-

06

may

-06

jun

-06

jul-

06

ago

-06

sep

-06

oct

-06

PERIODO DE MUESTREO


pH

55

5,806,006,206,406,606,807,007,207,40

abr-

04

may

-04

jun

-04

jul-

04

ago

-04

sep

-04

oct

-04

no

v-0

4

dic

-04

ene-

05

feb

-05

mar

-05

abr-

05

may

-05

jun

-05

jul-

05

ago

-05

sep

-05

oct

-05

no

v-0

5

dic

-05

ene-

06

feb

-06

mar

-06

abr-

06

may

-06

jun

-06

jul-

06

ago

-06

sep

-06

oct

-06

PERIODO DE MUESTREO


pH

5,50

6,00

6,50

7,00

7,50

8,00

abr-

04

may

-04

jun

-04

jul-

04

ago

-04

sep

-04

oct

-04

no

v-0

4

dic

-04

ene-

05

feb

-05

mar

-05

abr-

05

may

-05

jun

-05

jul-

05

ago

-05

sep

-05

oct

-05

no

v-0

5

dic

-05

ene-

06

feb

-06

mar

-06

abr-

06

may

-06

jun

-06

jul-

06

ago

-06

sep

-06

oct

-06

PERIODO DE MUESTREO


pH

56

5,50

6,00

6,50

7,00

7,50

abr-

04

may

-04

jun

-04

jul-

04

ago

-04

sep

-04

oct

-04

no

v-0

4

dic

-04

ene-

05

feb

-05

mar

-05

abr-

05

may

-05

jun

-05

jul-

05

ago

-05

sep

-05

oct

-05

no

v-0

5

dic

-05

ene-

06

feb

-06

mar

-06

abr-

06

may

-06

jun

-06

jul-

06

ago

-06

sep

-06

oct

-06

PERIODO DE MUESTREO


pH

6,206,406,606,807,007,207,40

abr-

04

may

-04

jun

-04

jul-

04

ago

-04

sep

-04

oct

-04

no

v-0

4

dic

-04

en

e-0

5

feb

-05

mar

-05

abr-

05

may

-05

jun

-05

jul-

05

ago

-05

sep

-05

oct

-05

no

v-0

5

dic

-05

en

e-0

6

feb

-06

mar

-06

abr-

06

may

-06

jun

-06

jul-

06

ago

-06

sep

-06

oct

-06

PERIODO DE MUESTREO


pH

57

6,206,406,606,807,007,207,40

abr-

04

may

-04

jun

-04

jul-

04

ago

-04

sep

-04

oct

-04

no

v-0

4

dic

-04

ene-

05

feb

-05

mar

-05

abr-

05

may

-05

jun

-05

jul-

05

ago

-05

sep

-05

oct

-05

no

v-0

5

dic

-05

ene-

06

feb

-06

mar

-06

abr-

06

may

-06

jun

-06

jul-

06

ago

-06

sep

-06

oct

-06

PERIODO DE MUESTREO


pH

6,006,206,406,606,807,007,207,40

abr-

04

may

-04

jun

-04

jul-

04

ago

-04

sep

-04

oct

-04

no

v-0

4

dic

-04

ene-

05

feb

-05

mar

-05

abr-

05

may

-05

jun

-05

jul-

05

ago

-05

sep

-05

oct

-05

no

v-0

5

dic

-05

ene-

06

feb

-06

mar

-06

abr-

06

may

-06

jun

-06

jul-

06

ago

-06

sep

-06

oct

-06

PERIODO DE MUESTREO


pH

58

Gráfica 3. Análisis espacial de los coliformes fec ales en las estaciones de monitoreo

Gráfica 4. Análisis espacial del cromo en las estac iones de monitoreo

0,000

500000,000

1000000,000

1500000,000

2000000,000

2500000,000

3000000,000

3500000,000

4000000,000

4500000,000

5000000,000

1 2 3 4 5 6 7

PR

OM

EDIO

ESTACIONES DE MONITOREO

ANÁLISIS ESPACIAL

C. FECALES

0,000

0,010

0,020

0,030

0,040

0,050

0,060

0,070

0,080

1 2 3 4 5 6 7

PR

OM

EDIO

mg/

l


ANÁLISIS ESPACIAL

CROMO mg/l

59

Gráfica 5. Análisis espacial de DBO5 en las estacio nes de monitoreo

Gráfica 6. Análisis espacial del pH en las estacion es de monitoreo

0,000

10,000

20,000

30,000

40,000

50,000

60,000

70,000

80,000

90,000

1 2 3 4 5 6 7

PR

OM

EDIO

mg/

l


ANÁLISIS ESPACIAL

DBO5 mg/l

6,820

6,840

6,860

6,880

6,900

6,920

6,940

1 2 3 4 5 6 7

PR

OM

EDIO


ANÁLISIS ESPACIAL

pH

60

Gráfica 7. Análisis espacial de la turbidez en las estaciones de monitoreo

Gráfica 8. Análisis espacial de los sólidos totales en las estaciones de monitoreo

0,000

10,000

20,000

30,000

40,000

50,000

60,000

70,000

80,000

90,000

100,000

1 2 3 4 5 6 7

PR

OM

EDIO


ANÁLISIS ESPACIAL

TURBIDEZ mg/l

0,000

50,000

100,000

150,000

200,000

250,000

300,000

350,000

400,000

450,000

1 2 3 4 5 6 7

PR

OM

EDIO


ANÁLISIS ESPACIAL

SÓLIDOS TOTALES mg/l

61

4 APLICACIÓN DE LOS MÉTODOS

Realizado el AED se continuó con el ejercicio de emplear los métodos

estadísticos multivariados tradicionales y las RNA, se aplicaron primero los

métodos multivariados, y posteriormente las RNA. Una vez se obtuvieron los

resultados para cada metodología se realizó el análisis correspondiente de los

mismos. Las metodologías empleadas en el presente trabajo se presentan en la

tabla No. 5

Tabla 5. Metodologías empleadas en la investigación

PROBLEMA LABOR ANÁLISIS MULTIVARIADO

TRADICIONAL

RED NEURONAL

ARTIFICIAL

Asociaciones entre variables Análisis de Componentes

Principales (ACP)

Red Neuronal de tipo

Hebbiano

Clasificación Análisis Discriminante Red Neuronal tipo Perceptrón

Multicapa

En el análisis de información obtenida en los programas de monitoreo de

calidad de agua generalmente se presentan a grandes rasgos los siguientes

problemas o inquietudes:

• Determinación de la asociación entre las variables medidas: esto es

de vital importancia, ya que le permite al analista determinar la

ocurrencia de ciertos procesos fisicoquímicos que pueden afectar de

forma significativa la calidad del agua.

62

• Agrupamiento entre muestras : el cual consiste en determinar cuáles

son las muestras que presentan características estadísticas similares y

de esta forma definir grupos que le puedan dar pistas al analista sobre la

ocurrencia de ciertos procesos fisicoquímicos en el conjunto de datos

estudiado. Por ejemplo, si se está analizando cuerpos de agua que en

algunos de ellos se presentan procesos de eutroficación mientras que en

otros no, el análisis de agrupamiento debería poder diferenciar estos

cuerpos basado en la información colectada en cada uno de ellos. En

este caso, el método de análisis empleado realiza la definición de los

grupos de forma automática sin la intervención del analista.

• Clasificación: procedimiento en el cual las muestras se asignan a una o

más categorías que han sido previamente definidas por el analista de la

información. La importancia de este procedimiento radica en que si se

establece el sistema de clasificación de forma confiable, este puede ser

aplicado en nuevas muestras que se vayan tomando en fases

posteriores del programa de monitoreo. Esto se puede aplicar en el caso

de los periodos hidrológicos (secos y húmedos), ya que en muchas

oportunidades las características fisicoquímicas del agua dependen de si

las mediciones se realizan en periodo seco o húmedo. En este caso

particular resultaría de interés contar con un sistema automático para la

determinación del periodo en el que fue tomada la muestra.

Todos los procedimientos computacionales de las RNA se ejecutaron en

Matlab®, con unas funciones diseñadas para tal fin durante el presente trabajo;

y los métodos multivariados tradicionales se ejecutaron con el Toolbox de

estadística de Matlab®.

El análisis de los datos se realizó de manera temporal en el análisis

discriminante (AD) y en el de análisis de agrupamiento, quiere decir, que los

63

datos se analizaron teniendo en cuenta el periodo o mes muestreado, así como

si era tiempo seco o húmedo; mientras que los componentes principales se

trabajaron de manera espacial ya que se tuvo en cuenta para el análisis de los

datos de todas las estaciones al mismo tiempo.

Recordemos que este ejercicio busca realizar una comparación de los métodos

más no un análisis de la calidad del agua del embalse.

4.1 ASOCIACIÓN ENTRE VARIABLES

Para determinar la asociación entre las variables fisicoquímicas que hacen

parte de los datos que se adquieren comúnmente en los programas de

monitoreo de calidad de agua se emplearon las técnicas de Análisis de

Componentes Principales (ACP) y las Redes Neuronales Artificiales de tipo

Hebbiano. Los resultados obtenidos en cada caso se presentan a continuación:

4.1.1 ANÁLISIS DE COMPONENTES PRINCIPALES (ACP)

4.1.1.1 Procedimiento

Inicialmente, se elaboraron histogramas (ver anexo No. 3) para poder observar

que tipo de distribución presentaban las variables. Definidos los histogramas se

determinó que sólo cuatro parámetros (fósforo total, sulfatos, conductividad y

pH) presentaron una distribución simétrica o normal, los demás parámetros

presentaron asimetría en la distribución de los datos. A éstas variables se les

aplicó la transformación logarítmica (Ver anexo No. 4) para poder disminuir su

rango y evitar que algunos datos distorsionarán los resultados del análisis

estadístico.

64

Realizada la transformación logarítmica, se procedió a estandarizar los datos

como paso preliminar a la determinación de los Componentes Principales (CP).

El análisis de CP arrojó como resultados un conjunto de vectores propios que

corresponden a los ejes coordenados de un nuevo espacio en donde se

proyectan los datos originales. Con estos, fue posible calcular las coordenadas

de los datos en este nuevo espacio; las cuales se emplean para efecto de

visualización (ver anexo No. 5) y para determinar asociaciones de variables

presentes en los datos. Esto último se pudo estudiar mediante la matriz de

coeficientes de correlación entre los CP y las variables originales.

Para determinar el posible número de CP en donde se encontrarían resumidas

las variables originales se determinaron los valores propios de la matriz de

covarianza, estos valores corresponden a la contribución de cada componente

a la varianza de los datos.

A continuación, se presenta en la siguiente gráfica la varianza acumulada por

cada uno de los componentes.

Gráfica 9. Varianza acumulada por componentes

65

El número de componentes que resumen la mayor parte de la información se

determinó con base al quiebre de pendiente de la gráfica anterior, y que para

efectos del presente trabajo se tomaron siete (7) componentes, que en síntesis

son suficientes para representar las 21 variables originales.

Así mismo, con el fin de determinar las asociaciones de las variables

fisicoquímicas estudiadas se calculó la matriz de coeficientes de correlación

entre los CP obtenidos anteriormente y las variables originales que conforman

el conjunto de datos analizado (Ver tabla 6).

66

Tabla 6. Matriz de correlación - ACP método estadí stico convencional

Componente 1 Componente 2 Componente 3 Componente 4 Componente 5 Componente 6 Componente 7 Componente 8 Componente 9 Componente 10

C. FECALES 0.6349 0.5177 0.5553 0.5012 0.6671 0.5556 0.6365 0.6615 0.6821 -0.4273 C. TOTALES 0.1202 0.0328 -0.1663 0.4096 0.4228 -0.4220 -0.4013 -0.5691 -0.5292 0.4899 CROMO -0.4589 -0.4564 0.5738 0.3276 0.1837 -0.2417 -0.2184 0.0664 -0.0138 0.2797 DBO5 0.3976 0.3203 0.2332 -0.4724 -0.2746 -0.0600 -0.2676 -0.2914 -0.2592 -0.3306 DQO -0.3270 -0.5091 -0.0972 -0.0424 0.2115 0.0368 -0.0152 -0.1595 -0.1049 -0.3195 ORTOFOSFATOS -0.0523 0.1001 0.0152 -0.1047 -0.0419 0.2401 -0.2455 0.0425 0.2056 0.0122 F. TOTAL 0.1274 0.1518 -0.0960 0.2656 0.0738 -0.2406 -0.1481 0.0047 -0.0050 0.3114 N. AMONIACAL -0.0402 -0.1017 -0.0870 -0.1880 -0.1025 -0.3326 -0.2228 0.0336 0.1117 -0.1175 N. KJELDAHL 0.0032 0.1169 0.1153 -0.0603 -0.1068 -0.3522 -0.0738 0.1249 0.1486 0.0413 O. DISUELTO -0.0382 0.2178 0.0933 0.2146 0.2739 -0.0078 -0.1276 0.0303 -0.0055 -0.1719 PLOMO 0.0094 -0.0170 -0.2623 0.0387 -0.1361 0.1559 -0.0953 0.1275 0.0335 0.2580 RAS -0.0481 -0.0725 0.3316 0.0357 -0.1614 -0.0773 0.1612 0.0073 -0.0218 0.1063 S. S 0.0392 0.0029 -0.1614 0.1267 0.0093 -0.2118 0.0192 0.0953 0.1254 -0.2095 S.S.T -0.0666 -0.0879 0.0902 0.0094 -0.0247 0.1110 -0.2859 0.1182 0.1877 -0.0360 S.S.V 0.0221 0.0535 0.1054 0.0784 -0.0427 0.1039 -0.1530 -0.1646 -0.0307 -0.0257 S.T -0.0289 -0.0226 -0.0551 -0.0088 0.0054 -0.0237 0.1243 0.0178 0.0302 -0.0377 SULFATOS -0.0750 0.0620 0.0062 0.1695 -0.2375 0.0136 0.0344 0.0315 -0.0038 -0.0477 SULFUROS 0.0592 -0.0028 0.0617 -0.1322 0.1117 -0.0210 0.0403 0.0167 0.1233 0.1290 TURBIDEZ 0.2478 -0.1804 0.0218 0.0989 -0.0418 0.0076 -0.0175 -0.0124 0.0091 -0.0358 CONDUCTIVIDAD -0.0025 -0.0063 -0.0212 0.0312 -0.0175 -0.0018 0.0339 -0.1789 0.1709 0.0135 PH -0.0676 0.0571 -0.0097 0.0057 -0.0098 -0.0023 0.0210 -0.0644 0.0192 -0.0108

67

Componente 11

Componente 12

Componente 13

Componente 14

Componente 15

Componente 16

Componente 17

Componente 18

Componente 19

Componente 20

Componente 21

C. FECALES 0.3507 -0.1449 0.4646 0.6866 0.6634 0.7940 0.6636 0.5213 0.6828 0.5808 0.3837 C. TOTALES -0.4491 0.3421 0.5212 0.6263 0.5160 0.2186 -0.0985 0.0158 0.5246 -0.4901 -0.1277 CROMO 0.6176 -0.6838 -0.1091 0.0614 0.2317 -0.0048 -0.1710 -0.3507 0.2055 0.1931 -0.3457 DBO5 0.3674 -0.4247 -0.0564 0.1137 0.1334 -0.1368 0.1432 0.0363 0.1829 -0.3746 0.1582 DQO -0.1408 -0.2006 0.1700 -0.0124 -0.0413 0.0098 0.2904 0.0309 0.0103 -0.0564 0.5771 ORTOFOSFATOS -0.0811 0.1874 0.0313 0.0926 0.0970 -0.0645 0.2206 -0.7158 0.0826 0.0308 0.0780 F. TOTAL 0.1101 0.0068 -0.4788 -0.0717 -0.0924 0.0558 0.2610 0.0039 -0.0365 0.0343 0.4002 N. AMONIACAL -0.0790 0.0581 -0.0193 0.0292 -0.0807 0.1289 0.3621 0.1301 0.1592 0.2391 -0.2929 N. KJELDAHL 0.0130 -0.0106 0.3584 -0.0927 -0.1158 0.1788 -0.2140 -0.0857 -0.0722 0.0228 0.2603 O. DISUELTO -0.0267 -0.0532 0.1264 -0.1638 -0.2597 -0.1158 0.1488 -0.0119 -0.0666 -0.1730 -0.1614 PLOMO 0.1476 -0.1352 0.2632 -0.0451 -0.0464 -0.1706 0.1195 0.1120 0.1043 -0.0214 0.0106 RAS 0.0037 0.2222 0.0647 0.0236 -0.0129 -0.2355 0.1989 0.0672 0.0184 -0.0801 0.0434 S. S 0.0083 0.0031 -0.0289 0.0873 0.1787 -0.3408 -0.0980 -0.0229 0.0161 0.0280 0.0357 S.S.T -0.0050 0.1163 -0.1016 0.0104 0.0491 0.0383 -0.1126 0.1859 0.0284 -0.1956 0.0412 S.S.V -0.0821 0.0058 0.0155 0.0236 -0.1249 -0.1278 -0.1227 0.0733 0.1121 0.3001 0.0792 S.T 0.0658 0.0498 -0.0690 0.0307 -0.2208 0.0182 -0.0878 -0.0608 0.3158 -0.0994 0.0165 SULFATOS -0.1840 -0.1564 -0.0380 0.0417 0.0071 0.0750 0.0287 -0.0185 0.0244 -0.0631 -0.0137 SULFUROS -0.2088 -0.1517 -0.0399 -0.0382 0.0085 -0.0889 -0.0087 0.0168 0.0609 -0.0285 0.0007 TURBIDEZ -0.0220 0.0057 0.0235 -0.1319 -0.0039 0.0309 0.0002 -0.0616 0.0215 -0.0170 -0.0278 CONDUCTIVIDAD 0.0477 -0.0144 0.0153 0.0433 -0.0274 0.0127 0.0147 0.0089 -0.0527 -0.0313 -0.0209 PH 0.0097 0.0287 0.0023 -0.1874 0.1153 0.0132 0.0046 0.0151 0.0867 0.0069 0.0065

68

Siguiendo con el análisis de la matriz de correlación, se observó que los valores

de dichos coeficientes resultaron tener valores bajos y por lo tanto no se

determinó ninguna asociación significativa. Para efectos del presente trabajo se

considera que la relación entre dos variables es significativa si el coeficiente de

correlación es mayor a 0.5 en valor absoluto. Observado esto, se tomó la

decisión de correr o determinar nuevamente los CP en dos fases donde se

eliminaron las variables que presentaron distribución anómalos para mejorar la

varianza; el primer ejercicio se realizó eliminando los coliformes fecales y en el

segundo ejercicio o fase se eliminaron los coliformes fecales, el cromo, el

plomo, oxigeno disuelto, sólidos suspendidos.

Los resultados obtenidos en los dos ejercicios fue el mismo que se obtuvo en la

primera matriz, o sea, no hubo mejora en la asociación de las variables con los

componentes, por tal motivo, se tomó la decisión de trabajar con todos los

datos. Las matrices de componentes principales (CP) de la fase uno y dos se

encuentran en el anexo No. 6

4.1.1.2 Resultados

En la tabla No. 6, se presentan las asociaciones entre variables fisicoquímicas

identificadas a partir del ACP. Como se evidencia de la inspección de dicha

tabla, no existen variables relacionadas, mientras que en los componentes 2,

12, 14, 16 y 18 solo aparece una sola variable. Así mismo los componentes

principales 1, 3, 4, 5, 6, 7, 8, 9, 10, 11, 13, 15, 17, 19, 20, 21 no muestran

correlaciones significativas con ninguna de las variables analizadas en el

presente trabajo.

69

En conclusión, el método multivariado del ACP no pudo obtener o encontrar un

resultado coherente puesto que no logró vincular las variables fisicoquímicas

entre sí. Esto posiblemente se deba a la dinámica del embalse y su interacción

con la calidad del agua, la cual no permite que se presente correlación entre

estas variables, aunque sabemos que si debe existir puesto que hay

parámetros que de alguna manera están relacionados.


Hay que recordar que todo el procedimiento computacional de las redes se

realizó con las funciones diseñadas en Matlab®


El tipo de red neuronal utilizada fue la red neuronal hebbiana con entrenamiento

hebbiano generalizado (aprendizaje no supervisado).

El procedimiento seguido para determinar los CP con RNA fue el siguiente:

1. Inicialmente se cargaron los datos en Matlab®,

2. seguido de esto los datos se estandarizaron

3. se realizó el entrenamiento de la red con los siguientes parámetros:

• 21 variables de entrada

• Siete variables de salida

• La tasa de aprendizaje fue igual a 1x10-6, se eligió este valor por ensayo

y error, y este valor fue el que dio el menor error en el entrenamiento de

la red.

• Número de épocas de entrenamiento igual a 1000

70

A esta red no se le determinó el coeficiente de correlación puesto que es una

red de entrenamiento no supervisado, y no se contó con una salida deseada

con la cual se pudiera comparar.

La función se corrió en Matlab y en la tabla No. 7 se presenta la matriz de

correlación obtenida por este método.

Como se puede observar en la matriz de correlación, los coeficientes de

correlación obtenidos permiten identificar asociaciones significativas entre las

variables fisicoquímicas y los componentes principales no lineales obtenidos por

la red neuronal artificial de tipo hebbiano.

71

Tabla 7. Matriz de correlación obtenida con la red neuronal artificial


C. FECALES 0.6349 0.1202 -0.4589 0.3976 -0.3270 -0.0523 0.1274 -0.0402 0.0032 -0.0382 C. TOTALES 0.5177 0.0328 -0.4564 0.3203 -0.5091 0.1001 0.1518 -0.1017 0.1169 0.2178 CROMO 0.5553 -0.1663 0.5738 0.2332 -0.0972 0.0152 -0.0960 -0.0870 0.1153 0.0933 DBO5 0.5012 0.4096 0.3276 -0.4724 -0.0424 -0.1047 0.2656 -0.1880 -0.0603 0.2146 DQO 0.6671 0.4228 0.1837 -0.2746 0.2115 -0.0419 0.0738 -0.1025 -0.1068 0.2739 ORTOFOSFATOS 0.5556 -0.4220 -0.2417 -0.0600 0.0368 0.2401 -0.2406 -0.3326 -0.3522 -0.0078 F. TOTAL 0.6365 -0.4013 -0.2184 -0.2676 -0.0152 -0.2455 -0.1481 -0.2228 -0.0738 -0.1276 N. AMONIACAL 0.6615 -0.5691 0.0664 -0.2914 -0.1595 0.0425 0.0047 0.0336 0.1249 0.0303 N. KJELDAHL 0.6821 -0.5292 -0.0138 -0.2592 -0.1049 0.2056 -0.0050 0.1117 0.1486 -0.0055 O. DISUELTO -0.4273 0.4899 0.2797 -0.3306 -0.3195 0.0122 0.3114 -0.1175 0.0413 -0.1719 PLOMO 0.3507 -0.4491 0.6176 0.3674 -0.1408 -0.0811 0.1101 -0.0790 0.0130 -0.0267 RAS -0.1449 0.3421 -0.6838 -0.4247 -0.2006 0.1874 0.0068 0.0581 -0.0106 -0.0532 S. S 0.4646 0.5212 -0.1091 -0.0564 0.1700 0.0313 -0.4788 -0.0193 0.3584 0.1264 S.S.T 0.6866 0.6263 0.0614 0.1137 -0.0124 0.0926 -0.0717 0.0292 -0.0927 -0.1638 S.S.V 0.6634 0.5160 0.2317 0.1334 -0.0413 0.0970 -0.0924 -0.0807 -0.1158 -0.2597 S.T 0.7940 0.2186 -0.0048 -0.1368 0.0098 -0.0645 0.0558 0.1289 0.1788 -0.1158 SULFATOS 0.6636 -0.0985 -0.1710 0.1432 0.2904 0.2206 0.2610 0.3621 -0.2140 0.1488 SULFUROS 0.5213 0.0158 -0.3507 0.0363 0.0309 -0.7158 0.0039 0.1301 -0.0857 -0.0119 TURBIDEZ 0.6828 0.5246 0.2055 0.1829 0.0103 0.0826 -0.0365 0.1592 -0.0722 -0.0666 CONDUCTIVIDAD 0.5808 -0.4901 0.1931 -0.3746 -0.0564 0.0308 0.0343 0.2391 0.0228 -0.1730 PH 0.3837 -0.1277 -0.3457 0.1582 0.5771 0.0780 0.4002 -0.2929 0.2603 -0.1614

72

Componente 11

Componente 12

Componente 13

Componente 14

Componente 15

Componente 16

Componente 17

Componente 18

Componente 19

Componente 20

Componente 21

C. FECALES 0.0094 -0.0481 0.0392 -0.0666 0.0221 -0.0289 -0.0750 0.0592 0.2478 -0.0025 -0.0676 C. TOTALES -0.0170 -0.0725 0.0029 -0.0879 0.0535 -0.0226 0.0620 -0.0028 -0.1804 -0.0063 0.0571 CROMO -0.2623 0.3316 -0.1614 0.0902 0.1054 -0.0551 0.0062 0.0617 0.0218 -0.0212 -0.0097 DBO5 0.0387 0.0357 0.1267 0.0094 0.0784 -0.0088 0.1695 -0.1322 0.0989 0.0312 0.0057 DQO -0.1361 -0.1614 0.0093 -0.0247 -0.0427 0.0054 -0.2375 0.1117 -0.0418 -0.0175 -0.0098 ORTOFOSFATOS 0.1559 -0.0773 -0.2118 0.1110 0.1039 -0.0237 0.0136 -0.0210 0.0076 -0.0018 -0.0023 F. TOTAL -0.0953 0.1612 0.0192 -0.2859 -0.1530 0.1243 0.0344 0.0403 -0.0175 0.0339 0.0210 N. AMONIACAL 0.1275 0.0073 0.0953 0.1182 -0.1646 0.0178 0.0315 0.0167 -0.0124 -0.1789 -0.0644 N. KJELDAHL 0.0335 -0.0218 0.1254 0.1877 -0.0307 0.0302 -0.0038 0.1233 0.0091 0.1709 0.0192 O. DISUELTO 0.2580 0.1063 -0.2095 -0.0360 -0.0257 -0.0377 -0.0477 0.1290 -0.0358 0.0135 -0.0108 PLOMO 0.1476 0.0037 0.0083 -0.0050 -0.0821 0.0658 -0.1840 -0.2088 -0.0220 0.0477 0.0097 RAS -0.1352 0.2222 0.0031 0.1163 0.0058 0.0498 -0.1564 -0.1517 0.0057 -0.0144 0.0287 S. S 0.2632 0.0647 -0.0289 -0.1016 0.0155 -0.0690 -0.0380 -0.0399 0.0235 0.0153 0.0023 S.S.T -0.0451 0.0236 0.0873 0.0104 0.0236 0.0307 0.0417 -0.0382 -0.1319 0.0433 -0.1874 S.S.V -0.0464 -0.0129 0.1787 0.0491 -0.1249 -0.2208 0.0071 0.0085 -0.0039 -0.0274 0.1153 S.T -0.1706 -0.2355 -0.3408 0.0383 -0.1278 0.0182 0.0750 -0.0889 0.0309 0.0127 0.0132 SULFATOS 0.1195 0.1989 -0.0980 -0.1126 -0.1227 -0.0878 0.0287 -0.0087 0.0002 0.0147 0.0046 SULFUROS 0.1120 0.0672 -0.0229 0.1859 0.0733 -0.0608 -0.0185 0.0168 -0.0616 0.0089 0.0151 TURBIDEZ 0.1043 0.0184 0.0161 0.0284 0.1121 0.3158 0.0244 0.0609 0.0215 -0.0527 0.0867 CONDUCTIVIDAD -0.0214 -0.0801 0.0280 -0.1956 0.3001 -0.0994 -0.0631 -0.0285 -0.0170 -0.0313 0.0069 PH 0.0106 0.0434 0.0357 0.0412 0.0792 0.0165 -0.0137 0.0007 -0.0278 -0.0209 0.0065

73

4.1.2.2 Resultados En la tabla No. 7 se incluye la asociación entre las variables fisicoquímicas

estudiadas y los componentes principales no lineales. De esta se puede ver

que el componente 1 agrupa las variables de Coliformes fecales y totales,

DBO5, DQO, Ortofosfatos, Fosforo, N (Amoniacal y Kendhal), SST, SSV, ST,

Sulfatos, Turbidez, Conductividad; mientras que al componente 2 se encuentran

asociadas las variables de Oxigeno disuelto + SS. En el componente 3 se

agrupan las variables relacionadas con los metales pesados Cromo, Plomo,

RAS. El pH se encuentra asociado al componente 5 y los Sulfuros en el

componente 6.

De lo anterior se infiere que en el componente 1 se encuentran variables de tipo

físico, químico y biológico; indicando en este caso particular que los procesos

que afectan la calidad del agua del embalse tienen contribuciones de estas 3

fuentes. El componente 2 agrupa las variables de Oxígeno disuelto y Sólidos

suspendidos, las cuales se encuentran relacionadas, ya que los sólidos están

relacionados con la concentración de oxígeno. Con respecto al oxigeno es de

entender que ninguna variable depende o está relacionado con él puesto que

las concentraciones son mínimas, lo que demuestra que el embalse funciona

como un sistema anaerobio. El componente 3 agrupa los metales pesados, y

por lo tanto se infiere que la dinámica que presentan dichas variables es de

naturaleza diferente a los restantes parámetros estudiados. Esta misma

situación se presenta en el caso del pH y los Sulfuros, variables que se

encuentran asociadas a los componentes 5 y 6 respectivamente.

74

4.1.3 ANALISIS DE RESULTADOS DE LA COMPARACIÓN

Como se observó en los resultados de cada metodología, las RNA obtuvieron

un mejor desempeño al poder asociar las variables entre sí, lo que indica que la

no linealidad de la RNA permitió encontrar asociaciones entre variables de

manera más concreta y detallada, que las metodología convencional.

Partimos del hecho que la dinámica bio-físico-química que se presenta en

embalse es compleja, y por lo tanto la identificación de procesos específicos

resulta de vital importancia. La metodología de ACP convencional no fue útil a

la hora de determinar las asociaciones entre las variables, que son las que

permiten identificar procesos fisicoquímicos; mientras que con las RNA de tipo

hebbiano las asociaciones se pudieron interpretar de una forma mucho más

clara.

4.2 CLASIFICACIÓN DE LAS VARIABLES

Para realizar este tipo de análisis usando las funciones discriminantes y las

RNA se hizo necesario etiquetar las muestras para que los métodos aplicados

pudiesen predecir la pertenencia de una variable o parámetro a un determinado

grupo. Los grupos establecidos fueron dos: periodo seco y periodo húmedo, de

acuerdo a la fecha de toma de las muestras analizadas. Esto se hizo con la

finalidad de establecer si el periodo hidrológico afectaba de forma significativa

los valores de las concentraciones de los parámetros analizados.

Para realizar el ejercicio de clasificación, no se utilizó ninguna técnica específica

para definir los grupos, el investigador lo determinó según el análisis de la

información de precipitación del área de estudio. Como herramienta de apoyo

en la selección de los periodos secos y húmedos se graficó la precipitación

75

promedio mensual, en estaciones ubicadas en el embalse del Muña, así como

otras estaciones pluviométricas y pluviográficas ubicadas en los alrededores de

la zona de estudio. A los datos de precipitación no se les realizó ningún

tratamiento estadístico para su análisis, ya que en este caso particular lo que

interesaba era el patrón de variación temporal y la determinación de la

ocurrencia de periodos secos y húmedos. Esta parte del análisis se encuentra

motivada por la alta variabilidad que han presentado los parámetros

hidrológicos en los últimos años. A continuación, se presenta el histograma de

la precipitación promedio mensual.

Gráfica 10. Histograma de precipitación mensual

Con base a un análisis visual del histograma, se determinó, como se dijo

anteriormente, por criterio del investigador, que todos los datos por debajo de

los 40 mm de precipitación serian periodos secos y por encima de estos serian

periodos húmedos.

0,0010,0020,0030,0040,0050,0060,0070,0080,0090,00

100,00

abr-

04

may

-04

jun-

04

jul-0

4

ago-

04

sep-

04

oct-

04

nov-

04

dic-

04

ene-

05

feb-

05

mar

-05

abr-

05

may

-05

jun-

05

jul-0

5

ago-

05

sep-

05

oct-

05

nov-

05

dic-

05

ene-

06

feb-

06

mar

-06

abr-

06

may

-06

jun-

06

jul-0

6

ago-

06

sep-

06

oct-

06

Pre

cipi

taci

ón (

mm

)

PERIODO DE MUESTREO

PRECIPITACIÓN MENSUAL

76

4.2.1 ANALISIS DISCRIMINANTE (AD)

Este análisis se realizó de manera temporal, esto con el fin de poder realizar un

mejor etiquetamiento para la investigación


Para poder correr la función discriminante fue necesario realizar inicialmente la

estandarización de los datos, para poder compararlos entre sí.

Al correr la función, se determinaron los puntos medios y un centro a cada

periodo o grupo; los valores fueron:

PUNTO MEDIO

Centro del grupo Centro del grupo

PERIODO SECO PERIODO HÚMEDO

. . -0.47 0.44

-0.014

Este análisis se basa en la determinación de los centros para cada uno de los

grupos estudiados (en este caso periodos seco y húmedo). Con estos dos

centros definidos, se determina el punto medio entre ellos que para este caso

particular es igual a -0.014. Si una muestra tiene un valor de coordenada

77

menor a -0.014 entonces se clasifica como periodo seco, y en caso contrario

como periodo húmedo.

Esta regla se aplicó al conjunto de datos de validación y a partir de esto se

realizó la respectiva clasificación en periodos hidrológicos. De este

procedimiento se puede cuantificar el error de clasificación correcta e

incorrecta.

4.2.1.2 Resultados

Los resultados arrojados por la función se presentan a continuación en la tabla

No. 8, en esta matriz se comparan los datos reales con lo modelado.

78

Tabla 8. Matriz de resultado del AD - método estad ístico

No. FECHA PERIODO REAL ESTACIÓN PERIODO

MODELADO ESTACIÓN PERIODO MODELADO ESTACIÓN PERIODO

MODELADO ESTACIÓN PERIODO MODELADO

1 abr-04 1 1 0 2 0 3 0 4 1 2 may-04 1 1 1 2 1 3 1 4 1 3 jun-04 1 1 0 2 1 3 1 4 1 4 jul-04 0 1 0 2 0 3 0 4 0 5 ago-04 0 1 0 2 0 3 0 4 0 6 sep-04 1 1 1 2 1 3 1 4 1 7 oct-04 1 1 1 2 1 3 1 4 1 8 nov-04 1 1 1 2 1 3 1 4 1 9 dic-04 0 1 0 2 0 3 0 4 0 10 ene-05 0 1 0 2 0 3 0 4 0 11 feb-05 0 1 0 2 0 3 0 4 0 12 mar-05 0 1 0 2 0 3 0 4 0 13 abr-05 1 1 1 2 1 3 1 4 1 14 may-05 1 1 0 2 0 3 0 4 0 15 jun-05 0 1 0 2 0 3 0 4 0 16 jul-05 0 1 0 2 0 3 1 4 0 17 ago-05 0 1 1 2 0 3 0 4 0 18 sep-05 0 1 1 2 1 3 1 4 1 19 oct-05 1 1 1 2 1 3 1 4 1 20 nov-05 1 1 1 2 1 3 1 4 1 21 dic-05 0 1 0 2 0 3 1 4 1 22 ene-06 0 1 1 2 1 3 1 4 0 23 feb-06 0 1 0 2 0 3 0 4 0 24 mar-06 1 1 1 2 1 3 1 4 1 25 abr-06 1 1 0 2 1 3 1 4 1 26 may-06 1 1 0 2 1 3 0 4 1 27 jun-06 1 1 1 2 1 3 1 4 0 28 jul-06 0 1 0 2 0 3 1 4 0 29 ago-06 0 1 1 2 1 3 1 4 1 30 sep-06 1 1 1 2 1 3 1 4 1 31 oct-06 1 1 1 2 1 3 1 4 1

79



MODELADO

1 abr-04 1 5 1 6 1 7 1 2 may-04 1 5 1 6 1 7 1 3 jun-04 1 5 0 6 0 7 0 4 jul-04 0 5 0 6 0 7 0 5 ago-04 0 5 0 6 0 7 0 6 sep-04 1 5 0 6 1 7 1 7 oct-04 1 5 1 6 1 7 1 8 nov-04 1 5 0 6 1 7 0 9 dic-04 0 5 0 6 0 7 0 10 ene-05 0 5 0 6 0 7 0 11 feb-05 0 5 0 6 0 7 0 12 mar-05 0 5 0 6 0 7 0 13 abr-05 1 5 1 6 1 7 1 14 may-05 1 5 0 6 0 7 0 15 jun-05 0 5 0 6 0 7 1 16 jul-05 0 5 1 6 1 7 1 17 ago-05 0 5 1 6 1 7 1 18 sep-05 0 5 1 6 1 7 1 19 oct-05 1 5 1 6 1 7 1 20 nov-05 1 5 1 6 1 7 1 21 dic-05 0 5 1 6 1 7 0 22 ene-06 0 5 0 6 1 7 1 23 feb-06 0 5 0 6 0 7 0 24 mar-06 1 5 1 6 1 7 1 25 abr-06 1 5 1 6 0 7 1 26 may-06 1 5 1 6 1 7 1 27 jun-06 1 5 1 6 1 7 1 28 jul-06 0 5 0 6 1 7 1 29 ago-06 0 5 0 6 1 7 1 30 sep-06 1 5 1 6 1 7 1 31 oct-06 1 5 1 6 1 7 1

Convenciones: 1 periodo húmedo

0 periodo seco

Estos mismos resultados se ven reflejados en la siguiente gráfica:

Gráfica

De 217 datos 161 datos coincidieron

húmedo, para poder determinar que tan eficiente fue el procedimiento de

clasificación se procedió a

4.2.1.3 Matriz de Confusión

Como se comentó anteriormente, la matriz de confusión (MC)

determinar que tan eficaz en porcentaje fue el procedimiento estadístico para

realizar la clasificación y predecir que element

continuación, se presenta la matriz de confusión del método multivariado.

80

ráfica 11. Distribución de los datos entre los periodos

161 datos coincidieron en si era un periodo


clasificación se procedió a realizar la matriz de confusión.

atriz de Confusión

Como se comentó anteriormente, la matriz de confusión (MC)


realizar la clasificación y predecir que elemento va en que grupo. A

se presenta la matriz de confusión del método multivariado.

. Distribución de los datos entre los periodos

un periodo seco o periodo


Como se comentó anteriormente, la matriz de confusión (MC) nos permitió


o va en que grupo. A

se presenta la matriz de confusión del método multivariado.

81

Tabla 9. Matriz de confusión bayesiana para la cla sificación realizada con el conjunto de datos calibrados

CLASIFICADO POR

EL MODELO PORCENTAJE

SECO HÚMEDO

CLASIFICACIÓN REAL

SECO 57 23

71% 29%

HÚMEDO 20 70

22% 78%

Como se puede observar en la matriz de confusión, el modelo clasificó como

seco correctamente a 57 datos de los 80 datos empleados para la calibración,

ya que los 23 restantes los clasificó como periodos húmedos; respecto al

periodo húmedo, clasificó correctamente 70 datos de 90, los otros 20 datos

restantes lo clasifico de manera incorrecta como seco. Lo que significa que el

modelo logró acertar en un 78% los periodos húmedos y en un 71% en los

periodos secos, esto nos indica que el modelo funciona de cierta manera.

Una vez realizado el procedimiento de calibración se procedió a realizar la

clasificación de un conjunto de 50 datos, que no se consideraron en el

procedimiento de calibración. Los resultados se presentan en la siguiente tabla.

Tabla 10. Matriz de confusión bayesiana para la cla sificación realizada con el conjunto de datos de validación

CLASIFICADO POR

EL MODELO PORCENTAJE

SECO HÚMEDO

CLASIFICACIÓN REAL

SECO 15 10

60% 40%

HÚMEDO 6 16

28% 72%

Los resultados obtenidos indican que los porcentajes de clasificación correcta

en el conjunto de datos de validación aunque son mejores a los obtenidos en la

calibración, indican que el análisis discriminante convencional puede realizar

una clasificación automática satisfactoria del periodo hidrológico a partir de los

valores de las muestras.


Para realizar el AD se utilizó una RN

retropropagación de error y alimentación hacia adelante

Esta red se seleccionó debido a que es la red más sencilla para hacer un

análisis equivalente al análisis discriminante.

La red neuronal es

neuronas, esta estructura se seleccionó de acuerdo al criterio

compresión que dio

esquema de la red que se utilizó en el ejercicio.

Ilustración 11

82



ción, indican que el análisis discriminante convencional puede realizar


valores de las muestras.

REDES NEURONALES ARTIFICIALES (RNA)

Para realizar el AD se utilizó una RNA de entrenamiento supervisado con

retropropagación de error y alimentación hacia adelante – Perceptrón


análisis equivalente al análisis discriminante.

La red neuronal estaba conformada por una (1) capa oculta y cinco (5)

neuronas, esta estructura se seleccionó de acuerdo al criterio

dio aproximadamente 1.97. A continuación, se presenta el

esquema de la red que se utilizó en el ejercicio.

11. Esquema red neuronal usada en el análisis discriminante



ción, indican que el análisis discriminante convencional puede realizar


A de entrenamiento supervisado con

Perceptrón multicapa.


taba conformada por una (1) capa oculta y cinco (5)

neuronas, esta estructura se seleccionó de acuerdo al criterio del factor de

A continuación, se presenta el

el análisis discriminante

83

La idea del factor de compresión es que los pesos sean menos que las

variables, lo que indica que si usamos cinco (5) neuronas en la capa oculta el

resultado sería 110 pesos, el número de pesos se determinó de la siguiente

manera:

Pesos = (No. de datos o variables x No. De Neuronas + No. Salidas)

Para nuestro ejercicio sería:

Pesos = (21 x 5 + 5) = 110

Y el factor de compresión sería:

FC = No. De datos / peso

Para nuestro ejercicio tendríamos:

FC = 217 / 110 = 1.97

De esta manera se puede decir que la relación entre el número de muestras y

los pesos sería de 1.97 aproximadamente.


Los pasos que se efectuaron para realizar el AD con RNA fueron:

1. Se cargaron los datos

84

2. Se realizó la estandarización de los datos: esta estandarización nos

permitió llevar los datos a una distribución normal de media cero (0) y

varianza uno (1), lo que nos definir un rango de variación entre -3 y 3.

3. Se definieron los datos de calibración y validación: La calibración hace

referencia al entrenamiento de la red neuronal, se utilizó el 75% de los

datos para calibrar y entrenar la red, en total fueron 163 datos usados en

esta etapa. La validación nos permitirá saber que tan bueno fue el

modelo que se usó para el entrenamiento de la red, en la validación se

usaron el resto de datos que no se usaron en la calibración, 54 en total.

4. Entrenamiento de la red con los datos de calibración: la red se entrenó

con los datos seleccionados aleatoriamente de la muestra, como se

mencionó, fueron 163 datos seleccionados para el entrenamiento. El

criterio de clasificación utilizado fue, que todo dato mayor que 0.5 es

húmedo y si es menor a 0.5 es seco.

El entrenamiento de la red culminó después de 12 épocas, el error

obtenido fue de 2.6x10-2, este fue el error de entrenamiento después de

12 épocas. A continuación, se presenta éste resultado en la siguiente

gráfica.

El resultado de la calibración se presenta

Tabla 11. Matriz de confusión bayesiana para la clasificac ión realizada con el conjunto

CLASIFICACIÓN REAL

Como se puede ver, el porcentaje de clasificación

(87%) en cada caso

85

Gráfica 12. Número de épocas

l resultado de la calibración se presenta en la siguiente matriz de confusión:

. Matriz de confusión bayesiana para la clasificac ión realizada con el conjunto de datos de calibración

CLASIFICADO POR

EL MODELO

SECO HÚMEDO

CLASIFICACIÓN REAL

SECO 68 10

87%

HÚMEDO 11 74

13%

Como se puede ver, el porcentaje de clasificación correcta

(87%) en cada caso, lo que indica que la red neuronal artificial se capturó la

matriz de confusión:

. Matriz de confusión bayesiana para la clasificac ión realizada con el conjunto

13%

87%

correcta fue bastante alto

neuronal artificial se capturó la

86

relación de dependencia entre las variables físico-químicas biológicas y la

temporada hidrológica.

5. Evaluación de la confiabilidad del modelo obtenido con los datos de la

validación: La eficiencia de la validación se analizó con la matriz de

confusión, la cual se presenta a continuación:

Tabla 12. Matriz de confusión bayesiana para la cl asificación realizada con el conjunto de datos de validación

CLASIFICADO POR EL

MODELO

SECO HÚMEDO

CLASIFICACIÓN REAL

SECO 15 15

50% 50%

HÚMEDO 11 13

45% 55%

Con pocos datos el sistema logró un 50% de clasificación correcta para el

periodo seco, mientras que para el periodo húmero este porcentaje de

clasificación fue de 55%. Los porcentajes de clasificación incorrecta fueron de

45% y 50%. A pesar que estos valores pueden parecer altos es de aclarar que

el conjunto de datos de validación es de 54 muestras y que es de esperar que

los porcentajes en este conjunto de validación sean menores a los obtenidos en

la calibración. En este caso particular se interpreta como resultado del tamaño

de la muestra empleado en la calibración, y el procedimiento de entrenamiento

de parda temprana que se empleo con la RNA.

87

4.2.2.2 Resultados

Por último, después de aprobar el resultado de validación se prosiguió a correr

la red con todos los datos, 217 en total, los resultados de presentan en la

siguiente tabla:

Tabla 13. Resultado del AD con la RNA



MODELADO ESTACIÓN PERIODO MODELADO

1 abr-04 1 1 1 2 1 3 1 4 1

2 may-04 1 1 1 2 1 3 1 4 1

3 jun-04 1 1 1 2 1 3 1 4 1

4 jul-04 0 1 0 2 0 3 0 4 0

5 ago-04 0 1 0 2 0 3 0 4 0

6 sep-04 1 1 1 2 1 3 1 4 1

7 oct-04 1 1 1 2 1 3 1 4 1

8 nov-04 1 1 1 2 1 3 1 4 0

9 dic-04 0 1 1 2 0 3 0 4 0

10 ene-05 0 1 0 2 0 3 0 4 0

11 feb-05 0 1 0 2 0 3 0 4 0

12 mar-05 0 1 0 2 0 3 0 4 0

13 abr-05 1 1 1 2 1 3 1 4 1

14 may-05 1 1 1 2 0 3 0 4 1

15 jun-05 0 1 0 2 0 3 0 4 1

16 jul-05 0 1 0 2 1 3 1 4 0

17 ago-05 0 1 0 2 0 3 0 4 0

18 sep-05 0 1 1 2 1 3 1 4 1

19 oct-05 1 1 1 2 0 3 0 4 0

20 nov-05 1 1 1 2 1 3 1 4 0

21 dic-05 0 1 0 2 0 3 0 4 0

22 ene-06 0 1 0 2 0 3 0 4 0

23 feb-06 0 1 0 2 0 3 0 4 0

24 mar-06 1 1 0 2 1 3 1 4 0

25 abr-06 1 1 1 2 1 3 1 4 1

26 may-06 1 1 0 2 1 3 1 4 1

27 jun-06 1 1 1 2 1 3 1 4 1

28 jul-06 0 1 0 2 1 3 0 4 0

29 ago-06 0 1 0 2 1 3 0 4 0

30 sep-06 1 1 1 2 1 3 1 4 1

31 oct-06 1 1 0 2 1 3 1 4 1

88



MODELADO

1 abr-04 1 5 1 6 0 7 1

2 may-04 1 5 1 6 1 7 1

3 jun-04 1 5 1 6 1 7 1

4 jul-04 0 5 0 6 0 7 0

5 ago-04 0 5 0 6 0 7 0

6 sep-04 1 5 1 6 1 7 1

7 oct-04 1 5 1 6 1 7 1

8 nov-04 1 5 1 6 1 7 1

9 dic-04 0 5 0 6 0 7 0

10 ene-05 0 5 0 6 0 7 0

11 feb-05 0 5 0 6 0 7 0

12 mar-05 0 5 0 6 0 7 0

13 abr-05 1 5 0 6 1 7 1

14 may-05 1 5 0 6 0 7 0

15 jun-05 0 5 0 6 0 7 0

16 jul-05 0 5 1 6 1 7 1

17 ago-05 0 5 0 6 1 7 1

18 sep-05 0 5 1 6 1 7 1

19 oct-05 1 5 0 6 1 7 1

20 nov-05 1 5 1 6 1 7 1

21 dic-05 0 5 0 6 0 7 0

22 ene-06 0 5 0 6 1 7 0

23 feb-06 0 5 0 6 0 7 0

24 mar-06 1 5 1 6 0 7 1

25 abr-06 1 5 0 6 1 7 0

26 may-06 1 5 1 6 1 7 1

27 jun-06 1 5 1 6 1 7 0

28 jul-06 0 5 0 6 0 7 0

29 ago-06 0 5 0 6 0 7 0

30 sep-06 1 5 1 6 1 7 1

31 oct-06 1 5 1 6 1 7 1

89

Para visualizar de una manera más clara y evaluar el resultado de la red

neuronal, se elaboró la matriz de confusión la cual se presenta a continuación.

Tabla 14. Matriz de confusión bayesiana para la cl asificación realizada con el conjunto de datos completos

CLASIFICADO POR EL

MODELO

SECO HÚMEDO

CLASIFICACIÓN REAL

SECO 83 25

77% 23%

HÚMEDO 22 87

20% 80%

Ya revisando los resultados con la MC, se observa que globalmente los

porcentajes de clasificación correcta son altos, lo que indica que el modelo

usado con la red es confiable y logró capturar la relación de dependencia

presentes en el conjunto de datos analizados. El porcentaje de clasificación

correcta para temporada seca fue de 77%, mientras que para la temporada

húmeda este valor alcanzó un 80%. Los porcentajes de clasificación errónea

fueron de 20 y 23%.

En este caso no se calculó el coeficiente de correlación puesto que los datos

eran discretos y no continuos, lo que indica que no existía la necesidad de

averiguar si los resultados estaban relacionados puesto que la respuesta estaba

definida, periodo seco o periodo húmedo.

90

4.2.3 ANÁLISIS DE RESULTADOS DE LA COMPARACIÓN

Los resultados de clasificación obtenidos por los métodos son muy similares en

la calibración, lo que indica que cualquiera de los métodos puede dar un buen

resultado al utilizarse en el análisis de la información de calidad de agua.

Una ventaja que puede tener las RNA sobre el método tradicional es que este

puede aprender y mejorar poco a poco siempre y cuando existieran más datos

para utilizar en el procedimiento de aprendizaje y validación.

Los porcentajes de clasificación correcta obtenidos en los procedimientos de

validación con RNA fueron menores que los obtenidos para el análisis

discriminante debido al número de muestras empleado en el entrenamiento de

la RNA (aproximadamente 170), así como la dependencia que existe entre la

semilla del generador de números aleatorios con el cual se inicializan los pesos

de la RNA. Además, los resultados del entrenamiento de las RNA tipo

perceptrón multicapa con retro-propagación de error son muy dependientes del

número de patrones empleados, y por lo tanto los resultados del entrenamiento

pueden presentar grandes variaciones dependiendo de la selección que se

haga del conjunto de calibración vs validación.

Para el caso del análisis discriminante convencional, la clasificación realizada

con los datos de validación presentó unos porcentajes de clasificación correcta

muy similares a los obtenidos durante el procedimiento de calibración. Esto

indica que a pesar que las RNA sean modelos de regresión no-lineal, se hace

necesario contar con un conjunto de datos lo suficientemente grande, de tal

forma que se asegure un procedimiento de entrenamiento que permita obtener

valores estables de los pesos que definen dichas redes neuronales. Esto se

podría mejorar si se emplean otras arquitecturas de RNA como la GRNN

(Specth, 1990)

91

5 CONCLUSIONES

1. Componentes principales (CP) : el método tradicional o estadístico no

consiguió una reducción de dimensionalidad en la información de calidad

de agua estudiada, ya que no permitió asociar las variables en grupos

que fueran claramente interpretables. Respecto a las Redes Neuronales

Artificiales de tipo hebbiano, esta técnica permitió identificar algunas

asociaciones con sentido físico/químico entre las variables analizadas, y

además los grupos de variables encontradas se ubicaron en los primeros

seis componentes. El primer componente se asocia a variables de tipo

físico, químico y biológico, el segundo componente a variables

relacionadas con el oxígeno disuelto, el tercer componente a los metales

pesados, el componente 5 al pH y el componente 6 a los sulfuros. En

conclusión, la red neuronal artificial como método no lineal obtuvo un

mejor desempeño que la técnica multivariada convencional a la hora de

identificar asociaciones con un claro sentido para el analista de la

información.

2. Análisis discriminante (AD) : tanto el método tradicional como la red

neuronal brindaron resultados similares, siendo estos muy eficientes al

dar determinar un periodo seco o húmedo. Esto es de vital importancia

en procedimientos de clasificación automática, para la temporada

hidrológica que pueden ser requeridos en programas de monitoreo de la

calidad de agua. Sin embargo hay que recordar que la red neuronal

artificial tiene la posibilidad de mejorar en los porcentajes de clasificación

si se tuviese un conjunto de datos con un mayor número de patrones

para su entrenamiento.

92

3. De acuerdo a los resultados obtenidos en este trabajo, los

procedimientos de análisis multivariado empleados comúnmente en el

análisis de información de calidad de agua pueden brindar resultados

que pueden ser poco interpretables, o que pueden resultar muy sensibles

a la presencia de valores anómalos. Estos problemas pueden ser

resueltos con la utilización de metodologías de análisis no lineales como

las Redes Neuronales Artificiales, las cuales permiten construir

representaciones de la información que dependen de relaciones de

dependencia presentes en el conjunto de datos, y las cuales no hacen

suposiciones restrictivas con respecto a la información original. Así

mismo, estos modelos de RNA son robustos frente a la presencia de

valores anómalos.

4. Las redes neuronales de aprendizaje supervisado, presenta cierta

desventaja al usarlas en el análisis de datos de calidad de agua, puesto

que, es necesario contar con un número grande de patrones que

aseguren que los procedimientos de calibración (entrenamiento) sean

satisfactorios. Esto representa una restricción a la hora de usar este tipo

de metodologías en situaciones en donde se poseen pocos datos

medidos.

5. Es necesario realizar más investigaciones o trabajos utilizando los

métodos convencionales y las redes neuronales artificiales para poder

determinar con propiedad que herramienta es más eficiente en asociar y

clasificar datos, teniendo en cuenta, que en este último existen una

variedad de redes por aplicar.

93

6 RECOMENDACIONES

1. Se recomienda que para realizar análisis de datos de calidad de agua

con componentes principales (CP), es recomendable utilizar las redes

neuronales de tipo hebbiano, puesto que así como en este ejercicio,

se pudo encontrar que en otras experiencias donde se aplicó la

técnica convencional en datos de agua también se obtuvieron

resultados no muy satisfactorios.

2. En la clasificación de datos de calidad de agua puede usarse

cualquier de los dos métodos usados en este trabajo, puesto que, los

dos presentaron un resultado similar y satisfactorio en la clasificación

de los datos.

3. Como futuro estudios de investigación, se recomendable realizar este

mismo ejercicio con datos de calidad de agua proveniente de

sistemas lóticos, puesto que estos presentan una dinámica de las

características fisicoquímicas distinta a los sistemas lénticos.

4. En general, hay que realizar otras investigaciones aplicando otros

tipos de redes para poder conocer que tan eficientes son en el

análisis de datos de calidad de agua.

94

7 BIBLIOGRAFÍA

Kottegoda, N y Rozzo, R. (1993). Statistics, probability and reliability for Civil

and Environmental Engineers. McGraw Hill, 585 pp.

Moreno-Sánchez, G. y García-Cabrejo, O. (2003). Metodologías Cuantitativas

en el Análisis de Datos Estratigráficos. Notas de Clase (Material No Publicado).

105 pp.

Oja, E. (1982). A simplified neuron model as a principal component analyzer.

Journal of Mathematical Biology 15 (2), 267-273.

Ouyang, Y. (2005). evaluation of river water quality monitoring stations by

principal component analysis. Water Research, Vol 39, Nro 4. pp 2621-2635.

Specth, A. (1990). A General Regression Neural Network.

Tagliaferri, R., Ciaramella A, Milano L., Barone F. & Longo, G. (1999). Spectral

analysis of stellar light curves by means of neural networks. Astronomy &

Astrophysics Supplement Series 137 (2), 391 – 405

Vega, M., Pardo, R., Barrado, E. y Debaan, L. (1998). Assessment of seasonal

and polluting effects on the quality of river water by exploratory data analysis.

Water Research, Vol 32 Nro. 12, pp 3581-3592.

Wunderlin, D., Díaz, MP., Ame, M., Pesce, S., Hued,A., y Bistoni, M. (2001).

Pattern recognition techniques for the evaluation of spatial and temporal

95

variations in water quality. a case study: suquia river basin (Cordoba–

Argentina). Water Research, Vol 35, Nro. 12, pp 2881-2894.

Díaz M. Luis G. Estadística Multivariada: inferencia y método (2002). Facultad

de Ciencia, Universidad Nacional de Colombia

Giarratano Joseph, Riley Gary . Sistemas expertos: principios y programación.

Tercera edición. Thomson editores

Hilera José, Martínez Víctor. Redes Neuronales Artificiales: fundamentos,

modelos y aplicaciones. Addison-Wesley Iberoamerica

Martín Bonifacio, Sanz Alfredo. Redes Neuronales y Sistemas Difusos.

Alfaomega, 2da Edición

Isasi Pedro, Galvan Inés. Redes Neuronales Artificiales. Un enfoque práctico.

Editorial Person

96

8 ANEXOS

97

ANEXO 1

MATRIZ DE DATOS DE LAS ESTACIONES DE MONITOREO 2 AL 7

98

Tabla 15. Matriz de datos medidos en la estación de monitoreo No. 2


ESTACIÓN C. FECALES C. TOTALES CROMO DBO5 DQO ORTO FOSFATOS F. TOTAL N. AMONIACAL N. KJELDAHL O. DISUE LTO

32 abr-04 2 1600000 1600000 0.040 40 131 1.98 3.01 20.89 27.71 0.2

33 may-04 2 1600000 1600000 0.040 34 105 2.07 2.93 16.66 19.58 0.2

34 jun-04 2 90000 140000 0.030 19 74 2.25 2.90 15.00 18.55 0.2

35 jul-04 2 1600000 1600000 0.020 36 178 2.59 3.03 16.66 21.20 0.2

36 ago-04 2 260000 1600000 0.030 47 118 2.28 2.73 16.76 21.55 0.2

37 sep-04 2 4000 1600000 0.040 65 183 1.87 4.09 16.93 26.13 0.2

38 oct-04 2 1600000 1600000 0.070 33 118 0.79 1.72 8.25 16.24 0.2

39 nov-04 2 1600000 1600000 0.010 44 159 1.14 3.49 12.58 18.22 0.2

40 dic-04 2 1600000 1600000 0.030 75 202 2.98 3.08 19.36 25.35 0.2

41 ene-05 2 1600000 1600000 0.030 59 146 2.32 5.13 25.43 28.63 0.2

42 feb-05 2 1600000 1600000 0.060 77 156 2.40 4.23 22.32 24.05 0.2

43 mar-05 2 1600000 1600000 0.120 64 136 2.94 5.24 24.44 25.92 0.2

44 abr-05 2 1600000 1600000 0.043 57 209 0.65 3.66 24.50 42.00 0.2

45 may-05 2 1100000 1600000 0.044 37 147 1.61 3.48 14.30 24.24 0.2

46 jun-05 2 460000 1600000 0.044 83 149 3.93 3.52 23.00 23.97 0.2

47 jul-05 2 9000000 24000000 0.045 82 203 4.20 4.21 24.10 44.80 0.2

48 ago-05 2 11000000 1600000 0.047 87 151 2.58 3.53 18.40 25.51 0.2

49 sep-05 2 32000 1600000 0.030 86 182 1.21 3.69 18.12 24.75 0.5

50 oct-05 2 90000 430000 0.080 51 76 2.10 2.19 15.80 19.60 0.2

51 nov-05 2 11000000 24000000 0.080 66 176 2.60 2.85 16.30 24.10 0.2

52 dic-05 2 24000000 24000000 0.080 54 111 2.44 5.08 21.30 25.00 0.2

53 ene-06 2 230000 1500000 0.080 41 138 1.86 4.83 18.20 20.70 0.2

54 feb-06 2 400 1400 0.080 93 205 1.26 3.94 35.90 39.20 0.2

55 mar-06 2 300 900 0.080 93 255 3.76 4.21 25.20 28.60 0.2

56 abr-06 2 2100000 93000000 0.080 63 266 3.68 3.46 33.70 38.30 0.2

57 may-06 2 2600000 9000000 0.009 48 67 1.15 1.32 14.20 16.14 0.9

58 jun-06 2 2800000 8500000 0.015 98 148 1.95 2.93 12.75 15.60 2.0

59 jul-06 2 4000 70000 0.010 98 162 1.71 3.35 14.41 17.59 0.5

60 ago-06 2 17000 350000 0.032 79 155 0.74 1.73 16.73 18.83 2.1

61 sep-06 2 60000 1600000 0.019 106 180 0.56 3.30 19.31 23.37 0.8

62 oct-06 2 8000 13000 0.007 83 160 1.60 3.15 10.26 12.80 0.5

99



32 abr-04 2 0.010 2.5 0.4 58 30 344 10.53 6.43 64.20 419 6.76

33 may-04 2 0.010 0.3 1.5 69 60 305 10.20 6.62 37.50 421 6.72

34 jun-04 2 0.010 2.3 0.1 15 5 260 19.10 5.90 23.90 404 6.74

35 jul-04 2 0.010 3.8 0.2 32 18 273 6.60 11.30 45.30 365 6.89

36 ago-04 2 0.010 2.4 2.5 190 116 335 22.00 1.40 87.00 400 7.00

37 sep-04 2 0.010 2.5 0.1 49 39 275 12.30 1.00 29.00 484 6.67

38 oct-04 2 0.010 1.9 0.3 173 53 368 33.60 9.80 129.00 400 6.81

39 nov-04 2 0.050 1.9 0.2 167 17 310 16.00 5.40 40.60 450 7.03

40 dic-04 2 0.010 2.8 0.7 115 40 356 31.70 14.10 69.20 463 7.16

41 ene-05 2 0.030 2.2 0.1 46 16 347 18.70 16.60 27.30 507 6.92

42 feb-05 2 0.010 2.6 0.3 90 40 394 20.50 11.30 46.80 489 6.97

43 mar-05 2 0.010 2.5 0.1 31 21 332 20.60 17.80 23.60 548 7.12

44 abr-05 2 0.015 2.6 0.4 116 80 432 31.20 6.10 83.00 631 6.77

45 may-05 2 0.015 2.6 0.1 87 36 333 19.46 4.40 74.00 301 7.10

46 jun-05 2 0.016 2.7 1.4 65 51 332 20.15 6.40 65.00 391 7.12

47 jul-05 2 0.017 2.7 0.2 94 66 357 18.90 7.80 49.60 642 7.18

48 ago-05 2 0.016 2.8 1.4 100 64 335 19.47 2.10 72.90 405 7.05

49 sep-05 2 0.008 2.7 0.3 67 52 328 9.53 2.85 28.65 481 6.51

50 oct-05 2 0.160 0.4 0.2 115 62 303 12.40 2.00 98.40 353 6.86

51 nov-05 2 0.160 0.6 0.1 49 41 311 62.70 2.90 35.80 490 7.12

52 dic-05 2 0.160 0.4 0.1 67 59 250 31.10 3.80 40.00 466 6.95

53 ene-06 2 0.160 0.6 0.1 74 35 273 17.00 3.00 86.70 390 6.74

54 feb-06 2 0.160 0.8 0.1 43 37 356 28.00 2.10 44.20 579 6.96

55 mar-06 2 0.160 0.6 0.1 96 72 441 21.00 3.70 103.00 614 6.93

56 abr-06 2 0.160 1.6 0.3 45 31 334 11.30 4.00 44.10 609 6.62

57 may-06 2 0.050 2.5 0.1 29 10 247 13.69 3.00 53.00 425 6.75

58 jun-06 2 0.006 3.3 0.1 60 50 306 31.73 2.20 40.90 436 6.72

59 jul-06 2 0.005 1.6 0.1 19 8 223 12.95 2.85 40.10 373 6.85

60 ago-06 2 0.005 2.0 0.1 58 35 304 10.36 1.35 32.30 425 6.67

61 sep-06 2 0.005 2.9 0.5 84 64 380 6.76 4.70 28.30 477 6.35

62 oct-06 2 0.005 1.7 0.1 25 15 280 13.56 2.10 50.55 614 6.82

100




63 abr-04 3 1600000 1600000 0.060 63 188 1.86 2.42 19.36 21.24 0.2

64 may-04 3 1600000 1600000 0.070 57 173 1.66 2.01 14.09 14.12 0.2

65 jun-04 3 70000 70000 0.020 34 92 2.20 2.38 15.75 20.94 0.2

66 jul-04 3 1600000 1600000 0.060 29 230 2.71 3.13 15.57 23.76 0.2

67 ago-04 3 1600000 1600000 0.040 65 206 2.47 2.83 18.40 25.40 0.2

68 sep-04 3 4000 1600000 0.210 116 338 2.52 3.69 22.34 31.65 0.2

69 oct-04 3 900000 1600000 0.060 41 142 0.68 1.63 7.54 15.20 0.2

70 nov-04 3 1600000 1600000 0.010 53 156 1.57 3.43 15.56 18.53 0.2

71 dic-04 3 1600000 1600000 0.180 143 420 3.96 6.83 20.37 25.45 0.2

72 ene-05 3 1600000 1600000 0.040 92 210 2.78 5.95 31.00 33.94 0.2

73 feb-05 3 1600000 1600000 0.060 81 184 2.16 4.38 22.22 23.32 0.2

74 mar-05 3 1600000 1600000 0.040 69 138 3.13 5.18 23.94 24.36 0.2

75 abr-05 3 24000000 1600000 0.040 71 321 3.79 4.24 25.50 70.00 0.2

76 may-05 3 24000000 1600000 0.180 43 215 1.40 3.70 13.10 26.76 0.2

77 jun-05 3 1100000 1600000 0.040 41 217 2.94 3.80 18.10 27.19 0.2

78 jul-05 3 300 1600000 0.060 27 62 2.93 3.29 19.50 25.20 0.4

79 ago-05 3 24000000 1600000 0.060 124 206 2.86 3.68 18.40 26.69 0.2

80 sep-05 3 22000 1050000 0.118 98 237 2.29 3.35 21.01 27.51 0.5

81 oct-05 3 24000000 24000000 0.080 52 108 1.70 1.81 12.40 14.50 0.2

82 nov-05 3 1500000 9300000 0.080 55 152 2.92 3.09 14.90 21.50 0.2

83 dic-05 3 9300000 24000000 0.080 109 240 2.70 4.84 25.40 30.20 0.2

84 ene-06 3 930000 11000000 0.210 99 299 1.96 2.42 18.60 21.30 0.2

85 feb-06 3 110000 210000 0.080 117 237 1.47 4.15 39.40 42.50 0.2

86 mar-06 3 110000 280000 0.080 95 256 3.54 4.03 26.90 29.70 0.2

87 abr-06 3 1100000 120000000 0.080 71 250 3.54 3.79 30.20 35.90 0.2

88 may-06 3 2200000 2400000 0.011 49 73 1.49 2.29 19.47 21.60 0.4

89 jun-06 3 1800000 2200000 0.033 149 222 1.68 1.93 11.09 13.42 2.4

90 jul-06 3 4561111 21487778 0.082 88 204 2.33 3.15 22.04 25.62 0.5

91 ago-06 3 2401235 21208642 0.082 92 215 2.40 3.30 23.11 26.86 0.5

92 sep-06 3 40000 500000 0.026 79 136 2.06 3.02 19.68 23.36 0.7

93 oct-06 3 5000 24000 0.055 155 280 1.76 2.56 16.88 19.15 0.5

101



63 abr-04 3 0.010 2.5 1.0 123 39 388 16.47 7.37 111.07 388 6.74

64 may-04 3 0.010 0.3 1.0 136 70 415 21.90 6.16 94.70 395 7.03

65 jun-04 3 0.010 2.2 0.3 46 22 319 20.80 7.90 68.20 437 6.68

66 jul-04 3 0.010 3.3 0.5 57 40 331 13.30 9.80 66.40 373 6.95

67 ago-04 3 0.010 2.6 1.5 153 133 267 23.80 2.40 49.00 409 7.13

68 sep-04 3 0.010 3.0 1.1 177 14 481 20.40 1.00 94.30 600 6.71

69 oct-04 3 0.010 1.9 0.3 325 140 449 30.70 8.50 177.00 398 6.98

70 nov-04 3 0.050 2.1 0.1 63 17 314 27.00 5.60 36.80 499 6.94

71 dic-04 3 0.010 3.0 2.0 324 182 660 29.80 10.80 112.00 543 7.31

72 ene-05 3 0.030 2.5 0.2 89 42 408 19.20 17.90 48.50 568 7.06

73 feb-05 3 0.010 2.4 0.4 90 26 409 34.30 11.00 44.90 475 7.28

74 mar-05 3 0.010 2.6 0.3 57 26 334 19.90 12.10 31.60 555 7.10

75 abr-05 3 0.010 2.4 0.8 160 104 472 28.40 3.60 105.00 642 6.78

76 may-05 3 0.010 2.4 0.1 92 36 404 23.54 4.30 76.00 291 7.10

77 jun-05 3 0.010 2.5 8.0 350 126 405 24.08 4.30 85.00 403 7.44

78 jul-05 3 0.010 2.4 0.1 12 6 244 11.00 0.60 10.50 573 6.99

79 ago-05 3 0.010 2.4 2.5 178 92 394 22.79 3.70 75.20 399 6.90

80 sep-05 3 0.008 3.1 1.0 127 25 425 12.61 3.00 61.80 506 6.58

81 oct-05 3 0.160 0.4 0.1 119 58 311 8.70 1.60 107.00 349 6.69

82 nov-05 3 0.160 0.7 0.1 50 43 307 23.60 3.20 32.00 485 7.10

83 dic-05 3 0.160 0.4 0.6 217 119 441 24.90 8.90 250.00 505 7.07

84 ene-06 3 0.160 0.5 0.5 270 93 478 27.40 2.30 228.00 415 7.02

85 feb-06 3 0.160 0.5 0.1 66 64 400 31.20 8.40 67.00 567 6.98

86 mar-06 3 0.160 0.5 0.8 142 106 497 23.00 4.60 136.00 614 6.87

87 abr-06 3 0.160 1.6 0.5 109 56 393 16.20 7.50 61.00 607 6.73

88 may-06 3 0.050 2.5 0.1 24 12 265 13.43 3.20 79.00 434 6.79

89 jun-06 3 0.005 4.1 0.3 165 149 451 21.04 2.87 64.00 437 6.75

90 jul-06 3 0.131 1.2 0.3 129 78 394 21.05 4.73 113.78 490 6.89

91 ago-06 3 0.010 1.3 0.4 130 80 403 22.42 5.08 114.53 506 6.91

92 sep-06 3 0.005 3.3 0.8 76 36 369 4.82 5.00 29.30 412 6.44

93 oct-06 3 0.005 1.8 0.5 56 32 315 16.25 2.15 60.82 577 6.49

102




94 abr-04 4 350000 626667 0.017 19 79 3.45 3.90 23.44 28.64 0.2

95 may-04 4 130000 220000 0.010 27 198 2.53 4.11 14.58 18.43 0.2

96 jun-04 4 20000 20000 0.010 23 144 2.34 2.63 14.00 16.92 0.2

97 jul-04 4 1600000 1600000 0.010 19 63 2.12 2.64 13.92 16.83 0.2

98 ago-04 4 1600000 1600000 0.010 18 204 1.90 2.22 13.89 20.30 0.2

99 sep-04 4 2700 17000 0.020 12 57 1.62 2.71 13.40 19.88 0.2

100 oct-04 4 8000 1600000 0.020 19 84 2.04 2.94 13.61 18.84 0.2

101 nov-04 4 110000 110000 0.010 15 50 1.13 2.96 11.56 12.18 0.2

102 dic-04 4 260000 260000 0.010 10 157 1.73 2.34 11.66 13.33 0.2

103 ene-05 4 1600000 1600000 0.010 43 109 2.51 4.82 25.68 28.11 0.2

104 feb-05 4 300000 300000 0.010 54 97 3.17 5.09 23.33 25.19 0.2

105 mar-05 4 700000 700000 0.010 32 92 3.27 4.90 23.33 24.46 0.2

106 abr-05 4 24000000 721139 0.010 29 99 3.68 3.69 17.50 42.00 0.2

107 may-05 4 15000 729012 0.010 29 110 3.13 3.46 22.20 21.93 0.2

108 jun-05 4 9300 771429 0.010 22 113 2.52 3.42 17.00 21.42 0.2

109 jul-05 4 1700 834048 0.010 27 53 2.47 2.80 28.70 44.20 0.2

110 ago-05 4 4600 770219 0.010 54 107 2.64 3.41 17.90 23.29 0.2

111 sep-05 4 1550 19500 0.011 18 50 0.81 2.11 11.94 15.90 0.4

112 oct-05 4 150000 1100000 0.080 31 68 2.90 3.12 25.00 30.10 0.2

113 nov-05 4 1500 2100 0.080 16 53 2.47 2.54 14.20 22.50 0.2

114 dic-05 4 2400000 2400000 0.080 15 54 2.18 2.61 20.00 23.30 0.2

115 ene-06 4 90000 230000 0.080 30 113 2.61 5.90 21.20 24.10 0.2

116 feb-06 4 1500 2100 0.080 28 52 2.90 3.02 36.40 39.80 0.2

117 mar-06 4 900 2000 0.080 45 164 3.48 5.22 34.00 36.10 0.2

118 abr-06 4 430000 9300000 0.080 26 33 3.76 4.53 33.40 36.90 0.2

119 may-06 4 2600 22000 0.007 70 164 1.34 2.43 16.93 19.23 0.9

120 jun-06 4 5600 38000 0.001 86 138 1.06 1.92 8.32 11.51 2.1

121 jul-06 4 30 1600 0.001 96 194 0.64 0.80 7.76 9.50 0.5

122 ago-06 4 110 1600 0.001 34 60 0.67 0.83 8.65 10.09 0.6

123 sep-06 4 400 22000 0.001 24 42 0.01 1.50 10.48 11.91 0.6

124 oct-06 4 2 1600 0.001 80 155 0.60 0.95 6.20 8.15 0.3

103



94 abr-04 4 0.010 2.7 0.1 8 3 280 9.03 2.87 13.33 444 6.67

95 may-04 4 0.010 0.4 4.0 81 68 934 18.40 5.24 101.00 406 6.92

96 jun-04 4 0.010 2.4 0.4 23 7 301 17.70 4.10 40.30 370 6.93

97 jul-04 4 0.010 3.0 0.5 6 3 227 13.90 9.70 14.10 342 6.83

98 ago-04 4 0.010 2.3 12.0 156 104 342 16.90 5.00 80.90 337 7.02

99 sep-04 4 0.010 2.4 0.1 11 3 186 12.40 1.00 8.80 424 6.75

100 oct-04 4 0.010 2.2 0.1 36 9 239 5.60 7.90 15.60 459 6.65

101 nov-04 4 0.050 1.7 0.1 16 10 200 15.60 3.70 11.70 350 6.58

102 dic-04 4 0.010 2.1 0.1 27 11 217 16.50 3.90 22.50 305 7.01

103 ene-05 4 0.070 2.3 0.2 22 17 337 13.70 11.00 13.30 504 6.95

104 feb-05 4 0.010 3.0 0.1 28 11 272 8.40 9.00 11.30 522 6.72

105 mar-05 4 0.010 2.2 0.5 24 9 306 22.00 9.30 13.30 508 7.09

106 abr-05 4 0.010 2.2 0.1 26 16 378 19.90 3.40 29.00 603 7.21

107 may-05 4 0.010 2.2 0.1 20 15 325 14.62 4.00 6.20 418 7.05

108 jun-05 4 0.010 2.3 0.1 4 3 328 15.05 3.60 1.90 441 7.09

109 jul-05 4 0.010 2.3 0.1 11 3 196 10.80 1.50 10.60 525 7.03

110 ago-05 4 0.010 2.3 0.1 8 4 317 14.41 2.40 6.60 383 6.89

111 sep-05 4 0.008 2.4 0.1 8 3 206 7.20 1.41 7.46 388 6.75

112 oct-05 4 0.160 0.7 0.1 11 9 256 5.90 2.70 15.40 517 6.82

113 nov-05 4 0.160 0.8 0.1 16 13 243 15.20 2.20 13.90 433 7.04

114 dic-05 4 0.160 0.5 0.1 16 13 257 5.80 2.90 21.10 434 6.79

115 ene-06 4 0.160 0.8 0.1 17 15 273 8.30 5.10 17.80 490 6.91

116 feb-06 4 0.160 0.8 0.1 11 10 280 17.00 2.50 14.30 567 7.04

117 mar-06 4 0.160 0.7 0.1 15 12 286 10.10 1.40 18.40 638 6.80

118 abr-06 4 0.160 1.7 0.1 15 12 268 15.00 4.20 16.60 559 6.64

119 may-06 4 0.005 2.7 0.1 49 42 295 9.73 1.00 20.20 452 6.83

120 jun-06 4 0.005 3.3 0.1 37 32 184 2.06 1.55 10.06 184 6.74

121 jul-06 4 0.005 1.0 0.1 15 12 137 6.70 3.10 16.40 226 6.91

122 ago-06 4 0.005 1.8 0.3 15 12 166 2.92 2.53 6.20 273 6.37

123 sep-06 4 0.005 2.4 0.1 4 2 225 1.99 1.81 6.12 351 6.74

124 oct-06 4 0.005 0.9 0.1 10 5 200 6.80 2.20 11.40 331 6.74

104




125 abr-04 5 620000 1600000 0.013 37 108 3.18 3.40 24.77 29.23 0.2

126 may-04 5 1600000 1600000 0.010 23 140 2.07 3.59 15.08 16.10 0.2

127 jun-04 5 200000 360000 0.010 16 74 2.08 3.05 12.92 18.78 0.2

128 jul-04 5 1600000 1600000 0.010 41 94 2.47 3.02 16.24 18.64 0.2

129 ago-04 5 260000 1600000 0.010 22 72 2.26 2.81 14.30 17.75 0.2

130 sep-04 5 23000 1600000 0.070 72 349 2.31 4.16 18.16 26.96 0.2

131 oct-04 5 1600000 1600000 0.020 23 84 1.79 3.82 15.03 21.34 0.2

132 nov-04 5 1100000 1600000 0.010 15 71 1.48 2.87 9.64 14.89 0.2

133 dic-04 5 1600000 1600000 0.010 58 144 2.71 4.11 18.04 21.81 0.2

134 ene-05 5 1600000 1600000 0.010 39 99 1.72 4.89 24.17 24.46 0.2

135 feb-05 5 1600000 1600000 0.010 41 100 3.19 5.18 22.11 23.84 0.2

136 mar-05 5 1600000 1600000 0.020 69 116 2.80 5.00 23.73 24.36 0.2

137 abr-05 5 24000000 1600000 0.010 49 150 3.14 3.54 21.80 42.00 0.2

138 may-05 5 15000 1600000 0.010 43 123 2.97 3.80 17.10 23.09 0.2

139 jun-05 5 24000 1600000 0.010 35 124 2.73 3.83 19.70 22.62 0.2

140 jul-05 5 500 1600000 0.020 28 69 3.06 3.19 26.70 43.40 0.2

141 ago-05 5 11000000 1600000 0.020 43 120 3.16 3.77 18.60 24.33 0.2

142 sep-05 5 13500 830000 0.036 52 202 1.31 3.27 15.42 20.78 0.6

143 oct-05 5 24000000 24000000 0.080 30 66 3.10 3.48 23.90 30.80 0.2

144 nov-05 5 930 4600 0.080 35 79 2.24 2.92 12.30 19.20 0.2

145 dic-05 5 2400000 2400000 0.080 25 66 1.69 2.10 20.30 23.00 0.2

146 ene-06 5 430000 930000 0.800 24 91 2.40 5.29 21.40 24.30 0.2

147 feb-06 5 9000 28000 0.080 73 140 2.83 3.37 29.20 32.20 0.2

148 mar-06 5 9000 21000 0.080 50 174 3.49 4.84 30.40 32.30 0.2

149 abr-06 5 930000 2400000 0.080 37 77 3.42 4.02 32.90 38.30 0.2

150 may-06 5 2300 13000 0.010 80 183 2.15 3.65 16.38 18.87 1.0

151 jun-06 5 5600 25000 0.005 98 158 1.60 2.72 12.75 14.81 2.0

152 jul-06 5 900 30000 0.001 73 140 1.35 1.85 14.41 18.36 0.9

153 ago-06 5 1100 30000 0.001 86 155 0.46 1.05 12.00 13.66 0.4

154 sep-06 5 4000 60000 0.001 32 55 0.31 2.38 12.68 14.60 1.1

155 oct-06 5 8000 50000 0.001 63 138 0.95 1.93 12.80 13.20 0.4

105



125 abr-04 5 0.010 2.6 0.1 30 11 290 12.23 2.73 26.30 434 6.69

126 may-04 5 0.010 0.4 0.7 14 8 270 9.60 3.09 32.90 405 6.89

127 jun-04 5 0.010 2.4 0.1 23 10 238 19.10 3.80 25.20 384 7.00

128 jul-04 5 0.010 3.5 0.1 20 8 261 8.30 2.40 28.30 367 6.85

129 ago-04 5 0.010 2.4 0.1 33 23 195 15.50 1.00 14.70 357 7.09

130 sep-04 5 0.010 2.6 1.0 107 72 303 10.60 1.00 39.10 498 6.88

131 oct-04 5 0.010 2.3 0.1 39 36 251 12.20 11.70 27.10 473 6.71

132 nov-04 5 0.050 1.9 0.1 40 26 230 14.50 6.30 30.90 424 7.13

133 dic-04 5 0.010 2.7 0.1 28 6 319 32.70 10.60 60.10 422 7.14

134 ene-05 5 0.040 2.2 0.1 22 11 310 10.10 12.30 13.10 478 7.20

135 feb-05 5 0.010 2.8 0.1 38 12 318 13.00 13.00 16.80 490 6.87

136 mar-05 5 0.010 2.6 0.4 36 16 214 25.50 11.70 17.20 533 7.05

137 abr-05 5 0.050 1.9 0.1 33 32 380 20.10 3.70 40.00 587 7.30

138 may-05 5 0.010 2.7 0.1 15 11 275 15.65 3.80 12.00 423 7.04

139 jun-05 5 0.040 2.2 0.1 3 1 274 15.91 4.10 3.40 453 6.94

140 jul-05 5 0.010 2.8 0.1 11 5 246 17.00 1.50 20.08 603 6.78

141 ago-05 5 0.010 2.6 0.1 24 16 273 15.75 5.60 14.90 439 6.71

142 sep-05 5 0.008 2.5 0.6 59 40 288 6.46 1.06 24.75 449 6.78

143 oct-05 5 0.160 0.8 0.1 17 11 279 19.70 4.90 9.72 503 6.87

144 nov-05 5 0.160 0.8 0.3 20 17 231 5.30 2.70 27.40 440 6.72

145 dic-05 5 0.160 0.4 0.1 22 16 243 16.90 2.50 22.40 458 6.90

146 ene-06 5 0.160 0.6 0.1 26 21 277 9.70 7.40 31.70 486 6.97

147 feb-06 5 0.160 0.5 0.1 22 21 300 29.60 2.50 23.40 617 7.04

148 mar-06 5 0.160 0.6 0.1 19 17 277 17.70 3.10 22.30 651 6.88

149 abr-06 5 0.160 1.6 0.1 28 21 278 30.10 5.20 21.80 573 6.61

150 may-06 5 0.005 2.3 0.4 57 12 306 21.17 3.50 70.00 449 6.69

151 jun-06 5 0.005 2.6 0.1 52 42 276 3.22 2.85 40.00 401 7.03

152 jul-06 5 0.005 1.8 0.1 14 12 211 6.05 2.45 14.90 361 6.93

153 ago-06 5 0.005 1.9 0.1 15 13 216 3.03 1.78 13.70 380 6.60

154 sep-06 5 0.005 2.5 0.1 11 8 272 2.32 1.12 10.40 400 6.67

155 oct-06 5 0.005 1.9 0.1 20 10 260 5.20 1.80 15.20 412 6.81

106




156 abr-04 6 846667 1233333 0.017 32 169 2.55 4.58 24.77 27.33 0.2

157 may-04 6 140000 140000 0.010 21 106 2.30 3.39 15.66 16.20 0.2

158 jun-04 6 330000 330000 0.010 12 43 2.07 2.86 13.17 17.32 0.2

159 jul-04 6 1600000 1600000 0.010 35 86 2.24 2.73 14.67 18.00 0.2

160 ago-04 6 400000 800000 0.010 22 72 2.10 2.55 13.97 15.77 0.2

161 sep-04 6 4 1600 0.020 18 63 1.82 3.16 14.63 19.99 0.2

162 oct-04 6 1600000 1600000 0.020 18 86 1.69 2.27 11.69 21.45 0.2

163 nov-04 6 1600000 1600000 0.010 12 61 1.55 2.98 15.05 15.98 0.2

164 dic-04 6 1600000 1600000 0.010 23 117 2.36 3.50 15.71 18.58 0.2

165 ene-05 6 1600000 1600000 0.030 82 151 2.57 5.46 25.43 28.21 0.2

166 feb-05 6 1600000 1600000 0.010 53 102 3.16 4.84 22.11 24.99 0.2

167 mar-05 6 1600000 1600000 0.040 98 220 3.35 6.17 23.43 27.90 0.2

168 abr-05 6 24000000 1600000 0.010 52 151 3.34 3.83 25.90 56.00 0.2

169 may-05 6 23000 1600000 0.010 38 110 3.22 3.72 23.20 23.67 0.2

170 jun-05 6 15000 1600000 0.030 23 105 2.36 3.65 19.00 23.39 0.2

171 jul-05 6 2400 1600000 0.010 28 60 3.11 3.33 29.80 39.70 0.2

172 ago-05 6 24000 1600000 0.040 27 106 2.82 3.69 17.60 24.66 0.2

173 sep-05 6 202 8800 0.011 26 62 1.26 2.50 13.11 16.63 0.6

174 oct-05 6 40000 150000 0.080 28 54 6.10 6.46 21.50 27.20 0.2

175 nov-05 6 1500 4600 0.080 34 82 2.26 3.08 13.30 18.60 0.2

176 dic-05 6 2400000 2400000 0.080 29 100 2.16 3.27 21.20 24.50 0.2

177 ene-06 6 430000 2400000 0.080 39 111 2.25 3.06 19.60 25.30 0.2

178 feb-06 6 4000 7000 0.080 48 120 1.09 3.24 34.80 37.60 0.2

179 mar-06 6 4000 9000 0.080 77 248 3.55 3.59 34.90 36.00 0.2

180 abr-06 6 280000 6400000 0.080 23 61 3.61 4.24 33.30 38.90 0.2

181 may-06 6 8000 50000 0.007 22 79 1.87 2.67 17.47 19.88 0.9

182 jun-06 6 395938 1427575 0.071 38 107 2.86 3.70 24.51 28.50 0.3

183 jul-06 6 440430 1587272 0.070 39 113 2.46 3.36 24.88 28.66 0.3

184 ago-06 6 495296 1785106 0.068 39 117 2.48 3.39 26.33 29.92 0.3

185 sep-06 6 400 16000 0.001 34 60 0.70 1.85 11.58 13.26 1.0

186 oct-06 6 2 11 0.001 55 68 1.67 2.26 9.15 12.80 0.5

107



156 abr-04 6 0.010 3.3 1.1 134 74 405 12.63 7.77 147.07 436 6.66

157 may-04 6 0.010 0.4 0.1 24 18 246 10.60 8.15 16.90 416 6.83

158 jun-04 6 0.010 2.3 0.1 15 6 230 16.60 2.20 19.10 371 7.00

159 jul-04 6 0.010 3.0 0.1 18 13 250 13.50 2.30 27.90 333 6.87

160 ago-04 6 0.010 2.5 0.1 17 13 192 13.70 1.00 7.90 339 7.17

161 sep-04 6 0.010 2.4 0.1 30 14 218 16.20 1.00 10.60 450 6.71

162 oct-04 6 0.010 2.3 0.1 60 3 245 24.70 6.90 33.90 455 7.03

163 nov-04 6 0.050 2.0 0.1 40 16 233 13.40 5.90 26.80 435 6.67

164 dic-04 6 0.010 2.6 1.3 24 8 312 27.20 15.90 41.60 369 7.05

165 ene-05 6 0.010 2.3 4.0 60 26 391 8.20 15.50 26.40 517 7.17

166 feb-05 6 0.010 2.7 0.2 58 10 318 11.50 13.30 16.90 482 6.94

167 mar-05 6 0.010 2.7 10.0 88 60 166 29.40 4.20 109.00 530 6.70

168 abr-05 6 0.010 2.4 0.5 47 30 360 21.40 3.90 50.00 581 6.98

169 may-05 6 0.010 2.3 0.1 22 10 274 16.85 4.40 5.70 422 6.95

170 jun-05 6 0.010 2.5 0.1 4 2 264 17.17 4.40 2.80 440 6.95

171 jul-05 6 0.010 2.5 0.1 10 6 249 17.30 2.60 14.40 612 6.88

172 ago-05 6 0.010 2.4 0.1 12 6 272 16.90 2.20 8.70 438 6.77

173 sep-05 6 0.008 2.5 0.6 26 13 235 9.08 1.63 12.30 412 6.65

174 oct-05 6 0.160 0.8 0.1 13 11 256 10.40 2.70 9.50 514 6.82

175 nov-05 6 0.160 0.6 0.1 22 19 223 15.30 1.80 30.60 456 6.76

176 dic-05 6 0.160 0.4 1.0 64 44 281 18.20 5.60 57.30 445 6.86

177 ene-06 6 0.160 0.3 0.1 23 21 286 6.30 3.60 26.90 487 7.00

178 feb-06 6 0.160 0.4 0.1 13 12 310 35.60 5.20 18.30 565 6.93

179 mar-06 6 0.160 0.5 0.1 36 20 374 22.20 4.20 41.10 651 6.95

180 abr-06 6 0.160 1.7 0.1 40 37 274 15.40 4.80 28.90 575 6.85

181 may-06 6 0.005 2.6 0.1 15 10 264 7.09 1.50 10.15 457 6.66

182 jun-06 6 0.141 0.9 0.1 28 22 284 16.31 3.68 27.84 519 6.85

183 jul-06 6 0.138 0.9 0.1 30 23 287 17.05 3.80 30.14 519 6.86

184 ago-06 6 0.135 1.0 0.1 31 24 295 17.27 4.05 30.08 527 6.87

185 sep-06 6 0.005 2.6 1.0 21 11 251 1.96 2.25 14.00 374 6.59

186 oct-06 6 0.005 1.6 0.1 15 5 175 5.35 1.60 12.80 386 6.62

108




187 abr-04 7 1366667 1600000 0.047 50 127 2.70 3.67 22.78 26.70 0.2

188 may-04 7 1600000 1600000 0.010 18 103 2.13 3.19 15.33 20.12 0.2

189 jun-04 7 40000 70000 0.020 16 46 2.15 2.67 13.92 17.62 0.2

190 jul-04 7 1600000 1600000 0.010 31 109 2.51 2.60 15.58 19.45 0.2

191 ago-04 7 400000 1600000 0.010 15 78 2.19 2.59 14.05 17.02 0.2

192 sep-04 7 11000 900000 0.020 26 79 1.78 3.37 15.78 21.45 0.2

193 oct-04 7 1600000 1600000 0.030 25 92 1.51 2.08 10.98 20.09 0.2

194 nov-04 7 1600000 1600000 0.030 44 121 1.48 2.86 14.50 18.32 0.2

195 dic-04 7 1600000 1600000 0.010 64 148 2.70 4.16 17.58 23.06 0.2

196 ene-05 7 1600000 1600000 0.030 86 153 2.49 5.25 26.70 28.42 0.2

197 feb-05 7 1600000 1600000 0.010 73 143 2.66 4.59 19.41 23.53 0.2

198 mar-05 7 1600000 1600000 0.010 66 116 2.98 5.07 25.25 27.48 0.2

199 abr-05 7 24000000 1600000 0.030 36 139 3.78 3.85 26.80 28.00 0.2

200 may-05 7 24000 1600000 0.010 47 112 2.65 3.53 20.40 22.40 0.2

201 jun-05 7 46000 1600000 0.030 32 111 2.64 3.52 19.50 22.07 0.2

202 jul-05 7 110000 1600000 0.010 23 61 2.90 3.25 19.50 29.40 0.3

203 ago-05 7 93000 1600000 0.010 35 109 3.01 3.52 20.30 22.82 0.2

204 sep-05 7 6150 495000 0.044 32 71 1.35 2.73 13.96 17.90 0.7

205 oct-05 7 93000 240000 0.080 21 80 3.10 3.36 21.80 25.00 0.2

206 nov-05 7 150 1500 0.080 26 131 2.58 2.63 15.60 22.80 0.2

207 dic-05 7 1500000 9300000 0.080 44 95 2.20 3.96 20.40 22.30 0.2

208 ene-06 7 230000 430000 0.080 36 149 1.99 2.83 17.30 23.50 0.2

209 feb-06 7 7000 28000 0.080 76 175 1.19 3.66 36.80 40.10 0.2

210 mar-06 7 4000 21000 0.080 54 204 4.01 4.46 26.70 28.50 0.2

211 abr-06 7 4300000 240000000 0.080 65 149 3.58 3.90 31.90 38.00 0.2

212 may-06 7 26000 1400000 0.012 46 101 1.02 2.38 14.20 16.22 1.1

213 jun-06 7 770019 31427563 0.072 46 136 2.46 3.40 23.09 27.05 0.3

214 jul-06 7 854646 35326008 0.070 49 142 2.38 3.40 23.25 27.31 0.3

215 ago-06 7 961458 39741571 0.069 52 144 2.35 3.50 24.20 27.87 0.3

216 sep-06 7 1300 90000 0.068 37 63 0.91 2.09 12.14 14.34 1.1

217 oct-06 7 170000 500000 0.066 40 70 0.74 2.60 10.53 10.80 0.5

109



187 abr-04 7 0.013 2.6 0.7 62 32 335 14.53 4.97 67.73 415 6.58

188 may-04 7 0.010 0.4 0.1 22 18 264 11.50 5.24 23.40 410 6.88

189 jun-04 7 0.010 2.4 0.1 11 7 242 14.70 7.40 19.90 407 7.05

190 jul-04 7 0.010 3.1 0.3 60 47 244 14.40 0.70 22.70 350 6.93

191 ago-04 7 0.010 2.4 0.1 20 8 196 13.70 1.00 7.40 334 7.11

192 sep-04 7 0.010 2.5 0.1 16 2 228 15.80 1.00 12.70 461 6.87

193 oct-04 7 0.010 2.2 0.2 66 4 274 26.60 8.20 43.40 445 6.86

194 nov-04 7 0.050 1.9 0.1 62 30 286 9.70 5.80 40.10 436 7.01

195 dic-04 7 0.010 2.8 1.0 40 33 342 31.20 8.50 56.20 406 7.14

196 ene-05 7 0.030 2.3 0.6 42 4 372 7.10 12.20 22.90 524 7.21

197 feb-05 7 0.010 2.6 0.6 62 24 368 19.50 11.10 31.50 491 7.05

198 mar-05 7 0.010 2.6 0.1 40 19 308 20.00 11.00 19.90 542 6.79

199 abr-05 7 0.050 2.3 0.1 210 124 504 22.60 4.30 57.00 620 6.77

200 may-05 7 0.010 2.3 0.1 32 25 305 17.03 4.40 18.00 375 7.03

201 jun-05 7 0.030 2.5 0.1 4 3 303 17.22 4.60 3.40 456 6.84

202 jul-05 7 0.010 2.5 0.1 13 3 250 10.30 1.10 12.20 586 6.90

203 ago-05 7 0.010 2.4 0.1 40 15 301 16.62 4.20 15.10 432 6.80

204 sep-05 7 0.008 2.5 0.1 14 5 241 8.93 1.08 11.01 422 6.68

205 oct-05 7 0.160 0.8 0.1 15 14 270 12.90 4.80 13.40 506 6.80

206 nov-05 7 0.160 0.7 0.5 25 23 256 4.20 1.50 20.50 460 7.04

207 dic-05 7 0.160 0.5 0.1 32 30 276 20.70 2.80 34.00 410 6.91

208 ene-06 7 0.160 0.4 0.3 38 27 264 16.00 2.30 56.90 390 6.87

209 feb-06 7 0.160 0.6 0.1 28 23 327 31.70 6.20 28.70 537 6.99

210 mar-06 7 0.160 0.7 0.1 26 19 386 18.30 3.90 27.90 648 6.84

211 abr-06 7 0.160 1.6 0.1 46 38 313 12.00 3.60 42.30 300 6.77

212 may-06 7 0.050 2.4 0.6 64 8 304 13.92 2.50 107.00 414 6.91

213 jun-06 7 0.146 1.0 0.2 34 9 300 16.22 3.45 41.34 458 6.89

214 jul-06 7 0.145 1.0 0.3 37 8 303 16.63 3.28 44.83 452 6.90

215 ago-06 7 0.143 1.0 0.2 38 13 309 18.18 3.50 47.87 451 6.89

216 sep-06 7 0.005 2.5 0.1 11 7 254 2.05 1.16 9.32 382 6.48

217 oct-06 7 0.005 1.8 0.1 15 8 280 3.00 2.10 10.55 447 6.72

110

ANEXO 2

GRÁFICAS. ANÁLISIS TEMPORAL Y ESPACIAL DE ALGUNOS PARÁMETROS

FISICOQUÍMICOS

111

Gráfica 13. Comportamiento temporal de los Colifor mes fecales por estación de monitoreo

0

500000

1000000

1500000

2000000

2500000

3000000

abr-

04

jul-

04

oct

-04

ene-

05

abr-

05

jul-

05

oct

-05

ene-

06

abr-

06

jul-

06

oct

-06

NM

P/1

00

ml

PERIODO DE MUESTREO

ESTACION DE MONITOREO 1

C. FECALES

0

5000000

10000000

15000000

20000000

25000000

30000000

abr-

04

jul-

04

oct

-04

ene-

05

abr-

05

jul-

05

oct

-05

ene-

06

abr-

06

jul-

06

oct

-06

NM

P/1

00

ml

PERIODO DE MUESTREO


C. FECALES

0

5000000

10000000

15000000

20000000

25000000

30000000

abr-

04

jul-

04

oct

-04

ene

-05

abr-

05

jul-

05

oct

-05

ene

-06

abr-

06

jul-

06

oct

-06

NM

P/1

00

ml

PERIODO DE MUESTREO


C. FECALES

0

5000000

10000000

15000000

20000000

25000000

30000000

abr-

04

jul-

04

oct

-04

ene

-05

abr-

05

jul-

05

oct

-05

ene

-06

abr-

06

jul-

06

oct

-06

NM

P/1

00

ml

PERIODO DE MUESTREO


C. FECALES

112

0

5000000

10000000

15000000

20000000

25000000

30000000

abr-

04

jul-

04

oct

-04

ene-

05

abr-

05

jul-

05

oct

-05

ene-

06

abr-

06

jul-

06

oct

-06

NM

P/1

00

ml

PERIODO DE MUESTREO


C. FECALES

0

5000000

10000000

15000000

20000000

25000000

30000000

abr-

04

jul-

04

oct

-04

ene-

05

abr-

05

jul-

05

oct

-05

ene-

06

abr-

06

jul-

06

oct

-06

NM

P/1

00

ml

PERIODO DE MUESTREO


C. FECALES

0

5000000

10000000

15000000

20000000

25000000

30000000

abr-

04

jul-

04

oct

-04

en

e-0

5

abr-

05

jul-

05

oct

-05

en

e-0

6

abr-

06

jul-

06

oct

-06

NM

P/1

00

ml

PERIODO DE MUESTREO


C. FECALES

113

Gráfica 14. Comportamiento temporal del DQO por es tación de monitoreo

0

50

100

150

200ab

r-0

4

jul-

04

oct

-04

en

e-0

5

abr-

05

jul-

05

oct

-05

en

e-0

6

abr-

06

jul-

06

oct

-06

mg\

L

PERIODO DE MUESTREO


DQO 050

100150200250300

abr-

04

jul-

04

oct

-04

en

e-0

5

abr-

05

jul-

05

oct

-05

en

e-0

6

abr-

06

jul-

06

oct

-06

mg\

L

PERIODO DE MUESTREO


DQO

0

100

200

300

400

500

abr-

04

jul-

04

oct

-04

en

e-0

5

abr-

05

jul-

05

oct

-05

en

e-0

6

abr-

06

jul-

06

oct

-06

mg\

L

PERIODO DE MUESTREO


DQO 0

100

200

300

abr-

04

jul-

04

oct

-04

en

e-0

5

abr-

05

jul-

05

oct

-05

en

e-0

6

abr-

06

jul-

06

oct

-06

mg\

L

PERIODO DE MUESTREO


DQO

114

0100200300400

abr-

04

jul-

04

oct

-04

en

e-0

5

abr-

05

jul-

05

oct

-05

en

e-0

6

abr-

06

jul-

06

oct

-06

mg\

L

PERIODO DE MUESTREO


DQO 0

100

200

300

abr-

04

jul-

04

oct

-04

en

e-0

5

abr-

05

jul-

05

oct

-05

en

e-0

6

abr-

06

jul-

06

oct

-06

mg\

L

PERIODO DE MUESTREO


DQO

0

100

200

300

abr-

04

jul-

04

oct

-04

ene-

05

abr-

05

jul-

05

oct

-05

ene-

06

abr-

06

jul-

06

oct

-06

mg\

L

PERIODO DE MUESTREO


DQO

115

Gráfica 15. Comportamiento temporal del Oxígeno di suelto por estación de monitoreo

0,0

0,5

1,0

1,5

2,0

2,5ab

r-0

4

jul-

04

oct

-04

ene-

05

abr-

05

jul-

05

oct

-05

ene-

06

abr-

06

jul-

06

oct

-06

mg\

L

PERIODO DE MUESTREO


O. DISUELTO

0,0

0,5

1,0

1,5

2,0

2,5

abr-

04

jul-

04

oct

-04

ene-

05

abr-

05

jul-

05

oct

-05

ene-

06

abr-

06

jul-

06

oct

-06

mg\

L

PERIODO DE MUESTREO


O. DISUELTO

0,0

0,5

1,0

1,5

2,0

2,5

3,0

abr-

04

jul-

04

oct

-04

ene-

05

abr-

05

jul-

05

oct

-05

ene-

06

abr-

06

jul-

06

oct

-06

mg\

L

PERIODO DE MUESTREO


O. DISUELTO

0,0

0,5

1,0

1,5

2,0

2,5

abr-

04

jul-

04

oct

-04

ene-

05

abr-

05

jul-

05

oct

-05

ene-

06

abr-

06

jul-

06

oct

-06

mg\

L

PERIODO DE MUESTREO


O. DISUELTO

116

0,0

0,5

1,0

1,5

2,0

2,5

abr-

04

jul-

04

oct

-04

ene-

05

abr-

05

jul-

05

oct

-05

ene-

06

abr-

06

jul-

06

oct

-06

mg\

L

PERIODO DE MUESTREO


O. DISUELTO

0,0

0,2

0,4

0,6

0,8

1,0

1,2

abr-

04

jul-

04

oct

-04

ene-

05

abr-

05

jul-

05

oct

-05

ene-

06

abr-

06

jul-

06

oct

-06

mg\

L

PERIODO DE MUESTREO


O. DISUELTO

0,0

0,2

0,4

0,6

0,8

1,0

1,2

abr-

04

jul-

04

oct

-04

ene-

05

abr-

05

jul-

05

oct

-05

ene-

06

abr-

06

jul-

06

oct

-06

mg\

L

PERIODO DE MUESTREO


O. DISUELTO

117

Gráfica 16. Análisis espacial – comportamiento de los parámetros fisicoquímicos por estación de monit oreo

0,000

5,000

10,000

15,000

20,000

25,000

1 2 3 4 5 6 7

PR

OM

EDIO


ANÁLISIS ESPACIAL

SULFATOS mg/L

1,700

1,750

1,800

1,850

1,900

1,950

2,000

2,050

1 2 3 4 5 6 7

PR

OM

EDIO


ANÁLISIS ESPACIAL

RAS mg/l

400,000410,000420,000

430,000440,000

450,000460,000470,000

480,000490,000

1 2 3 4 5 6 7

PR

OM

EDIO

ms


ANÁLISIS ESPACIAL

CONDUCTIVIDAD

2,800

2,900

3,000

3,100

3,200

3,300

3,400

3,500

3,600

1 2 3 4 5 6 7

PR

OM

EDIO


ANÁLISIS ESPACIAL

FÓSFORO TOTAL mg/l

118

1,900

2,000

2,100

2,200

2,300

2,400

2,500

2,600

1 2 3 4 5 6 7

PR

OM

EDIO


ANÁLISIS ESPACIAL

ORTOFOSFATO mg/l

17,000

17,500

18,000

18,500

19,000

19,500

20,000

20,500

21,000

1 2 3 4 5 6 7

PR

OM

EDIO


ANÁLISIS ESPACIAL

N. AMONIACAL mg/l

0,000

1,000

2,000

3,000

4,000

5,000

6,000

7,000

1 2 3 4 5 6 7

PR

OM

EDIO


ANÁLISIS ESPACIAL

SULFUROS mg/l

20,000

21,000

22,000

23,000

24,000

25,000

26,000

27,000

1 2 3 4 5 6 7

PR

OM

EDIO


ANÁLISIS ESPACIAL

N. KJELDAHL mg/l

119

ANEXO 3

HISTOGRAMAS DE LOS PARÁMETROS FISICOQUÍMICO

SIN TRANSFORMACIÓN LOGARITMICA

120

121

ANEXO 4

HISTOGRAMAS CON TRANSFORMACIÓN LOGARITMICA

122

123

ANEXO 5

GRAFICA. COMPONENTES vs COMPONENTES

124

125

ANEXO 6

MATRIZ DE CORRELACIÓN DEL ACP DE LA FASE 2 Y 3

126

Tabla 21. Fase 2: Matriz de correlación - ACP méto do estadístico convencional - se retiró los colifor mes fecales y totales


CROMO -0.5916 -0.5383 -0.6944 -0.547 -0.6374 -0.6845 -0.6976 0.4117 -0.3848 0.202 DBO5 0.1363 -0.4399 -0.4499 0.4191 0.3938 0.5495 0.5126 -0.4947 0.4254 -0.3158 DQO 0.5906 0.1427 0.0047 -0.2798 -0.3156 -0.0212 -0.0986 0.241 0.7106 -0.7353 ORTOFOSFATOS -0.0798 0.4859 0.1487 -0.0445 0.1702 0.3178 0.2464 0.5188 -0.133 0.3258 F. TOTAL 0.0993 -0.222 -0.1676 0.0658 0.2233 0.0099 -0.0686 -0.184 0.0142 -0.0038 N. AMONIACAL -0.0611 0.2402 0.1281 -0.3192 0.1448 -0.0518 -0.1968 0.0947 0.0989 -0.2037 N. KJELDAHL 0.0829 0.1736 0.1869 0.2797 0.2137 -0.0371 -0.1006 -0.0142 -0.0029 -0.1465 O. DISUELTO -0.0444 0.0588 -0.0208 0.3905 0.1375 -0.0918 -0.1385 0.1203 0.0846 0.0945 PLOMO 0.0793 -0.1652 -0.3384 -0.0993 0.0801 0.0712 0.0822 0.2538 0.1103 0.1494 RAS -0.2269 0.0526 -0.1344 0.1519 -0.0993 0.1362 0.0376 0.2592 0.1524 -0.115 S. S 0.3828 0.1062 -0.0396 -0.0742 0.0423 0.0587 0.0297 0.0309 0.0176 0.2363 S.S.T -0.1229 0.1078 -0.0432 -0.2194 0.0894 0.0637 0.0861 -0.1673 -0.0007 0.0194 S.S.V 0.0697 -0.0542 -0.081 -0.034 0.2799 -0.171 -0.2088 0.1308 -0.049 -0.0458 S.T -0.146 -0.0658 0.0579 -0.137 0.2245 0.1255 -0.0231 0.0189 0.0948 -0.0411 SULFATOS 0.0632 -0.0103 -0.0146 0.0269 -0.123 0.0084 -0.0071 0.049 -0.0795 -0.0471 SULFUROS -0.0243 -0.1615 0.2181 -0.0128 -0.0359 -0.0385 -0.023 0.0332 0.2146 0.1682 TURBIDEZ 0.0563 -0.1788 0.1387 -0.0206 0.0446 0.0279 0.1281 0.1383 -0.1721 -0.1142 CONDUCTIVIDAD 0.0014 -0.0165 0.0106 0.0002 -0.0123 0.0425 -0.0021 0.0175 -0.0028 -0.0377 PH 0.0215 -0.0334 0.0167 0.0029 -0.0359 0.1875 -0.1728 -0.0131 -0.0452 0.0142

127

Componente 11 Componente 12 Componente 13 Componente 14 Componente 15 Componente 16 Componente 17 Componente 18 Componente 19

CROMO -0.4565 -0.6669 -0.6599 -0.7902 -0.6506 -0.4856 -0.6762 -0.6262 -0.3648 DBO5 -0.5294 -0.6387 -0.534 -0.2351 0.093 -0.0089 -0.5419 0.4642 0.1333 DQO -0.2081 0.0256 0.2001 -0.1028 -0.2012 -0.3635 0.181 0.0542 -0.3739 ORTOFOSFATOS -0.1111 -0.1337 -0.0998 0.0759 -0.3093 -0.1373 -0.1728 0.3697 -0.443 F. TOTAL 0.2775 0.0592 0.0668 -0.0046 -0.3448 0.3923 0.029 -0.061 -0.5384 N. AMONIACAL -0.2027 -0.1323 -0.1508 0.08 -0.0555 0.6082 -0.1055 -0.0196 0.2035 N. KJELDAHL 0.2366 -0.084 0.0158 -0.1195 -0.3871 -0.1705 -0.1831 -0.1762 0.2756 O. DISUELTO -0.4307 0.1354 0.1918 -0.1517 0.0683 0.0886 0.0482 -0.1356 -0.0879 PLOMO -0.0248 0.1106 0.1658 0.1534 -0.2232 0.0193 0.0179 -0.0161 0.2936 RAS 0.27 -0.0535 -0.0646 -0.1819 0.1353 0.1197 0.1004 -0.0534 0.0084 S. S 0.0655 -0.0539 -0.1169 -0.1745 0.173 0.0499 -0.0284 -0.2324 -0.0017 S.S.T -0.015 0.1098 0.191 -0.3764 -0.0523 -0.0148 0.0289 0.076 0.0507 S.S.V 0.1042 0.0139 -0.0397 -0.0659 0.1635 -0.0887 0.0067 0.2604 0.0025 S.T 0.0109 -0.0245 0.0866 0.1158 0.1332 -0.1344 -0.105 -0.2372 -0.0892 SULFATOS 0.0525 -0.0262 0.2443 -0.0081 0.0957 0.0805 -0.3093 0.0552 -0.0157 SULFUROS 0.0407 -0.0088 0.0037 -0.0672 -0.0245 0.0299 -0.0467 0.0815 0.0199 TURBIDEZ -0.0498 -0.0203 0.0142 -0.0935 -0.0124 0.04 0.0782 -0.0418 0.0107 CONDUCTIVIDAD -0.0051 0.224 -0.1191 -0.0163 -0.0019 -0.0014 -0.0996 -0.0059 -0.0032 PH -0.0167 -0.0144 0.0132 -0.0127 -0.0146 -0.0078 0.0422 0.028 0.021

128

Tabla 22. Fase 3: Matriz de correlación - ACP mét odo estadístico convencional - se retiró el cromo, plomo, los coliformes, oxigeno disuelto, sólidos suspendido

Componente 1 Componente 2 Componente 3 Componente 4 Componente 5 Componente 6 Componente 7 Componente 8 Componente 9

DBO5 0.5852 0.7251 0.5392 0.6414 0.6682 0.6855 -0.1046 0.6864 0.6628

DQO 0.3829 0.4094 -0.4810 -0.4879 -0.6054 -0.5739 0.1173 0.6287 0.5588

ORTOFOSFATOS 0.3090 0.0943 -0.1644 -0.1281 0.2411 0.1679 -0.4970 -0.0715 0.0977

F. TOTAL -0.3230 -0.1218 0.0489 -0.2325 -0.0737 -0.0295 -0.7294 0.0284 0.1116

N. AMONIACAL 0.0335 0.0022 -0.2425 0.1906 -0.0257 -0.1865 -0.4017 -0.0956 -0.0763

N. KJELDAHL -0.4276 -0.3058 0.2740 0.0781 0.0019 0.0221 0.0426 0.2124 0.2253

RAS 0.1188 0.1439 0.4464 0.2563 -0.0711 -0.1424 -0.1583 0.0191 0.1474

S.S.T -0.1615 -0.1896 -0.2229 0.0520 0.0567 0.1137 0.0329 0.0963 0.1671

S.S.V 0.1639 -0.1913 -0.1410 0.0621 0.1220 0.0932 0.0459 0.0884 0.1631

S.T -0.0577 -0.0032 -0.1060 0.3049 -0.2002 -0.2074 0.0147 0.0569 0.0403

SULFATOS -0.0666 0.0714 -0.1713 0.2266 0.1433 0.0309 -0.0380 -0.0330 0.0655

SULFUROS 0.0311 -0.0534 -0.0151 0.1401 0.0074 0.0053 -0.0083 0.0086 -0.2694

TURBIDEZ 0.2214 -0.2952 0.0704 0.0065 0.0183 -0.1249 -0.0279 -0.0123 0.0171

CONDUCTIVIDAD -0.0420 0.0276 0.0047 -0.0265 0.1572 -0.1668 0.0456 -0.1112 0.0621

PH 0.0221 -0.0143 -0.0006 0.0296 -0.1178 0.0843 0.0173 -0.1978 0.1045

129

Componente 10 Componente 11 Componente 12 Componente 13 Componente 14 Componente 15

DBO5 0.8130 0.6569 0.5061 0.6762 0.6208 0.3757

DQO 0.1737 -0.0990 -0.0476 0.5672 -0.5057 -0.1650

ORTOFOSFATOS -0.0414 -0.3053 -0.4215 0.0494 0.3531 -0.6053

F. TOTAL -0.0782 0.3406 -0.1815 0.1807 -0.0500 0.3736

N. AMONIACAL 0.0546 -0.1783 0.6691 -0.0385 -0.0071 -0.0773

N. KJELDAHL -0.0133 -0.0301 0.1374 0.1979 -0.0494 -0.4659

RAS -0.1548 -0.3559 -0.1106 -0.1040 -0.2015 0.1324

S.S.T 0.2456 -0.3848 -0.0931 -0.0150 0.0677 0.2606

S.S.V -0.4209 0.0269 0.0682 0.0609 -0.0248 0.0898

S.T -0.0545 0.1119 -0.1326 -0.0386 0.2864 -0.0117

SULFATOS 0.0691 0.1327 -0.1189 -0.0995 -0.3062 -0.0886

SULFUROS 0.0005 -0.0642 -0.0765 0.3225 -0.0693 0.0202

TURBIDEZ 0.1685 0.0834 -0.0334 -0.0536 -0.0393 -0.0113

CONDUCTIVIDAD -0.0070 -0.0096 -0.0050 0.0782 0.0336 0.0240

PH 0.0177 0.0080 0.0078 0.0784 -0.0107 -0.0051

Documents

Estudio comparativo de técnicas estadística multivariada