145
i CARÁTULA UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja ÁREA TÉCNICA TÍTULO DE INGENIERO EN INFORMÁTICA Aplicar Minería de Datos para definir perfiles ocupacionales en selección de personal requeridos por áreas críticas en la Armada del Ecuador TRABAJO DE TITULACIÓN AUTOR: Almeida Cárdenas, Diego Miguel DIRECTOR: González Eras, Alexandra Cristina. CENTRO UNIVERSITARIO SAMBORONDÓN 2016

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

i

CARÁTULA

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA

La Universidad Católica de Loja

ÁREA TÉCNICA

TÍTULO DE INGENIERO EN INFORMÁTICA

Aplicar Minería de Datos para definir perfiles ocupacionales en selección de

personal requeridos por áreas críticas en la Armada del Ecuador

TRABAJO DE TITULACIÓN

AUTOR: Almeida Cárdenas, Diego Miguel

DIRECTOR: González Eras, Alexandra Cristina.

CENTRO UNIVERSITARIO SAMBORONDÓN

2016

Page 2: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

ii

APROBACIÓN DEL DIRECTOR DEL TRABAJO DE TITULACIÓN

Ingeniera.

Alexandra Cristina González Eras.

DOCENTE DE LA TITULACIÓN

De mi consideración:

El presente trabajo de titulación: Aplicar Minería de Datos para definir perfiles ocupacionales

en selección de personal requeridos por áreas críticas en la Armada del Ecuador, realizado

por Diego Miguel Almeida Cárdenas, ha sido orientado y revisado durante su ejecución, por

cuanto se aprueba la presentación del mismo.

Loja, enero de 2016

f) ………………………………………

Page 3: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

iii

DECLARACIÓN DE AUTORÍA Y CESIÓN DE DERECHOS

“Yo Diego Miguel Almeida Cárdenas declaro ser autor del presente trabajo de titulación:

Aplicar Minería de Datos para definir perfiles ocupacionales en selección de personal

requeridos por áreas críticas en la Armada del Ecuador, de la Titulación de Ingeniero en

Informática, siendo Alexandra Cristina González Eras directora del presente trabajo; y eximo

expresamente a la Universidad Técnica Particular de Loja y a sus representantes legales de

posibles reclamos o acciones legales. Además certifico que las ideas, conceptos,

procedimientos y resultados vertidos en el presente trabajo investigativo, son de mi exclusiva

responsabilidad.

Adicionalmente declaro conocer y aceptar la disposición del Art. 88 del Estatuto Orgánico de

la Universidad Técnica Particular de Loja que en su parte pertinente textualmente dice:

“Forman parte del patrimonio de la Universidad la propiedad intelectual de investigaciones,

trabajos científicos o técnicos y tesis de grado o trabajos de titulación que se realicen con el

apoyo financiero, académico o institucional (operativo) de la Universidad”

f. …………………………………………………… Autor: Diego Miguel Almeida Cárdenas Cédula: 170912602-1

Page 4: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

iv

DEDICATORIA

Dedico este trabajo a mis padres Miguel Almeida y Laura Cárdenas, quienes siempre me

apoyaron incondicionalmente y fueron los gestores para iniciar esta ardua labor. También a

mi esposa e hijos a quienes amo muchísimo, Paula, Joaquín y Natalia, quienes con su apoyo

y estímulo, fueron un incentivo permanente para lograr la culminación de este trabajo.

Page 5: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

v

AGRADECIMIENTO

Agradezco a todos los docentes de la universidad, que con su esfuerzo y guía nos dieron las

herramientas del conocimiento, y en especial a mi tutora Ingeniera Alexandra González, quien

fue una guía excepcional para la culminación de este trabajo; así mismo, agradezco al

personal del Centro de Tecnologías de la Información de la Dirección General de Personal de

la Armada quienes siempre me apoyaron durante la obtención de la información y en general

a la Universidad Técnica Particular de Loja, quien no solo ha sido una institución que me dio

el conocimiento, sino también me guio por el verdadero sentir de la ciencia, que debe estar al

servicio de la sociedad y de un futuro mejor para todos.

Page 6: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

vi

ÍNDICE DE CONTENIDOS

Contenido

CARÁTULA ............................................................................................................................................................. i

APROBACIÓN DEL DIRECTOR DEL TRABAJO DE TITULACIÓN ............................................................ ii

DECLARACIÓN DE AUTORÍA Y CESIÓN DE DERECHOS ....................................................................... iii

DEDICATORIA ..................................................................................................................................................... iv

AGRADECIMIENTO ............................................................................................................................................. v

ÍNDICE DE CONTENIDOS ................................................................................................................................ vi

RESUMEN ............................................................................................................................................................. 1

ABSTRACT ............................................................................................................................................................ 2

INTRODUCCIÓN .................................................................................................................................................. 3

1. MINERÍA DE DATOS Y SU APLICACIÓN A LOS RECURSOS HUMANOS .......................... 5

1.1. Introducción al ámbito de la Selección de Personal .................................................................... 6

1.2. Conceptos básicos sobre Gestión de Personal ........................................................................... 6

1.3. La Minería de Datos como apoyo a la Selección de Personal .................................................. 8

1.3.1. Contextualización .............................................................................................................................. 8

1.3.2. Técnicas de minería ......................................................................................................................... 9

1.3.3. Selección de la Técnica de Minería ............................................................................................. 11

1.3.4. Metodologías de Minería de datos ............................................................................................... 11

1.3.5. Selección de la Metodología ......................................................................................................... 13

1.3.6. Descripción de la Metodología CRISP-DM ................................................................................. 14

2. CONTEXTUALIZACIÓN DE LA PROBLEMÁTICA ................................................................... 18

2.1. Procesos de Selección de Personal en la Armada.................................................................... 19

2.2. Problemas presentados en la Selección de Personal ............................................................... 21

2.3. Propuesta de Trabajo ..................................................................................................................... 23

2.3.1. Objetivo ............................................................................................................................................ 23

2.3.2. Objetivos Específicos ..................................................................................................................... 23

2.3.3. Resultados Esperados ................................................................................................................... 24

3. FASE I: COMPRENSIÓN DEL NEGOCIO ................................................................................. 25

3.1. Contexto ........................................................................................................................................... 26

3.2. Objetivos de negocio ...................................................................................................................... 26

3.3. Criterios de éxito de negocio ......................................................................................................... 27

3.4. Inventario de recursos .................................................................................................................... 28

3.5. Requerimientos, presunciones, y restricciones .......................................................................... 29

3.6. Riesgos y contingencias ................................................................................................................ 30

Page 7: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

vii

3.7. Terminología .................................................................................................................................... 31

3.8. Costos y beneficios ........................................................................................................................ 32

3.9. Objetivos y Criterios de éxito de minería de datos .................................................................... 34

3.9.1. Determinación de los objetivos de la minería de datos............................................................. 34

3.9.2. Criterios de éxito de la minería de datos ..................................................................................... 34

3.10. Plan del proyecto ............................................................................................................................ 35

3.11. Evaluación inicial de herramientas y técnicas ............................................................................ 41

4. FASE II: COMPRENSIÓN DE DATOS ........................................................................................ 42

4.1. Recolección de datos iniciales ...................................................................................................... 43

4.2. Informe de colección de datos iniciales ....................................................................................... 46

4.2.1. Contexto ........................................................................................................................................... 46

4.2.2. Criterios de Selección .................................................................................................................... 47

4.2.3. Lista de Fuentes de Datos ............................................................................................................. 47

4.3. Informe de descripción de datos .................................................................................................. 48

4.4. Informe de exploración de datos .................................................................................................. 50

4.5. Informe de calidad de datos .......................................................................................................... 50

5. FASE III: PREPARACIÓN DE DATOS ........................................................................................ 53

5.1. Selección de datos ......................................................................................................................... 54

5.1.1. Razonamiento para la inclusión/exclusión .................................................................................. 56

5.1.2. Conclusiones de selección de datos ............................................................................................ 57

5.2. Informe de Limpieza de datos ....................................................................................................... 57

5.3. Construir datos ................................................................................................................................ 59

5.4. Integrar datos .................................................................................................................................. 59

5.5. Formatear datos .............................................................................................................................. 60

6. FASE IV: MODELADO ................................................................................................................... 61

6.1. Selección de la técnica de modelado .......................................................................................... 62

6.1.1. Técnicas de modelado ................................................................................................................... 62

6.1.2. Presunciones del modelado .......................................................................................................... 65

6.2. Generación de la prueba de diseño ............................................................................................. 65

6.3. Construcción del modelo ............................................................................................................... 66

6.4. Evaluación del Modelo ................................................................................................................... 74

6.4.1. Parámetro de ajustes ..................................................................................................................... 74

6.4.2. Modelos ............................................................................................................................................ 74

6.4.3. Descripciones del modelo ............................................................................................................. 77

6.5. Evaluación del modelo ................................................................................................................... 81

6.5.1. Evaluar el modelo ........................................................................................................................... 81

6.5.2. Parámetros de ajustes revisados ................................................................................................. 82

6.5.3. División de los registros ................................................................................................................. 89

Page 8: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

viii

7. FASE V: EVALUACIÓN ................................................................................................................. 95

7.1. Evaluación de los resultados ........................................................................................................ 96

7.1.1. Evaluar los resultados .................................................................................................................... 96

7.1.2. Estudio de Casos .......................................................................................................................... 100

7.1.3. Evaluación de los resultados de la minería de datos en lo que concierne a criterios de éxito

de negocio 104

7.2. Modelos aprobados ...................................................................................................................... 105

7.3. Proceso de revisión ...................................................................................................................... 106

7.4. Determinación de los próximos pasos ....................................................................................... 107

7.4.1. Lista de posibles acciones ........................................................................................................... 108

7.5. Decisión .......................................................................................................................................... 108

8. FASE VI: DESARROLLO ............................................................................................................ 109

8.1. Desarrollo del plan ........................................................................................................................ 110

8.2. Plan de supervisión y mantenimiento ........................................................................................ 110

8.3. Informe definitivo de producto ..................................................................................................... 111

CONCLUSIONES ............................................................................................................................................. 112

RECOMENDACIONES .................................................................................................................................... 113

BIBLIOGRAFIA ................................................................................................................................................. 114

ANEXOS ............................................................................................................................................................ 117

Page 9: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

1

RESUMEN

La Armada del Ecuador, como institución que contribuye directamente a la seguridad de la

nación, cuenta como base fundamental de su gestión a las unidades operativas, donde la

selección del personal para integrar estas áreas críticas se ha venido realizando en forma

voluntaria y prácticamente no se han utilizado criterios técnicos precisos, que orienten

adecuadamente dicha selección, por lo que se ha considerado la utilización de la información

histórica disponible del personal, para encontrar parámetros de selección válidos, para la

aplicación efectiva de esta selección utilizando Minería de Datos.

Se considera a la metodología CRISP-DM y el método de árboles de decisión como los más

adecuados, y se aplican a una muestra de la población, cuyos datos se han procesado

utilizando la aplicación WEKA, para el análisis y construcción de un árbol de decisión

adecuado a la información existente.

El análisis realizado y la metodología aplicada generaron un árbol de decisión con un

porcentaje bastante aceptable de aciertos, con cuatro parámetros relacionados con la

selección de personal, cuyos datos se pueden obtener de las bases de datos para cualquier

selección futura.

PALABRAS CLAVES: Minería de Datos, selección de personal, metodología CRISP-DM,

árboles de decisión, aplicación WEKA.

Page 10: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

2

ABSTRACT

The Navy of Ecuador, as an institution that contributes directly to the nation´s security, has as

the foundation of its management to operational units, where the recruitment to integrate these

critical areas has been carried out on a voluntary basis and have virtually no precise technical

criteria used as to properly orient the selection, which has been considered using the available

historical information of personnel, to find valid selection parameters for the effective

application of this selection using Data Mining.

It´s considers the CRISP-DM methodology and method of decision trees as the most

appropriate, and applied to a sample of the population, whose data have been processed using

the WEKA application for analysis and construction of a suitable decision tree to existing

information.

The analysis and methodology generate a decision tree with a very acceptable percentage of

hits, with four parameters related to recruitment, whose data can be obtained from the

database for future selection.

KEYWORDS: Data Mining, recruitment, CRISP-DM methodology, decision trees, WEKA

application.

Page 11: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

3

INTRODUCCIÓN

A medida que las empresas o instituciones van creciendo, también se va extendiendo la

dificultad de los sistemas y/o procesos para cumplir con sus metas, y parte importante de las

tareas necesarias es seleccionar al personal que va a ocupar los puestos que exigen

competitividad y eficiencia; en algunas instituciones además, la selección de personal tiene

una importancia trascendental, ya que ciertos puestos, deben ser ocupados por gente que

esté comprometida y capacitada para que la gestión no sea solo eficiente, sino que se evite

caer en errores graves que comprometan la seguridad del material y del personal, o que

puedan afectar de alguna forma a otras personas ajenas a las funciones ejecutadas.

Una de las instituciones en donde la selección de personal tiene gran importancia es la

Armada del Ecuador, que posee gran cantidad y diversidad de personal y procesos complejos

y relacionados con áreas consideradas críticas, directamente enlazadas a las funciones

primordiales de seguridad nacional, apoyo a la seguridad interna, control de actividades ilícitas

y desarrollo nacional.

El presente documento plantea un estudio enmarcado en la Minería de Datos, que intenta

establecer los parámetros requeridos y las condiciones de selección (algoritmo) que se deben

aplicar a las poblaciones de candidatos a los cursos de las áreas críticas de la Armada, siendo

las especialidades consideradas Superficie, Submarinos, Aviación Naval, Infantería de Marina

e Inteligencia.

En el Capítulo 1 se realiza un análisis más detallado del método y metodología de desarrollo

más apropiado de Minería de Datos relacionado a la selección de personal, así mismo, se

analiza la selección de personal en la Armada y se plantean los objetivos y los resultados

esperados para este trabajo.

En el Capítulo 2 se inicia la metodología CRISP-DM, siendo analizada la primera fase de

comprensión del negocio, analizando todas las implicaciones que tiene la selección de

personal y estableciendo los objetivos y criterios de éxito de la Minería de Datos.

En el Capítulo 3, se continúa con la segunda fase que corresponde a la comprensión de los

datos, es decir, recolectar y analizar datos, que puedan contribuir al análisis posterior.

En el Capítulo 4, la metodología sigue con la fase III de preparación de datos, en donde los

datos seleccionados en la fase anterior se los analizan con mayor cuidado y se decide su

inclusión o exclusión; también se los prepara, integra o formatea para que se puedan utilizar

durante la elaboración del modelo de Minería de Datos.

Page 12: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

4

En el Capítulo 5, se realiza el modelado, que consiste en elaborar el diseño del modelo de

Minería de Datos seleccionado y realizar las primeras pruebas para verificar su

funcionamiento.

En el Capítulo 6, se evalúa al modelo desarrollado para comprobar si lo obtenido corresponde

a los criterios de éxito establecidos y se realizan los ajustes necesarios, para luego definir el

modelo aprobado y tomar una decisión respecto a las acciones posteriores.

En el Capítulo 7, se realiza el plan de desarrollo del modelo, así como se detalla todo lo

requerido para su supervisión y mantenimiento, realizando el informe definitivo del producto,

obteniendo a continuación las respectivas conclusiones y recomendaciones.

Este trabajo resulta sumamente útil para los procesos de selección de personal, ya que la

aplicación efectiva de los parámetros provenientes del modelo, derivarán en procesos

definidos y un mejor desempeño del personal en las áreas consideradas críticas de la Armada,

brindando a la sociedad un mejor y más efectivo empleo de los medios disponibles.

Para lograr esto, se inició estableciendo una metodología de desarrollo para Minería de Datos,

luego se seleccionó el método a utilizar que mejor se aplica a la selección de personal (en

este caso árboles de decisión) para realizar las pruebas sobre un grupo de muestra del

personal de oficiales y tripulantes; todo esto utilizando la aplicación abierta WEKA, de la

Universidad de Waikato (Nueva Zelandia), llegando a obtener los parámetros de selección

adecuados para ser aplicados en procesos de selección futuros.

Los objetivos principales se establecieron en obtener las formas de selección y generar un

algoritmo que determinen los parámetros buscados y las respectivas rutas de selección para

las especialidades, lo cual se logró aplicándolo sobre un grupo de muestra de 100 personas

pertenecientes a la Armada del Ecuador.

El trabajo tuvo ciertas dificultades en cuanto a la obtención, selección y filtrado de los datos,

tomados de la base de datos principal para su limpieza y uso definitivo; pero también se pudo

obtener datos muy útiles e información nueva relacionada a la selección de personal.

La metodología utilizada se basó en CRISP-DM, utilizando como método árboles de decisión

con el algoritmo J48 como base principal de análisis de la información.

Page 13: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

5

1. MINERÍA DE DATOS Y SU APLICACIÓN A LOS RECURSOS HUMANOS

Page 14: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

6

1.1. Introducción al ámbito de la Selección de Personal

Dentro de las empresas o instituciones, la gestión de los Recursos Humanos que se requiere para

su funcionamiento, es la base para desarrollar la actividad principal de dicha empresa o institución,

y en el caso de las instituciones públicas de un Estado es fundamental para lograr el desempeño

adecuado a la función de servicio a los ciudadanos.

En este sentido, algunas instituciones del estado son relevantes para el bien común y el desarrollo

nacional, y una de estas instituciones son las Fuerzas Armadas, que contribuyen de forma directa

a la seguridad externa y apoyan a la seguridad interna del estado ecuatoriano.

Es por esto que la gestión de los Recursos Humanos en cualquiera de las áreas de Fuerzas

Armadas, resulta relevante para lograr un buen desempeño de las tareas asignadas, y en el caso

de la Armada del Ecuador – al igual que en las otras dos fuerzas Ejército y Fuerza Aérea – existen

áreas críticas en donde se plasman acciones directas de seguridad y que se encuentra a cargo de

personal que debe operar costosos sistemas, equipos, armamento y efectuar operaciones cuya

mala ejecución, pueden causar graves accidentes y afectación a dichos sistemas, equipos o las

personas involucradas y/o ajenas a la actividad realizada.

La administración de personal y sus primeras tareas, que son el reclutamiento y la selección, deben

por tanto ser realizadas con el compromiso de la importancia de esta actividad; sin embargo, la

selección del personal para los cursos en las áreas críticas, han tenido una orientación llevado por

la tradición y preferencia individual, y no se han considerado factores técnicos cuya fuente está

oculta en los datos del personal, que pueden ser una buena base para la toma de decisiones en

este campo.

Por ende, nuestro propósito es que a través de nuestro trabajo, se logre determinar factores que

ayuden a la toma de decisiones en cuanto a la selección de personal en la Armada del Ecuador,

para lo cual, se iniciará con la familiarización de los términos relacionados a este tema.

1.2. Conceptos básicos sobre Gestión de Personal

Con respecto a la administración de personal, Dessler (2001) indica que se cumplen cinco

funciones básicas: planear, organizar, dotar de personal, dirigir y controlar, que representan al

proceso de la administración de personal y que cada una representa lo siguiente:

1. Planificar, se refiere a establecer metas y normas para el futuro de la institución.

2. Organizar, significa implementar la estructura de trabajo, de autoridad y de comunicaciones,

así como dar disposiciones a los empleados.

3. Dotar de personal, consiste primero en determinar qué tipo de empleados se requieren,

seleccionarlos, establecer normas de desempeño y evaluarlos, dar compensaciones,

asesoramiento, capacitación y desarrollo.

4. Dirigir, es verificar que el personal cumpla con su trabajo, conservar la moral y motivación.

Page 15: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

7

5. Controlar, significa establecer estándares, evaluarlos y establecer formas de mejoramiento.

Por su parte, Silíceo (2006) indica que la administración de personal debe “comprender y coordinar”

las siguientes funciones: Reclutamiento, Selección, Introducción o Inducción, inventario de los

recursos humanos, evaluación del potencial y desempeño, entrenamiento o capacitación y

planeación de vida y carrera; estas funciones están relacionadas con el concepto de administración

de recursos humanos, que insiste en que el fin último es lograr un sistema efectivo de planeación

de vida y carrera, y a su vez significa “contar con el personal adecuado en número, perfil,

preparación, potencial y actitud, que vaya de acuerdo con los objetivos y cultura de la organización”

(Silíceo, 2006, p. 45)

Como se puede observar en ambos casos, dentro de la administración de personal los factores de

reclutamiento y selección o dotación de personal, son importantes argumentos para las bases del

proceso de gestión de los Recursos Humanos, y como indican Chiavenato, Villamizar y Aparicio

(1983), existen dos formas de considerar al personal, la primera es como personas, es decir, con

personalidad, aspiraciones y valores entre otras, y la segunda como recursos, es decir con

habilidades, capacidades, destrezas y conocimientos; ambas consideraciones son importantes y

su estudio constituye la base de la teoría de las organizaciones; la selección de personas se hace

para alcanzar los objetivos de la empresa, pero a su vez, las personas tienen objetivos individuales

y se valen de la empresa para alcanzarlos, es decir, existe una relación individuo – organización

que bien orientada puede ser una relación cooperativa y satisfactoria pero a su vez puede ser tensa

y conflictiva.

Esto centra la atención en el candidato, y los mismos autores indican que con respecto al candidato

para una organización, se distinguen dos tipos: candidatos reales, que son aquellos que buscan

oportunidades de ubicación en un puesto o algún tipo de beneficio, y los candidatos potenciales,

que son quienes tienen la capacitación para llenar las vacantes en forma satisfactoria por su perfil,

pero que no necesariamente están buscando el puesto.

En base a los tipos de candidatos (ambos válidos), la selección de personal se puede definir como

“un proceso dinámico, cuyo objetivo es encontrar la persona más adecuada (por sus características

personales, aptitudes, motivación etc.) para cubrir un puesto de trabajo en una empresa

determinada” (López, 1999, p. 13).

Entonces, para lograr la finalidad de la selección de personal se debe iniciar con el reclutamiento y

la selección; al respecto el mismo autor López (1999) indica que la selección de personal es distinto

que el reclutamiento, en el sentido de que este último (el reclutamiento) también es un proceso

dinámico, pero que no sigue un proceso determinado, y que su función es buscar a un candidato

idóneo para un puesto determinado considerando el entorno en el cual se debe realizar.

Se entiende entonces que el reclutamiento se orienta a atraer candidatos potenciales, como indica

Chiavenato, Villamizar y Aparicio (1983) “es un conjunto de procedimientos orientados a atraer

Page 16: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

8

candidatos potenciales calificados y capaces a ocupar cargos dentro de la organización” (p. 18),

mientras que la selección de personal se orienta más a escoger a un grupo de candidatos para

determinar quien cumple el mejor perfil para el puesto.

En este trabajo, nos centraremos en el proceso de selección de candidatos potenciales,

entendiendo que ya ha sido realizado el reclutamiento y se busca determinar al mejor capacitado

para un puesto (en este caso un alumno que a futuro ocupará un área crítica) dentro de las

especialidades operativas.

1.3. La Minería de Datos como apoyo a la Selección de Personal

1.3.1. Contextualización

Los datos son el elemento básico de la Minería de Datos, tal como lo indican Pardo y otros (2013),

que señalan como aporte de Davenport y Prusak:

Son la mínima unidad semántica, y se corresponden con elementos primarios de información

que por sí solos son irrelevantes como apoyo a la toma de decisiones. La información se

puede definir como un conjunto de datos procesados y que tienen un significado (relevancia,

propósito y contexto), y que por lo tanto son de utilidad para quién debe tomar decisiones, al

disminuir su incertidumbre (p. 1163)

Este enfoque de utilidad de los datos es recogido en la definición de la Minería de Datos, dado por

Conolly y Begg (2005) que la expresa como “el proceso de extraer información válida, previamente

desconocida, comprensible y útil de bases de datos de gran tamaño y utilizar dicha información

para tomar decisiones de negocios cruciales”.

Pero este trabajo no es nuevo, como dice Kantardzic (2011) respecto a que los investigadores

científicos y médicos siempre han estado realizando trabajos sobre extracción de datos y su

procesamiento para obtener nueva información, pero la novedad es que al converger varios de

estos estudios y análisis y al ir creciendo los datos contenidos en estos, dan una excelente

oportunidad a la Minería de Datos para aportar en los aspectos científicos y comerciales, mientras

que Strohmeier y Piazza (2013), dan un nuevo aporte al indicar que si bien la Minería de Datos no

inició con aplicaciones relacionadas a Recursos Humanos, los diferentes aportes realizados por

las investigaciones en este campo, han contribuido para que estos descubrimientos y avances

sean aplicados también a la gestión de recursos humanos; dentro de estos campos de aplicación

podemos citar a la selección de personal, rotación de empleados, jerarquía de personal,

determinación de competencias, planificación de la carrera, costos de recursos humanos,

indemnizaciones, compensaciones y evaluación del desempeño, es decir, en prácticamente todos

los ámbitos relacionados a manejo de personal; por otro lado, Sivaram y Ramar, K.(2010)

manifiestas en este aspecto que se debe realizar una buena selección y mantenimiento del

personal, ya que cada año las empresas de tecnología reclutan nuevos graduados en coordinación

Page 17: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

9

con las centros educativos superiores, utilizando una serie de métodos de selección (pruebas,

discusiones grupales, entrevistas etc.), pero que esto demanda un enorme esfuerzo y la

observación de la selección establece la existencia de patrones, pero que son muy complejos para

aislarlos. Por esto, se puede relacionar que dada la enorme complejidad de los procesos de

selección y el avance de la Minería de Datos en este tema, pueden apoyarse mutuamente para

hacer más efectivo el proceso.

Por tanto, la Minería de Datos es totalmente aplicable a la Gestión de Recursos Humanos en

muchas formas y en diferentes campos de aplicación de acuerdo a las necesidades de esta

gestión, y específicamente tiene también su atención en lo que respecta a la selección de personal,

que puede convertirse en uno de los puntos cruciales para un adecuado futuro desempeño de la

fuerza laboral de cualquier empresa o institución, sin embargo, el proceso de selección tiene varias

dificultades, como lo indican Sivaram y Ramar (2010), ya que en los métodos tradicionales de

selección existe una gran desproporción (aproximadamente 1 a 20) entre los candidatos

seleccionados y los candidatos entrevistados, generando un gran gasto de recursos y tiempo.

Ahora bien, hay que tomar en cuenta que existe un patrón en los métodos tradicionales que se

mantiene en los candidatos seleccionados que puede ser aprovechado, y considerando que estos

métodos de selección de personal – como ya se dijo en el párrafo anterior - por un lado generan

gastos en tiempo, personal y recursos para la empresa o institución y por otro, se mantiene una

gran brecha entre los seleccionados y los candidatos considerados, se puede observar la gran

utilidad para la aplicación de la Minería de Datos en estos procesos, aprovechando la ventaja que

dan estos patrones de selección.

1.3.2. Técnicas de minería

En cuanto a las técnicas de Minería de Datos que pueden ser utilizados para reclutamiento de

personal (y otras afines), Strohmeier y Piazza (2013) indican que en relación a la gran amplitud de

las técnicas de minería de datos, quienes apoyan en mejor forma a las funciones de selección de

personal son los árboles de decisión, el análisis de conglomerados, el análisis de asociación, las

máquinas de vectores y las redes neuronales, mientras que Sivaram y Ramar (2010) en forma muy

similar, indican que entre las más populares para extracción de información están los árboles de

decisión, máquinas de soportes de vectores y redes neuronales; estas abren un amplio espectro

para nuevos descubrimientos relacionados al manejo de Recursos Humanos.

Todas estas técnicas tienen una funcionalidad similar en el sentido de que mantienen como

propósito filtrar la información para obtener datos útiles para la gestión de Recursos Humanos; en

relación a esto, y basados en los tipos de técnicas indicadas en el párrafo anterior por Strohmeier

y Piazza (2013), en la siguiente tabla se explica en forma general las diferentes técnicas de Minería

de Datos que se pueden aplicar a Recursos Humanos:

Page 18: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

10

Tabla 1. Técnicas de Minería de Datos aplicables para Selección de Personal,

TÉCNICA EXPLICACIÓN

Arboles de

Decisión

Organizan los datos en base a una decisión inicial tomando en cuenta la

influencia que debe tener cada rama, son sistemas relativamente simples de

manejar pero tienen poco campo de complejidad para tareas en las que se

requiere más detalle; muchos de los procesos de recursos humanos requieren

el enfoque selectivo, en donde los árboles de decisión están directamente

relacionados a este tipo de enfoque.

Análisis de

Conglomerados

(Clustering)

Es el agrupamiento de datos para poder identificar tipologías o grupos en

donde existen datos similares, en los cuales se requiere diferenciar de otros

datos existentes, de forma de obtener datos filtrados para conseguir

información sobre lo que se demanda conocer, utilizando herramientas

estadísticas, algoritmos matemáticos u otras para el tratamiento de los datos;

además, de acuerdo a López y González (2007) el utilizar conglomerados

disminuye la precisión por el hecho de que al ser datos agrupados

necesariamente tendrán cierta homogeneidad, por lo que resulta útil cuando

las poblaciones de conglomerados son muy numerosas, lo que en caso de

selección de personal se puede utilizar si se tiene grandes bases de datos

Análisis de

Asociación

Se utilizan para analizar relaciones entre sucesos que aparentemente no

están relacionados, pero que en realidad corresponden a eventos que pueden

generar nuevos eventos y que si tengan relación; se utilizan para realizar

análisis exploratorios que conlleven a predecir comportamientos futuros de

eventos, una de los algoritmos utilizados para asociación es el algoritmo a-

priori.

Este tipo de exploración es utilizable dentro de selección de personal, ya que

el procedimiento de selección utiliza normalmente una serie de sucesos, que

adecuadamente orientado para su uso con análisis de asociaciones pueden

generar nueva información.

Apoyo a las

máquinas de

vectores

Las máquinas de vectores dividen los datos de entrada en varios

subconjuntos o vectores, luego de lo cual a medida que siguen procesando

estos datos, los vectores iniciales se van alineando hasta definir los vectores

finales que clasifican al resto de la información. Esta técnica tiene el

inconveniente de no ser muy adecuado para grandes volúmenes de

información a pesar de la buena capacidad de generalizar y clasificar los

datos. Por este motivo, se puede aplicar a procesos de selección de personal

que no contenga datos extensos, pero si con cierto nivel de complejidad.

Page 19: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

11

TÉCNICA EXPLICACIÓN

Redes

neuronales

Esta técnica se suele utilizar para descubrir categorías comunes en los datos,

tiene capacidad para detectar y aprender patrones más complejos y sobre

todo, puede trabajar con datos incompletos; debido a esta característica, y ya

que muchas veces la información utilizada para selección de personal está

incompleta, su uso puede ser útil para esta tarea.

Fuente: Strohmeir y Piazza (2013)

1.3.3. Selección de la Técnica de Minería

En el caso de selección de personal, se debe tomar en cuenta que los tipos de datos son de distinta

índole (no solo numéricos), por lo que la técnica adecuada debe tomar en cuenta esta

consideración o su “conversión” a datos numéricos; al respecto, Strohmeier y Piazza (2013) indican

que entre las principales categorías de técnicas de búsqueda utilizados para temas relacionados a

la gestión del talento humano y sus subdominios fueron los árboles de decisión y análisis de

conglomerados y, luego de sus mediciones (casos de variable n), determinaron que las técnicas

empleadas más frecuentes eran árboles de decisión (n = 28), redes neuronales (n = 27), máquinas

de vectores soporte (n = 15), el análisis de asociación (n = 11), análisis de grupos (n = 11), conjunto

aproximado (n = 10), análisis discriminante (n = 4), la regresión logística (n = 4) y la regresión (n =

3) (p. 2414).

Se observa que los árboles de decisión ha sido la técnica más utilizada; como lo expresan Sivaram

y Ramar (2010), los árboles de decisión tienen un enfoque simple para encontrar el “conocimiento”

oculto en los datos y que este método tiene la ventaja de ser fácil de interpretar, comprender para

comparar información y tomar decisiones, por lo que se considera que los árboles de decisión se

orientan adecuadamente al carácter selectivo de la búsqueda de información oculta, relacionado a

la selección de personal como fundamente principal de este trabajo.

1.3.4. Metodologías de Minería de datos

Además del método seleccionado - en este caso árboles de decisión -, una consideración

imprescindible para cualquier proyecto de Minería de Datos en general y para un proyecto de

Selección de Personal en particular, es considerar la Metodología a utilizarse; a este respecto,

Moine, Haedo y Gordillo (2011), indican que en forma general la orientación y el esfuerzo de la

Minería de Datos se ha encaminado a la extracción de patrones, utilizando métodos como árboles

de decisión, análisis de conglomerados y reglas de asociación, pero no se ha profundizado en la

“forma” de llegar al conocimiento, es decir, en la utilización de las metodologías, que permitirán

llevar el proceso de investigación del conocimiento en forma ordenada, mientras que Conolly y

Page 20: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

12

Begg (2005) indican la importancia de llevar una “técnica sistemática”, insistiendo en la importancia

de llevar una metodología para obtener buenos resultados.

Dentro de las metodologías existentes, Moine, Haedo y Gordillo (2011) establecen las siguientes

metodologías, que son las más utilizadas:

Tabla 2. Metodologías más utilizadas para Minería de Datos

METODO

LOGIA GENERALIDADES

SEMMA Creada por el SAS Institute, se define como “el proceso de selección, exploración

y modelado de grandes volúmenes de datos para descubrir patrones de negocio

desconocidos”.

Su nombre se basa en las fases básicas: Sample (Muestreo) Explore

(Exploración), Modify (Modificación), Model (Modelado) y Assess (Valoración) y

promueve una guía general del trabajo a realizar, ya que se encuentra enfocada

en aspectos técnicos, pero excluye el análisis y comprensión del problema que

se está abordando.

Catalyst De acuerdo a Moine (2013), Catalyst es una metodología que recomienda revisar

primero la problemática antes de iniciar el trabajo con los datos, y en los casos

que no se tenga un problema bien definido, iniciar utilizando P3TQ (Product,

Place, Price, Time, Quantity) que plantea la formulación de dos modelos: El

Modelo de Negocio y el Modelo de Minería de Datos. El primero proporciona una

guía para identificar un problema de negocio y los requerimientos reales de la

Organización, mientras el segundo proporciona una guía de pasos para la

construcción y ejecución de modelos de minería de datos. En sus dos modelos,

está compuesta por una serie de pasos llamados “boxes”, luego de una acción,

se evalúan los resultados y se determina el próximo paso (box) a seguir, lo que

permite una flexibilidad muy grande y una amplia variedad de caminos posibles.

CRISP-DM Acrónimo de “Cross-Industry Standard Process for Data Mining”, es la

metodología más utilizada actualmente en proyectos de Minería de Datos.

Creada por el grupo de empresas SPSS, NCR y Daimler Chrysler en el año 2000,

profundiza en mayor detalle ya que estructura el proceso en seis fases:

Comprensión del Negocio, Comprensión de los datos, Preparación de los datos,

Modelado, Evaluación e Implantación. Cada fase no es rígida y se descompone

en varias tareas generales de segundo nivel.

Page 21: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

13

METODO

LOGIA GENERALIDADES

Las tareas generales se proyectan a su vez en tareas específicas pero no se

propone como realizarlas.

Fuente: Moine, Haedo y Gordillo (2011)

1.3.5. Selección de la Metodología

Para comparar estas metodologías, se ha establecido la siguiente tabla de contraste:

Tabla 3. Contraste de Metodologías

METODO

LOGIAS COMPARACIÓN

SEMMA VS

CATALYST

Catalyst presenta una guía o primer modelo para identificar un problema de negocio y

los requerimientos reales de la organización, mientras que SEMMA carece de un

análisis del problema.

SEMMA presenta un buen análisis de aspectos técnicos, mientras que Catalyst en

forma similar, tiene un segundo modelo que desarrolla la solución en el aspecto técnico.

SEMMA VS

CRISP-DM

SEMMA solo se afianza en aspectos técnicos ya que en su orientación se asume que

va directamente a resolver un problema preestablecido (orientado solo al desarrollo del

proceso), mientras que CRISP-DM da mucha importancia a la situación de la empresa

y presenta un análisis completo adaptable a la realidad de cualquier empresa

(orientado a los objetivos empresariales)

En la parte técnica, ambas metodologías tienen similitudes: El muestreo, exploración y

manipulación de datos de SEMMA se corresponden a las fases de Análisis y

Preparación de datos de CRISP-DM, mientras que ambas tienen las fases de

Modelado y Evaluación; pero CRISP-DM además tiene la fase inicial de Análisis del

Problema y la fase final de Resultados (ambos relacionados a los objetivos de la

empresa, orientado a la gestión por procesos).

CATALYST VS

CRISP-DM

Catalyst estructura en “boxes” el proceso de creación, que le da un proceso de

desarrollo con múltiples opciones con dos modelos, el primero analiza el problema y el

segundo desarrolla la solución, mientras que CRISP-DM es un proceso continuo y

progresivo en donde se analiza todo el proceso de creación relacionado a la empresa.

Si bien ambas metodologías cubren los aspectos del problema desde el punto de vista

de la empresa y el desarrollo de la solución, CRISP-DM ha sido más utilizado por

empresas que trabajan continuamente en proyectos de Minería de Datos y es el sistema

más utilizado actualmente para proyectos de minería de datos.

Fuente: Moine, Haedo y Gordillo (2011)

Al respecto de la mejor metodología, Infante y otros (2010) indican que en comparación con

SEMMA, esta solamente inicia con muestreo de datos versus el acercamiento del problema

Page 22: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

14

empresarial al técnico de CRISP-DM, indicando que “la metodología CRISP-DM está más cercana

al concepto real de proyecto de investigación”; por lo visto en la tabla anterior y al tratarse de un

problema que debe ser estructurado desde su enfoque organizacional hacia el enfoque técnico,

CRISP-DM es la metodología que mejor se adapta para lo requerido en este trabajo.

1.3.6. Descripción de la Metodología CRISP-DM

La guía metodológica a seguir es la elaborada por Chapman y otros (2007), cuyo modelo

comprende seis componentes principales relacionados como se muestra en el siguiente gráfico:

Datos

1- Comprensión del Negocio

2- Comprensión de los Datos

3- Preparación de los Datos

4- Modelado

5- Evaluación

6- Desarrollo

Figura 1. Composición básica del modelo CRISP DM. Elaborado en base a la metodología CRISP-DM

Fuente: Infante y otros (2010)

El detalle de cada componente de CRISP-DM se expone a continuación:

Page 23: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

15

Figura 2. Comprensión del negocio del modelo CRISP DM. Elaborado en base a la metodología CRISP-DM

Fuente: Infante y otros (2010)

La comprensión del negocio se maneja inicialmente a nivel directivo, consultando como está

estructurada la empresa o institución y se plantean las necesidades que a su vez generan los

objetivos buscados y criterios de éxito del negocio; luego se continúa con la evaluación de la

situación, en donde se analiza el entorno del trabajo a realizar, verificando el inventario de recursos,

requerimientos, presunciones y restricciones existentes así como los riesgos, contingencias y

beneficios, para posteriormente determinar los objetivos de la Minería de Datos y sus criterios de

éxito desde el punto de vista de la Minería de Datos, y por último producir el Plan del Proyecto y

una primera evaluación de las herramientas y técnicas a utilizar.

Figura 3. Compresión de datos del modelo CRISP DM. Elaborado en base a la metodología CRISP-DM

Fuente: Infante y otros (2010)

En esta segunda fase, se realiza el análisis inicial de los datos con los que se va a trabajar,

empezando por determinar los datos a usar y recolectarlos, realizar una descripción de estos,

identificar problemas presentados en los datos, herramienta utilizada para colectarlos, propiedades

Page 24: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

16

de los datos, etc., que son parte de la exploración de los datos y termina con la verificación de la

calidad de los datos como base del proyecto de minería de datos.

Figura 4. Preparación de datos del modelo CRISP DM. Elaborado en base a la metodología CRISP-DM

Fuente: Infante y otros (2010)

En esta fase se trabaja únicamente con los datos, realizando la decisión de cuales datos van a ser

usados de acuerdo al proyecto de minería, preparar los datos para poder trabajar con ellos, realizar

una limpieza si se requiere, igualmente construir, generar nuevos registros e integrar datos si es

necesario, y finalmente volver a formatear los datos para que se adapten a las necesidades del

análisis que se va a efectuar.

Figura 5. Fase de Modelado del modelo CRISP DM. Elaborado en base a la metodología CRISP-DM

Fuente: Infante y otros (2010)

Esta es la fase más importante, lo principal en esta fase es seleccionar la técnica real de modelado

que vamos a utilizar ya de forma específica, realizar las presunciones que se tengan sobre los

datos de acuerdo a la técnica escogida, determinar el procedimiento para probar posteriormente el

modelo, generando la prueba de diseño, aplicar las herramientas y lograr construir el modelo,

Page 25: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

17

realizar una descripción del mismo y finalmente evaluarlo y revisar o corregir los parámetros de

ajuste.

Figura 6. Fase de Evaluación del modelo CRISP DM. Elaborado en base a la metodología CRISP-DM

Fuente: Infante y otros (2010)

En esta fase se trata de evaluar el modelo en diferentes factores como la exactitud y la generalidad,

para determinar el grado en que el modelo es aceptable o deficiente respecto a las necesidades

del negocio para lo que fue creado, para posteriormente revisar el proceso en su conjunto para

determinar posibles cambios o re-consideraciones, lograr determinar los siguientes pasos y tomar

una decisión al respecto, sobre mantener o modificar parte o partes del modelo.

Figura 7. Fase de Desarrollo del modelo CRISP DM. Elaborado en base a la metodología CRISP-DM

Fuente: Infante y otros (2010)

En esta fase se toman los resultados obtenidos en la evaluación y se despliega un plan para el

desarrollo de lo obtenido, lo que incluye la supervisión, el mantenimiento y desarrollar el informe

final, realizar la presentación final y hacer una revisión general del proyecto.

Page 26: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

18

2. CONTEXTUALIZACIÓN DE LA PROBLEMÁTICA

Page 27: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

19

2.1. Procesos de Selección de Personal en la Armada

La Constitución Política del Ecuador, en su artículo 227 dice textualmente que “la administración

pública constituye un servicio a la colectividad que se rige por los principios de eficacia, eficiencia,

calidad, jerarquía, desconcentración, descentralización, coordinación, participación, planificación,

transparencia y evaluación” y de acuerdo a la Ley Orgánica de la Defensa Nacional en su artículo

26, dicta -entre otras cosas- que la Armada del Ecuador – al igual que las otras ramas de las

Fuerzas Armadas - debe “desarrollar el poder militar para la consecución de los objetivos

institucionales, que garanticen la defensa, contribuyan con la seguridad y desarrollo de la Nación”;

de estas y otras normas legales, se desprenden varias responsabilidades asignadas a la Armada

del Ecuador, entre ellas la de organizar, reclutar, clasificar, formar, capacitar y entrenar al personal

de Oficiales y Tripulantes; estas tareas tienen mayor énfasis en las áreas que comprometen riesgo

en las operaciones y que son críticas para el cumplimiento de los objetivos de la institución, y estas

deben ser realizadas por personal comprometido con el nivel de responsabilidad y con las

capacidades necesarias tanto físicas, académicas y psicológicas para un buen desempeño, ya que

de no ser así, puede causar enormes daños a la institución y sus objetivos.

Dentro de la organización de la Armada, y para efectos de este trabajo, las áreas críticas

consideradas se resumen en el siguiente gráfico:

Figura 8. Esquema funcional de las áreas críticas de la Armada.

Fuente: DIGREH

Tanto los Oficiales y Tripulantes se clasifican en Arma, Técnicos, Servicios y Especialistas; de estos

los Oficiales y Tripulantes de Arma pueden optar por las especialidades de: Superficie,

Submarinos, Aviación Naval e Infantería de Marina. Inteligencia se considera como una

subespecialidad a la que pueden optar los Oficiales de Arma y los Tripulantes Técnicos. Las tareas

y curso que deben realizar en forma general estos grupos se detallan en la siguiente tabla:

Page 28: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

20

Tabla 4. Especialidades y tareas y cursos que deben desarrollar en la Armada.

ESPECIALIDAD /

SUBESPECIALIDAD DETALLE

Superficie: Quienes operan los buques de guerra y buques auxiliares

Todos los Oficiales y Tripulantes que se gradúan en la Escuela Superior

Naval y en la Escuela de Grumetes, tienen la orientación básica hacia

la Especialidad de Superficie; los Oficiales y Tripulantes que son

designados para esta especialidad, tienen que realizar el Curso de

Superficie durante seis meses, luego pasan a operar los buques de

guerra como Fragatas, Corbetas, Lanchas Misileras y los Buques

Auxiliares como Transportadores, Tanqueros o Remolcadores.

Submarinistas: Operan los submarinos

Los Oficiales y Tripulantes designados para esta especialidad, deben

realizar un curso de un año, luego de lo cual pasan a ser parte de las

dotaciones de los dos submarinos que posee la Armada del Ecuador;

en estos, la capacidad del Oficial y Tripulante para soportar el encierro

y operar con seguridad y conocimiento los equipos dan la pauta para

que puedan integrar las dotaciones de estas unidades.

Aviación Naval: Operan los aviones de exploración y helicópteros

Los Oficiales y Tripulantes designados para esta especialidad, deben

realizar el Curso Básico de Aviación, los Oficiales como pilotos de

aviones de ala fija y los tripulantes como mecánicos de aviación; para

los Oficiales, la capacidad y habilidad de vuelo son primordiales para

lograr graduarse, mientras que para los Tripulantes, deben alcanzar un

nivel de conocimiento adecuado para trabajar como técnicos

aeronáuticos.

Infantería de Marina: Realizar operaciones anfibias y especiales y brindan defensa externa e

interna a bases navales.

En este caso, solamente los Oficiales son seleccionados para la

especialidad de Infantería de Marina, los Tripulantes tienen su propia

escuela de formación, por lo que al graduarse de marineros, ya lo hacen

como Infantes de Marina; para los Oficiales, una buena capacidad física,

el temple y fortaleza de carácter, son primordiales para lograr graduarse

en esta especialidad.

Page 29: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

21

ESPECIALIDAD /

SUBESPECIALIDAD DETALLE

Inteligencia: Realizan operaciones de búsqueda de información como base para las

operaciones militares y seguridad interna.

Esta es una subespecialidad, tanto Oficiales como Tripulantes vienen

de otras especialidades previas para realizar el curso; sin embargo, la

selección de este personal es importante ya que integrarán un área

delicada de las Fuerzas Armadas, en donde la capacidad, cautela y

sagacidad son importantes para ingresar.

Fuente: DIGREH

El área del problema a tratar se establece en la Selección de Personal para cursos de

especialización en estas áreas críticas de la Armada, y para la selección de personal de las

especialidades y subespecialidad indicada en la tabla anterior, se sigue un procedimiento que se

lleva de acuerdo al siguiente gráfico:

Figura 9. Esquema funcional resumido de selección de personal para las áreas críticas de la Armada.

Fuente: DIGREH

El proceso de selección considera únicamente como factor primordial de selección de personal el

factor voluntario, y de no ser aplicable (por no alcanzar los cupos) se considera el análisis de perfiles

para disponer la especialidad de los Oficiales y Tripulantes candidatos.

2.2. Problemas presentados en la Selección de Personal

Como se indicó, en la selección de personal para estas especialidades, se tomaban en cuenta

únicamente la preferencia personal y el cupo disponible, dando prioridad a los oficiales y tripulantes

Page 30: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

22

de acuerdo a su antigüedad, para que escojan la especialidad o subespecialidad en la que querían

formarse hasta completar el cupo para cada caso.

Sin embargo, este tipo de consideración para la selección presenta diversos problemas, que los

podemos detallar en la siguiente tabla:

Tabla 5. Problemas existentes para la selección de personal en las áreas críticas de la Armada

FACTOR CONSIDERACIÓN / PROBLEMA ORIENTACIÓN A LA SOLUCIÓN

CAPACIDADES La preferencia personal no siempre

está relacionada con las

capacidades del Oficial o Tripulante

para poder desempeñarse de forma

adecuada.

Determinar la mejor opción de

desempeño de acuerdo al análisis

histórico de casos, que permitan

determinar los mejores perfiles del

candidato

DISTRIBUCIÓN

EQUITATIVA

Este tipo de consideración hacía que

en su tiempo, las opciones menos

populares o menos consideradas

reciban a las personas con menor

desempeño académico,

descompensando la equidad con la

que debería distribuirse al personal

en las especialidades.

Orientar a la obligatoriedad del

cumplimiento de los perfiles

seleccionados para lograr un mejor

desempeño personal.

Fuente: DIGREH

Dentro de la Selección de Personal, algunas veces el personal que ha sido escogido para cada

una de las especialidades presenta problemas de adaptación y desempeño en las áreas

asignadas, existiendo deserción y bajo rendimiento en los cursos, siendo en algunas ocasiones,

motivo de pérdida del curso, lo que afecta en gran medida a todo el sistema; a continuación en la

siguiente tabla se detalla los problemas relacionados:

Tabla 6. Problemas derivados de la mala aplicación de selección de personal para las áreas críticas de la

Armada.

ÁREA DEL

PROBLEMA

DETALLE

PRESUPUESTARIO Se afecta al presupuesto considerado para la capacitación de esa persona en

esa especialidad

DISPONIBILIDAD DE

CUPOS

Se pierde un cupo (puesto) que la pudo ocupar otra persona que

seguramente pudo haber tenido un mejor desempeño.

DISPONIBILIDAD DE

FUERZA LABORAL

Se pierde el tiempo de trabajo (lucro cesante) de esa persona mientras

estuvo en el curso sin lograr el objetivo de su capacitación.

Page 31: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

23

ÁREA DEL

PROBLEMA

DETALLE

PROCEDIMIENTO La selección de personal implica el análisis de mucha información existente

en las bases de datos, lo cual toma mucho tiempo del personal encargado

para procesar estos datos.

Fuente: DIGREH

Para evitar estos problemas, se considera que al no existir un procedimiento normativo sobre las

consideraciones a tomar en cuenta para aplicar los mejores perfiles para la selección de personal

en relación a la gran cantidad de datos existentes, una aplicación informática basada en el análisis

de datos, dará la pauta adecuada para la solución y puede ser la base para establecer un

procedimiento estándar, por lo tanto, la solución del problema va orientado hacia la aplicación de

un proyecto de Minería de Datos en el campo de la Selección de personal, en base al análisis de

los requisitos de los perfiles de las especialidades y subespecialidad de las áreas críticas en la

Armada y el correspondiente procesamiento de los datos relacionados.

2.3. Propuesta de Trabajo

2.3.1. Objetivo

El principal objetivo determinado para este trabajo es:

Desarrollar un modelo de minería de datos para determinar los factores adecuados para la

selección de personal en cada una de las especialidades en las áreas críticas de la Armada.

2.3.2. Objetivos Específicos

Los objetivos específicos, basados en el objetivo principal son:

Identificar los procedimientos de selección de personal utilizados en las áreas críticas de la

Armada orientado a su utilización con Minería de Datos.

Desarrollar un modelo de minería de datos para determinar los factores adecuados de

selección de personal para áreas críticas de la Armada.

Para el desarrollo de estos objetivos se han considerado inicialmente las siguientes estrategias y

consideraciones a ser aplicadas:

Investigar la metodología de Minería de datos y perfiles ocupacionales, esto es la base para

definir posteriormente los factores a considerar para establecer los procedimientos de

selección de personal relacionados con la minería de datos.

La Minería de Datos está orientada a la aplicación de soluciones a nivel de recursos

humanos.

Las áreas críticas definidas inicialmente son: Superficie, Submarinos, Aviación Naval,

Infantería de Marina e Inteligencia.

Page 32: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

24

Durante el trabajo se seleccionará la metodología, la técnica y el modelo más adecuado para

la obtención de los objetivos planteados.

2.3.3. Resultados Esperados

Con este trabajo se pretende obtener:

Un estudio para la solución en el campo informático basado en Minería de Datos, que pueda definir

en forma oportuna y adecuada los patrones de selección de personal previo a los cursos de

perfeccionamiento básicos en las áreas críticas de Superficie, Submarinos, Aviación Naval,

Infantería de Marina e Inteligencia, para apoyar a que el personal de oficiales y/o tripulantes

seleccionados a estos cursos - y que posteriormente ocuparán los puestos dentro de las áreas

críticas - sea el más idóneo para dichas áreas.

Los medios de verificación para este trabajo se refieren al análisis de la información histórica del

personal que labora en estas áreas para determinar los parámetros de selección previa a su

aplicación, basada en los siguientes aspectos:

Los datos de salida del proceso, deben estar acordes con los perfiles más adecuados para

cada especialidad, en base a los datos de entrada escogidos de la base de datos.

Descubrir aspectos importantes que no hayan sido considerados en los métodos

tradicionales de selección para las especialidades.

Page 33: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

25

3. FASE I: COMPRENSIÓN DEL NEGOCIO

Page 34: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

26

3.1. Contexto

En cuanto a la selección del personal de alumnos para los diferentes cursos de especialidad

(conocidos como cursos de perfeccionamiento), se ha realizado un análisis de la situación en este

campo y se ha observado que el actual proceso de selección de personal para las áreas críticas

de la Armada (Superficie, Submarinos, Aviación Naval, Infantería de Marina e Inteligencia) presenta

el inconveniente de no tener un procedimiento técnico para seleccionar al personal más idóneo

que cubran las necesidades de los perfiles requeridos.

Para solucionar este inconveniente, es necesario en primer lugar, estudiar los perfiles necesarios

para cubrir en forma adecuada los requerimientos de cada especialidad; en segundo lugar,

investigar cuales son las características y datos existentes del personal que podrían aportar para

encontrar patrones ocultos de selección; y luego, realizar el análisis respectivo a fin de determinar

los mejores criterios de selección.

Para lograr esto, si bien existirían varios procedimientos y técnicas, se debe considerar que la

Minería de Datos proporciona las herramientas adecuadas para realizar esta selección de criterios,

y es una poderosa herramienta tanto de selección, como para encontrar factores o información no

considerada inicialmente; por este motivo, se busca optimizar este proceso realizando un proyecto

de Minería de Datos, considerando la utilización del método de árboles de decisión y la metodología

CRISP-DM.

El primer punto a considerar es que existen una organización y perfiles para cada una de las

especialidades y cuyo análisis nos dará una pauta del trabajo a realizar, por lo que se encuentra

detallado en el Anexo A “ORGANIGRAMAS FUNCIONALES Y REQUISITOS PARA CADA

FUNCIÓN”.

3.2. Objetivos de negocio

Si existiera una mala selección de personal se presentan varias desventajas, entre ellas tenemos

que incluso una baja tasa de deserción de los cursos, causa un tremendo impacto en el proceso

de la carrera del Oficial o Tripulante, afectando directamente a su carrera profesional y causando

un gran problema presupuestario y administrativo en la gestión de la Armada.

Por estos motivos, utilizando la información histórica existente en la Dirección General de Recursos

Humanos, se pretende lograr que esta selección de parámetros sea la más adecuada para apoyar

a que los futuros oficiales y tripulantes contribuyan efectivamente y no sean un factor de riesgo

para las diferentes operaciones.

El problema que se presenta es que cuando un alumno pierde un curso, se genera un tremendo

impacto en el proceso de la carrera del Oficial o Tripulante, ya que si no lo aprueba: 1) puede ser

motivo de sanción disciplinaria, 2) debe tomar otro curso de otra especialidad, 3) es motivo para

no ser considerado para el ascenso al siguiente grado militar u otros problemas graves.

Page 35: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

27

Otra parte del problema es que se pierde el cupo que podría haber sido asignado a otra persona y

el respectivo presupuesto asignado para ese cupo en ese curso, afectando de este modo a la

planificación de carrera del personal de la Armada, al no contar con el personal estimado disponible

en esa especialidad y ser necesario realizar reajustes u asignación de un nuevo cupo para el

siguiente curso; todos estos problemas causan además demoras administrativas en los procesos

educativos y de personal.

Por tanto, el Objetivo primordial del negocio, que está relacionado al objetivo del trabajo, es el

siguiente:

Determinar los factores de selección de personal para cada una de las especialidades de

Superficie, Submarinos, Aviación Naval, Infantería de Marina e Inteligencia, de tal forma de poder

aplicarlos en una selección futura adecuada para los próximos aspirantes a los cursos en estas

especialidades.

Las preguntas relacionadas a este objetivo son:

¿Cómo afecta el desempeño profesional de cada persona como parámetro de selección

adecuado para los próximos cursos?

¿La información existente en la base de datos de personal de la Dirección General de

Recursos Humanos es adecuada para una buena selección del personal en cuanto a los

parámetros requeridos para la selección?

Otro objetivo relacionado es que los parámetros para la selección, sean coherentes con un

desempeño aceptable del personal de Oficiales y Tripulantes (a futuro), tomando en cuenta las

siguientes condiciones básicas establecidas en la Armada para los cursos en general:

1. Que en cada una de las materias supere el mínimo requerido (16/20)

2. Que el promedio de su desempeño sea de mínimo 16/20

3. Que no tenga problemas de conducta ni adaptación.

Otra consideración es que la evaluación durante el primer año posterior al término del curso la

evaluación de desempeño de cada Oficial y Tripulante que terminan los cursos sea muy buena, es

decir, supere el 18/20.

Por tanto, en relación al “negocio”, este trabajo pretende que a futuro la selección de personal para

las cinco áreas críticas en la Armada del Ecuador, sea realizada de forma eficiente y sin que se

presenten los problemas que aquejan actualmente a este procedimiento.

Los factores considerados para el trabajo de Minería de Datos se pueden ver en el Anexo B

“REPORTE DE REQUERIMIENTOS QUE DEBE CUBRIR EL MODELO DE MINERÍA”.

3.3. Criterios de éxito de negocio

Los criterios de éxito considerados se muestran en la siguiente tabla:

Page 36: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

28

Tabla 7. Criterios de éxito del negocio

FACTOR CRITERIO DE ÉXITO CARACTERÍSTICAS

SELECCIÓN

DE

PERSONAL

Determinar rangos verdaderos en los que

la selección de personal se pueda basar

para clasificar correctamente al personal

en las especialidades consideradas.

Rangos de selección medibles

respecto a los factores

considerados.

NOTA MÍNIMA

EN CADA

MATERIA

Que cada Oficial o Tripulante en curso

iguale o supere el mínimo requerido en

cada materia.

Superar la nota de 16/20 en

cada materia; se establece un

margen de error de +/- 5%

NOTA MÍNIMA

EN CADA

CURSO

Que cada Oficial o Tripulante en curso

iguale o supere el promedio general en

cada curso realizado.

Superar el promedio general de

16/20; se establece un margen

de error de +/- 5%

CONDUCTA Que su conducta supere la evaluación de

conducta en un nivel adecuado al buen

comportamiento.

Superar la evaluación de 18/20;

se establece un margen de error

de +/- 5%

EVALUACIÓN

DE

DESEMPEÑO

Que el promedio de la evaluación del

desempeño de los Oficiales y Tripulantes

que terminan los cursos, posterior a un

año de labores sea adecuado.

Promedio de desempeño sea

igual o superior al 18/20.

Fuente: DIGREH

3.4. Inventario de recursos

Dentro de esta estructura de la Dirección General de Recursos Humanos, tenemos el Centro de

Tecnologías de la Información de la Dirección General del Talento Humano, que es la encargada

de manejar la Base de Datos de todo el personal de la Armada, a cargo del Sr TNNV-IG Álvaro

Armijos Ramírez.

La base de datos está fundamentada en SQL Server y el Hardware disponible en la Dirección

General de Recursos Humanos se muestra en la siguiente tabla:

Tabla 8. Recursos disponibles del proyecto de minería (Servidores y aplicaciones)

Servidor

No S.O. Procesador Aplicaciones

1 ESXI 02 Procesadores Intel Xeon Six Core 2.67

GHz. RAM: 12 GB

DigpergyeWeb

Sistema de evaluación

2 ESXI 02 Procesadores Intel Xeon Six Core 3.47

GHz. RAM: 12 GB

Discos: 02 Discos de 146 GB c/u

DBReclutamiento

ServerDigital

Page 37: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

29

Servidor

No S.O. Procesador Aplicaciones

06 Discos de 500 GB c/u

3 ESXI 5.5 02 Procesadores Intel Xeon Six Core 2.67

GHz. RAM: 12 GB

Discos: 02 Discos de 146 GB c/u

Discos: 06 Discos de 500 GB c/u

Elastix-digreh

4 ESXI 01 Procesador Intel Xeon Quad Core 2.66

GHz. RAM: 6 GB

Discos: 06 Discos de 250 GB c/u

Chat Virtual OTRS

Otrs.Digreh

Reclutamiento

5 Windows

Server

2003

02 Procesadores Intel Xeon Quad Core

3.00 GHZ. RAM: 4 GB

Discos: 08 Discos de 146 GB c/u

Sueldos

6 ESXI 01 Procesador Intel Xeon CPU E5-2630

2.3 GHz. RAM: 16 GB

Discos: 02 Discos de 300 GB c/u

03 Discos de 1 TB c/u

Antivirus2008

Digpergye02

Docuserver2008

Biométrico

Dominiodigper

Fuente: CETEIN (DIGREH)

Dentro del Centro de Tecnologías de la Información, existe personal de Ingenieros de Sistemas,

programadores, digitadores y secretaria, que realizan la revisión, actualización y mantenimiento de

los servidores, aplicaciones y bases de datos; dentro del manejo de la Base de Datos, el encargado

principal es el Ingeniero de Sistemas Alex Ramírez.

3.5. Requerimientos, presunciones, y restricciones

Los requerimientos, presunciones y restricciones se detallan en la siguiente tabla:

Tabla 9. Requerimientos, presunciones y restricciones

FACTOR DETALLE

REQUERIMIENTOS El proyecto debe determinar, de acuerdo a los datos considerados,

los factores de selección del personal más adecuados para cada

especialidad, pero que estén relacionados y sean un aporte a dicha

selección, desechando toda la información, que pudiendo ser

valiosa por sí misma, pero que para el resultado buscado no aporte

en nada o sea un aporte insignificante.

Page 38: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

30

FACTOR DETALLE

Los datos principales deben estar agrupados y adaptados a un solo

formato para ser válidos, y su resultado debe estar

comprensiblemente resumido para su entendimiento y

procesamiento.

PRESUNCIONES Se debe asumir que los datos del personal existentes, tanto en su

base como en su desarrollo, contienen la información suficiente para

poder realizar un análisis con minería de datos que arroje resultados

utilizables y verificables.

El grupo objetivo para este trabajo se basa en el personal que ha

terminado los cursos y luego se ha desempeñado en su área

respectiva, tomando en consideración solo el tiempo que

efectivamente se encontró laborando en su área durante un tiempo

mayor a cinco años; con estos datos, se puede aplicar en los

Oficiales y Tripulantes que se encuentran por ingresar para

determinar los perfiles adecuados.

RESTRICCIÓN Existe cierta información en la base de datos que tiene carácter

confidencial, por lo que el acceso a esta información debe ser

coordinado o manipulada de tal forma que no sea asociada a una

persona en particular sino a un perfil específico, por tanto, es

importante manejar los datos para que se adapten a esta situación.

Fuente: DIGREH

3.6. Riesgos y contingencias

Existen varios riesgos asociados a este Proyecto de Minería de Datos, para esto se detallan considerando los planes de contingencia respectivos en la siguiente tabla:

Tabla 10. Riesgos y contingencias

RIESGO PLAN DE CONTINGENCIA

Acceso restringido a ciertos

datos del personal que

pueden ser importantes

para lograr los objetivos

Se debe realizar el acercamiento con el Director General de

Recursos Humanos actual para la autorización respectiva,

considerando que este puesto no es fijo sino que la autoridad

puede variar entre un año y dos.

Base de Datos con

información insuficiente

Buscar la información necesaria en Bases de Datos de

instituciones anexas que puedan tener los datos requeridos,

como la Dirección General de Educación u otros

Page 39: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

31

RIESGO PLAN DE CONTINGENCIA

para lograr el objetivo de

Minería de Datos

Sistema de base de datos

de la Dirección General de

Personal sea inestable

debido a su antigüedad y

por tanto el manejo de datos

sea riesgoso.

Se considerará la implementación de una estación adicional (si es

requerido) que maneje los datos en forma paralela y con las

debidas seguridades para evitar daños en la base de datos

principal o exportar los datos requeridos para no trabajar

directamente sobre los servidores; además se considerará

realizar los ajustes requeridos al sistema de hardware de la

estación de servidores para esta implementación de ser

necesario.

La estructura de datos sea

diversa y se dificulte la

compilación de datos de la

base de datos principal

Se debe realizar la implementación de ajustes a los datos y

metadatos para organizar la información y permitir su

manipulación y exportación de forma adecuada.

Dentro de la estructura de

los datos no exista los datos

o tablas necesarias para un

análisis adecuado de lo que

se intenta implementar.

Se deberá realizar la búsqueda de la información, verificando

donde se encuentran los datos importantes para exportarla e

implementarla dentro de las condiciones de selección de

personal.

Fuente: DIGREH

3.7. Terminología

La siguiente tabla, muestra los términos que van a servir para la comprensión del proyecto:

Tabla 11. Términos y su significado

TÉRMINO SIGNIFICADO

Antigüedad Es el establecimiento del nivel de desempeño de cada militar en relación a

su promoción y en relación al tiempo de servicio en relación a otras

promociones.

CETEIN Acrónimo de Centro de Tecnologías de la Información

Candidato Oficial o Tripulante que debe ser considerado (o aspira) para un curso, ya

sea obligatorio u opcional (debe distinguirse de la persona que va a

ingresar a las escuelas de formación que se llaman “aspirantes”)

Conducta Condición del personal militar en que se debe adecuar su comportamiento

en base a las normas militares, culturales y de sociedad para el beneficio

común; esta condición es evaluable.

Page 40: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

32

TÉRMINO SIGNIFICADO

Cursos de

Formación

Son los cursos en donde se preparan a los nuevos ciudadanos que

ingresan a las Escuelas Superior Naval y de Grumetes para formarlos

como Oficiales o Tripulantes de la Armada del Ecuador

Cursos de

Perfeccionamiento

Son los cursos en donde se preparan a los Oficiales y Tripulantes ya

graduados para que adquieran especialidades profesionales que les

permitan desempeñarse en su carrera naval.

Encomios Son recompensas dadas al personal militar por acciones meritorios en

diferentes campos

DIGREH Dirección General de Recursos Humanos de la Armada del Ecuador

Promoción Es el grupo de Oficiales o Tripulantes que se graduaron en un mismo año

en las Escuelas de Formación

Reclutamiento Proceso por el cual se promueve a las personas externas y/o internas de

una institución a formar parte de esta o de cursos, comisiones, trabajos etc,

para integrar dicha institución en beneficio de la gestión de esta.

Sanciones Son los castigos impuestos al personal militar por el incumplimiento del

Reglamento de Disciplina, que es registrado en su libreta de vida naval.

Fuente: DIGREH

3.8. Costos y beneficios

De acuerdo a la infraestructura existente en la Dirección General de Recursos Humanos, se tienen los siguientes costos estimados relacionados al proyecto:

Los costos estimados para este proyecto se indican en la siguiente tabla:

Tabla 12. Costos estimados del proyecto

No ÍTEM UNIDAD CANTI

DAD

VALOR

UNITARIO

VALOR

TOTAL SITUACIÓN

1 Adecuación de

los servidores

General 1 $200,00 $200,00 Se requiere adecuación de

servidores para poder trabajar

con los datos (solo si es

requerida)

2 Implementación

de una estación

de trabajo

General 1 $700,00 $700,00 Computadora a instalarse de

forma temporal mientras se

manejan los datos (Adquisición

solo si es requerida)

3 Implementación

del algoritmo

General 1 $50,00 $50,00 Valor estimado, solo relacionado

a material adicional requerido

Page 41: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

33

No ÍTEM UNIDAD CANTI

DAD

VALOR

UNITARIO

VALOR

TOTAL SITUACIÓN

(memoria externa, CD-RW o

similar solo si es requerido)

4 Gastos

asociados al

proceso (gastos

administrativos)

General 1 $200,00 $200,00 Si es requerido

5 Entrenamiento Curso 2 $0,00 $0,00 Cursos a ser dados al personal

que administrará el sistema

6 Programa de

selección

General 1 $0,00 $0,00 Implementación de la búsqueda

de información sobre perfiles

TOTAL $1150,00

Fuente: DIGREH

De acuerdo a los costos considerados para este proyecto, se establece el siguiente cuadro de costo – beneficio:

Tabla 13. Costo – Beneficio del Proyecto

No ÍTEM COSTO BENEFICIO

1 Adecuación de los

servidores

$200,00 Facilidad de acceso a la información de los

servidores sin afectar su funcionamiento

normal.

2 Implementación de

una estación de

trabajo

$700,00 Poder realizar pruebas en base directamente

conectado a la base de datos, al no ser

necesario llevarse el equipo hasta el fin del

proyecto, se aumenta la seguridad del manejo

de los datos.

3 Implementación del

algoritmo

$50,00 Tener la disponibilidad de manejar en forma

aislada ciertos datos que sean requeridos

4 Gastos asociados al

proceso (gastos

administrativos)

$200,00 Utilizar para gastos varios administrativos o no

considerados.

5 Entrenamiento $0,00 Capacitación adecuada al personal de la

DIGREH que manejará el sistema.

Page 42: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

34

No ÍTEM COSTO BENEFICIO

6 Proceso de selección $0,00 El sistema permitirá a la Armada del Ecuador,

tener una evaluación adecuada del personal

que van a ser seleccionados para los cursos de

perfeccionamiento, evitando la deserción y

mejorando su desempeño profesional.

TOTAL $1.150,00

Fuente: DIGREH

3.9. Objetivos y Criterios de éxito de minería de datos

3.9.1. Determinación de los objetivos de la minería de datos

Para lograr determinar los factores comunes que se presentan en la selección de personal para

cada una de las especialidades de Superficie, Submarinos, Aviación Naval, Infantería de Marina e

Inteligencia, se establece el siguiente objetivo:

Determinar los valores de los parámetros relacionados a las rutas de clasificación encontradas por

el algoritmo dentro de la clasificación de las cinco especialidades consideradas, de acuerdo al

método del árbol de decisión utilizado y que logre una clasificación con el menor error determinable.

Derivado de este objetivo principal, se deben considerar dos divisiones para la aplicación futura de

la selección:

1. Estimar en cada grupo de Oficiales y Tripulantes que van a iniciar cursos de

perfeccionamiento las personas que tengan el mejor perfil para cada una de las

especialidades consideradas.

2. Estimar de todo el grupo de Oficiales y Tripulantes de una determinada promoción, quienes

tienen el mejor perfil para la especialidad de Inteligencia.

Esta división es necesaria ya que debe indicarse que el segundo punto está relacionado

únicamente a la especialidad de inteligencia, que es la única que pueden optar todos los Oficiales

y Tripulantes independiente de su formación en la Escuela Superior Naval o de Grumetes.

3.9.2. Criterios de éxito de la minería de datos

Los criterios de éxito para este proyecto son los siguientes:

1. Cuando se aplique el modelo a una población candidata que requiera su clasificación para los

cursos, esta clasificación este acorde a lo previsto por el modelo en un porcentaje lo más alto

posible.

2. Que los resultados arrojados por el modelo sean comprensibles y fáciles de manejar e

interpretar por el usuario del sistema.

Page 43: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

35

3.10. Plan del proyecto

Tabla 14. Plan del Proyecto con recursos, entradas, salidas y dependencia

No ETAPA DURACIÓN DETALLE RECURSOS

REQUERIDOS ENTRADAS SALIDAS DEPENDENCIA

1 Análisis de los datos de la Base de Datos

10 horas Revisión de la base de datos junto a los servidores de la DIGREH

Información de los tipos de datos disponibles en la BD

Todos los tipos de datos de la BD de personal

Comprensión de los datos

Instalación del sistema en el sector

2 Selección de los datos relevantes

20 horas Escoger los tipos de datos que serán requeridos para el análisis de la Minería de Datos

Información detallada de los tipos de datos de la BD

Todos los tipos de datos de la BD de personal

Selección de los datos

Disponer de la información detallada

3 Selección inicial de herramientas y técnicas

5 horas Escoger la técnica de Minería de Datos y sus herramientas asociadas

Disponibilidad de técnicas de Minería de Datos y sus herramientas

Datos seleccionados para Minería de Datos

Seleccionar la técnica y herramienta más adecuada

Datos seleccionados sean adecuados

4 Revisión y estructuración de los datos relevantes

10 horas Verificar formato y compatibilidad de los datos, datos faltantes en base a la técnica seleccionada.

Acceso completo a la estructura de los datos

Datos, técnica y herramientas seleccionadas

Estado de los datos (formato, compatibilidad y faltantes)

Datos seleccionados deben permitir su modificación

5 Soluciones de estructura de la base de datos

10 horas Solucionar problemas de estructura o datos faltantes en la BD

Acceso completo a la estructura de los datos

Estado de los datos a utilizar

Datos estructurados y completos

Capacidad de realizar la modificación y completamiento de datos

Page 44: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

36

No ETAPA DURACIÓN DETALLE RECURSOS

REQUERIDOS ENTRADAS SALIDAS DEPENDENCIA

6 Desarrollo del modelo

20 horas Configurar el modelo de Minería de Datos a aplicar en la BD

Acceso completo a la estructura de los datos y aplicabilidad en sitio del modelo considerado.

Datos estructurados y completos, técnica y herramientas seleccionadas

Modelo inicial de Minería de Datos a aplicar en la BD

Modelo compatible con la estructura de la BD

7 Prueba inicial de modelo

10 horas Aplicar el modelo en la BD y observar los resultados obtenidos inicialmente hasta verificar funcionamiento.

Acceso completo a la estructura de los datos y aplicabilidad en sitio del modelo considerado.

Modelo inicial de Minería de Datos

Resultados obtenidos en la prueba inicial

Modelo desarrollado debe ser aplicable a la Base de Datos en sitio.

8 Ajustes del modelo y/o base de datos

15 horas Realizar los ajustes al modelo o la base de datos para que los resultados sean los esperados (es necesario realizar otras pruebas hasta terminar los ajustes)

Acceso completo a la estructura de los datos y aplicabilidad en sitio del modelo considerado.

Resultados obtenidos en la prueba inicial al aplicar el modelo

Modelo y/o base de datos ajustado para optimizar resultados esperados

Posibilidad de realizar varias pruebas adicionales para verificar las soluciones

9 Prueba del modelo 5 horas Se realiza la prueba definitiva del modelo con la presencia de la autoridad relacionada

Acceso completo a la estructura de los datos y aplicabilidad en sitio del modelo considerado.

Modelo y/o base de datos ajustado (revisión final)

Modelo probado formalmente ante la autoridad competente

Posibilidad de realizar prueba final para verificar su funcionalidad

Page 45: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

37

No ETAPA DURACIÓN DETALLE RECURSOS

REQUERIDOS ENTRADAS SALIDAS DEPENDENCIA

10 Evaluación del modelo

10 horas Se realiza la evaluación de los resultados arrojados por el modelo y se comparan con los resultados esperados.

Modelo y Base de Datos final

Modelo y base de datos final

Evaluación final del sistema

Modelo probado satisfactoriamente

11 Instrucción 6 horas Se imparte la instrucción de operación de la aplicación al personal encargado de manejar la Base de Datos y del sistema de selección de personal.

Documentos del sistema y evaluación disponibles

Evaluación y funciones del sistema; usuarios del sistema

Usuarios del sistema capacitados en el uso de la aplicación de Minería de Datos

Modelo probado satisfactoriamente y material de instrucción disponible

Fuente: Desarrollo del autor

Page 46: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

38

Tabla 15. Plan del Proyecto con riesgos, dependencias y acciones a tomar

No ETAPA DURACIÓN

SALIDAS RIESGOS DEPENDENCIA EN FUNCIÓN DEL RIESGO

ACCIONES A TOMAR

1 Análisis de los datos de la Base de Datos

10 horas

Comprensión de los datos

Acceso restringido a ciertos datos del personal que pueden ser importantes para lograr los objetivos

Instalación del sistema en el sector debe ser coordinada con la autoridad respectiva.

Realizar el acercamiento con el Director General de Recursos Humanos para continuar con la autorización del uso de los datos e instalar el equipo de ser necesario

2 Selección de los datos relevantes

20 horas

Selección de los datos

Base de Datos con información insuficiente para lograr el objetivo de Minería de Datos

Disponer de la información detallada, que debe encontrarse en la base de datos principal o relacionada (solo si es requerido, puede aumentar el tiempo necesario)

Buscar la información necesaria en Bases de Datos de instituciones anexas que puedan tener los datos requeridos como la Dirección General de Educación, Registro Civil, Ministerio de Educación, etc. (solo si es requerido)

3 Selección inicial de herramientas y técnicas

5 horas

Seleccionar la técnica y herramienta más adecuada

Depende del programador

Datos seleccionados sean adecuados

Verificar de existir contingencias no previstas

4 Revisión y estructuración de los datos relevantes

15 horas

Estado de los datos (formato, compatibilidad y faltantes)

Sistema de base de datos de la Dirección General de Personal sea inestable debido a su antigüedad y por tanto el manejo de datos sea riesgoso.

Datos seleccionados deben permitir su modificación sin afectar a la base de datos principal (puede aumentar el tiempo requerido)

Implementar de una estación adicional que maneje los datos en forma paralela y con las debidas seguridades para evitar daños en la base de datos principal, y realizar los ajustes requeridos al sistema de hardware de la

Page 47: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

39

No ETAPA DURACIÓN

SALIDAS RIESGOS DEPENDENCIA EN FUNCIÓN DEL RIESGO

ACCIONES A TOMAR

estación de servidores para esta implementación (si es requerido)

5 Soluciones de estructura de la base de datos

15 horas

Datos estructurados y completos

La estructura de datos sea diversa y se dificulte la compilación de datos de la base de datos principal

Capacidad de realizar la modificación y completamiento de datos (dependiendo de la complejidad de los problemas podría ser necesario más tiempo)

Se debe ajustar los datos y metadatos para organizar la información y permitir su manipulación de forma adecuada.

6 Desarrollo del modelo

20 horas

Modelo inicial de Minería de Datos a aplicar en la BD

Dentro de la estructura de los datos no exista los datos o tablas necesarias para un análisis adecuado de lo que se intenta implementar.

Se debe verificar que el modelo sea compatible y adaptable a la Base de Datos.

Realizar la implementación delos datos para la estructura, verificando donde se encuentra la información para implementarla dentro del programa de verificación de los perfiles.

7 Prueba inicial de modelo

10 horas

Resultados obtenidos en la prueba inicial

Dependiendo de la prueba

Modelo desarrollado debe ser aplicable a la Base de Datos en sitio.

Verificar de existir contingencias no previstas

8 Ajustes del modelo y/o base de datos

15 horas

Modelo y/o base de datos ajustado para optimizar resultados esperados

Dependiendo de la prueba

Posibilidad de realizar varias pruebas adicionales para verificar las soluciones

Verificar de existir contingencias no previstas

9 Prueba del modelo

5 horas

Modelo probado formalmente ante

N/A Posibilidad de realizar prueba final para verificar su funcionalidad

N/A

Page 48: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

40

No ETAPA DURACIÓN

SALIDAS RIESGOS DEPENDENCIA EN FUNCIÓN DEL RIESGO

ACCIONES A TOMAR

la autoridad competente

10 Evaluación del modelo

10 horas

Evaluación final del sistema

N/A Modelo probado satisfactoriamente

N/A

11 Instrucción 6 horas

Usuarios del sistema capacitados en el uso de la aplicación de Minería de Datos

N/A Modelo probado satisfactoriamente y material de instrucción disponible

N/A

Fuente: DIGREH y Desarrollo del autor

Page 49: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

41

3.11. Evaluación inicial de herramientas y técnicas

La lista de criterios de selección para herramientas y técnicas es:

1. Dentro de las entradas se debe considerar el factor histórico del personal previamente

graduado para que ingrese como la base para que el método seleccionado de Minería de

datos determine los porcentajes óptimos de cada grupo de datos del personal.

2. Las herramientas y técnicas deben permitir que se clasifique al personal de Oficiales y

Tripulantes que van a ingresar a los cursos de acuerdo a las tendencias encontradas y

determinar los mejores candidatos para cada especialidad.

3. Las herramientas y técnicas deben permitir que una vez finalizados los cursos y evaluado el

personal de alumnos, estos datos sirvan de retroalimentación al modelo para optimizarlo.

De acuerdo al análisis inicial realizado, vamos a exponer las motivaciones para apoyar la

herramienta seleccionada:

Arboles de Decisión

De acuerdo a lo previamente analizado en el capítulo 1, la ventaja de usar un árbol de decisión es

que su manejo es relativamente simple, pero se debe tener cuidado, en no complicar demasiado

la estructura de la clasificación ya que esto puede generar árboles de decisión difíciles de aplicar

en forma práctica.

Dadas las características del objetivo buscado, en que se debe clasificar los datos seleccionados

en base a los perfiles requeridos, se considera que la mejor herramienta de Minería de Datos para

este proyecto es el árbol de decisión, por lo que la investigación del caso se realizará tomando en

cuenta esta herramienta y desarrollando un algoritmo basado en su metodología.

Page 50: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

42

4. FASE II: COMPRENSIÓN DE DATOS

Page 51: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

43

4.1. Recolección de datos iniciales

El sistema de datos está estructurado en SQL Server, un ejemplo de la estructura de las tablas de

la Base de Datos principal se muestra en el siguiente gráfico:

Figura 10. Ejemplo de estructura de las tablas de la Base de Datos Principal

Fuente: CETEIN (DIGREH)

En este caso, se muestra la estructura de la tabla principal llamada “persona” en donde se

encuentra la información completa de cada Oficial y Tripulante.

Page 52: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

44

La forma de estructurar las tablas se realiza tomando la tabla “Persona” como principal y de ella se

deriva la Tabla de detalle con la que se quiere guardar la información laboral o familiar, en la figura

de ejemplo se muestra la relación con las tablas asociadas a las faltas (Falta_Sancion).

La mayor parte de las tablas de la base de datos principal tienen este esquema; el código de

persona se traslada a las tablas de detalle cuando es requerido.

Existen otras estructuras de tablas que por su función, se estructura aparte de la tabla principal,

pero que no es necesario vincularlas por lo particular de su creación; un ejemplo de estas tablas

son las Resoluciones de los Consejos, que se particulariza para cada trámite solicitado al consejo.

La tabla “Persona” contiene información general sobre identificación, grado militar, entre otra

información importante. Las tablas principales relacionadas a la tabla principal de “Persona” se

refieren a:

Sanciones (mencionada en el ejemplo)

Méritos (condecoraciones, encomios, felicitaciones etc.)

Trasbordos (repartos en donde se ha encontrado laborando)

Cursos (nombre del curso, fechas de inicio y fin, nota promedio etc.)

Tiempo de servicio

Comisiones cumplidas

Licencias y Permisos

Cada una de estas tablas, tienen a su vez tablas de clases en donde se detallan los puntos que

deben cumplir para poder ingresar los datos a los operadores de la base de datos.

En la siguiente tabla se muestra todos los datos utilizados en el sistema de personal y los tipos de

datos generales utilizados:

Tabla 16. Estructura general de los datos de personal utilizado en la DIGREH

ESTRUCTURA DATOS SECUNDARIOS TIPO DE DATOS

DATOS PRINCIPALES GRADO Texto APELLIDOS Y NOMBRES: Cadena CEDULA: Numérico (int) SEXO Booleano GRUPO ESPECIALIDAD: Texto PERFECCIONAMIENTO: Texto DIPLOMADO: Cadena LUGAR DE NACIMIENTO: Texto FECHA DE NACIMIENTO: Fecha FECHA DE INGRESO: Fecha FECHA DE GRADUACIÓN: Fecha TIEMPO EN LA INSTITUCIÓN: Fecha TIEMPO DE SERVICIO : Fecha ESTADO CIVIL: Texto PROMOCIÓN: Numérico (int) TIPO DE SANGRE : Texto ASCENSOS: FECHA DE ASCENSO Fecha GRADO CALIFIC. Cadena PROMEDIO Numérico (float) PUNTAJE Numérico (float)

Page 53: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

45

ESTRUCTURA DATOS SECUNDARIOS TIPO DE DATOS

REFERENCIA Cadena CALIFICACIONES ANUALES: FECHA DESDE Fecha FECHA HASTA Fecha CALIFICACIÓN Texto LISTA Numérico (int) REPARTO Texto RECOMPENSAS O CONDECORACIONES:

FECHA CONCESIÓN Fecha

PAÍS Texto TIPO DE RECOMPENSA O

CONDECORACIÓN Cadena

DOCUMENTO DE REFERENCIA Cadena OTORGADA POR Cadena CURSOS: PAÍS Texto TIPO DE CURSO Cadena FECHA INICIO Fecha FECHA FIN Fecha CALIFICACIÓN Numérico (float) ANTIGÜEDAD ARMADA Numérico (int) BONIFICA SI/NO Booleano CUOTA DE ELIMINACIÓN Booleano EXONERADO Booleano TIEMPO Numérico (int) VALOR Numérico (float) PERDIDA DE CURSO Booleano PROFESORADO: FECHA INICIO Fecha FECHA FIN Fecha HORAS DICTADAS Numérico (int) CURSO Cadena MATERIA DICTADA Cadena REFERENCIA Cadena SALIDAS AL EXTERIOR: CAUSA DE SALIDA Cadena PAÍS Texto DMA SALIDA Fecha DMA RETORNO Fecha TIEMPO Fecha TRANSBORDOS: PASE Texto FECHA DESDE Fecha FECHA HASTA Fecha INSUBSISTENCIA Booleano PRESTACIÓN SERVICIOS Booleano PLAZA Texto CARGO Cadena ESPECIALIDAD: FORMACIÓN Texto F. ASIGNACIÓN Fecha DIPLOMADO Texto F. ASIGNACIÓN Fecha PERFECCIONAMIENTO Texto F. ASIGNACIÓN Fecha INSTRUCCIÓN ACADÉMICA: TITULO Cadena ACORDE Cadena INFORME Cadena FECHA Fecha FALTAS Y SANCIONES: GRADO Texto F. FALTA Fecha FALTA Cadena TIPO Texto SANCIÓN Cadena DÍAS Numérico (int) DOCUMENTO DE REFERENCIA Cadena CÓNYUGE: CEDULA Numérico (int) APELLIDOS Y NOMBRES Cadena FECHA DE NACIMIENTO Fecha NACIONALIDAD Texto MIEMBRO DE LA ARMADA Booleano

Page 54: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

46

ESTRUCTURA DATOS SECUNDARIOS TIPO DE DATOS

ESTADO CIVIL Texto SUBSIDIO Booleano VIVE Booleano HIJOS: FECHA DE NACIMIENTO Fecha CEDULA Numérico (int) APELLIDOS Y NOMBRES Cadena SEXO Booleano ESTADO CIVIL Texto SUBSIDIO COBRA Booleano VIVE Booleano PADRES: PADRE / MADRE Booleano CEDULA Numérico (int) APELLIDOS Y NOMBRES Cadena NACIONALIDAD Texto FECHA DE NACIMIENTO Fecha VIVE Booleano LICENCIAS Y PERMISOS CAUSA DEL PERMISO Cadena FECHA INICIO Fecha FECHA FIN Fecha CON SUSPENSIÓN Booleano DÍAS Numérico (int) DOCUMENTO DE REFERENCIA Cadena TIEMPO TOTAL OPERATIVO: REPARTO Texto AÑO Numérico (int) DÍAS EN LA MAR Numérico (int) DÍAS EN EL TERRENO Numérico (int) HORAS DE VUELO Numérico (float) HORAS DE INTELIGENCIA Numérico (float) UNIDADES OPERATIVAS Texto TIEMPO TOTAL Numérico (int / float)

Fuente: CETEIN (DIGREH)

Esta base de datos es la principal a analizar para recolectar los datos necesarios, también se

utilizarán (de ser necesario) datos de otras bases de datos que se encuentran en los otros

servidores, pero que al final concluyen en el mismo Sistema de Gestión de Personal de la DIGREH.

4.2. Informe de colección de datos iniciales

4.2.1. Contexto

Los datos recolectados provienen de la base de datos principal con todas sus tablas relacionadas;

debido a que la colección de datos se debe realizar de esta base de datos con diferentes tablas y

de otras bases de datos, la forma de extraer la información debe ser hecha en forma manual,

realizando en forma general, el siguiente procedimiento:

1. Selección del personal que va a integrar el estudio.

2. Tabulación de los códigos de cada uno de los seleccionados.

3. Selección de los atributos de la información del personal que es relevante para el estudio.

4. Consultas realizadas de acuerdo a los códigos para obtener la información requerida.

5. Integración de la información obtenida y migración hacia tablas de Microsoft Excel.

Page 55: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

47

4.2.2. Criterios de Selección

Para los criterios de selección de los datos, en base a las consideraciones del objetivo de minería

de datos se muestran en la siguiente tabla:

Tabla 17. Criterios de Selección de Datos (indicadores)

No CRITERIO DE SELECCIÓN DETALLE

01 Logros académicos Los logros académicos dan la pauta para evaluar el

mejor desempeño de cada persona considerada en el

estudio.

02 Logros de gestión En cada especialidad, verificar que personas han

logrado una gestión adecuada.

03 Logros de comportamiento Se verifica el personal que ha tenido menos problemas

de comportamiento dentro de su especialidad.

04 Capacidad de permanencia en

su especialidad

Esto da la pauta del personal que ha tenido mayor

tiempo de permanencia en su especialidad.

Fuente: DIGREH

Estos criterios nos darán la pauta para ver al personal con el mejor desempeño, para lograr

determinar los patrones adecuados para las futuras selecciones de personal.

4.2.3. Lista de Fuentes de Datos

En el siguiente cuadro se muestra la lista de fuente de datos considerado para este análisis y su

método de extracción:

Tabla 18. Fuentes de datos y su método de extracción

No FUENTES DE DATOS MÉTODO DE EXTRACCIÓN

01 Módulo de Datos de Personal Consultas en SQL, de este módulo se extrajo la información

de grado, nombres y apellidos, cédula y su código

relacionado.

02 Módulo de Sistema de Evaluación Consultas en SQL, de este módulo se extrajo la información

de notas de graduación, notas y antigüedad de los cursos de

ascenso.

03 Módulo de Evaluación Consultas en SQL, de este módulo se extrajo la información

de calificaciones anuales.

04 Módulo de Registro de Faltas y

Sanciones

Consultas en SQL, de este módulo se extrajo los días de

arresto por sanciones cumplidas.

05 Módulo de Registro de Tiempo de

Servicio y Recompensas

Consultas en SQL, de este módulo se extrajo el tiempo de

servicio de cada persona considerada.

Fuente: CETEIN (DIGREH)

Page 56: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

48

En los cinco casos indicados, fue necesario realizar la exportación a tablas de Excel, pero son

datos con algunos problemas de normalización, los que deberán ser corregidos posteriormente.

4.3. Informe de descripción de datos

Los tipos de datos seleccionados y la información relacionada a ellos, se muestra en la siguiente

tabla:

Tabla 19. Descripción de datos a seleccionar

No TIPO DE DATO

SELECCIONADO FORMATO

CANTI

DAD DESCRIPCIÓN

01 Código de registro Numérico

entero

100 Corresponde al registro de cada persona

seleccionada; se determina escoger una

población de 100 personas.

02 Nota de

Graduación

Numérico

con

decimales

100 Esta es la información base para determinar

el inicio del desempeño del personal, tanto

registro de oficiales como de tripulantes; es

un solo dato por persona.

03 Nota de Curso de

Perfeccionamiento

inicial

Numérico

con

decimales

100 En este caso, se ha considerado la

obtención del primer curso realizado apenas

el personal de oficiales y tripulantes está

graduado, como medida de desempeño

profesional; se obtiene una nota por

persona.

04 Antigüedad de

Curso de

Perfeccionamiento

inicial

Numérico

entero

100 La antigüedad establece el parámetro de

comparación dentro de cada promoción o

curso del personal seleccionado; se obtiene

un dato de antigüedad por persona.

05 Nota de Curso de

Especialidad

Numérico

con

decimales

100 La nota obtenida en el curso de especialidad

nos dará la pauta de su desempeño dentro

de la especialidad; es un solo dato por

persona.

06 Antigüedad de

Curso de

Especialidad

Numérico

entero

100 La antigüedad establece la posición de

desempeño dentro de su promoción o

curso; es un solo dato por persona.

07 Nota de Curso de

Ascenso a Grado

Superior

Numérico

con

decimales

100 La nota obtenida en el curso de Ascenso a

Grados Superiores da una pauta de

Page 57: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

49

No TIPO DE DATO

SELECCIONADO FORMATO

CANTI

DAD DESCRIPCIÓN

desempeño dentro de la especialidad; es un

solo dato por persona.

08 Antigüedad de

Curso de Ascenso

a Grado Superior

Numérico

entero

100 La antigüedad establece la posición de

desempeño dentro de su curso; es un solo

dato por persona.

09 Calificaciones

Anuales

Numérico

con

decimales

400 Las calificaciones anuales son un parámetro

adecuado para el desempeño profesional

por mostrar los resultados obtenidos por el

personal durante un año. Se han

considerado cuatro años para la obtención

de los datos, en total 4 datos de calificación

por persona.

Estos datos tienen el problema que

corresponde a calificaciones por semestre,

es decir dos por año, por lo que se deberá

compilarlos.

10 Días de Arresto Numérico

entero

100 Los días de arresto nos muestran la

predisposición del personal a cumplir las

normas, reglamentos y ser eficientes en su

desempeño, a menor días de arresto, mejor

consideración en este aspecto; los datos se

acumulan y se suman en un valor total.

11 Tiempo de

servicio

Numérico

con

decimales

100 El tiempo de servicio nos da la pauta del

desempeño del personal en su

especialidad, ya que el personal con mejor

desempeño permanece en su área mucho

más tiempo que los de desempeño pobre o

deficiente; se considera un valor total de

tiempo en días y un solo dato por persona;

existe el problema de no ser el mismo tipo

de parámetro, por lo que se deberá

normalizar.

Fuente: CETEIN (DIGREH)

Page 58: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

50

Todos estos datos serán organizados dentro del algoritmo de árbol de decisión para obtener los

parámetros adecuados para la selección de personal en las diferentes especialidades.

No se consideraron datos con entradas de texto, salvo para la asociación de datos entre los datos

del personal y su código de registro.

4.4. Informe de exploración de datos

La exploración de los datos se vuelve una tarea compleja en cuanto al registro de personal se

refiere, por las siguientes razones:

Los datos históricos cambian de acuerdo a las nuevas políticas o reglamentaciones

existentes sobre manejo de personal, por ejemplo, hace más de diez años, las

calificaciones eran anuales, pero ahora las calificaciones son semestrales, por lo que se

debe normalizar estos datos.

Otros datos tampoco están normalizados, para un parámetro similar, existe datos con

consideraciones distintas, por ejemplo, el tiempo de servicio se mide por los años, meses

y días que el personal ha permanecido en los repartos operativos, sin embargo, para la

aviación naval el factor determinante no es permanecer en el reparto operativo, sino la

cantidad de horas de vuelo que se mantienen, por lo que se debe normalizar los datos para

igualar la evaluación.

La información a veces es susceptible de confusión, un curso de ascenso a través del

tiempo cambia de nombre, por lo que se debe buscar en diferentes códigos asignados a

los cursos para establecer el valor que realmente corresponde a un curso, sobre todo en

los cursos de ascenso, por ejemplo, hace muchos años el primer curso de ascenso de

tripulantes se denominaba curso Clase A, pero ahora se llama simplemente Curso de

Ascenso a Cabo Segundo, pero los códigos y las notas se almacenan en las tablas con los

nombres que fueron utilizados.

Los datos por tanto tienen que ser normalizados y posteriormente formateados y completarlos, de

forma de obtener una base de datos filtrada que nos permita realizar el análisis para el desarrollo

del árbol de decisión.

4.5. Informe de calidad de datos

Durante el proceso de análisis de los datos, se encontraron los siguientes problemas de calidad,

que se muestran en la siguiente tabla:

Page 59: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

51

Tabla 20. Calidad de los datos

No DATOS

RELACIONADOS ESTADO / PROBLEMAS DE CALIDAD POSIBLE SOLUCIÓN

01 Nota de

Graduación

Este es un dato común y estándar para todos,

valor con decimales, no presenta problemas.

N/A

02 Nota de Cursos Se ha escogido tres cursos: De perfeccionamiento

inicial, curso de especialidad y de ascenso al

grado superior (Capitanes de Fragata y Suboficial)

a) Curso de

Perfeccionam

iento inicial

Consta del curso de especialidad, requisito para el

ascenso al primer grado; en este dato varía el

curso entre oficiales y tripulantes y el tiempo del

curso, sin embargo, se puede considerar un dato

estándar; se presentó el problema que a través del

tiempo el curso ha cambiado de nombre.

Se tiene que realizar

varias consultas para

obtener todos los datos

que correspondan a

este curso.

b) Curso de

Especialidad

Este curso es común para todos, sin embargo,

varía el nombre de acuerdo a la especialidad ya

sea para oficiales o tripulantes. También se

presenta la situación, en que un oficial o tripulante

siguió el curso pero no lo pudo culminar, teniendo

que ingresar en otra especialidad, esta situación

se refleja en los datos consultados.

Se debe realizar un

filtrado y varias

búsquedas para

determinar la nota del

curso de especialidad y

la antigüedad obtenida.

c) Curso de

Ascenso a

grados

superiores

Para Oficiales es el Curso de Estado Mayor, para

Tripulantes es el Curso de Mando y Liderazgo,

curso que no necesariamente hace toda la

promoción sino que a veces lo realizan en otro año

distinto. Estos valores no representan una

verdadera medida de análisis para nuestro caso,

debido a que los candidatos en el momento de ser

evaluados no han tomado este curso, sin

embargo, es una buena medida del esfuerzo

demostrado por la población seleccionada para el

estudio.

Se presentaron problemas de personal que no

aprobó el curso y tuvo que repetirlo en otro año.

Se debe realizar varias

búsquedas para verificar

la información (por que

no siempre todos hacen

el mismo año a pesar de

ser un curso de

promoción) y buscar

quienes no han

aprobado y tuvieron que

repetir el curso.

03 Antigüedad de

Cursos

Salvo en el curso de perfeccionamiento inicial, los

otros cursos por lo general se realizan en conjunto

con otras promociones, por lo que las

En algunos cursos el

dato parece ser el

mismo, pero esto no es

Page 60: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

52

No DATOS

RELACIONADOS ESTADO / PROBLEMAS DE CALIDAD POSIBLE SOLUCIÓN

antigüedades varían dentro de una sola

promoción, sin embargo, son un buen indicativo

del esfuerzo individual dentro del curso.

problema ya que no

realizaron el curso en el

mismo año.

04 Calificaciones Se han considerado el promedio de calificaciones

para dos años (considerando que este también es

el número de años de los que se va a tener datos

de los candidatos el momento del análisis)

Se presentan situaciones en las que en un año

solo hay una calificación, mientras que en otros

hay dos calificaciones (semestres) y hasta tres o

cuatro (dependiendo de su traslado a más de un

reparto donde es calificado el tiempo que

permanece).

Todos los datos de un

año deben ser

promediados para

obtener el valor de la

nota anual de

calificaciones. Existen

exoneraciones de notas

que no se toman en

cuenta para el

promedio.

05 Sanciones Para este dato se han tomado en cuenta los días

totales de arresto; esto es una buena medida que

refleja el comportamiento del personal de la

muestra y servirá como base para el análisis de

este dato en el momento de realizar el análisis de

los candidatos.

Datos son valores enteros, no presentan

problemas.

N/A

06 Permanencia en

repartos operativos

Para este dato se debe tomar en cuenta las

diferencias consideradas para evaluar la

permanencia; para el personal de superficie se

toma en cuenta días de navegación, para

submarinistas se toma en cuenta también días de

navegación pero igualmente horas de inmersión,

para Infantes de Marina además de los días, se

considera saltos en paracaídas, para Aviación

Naval las horas de vuelo y para Inteligencia días

de operación de inteligencia; sin embargo, se

puede estandarizar tomando en cuenta los días en

operación, independiente de lo considerado.

Datos con valores enteros, no presentan

problemas.

N/A

Fuente: Análisis del Autor

Page 61: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

53

5. FASE III: PREPARACIÓN DE DATOS

Page 62: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

54

5.1. Selección de datos

La tarea de seleccionar los datos está marcada por la selección de las filas (registros) y columnas

(atributos); en este trabajo, los registros corresponden al grupo seleccionado de Oficiales y

Tripulantes con historial suficiente para hacer un análisis adecuado de los datos.

Para lograr esto, se seleccionó cuatro promociones, dos de oficiales y dos de tripulantes, quienes

tienen más de 20 años de servicio en la Armada, con un total de 100 registros.

NOTA: Para cumplir con el factor de confidencialidad de los datos, establecido como requisito para acceder

a la base de datos, luego de la solicitud realizada por el suscrito con el Oficio No OF-ARE-CPCB-SS-DAC-

2015-0003-O del 14-abr-2015, se tuvo que realizar la selección del personal de las cuatro promociones,

obtener sus códigos, y una vez consultados todos los datos, trabajar exclusivamente con los registros

secuenciales asociados a los códigos, que a su vez están relacionados con las personas que pertenecen a

esas promociones, para lograr de esta forma se mantenga la confidencialidad requerida.

Los datos, una vez obtenidos y pasados a Microsoft Excel, se los tiene como tablas individuales,

como se muestra en el siguiente gráfico:

Figura 11. Muestra de obtención de datos pasados a Excel luego de consulta en SQL

Fuente: DIGREH

El proceso para la adaptación de la información consiste en revisar si existen datos válidos para

cada uno de los 100 registros, luego integrar en una sola tabla los datos revisados. Para datos

incompletos o con variaciones dudosas, se recurrió a nuevas consultas en la base de datos

principal, hasta obtener la información válida para el registro considerado.

La descripción de los datos obtenidos, se muestra en la siguiente tabla:

Page 63: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

55

Tabla 21. Descripción de los datos

No DATOS

RELACIONADOS

NOMBRE DE LA

COLUMNA

DESCRIPCIÓN

01 Nota de Graduación NotaAscenso Nota obtenida al terminar el curso de Formación

(Escuela Naval para Oficiales y Escuela de Grumetes

para Tripulantes). Valor numérico con decimales

02 Curso de

Perfeccionamiento

inicial

CursoPerfec Curso de especialidad, uno de los requisitos para el

ascenso al primer grado, tanto para Oficiales como

Tripulantes. En Oficiales hay mayor variedad de

ejecución y requiere mayor estandarización. Valor

numérico con decimales.

03 Antigüedad del Curso

de Perfeccionamiento

inicial

AntigCursoPerfe

c

Es la antigüedad relacionada al Curso Básico de

Especialidad. Valor numérico entero.

04 Curso de Ascenso

(Especialidad)

CursoAscenso2 Este curso es el requerido para que el oficial o

tripulante pueda ascender al siguiente grado superior

y el que define su especialidad; existe bastante

variedad de ejecución y requiere mayor

estandarización. Valor numérico con decimales.

05 Antigüedad del Curso

de Ascenso

(Especialidad)

AntigCursoAsce

nso2

Es la antigüedad relacionada al Curso de

Especialidad. Valor numérico entero.

06 Curso de Ascenso a

grados superiores

CursoEMyLID Para Oficiales es el Curso de Estado Mayor, para

Tripulantes es el Curso de Mando y Liderazgo. Valor

numérico con decimales.

07 Antigüedad del Curso

de Ascenso a grados

superiores

AntigCursoEMy

LID

Es la antigüedad relacionada al Curso de Ascenso a

grados superiores. Valor numérico entero.

08 Calificaciones Calif2000 Promedio de calificaciones obtenidas durante dos

años (1999 y 2000). Valor numérico con decimales.

09 Calificaciones Calif2010 Es el promedio de las calificaciones obtenidas

durante dos años (2009 y 2010). Valor numérico con

decimales.

10 Sanciones Sanciones Es el valor total acumulado de días de arresto

obtenidos durante su carrera. Valor numérico entero.

11 Permanencia en

repartos operativos

TiempoOpe Es el valor total acumulado de días de operación en

repartos operativos, relacionados a su especialidad.

Valor numérico entero.

Fuente: DIGREH

Page 64: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

56

5.1.1. Razonamiento para la inclusión/exclusión

Una vez revisados los datos y sus características, vamos a realizar el razonamiento para su

inclusión o exclusión para el análisis de los requisitos en base a las necesidades del trabajo, como

se muestra en la siguiente tabla:

Tabla 22. Razonamiento para la inclusión / exclusión de los campos

No DATOS

RELACIONADOS

INCLUIR /

EXCLUIR

MOTIVACIÓN

01 Nota de Graduación

(NotaAscenso)

INCLUIR Este es un dato importante para definir de acuerdo a su

nota de graduación en la Escuela de Formación, quienes

corresponden a que especialidad, nos dará una de las

pautas para la selección.

02 Curso de

Perfeccionamiento inicial

(CursoPerfec)

INCLUIR Este dato es igualmente muy importante, pero para tener

una evaluación global en cuanto a notas de cursos, todos

los datos de cursos serán promediados.

03 Antigüedad del Curso de

Perfeccionamiento inicial

(AntigCursoPerfec)

EXCLUIR Los datos de antigüedad, si bien son una buena

referencia para establecer el empeño mostrado en el

curso en relación a sus compañeros, tiene el problema

que algunos cursos, al haberse realizado en diferentes

fechas, tienen valores no distribuidos de antigüedades, lo

que solo causará ruido en el análisis final.

04 Curso de Ascenso

Especialidad

(CursoAscenso2)

INCLUIR Se incluirá en el análisis para verificar la medida de

desempeño, para tener una información global de notas

será promediado con las otras notas de los cursos

05 Antigüedad del Curso de

Ascenso Especialidad

(AntigCursoAscenso2)

EXCLUIR Se presenta el mismo problema de la distribución de los

datos, incluso en este caso, es mayor por la diversidad de

cursos y fechas, por lo que no se puede incluir esta

información.

06 Curso de Ascenso a

grados superiores

(CursoEMyLID)

INCLUIR Se incluirá en el análisis para verificar la medida de

desempeño, será promediado con las otras notas de

cursos.

07 Antigüedad del Curso de

Ascenso a grados

superiores

(AntigCursoEMyLID)

EXCLUIR Los cursos no siempre se realizan en la misma fecha, por

tanto, esta información no es adecuada para la selección.

08 Calificaciones

(Calif2000)

INCLUIR Dato importante para determinar las condiciones de

ingreso a cada especialidad de acuerdo a las

calificaciones obtenidas, será utilizado como factor de

selección referencial.

Page 65: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

57

No DATOS

RELACIONADOS

INCLUIR /

EXCLUIR

MOTIVACIÓN

09 Calificaciones

(Calif2010)

INCLUIR Igual al dato anterior, pero deberá ser integrado con la

calificación anterior para verificar un dato porcentual de

referencia, que sirva como factor de selección referencial.

10 Sanciones (Sanciones) INCLUIR Dato importante para determinar la distribución de faltas

cometidas de acuerdo a las especialidades y determinar

un factor de selección parcial.

11 Permanencia en

repartos operativos

(TiempoOpe)

INCLUIR Sirve para determinar, de acuerdo a cada especialidad, el

porcentaje de personas que se han mantenido dentro de

la especialidad, pero no será utilizado para la selección de

candidatos.

Fuente: Análisis del Autor

5.1.2. Conclusiones de selección de datos

La clasificación de antigüedad no tiene datos normalizados y si bien son una medida de

desempeño individual en relación a su curso, la participación del personal de cada promoción no

siempre se realiza en el mismo curso, por lo que esto impide una buena evaluación de los datos y

estos valores solo van a generar ruido en el análisis.

Salvo la nota de graduación, los demás valores de notas de cursos van a ser promediados, lo que

facilitará el análisis en función de tener una nota global con la que se pueda evaluar inicialmente a

los candidatos.

Las calificaciones van a ser promediadas, consiguiendo de este modo una sola nota de

evaluaciones, que permitirá tener una aproximación global a las notas esperadas el momento de

la selección de personal.

5.2. Informe de Limpieza de datos

Los datos obtenidos de la base de datos principal y de las bases de datos relacionadas, tuvieron

ciertos problemas, por lo cual se debió tomar las siguientes acciones, detalladas en la tabla

indicada a continuación:

Tabla 23. Limpieza de los datos

No DATOS

RELACIONADOS

SITUACIÓN /

MOTIVO CAUSA ACCIÓN TOMADA

01 Nota de Graduación

(NotaAscenso)

Sin problemas Ninguna

Page 66: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

58

No DATOS

RELACIONADOS

SITUACIÓN /

MOTIVO CAUSA ACCIÓN TOMADA

02 Curso de

Perfeccionamiento inicial

(CursoPerfec)

Sin problemas Ninguna

03 Antigüedad del Curso de

Perfeccionamiento inicial

(AntigCursoPerfec)

Excluido Datos no

normalizados,

generan ruido en el

análisis.

04 Curso de Ascenso

Especialidad

(CursoAscenso2)

Tres Oficiales sin

registro en curso

realizado

Dos oficiales perdieron

el curso de Aviación y

uno perdió el curso de

Submarinos

Se verificó el nuevo

curso realizado para

registrar la nota, en los

tres casos hicieron curso

de Superficie.

05 Antigüedad del Curso de

Ascenso Especialidad

(AntigCursoAscenso2)

Excluido Datos no

normalizados,

generan ruido en el

análisis.

06 Curso de Ascenso a

grados superiores

(CursoEMyLID)

Nota incompleta

para dos registros

(tripulantes)

Curso perdido,

tuvieron que repetir el

curso

Se verificó en el sistema

la nota correspondiente

del curso que repitieron

07 Antigüedad del Curso de

Ascenso a grados

superiores

(AntigCursoEMyLID)

Excluido Datos no

normalizados,

generan ruido en el

análisis.

08 Calificaciones

(Calif2000)

Múltiples datos en

un año (Casi todos

los registros)

Cada vez que un

Oficial o Tripulante es

trasbordado debe ser

calificado u

exonerado, lo que

genera varios datos

Se realizó un promedio

de las calificaciones

obtenidas en un año, sin

tomar en cuenta las

exoneraciones para

obtener una sola nota en

este grupo 1999 y 2000

09 Calificaciones

(Calif2010)

Múltiples datos en

un año (Casi todos

los registros)

La misma indicada

para las calificaciones

del 2000

Igualmente se realizó un

promedio para el grupo

de 2009 y 2010

10 Sanciones (Sanciones) Se consideró solo

los días

acumulados de

sanciones

No hubo problemas en

estos registros

Ninguna

Page 67: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

59

No DATOS

RELACIONADOS

SITUACIÓN /

MOTIVO CAUSA ACCIÓN TOMADA

11 Permanencia en

repartos operativos

(TiempoOpe)

Las

consideraciones

para el registro del

tiempo varían

Se realizan

consideraciones

diferentes para cada

especialidad

Se consideró solo el

registro de los datos de

los días en operación,

independiente de las

consideraciones de

cada especialidad

Fuente: Análisis del Autor

Todas estas acciones fueron realizadas para obtener datos limpios y adecuados para su manejo

dentro del proceso de Minería de Datos.

5.3. Construir datos

No se ha considerado la construcción de datos de los registros existentes actualmente para este

proceso de Minería de Datos. Sin embargo, se debe indicar que un análisis posterior aplicado a

una muestra mayor, podría generar esta necesidad, por lo que no se debe descartar

posteriormente en el desarrollo del modelo.

5.4. Integrar datos

Es necesario realizar una integración de datos, por lo que se ha considerado realizar esta

integración de acuerdo a la siguiente tabla:

Tabla 24. Integración de los datos

INTEGRACIÓN DATOS CONSIDERADOS MOTIVO

Notas de

Curso

Las notas de los Cursos de

Perfeccionamiento Inicial,

Ascenso (Especialidad) y

Curso Superior (Estado

Mayor y Mando y Lid) se

integran en una sola nota.

Para realizar la evaluación, se debe tomar en

cuenta que al ser Oficiales y Tripulantes recién

graduados, solo se podrá contar con una sola

nota del curso previo al de especialidad, por lo

que es mejor considerar el desempeño global

en las notas como parámetro para el análisis.

Calificaciones Calificaciones de los años

del grupo 1999 y 2000 y del

grupo 2009 y 2010.

Para realizar la evaluación, se debe tomar en

cuenta que los Oficiales y Tripulantes a ser

considerados, solo tendrán una o dos

calificaciones, por lo que se considera

adecuado evaluar el desempeño global en

relación a las calificaciones para la evaluación

de los datos.

Fuente: Análisis del Autor

Page 68: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

60

5.5. Formatear datos

Para poder utilizar la aplicación WEKA con nuestro archivo de Microsoft Excel, se deben tomar las

siguientes acciones:

Todos los registros que contengan comas, deben ser convertidas a puntos.

Todos los registros con decimales fueron aproximados a máximo cuatro cifras

significativas.

El archivo de Microsoft Excel debe ser transformado a un archivo de extensión .csv

(archivos de valores separados por comas de Microsoft Excel), extensión que puede ser

leída y tratada por WEKA para el análisis de los datos.

El archivo transformado a extensión .csv debe ser revisado en un editor de texto para

cambiar todos los (;) punto y comas por (,) comas, ya que este es el separador natural para

ser entendido por la aplicación WEKA.

Page 69: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

61

6. FASE IV: MODELADO

Page 70: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

62

6.1. Selección de la técnica de modelado

La selección realizada en el Estado del Arte y de Comprensión del Negocio definió a la técnica del

Árbol de Decisión como la más adecuada para realizar el trabajo de selección de personal para el

ingreso a las diferentes especialidades de la Armada, sin embargo, se debe definir la técnica más

específicamente.

6.1.1. Técnicas de modelado

De acuerdo a Vizcaíno (2008), las técnicas de modelado que se pueden aplicar en árboles de

decisión, se detallan en el siguiente cuadro:

Tabla 25. Técnicas de modelado para árboles de decisión

Técnica Significado Detalles

ADTree Alternating Decision

Tree. Método de

Clasificación

proveniente del

aprendizaje

automático, las

estructuras de datos y

el algoritmo son una

generalización de los

árboles de decisión.

Contienen nodos divisor (splitter) y nodos de predicción. El nodo

divisor está asociado a una prueba, mientras que el nodo de

predicción está asociados con una prueba.

La Clasificación es asociada con una instancia que se calcula con

la suma de las predicciones cercanas al camino en el que es

definido por esta instancia.

El algoritmo de aprendizaje para su construcción es una estrategia

Top-Down, en que cada paso de aumento es seleccionado y

adiciona una nueva regla o su equivalente a una nueva unidad

que consiste en un nodo splitter y dos nodos de predicción.

Decision

Stump

Árbol de decisión de

un nivel

Funcionan de forma aceptable en problemas de dos clases, pero

mayor a esto es muy difícil encontrar tasas de error inferiores a 0.5

El algoritmo construye un modelo de cada caso a ser clasificado

pero tomando únicamente un subconjunto de casos de

entrenamiento. Este algoritmo clasifican los casos basados en

valores característicos, cada nodo en un árbol de decisión de un

nivel representa una característica de un caso para ser clasificado,

y cada rama representa un valor que el nodo puede tomar. Los

casos son clasificados comenzando en el nodo raíz y se cataloga

basándose en sus valores característicos.

ID3 Inducción mediante

árboles de decisión

En el algoritmo ID3, cada nodo corresponde a un atributo y cada

rama al valor posible de ese atributo. Una hoja del árbol especifica

el valor esperado de la decisión de acuerdo con los ejemplos

dados.

La explicación de una determinada decisión viene dada por la

trayectoria desde la raíz a la hoja representativa de esa decisión; a

Page 71: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

63

Técnica Significado Detalles

cada nodo es asociado aquel atributo más informativo que aún no

haya sido considerado en la trayectoria desde la raíz.

Para medir cuánto informativo es un atributo se emplea el

concepto de entropía; cuanto menor sea el valor de la entropía,

menor será la incertidumbre y más útil será el atributo para la

clasificación.

J48 Es una

implementación del

algoritmo C4.5.

Algoritmo de inducción que genera una estructura de reglas o

árbol a partir de subconjuntos (ventanas) de casos extraídos del

conjunto total de datos de entrenamiento (similar a ID3). Se

genera una estructura de reglas y se evalúa su “bondad” usando

criterios que miden la precisión en la clasificación de los casos.

Emplea dos criterios: Calcula el valor de información

proporcionada por una regla candidata (o rama del árbol) con una

rutina que se llama “info”, y calcula la mejora global que

proporciona una regla / rama usando una rutina que se llama gain

(beneficio).

Con estos criterios se puede calcular el costo / beneficio en cada

ciclo del proceso para decidir por ejemplo, si crea dos nuevas

reglas o agrupa los casos en una sola.

El algoritmo realiza el proceso de los datos en sucesivos ciclos.

En cada ciclo se incrementa el tamaño de la “ventana” de proceso

en un porcentaje determinado respecto al conjunto total, buscando

tener reglas a partir de la ventana que clasifiquen correctamente a

un número cada vez mayor de casos en el conjunto total. Cada

ciclo de proceso emplea como punto de partida los resultados

conseguidos por el ciclo anterior y en cada ciclo se ejecuta un

sub-modelo contra los casos restantes que no están incluidos en

la ventana. De esta forma se calcula la precisión del modelo

respecto a la totalidad de datos.

LMT Logistic Model Tree

Consiste en una

estructura de un árbol

de decisión con

funciones de

regresión logística en

las hojas

Se realiza una prueba sobre uno de los atributos, que es asociado

con cada nodo interno. Para enumerar los atributos con k valores,

el nodo tiene k nodos hijos, y los casos son clasificados en las k

ramas dependiendo del valor del atributo. Para atributos

numéricos, el nodo tienen dos nodos hijos y la prueba consiste en

comparar el valor del atributo con un umbral que define a qué lado

de la rama se van los datos.

M5P Árbol de regresión Es un árbol basado en árbol de decisión numérico tipo “model

tree”; tiene características como:

Page 72: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

64

Técnica Significado Detalles

Construcción de árbol mediante algoritmo inductivo de árbol

de decisión.

Decisiones de enrutado en nodos tomadas a partir de valores

de los atributos.

Cada hoja tiene asociada una clase que permite calcular el

valor estimado de la instancia mediante una regresión lineal.

NBTree Naive Bayes Tree Algoritmo hibrido que genera un tipo de árbol de decisión, pero las

hojas contienen un clasificador Naive Bayes construido a partir de

los ejemplos que llegan al nodo.

A pesar de que es un eficiente y efectivo algoritmo de aprendizaje,

previo a los resultados muestra que su capacidad es limitada ya

que puede únicamente representar cierto grado de separación

entre las funciones binarias. Requiere suficientes condiciones es

el proceso en el dominio binario para que tenga una

representación uniforme. Se ve entonces que el aprendizaje (y los

datos de error) de Naive Bayes puede ser afectado

dramáticamente por distribuciones de muestreo.

Random

Forest

Bosque Aleatorio Utiliza vectores de entrada cuya utilización se basa en escoger el

árbol más votado del “bosque”, que a su vez utiliza árboles de

clasificación. Algunas de las características más importantes son:

Corre eficientemente sobre grandes bases de datos

Puede manejar cientos de variables de entrada sin eliminación

de otras variables, lo que da las estimaciones para saber que

variables son importantes en la clasificación.

Es un método eficaz para estimar datos perdidos y mantiene la

exactitud de cuándo una proporción grande de los datos falla.

Los árboles generados pueden ser salvados de un uso futuro

sobre otros datos.

Los prototipos son calculados ya que dan información acerca de

la relación entre las variables y las clasificaciones.

Ofrece un método experimental para detectar interacciones

entre variables.

Random

Tree

Árbol Aleatorio Un RandomTree es un árbol dibujado al azar de un juego de

árboles posibles.

En este contexto "al azar" significa que cada árbol en el juego de

árboles tiene una posibilidad igual de ser probado o que su

distribución es "uniforme"”.

Page 73: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

65

Técnica Significado Detalles

REPTree Es un método de aprendizaje rápido mediante árboles de

decisión, que construye un árbol de decisión usando la

información de varianza y lo poda usando como criterio la

reducción del error.

Utiliza un modelo comprensible (reglas if then else).

Solamente ordena una vez los valores de los atributos numéricos.

Los valores ausentes se manejan dividiendo las instancias

correspondientes en segmentos.

User

Classifier

Su característica esencial es que permite al usuario construir su

propio árbol de decisión.

Fuente: Vizcaíno (2008)

De todos estos modelos disponibles para ser aplicados en árboles de decisión, si bien no existe

una forma de determinar el mejor algoritmo en forma general, sino que depende de cada caso y

cada objetivo de búsqueda que se requiera implementar, se ha considerado la utilización del

algoritmo J48, ya que como indican Jiménez y Álvarez (2010), este algoritmo es una mejora del

C4.5 y a su vez del ID3 y tiene una probabilidad de acierto ligeramente superior a sus anteriores,

siempre considerando que el parámetro más importante a tomar en cuenta es el factor de confianza

para la poda, aunque WEKA tenga la facultad de seleccionar en forma automática este parámetro

de modo de mejorar la capacidad de predicción del árbol construido.

6.1.2. Presunciones del modelado

Las presunciones del modelado para este proyecto se basan en los siguientes puntos:

1. Se requiere que los datos estén completos, por lo que se completó los datos de todos los

registros para realizar las pruebas en la etapa anterior.

2. Para su aplicación en árboles de decisión los datos deben ser numéricos, por lo que estos

se deben adaptar para lograr el modelado.

6.2. Generación de la prueba de diseño

La prueba de diseño para este trabajo se basa en el análisis de los datos seleccionados para el

programa WEKA y la aplicación de estos datos en los diferentes modelos de árboles de decisión

para verificar la idoneidad, sobre todo del modelo J48, que previamente habíamos seleccionado

como el más adecuado, sin embargo, con el desarrollo de las pruebas, podremos verificarlo en

forma práctica.

Page 74: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

66

Prueba de diseño

Para la prueba de diseño, se va a tomar en cuenta las consideraciones detalladas en la siguiente

tabla:

Tabla 26. Pruebas de diseño para el modelo de Minería de Datos

PLAN

INTENCIONADO

PARA EL

ENTRENAMIENTO

PRUEBA EVALUACIÓN DE LOS MODELOS

Verificación de

aplicabilidad de los

datos con árboles

de decisión

Probar cada modelo

(algoritmo) de árboles

de decisión a la

información

seleccionada

El modelo debe tener un porcentaje de

distribución de aciertos lo más alto posible y

consecuentemente, un porcentaje de errores

en la distribución lo más bajo posible

Verificación de

aplicabilidad del

desarrollo del árbol

Para cada modelo

probar si su árbol de

decisión es construible

y aplicable

El modelo debe tener un árbol que se pueda

mostrar y por tanto, en un caso práctico, se

pueda aplicar para la selección futura.

Verificación de la

Matriz de

Confusión

Para cada modelo

verificar el estado de la

matriz de confusión

El modelo debe tener una matriz de confusión

con los datos lo más cercano posible a la

distribución verdadera de los datos.

Fuente: Análisis del Autor

6.3. Construcción del modelo

Para la construcción del modelo, se compiló la información detallada en el Anexo C “DATOS

INICIALES RECOPILADOS PARA EL TRABAJO DE MINERÍA DE DATOS” en el cual se

muestran las correcciones realizadas en la Fase de Preparación de Datos, pero previo a la

integración y formateo de datos.

Una vez realizada la integración y formateo de los datos y preparada la tabla en Microsoft Excel

para que solo quede la información necesaria para la posterior aplicación en el programa WEKA,

tenemos el siguiente cuadro de datos:

Tabla 27. Datos preparados listos para su aplicación en WEKA

Nota Graduación Nota Cursos Calificaciones Sanciones DiasOpe Especialidad

18.915 19.141 19.719 6 26 SU 18.439 19.021 19.750 13 316 IM 17.930 18.675 19.927 5 374 AV 17.590 18.470 19.905 8 764 SU 17.860 18.602 19.748 25 698 AV 18.376 18.802 19.923 16 213 SU 18.400 18.554 19.860 7 648 IM

Page 75: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

67

Nota Graduación Nota Cursos Calificaciones Sanciones DiasOpe Especialidad 17.320 18.385 19.799 17 429 AV 17.931 18.688 19.574 0 313 SS 18.084 18.582 19.483 11 304 IN 18.588 18.840 19.603 5 346 SS 17.845 18.437 19.688 4 115 SU 18.152 18.626 19.768 10 510 IM 18.335 18.549 19.843 6 766 IM 17.531 18.202 19.769 14 1002 SU 17.480 18.123 19.899 10 127 AV 17.340 18.253 19.623 10 618 AV 17.832 18.317 19.766 25 766 SU 17.569 18.175 19.510 22 597 SU 18.122 18.874 19.718 3 543 AV 18.916 19.090 19.880 3 729 SS 18.308 18.852 19.850 2 1031 SU 18.461 18.894 19.841 0 338 IN 17.592 18.432 19.613 10 685 AV 17.935 18.588 19.795 4 854 SU 18.390 18.890 19.915 9 494 IM 17.948 18.600 19.498 15 252 SU 17.853 18.510 19.735 3 309 SS 18.001 18.662 19.705 4 125 SU 17.676 18.478 19.785 7 690 AV 17.625 18.490 19.312 7 79 IN 17.479 18.413 19.645 2 320 AV 18.202 18.687 19.429 25 144 IN 17.565 18.477 19.628 2 237 SS 17.886 18.394 19.543 17 1082 SU 17.800 18.498 19.625 5 296 IN 18.120 18.666 19.699 14 865 SU 18.276 18.396 19.473 64 452 IM 19.032 18.946 19.790 6 80 SU 19.039 18.012 19.677 55 214 SS 18.629 18.649 19.818 54 874 IM 18.561 17.681 19.366 71 385 SU 18.149 17.609 19.740 38 177 SU 18.241 17.486 19.730 103 550 SU 18.308 18.206 19.861 35 66 SU 18.643 18.600 19.905 16 653 IM 18.121 18.350 19.910 41 569 IM 18.175 18.159 19.636 104 241 IM 18.719 18.708 19.813 52 391 IM 18.109 18.100 19.585 189 1051 IN 17.869 17.948 19.782 69 1764 IM 18.539 18.458 19.730 77 552 IM 17.984 17.951 19.538 151 672 IM 18.721 18.127 19.840 121 213 IM 17.770 17.771 19.957 90 977 IM 18.418 18.440 19.975 8 991 IN 18.834 18.554 19.815 20 241 SU 18.133 18.131 19.777 16 581 SU 18.251 18.209 19.585 39 600 IM 18.455 18.376 19.649 32 690 SU 19.703 19.000 19.755 84 678 IM 19.054 18.889 19.376 27 366 SU

Page 76: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

68

Nota Graduación Nota Cursos Calificaciones Sanciones DiasOpe Especialidad 17.916 17.932 19.810 33 653 IM 17.853 17.847 19.755 41 411 IM 17.843 17.822 19.493 44 63 SU 18.066 18.038 19.725 55 945 IM 18.292 18.291 19.580 24 17 SU 17.972 17.971 19.480 47 393 IM 19.021 18.733 19.765 28 207 SU 18.069 18.089 19.640 66 417 IM 17.887 17.843 19.676 36 179 IM 18.763 18.589 19.755 14 408 SU 17.212 17.237 19.593 15 180 IM 17.793 17.691 19.659 67 105 SS 18.352 17.398 19.409 25 320 SU 17.321 17.259 19.468 106 610 IN 18.329 18.298 19.630 33 401 SU 18.191 18.147 19.699 37 487 SU 18.158 18.205 19.587 76 265 SU 18.742 17.530 19.365 76 875 SU 17.984 17.881 19.657 62 66 SU 18.294 18.107 19.709 31 440 SU 18.734 18.632 19.863 24 217 SU 18.477 18.659 19.215 39 261 SU 18.423 17.638 19.811 129 694 SS 18.268 18.277 19.634 73 0 SU 18.519 18.452 19.737 29 83 SU 18.284 18.232 19.564 39 198 SU 18.348 18.144 19.545 63 12 SU 18.211 18.218 19.525 42 69 SS 19.102 19.102 19.538 59 18 AV 17.679 17.652 19.453 45 1116 SU 17.226 17.254 19.460 53 273 SU 18.363 17.107 19.478 61 305 SU 17.012 17.615 19.778 132 309 SU 18.421 16.996 19.423 53 505 SU 18.289 17.052 19.197 141 282 SU 19.640 19.452 19.660 9 732 IM 18.128 18.329 19.325 33 672 SU 19.003 18.981 19.383 26 264 SS

Fuente: CETEIN (DIGREH)

Hay que indicar que para poder aplicar esta tabla en el programa WEKA, se debió utilizar el formato

anglosajón de puntos para separar los decimales, en lugar de las comas como se utiliza en los

países latinos, dentro de la configuración de Microsoft Excel.

La última columna de la tabla, definirá el parámetro a ser clasificado, es decir la especialidad será

la parte final de cada rama del árbol, luego de que el programa WEKA, en función de la aplicación

del algoritmo, determine las rutas y parámetros calculados.

En el archivo de Microsoft Excel, como ya se había dicho, debe ser grabado con un formato que

sea reconocible para el programa WEKA (extensión csv), sin embargo, a pesar de grabar a nuestro

archivo con esta extensión, los datos no se guardan automáticamente separados por comas, ya

Page 77: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

69

que el archivo deriva de Microsoft Excel, y permanecen separados por punto y coma, por lo que

se debe abrir este archivo en un programa de edición de texto (el más básico y útil es el block de

notas en caso de usar Windows) y realizar una búsqueda y reemplazo de los puntos y comas

solamente por comas.

Cuando se ha realizado esta transformación, el archivo está listo para ser leído por la aplicación

WEKA, solo se debe tener cuidado al abrir el archivo de cambiar la búsqueda natural de archivos

con extensión arff que significa “Attribute-Relation File Format” (Archivo de formato atributo-

relación) que son los archivos naturales de WEKA.

La Interfaz de WEKA, se muestra en la siguiente figura:

Figura 12. Interfaz inicial del programa WEKA

Fuente: Machine Learning Group at the University of Waikato

Vamos a utilizar la versión de WEKA No 3.6.12 que es la versión más estable disponible al

momento de realizar este trabajo; la forma para su instalación es acceder a la página de software

en http://www.cs.waikato.ac.nz/~ml/weka/index.html y seguir el procedimiento de instalación,

tomando en cuenta la versión requerida de la máquina virtual de java que debe estar instalada.

WEKA tiene cuatro módulos, de los cuales, vamos a utilizar para el análisis de los datos el módulo

de Exploración (Explorer), cuya interfaz se muestra en la siguiente figura:

Figura 13. Interfaz del Módulo de Exploración del programa WEKA

Fuente: Machine Learning Group at the University of Waikato

Page 78: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

70

En la pestaña “Open file.” se procede a abrir nuestro archivo previamente preparado, teniendo la

precaución de seleccionar el tipo de archivo CSV; con esto se carga nuestro archivo y nos presenta

ya la información para ser analizada, de acuerdo al siguiente gráfico:

Gráfico No 14: Interfaz del Módulo de Exploración del programa WEKA con información

para análisis

Fuente: Machine Learning Group at the University of Waikato

En la pestaña “Classify” se puede iniciar las pruebas con los diferentes métodos, para ello se realizó

las pruebas con todos los relacionados a árboles de decisión, cada prueba queda registrada, como

se muestra en la siguiente figura:

Gráfico No 15: Interfaz del Módulo de Exploración del programa WEKA con las pruebas

realizadas para árboles de decisión

Fuente: Machine Learning Group at the University of Waikato

Page 79: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

71

Dentro de las opciones de test para todas las pruebas de exploración de cualquiera de los procesos

de clasificación (incluidos árboles de decisión), de acuerdo a Morate (2008) y por otro lado a Césari,

tenemos los siguientes modos de evaluación del clasificador:

Tabla 28. Modos de Evaluación del Clasificador en el programa WEKA

MODO DETALLE EVALUACIÓN

USE

TRAINING SET

Se entrenará el método con todos los

datos disponibles y luego se aplicará

otra vez sobre los mismos datos.

Al ser entrenado sobre el mismo

modelo predictivo sobre el que es

construido para determinar el error,

la estimación del resultado puede

ser muy optimista

SUPPLIED

TEST SET

En esta opción se puede seleccionar

marcando el botón SET un fichero de

datos con el que se va a probar el

clasificador obtenido con el método de

clasificación usado y los datos iniciales.

Requiere de un archivo previamente

desarrollado para evaluar el

clasificador.

CROSS

VALIDATION

Se realizará una validación cruzada

estratificada del número de particiones

dado (Folds). La validación cruzada

consiste en que dado un número n se

divide los datos en n partes y con cada

parte se construye en clasificador con

las n-1 partes restantes y se prueba

con esa; de la misma forma se realiza

con cada una de las n particiones.

Es la más elaborada y costosa, los

errores se calculan del promedio de

errores de todas las n-1

evaluaciones. Nos da una buena

estimación de los aciertos y errores

del modelo considerado.

PERCENTAGE

SPLIT

Se define un porcentaje con el que se

construirá el clasificador y con la parte

restante se probará. La cantidad de

datos que se prueban depende del

valor ingresado en el campo %, que es

el porcentaje de instancias para

construir el modelo, que a continuación

es evaluado sobre las que se dejan

aparte.

Si la cantidad de instancias es

elevada con esta opción se puede

estimar con precisión las

prestaciones del clasificador, por

tanto, sería más útil en grandes

cantidades de datos.

Fuente: Machine Learning Group at the University of Waikato

Page 80: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

72

Se realizaron las pruebas para los modelos aplicables a árboles de decisión utilizando inicialmente

“use training set” (para verificar la condición más optimista de la predicción), obteniendo los

resultados que se muestran en la siguiente tabla:

Tabla 29. Resultados de aplicación de los modelos de J48 utilizando WEKA

MODELO DE

ÁRBOL DE

DECISIÓN

PROBADO

INSTANCIAS

CORRECTA

MENTE

CLASIFICADAS

INSTANCIAS

INCORRECTAS RESULTADOS

J48 83% 17% Contiene parámetros desfasados en la

matriz de confusión, sin embargo, tiene

un porcentaje aceptable de aciertos y su

árbol está desarrollado en forma menos

compleja.

BFTree 80% 20% Mayor desfase en la matriz de

confusión, porcentajes no adecuados

(en el límite) y no muestra el desarrollo

del árbol.

DecisionStump 46% 54% Porcentajes de clasificaciones correctas

e incorrectas totalmente fuera de rango;

no se desarrolla matriz de confusión, no

adecuado para el análisis.

NBTree 46% 54% Porcentajes de clasificaciones correctas

e incorrectas totalmente fuera de rango;

no se desarrolla matriz de confusión, no

adecuado para el análisis.

RandomForest 100% 0% Presenta porcentajes de clasificación

perfectos, la matriz de confusión no

tiene parámetros fuera de rango, sin

embargo, el desarrollo de su árbol es

altamente complejo ya que evalúa todas

las rutas posibles para tener cero

errores, lo que no es de aplicación

práctica.

RandonTree 100% 0% Igual que el anterior, presenta

porcentajes de clasificación y matriz de

Page 81: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

73

MODELO DE

ÁRBOL DE

DECISIÓN

PROBADO

INSTANCIAS

CORRECTA

MENTE

CLASIFICADAS

INSTANCIAS

INCORRECTAS RESULTADOS

confusiones perfectas, pero su árbol es

altamente complejo ya que evalúa todas

las rutas posibles para tener cero

errores, lo que no es práctico.

REPTree 72% 28% Porcentajes de clasificación fuera de

rango, la distribución en la matriz de

confusión no es adecuada para la

clasificación de Inteligencia; no

adecuada para análisis.

SimpleCart 68% 32% Porcentajes de clasificación fuera de

rango, la distribución en la matriz de

confusión está totalmente desfasada,

árbol de decisión muy básico y no

adecuado; no correcta para análisis.

UsserClassifier 46% 54% Porcentajes de clasificaciones

totalmente fuera de rango; no se

desarrolla matriz de confusión, no

adecuado para el análisis.

LMT 59% 41% Porcentajes de clasificación fuera de

rango, la distribución en la matriz de

confusión está totalmente desfasada,

no presenta forma de desarrollar el

árbol de decisión; no correcta para

análisis.

Fuente: Machine Learning Group at the University of Waikato

Del análisis de estos resultados, se puede observar que el modelo de árbol de decisión más

adecuado es J48, ya que presenta el mejor porcentaje de clasificación correcta de las instancias,

una distribución en la matriz de confusión sin desfases exagerados y su árbol de decisión no

presenta complejidades y es totalmente gestionable.

En relación a los modos de evaluación de la tabla 28, tenemos los siguientes resultados de aciertos

y errores utilizando árboles de decisión con el modelo j48:

Page 82: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

74

Tabla 30. Aciertos y errores utilizando los modos de evaluación para árboles de decisión con el modelo j48

(valores más altos)

MODO DE EVALUACIÓN VALOR

CONSIDERADO

PORCENTAJE

DE ACIERTO

PORCENTAJE

DE ERROR

USE TRAINING SET --- 86 14

SUPPLIED TEST SET (no evaluado)

CROSS VALIDATION 10 55 45

7 63 37

3 62 38

PERCENTAGE SPLIT 66% 61,76 38,23

45% 56,36 43,63

80% 55 45

Fuente: Machine Learning Group at the University of Waikato

Como se puede observar en la tabla 29, el valor más alto corresponde a “Use Training Set” con

86% de aciertos y 14% de errores, sin embargo, esta estimación es la más optimista; por otro lado

tenemos la estimación dada por “Cross Validation” cuyo valor más alto corresponde a 7 instancias

que arrojan un 63% de aciertos y 37% de errores, mientras que la estimación dada por “Percentage

Split” indica su valor más alto en 66% que nos da 61,76% de aciertos y 38,23% de errores. Esto

nos da un promedio de 70,25% para los aciertos y de 29,75% para los errores.

Este análisis, nos da la pauta que si bien la evaluación más alta corresponde a “use training set” la

forma más apropiada es evaluarlo con un valor apropiado de instancias dentro de “Cross

Validation” para mejorar la evaluación de la construcción o estructura de nuestro modelo.

6.4. Evaluación del Modelo

6.4.1. Parámetro de ajustes

No se han considerado parámetros de ajuste para el modelo seleccionado, sin embargo, en caso

de ser requerido evaluar el modelo, se deberá tomar en cuenta utilizar la estimación dada por

“Cross Validation” para evaluar el porcentaje de aciertos y errores del modelo a ser modificado,

para determinar de la mejor manera los resultados apropiados para el modelo.

6.4.2. Modelos

Los resultados obtenidos con la Exploración en Weka, muestran los resultados mostrados en la

siguiente tabla:

Page 83: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

75

Tabla 31. Datos de la corrida de Exploración de los datos en el programa WEKA

=== Run information === Scheme:weka.classifiers.trees.J48 -C 0.25 -M 2 Relation: PruebaWeka05 Instances: 100 Attributes: 6 NotaGraduacion NotaCursos Calificaciones Sanciones DiasOpe Especialidad Test mode:evaluate on training data

=== Classifier model (full training set) === J48 pruned tree ------------------ Sanciones <= 11 | NotaGraduacion <= 18.133 | | Sanciones <= 3 | | | DiasOpe <= 316: SS (3.0) | | | DiasOpe > 316: AV (2.0) | | Sanciones > 3 | | | Sanciones <= 4: SU (3.0) | | | Sanciones > 4 | | | | NotaCursos <= 18.478: AV (5.0/1.0) | | | | NotaCursos > 18.478: IN (4.0/1.0) | NotaGraduacion > 18.133 | | Sanciones <= 5 | | | NotaGraduacion <= 18.519: SU (2.0/1.0) | | | NotaGraduacion > 18.519: SS (2.0) | | Sanciones > 5 | | | DiasOpe <= 282: SU (2.0) | | | DiasOpe > 282: IM (6.0/1.0) Sanciones > 11 | Calificaciones <= 19.468: SU (13.0/3.0) | Calificaciones > 19.468 | | Sanciones <= 38 | | | NotaCursos <= 18.012: IM (4.0/1.0) | | | NotaCursos > 18.012 | | | | NotaGraduacion <= 17.869 | | | | | NotaCursos <= 18.35: SU (3.0) | | | | | NotaCursos > 18.35: AV (2.0) | | | | NotaGraduacion > 17.869: SU (18.0/2.0) | | Sanciones > 38 | | | DiasOpe <= 346 | | | | NotaGraduacion <= 18.643: SU (11.0/3.0) | | | | NotaGraduacion > 18.643: IM (3.0/2.0) | | | DiasOpe > 346 | | | | NotaCursos <= 17.691: SU (2.0/1.0) | | | | NotaCursos > 17.691: IM (15.0/1.0) Number of Leaves : 18 Size of the tree : 35 Time taken to build model: 0.03 seconds === Evaluation on training set ===

Page 84: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

76

=== Summary === Correctly Classified Instances 83 83 % Incorrectly Classified Instances 17 17 % Kappa statistic 0.743 Mean absolute error 0.1014 Root mean squared error 0.2251 Relative absolute error 36.2285 % Root relative squared error 60.3972 % Total Number of Instances 100 === Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure ROC Area Class 0.957 0.185 0.815 0.957 0.88 0.941 SU 0.885 0.068 0.821 0.885 0.852 0.959 IM 0.8 0.011 0.889 0.8 0.842 0.991 AV 0.5 0 1 0.5 0.667 0.961 SS 0.375 0.011 0.75 0.375 0.5 0.922 IN Weighted Avg. 0.83 0.105 0.837 0.83 0.817 0.951 === Confusion Matrix === a b c d e <-- classified as 44 1 1 0 0 | a = SU 3 23 0 0 0 | b = IM 0 1 8 0 1 | c = AV 4 1 0 5 0 | d = SS 3 2 0 0 3 | e = IN

El árbol mostrado por el programa, se muestra en el siguiente gráfico:

Gráfico No 16: Árbol de Decisión utilizando J48 para los datos analizados en WEKA

Fuente: Machine Learning Group at the University of Waikato

Page 85: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

77

6.4.3. Descripciones del modelo

El modelo desarrollado tiene varios criterios de clasificación para cada una de las especialidades,

por lo que se va a analizar una por una y se realizará un análisis posterior en conjunto para ver las

relaciones entre ellos y determinar cómo funciona el modelo desarrollado.

SUPERFICIE

Esta especialidad es la que tiene mayor cantidad de opciones de clasificación y el que contiene

mayor profundidad en las ramas del árbol, así mismo, contiene la mayor cantidad de errores de

clasificación, como se observa en la siguiente tabla:

Tabla 32. Clasificación de la especialidad de Superficie al aplicar WEKA con árbol de decisión y modelo J48

1° NIVEL 2° NIVEL 3° NIVEL 4° NIVEL 5° NIVEL 6° NIVEL ACIERTOS ERRORES

Sanciones <= 11

NotaGraduacion <= 18.133

Sanciones > 3

Sanciones <= 4 3 0

NotaGraduacion > 18.133

Sanciones <= 5

NotaGraduacion <= 18.519

2 1

Sanciones > 5

DiasOpe <= 282 2 0

Sanciones > 11

Calificaciones <= 19.468

13 3

Calificaciones > 19.468

Sanciones <= 38

NotaCursos > 18.012

NotaGraduacion <= 17.869

NotaCursos <= 18.35

3 0

NotaGraduacion > 17.869

18 2

Sanciones > 38

DiasOpe <= 346 NotaGraduacion <= 18.643

11 3

DiasOpe > 346 NotaCursos <= 17.691

2 1

TOTAL 54 10

Fuente: Análisis del Autor

El modelo determina un total de aciertos de 54 personas, sin embargo, el número real de personas

perteneciente a esta especialidad es de 46, por lo que se puede verificar que algunas personas de

otras especialidades mantienen parámetros similares a los considerados para la especialidad de

superficie.

En las filas 1, 2 y 5 hay clasificaciones que se repiten, esto es, por existir en el árbol general otras

clasificaciones conexas para las otras especialidades, pero para nuestro análisis, las integraremos,

es decir, para la fila 1 se considera sanciones mayores a 3 y menores o iguales a 4, para la fila 2

consideramos nota de graduación mayor a 18,133 y menor o igual a 18,519 y para la fila 5

consideramos la nota de cursos mayor a 18,012 y menor o igual a 18,35

SUBMARINOS

Esta especialidad tiene poca población, por lo que es esperable más problemas de clasificación,

sin embargo, los criterios de clasificación son solo dos para esta especialidad.

Tabla 33. Clasificación de la especialidad de Submarinos al aplicar WEKA con árbol de decisión y modelo

J48

1° NIVEL 2° NIVEL 3° NIVEL 4° NIVEL ACIERTOS ERRORES

Sanciones <= 11

NotaGraduacion <= 18.133 Sanciones <= 3 DiasOpe <= 316 3 0

NotaGraduacion > 18.133 Sanciones <= 5 NotaGraduacion > 18.519 2 0

TOTAL 5 0

Fuente: Análisis del Autor

Page 86: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

78

En este caso se lograron 5 aciertos, pero la cantidad real de personas perteneciente a esta

especialidad es de 10, por tanto es un equivalente a solo el 50% de la cantidad real, sin embargo

hay que considerar que para esta selección se contaba con muy pocos datos como para poder

realizar una mejor evaluación por parte del modelo.

Otro factor derivado de este análisis se refiere a que en la realidad, exista personal submarinista

que no se enmarca en los estándares comunes aplicados al 50% de los submarinistas que si

cumplen factores comunes, y al no haber errores de clasificación, entonces tenemos que esta

consideración es bastante cercana a la realidad.

En la fila 2 existe un factor de clasificación para la nota de graduación que se puede considerar

como solo uno para efectos de análisis, es decir la nota de graduación mayor a 18,33.

AVIACIÓN NAVAL

Esta especialidad tiene tres criterios de clasificación y su población analizada es la más cercana a

la realidad, a pesar de tener tan solo 10 registros del total de la población.

Tabla 34. Clasificación de la especialidad de Aviación Naval al aplicar WEKA con árbol de decisión y modelo

J48

1° NIVEL 2° NIVEL 3° NIVEL 4° NIVEL 5° NIVEL 6° NIVEL ACIERTOS ERRORES

Sanciones <= 11

NotaGraduacion <= 18.133

Sanciones <= 3

DiasOpe > 316

2 0

Sanciones > 3

Sanciones > 4

NotaCursos <= 18.478

5 1

Sanciones > 11

Calificaciones > 19.468

Sanciones <= 38

NotaCursos > 18.012

NotaGraduacion <= 17.869

NotaCursos > 18.35

2 0

TOTAL 9 1

Fuente: Análisis del Autor

En este caso, se lograron 9 aciertos y un error de tan solo 1 en una población de 10 personas, lo

que convierte a esta clasificación en la más acertada de todas las especialidades

En la segunda fila de la tabla, se puede observar que las condiciones para el número de sanciones

son continuas (creadas solo por la necesidad de clasificación de las otras especialidades),

pudiendo considerar como un solo nivel en donde Sanciones > 3 días.

En la tercera fila también se da una condición continua (igualmente derivada de la necesidad de

clasificación de las otras especialidades) con relación a las notas de los cursos, debiendo

permanecer un solo criterio de Nota de Cursos mayor a 18,012

INFANTERÍA DE MARINA

Esta especialidad tiene cuatro criterios de clasificación y la cantidad considerada corresponde

bastante a la población real de esta especialidad.

Page 87: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

79

Tabla 35. Clasificación de la especialidad de Infantería de Marina al aplicar WEKA con árbol de decisión y

modelo J48

1° NIVEL 2° NIVEL 3° NIVEL 4° NIVEL 5° NIVEL ACIERTOS ERRORES

Sanciones <= 11

NotaGraduacion > 18.133

Sanciones > 5 DiasOpe > 282 6 1

Sanciones > 11

Calificaciones > 19.468

Sanciones <= 38

NotaCursos <= 18.012

4 1

Sanciones > 38 DiasOpe <= 346 NotaGraduacion > 18.643

3 2

DiasOpe > 346 NotaCursos > 17.691

15 1

TOTAL 28 5

Fuente: Análisis del Autor

Para el caso de la Infantería de Marina, se lograron 28 aciertos y 5 errores en una población de 26,

lo cual es bastante acertado y refleja bien a las condiciones de selección para esta especialidad.

Para este caso, no se tienen condiciones iguales en cada una de las cuatro filas de clasificación

existentes.

INTELIGENCIA

Esta especialidad tiene un solo criterio de selección, lo que la coloca como la única especialidad

con una sola forma de seleccionar, sin embargo, hay que considerar que su población también es

la más pequeña de todas, con solo 8 registros del total de la población.

Tabla 36. Clasificación de la especialidad de Inteligencia al aplicar WEKA con árbol de decisión y modelo J48

1° NIVEL 2° NIVEL 3° NIVEL 4° NIVEL 5° NIVEL ACIERTOS

ERRORES

Sanciones <= 11

NotaGraduacion <= 18.133

Sanciones > 3 Sanciones > 4 NotaCursos > 18.478

4 1

TOTAL 4 1

Fuente: Análisis del Autor

Para la especialidad de Inteligencia, se tienen 4 aciertos y 1 error en una población de 8, lo que no

es un valor demasiado confiable, pero se debe tomar en cuenta la poca población analizada.

También se presenta una condición doble respecto al número de sanciones, por lo que se

considera solo las mayores a 3 días.

TODAS LAS ESPECIALIDADES

Si bien conviene dividir la clasificación para analizar la selección de cada especialidad, el verdadero

análisis se lo debe hacer en conjunto en base a los criterios de selección y sus respectivos valores

asociados, por lo que la tabla filtrada para cada uno de los criterios de análisis, se muestra a

continuación:

Tabla 37. Clasificación de todas las especialidades de acuerdo a los criterios de selección al aplicar WEKA

con árbol de decisión y modelo J48

Page 88: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

80

ESPECIALIDAD

Sanciones NotaGraduacion NotaCursos Calificaciones

DiasOpe ACIER TOS

ERRO RES

Superficie Sanciones > 3 y <= 11

NotaGraduacion <= 18.133

3 0

Sanciones <=11

NotaGraduacion > 18.133 y <= 18.519

2 1

Sanciones > 5 y <= 11

NotaGraduacion > 18.133

DiasOpe <= 282

2 0

Sanciones > 11 Calificaciones <= 19.468

13 3

Sanciones > 11 y <= 38

NotaGraduacion <= 17.869

NotaCursos > 18.012 y <= 18,35

Calificaciones > 19.468

3 0

Sanciones > 11 y <= 38

NotaGraduacion > 17.869

NotaCursos > 18.012

Calificaciones > 19.468

18 2

Sanciones > 11 NotaGraduacion <= 18.643

Calificaciones > 19.468

DiasOpe <= 346

11 3

Sanciones > 11 NotaCursos <= 17.691

Calificaciones > 19.468

DiasOpe > 346

2 1

Submarinos Sanciones <= 11

NotaGraduacion <= 18.133

DiasOpe <= 316

3 0

Sanciones <= 11

NotaGraduacion > 18.133

2 0

Aviación Naval

Sanciones <= 11

NotaGraduacion <= 18.133

DiasOpe > 316

2 0

Sanciones > 3 y <= 11

NotaCursos <= 18.478

5 1

Sanciones > 11 NotaGraduacion <= 17.869

NotaCursos > 18.012

Calificaciones > 19.468

2 0

Infantería de Marina

Sanciones > 5 y <= 11

NotaGraduacion > 18.133

DiasOpe > 282

6 1

Sanciones > 11 y <= 38

NotaCursos <= 18.012

Calificaciones > 19.468

4 1

Sanciones > 11 NotaGraduacion > 18.643

Calificaciones > 19.468

DiasOpe <= 346

3 2

Sanciones > 11 NotaCursos > 17.691

Calificaciones > 19.468

DiasOpe > 346

15 1

Inteligencia Sanciones > 3 y <= 11

NotaGraduacion <= 18.133

NotaCursos > 18.478

4 1

TOTAL

Fuente: Análisis del Autor

Como se puede observar, el primer criterio de selección es el de cantidad de sanciones, ya que

este valor es el más amplio en cuanto a su rango, el siguiente criterio es la nota de graduación, así

mismo, el rango si bien es menos amplio, constituye el valor de notas con mayor rango; luego

continúan las calificaciones, que realmente posee un rango muy poco amplio y los días de

operación es un valor algo menos considerado para la clasificación.

El valor menos considerado es la nota de los cursos, dado su muy poca amplitud en cuanto a los

valores distribuidos entre la población.

Esta tabla con la estructura general de clasificación generada por el árbol de decisión, es la que

nos permitirá realizar la evaluación del modelo.

Page 89: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

81

6.5. Evaluación del modelo

6.5.1. Evaluar el modelo

Para la evaluación del modelo, se ha considerado realizar un análisis de que tan adecuado resulta

la utilización de cada atributo para considerar las ramas del árbol de decisión logrado con el modelo

J48, para esto, a continuación se muestra un cuadro considerando la evaluación de los atributos:

Tabla 38. Tabla de Evaluación del Modelo relacionado a los atributos del modelo considerado.

Atributos Amplitud del

Atributo Precisión

Interpretación del Comportamiento

Sanciones Utiliza valores entre 3 y 38 con intervalos entre 3, 5, 11 y 38

SU.- Utiliza todos los rangos para la clasificación

Las sanciones por si solas no clasifican al personal, se encuentran combinadas con rangos de otros atributos. De acuerdo a los intervalos se puede considerar:

< a 3: Excelente

Entre 3 y 5: Muy Bueno

Entre 5 y 11: Bueno

Mayor a 11: Regular.

SS.- Utiliza un solo rango menor a 11

AV.- Utiliza tres rangos entre menor a 3 y mayor a 11

IM.- Utiliza varios rangos entre mayor a 5 y menor o igual a 38

IN.- Utiliza un solo rango entre mayor a 3 y menor a 11

Nota de Graduación

Utiliza valores entre menor a 17,691 y 18,643 lo que implica un rango de tan solo 0,952 de punto

SU.- Utiliza siete criterios combinados para clasificar utilizando todos los rangos.

La poca amplitud de los rangos de nota de graduación implica que no es un atributo que influya demasiado en el resultado, sin embargo, puede servirnos para determinar tendencias.

SS.- Utiliza dos criterios basados alrededor de la nota 18,133

AV.- Utiliza tres criterios de selección basados en notas menores a 18,478

IM.- Utiliza tres criterios, uno de ellos es el más alto de todos al considerar notas mayores a 18,643

IN.-Utiliza un solo rango menor a 18,133

Nota de Cursos

Se presentan valores entre mayor a 17,691 y mayores a 18,478, con un rango de solo 0,787 de punto

SU.- Utilizado tan solo en dos clasificaciones con valores > 18.012 y <= 18,35

Tiene poca amplitud y también es poco considerado para las diferentes clasificaciones, pero al igual que el atributo de Nota de Graduación, puede ser usado para determinar tendencias.

SS.- No utiliza este atributo para la clasificación

AV.- Utiliza valores mayor a 18.012 combinado con otros atributos.

IM.- Utiliza criterio mayor a 17.691 combinado con otros atributos.

IN.- Utiliza un solo criterio mayor a 18.478 combinado con otros atributos.

Se presenta un solo rango

SU.- Utiliza un criterio mayor a 19.468 combinado con otros

Tiene la menor amplitud, las notas de calificaciones de todo

Page 90: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

82

Atributos Amplitud del

Atributo Precisión

Interpretación del Comportamiento

Calificaciones

(excepto en un caso) de valores superiores a 19.468

atributos y uno solo menor o igual a este valor.

el personal se mantienen en valores cercano y en su mayoría superior a un solo valor.

Al ser un atributo que prácticamente tiene un solo criterio, es decir, calificaciones mayores a 19.468, no influye mayormente en el resultado y prácticamente no sirve para determinar tendencias.

SS.- No utiliza este atributo para la clasificación.

AV.- Utiliza valores mayor a 19.468 combinado con otros atributos.

IM.- En tres calificaciones utiliza combinado un valor mayor a 19.468

IN.- No utiliza este atributo para la clasificación.

Días de Operación

Utiliza valores entre los valores de 282, 316 y 346, considerando valores mayores y menores.

SU.- Considera valores menores o iguales a 282, menores o igual a 346 y mayor a este valor combinados con otros atributos.

Los días de operación son un valor adecuado por su amplitud y su distribución entre los criterios de selección, pero igualmente, no actúa solo sino combinado con los criterios para otros atributos.

SS.- Considera un valor menor o igual a 316 en una de sus dos clasificaciones.

AV.- Considera un valor mayor a 316 en una de sus tres clasificaciones.

IM.- Considera un rango amplio, entre mayora 282, menor o igual a 346 y mayor a este valor.

IN.- No utiliza este atributo para la clasificación.

Fuente: Análisis del Autor

De este primer análisis, podemos determinar que el único atributo que no aporta prácticamente en

nada es las calificaciones, los motivos por los que sucede esto se deben principalmente a:

La nota de Calificación Anual requiere evaluar ciertos parámetros para diferenciar al

personal en su comportamiento, sin embargo, dentro de los parámetros normales, la

mayoría de personal adecúa su comportamiento de modo que las calificaciones suelen

permanecer altas, siendo este un tema más bien de carácter coyuntural.

Las desviaciones producidas en la nota de calificaciones suelen ser muy pequeñas y los

casos en que una calificación se sale del rango normal son raras, lo que no deja un valor

de evaluación adecuado para el análisis.

6.5.2. Parámetros de ajustes revisados

Por lo indicado en el análisis anterior, el atributo Calificaciones no va a ser considerado, con lo que

se procederá a eliminar de la tabla preparada para el análisis.

Page 91: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

83

Luego de haber realizado esta modificación, al preparar los datos sin la columna de Calificaciones,

tenemos los siguientes datos utilizando árboles de decisión con el modelo J48:

Tabla 39. Datos de la segunda corrida de Exploración de los datos modificados en el programa WEKA

=== Run information === Scheme:weka.classifiers.trees.J48 -C 0.25 -M 2 Relation: PruebaWeka06 Instances: 100 Attributes: 5 Nota Graduación Nota Cursos Sanciones DiasOpe Especialidad Test mode:evaluate on training data

=== Classifier model (full training set) === J48 pruned tree ------------------ Sanciones <= 11 | Nota Graduacion <= 18.133 | | Sanciones <= 3 | | | DiasOpe <= 316: SS (3.0) | | | DiasOpe > 316: AV (2.0) | | Sanciones > 3 | | | Sanciones <= 4: SU (3.0) | | | Sanciones > 4 | | | | Nota Cursos <= 18.478: AV (5.0/1.0) | | | | Nota Cursos > 18.478: IN (4.0/1.0) | Nota Graduacion > 18.133 | | Sanciones <= 5 | | | Nota Graduacion <= 18.519: SU (2.0/1.0) | | | Nota Graduacion > 18.519: SS (2.0) | | Sanciones > 5 | | | DiasOpe <= 282: SU (2.0) | | | DiasOpe > 282: IM (6.0/1.0) Sanciones > 11 | DiasOpe <= 177 | | Nota Cursos <= 18.554 | | | DiasOpe <= 66: SU (6.0) | | | DiasOpe > 66 | | | | Sanciones <= 39: SU (2.0) | | | | Sanciones > 39: SS (2.0) | | Nota Cursos > 18.554: AV (2.0/1.0) | DiasOpe > 177 | | Sanciones <= 33 | | | Nota Cursos <= 18.894 | | | | Nota Graduacion <= 17.34: IM (2.0/1.0) | | | | Nota Graduacion > 17.34 | | | | | DiasOpe <= 618: SU (12.0) | | | | | DiasOpe > 618 | | | | | | DiasOpe <= 653: IM (2.0) | | | | | | DiasOpe > 653: SU (7.0/1.0) | | | Nota Cursos > 18.894: IM (2.0/1.0) | | Sanciones > 33 | | | Nota Cursos <= 17.691: SU (11.0/2.0) | | | Nota Cursos > 17.691: IM (23.0/6.0) Number of Leaves : 20 Size of the tree : 39 Time taken to build model: 0 seconds === Evaluation on training set === === Summary === Correctly Classified Instances 84 84 %

Page 92: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

84

Incorrectly Classified Instances 16 16 % Kappa statistic 0.7657 Mean absolute error 0.0944 Root mean squared error 0.2172 Relative absolute error 33.7242 % Root relative squared error 58.2724 % Total Number of Instances 100 === Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure ROC Area Class 0.891 0.074 0.911 0.891 0.901 0.96 SU 1 0.122 0.743 1 0.852 0.955 IM 0.7 0.022 0.778 0.7 0.737 0.978 AV 0.7 0 1 0.7 0.824 0.968 SS 0.375 0.011 0.75 0.375 0.5 0.928 IN Weighted Avg. 0.84 0.069 0.85 0.84 0.832 0.959 === Confusion Matrix === a b c d e <-- classified as 41 4 1 0 0 | a = SU 0 26 0 0 0 | b = IM 1 1 7 0 1 | c = AV 1 2 0 7 0 | d = SS 2 2 1 0 3 | e = IN

Fuente: Machine Learning Group at the University of Waikato

Este resultado fue obtenido luego de aplicar todos los métodos existentes para árboles de decisión

en el programa WEKA, se verifica que el método del algoritmo J48 sigue generando el mejor

resultado, al obtener un 84% para las instancias clasificadas correctamente y 16% de instancias

clasificadas incorrectamente.

Este resultado nos genera el siguiente árbol de decisión:

Figura 17. Árbol de Decisión utilizando J48 para los datos actualizados

analizados en WEKA.

Fuente: Machine Learning Group at the University of Waikato

Page 93: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

85

Realizando el mismo procedimiento anterior, podemos verificar en la siguiente tabla la distribución

de los criterios de acuerdo a los atributos seleccionados y su cantidad de aciertos y errores:

Tabla 40. Clasificación de todas las especialidades excluyendo el atributo de Calificaciones al aplicar WEKA con árbol de decisión y modelo J48

ESPECIA LIDAD

Sanciones NotaGraduacion NotaCursos DiasOpe ACIER TOS

ERRO RES

Superficie Sanciones > 3 y <= 11 Nota Graduacion <= 18.133

3 0

Sanciones <= 11 Nota Graduacion > 18.133 y <= 18.519

2 1

Sanciones > 5 y <= 11 Nota Graduacion > 18.133 DiasOpe <= 282 2 0

Sanciones > 11 Nota Cursos <= 18.554

DiasOpe <= 177 6 0

Sanciones > 11 y <= 39

Nota Cursos <= 18.554

DiasOpe > 66 y <= 177

2 0

Sanciones > 11 y <= 33

Nota Graduacion > 17.34 Nota Cursos <= 18.894

DiasOpe > 177 y <= 618

12 0

Sanciones > 11 y <= 33

Nota Graduacion > 17.34 Nota Cursos <= 18.894

DiasOpe > 177 7 1

Sanciones > 11 Nota Cursos <= 17.691

DiasOpe > 177 11 2

Submarinos Sanciones <= 11 Nota Graduacion <= 18.133

DiasOpe <= 316 3 0

Sanciones <= 11 Nota Graduacion > 18.133 2 0 Sanciones > 11 Nota Cursos <=

18.554 DiasOpe > 66 y <= 177

2 0

Aviación Naval

Sanciones <= 11 Nota Graduacion <= 18.133

DiasOpe > 316 2 0

Sanciones > 3 y <= 11 Nota Graduacion <= 18.133

Nota Cursos <= 18.478

5 1

Sanciones > 11 Nota Cursos > 18.554

DiasOpe <= 177 2 1

Infantería de Marina

Sanciones > 5 y <= 11 Nota Graduacion > 18.133 DiasOpe > 282 6 1

Sanciones > 11 y <= 33

Nota Graduacion <= 17.34 Nota Cursos <= 18.894

DiasOpe > 177 2 1

Sanciones > 11 y <= 33

Nota Graduacion > 17.34 Nota Cursos <= 18.894

DiasOpe > 177 y <= 653

2 0

Sanciones > 11 y <= 33

Nota Cursos > 18.894

DiasOpe > 177 2 1

Sanciones > 11 Nota Cursos > 17.691

DiasOpe > 177 23 6

Inteligencia Sanciones > 3 y <= 11 Nota Graduacion <= 18.133

Nota Cursos > 18.478

4 1

TOTAL

Fuente: Análisis del Autor

En esta tabla se puede observar que el acierto y errores variaron:

Para superficie mejoró al tener 45 aciertos de una población de 46 y un total de 4 errores,

frente a 54 aciertos (excedido) y 10 errores (valor mayor) del análisis anterior.

Para Submarinos mejoró al tener 7 aciertos de una población de 10 y cero errores, frente

a 5 aciertos (más bajo) y cero errores del análisis anterior.

Para la Aviación Naval, se mantiene casi igual, con un ligero aumento del error al tener 9

aciertos de una población de 10 y dos errores, frente a 9 aciertos y un error del análisis

anterior.

Page 94: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

86

Para la Infantería de Marina, la situación empeoró al tener 35 aciertos de una población

de 26 y nueve errores, frente a 28 aciertos y cinco errores del análisis anterior.

Para Inteligencia, la situación se mantiene igual con 4 aciertos y un error a la del análisis

anterior.

En el caso de la Infantería de Marina, al desaparecer el atributo de las calificaciones, el árbol

calculado con el método J48 tomó en cuenta la Nota de Cursos y el valor de rango considerado

para los Días de Operación bajó el límite, ya que en el análisis anterior, se consideraba para la

clasificación valores menores o iguales y mayores a un límite de clasificación de 346 días; con el

nuevo cálculo, este límite bajo a 177 días, lo que hizo clasificar a más personal del requerido.

En el análisis anterior, observamos que un grupo de 6 IM tienen en una clasificación una cantidad

de días mayor a 282, mientras que en otra clasificación 15 IM tienen una cantidad de días mayor

a 346, es decir, 21 IM tenían al menos 282 días mientras que solo 4 no toma en cuenta el número

de días.

En el nuevo análisis, al bajar el límite a 177 solo 6 de los 35 aciertos mantienen días mayor a 282,

por lo que se puede establecer este como el factor del aumento de los aciertos (que no causa

confiabilidad) y aumento de los errores.

Para solucionar este desfase grande de la clasificación de la Infantería de Marina, vamos a recurrir

a una solución “artificial”, manipulando los datos de cuatro registros del personal de Infantería de

Marina por las siguientes razones:

El promedio general de la Infantería de Marina para los días de operación es de 459, mientras

que estos cuatro registros tienen valores muy bajos para el promedio y consiguen que el

método de clasificación se distorsione y presente errores considerables.

Tomando en cuenta que en el primer análisis la mayoría de la población de la Infantería de

Marina se ubicaba sobre los 346 días de operación, se va a cambiar estos cuatro registros

por este valor para mejorar el análisis general.

Luego de haber realizado esta modificación, al preparar los datos modificando cuatro registros más

bajos de la Infantería de Marina para que tengan un valor de días de operación de 346 días,

tenemos los siguientes datos utilizando árboles de decisión con el modelo J48:

Tabla 41. Datos de la tercera corrida de Exploración de los datos modificados en el programa WEKA

=== Run information === Scheme:weka.classifiers.trees.J48 -C 0.25 -M 2 Relation: PruebaWeka07 Instances: 100 Attributes: 5 Nota Graduacion Nota Cursos Sanciones DiasOpe Especialidad Test mode:evaluate on training data

Page 95: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

87

=== Classifier model (full training set) === J48 pruned tree ------------------ DiasOpe <= 313 | Sanciones <= 3: SS (3.0) | Sanciones > 3 | | Sanciones <= 25 | | | Nota Graduacion <= 17.8: IN (3.0/1.0) | | | Nota Graduacion > 17.8: SU (11.0/2.0) | | Sanciones > 25 | | | Nota Graduacion <= 19.021: SU (18.0/3.0) | | | Nota Graduacion > 19.021: AV (2.0/1.0) DiasOpe > 313 | Sanciones <= 33 | | Nota Graduacion <= 18.133 | | | Nota Cursos <= 18.012: IM (2.0) | | | Nota Cursos > 18.012 | | | | DiasOpe <= 729 | | | | | Nota Cursos <= 18.35: SU (4.0/1.0) | | | | | Nota Cursos > 18.35: AV (7.0) | | | | DiasOpe > 729: SU (6.0) | | Nota Graduacion > 18.133 | | | Sanciones <= 20 | | | | Sanciones <= 5 | | | | | Nota Graduacion <= 18.519: SU (2.0/1.0) | | | | | Nota Graduacion > 18.519: SS (2.0) | | | | Sanciones > 5: IM (9.0/2.0) | | | Sanciones > 20: SU (5.0) | Sanciones > 33 | | Nota Cursos <= 17.691 | | | Sanciones <= 104: SU (5.0) | | | Sanciones > 104: SS (2.0/1.0) | | Nota Cursos > 17.691: IM (19.0/2.0) Number of Leaves : 16 Size of the tree : 31 Time taken to build model: 0.03 seconds === Evaluation on training set === === Summary === Correctly Classified Instances 86 86 % Incorrectly Classified Instances 14 14 % Kappa statistic 0.7907 Mean absolute error 0.0845 Root mean squared error 0.2055 Relative absolute error 30.2012 % Root relative squared error 55.1448 % Total Number of Instances 100 === Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure ROC Area Class 0.957 0.13 0.863 0.957 0.907 0.953 SU 1 0.054 0.867 1 0.929 0.98 IM 0.8 0.011 0.889 0.8 0.842 0.992 AV 0.6 0.011 0.857 0.6 0.706 0.966 SS 0.25 0.011 0.667 0.25 0.364 0.912 IN Weighted Avg. 0.86 0.077 0.85 0.86 0.843 0.962 === Confusion Matrix === a b c d e <-- classified as 44 2 0 0 0 | a = SU 0 26 0 0 0 | b = IM 1 0 8 0 1 | c = AV 3 0 1 6 0 | d = SS 3 2 0 1 2 | e = IN

Page 96: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

88

Fuente: Machine Learning Group at the University of Waikato

Este resultado nos genera el siguiente árbol de decisión:

Figura 18. Árbol de Decisión utilizando J48 para los datos actualizados por tercera vez y analizados en

WEKA

Fuente: Machine Learning Group at the University of Waikato

Realizando el mismo procedimiento anterior, podemos verificar en la siguiente tabla la distribución de los criterios de acuerdo a los atributos seleccionados y su cantidad de aciertos y errores:

Tabla 42. Clasificación de todas las especialidades, modificando cuatro registros de la Especialidad de

Infantería de Marina, y aplicar WEKA con árbol de decisión y modelo J48

ESPECIA LIDAD

DiasOpe Sanciones NotaGraduacion NotaCursos ACIER TOS

ERRO RES

Superficie DiasOpe <= 313 Sanciones > 3 y <= 25

Nota Graduacion > 17.8 11 2

DiasOpe <= 313 Sanciones > 3 Nota Graduacion <= 19.021

18 3

DiasOpe > 313 y <= 729

Sanciones <= 33 Nota Graduacion <= 18.133

Nota Cursos > 18.012 y<= 18.35

4 1

DiasOpe > 313 Sanciones <= 33 Nota Graduacion <= 18.133

Nota Cursos > 18.012

6 0

DiasOpe > 313 Sanciones <= 33 Sanciones <= 20

Nota Graduacion > 18.133 y <= 18.519

2 1

DiasOpe > 313 Sanciones <= 33 Sanciones > 20

Nota Graduacion > 18.133

5 0

DiasOpe > 313 Sanciones > 33 y <= 104

Nota Cursos <= 17.691

5 0

Submarinos DiasOpe <= 313 Sanciones <= 3 3 0 DiasOpe > 313 Sanciones <= 33 Nota Graduacion >

18.133 2 0

DiasOpe > 313 Sanciones > 33 Nota Cursos <= 17.691

2 1

Aviación Naval

DiasOpe <= 313 Sanciones > 3 Nota Graduacion > 19.021

2 1

Page 97: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

89

ESPECIA LIDAD

DiasOpe Sanciones NotaGraduacion NotaCursos ACIER TOS

ERRO RES

DiasOpe > 313 Sanciones <= 33 Nota Graduacion <= 18.133

Nota Cursos > 18.012

7 0

Infantería de Marina

DiasOpe > 313

Sanciones <= 33 Nota Graduacion <= 18.133

Nota Cursos <= 18.012

2 0

DiasOpe > 313

Sanciones > 5 y <= 33

Nota Graduacion > 18.133

9 2

DiasOpe > 313

Sanciones > 33 Nota Cursos > 17.691

19 2

Inteligencia DiasOpe <= 729 Sanciones > 3 y <= 25

Nota Graduacion <= 17.8

3 1

TOTAL

Fuente: Análisis del Autor

En esta tabla se puede observar que el acierto y errores variaron:

En general, este nuevo árbol inicia su clasificación ya no por sanciones sino por días de

operación, esto mejora las instancias correctamente clasificadas al 86% y las

incorrectamente clasificados en un 14%.

Para superficie la situación empeoró un poco al presentar 41 aciertos de una población de

46 y un total de 7 errores, frente a 45 aciertos (más exacto) y 4 errores (valor menor) del

análisis anterior.

Para Submarinos está casi igual con un ligero aumento del error al tener 7 aciertos de una

población de 10 y un error, frente al mismo número de aciertos y cero errores del análisis

anterior.

Para la Aviación Naval, hay una ligera mejoría al tener 9 aciertos de una población de 10 y

un error, frente al mismo número de aciertos y dos errores del análisis anterior.

Para la Infantería de Marina, la situación mejoró ya que ahora se presentan 30 aciertos de

una población de 26 y cuatro errores, frente a 35 aciertos (excedido) y nueve errores (mayor

cantidad) del análisis anterior.

Para Inteligencia, la situación empeoró ligeramente al tener 3 aciertos y un error frente a

cuatro aciertos y un error del análisis anterior.

Con respecto a los cambios indicados, el resultado es que el árbol tiene un diseño más simple de

menor tamaño y que en general se ajusta a la clasificación de todas las especialidades y con un

porcentaje de elementos correctamente clasificados del 86%.

6.5.3. División de los registros

Una opción de análisis, es dividir los registros en dos grupos y verificar si se mantiene la estructura,

para ello, realizaremos una corrida con los datos solamente con Oficiales y otra solo con

Tripulantes.

El primer análisis (solo con oficiales) y aplicando el mismo patrón anterior (es decir, árbol de

decisión con método j48 y utilizando la mejor estimación con “use training set”), tenemos los

siguientes datos:

Page 98: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

90

Tabla 43. Datos de la corrida de Exploración de los datos modificados tomando en cuenta solo OFICIALES

en el programa WEKA

=== Run information === Scheme:weka.classifiers.trees.J48 -C 0.25 -M 2 Relation: PruebaWeka07(01) Instances: 38 Attributes: 5 Nota Graduacion Nota Cursos Sanciones DiasOpe Especialidad Test mode:evaluate on training data

=== Classifier model (full training set) === J48 pruned tree ------------------ Nota Graduacion <= 18.122 | Sanciones <= 3 | | DiasOpe <= 316: SS (3.0) | | DiasOpe > 316: AV (2.0) | Sanciones > 3 | | DiasOpe <= 729 | | | DiasOpe <= 338 | | | | Nota Graduacion <= 17.8: IN (3.0/1.0) | | | | Nota Graduacion > 17.8: SU (4.0/1.0) | | | DiasOpe > 338: AV (7.0/1.0) | | DiasOpe > 729: SU (6.0) Nota Graduacion > 18.122 | Nota Graduacion <= 18.461 | | Nota Cursos <= 18.626: IM (4.0) | | Nota Cursos > 18.626 | | | Nota Graduacion <= 18.376: SU (3.0/1.0) | | | Nota Graduacion > 18.376: IM (3.0/1.0) | Nota Graduacion > 18.461: SS (3.0/1.0) Number of Leaves : 10 Size of the tree : 19 Time taken to build model: 0 seconds === Evaluation on training set === === Summary === Correctly Classified Instances 32 84.2105 % Incorrectly Classified Instances 6 15.7895 % Kappa statistic 0.794 Mean absolute error 0.09 Root mean squared error 0.2121 Relative absolute error 29.1704 % Root relative squared error 54.1277 % Total Number of Instances 38 === Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure ROC Area Class 0.846 0.08 0.846 0.846 0.846 0.955 SU 1 0.031 0.857 1 0.923 0.995 IM 0.889 0.034 0.889 0.889 0.889 0.981 AV 1 0.03 0.833 1 0.909 0.994 SS 0.4 0.03 0.667 0.4 0.5 0.918 IN Weighted Avg. 0.842 0.048 0.833 0.842 0.831 0.968

Page 99: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

91

=== Confusion Matrix === a b c d e <-- classified as 11 0 1 1 0 | a = SU 0 6 0 0 0 | b = IM 0 0 8 0 1 | c = AV 0 0 0 5 0 | d = SS 2 1 0 0 2 | e = IN

Fuente: Machine Learning Group at the University of Waikato

Como se puede observar en la tabla anterior, se mantiene el porcentaje de aciertos (84,21%) y

errores (15,79%) y la matriz de confusión en forma muy similar al análisis general, pero esta vez

se presentan menos errores y el tamaño del árbol es considerablemente menor (19 frente a 31 del

análisis general).

El nuevo árbol de decisión obtenido empieza su clasificación por la nota de graduación, lo que es

un cambio importante respecto al árbol general; el árbol se lo puede observar en el siguiente

gráfico:

Figura 19. Árbol de Decisión utilizando J48 para los datos actualizados solo para OFICIALES y analizados en WEKA.

Fuente: Machine Learning Group at the University of Waikato

Para el caso de Tripulantes, se tiene un total de 62 registros, a los cuales se les aplicó el mismo

procedimiento utilizado para oficiales, obteniéndose la siguiente tabla de resultados:

Tabla 44. Datos de la corrida de Exploración de los datos modificados tomando en cuenta solo

TRIPULANTES en el programa WEKA

Page 100: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

92

=== Run information === Scheme:weka.classifiers.trees.J48 -C 0.25 -M 2 Relation: PruebaWeka07(02) Instances: 62 Attributes: 5 Nota Graduacion Nota Cursos Sanciones DiasOpe Especialidad Test mode:evaluate on training data

=== Classifier model (full training set) === J48 pruned tree ------------------ DiasOpe <= 320 | Nota Graduacion <= 19.032: SU (23.0/3.0) | Nota Graduacion > 19.032: SS (2.0/1.0) DiasOpe > 320 | Sanciones <= 104 | | Nota Graduacion <= 18.121: IM (11.0/1.0) | | Nota Graduacion > 18.121 | | | Nota Cursos <= 18.147: SU (7.0) | | | Nota Cursos > 18.147 | | | | Sanciones <= 36 | | | | | Sanciones <= 9: IM (2.0/1.0) | | | | | Sanciones > 9: SU (6.0/1.0) | | | | Sanciones > 36: IM (6.0) | Sanciones > 104 | | Nota Graduacion <= 18.251: IN (3.0/1.0) | | Nota Graduacion > 18.251: SS (2.0/1.0) Number of Leaves : 9 Size of the tree : 17 Time taken to build model: 0 seconds === Evaluation on training set === === Summary === Correctly Classified Instances 53 85.4839 % Incorrectly Classified Instances 9 14.5161 % Kappa statistic 0.7517 Mean absolute error 0.0841 Root mean squared error 0.2051 Relative absolute error 34.0103 % Root relative squared error 58.969 % Total Number of Instances 62 === Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure ROC Area Class 0.97 0.138 0.889 0.97 0.928 0.941 SU 0.4 0.035 0.5 0.4 0.444 0.867 SS 0.85 0.048 0.895 0.85 0.872 0.976 IM 0.667 0.017 0.667 0.667 0.667 0.986 IN 0 0 0 0 0 0.992 AV

Page 101: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

93

Weighted Avg. 0.855 0.092 0.834 0.855 0.843 0.949 === Confusion Matrix === a b c d e <-- classified as 32 0 1 0 0 | a = SU 3 2 0 0 0 | b = SS 1 1 17 1 0 | c = IM 0 0 1 2 0 | d = IN 0 1 0 0 0 | e = AV

Fuente: Machine Learning Group at the University of Waikato

Aquí también se puede observar respecto a la tabla anterior, que se mantiene el porcentaje de

aciertos (85,48%) y errores (14,52%) y la matriz de confusión en forma muy similar al análisis

general, pero esta vez no se obtiene en el desarrollo del árbol ninguna clasificación para la

especialidad de Aviación Naval, esto se debe a la presencia de un solo registro relacionado a esta

especialidad; a su vez, se presentan mayores errores en la clasificación de la especialidad de

submarinos e inteligencia.

El nuevo árbol de decisión obtenido continúa con su clasificación por los días de operación pero

tiene menor tamaño (solo 17); el árbol se lo puede observar en el siguiente gráfico:

Figura 20. Árbol de Decisión utilizando J48 para los datos actualizados solo para TRIPULANTES y

analizados en WEKA

Fuente: Machine Learning Group at the University of Waikato

De los dos análisis anteriores, tanto de oficiales como tripulantes, se pueden determinar las

siguientes observaciones:

1. El árbol de decisión solo para oficiales mejora ligeramente la clasificación del personal en

las diferentes especialidades.

Page 102: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

94

2. El árbol de decisión solo para tripulantes presenta mayores errores y no clasifica la

especialidad de Aviación Naval por tener tan solo un registro, por tanto, no se puede usar

como árbol adecuado para la clasificación.

3. Ambos árboles reducen ostensiblemente el tamaño del árbol desarrollado para cada grupo,

aunque en el árbol de decisión para oficiales se cambia el primer factor de clasificación

De lo anterior, podemos decir que el árbol de decisión general realizado en su tercera corrida, sigue

siendo el más adecuado aún para ser considerado como el patrón para la clasificación de personal.

Page 103: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

95

7. FASE V: EVALUACIÓN

Page 104: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

96

7.1. Evaluación de los resultados

7.1.1. Evaluar los resultados

En el proceso de elaboración del modelo, se requiere realizar la evaluación del modelo

considerado hasta el momento, por tanto, a continuación en la siguiente tabla se expone la

evaluación de los resultados.

Tabla 45. Tabla de Evaluación del Modelo relacionado a los perfiles y factores de éxito

Especia lidad

Perfiles Factores de

Éxito Atributos

Condiciones de selección

Superficie Todos los Oficiales y Tripulantes de Arma tienen la orientación hacia esta especialidad; salud adecuada y capacidad física normal.

Capacidad de estudio y dedicación del alumno y en su afinidad hacia el embarque en buques.

Días de Operación

La mayor parte de la población (56%) de superficie tiene una cantidad menor a 313 días de Operación y solo algo más del 30% supera esa cantidad de días de operación

Ya que la cantidad de días de navegación es considerable (teniendo un 30% que supera el promedio) es importante evaluar la capacidad del aspirante para permanecer a bordo y superar las dificultades del mismo como mareos o aislamiento.

Sanciones

La mayor parte del personal tiene menos de 33 días de arresto.

Es importante considerar en la selección que los candidatos tengan una disciplina acorde a la vida a bordo de los buques.

Nota de Graduación

La mayor parte mantiene una nota de graduación mayor a 17.8 y menor a 19.021

Se deben considerar estos valores para la selección de los aspirantes a superficie en cuanto a su nota de graduación como un dato para la selección.

Nota de Cursos

No se aplica a todas las clasificaciones de superficie, solo a cerca del 30% de la población, las notas se mantienen entre mayor a 18,012 y menor a 18,35

La nota de cursos se debe tomar del primer curso que realiza el personal antes de entrar en la selección, de acuerdo a estos valores considerados para el personal de superficie.

Submarinos Voluntario.

Buena salud especialmente en su sistema otorrino (nariz – oído – boca)

No debe padecer claustrofobia.

Capacidad de estudio y dedicación del alumno.

Habilidad para controlar el submarino (para Oficiales)

Días de Operación

Un poco más del 60% de la población de submarinistas tiene más de 313 días de operación en la mar y solo un poco más del 30% tiene menos de 313 días.

Si bien la cantidad de días es considerable, también existe un valor menor al promedio, sin embargo, dada la condición especial de los submarinos, es importante que para la selección se considere que los aspirantes puedan superar

Page 105: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

97

Especia lidad

Perfiles Factores de

Éxito Atributos

Condiciones de selección

Capacidad de autocontrol y reacción positiva ante emergencias.

Persona sociable y colaborativa al máximo.

Habilidad para operar en forma eficiente y segura los equipos y sistemas (Oficiales y Tripulantes)

Buena afinidad para el embarque en un submarino.

factores como la convivencia en un lugar cerrado y no tener claustrofobia, entre otras.

Sanciones

Algo más del 60% de la población tiene menos de 33 días de arresto, sin embargo, es de notar que aproximadamente el 30% tiene menos de 3 días de arresto. El otro 30% tiene más de 33 días de arresto.

A pesar de la amplitud en cuanto a la cantidad de sanciones, en los submarinos es importante considerar en la selección que los candidatos tengan una disciplina acorde a la vida dentro del submarino.

Nota de Graduación

Algo más del 60% no se le considera en la selección la nota de graduación. Menos del 30% mantiene una nota mayor a 18,133

Se deben considerar estos valores para la selección de los aspirantes a submarinos en cuanto a su nota de graduación como un dato para la selección.

Nota de Cursos

Algo más del 60% no se le considera en la selección la nota de cursos. Menos del 30% mantiene una nota en los cursos menor a 17,691

La nota de cursos se debe tomar del primer curso que se realiza antes de entrar en la selección, de acuerdo a estos valores considerados para el personal de submarinos.

Aviación Naval

Voluntario.

Buena salud, soporte variaciones de presión

Rápida habilidad mental y buena visión (Oficiales)

Capacidad para soportar el ambiente en cabinas cerradas y vuelo en grandes alturas.

Capacidad de reacción ante

Capacidad de estudio y dedicación del alumno.

Buena habilidad para operar las aeronaves (Oficiales).

Habilidad para operar, mantener y reparar los equipos de las aeronaves y helicópteros (tripulantes).

Afinidad a la aviación en general.

Días de Operación

Más del 75% mantienen una cantidad mayor a 313 días de operación y solo algo más del 20% tiene menos de ese valor.

Este caso también se mantienen algunos valores por debajo del promedio, pero igualmente considerables por lo que se requiere los aspirantes tengan afinidad a volar y superar las condiciones de peligro que se pueden presentar durante las horas de vuelo.

Sanciones

Toda la población analizada tiene menos de 33 días de arresto.

Se observa en general que se mantiene un nivel aceptable de baja cantidad de sanciones, esto debe ser exigido para seleccionar al personal y mantenido durante la carrera.

Page 106: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

98

Especia lidad

Perfiles Factores de

Éxito Atributos

Condiciones de selección

emergencias (Oficiales y Tripulantes).

Estatura máxima permitida.

Nota de Graduación

Más del 75% tienen una nota de graduación menor a 18,133 y solo algo más del 20% tiene una nota mayor a 19,021.

Se deben considerar estos valores para la selección de los aspirantes a Aviación Naval en cuanto a su nota de graduación como un dato para la selección, considerando que aquí se encuentran las notas más altas de este atributo.

Nota de Cursos

Solo se aplica a algo más del 75% la nota de cursos, manteniéndose en un valor mayor a 18,012

Esta nota se debe tomar del primer curso que realizan los oficiales y tripulantes antes de entrar en la selección, de acuerdo a los valores considerados para este curso.

Infantería de Marina

Voluntario.

Buena salud.

Buena condición física.

Capacidad de liderazgo

Fortaleza de carácter.

Capacidad de estudio, dedicación y preparación física.

Carácter firme.

Capacidad de reacción, arrojo y liderazgo.

Días de Operación

Toda la población mantiene un valor (que fue modificado en sus inicios) mayor a 313 días de operación en el terreno.

La alta cantidad de días (que ya fue analizado y modificado) hacen que sea importante que el aspirante tenga una capacidad física y adaptación al medio para ser seleccionado.

Sanciones

Más del 60% de la población de Infantería de Marina tiene una cantidad de días de arresto superior a 33 días y solo algo más del 30% se mantiene por debajo de los 33 días de arresto.

Los casos de personal sancionado son mayores que en las otras especialidades, por lo que se debe mantener en alto la necesidad de que los aspirantes tengan un liderazgo y conducta apropiada.

Nota de Graduación

Solo se considera para el 30% de la población un valor de nota de graduación superior a 18,133 y para el 6% una nota menor a este valor.

Se deben considerar estos valores para la selección de los aspirantes a Infantería de Marina en cuanto a su nota de graduación como un dato para la selección.

Nota de Cursos

Para el 6% se considera una nota de cursos menor a 18,012, mientras que para más del 60% se considera una nota de cursos mayor a 17,691

La nota de cursos se debe tomar del primer curso que realiza el personal antes de entrar en la selección, de acuerdo a estos valores considerados para el personal de Infantería de Marina.

Page 107: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

99

Especia lidad

Perfiles Factores de

Éxito Atributos

Condiciones de selección

Inteligencia Requiere un análisis previo de los antecedentes y factores psicológicos.

Buena salud.

Buena condición física.

Capacidad de estudio, dedicación.

Condiciones físicas adecuadas.

Capacidad de discreción y confiabilidad.

Días de Operación

Se considera un valor para toda la población menor o igual a 729 días de operación.

La gran cantidad de días en operaciones de inteligencia que el personal debe cumplir sugieren que el aspirante debe tener las cualidades físicas y capacidades psicológicas para poder efectuar estas operaciones.

Sanciones

Para todos se consideran valores superiores a 3 días y menores o iguales a 25 días de arresto.

Son los que tienen el nivel más bajo de sanciones, lo que está acorde con la necesidad de seleccionar personal con un nivel psicológico y de antecedentes de buena conducta.

Nota de Graduación

La nota de graduación considerada para esta especialidad es menor o igual a 17,8

Se deben considerar estos valores para la selección de los aspirantes a Inteligencia en cuanto a su nota de graduación como un dato para la selección.

Nota de Cursos

No se considera en la selección ninguna nota de cursos para esta especialidad

La nota de cursos se debe tomar de los cursos que ya haya realizado el personal antes de entrar en la selección, de acuerdo a estos valores considerados para el personal de Inteligencia.

Fuente: DIGREH / Análisis del Autor

Como se puede observar en la tabla anterior, los criterios de selección del modelo seleccionado,

refuerzan los factores que actualmente están siendo considerados, pero introduciendo además

valores reales con los que se puede realizar una clasificación previa del personal de Oficiales y

Tripulantes para determinar –en base a las calificaciones, sanciones y tiempo de operación-

quienes tienen la mejor opción de desempeñarse adecuadamente dentro de cada una de las

especialidades, de acuerdo a lo establecido por este modelo (hay que tomar en cuenta que no

se considera para el análisis a toda la población sino solamente a la muestra de 100 personas

seleccionada para realizar este estudio).

Page 108: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

100

7.1.2. Estudio de Casos

Para verificar el modelo, se ha procedido a realizar una comparación de los datos considerados

en este estudio, aplicando el algoritmo de selección para determinar en forma real, como se tratan

los datos dentro del algoritmo; se ha considerado de esta forma tomando en cuenta que los

parámetros de selección determinados en WEKA, son calculados en base al modelo j48 y forma

de análisis optimista (utilizados al momento de crear el árbol), pero al aplicar los datos en las

ramas de acuerdo a los valores de ingreso o exclusión de cada una, se obtiene que tan

adecuadamente el modelo determinó los criterios de selección. Utilizando la aplicación Excel y su

capacidad de generar fórmulas, se obtuvo la siguiente tabla:

Tabla 46. Comparación de los datos utilizados con el algoritmo seleccionado

DiasOpe Sanciones Nota

Graduación NotaCursos

RESULTADOS REAL

% ACIERTOS

SU SS AV IM IN

26 6 18,915 19,141 SU SU 100,00%

316 13 18,439 19,021 SU SS IM IM 33,33%

374 5 17,930 18,675 SU AV AV 50,00%

764 8 17,590 18,470 SU AV SU 50,00%

698 25 17,860 18,602 SU AV AV 50,00%

213 16 18,376 18,802 SU AV SU 100,00%

648 7 18,400 18,554 SU SS IM IM 33,33%

429 17 17,320 18,385 SU AV IM AV 33,33%

313 0 17,931 18,688 SS SS 100,00%

304 11 18,084 18,582 SU IN 0,00%

346 5 18,588 18,840 SS SS 100,00%

115 4 17,845 18,437 SU SU 100,00%

510 10 18,152 18,626 SU SS IM AV IM 33,33%

766 6 18,335 18,549 SU SS IM IM 33,33%

1002 14 17,531 18,202 SU AV SU 50,00%

127 10 17,480 18,123 SU IN AV 0,00%

618 10 17,340 18,253 SU AV IN AV 33,33%

766 25 17,832 18,317 SU AV SU 33,33%

597 22 17,569 18,175 SU AV IN SU 33,33%

543 3 18,122 18,874 SU AV AV 50,00%

729 3 18,916 19,090 SS SS 100,00%

1031 2 18,308 18,852 SU SS SU 50,00%

338 0 18,461 18,894 SU SS IN 0,00%

685 10 17,592 18,432 SU AV AV 50,00%

854 4 17,935 18,588 SU AV SU 50,00%

494 9 18,390 18,890 SU SS IM IM 33,33%

252 15 17,948 18,600 SU SU 100,00%

309 3 17,853 18,510 SS SS 100,00%

125 4 18,001 18,662 SU SU 100,00%

690 7 17,676 18,478 SU AV IN AV 33,33%

79 7 17,625 18,490 SU IN IN 50,00%

320 2 17,479 18,413 SU AV AV 50,00%

144 25 18,202 18,687 SU IN 0,00%

Page 109: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

101

DiasOpe Sanciones Nota

Graduación NotaCursos

RESULTADOS REAL

% ACIERTOS

SU SS AV IM IN

237 2 17,565 18,477 SS SS 100,00%

1082 17 17,886 18,394 SU AV SS SU 50,00%

296 5 17,800 18,498 SU IN IN 50,00%

865 14 18,120 18,666 SU AV SU 50,00%

452 64 18,276 18,396 IM IM 100,00%

80 6 19,032 18,946 SU AV SU 50,00%

214 55 19,039 18,012 AV SS 0,00%

874 54 18,629 18,649 IM IM 100,00%

385 71 18,561 17,681 SU SS SU 50,00%

177 38 18,149 17,609 SU SU 50,00%

550 103 18,241 17,486 SU SS SU 50,00%

66 35 18,308 18,206 SU SU 100,00%

653 16 18,643 18,600 SS IM IM 50,00%

569 41 18,121 18,350 IM IM 100,00%

241 104 18,175 18,159 SU IM 0,00%

391 52 18,719 18,708 IM IM 100,00%

1051 189 18,109 18,100 IM IN 100,00%

1764 69 17,869 17,948 IM IM 100,00%

552 77 18,539 18,458 IM IM 100,00%

672 151 17,984 17,951 IM IM 100,00%

213 121 18,721 18,127 SU IM 0,00%

977 90 17,770 17,771 IM IM 100,00%

991 8 18,418 18,440 SU SS IM IN 0,00%

241 20 18,834 18,554 SU SU 100,00%

581 16 18,133 18,131 SU AV SU 50,00%

600 39 18,251 18,209 IM IM 100,00%

690 32 18,455 18,376 SU SS IM SU 33,33%

678 84 19,703 19,000 IM IM 50,00%

366 27 19,054 18,889 SU SS IM SU 33,33%

653 33 17,916 17,932 IM IM 100,00%

411 41 17,853 17,847 IM IM 100,00%

63 44 17,843 17,822 SU SU 100,00%

945 55 18,066 18,038 IM IM 100,00%

17 24 18,292 18,291 SU SU 50,00%

393 47 17,972 17,971 IM IM 100,00%

207 28 19,021 18,733 SU SU 100,00%

417 66 18,069 18,089 IM IM 100,00%

179 36 17,887 17,843 SU IM 0,00%

408 14 18,763 18,589 SS IM SU 0,00%

180 15 17,212 17,237 SU IN IM 0,00%

105 67 17,793 17,691 SU SS 0,00%

320 25 18,352 17,398 SU SS IM SU 33,33%

610 106 17,321 17,259 SS IN 0,00%

401 33 18,329 18,298 SU SS IM SU 33,33%

487 37 18,191 18,147 IM SU 0,00%

265 76 18,158 18,205 SU SU 100,00%

875 76 18,742 17,530 SU SS SU 50,00%

66 62 17,984 17,881 SU SU 100,00%

440 31 18,294 18,107 SU SS IM SU 33,33%

Page 110: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

102

DiasOpe Sanciones Nota

Graduación NotaCursos

RESULTADOS REAL

% ACIERTOS

SU SS AV IM IN

217 24 18,734 18,632 SU SU 100,00%

261 39 18,477 18,659 SU SU 100,00%

694 129 18,423 17,638 SS SS 100,00%

0 73 18,268 18,277 SU SU 100,00%

83 29 18,519 18,452 SU SU 100,00%

198 39 18,284 18,232 SU SU 100,00%

12 63 18,348 18,144 SU SU 100,00%

69 42 18,211 18,218 SU SS 0,00%

18 59 19,102 19,102 AV AV 100,00%

1116 45 17,679 17,652 SU SS SU 50,00%

273 53 17,226 17,254 SU SU 100,00%

305 61 18,363 17,107 SU SU 100,00%

309 132 17,012 17,615 SU SU 100,00%

505 53 18,421 16,996 SU SS SU 50,00%

282 141 18,289 17,052 SU SU 100,00%

732 9 19,640 19,452 SS IM IM 50,00%

672 33 18,128 18,329 SU AV SU 50,00%

264 26 19,003 18,981 SU SS 0,00%

61,00%

Fuente: Análisis del Autor

Considerando que el modelo puede obtener más de un resultado, se ha tomado en cuenta el

porcentaje en cuanto se logró acertar o no en la especialidad real de la persona; de esto se puede

observar que el porcentaje de aciertos es del 61%, y si aplicamos un criterio más optimista y

damos un 100% si acertó incluso si se tiene más de una opción, entonces el porcentaje de

aciertos llega a un 83,5%, lo cual se compagina con el modelo y criterio de creación que fueron

escogidos para crear el árbol de decisión.

Para analizar ya casos específicos, hemos seleccionado ocho casos:

Los cinco primeros corresponden a oficiales y tripulantes en donde el modelo solo determinó una

especialidad y esta corresponde con la realidad, es decir, una selección al 100% (excepto el caso

de Inteligencia que no tiene ningún caso de selección al 100%, por lo que se seleccionó el más

cercano); mientras que los tres últimos, son casos en los que las personas repitieron el curso, es

decir, fallas en la vida real, pero que el modelo si acertó (solo en un caso al 100%) en la

especialidad escogida finalmente.

Hay que considerar que en la época en la que estas personas ingresaron a curso, el proceso de

selección seguía un esquema exclusivamente voluntario, por lo que no se tiene información de

selecciones realizadas, pero en la siguiente tabla analizaremos algunos factores que pueden

mejorar la comprensión de éxitos y fallos en la selección tomando la muestra mencionada de

ocho personas:

Page 111: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

103

Tabla 47. Análisis de casos específicos

CASO GRADO ESPECIA

LIDAD ANÁLISIS

Éxito No 1 Oficial Superficie

Ha tenido un desempeño destacado en la especialidad,

estando entre las primeras antigüedades de su promoción;

fue escogido por el sistema en su misma especialidad al

100%

Éxito No 2 Oficial Submarinista

Ha sido la primera antigüedad en todos los cursos y se ha

destacado dentro de su desempeño a bordo de los

submarinos; el sistema seleccionó su especialidad al 100%

Éxito No 3 Oficial Inteligencia

Ha realizado muchas operaciones de inteligencia durante su

carrera; el sistema lo seleccionó al 50% en su especialidad,

aunque la otra especialidad considerada fue superficie,

siendo esta especialidad en la que también se desempeñó

antes de iniciar el curso de inteligencia, por lo que se

considera un caso de éxito.

Éxito No 4 Tripulante Infante de Marina

Se ha mantenido con antigüedades muy buenas durante su

carrera y muchos días de operación en el terreno; obtuvo

una excelente nota en el curso de especialidad y ha

realizado varios cursos de Infantería de Marina; el sistema lo

seleccionó en su especialidad al 100%

Éxito No 5 Tripulante Aviador Naval

Tuvo una de las más altas notas en el curso de especialidad

y se ha especializado en el área técnica aeronáutica; el

sistema lo seleccionó para la Aviación Naval al 100%

Falla No 1 Oficial Superficie Inició el curso de Aviación Naval y no lo terminó; luego pasó

a Superficie; el sistema lo seleccionó para superficie al 100%

Falla No 2 Oficial Infante de

Marina

Inició el curso de Aviación Naval y no lo terminó; luego pasó

a la Infantería de Marina; si bien el sistema lo seleccionó

para más de una especialidad, no lo seleccionó para

Aviación Naval.

Falla No 3 Oficial Superficie

Inició el curso de Submarinos y no lo terminó; luego pasó a

Superficie; el sistema lo seleccionó para superficie o aviación

naval, no para submarinista.

Fuente: Análisis del Autor

Como se puede corroborar, la selección estimada por el modelo, es bastante cercana a la realidad

de la selección de los cursos realizada por el personal en forma voluntaria, si bien los éxitos

indicados en las dos últimas tablas son solo del 61%, hay que indicar que el modelo nos muestra

en muchos casos más de una posible opción para el personal, encontrándose la especialidad

correcta en las opciones en el 83,5% de lo considerado en el modelo, mostrando que se acerca

bastante a lo esperado.

Page 112: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

104

7.1.3. Evaluación de los resultados de la minería de datos en lo que concierne a

criterios de éxito de negocio

En relación a los resultados relacionados a los criterios de éxito del negocio, se ha elaborado la

siguiente tabla en donde se muestra esa relación:

Tabla 48. Tabla de Evaluación del Modelo relacionado a los criterios de éxito del negocio

FACTOR CRITERIO DE ÉXITO CARACTERÍSTICAS CRITERIOS DE SELECCIÓN QUE APOYAN EL CRITERIO

DE ÉXITO

SELECCIÓN

DE

PERSONAL

La selección de

personal debe estar

enmarcado en el menor

error posible una vez

aplicado el algoritmo

Menor o igual al 15%

en el análisis.

El modelo generado tiene

instancias clasificadas

correctamente del 86%,

mientras un porcentaje de

incorrectamente clasificadas del

14%, encontrándose dentro del

parámetro esperado de error.

NOTA MÍNIMA

EN CADA

MATERIA

Que cada Oficial o

Tripulante en curso

iguale o supere el

mínimo requerido en

cada materia.

Superar la nota de

16/20 en cada materia;

se establece un

margen de error de +/-

5%

Si bien no se analizó los datos

de las notas de cada materia

para el modelo considerado

para este análisis, este

promedio se encuentra incluido

y superado ampliamente en las

notas de los cursos que se

analizaron.

NOTA MÍNIMA

EN CADA

CURSO

Que cada Oficial o

Tripulante en curso

iguale o supere el

promedio general en

cada curso realizado.

Superar el promedio

general de 16/20; se

establece un margen

de error de +/- 5%

Los resultados analizados de la

nota obtenida en los cursos

tomados en cuenta para este

estudio, muestran que los

valores obtenidos por la

población mantienen varios

rangos, el menor de ellos es

que las notas estén por debajo

o iguales a 17,691, mientras

que en el extremo más alto se

mantienen notas superiores a

18,012, lo que supera

ampliamente el promedio

esperado, superando el valor

considerado.

Page 113: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

105

FACTOR CRITERIO DE ÉXITO CARACTERÍSTICAS CRITERIOS DE SELECCIÓN QUE APOYAN EL CRITERIO

DE ÉXITO

CONDUCTA Que su conducta

supere la evaluación de

conducta en un nivel

adecuado al buen

comportamiento.

Superar la evaluación

de 18/20; se establece

un margen de error de

+/- 5%

Si bien las calificaciones

anuales fueron eliminadas por

su casi nulo aporte al análisis,

el valor tomado en cuenta

inicialmente estaba con notas

del personal superior al 19,000

en todos los años, lo que

supera ampliamente al margen

considerado.

EVALUACIÓN

DE

DESEMPEÑO

Que el promedio de la

evaluación del

desempeño de los

Oficiales y Tripulantes

que terminan los

cursos, posterior a un

año de labores sea

adecuado.

Promedio de

desempeño sea igual o

superior al 18/20.

El desempeño global de cada

persona considerada en este

estudio toma en cuenta no solo

un factor, sino los cuatro

factores de los criterios de

selección para demostrar que

este promedio es superado en

casi todos los atributos

analizados, por lo que el

modelo puede ser utilizado

como un medio de selección

adecuado que a la vez evalúe

el desempeño general de cada

aspirante.

Fuente: DIGREH / Análisis del Autor

Como se puede ver en este cuadro, el modelo seleccionado puede ser una buena guía para

apoyar a que se cumplan los criterios de éxito del negocio, sin embargo, se debe indicar

nuevamente que un ensayo totalmente óptimo debe considerar una población de muestra mayor

para verificar los límites considerados para los atributos, y la combinación de estos en los criterios

de selección analizados y producidos en el árbol de decisión con el modelo de algoritmo J48

desarrollado en el programa WEKA.

7.2. Modelos aprobados

El modelo considerado en la última revisión, que cumplió las siguientes modificaciones:

1. Eliminar otros atributos y quedarse inicialmente con cinco atributos: Nota de Graduación,

Nota de Cursos, Calificaciones, Sanciones y Días de Operación.

Page 114: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

106

2. Eliminar un atributo adicional: Calificaciones, debido a su poco aporte relativo a la

selección de personal.

3. Modificar cuatro registros del personal de Infantería de Marina por ser valores

demasiado alejados de los valores promedio de la muestra, para que el proceso de

selección sea más eficaz al momento de desarrollar el árbol de decisión.

Una vez procesada la información en el programa WEKA, aplicando árboles de decisión y

seleccionando el algoritmo J48, se produjo un árbol con un valor de instancias correctamente

clasificadas del 86% y consecuentemente, un error del 14%, lo que entra en los parámetros

esperados en los criterios de éxito del negocio, por tanto, se selecciona este procedimiento de

minería de datos para considerar los factores de selección de personal para las áreas críticas de

la Armada.

7.3. Proceso de revisión

El modelo desarrollado debe ser revisado en cuanto a su procedimiento de creación destacando

los factores o consideraciones favorables, aciertos, posibles errores etc, por tanto, se ha

desarrollado la siguiente tabla de análisis:

Tabla 49. Tabla de Revisión del Proceso

No PROCEDIMIENTO CONSIDERACIONES GENERALES

01 Selección de la

metodología

Se revisaron las diferentes metodologías, seleccionando CRISP-

DM como la más aplicable al trabajo a desarrollar.

02 Revisión de los procesos

de selección de la

Armada.

Se analizaron los diferentes procesos de selección para las

especialidades críticas de la Armada considerando todos los puntos

importantes y adecuados en esta selección.

03 Selección de factores de

clasificación

Se seleccionaron los factores a considerar para realizar el análisis y

posterior determinación de los valores, parámetros y procesos de

selección aplicando la Minería de Datos.

04 Análisis de datos Se revisaron las bases de datos de la Dirección General de

Recursos Humanos para determinar una muestra de 100 personas

pertenecientes a estas especialidades y de varias promociones,

para extraer mediante consultas en SQL (principalmente) los datos

necesarios para elaborar las tablas finales.

Se considera necesario para realizar un trabajo más exacto

conformar la muestra con una mayor cantidad de registros del

personal.

05 Preparación de Datos Se realizó la revisión de los datos, con actividades como inclusión o

exclusión de datos, integrar datos y finalmente darle el formato

necesario para que se pueda trabajar en el programa WEKA para

aplicación de la Minería de Datos.

Page 115: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

107

No PROCEDIMIENTO CONSIDERACIONES GENERALES

06 Seleccionar técnica de

modelado

Se realizó un análisis de las diferentes técnicas de modelado,

llegando a la conclusión que la mejor técnica corresponde a la

aplicación de árboles de decisión para nuestro trabajo de selección.

07 Aplicación de técnica

seleccionada

Se realizó la carga del archivo en el programa WEKA para la

aplicación de árboles de decisión que fue el seleccionado para

nuestro trabajo de selección.

08 Aplicación de los

diferentes métodos y

selección

Se realizó todas las corridas con todos los métodos existentes para

árboles de decisión y realizando un análisis para determinar el

mejor, seleccionando el método del algoritmo J48.

09 Ajustar parámetros En esta parte se determinó que se debía excluir el atributo de

Calificaciones, por su poco o casi nulo aporte al proceso de

selección, realizando una segunda corrida de datos, luego se

determinó cambiar los valores de cuatro registros de días de

operación del personal de Infantería de Marina para ajustar el

modelo.

Se considera que hubiese sido más adecuado realizar la exclusión

del atributo de calificaciones dentro del proceso de revisión de

datos, aunque en esta parte no estaba claro el aporte real de este

atributo, solo se lo pudo observar una vez que se realizaron las

corridas en el programa WEKA.

10 Evaluar el modelo Se realizó una evaluación del modelo en relación a los criterios de

éxito del negocio y factores de éxito para ver en qué medida

aportan o refuerzan estos parámetros requeridos, observando que

el modelo realiza un aporte (aunque no totalmente directo) a lo

esperado en estos puntos.

Fuente: DIGREH / Análisis del Autor

7.4. Determinación de los próximos pasos

Luego de lo analizado, tanto en la evaluación como en la revisión del proceso seleccionado, se

determinan a continuación los pasos a seguir:

Coordinar con la autoridad competente de la Dirección General de Recursos Humanos

para la ampliación de los registros considerados en la muestra para el análisis, esto es

con la intención de lograr un mejor procesamiento de Minería de Datos para obtener

valores más ajustados del algoritmo de selección.

Aplicar los parámetros obtenidos en una población real de personal que esté por ingresar

a los cursos, a fin de determinar en una prueba de campo la efectividad real del modelo y

los parámetros y rutas de selección del árbol obtenido.

Page 116: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

108

Los puntos anteriores muestran que es recomendable terminar el actual proyecto con

estas consideraciones adicionales para mejorar los resultados de aplicación en el

personal e integrar en los sistemas informáticos estos procesos para automatizar la

selección de personal a corto plazo.

7.4.1. Lista de posibles acciones

Las posibles acciones a seguir se detallan a continuación:

1. Continuar con el proyecto actual de Minería de Datos ampliando los registros a una mayor

población para mejorar los parámetros de selección y aplicar los parámetros de selección

a los candidatos actuales a estas especialidades para aplicarlas posteriormente en los

sistemas informáticos existentes.

2. Mantener el actual desarrollo con los parámetros y rutas de selección establecidas y

aplicarlos dentro de las bases de datos para los futuros candidatos y realizar revisiones

periódicas para verificar si el modelo desarrollado es funcional o se debe realizar mayores

ajustes.

7.5. Decisión

La decisión tomada, una vez analizado las opciones existentes y la documentación base, es

tomar la primera opción, es decir continuar con el proyecto actual de Minería de Datos ampliando

los registros a una mayor población para mejorar los parámetros de selección, e incluir

información aplicada a la selección de nuevos candidatos a estas especialidades, para iniciar su

aplicación en los sistemas informáticos existentes.

Esto se determina así porque los parámetros y rutas determinadas servirán para aplicar el

algoritmo en los sistemas informáticos, logrando optimizar de esta manera la selección de

personal.

Page 117: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

109

8. FASE VI: DESARROLLO

Page 118: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

110

8.1. Desarrollo del plan

Para el desarrollo del plan, deben tomarse las siguientes acciones:

Tabla 50. Tabla de Desarrollo del Plan

No ETAPA DETALLE GENERALIDADES

1 Análisis de los

datos de la Base

de Datos

Revisión de la base de datos

junto a los servidores de la

DIGREH

Se debe revisar la BD para seleccionar

una muestra mayor de la actualmente

considerada

2 Revisión y

estructuración de

los datos

seleccionados

Con la ampliación de los

registros, se debe verificar

formato y compatibilidad de

los datos, completar datos

faltantes y eliminar registros

fuera de rango.

Utilizando el mismo procedimiento ya

aplicado anteriormente, complementando

los nuevos datos a los datos ya

seleccionados

3 Soluciones de

estructura de la

base de datos

Solucionar problemas de

estructura o datos de los

nuevos datos

Proceso similar al anterior para verificar la

idoneidad de los nuevos datos

4 Revisión del

modelo en base a

los nuevos datos.

Aplicar el modelo en la

nueva BD y observar los

resultados obtenidos para

compararlos con el

procedimiento ya existente

Se debe utilizar el mismo modelo y

verificar se encuentren dentro del rango ya

seleccionado; realizar ajustes si es

necesario.

5 Aplicación del

modelo en

sistemas

informáticos

Con el desarrollo del modelo

de árboles de decisión,

realizar una implementación

en los sistemas informáticos

existentes para automatizar

el proceso

Desarrollo en base a los sistemas

existentes para manejo de la base de

datos

Fuente: DIGREH / Análisis del Autor

8.2. Plan de supervisión y mantenimiento

El plan de supervisión y mantenimiento se puede plantear de acuerdo a la siguiente tabla, en

donde se debe tomar en cuenta que se debe establecer el procedimiento para controlar los datos

extraídos o lo que se implemente en los sistemas informáticos, de modo de lograr una supervisión

real de los datos y alimentar con datos útiles de acuerdo a los tiempos a considerar para el

mantenimiento.

Page 119: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

111

Tabla 51. Plan de Supervisión y Mantenimiento.

No ACTIVIDAD DETALLE VERIFICACIÓN

1 Revisión periódica

de los datos

La base de datos seleccionada debe revisarse

periódicamente por el administrador para

verificar que se mantenga su estructura y no se

hayan perdido, dañado o modificado datos

El intervalo debe ser

establecido en base al

tamaño de la muestra.

2 Ampliación

progresiva y

eliminación de

datos

Nueva información está continuamente

llegando a la base de datos principal, esto debe

ser aprovechado para mejorar la muestra,

tomar nuevos datos de ella y eliminar los

registros ya no adecuados (x ejemplo, personal

que sale con la baja)

Esta revisión debería

realizarse cada año con

los nuevos datos de

personal existente.

3 Comparación de

parámetros

anteriores y

nuevos

Al realizar la actualización de datos, se debe

comparar los parámetros nuevos con los

anteriores para detectar variaciones pequeñas

o grandes en los parámetros de selección

Las variaciones no

deberían ser demasiado

drásticas, se debe

revisar bien si esto

ocurre.

4 Identificación y

corrección de

errores

En general, se debe revisar periódicamente los

datos y el algoritmo para identificar errores; una

buena guía corresponde a que los parámetros

seleccionados no se ajustan a la realidad

presente en las selecciones realizadas

posteriormente a la aplicación del algoritmo.

Realizar la verificación

cada año, luego del

proceso de selección

correspondiente.

6 Informes Realizar informes de cada verificación,

actualización o cambio realizado

Presentación del

informe

Fuente: DIGREH / Análisis del Autor

8.3. Informe definitivo de producto

El informe final del proceso de minería de datos, se encuentra para revisión en el anexo D

“Informe Final”

Page 120: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

112

CONCLUSIONES

1) La revisión de los procesos actuales de selección de personal aplicados a las cinco

especialidades críticas de la Armada y relacionando estos a la Minería de Datos,

verificando la técnica, metodología, y plan desarrollado, permitió identificar los

procedimientos relacionados a la selección de personal, congruentes para el

procesamiento de un modelo de minería de datos.

2) Los procesos de la metodología CRISP-DM aplicados a los datos inicialmente

seleccionados, permitió compilar, filtrar y adecuar estos datos para su aplicación y

manipulación efectiva en la aplicación para Minería de Datos WEKA y el posterior análisis,

previo el desarrollo del árbol de decisión final.

3) Los datos seleccionados, luego de aplicarles la técnica de árboles de decisión, utilizando

el algoritmo J48 bajo el correspondiente análisis en la aplicación WEKA, permitió

desarrollar un modelo de minería de datos, determinando parámetros de selección de los

atributos para su aplicación dentro de los procesos de selección de la Armada.

4) Las rutas de clasificación y sus valores correspondientes dentro del algoritmo del árbol de

decisión definitivo, permiten su aplicación efectiva dentro de la base de datos de la

Dirección General de Recursos Humanos, en el proceso de selección de personal a los

cursos de especialidades.

5) Las pruebas realizadas mediante el estudio de casos, permiten comprobar que el

algoritmo cumple con los objetivos esperados para este trabajo.

Page 121: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

113

RECOMENDACIONES

1) Considerar los procedimientos relacionados a la selección de personal para las cinco

especialidades críticas de la Armada, como estándar para la aplicación del modelo de

minería de datos en los procesos de selección de personal de la Armada.

2) Considerar a los datos filtrados como los registros estándar para la aplicación efectiva del

modelo de minería de datos y como componente de los procesos correspondientes de

selección de personal en la Armada.

3) Recomendar la aplicabilidad del modelo de minería de datos para mejorar los procesos

de selección de la Armada, en las especialidades de Superficie, Submarinos, Aviación

Naval, Infantería de Marina e Inteligencia.

4) Aplicar el modelo de Minería de Datos desarrollado en los servidores de la Base de Datos

de la Dirección General de Personal para la selección futura del personal designado a los

cursos por especialidades.

5) Continuar con el desarrollo del proyecto actual ampliando los registros a una mayor

población para mejorar los parámetros de selección

Page 122: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

114

BIBLIOGRAFÍA

Abel, F.; Herder, E. y Krause, D. (2011) Extraction of Professional Interests from Social

Web Profiles. Girona (España) Web Information System (WIS) publicado en URL:

http://www.wis.ewi.tudelft.nl/aum2011/paper9.pdf

Alberto, A. R. I. Weka como herramienta de data mining. Disponible en:

http://www.itsciudadserdan.edu.mx/Articulos%20Investigacion/WEKA%20COMO%20H

ERRAMIENTA%20DE%20DATA%20MINING/WEKA%20COMO%20HERRAMIENTA

%20DE%20DATA%20MINING.pdf

Césari M. Aprendizaje automático con Weka. Área de Ciencias de la Computación e

Inteligencia Artificial de la Universidad de Vigo. Disponible en URL:

http://ccia.ei.uvigo.es/docencia/MRA/practicas/MATERIAL_WEKA.pdf

Chapman, P; Clinton J; Kerber R; Khabaza, T; Reinartz T; Shearer, C y Wirth R. (2007).

Metodología CRISP-DM para minería de datos. DATAPRIX. Publicado en URL:

http://www.dataprix.com/es/metodolog-crisp-dm-para-miner-datos

Chiavenato I., Villamizar G y Aparicio J. (1983). Administración de recursos humanos. Vol.

2. McGraw-Hill.

Conolly T y Begg C (2005). Sistemas de Bases de Datos, Un enfoque práctico para

diseño, implementación y gestión, Cuarta Edición. Madrid. Pearson Educación S.A.

Constitución Política de la República del Ecuador; aprobada por la Asamblea

Constituyente el 24 de julio de 2008

Dessler, G. (2001). Administración de personal. México D.F. Octava Edición. Pearson

Educación.

Infante, M; Abreu, Y; Delgado, M y Infante, O. (2010), Minería tecnológica para el análisis

de oportunidades de publicaciones en la universidad. Marianao. Revista CENIC,

publicado en URL: http://revista.cnic.edu.cu/revistaCB/sites/default/files/articulos/CB-

2010-4-CB-081.pdf

Jiménez, M. G., & Álvarez, A. (2010). Análisis de datos en WEKA–pruebas de

selectividad. España: Universidad Carlos III. Disponible en URL: http://www. it. uc3m.

es/jvillena/irc/practicas/06-07/28. pdf.

Kantardzic, M. (2011). DATA MINING: Concepts, Models, Methods and Alghorithms.

Segunda Edición. New Jersey. WILEY - IEEE Press, John Wiley & Sons, Inc., Hoboken

Ley Orgánica de la Defensa Nacional, publicada en el Registro Oficial No 004 del 19 de

enero de 2007 y su última modificación el 28 de septiembre del 2009

López, C y González, D. (2008) Minería de Datos: Técnicas y Herramientas, Primera

Edición Segunda Reimpresión. Madrid. Thomson Ediciones Paraninfo, S.A.

Page 123: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

115

Machine Learning Group at the University of Waikato. (2015). Weka 3: Data Mining

Software in Java. Disponible en URL: http://www.cs.waikato.ac.nz/~ml/weka/ [consulta el

02 de mayo de 2015]

López, M. J. N. (1999). La selección de personal: guía práctica para directivos y mandos

de las empresas. FC Editorial.

Moine, J; Haedo, A y Gordillo S. (2011) Estudio comparativo de metodologías para

minería de datos. Buenos Aires. XIII Workshop de Investigadores en Ciencias de la

Computación. Red de Universidades con Carreras en Informática (RedUNCI), publicado

en URL: http://sedici.unlp.edu.ar /bitstream/handle/10915/20034/

Documento_completo.pdf?sequence=1

Moine, J. M. (2013). Metodologías para el descubrimiento de conocimiento en bases de

datos: un estudio comparativo (Tesis Doctoral). La Plata. Universidad Nacional de la Plata

- Facultad de Informática.

Molina, J. y García, J. (2006) Técnicas de Análisis de Datos. Madrid. Universidad Carlos

III. Publicado en URL: http://www.giaa.inf.uc3m.es/docencia/II/ADatos/apuntesAD.pdf

Morate, D. G. (2008). Manual de Weka. Disponible a través de e-mail

diego.garcia.morate@ gmail.com o disponible en URL:

http://www.metaemotion.com/diego.garcia.morate/ download/weka.pdf

Pardo, S; Coronel, J.E., Bertone R, Thomas P. (2013) Gestión del Conocimiento: Un

enfoque aplicado en la Administración Pública. Buenos Aires, Instituto de Investigación

en Informática LIDI - Facultad de Informática, Universidad Nacional de La Plata –

Argentina. XVIII Congreso Argentino de Ciencias de la Computación. Publicado en URL:

http://sedici.unlp.edu.ar/handle/10915/31302

Rodrigues, A. y Dotto, S (2013). A Model for Recommending Specialization Courses

Based on the Professional Profile of Candidate. Niza. IARIA conference, eKNOW 2013 :

The Fifth International Conference on Information, Process, and Knowledge Management,

publicado en URL

http://www.thinkmind.org/index.php?view=article&articleid=eknow_2013_7_40_60173

Silíceo, A. (2006). Capacitación y desarrollo de personal. Cuarta Edición. México D.F.

Editorial Limusa.

Sivaram, N y Ramar, K. (2010) Applicability of Clustering and Classification Algorithms for

Recruitment Data Mining. Kovilpatti. International Journal of Computer Applications (0975

– 8887) Volume 4 – No 5.

Strohmeier S. (2013). Domain driven data mining in human resource management: A

review of current research. Philadelphia. ELSEVIER Ltd. Revista “Expert Systems with

Applications” Volumen 40 Issue 7. Publicado en URL: www.elsevier.com

Page 124: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

116

Strohmeier, S y Piazza, F. (2013) Domain driven data mining in human resource

management: A review of current research. Saarbruecken. ELSEVIER - Expert Systems

with Applications. journal homepage: www.elsevier.com/locate/eswa

Witten, I.; Frank, E. y Hall, M. (2011). DATA MINING: Practical Machine Learning Tools

and Techniques, Tercera Edición. Maryland. ELSEVIER Inc., Morgan Kaufmann

Publishers

Vieria, L; Ortiz, L y Ramírez, S. (2009) Introducción a la Minería de Datos. Rio de Janeiro.

E-papers Servicos Editoriais Ltda.

Vizcaíno, P. (2008). Aplicación de Técnicas de Inducción de Árboles de Decisión a

problemas de clasificación mediante el uso de WEKA (WAIKATO ENVIRONMENT FOR

KNOWLEDGE ANALYSIS). Colombia: Fundación Universitaria Konrad Lorenz.

Disponible en URL: http://www.konradlorenz.edu.co/images/stories/

suma_digital_sistemas/2009_01/final_paula_andrea.pdf

Page 125: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

117

ANEXOS

Anexo “A” Organigramas funcionales y requisitos para cada función.

Anexo “B” Reporte de requerimientos que debe cubrir el modelo de minería

Anexo “C” Datos Iniciales Recopilados para el Trabajo de Minería de Datos.

Anexo “D” Informe Final

Page 126: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

A - 1

ANEXO “A”

ORGANIGRAMAS FUNCIONALES Y REQUISITOS PARA CADA FUNCIÓN.

En su estructura orgánica, La Dirección General del Talento Humano, en donde se materializa este proceso, se encuentra ubicado bajo el mando del Estado Mayor de la Armada, como se muestra en el siguiente gráfico:

Figura A-1. Organigrama básico General por Procesos de la Armada

Fuente: Estructura Orgánica por Procesos de la Armada del Ecuador

La Misión primordial de la Dirección General del Talento Humano es gestionar el talento

humano de la Armada del Ecuador, mediante la administración del Personal Militar y Civil y

el fortalecimiento del clima laboral con la finalidad de contribuir al direccionamiento

estratégico, al desarrollo de las capacidades navales, la seguridad integral de los espacios

acuáticos y el apoyo al desarrollo marítimo Nacional.

Está representado por el Director/a General de Talento Humano, que es el Sr Contralmirante

Fernando Noboa Rodas.

La principal responsabilidad es dirigir el sistema integrado de desarrollo del talento humano,

de conformidad a las normas legales y técnicas expedidas por el Ministerio de Relaciones

Laborales y aquellas inherentes al ámbito naval, así como proponer directrices internas para

el fortalecimiento de clima laboral en los ámbitos de bienestar, salud y vivienda; pero dentro

del área de estudio, una de las responsabilidades también muy importante es estructurar la

planificación orgánica y numérica del talento humano institucional, desarrollar el plan de

carrera del personal, evaluar el desempeño del personal, desarrollar el plan de capacitación,

Page 127: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

A - 2

coordinar el plan de relevos y sucesión del personal y administrar los procesos de trasbordos,

movimientos y ascensos de personal militar.

Dentro de los Productos que este Proceso entrega, para propósitos de este trabajo, debemos

destacar los siguientes:

a) Propuesta de Plan de Carrera.

b) Informe de resultados de la evaluación del desempeño organizacional.

c) Plan de capacitación del personal.

d) Plan de relevos y sucesión del personal.

e) Ordenes Generales de trasbordos y movimientos de personal.

f) Ordenes Generales de ascensos de personal militar.

Para lograr con todos los productos o entregables de este Proceso, la Dirección General del

Talento Humano tiene a su cargo tres Departamentos: (Oficiales, Tripulantes y UATH), el

Departamento de Oficiales, tiene como función principal la de administrar la carrera

profesional de los oficiales de la Armada mediante la Planificación, Evaluación y Control de

su carrera Naval con el fin de satisfacer las necesidades Institucionales, estructurando planes

de desarrollo administrativo, proyectos y procesos a ser ejecutados; su primera división, la

de Planificación, Clasificación y selección de Recursos Humanos, es la encargada de

planificar los requerimientos de personal de Oficiales a corto, mediano y largo plazo, en la

distribución orgánica de los puestos y realizar la selección de personal de oficiales en base

a perfiles y competencias para los diferentes requerimientos Institucionales.

Es esta división la que se encarga de seleccionar al personal de Oficiales para los cursos, y

si bien pareciera que el Departamento de Tripulantes y Grumetes no tuviera estas

competencias, lo que sucede es que estos procesos se realizan bajo la coordinación del

Departamento de Oficiales, pero aplicado también a los señores tripulantes candidatos.

PROCESO DE SELECCIÓN PARA LAS ESPECIALIDADES DE ARMA (CURSOS DE PERFECCIONAMIENTO)

1. Cada año, se determina los porcentajes en los que se debe admitir al personal de

Oficiales y Tripulantes en las especialidades de arma, por ejemplo:

Superficie 60 %

Submarinos 10%

Aviación Naval 10 %

Infantería de Marina 20 %

2. De acuerdo a estos porcentajes, se determina la cantidad de Oficiales y Tripulantes

que son requeridos para cada especialidad en cada una de las promociones, por

ejemplo (para una promoción de 20 oficiales de arma):

Superficie 12 cupos

Page 128: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

A - 3

Submarinos 2 cupos

Aviación Naval 2 cupos

Infantería de Marina 4 cupos

3. Los Oficiales o Tripulantes de la promoción o promociones consideradas, son

llamados para que, de acuerdo a los cupos existentes, los de mejor antigüedad

escojan la especialidad que desean en forma voluntaria.

4. Cuando se llena el cupo de una de las especialidades, los siguientes en escoger

deben hacerlo solo con las disponibles; y si no queda la especialidad deseada por el

Oficial o Tripulante o solo queda disponible una especialidad, tienen necesariamente

que ingresar en la especialidad que todavía tiene cupos disponibles.

PERFILES DEL PERSONAL A SER SELECCIONADO

PERFIL PARA SUPERFICIE

No es necesario ser voluntario, todos los Oficiales y Tripulantes graduados se los forma con

la orientación hacia el embarque a las Unidades de Superficie, siendo también necesario que

tenga una salud adecuada y capacidad física normal.

FACTORES DE ÉXITO EN SUPERFICIE

El éxito para culminar el Curso de Superficie se basa en la capacidad de estudio y dedicación

del alumno y en su afinidad hacia el embarque en buques.

PERFIL PARA SUBMARINOS

Es necesario que sea voluntario; por sus características, se requiere que el Oficial o

Tripulante que opte por esta especialidad tenga buena salud especialmente en su sistema

otorrino (nariz – oído – boca) en el sentido de que debe soportar los cambios repentinos de

presión; también es necesario que soporte el encierro (que no sufra de claustrofobia, de ahí

en parte su carácter voluntario).

FACTORES DE ÉXITO PARA SUBMARINOS

El éxito para culminar el Curso de Submarinos se basa en la capacidad de estudio y

dedicación del alumno, también en su habilidad para controlar el submarino (para Oficiales)

y habilidad para operar en forma eficiente y segura los equipos y sistemas (Oficiales y

Tripulantes); un factor de éxito adicional, consiste en que por su propia naturaleza, el

submarinista debe ser una persona sociable y colaborativa al máximo y tener una buena

afinidad para el embarque en un submarino.

Page 129: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

A - 4

PERFIL PARA AVIACIÓN NAVAL

Es necesario que sea voluntario; Se requiere que tenga buena salud, soporte variaciones de

presión, rápida habilidad mental y buena visión (Oficiales) y capacidad para soportar el

ambiente en cabinas cerradas y vuelo en grandes alturas y capacidad de reacción ante

emergencias (Oficiales y Tripulantes). Aquí también se considera que, debido al espacio en

las cabinas, existe una estatura máxima para poder ser parte de la Aviación Naval.

FACTORES DE ÉXITO PARA AVIACIÓN NAVAL

El éxito para culminar el Curso Básico de Aviación se basa en la capacidad de estudio y

dedicación del alumno, también es importante tener una buena habilidad para operar las

aeronaves (Oficiales) y habilidad para operar, mantener y reparar los equipos de las

aeronaves y helicópteros (tripulantes); es importante que tenga afinidad a la aviación en

general.

PERFIL PARA INFANTERÍA DE MARINA

Es necesario que sea voluntario; Se requiere que tenga buena salud y sobre todo buena

condición física y capacidad de liderazgo y fortaleza de carácter.

FACTORES DE ÉXITO PARA INFANTERÍA DE MARINA

El éxito para culminar el Curso Básico de Infantería de Marina se basa en la capacidad de

estudio, dedicación y preparación física del alumno; también es importante un carácter firme

y capacidad de reacción, arrojo y liderazgo.

PERFIL PARA INTELIGENCIA

No es necesario que sea voluntario, sin embargo, por las características de sus funciones,

se requiere un análisis previo de los antecedentes y factores psicológicos de los candidatos;

También se requiere que tenga buena salud y buena condición física.

FACTORES DE ÉXITO PARA INTELIGENCIA

El éxito para culminar el Curso de Inteligencia se basa en la capacidad de estudio, dedicación

y condiciones físicas adecuadas del alumno; también es importante tener capacidad de

discreción y confiabilidad.

Page 130: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

B - 1

ANEXO “B”

REPORTE DE REQUERIMIENTOS QUE DEBE CUBRIR EL MODELO DE MINERÍA

En base a los perfiles para cada especialidad, se establecen los requisitos considerados para

las pruebas de ingreso a cada uno de los cursos de perfeccionamiento:

Tabla B-1. Requisitos de pruebas que deben cumplir los candidatos a las diferentes especialidades de

Arma e Inteligencia

REQUISITOS SUPERFICIE SUBMARINOS AVIACIÓN

NAVAL INFANTERÍA DE MARINA

INTELI GENCIA

VOLUNTARIO NO Obligatorio SI SI SI SI

FICHA MÉDICA BÁSICA SI NO NO NO SI

FICHA MÉDICA COMPLETA

NO SI SI SI NO

PRUEBAS FÍSICAS NO NO NO SI SI

PRUEBA DE CÁMARA HIPERBÁRICA

NO SI NO NO NO

PRUEBAS DE VISIÓN Y REFLEJOS

NO NO SI NO NO

PRUEBAS PSICOLÓGICAS

NO NO NO NO SI

INVESTIGACIÓN ANTECEDENTES

NO NO NO NO SI

EXAMEN DE CONOCIMIENTOS

NO NO NO NO SI

ESTATURA NO Requerido NO Requerido Máximo 1,90 NO Requerido NO Requerido

Fuente: DIGREH

Sin embargo, el modelo de Minería de Datos a utilizar, no debe considerar estas pruebas ya

que estas se realizan después de la selección; considerando esto, los valores requeridos se

detallan en la siguiente tabla:

Tabla B-2. Requerimientos que debe cumplir el Modelo de Minería de Datos para las diferentes

especialidades de Arma e Inteligencia

PARÁMETROS PARA EL

MODELO DE MD

PARA SELECCIÓN

INICIAL

SUPERFICIE

SUBMA RINOS

AVIACIÓN NAVAL

INFANTERÍA DE MARINA

INTELI GENCIA

Operaciones cumplidas en el área de la especialidad

Días de navegación cumplidas por el candidato acumuladas

Días de Navegación en buques de superficie

Horas de Inmersión a bordo de los submarinos

Horas de vuelo a bordo de aeronaves o helicópteros

Días de operación en el terreno y saltos de paracaídas

Días de operación en actividades de inteligencia

Sanciones Cantidad de días de arresto acumulados

Cantidad de días de arresto registradas por el personal

Nota de Graduación

Registrado en la Escuela Naval o de Grumetes

Registrado en la Escuela Naval o Escuela de Grumetes

Page 131: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

B - 2

PARÁMETROS PARA EL

MODELO DE MD

PARA SELECCIÓN

INICIAL

SUPERFICIE

SUBMA RINOS

AVIACIÓN NAVAL

INFANTERÍA DE MARINA

INTELI GENCIA

Nota de Cursos

Curso Fase Común (oficiales) o de Tecnólogo (tripulantes)

Notas obtenidas en los cursos de perfeccionamiento o de ascenso

Fuente: DIGREH

Con estos parámetros iniciales para el modelo, se pueden considerar formar la estructura

del árbol de decisión para aplicarlo a un primer grupo ejemplo (que incluye casos de éxito y

fracaso), en base a los resultados, se podrá determinar los parámetros ajustados al árbol

para optimizar el proceso de selección.

Page 132: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

C- 1

ANEXO “C”

DATOS INICIALES RECOPILADOS PARA EL TRABAJO DE MINERÍA DE DATOS

No GRADO ESP GRADUA CION

CURSO DE ASCENSO (BÁSICO)

NOTA ANT CURSO DE ASCENSO NOTA ANT CURSO GRADO SUPERIOR

NOTA ANT CALIF 2000

CALIF 2010

DÍAS ARRESTO

DÍAS OPE

1 CPFG SU 17.649 BÁSICO DE SUPERFICIE 18.915 1 ADMINISTRACIÓN NAVAL 19.293 3 ESTADO MAYOR 19.215 3 19.577 19.860 6 26 2 CPFG IM 17.611 INFANTERÍA DE MARINA BÁSICO 18.439 6 ADMINISTRACIÓN NAVAL 19.278 4 ESTADO MAYOR 19.346 1 19.689 19.810 13 316 3 CPFG AV 16.836 AVIACIÓN NAVAL BÁSICO 17.930 1 ADMINISTRACIÓN NAVAL 18.951 8 ESTADO MAYOR 19.144 5 19.944 19.910 5 374 4 CPFG SU 16.745 BÁSICO DE SUPERFICIE 17.590 3 ADMINISTRACIÓN NAVAL 18.954 7 ESTADO MAYOR 18.866 8 19.809 20.000 8 764 5 CPFG AV 16.868 AVIACIÓN NAVAL BÁSICO 17.860 2 ADMINISTRACIÓN NAVAL 18.918 10 ESTADO MAYOR 19.028 6 19.575 19.920 25 698 6 CPFG SU 16.437 BÁSICO DE SUPERFICIE 18.376 4 ADMINISTRACIÓN NAVAL 18.813 11 ESTADO MAYOR 19.218 2 19.845 20.000 16 213 7 CPFG IM 16.490 INFANTERÍA DE MARINA BÁSICO 18.400 8 ADMINISTRACIÓN NAVAL 18.375 13 ESTADO MAYOR 18.886 7 19.719 20.000 7 648 8 CPFG AV 16.248 AVIACIÓN NAVAL BÁSICO 17.320 6 ADMINISTRACIÓN NAVAL 18.645 12 ESTADO MAYOR 19.189 4 19.638 19.960 17 429 9 CPFG SS 17.156 SUBMARINOS BÁSICO 17.931 3 ADMINISTRACIÓN NAVAL 18.94 4 ESTADO MAYOR 19.193 1 19.182 19.966 0 313 10 CPFG IN 17.103 BÁSICO DE SUPERFICIE 18.084 3 ADMINISTRACIÓN NAVAL 18.587 14 ESTADO MAYOR 19.076 3 19.450 19.516 11 304 11 CPFG SS 17.011 SUBMARINOS BÁSICO 18.588 2 ADMINISTRACIÓN NAVAL 18.798 6 ESTADO MAYOR 19.135 2 19.276 19.930 5 346 12 CPFG SU 16.963 BÁSICO DE SUPERFICIE 17.845 5 ADMINISTRACIÓN NAVAL 18.677 12 ESTADO MAYOR 18.788 6 19.550 19.825 4 115 13 CPFG IM 16.674 INFANTERÍA DE MARINA BÁSICO 18.152 6 ADMINISTRACIÓN NAVAL 18.743 7 ESTADO MAYOR 18.983 4 19.727 19.810 10 510 14 CPFG IM 16.562 INFANTERÍA DE MARINA BÁSICO 18.335 4 ADMINISTRACIÓN NAVAL 18.531 16 ESTADO MAYOR 18.781 8 19.725 19.960 6 766 15 CPFG SU 16.371 BÁSICO DE SUPERFICIE 17.531 10 ADMINISTRACIÓN NAVAL 18.198 21 ESTADO MAYOR 18.878 5 19.537 20.000 14 1002 16 CPFG AV 16.398 AVIACIÓN NAVAL BÁSICO 17.480 4 ADMINISTRACIÓN NAVAL 18.391 18 ESTADO MAYOR 18.498 11 19.843 19.955 10 127 17 CPFG AV 15.969 AVIACIÓN NAVAL BÁSICO 17.340 5 ADMINISTRACIÓN NAVAL 18.688 10 ESTADO MAYOR 18.73 9 19.386 19.860 10 618 18 CPFG SU 15.645 BÁSICO DE SUPERFICIE 17.832 6 ADMINISTRACIÓN NAVAL 18.332 19 ESTADO MAYOR 18.788 7 20.000 19.532 25 766 19 CPFG SU 15.609 BÁSICO DE SUPERFICIE 17.569 9 ADMINISTRACIÓN NAVAL 18.446 17 ESTADO MAYOR 18.511 10 19.438 19.581 22 597 20 CPFG AV 17.422 AVIACIÓN NAVAL BÁSICO 18.122 1 ADMINISTRACIÓN NAVAL 19.236 1 ESTADO MAYOR 19.265 1 19.668 19.768 3 543 21 CPFG SS 17.127 SUBMARINOS BÁSICO 18.916 1 ADMINISTRACIÓN NAVAL 19.209 2 ESTADO MAYOR 19.144 4 19.820 19.940 3 729 22 CPFG SU 17.045 BÁSICO DE SUPERFICIE 18.308 4 ADMINISTRACIÓN NAVAL 19.118 5 ESTADO MAYOR 19.131 5 19.930 19.769 2 1031 23 CPFG IN 17.042 BÁSICO DE SUPERFICIE 18.461 1 ADMINISTRACIÓN NAVAL 19.148 3 ESTADO MAYOR 19.073 7 19.962 19.720 0 338 24 CPFG AV 17.274 AVIACIÓN NAVAL BÁSICO 17.592 4 ADMINISTRACIÓN NAVAL 18.65 20 ESTADO MAYOR 19.053 10 19.285 19.940 10 685 25 CPFG SU 16.912 BÁSICO DE SUPERFICIE 17.935 11 ADMINISTRACIÓN NAVAL 18.897 13 ESTADO MAYOR 18.931 16 19.590 20.000 4 854 26 CPFG IM 16.941 INFANTERÍA DE MARINA BÁSICO 18.390 3 ADMINISTRACIÓN NAVAL 19.065 6 ESTADO MAYOR 19.215 3 19.830 20.000 9 494 27 CPFG SU 16.829 BÁSICO DE SUPERFICIE 17.948 10 ADMINISTRACIÓN NAVAL 18.908 11 ESTADO MAYOR 18.943 14 19.535 19.460 15 252 28 CPFG SS 16.775 SUBMARINOS BÁSICO 17.853 4 ADMINISTRACIÓN NAVAL 18.703 17 ESTADO MAYOR 18.974 12 19.919 19.550 3 309 29 CPFG SU 16.585 BÁSICO DE SUPERFICIE 18.001 9 ADMINISTRACIÓN NAVAL 18.98 7 ESTADO MAYOR 19.004 11 19.650 19.760 4 125 30 CPFG AV 16.898 AVIACIÓN NAVAL BÁSICO 17.676 3 ADMINISTRACIÓN NAVAL 18.501 25 ESTADO MAYOR 19.257 2 19.580 19.990 7 690 31 CPFG IN 16.722 BÁSICO DE SUPERFICIE 17.625 19 ADMINISTRACIÓN NAVAL 18.926 10 ESTADO MAYOR 18.92 17 19.063 19.560 7 79 32 CPFG AV 16.208 AVIACIÓN NAVAL BÁSICO 17.479 6 ADMINISTRACIÓN NAVAL 18.691 18 ESTADO MAYOR 19.07 9 19.679 19.611 2 320

Page 133: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

C- 2

No GRADO ESP GRADUA CION

CURSO DE ASCENSO (BÁSICO)

NOTA ANT CURSO DE ASCENSO NOTA ANT CURSO GRADO SUPERIOR

NOTA ANT CALIF 2000

CALIF 2010

DÍAS ARRESTO

DÍAS OPE

33 CPFG IN 16.261 BÁSICO DE SUPERFICIE 18.202 5 ADMINISTRACIÓN NAVAL 18.943 9 ESTADO MAYOR 18.917 18 19.448 19.410 25 144 34 CPFG SS 16.030 SUBMARINOS BÁSICO 17.565 5 ADMINISTRACIÓN NAVAL 18.901 12 ESTADO MAYOR 18.964 13 19.326 19.930 2 237 35 CPFG SU 16.328 BÁSICO DE SUPERFICIE 17.886 12 ADMINISTRACIÓN NAVAL 18.354 27 ESTADO MAYOR 18.942 15 19.405 19.680 17 1082 36 CPFG IN 16.238 BÁSICO DE SUPERFICIE 17.800 14 ADMINISTRACIÓN NAVAL 18.622 22 ESTADO MAYOR 19.072 8 19.500 19.750 5 296 37 CPFG SU 16.028 BÁSICO DE SUPERFICIE 18.120 3 ADMINISTRACIÓN NAVAL 18.79 14 ESTADO MAYOR 19.087 6 19.457 19.940 14 865 38 CPFG IM 16.337 INFANTERÍA DE MARINA BÁSICO 18.276 5 ADMINISTRACIÓN NAVAL 18.216 28 ESTADO MAYOR 18.696 19 19.279 19.667 64 452 39 SUBP SU 17.190 SU OPERACIONES CLASE A 19.032 2 SU OPERACIONES CLASE B 18.722 2 MANDO Y LIDERAZGO 19.085 6 19.860 19.720 6 80 40 SUBP SS 16.070 SS CUBIER (MANIOBRAS) CLASE A 19.039 1 CUBIERTA (MANIOBRAS) CLASE B 17.968 2 MANDO Y LIDERAZGO 17.03 49 20.000 19.353 55 214 41 SUBP IM 14.500 INFANTERÍA DE MARINA CLASE A 18.629 6 INFANTERÍA DE MARINA CLASE B 18.593 5 MANDO Y LIDERAZGO 18.725 12 19.805 19.830 54 874 42 SUBP SU 16.430 SU CUBIER (MANIOBRAS) CLASE A 18.561 7 CUBIERTA (MANIOBRAS) CLASE B 18.051 8 MANDO Y LIDERAZGO 16.43 40 19.280 19.451 71 385 43 SUBP SU 16.210 SU CUBIER (MANIOBRAS) CLASE A 18.149 19 CUBIERTA (MANIOBRAS) CLASE B 18.299 10 MANDO Y LIDERAZGO 16.38 27 19.860 19.620 38 177 44 SUBP SU 15.100 SU CUBIER (MANIOBRAS) CLASE A 18.241 13 CUBIERTA (MANIOBRAS) CLASE B 17.978 12 MANDO Y LIDERAZGO 16.24 47 19.940 19.519 103 550 45 SUBP SU 15.720 SU ARMAMENTO CLASE A 18.308 13 SU ARMAMENTO CLASE B 18.039 14 MANDO Y LIDERAZGO 18.272 42 19.941 19.780 35 66 46 SUBP IM 15.400 INFANTERÍA DE MARINA CLASE A 18.643 4 INFANTERÍA DE MARINA CLASE B 18.464 6 MANDO Y LIDERAZGO 18.694 17 19.810 20.000 16 653 47 SUBP IM 15.800 INFANTERÍA DE MARINA CLASE A 18.121 10 INFANTERÍA DE MARINA CLASE B 18.396 7 MANDO Y LIDERAZGO 18.532 18 19.960 19.860 41 569 48 SUBP IM 15.200 INFANTERÍA DE MARINA CLASE A 18.175 8 INFANTERÍA DE MARINA CLASE B 18.028 12 MANDO Y LIDERAZGO 18.273 43 19.520 19.753 104 241 49 SUBP IM 15.300 INFANTERÍA DE MARINA CLASE A 18.719 2 INFANTERÍA DE MARINA CLASE B 18.534 3 MANDO Y LIDERAZGO 18.87 8 20.000 19.625 52 391 50 SUBP IN 16.300 INFANTERÍA DE MARINA CLASE A 18.109 11 INFANTERÍA DE MARINA CLASE B 18.201 17 MANDO Y LIDERAZGO 17.989 28 19.540 19.630 189 1051 51 SUBP IM 14.400 INFANTERÍA DE MARINA CLASE A 17.869 15 INFANTERÍA DE MARINA CLASE B 18.062 18 MANDO Y LIDERAZGO 17.912 38 19.913 19.650 69 1764 52 SUBP IM 14.000 INFANTERÍA DE MARINA CLASE A 18.539 7 INFANTERÍA DE MARINA CLASE B 18.414 9 MANDO Y LIDERAZGO 18.421 20 19.880 19.580 77 552 53 SUBP IM 15.697 INFANTERÍA DE MARINA CLASE A 17.984 12 INFANTERÍA DE MARINA CLASE B 17.805 15 MANDO Y LIDERAZGO 18.065 54 19.550 19.525 151 672 54 SUBP IM 16.500 INFANTERÍA DE MARINA CLASE A 18.721 1 INFANTERÍA DE MARINA CLASE B 16.789 1 MANDO Y LIDERAZGO 18.872 104 19.890 19.790 121 213 55 SUBP IM 15.300 INFANTERÍA DE MARINA CLASE A 17.770 17 INFANTERÍA DE MARINA CLASE B 17.647 19 MANDO Y LIDERAZGO 17.896 78 19.913 20.000 90 977 56 SUBP IN 16.733 INFANTERÍA DE MARINA CLASE A 18.418 5 INFANTERÍA DE MARINA CLASE B 18.533 4 MANDO Y LIDERAZGO 18.368 10 19.950 20.000 8 991 57 SUBP SU 17.180 SU MOTORISTA CLASE A 18.834 3 SU MOTORISTA CLASE B 18.398 8 MANDO Y LIDERAZGO 18.43 17 20.000 19.630 20 241 58 SUBP SU 16.780 SU MOTORISTA CLASE A 18.133 51 SU MOTORISTA CLASE B 17.981 14 MANDO Y LIDERAZGO 18.278 51 19.590 19.964 16 581 59 SUBP IM 16.141 INFANTERÍA DE MARINA CLASE A 18.251 6 INFANTERÍA DE MARINA CLASE B 18.212 5 MANDO Y LIDERAZGO 18.165 30 19.300 19.870 39 600 60 SUBP SU 17.440 SU OPERACIONES CLASE A 18.455 12 SU OPERACIONES CLASE B 18.121 6 MANDO Y LIDERAZGO 18.552 33 19.749 19.550 32 690 61 SUBP IM 16.639 INFANTERÍA DE MARINA CLASE A 19.703 1 INFANTERÍA DE MARINA CLASE B 18.533 3 MANDO Y LIDERAZGO 18.764 9 19.510 20.000 84 678 62 SUBP SU 16.920 SU ARMAMENTO CLASE A 19.054 4 SU ARMAMENTO CLASE B 18.435 3 MANDO Y LIDERAZGO 19.179 14 19.242 19.510 27 366 63 SUBP IM 16.465 INFANTERÍA DE MARINA CLASE A 17.916 18 INFANTERÍA DE MARINA CLASE B 17.811 12 MANDO Y LIDERAZGO 18.068 68 19.710 19.910 33 653 64 SUBP IM 17.459 INFANTERÍA DE MARINA CLASE A 17.853 20 INFANTERÍA DE MARINA CLASE B 17.815 16 MANDO Y LIDERAZGO 17.874 67 19.520 19.990 41 411 65 SUBP SU 16.600 SU MOTORISTA CLASE A 17.843 74 SU MOTORISTA CLASE B 17.736 24 MANDO Y LIDERAZGO 17.888 74 19.895 19.090 44 63 66 SUBP IM 16.500 INFANTERÍA DE MARINA CLASE A 18.066 10 INFANTERÍA DE MARINA CLASE B 17.951 10 MANDO Y LIDERAZGO 18.097 56 19.490 19.960 55 945 67 SUBP SU 16.130 SU MOTORISTA CLASE A 18.292 34 SU MOTORISTA CLASE B 18.175 10 MANDO Y LIDERAZGO 18.406 34 19.890 19.270 24 17 68 SUBP IM 15.603 INFANTERÍA DE MARINA CLASE A 17.972 15 INFANTERÍA DE MARINA CLASE B 17.963 13 MANDO Y LIDERAZGO 17.979 54 19.350 19.610 47 393

Page 134: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

C- 3

No GRADO ESP GRADUA CION

CURSO DE ASCENSO (BÁSICO)

NOTA ANT CURSO DE ASCENSO NOTA ANT CURSO GRADO SUPERIOR

NOTA ANT CALIF 2000

CALIF 2010

DÍAS ARRESTO

DÍAS OPE

69 SUBP SU 16.120 SU MOTORISTA CLASE A 19.021 1 SU MOTORISTA CLASE B 18.174 5 MANDO Y LIDERAZGO 19.003 88 20.000 19.530 28 207 70 SUBP IM 15.878 INFANTERÍA DE MARINA CLASE A 18.069 9 INFANTERÍA DE MARINA CLASE B 18.063 7 MANDO Y LIDERAZGO 18.135 42 19.730 19.550 66 417 71 SUBP IM 15.627 INFANTERÍA DE MARINA CLASE A 17.887 19 INFANTERÍA DE MARINA CLASE B 17.705 15 MANDO Y LIDERAZGO 17.938 75 19.487 19.865 36 179 72 SUBP SU 15.980 SU OPERACIONES CLASE A 18.763 7 SU OPERACIONES CLASE B 18.146 4 MANDO Y LIDERAZGO 18.858 37 19.800 19.710 14 408 73 SUBP IM 15.953 INFANTERÍA DE MARINA CLASE A 17.212 27 INFANTERÍA DE MARINA CLASE B 17.137 20 MANDO Y LIDERAZGO 17.361 95 19.640 19.545 15 180 74 SUBP SS 17.120 SS ELECTRÓNICO CLASE A 17.793 5 SS ELECTRÓNICO CLASE B 17.442 3 MANDO Y LIDERAZGO 17.837 84 19.835 19.483 67 105 75 SUBP SU 16.400 SU CUBIER (MANIOBRAS) CLASE A 18.352 13 CUBIERTA (MANIOBRAS) CLASE B 17.991 18 MANDO Y LIDERAZGO 15.85 45 19.199 19.620 25 320 76 SUBP IN 16.209 INFANTERÍA DE MARINA CLASE A 17.321 22 INFANTERÍA DE MARINA CLASE B 17.258 23 MANDO Y LIDERAZGO 17.197 90 19.180 19.756 106 610 77 SUBP SU 15.940 SU MOTORISTA CLASE A 18.329 27 SU MOTORISTA CLASE B 18.239 13 MANDO Y LIDERAZGO 18.327 27 19.770 19.490 33 401 78 SUBP SU 16.140 SU MOTORISTA CLASE A 18.191 46 SU MOTORISTA CLASE B 18.041 21 MANDO Y LIDERAZGO 18.209 46 19.398 20.000 37 487 79 SUBP SU 15.830 SU MOTORISTA CLASE A 18.158 31 SU MOTORISTA CLASE B 18.208 16 MANDO Y LIDERAZGO 18.248 31 19.928 19.245 76 265 80 SUBP SU 16.580 SU CUBIER (MANIOBRAS) CLASE A 18.742 5 CUBIERTA (MANIOBRAS) CLASE B 17.399 8 MANDO Y LIDERAZGO 16.45 86 19.000 19.730 76 875 81 SUBP SU 15.870 SU MOTORISTA CLASE A 17.984 70 SU MOTORISTA CLASE B 17.786 25 MANDO Y LIDERAZGO 17.874 70 19.723 19.590 62 66 82 SUBP SU 16.630 SU ARMAMENTO CLASE A 18.294 18 SU ARMAMENTO CLASE B 17.658 5 MANDO Y LIDERAZGO 18.369 76 19.648 19.770 31 440 83 SUBP SU 15.960 SU OPERACIONES CLASE A 18.734 8 SU OPERACIONES CLASE B 18.353 4 MANDO Y LIDERAZGO 18.808 22 19.726 20.000 24 217 84 SUBP SU 16.680 SU MOTORISTA CLASE A 18.477 19 SU MOTORISTA CLASE B 18.38 3 MANDO Y LIDERAZGO 19.121 19 19.230 19.200 39 261 85 SUBP SS 16.390 SS CUBIER (MANIOBRAS) CLASE A 18.423 8 CUBIERTA (MANIOBRAS) CLASE B 18.161 10 MANDO Y LIDERAZGO 16.33 36 19.980 19.642 129 694 86 SUBP SU 16.750 SU MOTORISTA CLASE A 18.268 33 SU MOTORISTA CLASE B 18.178 12 MANDO Y LIDERAZGO 18.386 33 19.390 19.878 73 0 87 SUBP SU 16.900 SU MOTORISTA CLASE A 18.519 20 SU MOTORISTA CLASE B 18.367 6 MANDO Y LIDERAZGO 18.471 20 20.000 19.475 29 83 88 SUBP SU 16.720 SU MOTORISTA CLASE A 18.284 35 SU MOTORISTA CLASE B 18.174 18 MANDO Y LIDERAZGO 18.238 35 19.378 19.750 39 198 89 SUBP SU 16.580 SU OPERACIONES CLASE A 18.348 16 SU OPERACIONES CLASE B 17.74 10 MANDO Y LIDERAZGO 18.344 72 19.589 19.500 63 12 90 SUBP SS 16.780 SS MECÁNICO CLASE A 18.211 2 SS MECÁNICO CLASE B 18.084 2 MANDO Y LIDERAZGO 18.359 39 19.760 19.290 42 69 91 SUBP AV 15.230 MOTORISTA AVIACIÓN CLASE A 19.102 2 MOTORISTA AVIACIÓN CLASE B 19.098 2 MANDO Y LIDERAZGO 19.105 14 19.111 19.964 59 18 92 SUBP SU 15.690 SU MOTORISTA CLASE A 17.679 82 SU MOTORISTA CLASE B 17.472 26 MANDO Y LIDERAZGO 17.805 82 19.256 19.650 45 1116 93 SUBP SU 15.970 SU MOTORISTA CLASE A 17.226 93 SU MOTORISTA CLASE B 17.185 27 MANDO Y LIDERAZGO 17.351 93 19.420 19.500 53 273 94 SUBP SU 15.830 SU CUBIER (MANIOBRAS) CLASE A 18.363 12 CUBIERTA (MANIOBRAS) CLASE B 17.078 17 MANDO Y LIDERAZGO 15.88 97 19.330 19.627 61 305 95 SUBP SU 15.860 SU MOTORISTA CLASE A 17.012 63 SU MOTORISTA CLASE B 17.858 22 MANDO Y LIDERAZGO 17.975 63 20.000 19.556 132 309 96 SUBP SU 15.950 SU CUBIER (MANIOBRAS) CLASE A 18.421 9 CUBIERTA (MANIOBRAS) CLASE B 17.788 30 MANDO Y LIDERAZGO 14.78 69 19.236 19.610 53 505 97 SUBP SU 15.090 SU CUBIER (MANIOBRAS) CLASE A 18.289 16 CUBIERTA (MANIOBRAS) CLASE B 17.107 22 MANDO Y LIDERAZGO 15.76 96 19.300 19.093 141 282 98 SUBP IM 16.310 INFANTERÍA DE MARINA CLASE A 19.640 2 INFANTERÍA DE MARINA CLASE B 19.485 1 MANDO Y LIDERAZGO 19.231 2 19.730 19.590 9 732 99 SUBP SU 17.480 SU ELECTRICISTA CLASE A 18.128 4 SU ELECTRICISTA CLASE B 18.798 5 MANDO Y LIDERAZGO 18.06 58 19.130 19.520 33 672 100 SUBP SS 16.800 SS ELECTRÓNICO CLASE A 19.003 3 SS ELECTRÓNICO CLASE B 18.879 6 MANDO Y LIDERAZGO 19.062 41 19.329 19.437 26 264

Page 135: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

D - 1

ANEXO “D”

INFORME FINAL

1. RESUMEN DE LA COMPRENSIÓN DEL NEGOCIO: CONTEXTO, OBJETIVOS, Y CRITERIOS DE ÉXITO

EL proceso de selección para las áreas críticas de la Armada (Superficie, Submarinos, Aviación

Naval, Infantería de Marina e Inteligencia) no tiene un procedimiento establecido para la

selección, por lo que es importante determinar ciertos parámetros de acuerdo a las

especialidades, que nos ayuden a tener un criterio más acertado para realizar dicha selección;

por estos motivos, utilizamos la Minería de Datos para realizar la selección y determinación de

estos criterios y apoyar a optimizar de esta manera al proceso de selección de personal, para lo

cual se ha considerado utilizar el método de árboles de decisión aplicando la metodología CRISP-

DM para su desarrollo y ejecución.

Los objetivos planteados pretenden evitar una mala selección de personal, que trae

consecuencias negativas como impacto en la carrera militar de Oficiales y Tripulantes, problemas

presupuestarios y administrativos para la Armada del Ecuador (pérdida de cupos, lucro cesante,

procesos administrativos etc.) y por ende afecta a la gestión de personal; por tanto, utilizando la

información disponible en la Dirección General de Recursos Humanos de la Armada, se ha

planteado el siguiente objetivo primario:

Desarrollar un modelo de minería de datos para determinar los factores adecuados para la

selección de personal en cada una de las especialidades en las áreas críticas de la Armada.

Y derivado de este, establecer los objetivos específicos:

Identificar los procedimientos de selección de personal utilizados en las áreas críticas de la

Armada orientado a su utilización con Minería de Datos.

Desarrollar un modelo de minería de datos para determinar los factores adecuados de selección

de personal para áreas críticas de la Armada

Para el desarrollo de estos objetivos, se han considerado que se debe investigar la metodología

de Minería de datos y perfiles ocupacionales, orientar la aplicación de soluciones de Minería de

Datos a nivel de Recursos Humanos, definiendo las áreas críticas como las de Superficie,

Submarinos, Aviación Naval, Infantería de Marina e Inteligencia y se seleccionará la metodología,

la técnica y el modelo más adecuado para la obtención de los objetivos planteados.

De estos objetivos, se deriva el objetivo del negocio, que es: Determinar los factores de selección

de personal para cada una de las especialidades de Superficie, Submarinos, Aviación Naval,

Infantería de Marina e Inteligencia, de tal forma de poder aplicarlos en la selección adecuada para

los futuros aspirantes a los cursos en estas especialidades.

Para los criterios de éxito, se establece como criterio principal para el factor de selección de

personal el “determinar rangos verdaderos en los que la selección de personal se pueda basar

Page 136: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

D - 2

para clasificar correctamente al personal en las especialidades consideradas”, mientras que se

consideran otros factores que son la nota mínima en cada materia y en cada curso, la conducta

y la evaluación del desempeño.

2. SUMARIO DE PROCESO DE MINERÍA DE DATOS

Como parte del proceso de Minería de Datos, verificamos lo existente en el inventario de recursos,

para lo que se coordinó para que la información sea obtenida de los servidores de la Dirección

General de Recursos Humanos, y a su vez, manejados en el Centro de Tecnologías de la

Información en donde trabaja personal de ingenieros y técnicos en informática que dan soporte,

actualización y mantenimiento al sistema informático.

La base de datos está principalmente estructurada en SQL Server y el hardware consta

principalmente de 06 servidores principales con 1 o 2 procesadores marca INTEL en cada uno,

con velocidades de sus procesadores entre 2.3 y 3.47 GHz con RAM de 4, 6, 12 y 16 GB y con

una memoria combinada de sus discos duros aproximada de 10 TB.

Los requerimientos están relacionados a que este proyecto debe determinar los factores de

selección del personal más adecuados para cada especialidad pero que sean un aporte y no

sean datos que no contribuyan al propósito buscado; además, se busca que los datos principales

estén agrupados y adaptados a un solo formato para ser válidos y el resultado debe ser resumido.

Las presunciones se relacionan a que se debe asumir que los datos del personal existentes,

contienen la información suficiente para realizar el análisis que arrojen resultados utilizables y

verificables y que el grupo objetivo se basa en personal que ha terminado los cursos de su

respectiva área con un tiempo mayor a cinco años.

Se establece una restricción relacionada a que cierta información, con carácter confidencial, de

forma que la información extraída no sea relacionada directamente con una persona en particular

por lo que hay que adecuar los datos a esta situación.

Los riesgos relacionados a este proyecto se relacionan a los siguientes puntos y su respectivo

plan de contingencia:

Acceso restringido a ciertos datos del personal que pueden ser importantes para lograr

los objetivos.- Para evitar esto, se debe realizar el acercamiento a la autoridad respectiva

para su autorización.

Bases de datos con información insuficiente para lograr el objetivo de Minería de Datos.-

Se debe buscar la información necesaria en las instituciones relacionadas que puedan

tener esta información.

Sistemas de bases de datos de la Dirección General de Personal sea inestable debido a

su antigüedad y por tanto el manejo de datos sea riesgoso.- Se considera una estación

adicional o exportar los datos para su manejo fuera de los servidores.

Page 137: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

D - 3

La estructura de datos sea diversa y se dificulte la compilación de datos de la base de

datos principal.- Se debe ajustar los datos para permitir su manipulación y exportación.

Dentro de la estructura de los datos no exista los datos o tablas necesarias para una

análisis adecuado de lo que se intenta implementar.- Se deberá buscar la información con

los datos importantes para exportar e implementarla.

Dentro del costo – beneficio para este proyecto, tenemos que están relacionados a la adecuación

de los servidores, la implementación de una estación de trabajo, la implementación del algoritmo,

los gastos asociados al proceso, el entrenamiento y finalmente obteniendo el proceso de

selección, todo esto a un costo estimado de $1.1150,00

En cuanto al objetivo relacionado a la Minería de Datos, este se establece como:

Determinar los valores de los parámetros relacionados a las rutas de clasificación encontradas

por el algoritmo dentro de la clasificación de las cinco especialidades consideradas, de acuerdo

al método del árbol de decisión utilizado y que logre una clasificación con el menor error

determinable.

Los criterios de éxito para este proyecto son los siguientes:

1. Que cuando el modelo sea aplicado a una población candidata que requiera su

clasificación para los cursos, esta clasificación este acorde a lo previsto por el modelo

en un porcentaje lo más alto posible.

2. Que los resultados arrojados por el modelo sean comprensibles y fáciles de manejar e

interpretar por el usuario del sistema.

Se establece el Plan del Proyecto, el cual contempla los siguientes puntos principales:

1. Análisis de los datos de la Base de Datos

2. Selección de los datos relevantes

3. Selección inicial de herramientas y técnicas

4. Revisión y estructuración de los datos relevantes

5. Soluciones de estructura de la base de datos

6. Desarrollo del Modelo

7. Prueba inicial del modelo

8. Ajustes del modelo y/o base de datos

9. Prueba del modelo

10. Evaluación del modelo

11. Instrucción

Para la evaluación inicial de herramientas y técnicas, se ha tomado en cuenta que se debe

considerar el factor histórico del personal previamente graduado como base para que la Minería

de Datos determine los porcentajes óptimos y permitir clasificar al personal de Oficiales y

Tripulantes en cada especialidad, por tanto, se considera como adecuado el uso de árboles de

Page 138: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

D - 4

decisión, ya que tiene la ventaja de que su manejo sería relativamente simple para la clasificación,

pero se debe cuidar de no complicar demasiado la estructura de la clasificación.

Para la recolección de datos iniciales, se trabajó identificando los tipos de datos existentes en la

base de datos principal de la Dirección General de Recursos Humanos, que como ya se dijo está

estructurado en SQL Server, existiendo información sobre el personal de la Armada relacionada

a la siguiente estructura: Datos principales, ascensos, calificaciones anuales, recompensas o

condecoraciones, cursos, profesorado, salidas al exterior, transbordos, especialidad, instrucción

académica, faltas y sanciones, cónyuge, hijos, padres, licencias y permisos y tiempo total

operativo.

De esta estructura solo se considera los datos más relevantes para este trabajo.

Para la colección de datos iniciales, ya que la base de datos principal se compone de varias bases

de datos, se tuvo que extraer la información de forma manual, debiendo realizar la selección del

personal que a integrar el estudio (selección de la muestra), tabular los códigos de cada uno del

personal seleccionado, selección de los atributos de la información del personal que sea

relevante, realizar consultas de acuerdo a los códigos para obtener la información e integrarla

para su migración a tablas de Microsoft Excel.

Para los criterios de selección, se ha considerado los logros académicos, de gestión, de

comportamiento y la capacidad de permanencia en su especialidad, lo que nos dará la pauta para

lograr determinar los patrones adecuados de selección.

La lista de fuente de datos considera extraer la información de los módulos de: Personal, Sistema

de Evaluación, Evaluación, Registro de Faltas y Sanciones y de Registro de Tiempo de Servicio

y Recompensas.

Los tipos de datos seleccionados inicialmente de una muestra de 100 personas son:

1. Código de registro.

2. Nota de graduación

3. Nota de Curso de Perfeccionamiento inicial

4. Antigüedad de Curso de Perfeccionamiento

5. Nota de Curso de Especialidad

6. Antigüedad de Curso de Especialidad

7. Nota de Curso de Ascenso a Grado Superior

8. Antigüedad de Curso de Ascenso a Grado Superior

9. Calificaciones anuales

10. Días de Arresto

11. Tiempo de Servicio

Todos estos datos serán revisados y organizados dentro del árbol de decisión para obtener los

parámetros adecuados para la selección de personal en las diferentes especialidades.

Page 139: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

D - 5

Los datos indicados y su revisión se vuelven complejos porque a medida que pasa el tiempo las

nuevas políticas y reglamentaciones sobre personal cambian y los datos a veces no son

coherentes (como cambios de nombres de los cursos, consideraciones distintas para un mismo

tipo de información, cambios en los períodos de evaluación y otros).

De acuerdo al análisis se establece la calidad de los datos, exponiendo sus problemas y su

posible solución.

Para escoger los datos se seleccionó las filas (registros) y columnas (atributos) de los Oficiales y

Tripulantes con historial suficiente, seleccionando cuatro promociones, dos de oficiales y dos de

tripulantes, quienes tienen más de 20 años de servicio en la Armada, con un total de 100 registros.

Del primer análisis de los atributos a seleccionar, se excluyeron: la antigüedad del Curso de

Perfeccionamiento inicial, la antigüedad del Curso de Ascenso de Especialidad y la antigüedad

del Curso de Ascenso a grados superiores, ya que el atributo de las antigüedades presenta el

problema de que algunos cursos, al haberse realizado en diferentes fechas, tienen valores no

distribuidos de antigüedades, lo que solo va a generar “ruido” en los resultados.

En cuanto a limpieza de datos, se detectaron los siguientes problemas en los atributos (sin

considerar los atributos excluidos):

Curso de Ascenso de Especialidad.- Tres oficiales sin registro en el curso realizado (por

pérdida de curso), por lo que se verificó la nota alcanzada en el nuevo curso realizado.

Curso de Ascenso a grados superiores.- Nota incompleta para dos registros de

tripulantes (por pérdida de curso), igualmente se verificó en el sistema la nota

correspondiente del curso que tuvieron que repetir.

Calificaciones.- Varios registros en un año (por transbordos), por lo que se realizó un

promedio de las calificaciones para obtener un solo valor.

Permanencia en repartos operativos.- Cada especialidad tiene variaciones en el registro

del tiempo, por lo que se calculó el valor correspondiente a días de operación.

No se consideró para este trabajo la construcción de datos y en cuanto a la integración se realizó

la integración de los datos para las Notas de Cursos y Calificaciones.

En cuanto al formateo de datos para poder utilizar la aplicación WEKA con nuestro archivo de

Microsoft Excel, todas las comas se cambiaron a puntos, los registros con decimales fueron

aproximados a máximo cuatro cifras significativas, luego el archivo de Microsoft Excel se

transformó a un archivo de extensión .csv (archivos de valores separados por comas de Microsoft

Excel), que debió ser revisado en un editor de texto para cambiar todos los (;) punto y comas por

(,) comas, ya que este es el separador natural para ser entendido por la aplicación WEKA.

Para el inicio del modelado, se revisó las diferentes técnicas de modelado aplicables a árboles

de decisión, que son:

ADTree.- (Alternating Decisión Tree) Método de clasificación proveniente del

aprendizaje automático.

Page 140: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

D - 6

Decision Stump.- Árbol de decisión de un nivel

ID3.- Inducción mediante árboles de decisión.

J48.- Es una implementación del algoritmo C4.5

LMT.- (Logistic Model Tree) Estructura de un árbol de decisión con funciones de

regresión logística en las hojas.

M5P.- Árbol de regresión

NBTree.- Naive Bayes Tree

Random Forest.- Bosque Aleatorio

Random Tree.- Árbol Aleatorio.

REPTree.- Método de aprendizaje rápido

User Classifier.- Permite construir su propio árbol de decisión.

Se ha considerado la utilización del algoritmo J48, ya que es una mejora del C4.5 y del ID3 con

una probabilidad de acierto ligeramente superior a sus antecesores.

Las presunciones del modelado se refieren a que no es necesario que los datos estén completos,

que los datos deben ser preferentemente numéricos, lo cual ya se cumplió en el desarrollo

anterior.

Para la prueba de diseño, se consideró lo siguiente:

1. Verificar la aplicabilidad de los datos con árboles de decisión.

2. Verificar la aplicabilidad del desarrollo del árbol de decisión

3. Verificar la matriz de confusión

Con todas estas consideraciones se inició el trabajo de construcción del modelo utilizando el

programa WEKA.

3. RESUMEN DE LOS RESULTADOS DE MINERÍA DE DATOS

Luego de todo el análisis utilizando el programa WEKA con árboles de decisión y el método J48,

se llegó a determinar el siguiente algoritmo de árbol de decisión, con las rutas y valores de los

parámetros indicados a continuación:

DiasOpe <= 313 | Sanciones <= 3: SS (3.0) | Sanciones > 3 | | Sanciones <= 25 | | | Nota Graduacion <= 17.8: IN (3.0/1.0) | | | Nota Graduacion > 17.8: SU (11.0/2.0) | | Sanciones > 25 | | | Nota Graduacion <= 19.021: SU (18.0/3.0) | | | Nota Graduacion > 19.021: AV (2.0/1.0) DiasOpe > 313 | Sanciones <= 33 | | Nota Graduacion <= 18.133 | | | Nota Cursos <= 18.012: IM (2.0) | | | Nota Cursos > 18.012 | | | | DiasOpe <= 729 | | | | | Nota Cursos <= 18.35: SU (4.0/1.0) | | | | | Nota Cursos > 18.35: AV (7.0)

Page 141: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

D - 7

| | | | DiasOpe > 729: SU (6.0) | | Nota Graduacion > 18.133 | | | Sanciones <= 20 | | | | Sanciones <= 5 | | | | | Nota Graduacion <= 18.519: SU (2.0/1.0) | | | | | Nota Graduacion > 18.519: SS (2.0) | | | | Sanciones > 5: IM (9.0/2.0) | | | Sanciones > 20: SU (5.0) | Sanciones > 33 | | Nota Cursos <= 17.691 | | | Sanciones <= 104: SU (5.0) | | | Sanciones > 104: SS (2.0/1.0) | | Nota Cursos > 17.691: IM (19.0/2.0)

Este algoritmo tiene un tamaño de árbol de 31 y tiene un 86% de instancias clasificadas

correctamente, y 14% de instancias incorrectamente clasificadas.

Se inicia la clasificación por días de operación, presentando mejoras en cuanto a los análisis

anteriores, excepto para superficie e inteligencia que tuvieron un ligero aumento del error de

clasificación.

El árbol tiene un diseño más simple y de menor tamaño que los anteriores.

4. SUMARIO DE LA EVALUACIÓN DE RESULTADOS

La evaluación de los resultados, se define de la siguiente manera en base a cada especialidad:

SUPERFICIE.- Para los días de operación, la mayor parte de la población (56%) de

superficie tiene una cantidad menor a 313 días de Operación y solo algo más del 30%

supera esa cantidad; para las sanciones, la mayor parte del personal tiene menos de 33

días de arresto; la mayor parte mantiene una nota de graduación mayor a 17.8 y menor a

19.021 y en relación a la Nota de Cursos, no se aplica a todas las clasificaciones de

superficie, solo a cerca del 30% de la población, las notas se mantienen entre mayor a

18,012 y menor a 18,35.

SUBMARINOS.- En los días de operación, más del 60% de la población tiene más de 313

días de operación en la mar y solo un poco más del 30% tiene menos de 313 días; para

las sanciones, algo más del 60% de la población tiene menos de 33 días de arresto, sin

embargo, es de notar que aproximadamente el 30% tiene menos de 3 días de arresto; en

relación a la Nota de Graduación, algo más del 60% no se le considera en la selección la

nota de graduación, mientras que menos del 30% mantiene una nota mayor a 18,133 y

para la Nota de Cursos, algo más del 60% no se le considera en la selección la nota de

cursos y Menos del 30% mantiene una nota en los cursos menor a 17,691. En esta

especialidad

AVIACIÓN NAVAL.- En los días de operación, más del 75% mantienen una cantidad mayor

a 313 días de operación y solo algo más del 20% tiene menos de ese valor; para las

sanciones, toda la población analizada tiene menos de 33 días de arresto, mientras que

más del 75% tienen una nota de graduación menor a 18,133 y solo algo más del 20% tiene

Page 142: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

D - 8

una nota mayor a 19,021, y en relación a la Nota de Cursos solo se aplica a algo más del

75%, manteniéndose en un valor mayor a 18,012.

INFANTERÍA DE MARINA.- En los días de operación, toda la población mantiene un valor

(que fue modificado en sus inicios) mayor a 313 días de operación en el terreno; para las

sanciones , más del 60% de la población tiene una cantidad de días de arresto superior a

33 días y solo algo más del 30% se mantiene por debajo de los 33 días de arresto; para la

Nota de Graduación, solo se considera para el 30% de la población un valor de nota de

graduación superior a 18,133 y para el 6% una nota menor a este valor, mientras que para

la Nota de Cursos, para el 6% se considera una nota de cursos menor a 18,012, mientras

que para más del 60% se considera una nota de cursos mayor a 17,691

INTELIGENCIA.- Para los días de operación, se considera un valor para toda la población

menor o igual a 729 días de operación, para las sanciones, para todos se consideran

valores superiores a 3 días y menores o iguales a 25 días de arresto, mientras que la nota

de graduación considerada es menor o igual a 17,8; para la Nota de Cursos, no se

considera en la selección ninguna nota de cursos para esta especialidad.

Estos valores deben ser los considerados para la clasificación de los futuros candidatos a los

cursos, tomando en cuenta las diferencias en los parámetros determinados para cada

especialidad, lo que da un punto de partida para dicha clasificación.

En cuanto a la evaluación de los resultados en cuanto a los criterios de éxito del negocio,

podemos indicar lo siguiente:

SELECCIÓN DE PERSONAL.- Debe estar enmarcado en el menor error posible una vez

aplicado el algoritmo, debe ser menor o igual al 15% en el análisis y el modelo generado

tiene instancias clasificadas correctamente 86% 14% incorrectas, encontrándose dentro

del parámetro esperado.

NOTA MÍNIMA EN CADA MATERIA.- Cada Oficial o Tripulante en curso debe igualar o

superar el mínimo requerido en cada materia de 16/20 con un margen de error de +/- 5%,

y si bien no se analizó los datos de las notas de cada materia para el modelo considerado,

este promedio se encuentra incluido y superado ampliamente en las notas de los cursos

en general.

NOTA MÍNIMA EN CADA CURSO.- Cada Oficial o Tripulante debe igualar o superar el

promedio general en cada curso realizado que es de 16/20 con un error de +/- 5%, teniendo

resultados que muestran que los valores obtenidos por la población mantienen varios

rangos, el menor de ellos es que las notas sean menores o iguales a 17,691, mientras que

en el extremo más alto se mantienen notas superiores a 18,012, lo que supera ampliamente

el promedio esperado, contemplando un nivel de análisis superior al considerado.

CONDUCTA.- La conducta debe superar la evaluación en un nivel adecuado al buen

comportamiento superando el valor de 18/20 con un error de +/- 5%, y si bien las

Page 143: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

D - 9

calificaciones anuales fueron eliminadas por su casi nulo aporte al análisis, el valor

considerado inicialmente estaba con notas del personal superior al 19,000 en todos los

años, lo que supera ampliamente al margen considerado.

EVALUACIÓN DE DESEMPEÑO.- El promedio de la evaluación del desempeño de los

Oficiales y Tripulantes que terminan los cursos, posterior a un año de labores debe ser

adecuado, es decir, igual o superior al 18/20, teniendo que el desempeño global de cada

persona considerada en este estudio toma en cuenta no solo un factor, sino los cuatro

factores de los criterios de selección para demostrar que es superior en casi todos los

atributos analizados.

La decisión tomada es continuar con el proyecto actual de Minería de Datos ampliando los

registros a una mayor población para mejorar los parámetros de selección, e incluir información

revisada para la selección de nuevos candidatos a estas especialidades para iniciar su aplicación

en los sistemas informáticos existentes.

5. RESUMEN DEL DESARROLLO Y DE LOS PLANES DE MANTENIMIENTO

Para el desarrollo del plan, se deben tomar las siguientes acciones:

Análisis de los datos de la Base de Datos.- Se debe revisar la BD para seleccionar una

muestra mayor de la actualmente considerada.

Revisión y estructuración de los datos seleccionados.- Con la ampliación de los registros,

se debe verificar formato y compatibilidad de los datos, completar datos faltantes.

Soluciones de estructura de la base de datos.- Proceso similar al anterior para verificar la

idoneidad de los nuevos datos.

Revisión del modelo en base a los nuevos datos.- Se debe utilizar el mismo modelo y

verificar se encuentren dentro del rango ya seleccionado; realizar ajustes si es necesario.

Aplicación del modelo en sistemas informáticos.- Con el desarrollo del modelo de árboles

de decisión, realizar una implementación en los sistemas informáticos existentes para

automatizar el proceso.

Con respecto al plan de supervisión y mantenimiento, se debe realizar lo siguiente:

Revisión periódica de los datos.- Debe revisarse periódicamente la BD por parte del

administrador para verificar que se mantenga su estructura y no se hayan perdido, dañado

o modificado los datos.

Ampliación progresiva y eliminación de datos.- La nueva información que llega a la base

de datos principal, debe ser aprovechado para tomar nuevos datos de ella y eliminar los

registros ya no adecuados, al menos una vez al año.

Page 144: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

D - 10

Comparación de parámetros anteriores y nuevos.- Al realizar la actualización de datos,

se debe comparar los parámetros nuevos con los anteriores para detectar variaciones

pequeñas o grandes en los parámetros de selección.

Identificación y corrección de errores.- Se debe revisar periódicamente los datos y el

algoritmo para identificar errores al menos una vez al año.

Informes.- Realizar informes de cada verificación, actualización o cambio realizado.

6. ANÁLISIS COSTO/BENEFICIO

Este trabajo y su desarrollo dentro de las bases de datos de personal, permitirá introducir mejoras a costos relativamente bajos; los costos y su beneficio como resumen de todo el proyecto se muestran a continuación:

La implementación del algoritmo tendrá un costo relacionado al tiempo de trabajo del

personal que lo implemente en el sistema informático, el cual deberá integrar la

información entre las bases de datos para la ampliación de los registros y hacer que la

aplicación del algoritmo sea automático una vez seleccionados los registros, y por otro

lado, permitir que los nuevos candidatos a cursos sean seleccionados automáticamente

de acuerdo a los valores considerados para

Esta implementación implicará la instalación de un servidor adicional que pueda “integrar”

la información de las distintas bases de datos para que no se deba realizar de forma

manual, y permita seleccionar los atributos y registros deseados para aplicarlos con el

modelo; esto también trae beneficios adicionales ya que se puede “explorar” otros

requerimientos de información, simplemente modificando los atributos y/o registros para

lograr otro tipo de información que se requiera.

Otro costo asociado es el de capacitación y entrenamiento, que igualmente tendrá un

costo relacionado al tiempo de trabajo de instructor/es y personal capacitado pero que

será mínimo, y donde se podrá establecer y mantener el soporte y mantenimiento

requeridos del sistema de selección.

7. CONCLUSIONES PARA EL NEGOCIO

Las conclusiones para el negocio, que están relacionadas con las conclusiones generales del

trabajo, se determinan de la siguiente manera:

1) La aplicación del modelo de Minería de Datos determinado en este trabajo, con el cual se

puede realizar la clasificación de personal para los cursos de especialidades críticas para

la Armada, permitirán lograr una mejora sustancial en la selección indicada para el

mejoramiento del desempeño del personal en estas áreas y evitar los problemas

relacionados.

Page 145: UNIVERSIDAD TÉCNICA PARTICULAR DE LOJAdspace.utpl.edu.ec/bitstream/123456789/14217/1/Almeida...personal del Centro de Tecnologías de la Información de la Dirección General de Personal

D - 11

2) El establecimiento de un sistema informático que integre a las bases de datos que genere

una selección automática del personal candidatos a los cursos de especialidades en las

áreas críticas de la Armada, permitirá mejorar el procedimiento de selección, haciéndolo

más eficiente y ágil.

8. CONCLUSIONES PARA FUTURA MINERÍA DE DATOS

Las conclusiones para futura minería de datos se establecen como:

1) La metodología CRISP-DM, como base para desarrollar proyectos de Minería de Datos

y que se debe adaptar al trabajo desarrollado sin tener una estructura de desarrollo

estricta, permitió desarrollar este proyecto abarcando todas las necesidades siendo una

guía muy clara y de gran utilidad para próximos proyectos de Minería de Datos.

2) El uso del método de árboles de decisión con su correspondiente algoritmo seleccionado

J48 que es un método de Minería de Datos adecuado a este tipo de selección, permitió

que dicha selección obtenga los parámetros y caminos de clasificación requeridos para

la clasificación del personal en las diferentes especialidades consideradas.

3) El uso de la aplicación WEKA de la Universidad de Waikato, que es una herramienta

poderosa para el análisis de tablas para encontrar los patrones de los algoritmos, permitió

obtener mucha información importante integrada en los parámetros de selección

encontrados en el modelo.