Tecnicas de mineria de datos para la prevencion del LAFT (2).pdf

Embed Size (px)

Citation preview

  • 8/17/2019 Tecnicas de mineria de datos para la prevencion del LAFT (2).pdf

    1/35

    TÉCNICAS DE MINERÍA 

    DE DATOS PARA LA DETECCIÓN Y PREVENCIÓNDEL LAVADO DE ACTIVOS

     Y LA FINANCIACIÓNDEL TERRORISMO (LA/FT)

    DOCUMENTOS UIAF

  • 8/17/2019 Tecnicas de mineria de datos para la prevencion del LAFT (2).pdf

    2/35

    /1

    /1

    2014 

    Técnicas de minería de datospara la detección y prevencióndel lavado de activos y la financiacióndel terrorismo (LA/FT)

  • 8/17/2019 Tecnicas de mineria de datos para la prevencion del LAFT (2).pdf

    3/35

    /2

    DIRECTOR GENERAL

    EQUIPO DE PRODUCCIÓN

    Esta publicación fue realizada por la Unidad deInformación y Análisis Financiero (UIAF), UnidadAdministrativa Especial adscrita al Ministerio de

    Hacienda y Crédito Público.

    Unidad de Información y Análisis FinancieroLuis Edmundo Suárez Soto

    Unidad de Información y Análisis FinancieroEste documento fue desarrollado por servidores

    públicos de la UIAF, con el soporte de un equipo in-terno de coordinación editorial y bajo la direccióndel Director General y el Subdirector de Análisis Es-tratégico.

    CORRECCIÓN DE ESTILO, DISEÑO,

    DIAGRAMACIÓN E IMPRESIÓN

    García Solano y Compañía SAS - Caliche ImpresoresImpresores Molher LTDA

  • 8/17/2019 Tecnicas de mineria de datos para la prevencion del LAFT (2).pdf

    4/35

    /3

    ISBN:978-958-58578-5-8

    Primera edición© 2014, UIAF

    De acuerdo con lo previsto en el Artícu-lo 91 de la Ley 23 de 1982, los derechos

    de autor del presente documento per-tenecen a la Unidad de Información yAnálisis Financiero (UIAF).

    Queda prohibida cualquier repro-ducción, parcial o total, del con-tenido de este documento sin laautorización previa y escrita de la

    UIAF. Los análisis contenidos sonde carácter general y no hacen re-ferencia ni constituyen prueba so-bre vínculos ciertos y permanentesde individuos con actividades aso-ciadas al lavado de activos y finan-ciación del terrorismo.

    La UIAF no se responsabiliza por eluso (acción u omisión) que hagacualquier persona o grupo de per-sonas de la información (total oparcial) contenida en el texto.

  • 8/17/2019 Tecnicas de mineria de datos para la prevencion del LAFT (2).pdf

    5/35

    /4

  • 8/17/2019 Tecnicas de mineria de datos para la prevencion del LAFT (2).pdf

    6/35

    /5

       T   A   B   L   A

       D   E   C

       O   N   T   E   N

       I   D   O

    CONCLUSIONES

    pag 30

    3pag 20

    APLICACIÓN DE TÉCNICASDE MINERÍA DE DATOS PARA LADETECCIÓN Y PREVENCIÓN DEL LA/FT

    2 pag 13PROCESO DE GENERACIÓN DECONOCIMIENTO O KDD

    EL MODELO SAB Y LA MINERÍA DEDATOS1

    pag 10

    INTRODUCCIÓN

    pag 8

  • 8/17/2019 Tecnicas de mineria de datos para la prevencion del LAFT (2).pdf

    7/35

    /6

    “Puedes utilizar todos los datos cuantitativos a tu alcance; aun así, debesdesconfiar de ellos y utilizar tu propia inteligencia y juicio” (Alvin Toffler,escritor y doctor en Letras, Leyes y Ciencias, 1928 - presente).

    TÉCNICAS DE MINERÍA DE DATOS PARA LA DETECCIÓN Y PREVENCIÓN

    DEL LAVADO DE ACTIVOS Y LA FINANCIACIÓN 

    DEL TERRORISMO (LA/FT)

  • 8/17/2019 Tecnicas de mineria de datos para la prevencion del LAFT (2).pdf

    8/35

    /7

  • 8/17/2019 Tecnicas de mineria de datos para la prevencion del LAFT (2).pdf

    9/35

    /8

         I     N     T

         R     O     D     U     C

         C     I      Ó     N

    El lavado de activos consiste enocultar, manejar, invertir o apro-vechar, en cualquier forma, dine-

    ro u otros bienes provenientes deactividades delictivas, o para darapariencia de legalidad a las tran-sacciones y fondos vinculados conlas mismas, actividad que con eltiempo ha trascendido del sectorfinanciero a diferentes entornosde la economía, donde contami-na y desestabiliza los mercados,poniendo en riesgo los pilares eco-nómicos, políticos y sociales de lademocracia (Blanco, 1997).

    La inteligencia financiera y econó-mica juega un papel fundamental

    en ese contexto, dado que a travésdel análisis y conocimiento queproduce, busca prevenir y detectarmuchas de las actividades ilícitasantes descritas y, así mismo, con-tener sus impactos. Ante un cre-ciente volumen de información porcentralizar y estudiar, y en aras de

    desempeñar una labor más efec-tiva, se hace necesario empleartécnicas de análisis de datos máscomplejas y dinámicas a la esta-dística, para lograr, finalmente, laextracción de conocimiento noimplícito. Concretamente, se trata

    de herramientas como la minería

  • 8/17/2019 Tecnicas de mineria de datos para la prevencion del LAFT (2).pdf

    10/35

    /9

    de datos, la cual apoya el procesode Knowledge Discovery in Data Ba-

     ses (KDD), que consiste en analizargrandes volúmenes de datos para

    generar conocimiento útil a favorde la toma de decisiones.

    El objetivo de este documento espresentar las principales técnicasde minería de datos (MD) utilizadaspara describir, clasificar y detectar

    irregularidades a partir de la crea-ción de perfiles “normales” tran-saccionales, facilitando el hallaz-go de patrones o reglas generales(incluye métodos de agrupación)en el registro histórico de las tran-sacciones. En contraste, los proce-dimientos de predicción describen

    las proyecciones obtenidas a partirde diversas metodologías1  parapronosticar el comportamientofuturo de las transacciones reali-zadas. En la actualidad se utilizanlas siguientes: Redes Neuronales,Árboles de Decisión y Bayes; asímismo, se emplean sistemas deaprendizaje autónomo para reco-nocimiento de patrones que par-ten de eventos históricos.

    Este documento consta de cuatrosecciones: primero, una contex-tualización sobre la aplicación de

    técnicas de minería de datos2

      en el

    desarrollo tecnológico de la UIAF,desde la implementación del mo-delo de gestión Sistémico, Amplioy Bidireccional (SAB), en los últi-

    mos casi cuatro años; continúa,con una presentación del procesode generación de conocimientoKDD, que abarca desde la obten-ción de información hasta la apli-cación del conocimiento adquiridopara la toma de decisiones, segui-

    da por una explicación de la apli-cación de técnicas de minería dedatos para la detección y preven-ción del lavado de activos (LA) y lafinanciación del terrorismo (FT); y,finalmente, ofrece unas conclusio-nes generales.

    1 Cárdenas Rojas, Liliam (2010). Análisis Predictivo para la Prevención de LA/FT Caso Bancolombia. Oficina de Naciones Unidas contra la droga y el delito,

    Cámara de Comercio de Bogotá, Embajada Británica. http://incp.org.co/Site/info/archivos/bancolombia.pdf.2 Para conocer el contexto histórico de la minería de datos, consultar, (2014) Aplicabilidad de la Minería de Datos y el Análisis de Redes Sociales en la Inteligencia

    Financiera. Bogotá: Unidad de Información y Análisis Financiero.

  • 8/17/2019 Tecnicas de mineria de datos para la prevencion del LAFT (2).pdf

    11/35

    /10

    EL MODELO SAB

    01Y LA MINERIA DE DATOS

  • 8/17/2019 Tecnicas de mineria de datos para la prevencion del LAFT (2).pdf

    12/35

    /11

    Con el diseño y aplicación en laUIAF del modelo de gestión Sis-témico, Amplio y Bidireccional

    (SAB)3, se han potencializado lascapacidades de análisis y respues-ta del Sistema Nacional Antilavadode Activos y Contra la Financiacióndel Terrorismo (ALA/CFT). En parti-cular, su componente “Amplio”, alincorporar nuevas fuentes de infor-

    mación, propende por la creaciónde más y mejores sensores queaporten datos sobre la evoluciónde las diferentes actividades eco-nómicas en el país, requiriendo, asímismo, una mayor capacidad deanálisis.

    En este contexto, bajo el mode-lo SAB, la UIAF crea la Plataformade Inteligencia Económica (PIE),basada en un conjunto de hard-ware y soware,  que se potencia-liza gracias a la integración de unequipo humano con las capacida-

    des necesarias para utilizar estasherramientas, implementandometodologías provenientes de lasMatemáticas, Estadística, Econo-mía, Finanzas y otras ciencias, conel fin de mejorar el entendimientode la amenaza y producir mejoresresultados en el Sistema ALA/CFT.

     

    En particular, las herramientas deminería de datos, objeto de estedocumento, facilitan la identifica-

    ción de patrones y tendencias. Asímismo, permiten identificar tran-sacciones atípicas, posiblementerelacionadas con los delitos men-cionados.

    La aplicación de estas técnicas le

    ha permitido a la UIAF optimizartiempo y recursos en el desarrollode la inteligencia financiera y, prin-cipalmente, robustecer la informa-ción y análisis que produce en apo-yo a las autoridades competentes,(como fuerzas del orden, FiscalíaGeneral de la Nación), entre otros

    agentes, de acuerdo con las posi-bilidades y restricciones legales decada uno. Lo anterior reafirma elcarácter Amplio y Bidireccional delmodelo SAB, al fortalecer la articu-lación entre los agentes del siste-ma, para mejorar la efectividad de

    sus resultados.

    La estructura del modelo SAB, des-de la perspectiva de la recoleccióny procesamiento de información,se resume en la Figura 1; tener estecontexto presente, ayudará a ilus-trar la utilidad de las técnicas de

    minería de datos abordadas en el

    3 Para conocer el contexto histórico, la estructura y los componentes del modelo SAB, consultar. Suárez Soto, Luis Edmundo (2014). Las Unidades de Inteligencia

    Financiera y el Sistema Antilavado de Activos y Contra la Financiación del Terrorismo. Un Nuevo Modelo de Gestión: Sistémico, Amplio y Bidireccional. Segunda

    edición. Bogotá: Unidad de Información y Análisis Financiero (UIAF). https://www.uiaf.gov.co/index.php?idcategoria=20569

  • 8/17/2019 Tecnicas de mineria de datos para la prevencion del LAFT (2).pdf

    13/35

    /12

    presente documento, el cual buscaofrecer una perspectiva detalladasobre la aplicación de las mismas yservir como punto de referencia deespecialistas del sistema nacionale internacional ALA/CFT (especial-

    mente, pero no exclusivamente,otras Unidades de Inteligencia Fi-nanciera - UIF), para quienes el co-nocimiento aquí desarrollado pue-

    de aportar a sus propias labores yefectividad.

    Figura 1. Modelo SAB –recolección, manejo y procesamiento de información

    *Volumen

    *Velocidad

    *Variedad*Veracidad

    Reportantes

    *Entidades del estado

    *Gremios*Organismos internacionales

    *Centros académicos

    Base de Datos

    Politemáticas

    Más y Mejores

    Sensores

    Inteligencia

    Financiera y

    Económica

    Plataforma de

    Inteligencia

    Económica

    *Análisis financiero

    *Análisis económico

    *Análisis matemáticoy Estadístico

    *Análisis visual

    *Entender el Pasado*Monitorear el Presente

    *Anticipar el Futuro

    Mejoras en la Calidad de dos Reportes:

    Crecimiento Continuo del Sistema ALA/CFT

    Más Capacidades

    de Detección y

    Judicialización:

    Mejores

    Resultados

    Mejor

    Entendimiento de

    la Amenaza

  • 8/17/2019 Tecnicas de mineria de datos para la prevencion del LAFT (2).pdf

    14/35

    /13

    PROCESO

    DE GENERACIÓN

    02DE CONOCIMIENTO O KDD

  • 8/17/2019 Tecnicas de mineria de datos para la prevencion del LAFT (2).pdf

    15/35

    /14

    El proceso de Knowledge Disco-very in DataBases (KDD) surte cua-tro pasos para la generación de

    conocimiento. Estas etapas pue-den ser recursivas, es decir, que seretorna a ellas una y otra vez (pro-ceso iterativo) a medida que se ob-tienen resultados preliminares querequieren replantear las variablesiniciales.

    A continuación se expone una for-ma de representar el proceso quepuede ser empleado por cualquier

    unidad de inteligencia financierapara la generación de conocimien-to sobre posibles operaciones deLA/FT (ver Figura 2).

    Figura 2. Proceso de KDD

    Bases de datos

    Nueva

    base de datos

    Selección deatributos

    Datos

    Preprocesados

    Datos

    Transformados

    Patrones

    Generación

    de conocimiento

    Limpieza base

    de datos

    Selección

    Procesamiento

    Transformación

    Minería

    de datos

    Interpretación y

    resultados

  • 8/17/2019 Tecnicas de mineria de datos para la prevencion del LAFT (2).pdf

    16/35

    /15

    En adelante se describen cada unade las etapas del proceso.

    Es la etapa más dispendiosa (re-quiere cerca del 90% del tiempo),como se describe en Fayyad et. al.

    (1996), ya que consiste en la reco-lección y preparación de los datos.En este proceso se comprende laproblemática asociada a la basede datos y se establecen objetivos.A la vez, se identifican las variablesque serán consideradas para laconstrucción del modelo de mine-

    ría de datos (MD).

    De acuerdo con el origen de cadatabla(s) de datos, se establece elmecanismo que se utilizará paraextraer la información requeridapor el modelo; también incide laopinión del experto, quien pue-de sugerir las series que explicanparcialmente la variable objetivo(clase).

    Integración de datos: Seanaliza si la base de datos requiereincluir o integrar información o va-

    riables que reposan en otras basesde datos, y que será relevante parael modelo de minería de datos. Sies necesario, se realiza un modelode entidad-relación entre tablas,el cual permite representar las en-tidades relevantes (representacio-nes gráficas y lingüísticas) de un

    sistema, así como sus propiedadese interrelaciones (Ávila, 2005).

    Reconocimiento y lim-pieza:  Se depura el conjunto dedatos respecto a valores atípicos,faltantes y erróneos (eliminaciónde ruido e inconsistencias).

    1. Selección de losdatos

    2. Pre procesa-miento de datos

  • 8/17/2019 Tecnicas de mineria de datos para la prevencion del LAFT (2).pdf

    17/35

    /16

      Exploración y limpiezade datos:  Aplicando técnicas deanálisis exploratorio de datos (es-tadístico, gráfico, entre otros), sebusca identificar la distribuciónde los datos, simetría, pruebas de

    normalidad y correlaciones exis-tentes entre los datos. En estaetapa es útil el análisis descriptivodel conjunto de datos (clustering y segmentación, escalamiento, re-glas de asociación y dependencia,reducción de la dimensión), iden-tificación de datos nulos, ruido y

    outliers, así como el uso de matri-ces de correlación (si las variablesson numéricas), diagramas (barras,histogramas, caja y bigotes), entreotras técnicas adecuadas de mues-treo.

     Transformación:

      Se es-tandariza o normaliza la infor-mación (colocarla en los mismostérminos de formato y forma). Laselección de la técnica a aplicar de-penderá del algoritmo que se utili-zará para la generación de conoci-miento. Las técnicas comúnmente

    utilizadas son: discretización, esca-

    lado (simple y multidimensional) yestandarización.

      Reducción de datos:  Se

    disminuye el tamaño de los datosmediante la eliminación de carac-terísticas redundantes.

    Selección/extracción de atributos:Se realiza un proceso de identi-ficación y selección de variables

    relevantes. Entre las técnicas másutilizadas para este proceso se en-cuentran, métodos basados en fil-tros y en wrappers (seleccionan losatributos en función de la calidaddel modelo de MD asociado a losatributos utilizados).

    Construcción de atributos:En caso que los datos se encuen-tren asociados a patrones comple-

     jos, se construye un atributo sen-cillo que facilite la interpretacióndel algoritmo. Se puede recurrir adiferentes técnicas, como la cons-trucción guiada por los datos, elmodelo o el conocimiento; finalizacuando se han analizado y selec-cionado las técnicas de extracciónde conocimiento que mejor seadapten al lote de datos.

    3. Selección decaracterísticas

  • 8/17/2019 Tecnicas de mineria de datos para la prevencion del LAFT (2).pdf

    18/35

    /17

    La minería de datos según Esteban(2008) et. al. (1991 / 1995), se puededefinir como un proceso no trivialde identificación válida, novedosa,potencialmente útil y entendiblede patrones comprensibles que se

    encuentran ocultos en los datos,que a su vez, facilita la toma dedecisiones y emplea técnicas deaprendizaje supervisado y no-su-pervisado. En la fase se define eltipo de investigación a realizar deacuerdo con las característicasde los atributos que conforman la

    base de datos, que pueden ser detipo descriptivo4  y/o predictivo. Elsiguiente paso es la elección y apli-cación de métodos de extracciónde conocimiento y la selección demedidas de validación para eva-luar el rendimiento y la precisióndel(os) método(s) escogido(s) porel analista de MD.

    A continuación se presentan lastécnicas empleadas, las cualespueden ser de tipo supervisado ono supervisado.

    • Identificación:  Eviden-ciar la existencia de objetos, even-tos y actividades en el conjunto dedatos (análisis factorial, discrimi-

    nante, regresivo, de correlaciones).

    • Clasificación:  Particionarlos datos de acuerdo a las clases oetiquetas asignadas al conjunto dedatos (ej: tablas de decisión, reglasde decisión, clasificadores basados

    en casos, redes neuronales, clasifi-cadores bayesianos y clasificado-res basados en acoplamientos).

    •  Agrupación:  Permitir lamaximización de similitudes y mi-nimización de diferencias entreobjetos, mediante la aplicación de

    algún criterio de agrupación.

    •  Asociación: Tener pre-sente que las reglas de asociaciónbuscan descubrir conexiones exis-tentes entre objetos identificados.

    • Predicción:  Descubrir elcomportamiento de ciertos atribu-tos en el futuro. (Regresión y seriestemporales, análisis discriminante,métodos bayesianos, algoritmosgenéricos, árboles de decisión, re-des neuronales).

    4 Identifica elementos comunes en los individuos analizados y determinan agrupaciones que surgen de manera natural, dados los datos disponibles.

    4. Mineríade Datos

  • 8/17/2019 Tecnicas de mineria de datos para la prevencion del LAFT (2).pdf

    19/35

    /18

    El proceso más importante en mi-nería de datos es el proceso delimpieza de los datos y definiciónde las variables. Si los datos no son

    correctos el modelo creado no ser-virá. Del mismo modo, la validez delos patrones descubiertos depen-de de cómo se apliquen al mundoreal o a las circunstancias. Aunqueintegra el conocimiento de dife-rentes fuentes como la Biología,

    Matemáticas, Estadística, CienciasSociales, entre otras, la minería dedatos presenta diferencias impor-tantes, por ejemplo, respecto a laestadística, la cual plantea una hi-pótesis y usa datos para probarlao refutarla. La eficacia de este en-foque se ve limitada por la creati-

    vidad del usuario para desarrollarlas diversas hipótesis, así como porla estructura del soware que uti-liza; por el contrario, la minería dedatos emplea una aproximaciónde descubrimiento para examinarsimultáneamente varias relacionesen bases de datos multidimensio-nales, identificando aquellas quese presentan con frecuencia (2008).

    Se analizan los resultados de lospatrones obtenidos en la fase deMD, mediante técnicas de visuali-zación y de representación, con elfin de generar conocimiento queaporte mayor valor a los datos. En

    esta fase se evalúan los resultadoscon los expertos y, si es necesario,se retorna a las fases anteriorespara una nueva iteración. Las ac-tividades mencionadas anterior-mente se resumen en la Figura 3.

    5. Interpretación yResultados

  • 8/17/2019 Tecnicas de mineria de datos para la prevencion del LAFT (2).pdf

    20/35

    /19

    Figura 3. Proceso de generación de conocimiento automático

    Selección de

    técnicas deMD:

    Det. Algoritmica yanálisis de

    resultados parciales.

    Integración

    reconocimiento ylimpieza de datos

    (analisis exploratorioy estadístico)

    Consolidación de

    conocimiento -Patrones de

    conocimiento

    Despliegue

    Resultados deData-set

    vs. algoritmos de

    validación (crossvalidation, split

    validation, otros)

    Evaluación

    Transformación de

    datos (discretizacion,normalización otros

    depende del conjuntode datos)

    Comprensión yanalisis de

    información

    Reducción de datosEliminación de datos

    redundantes, selección

    de atributos, clases yconjuntos.

    Construcción deatributos.

    Modelación

    Preprocesamiento

  • 8/17/2019 Tecnicas de mineria de datos para la prevencion del LAFT (2).pdf

    21/35

    /20

    03PARA LA DETECCIÓN Y PREVENCIÓNDEL LA/FT

     APLICACIÓN DE TÉCNICAS

    DE MINERÍA DE DATOS 

  • 8/17/2019 Tecnicas de mineria de datos para la prevencion del LAFT (2).pdf

    22/35

    /21

    Durante la última década, elcrecimiento de las bases de datos(BD) ha traído consigo la dificul-

    tad para analizar la información, loque ha llevado a desarrollar herra-mientas de análisis cada vez mássofisticadas y potentes que per-mitan la exploración y análisis deinformación, generando patronesde conocimiento no trivial válidos,útiles y comprensibles. Uno de es-tos casos es el de la informaciónrespecto a actividades criminalescomo el tráfico de drogas, sobornoy contrabando, delitos que gene-ran cuantiosas ganancias y derivanen un alto volumen de transaccio-nes, realizadas con un creciente

    nivel de complejidad para escon-der el origen ilícito de los recursos,dificultando así la detección de losentes de control. En este sentido, diversos países de-sarrollados han avanzado significa-tivamente en emplear sistemas de

    monitoreo online para la detecciónde operaciones de lavado de acti-vos y financiación del terrorismo(LA/FT). El Financial Artificial Inte-lligence System (FAIS) del FinancialCrime Enforcement Network (Fin-CEN) de Estados Unidos, integra el

    criterio de expertos con herramien-

    tas tecnológicas para identificaroperaciones potencialmente rela-cionadas con LA, configurando asíun sistema antilavado automático

    (ALM) (Senator et. al., 1995), el cualse entiende como una inversión alargo plazo para prevenir el ingresode dinero de origen ilícito a la eco-nomía legal.

    Varias técnicas de aprendizaje au-

    tomático han sido implementa-das para la detección de fraude yde lavado de activos, cuya tasa declasificación ha sido alta (verda-deros positivos y falsos positivosbajos), comparados con técni-cas tradicionales (Maimon et.al.,2003/2007/2010).

    Tomando el caso de los SistemasAntilavado de Activos y Contra laFinanciación del Terrorismo (ALA/CFT), los procedimientos aplicadosmás conocidos son:

    •  Algoritmos de agrupa-ción: También denominados pro-cedimientos de clustering, buscangenerar nuevos conjuntos a partirde los datos analizados, tales quelos individuos en un mismo gruposean lo más parecidos posible yque, simultáneamente, cada grupo

    sea lo más diferente posible. Estos

  • 8/17/2019 Tecnicas de mineria de datos para la prevencion del LAFT (2).pdf

    23/35

    /22

    métodos trabajan con la distanciaque hay entre cada elemento y elcentro de cada uno de los grupos,asignando el individuo al grupo al

    cual se encuentre más cerca.

    La complejidad de estos algorit-mos radica en la definición de uncriterio para establecer distanciaso similitudes y el procedimientorecursivo que se sigue para confor-

    mar cada uno de los grupos hastasatisfacer los criterios establecidos.Entre estos métodos se encuen-tran los jerárquicos, de partición,basados en densidades, modelos ycuadrículas y los computacionales(Maimon y Rokach, 2010). Ejemplo:para la detección de outliers. Sin

    embargo, estos métodos no pue-den identificar tendencias de com-portamiento sospechoso.

    • Reglas de asociación: Examinan todas las posibles com-binaciones de características con-tenidas en una base de datos ydeterminan la probabilidad deconfiguración de estos rasgos.Ejemplo: un individuo se puededefinir de acuerdo con el tipo depersona (natural o jurídica), sectoreconómico, grupo de frecuencia detransacciones y relación con una

    investigación de inteligencia eco-

    nómica. Las reglas de asociaciónevalúan todas las posibles combi-naciones de estas característicasy determinan las configuraciones

    más probables (Maimon y Rokach,2010).

    Los modelos predictivos de MDbuscan obtener los valores adqui-ridos por una variable de interésen situaciones no observadas (ej:

    el futuro), en función de los valoresque toman otras series relaciona-das. En el contexto de la lucha ALA/CFT, este tipo de algoritmos permi-te establecer los comportamientosdel individuo relacionados con su

     judicialización por una actividaddelictiva, o su inclusión en un caso

    de inteligencia financiera o reportede operación sospechosa (ROS). Acontinuación se describen algunosmétodos principales:

    •  Árboles de decisión:  Unárbol de decisión es un modelo declasificación que divide un conjun-to de análisis, buscando el mayorgrado de pureza entre los gruposresultantes5 . En todo árbol hay unnodo inicial denominado raíz, quecontiene la totalidad de la informa-ción. Este grupo se subdivide endos o más grupos denominados

    como internos, si continúan sub-

    5 Pureza se entiende como la presencia representativa de una de las características que toma la variable de interés (junto con la participación insignificante

    de la otra categoría).

  • 8/17/2019 Tecnicas de mineria de datos para la prevencion del LAFT (2).pdf

    24/35

    /23

    dividiéndose, o terminales u hojas,si no enfrentan más segmentación(Maimon y Rokach, 2010).

    En un árbol de clasificación cadanodo interno se parte de acuerdoa una función discreta sobre lasvariables utilizadas para el análisis,hasta llegar a los nodos termina-les donde se tiene la proporciónde individuos ubicados en cada

    6 Dependiendo del lenguaje de desarrollo empleado para la construcción del algoritmo, se denota su nombre. El C4.5 fue desarrollado en C++, mientras que

    J48 fue desarrollado en Java.

    una de las categorías que toma lavariable de interés. Se dispone devarios algoritmos para la genera-ción de árboles de decisión, entre

    los cuales se cuentan ID3 (intro-ducido por Quinlan en 1986), C4.5o J486 , CART, CHAID Random Treey QUEST (Safavin y Landgrebe,1991). En la Figura 4 se presenta unejemplo de la aplicación del C4.5.

    Figura 4. Ejemplo de aplicación de C4.5

    a4

    a3

    a3

    a4

    a3

    Iris-setosa

    Iris Versicolor

    Iris Virginica

    Iris Virginica

    Iris Virginica

    > 1.750

    < 1.750

    > 2.450 < 2.450

    > 5.350

    < 5.350

    > 4.950

    > 1.550 < 1.550

    < 4.950

    Iris Versicolor

  • 8/17/2019 Tecnicas de mineria de datos para la prevencion del LAFT (2).pdf

    25/35

    /24

    • Redes neuronales arti-ficiales (RNA):  Son un sistemade aprendizaje y procesamientoautomático inspirado en la forma

    como funciona el sistema nervio-so animal, que parte de la interco-nexión de neuronas que colaboranentre sí para generar un resultado.Esta salida o resultado proviene detres funciones (Maimon y Rokach,2010):

    1. Propagación (función de excita-ción): Es la sumatoria de cada en-trada multiplicada por el peso desu interconexión (valor neto). Si elpeso es positivo, la conexión se de-nomina excitatoria, y si es negativo,se denomina inhibitoria.

    2. Activación (modifica a la fun-ción anterior):  su existencia no esobligatoria, siendo en este caso lasalida, la misma función de propa-gación.

    3. Transferencia: se aplica al valordevuelto por la función de activa-ción. Se utiliza para acotar la sali-da de la neurona y generalmenteviene dada por la interpretaciónque se desee dar a dichas salidas.Algunas de las más utilizadas sonla función sigmoidea (para obte-

    ner valores en el intervalo [0,1]) y la

    tangente hiperbólica (para obtenervalores en el intervalo [-1,1]).

    Las RNA usualmente implemen-

    tadas dependen del patrón de co-nexiones que representan. Existenvarias formas de clasificarlas. Portopología se definen dos tipos bá-sicos:

    1. Feed-forward Neural Net (FNN): 

    Redes de propagación progresivaso acíclicas, en las que las señalesavanzan desde la capa de entradahacia la salida, sin presentar ciclosni conexiones entre neuronas dela misma capa. Pueden ser de dostipos: monocapa (ej. perceptrón,Adaline) y multicapa (ej. Percep-

    trón multicapa. Ver Figura 5).

    2. Recurrent Neural Network (RNN): Redes neuronales recurrentes, quepresentan al menos un ciclo cerra-do de activación neuronal (ej. El-man, Hopfield, máquina de Boltz-mann).

  • 8/17/2019 Tecnicas de mineria de datos para la prevencion del LAFT (2).pdf

    26/35

    /25

    Figura 5. RNA perceptrón multicapa

    Una segunda clasificación es enfunción del tipo de aprendizaje:

    1. Supervisado: Requieren un con- junto de datos de entrada previa-mente clasificado. Tal es el casodel perceptrón simple, la red Ada-line, el perceptrón multicapa, redbackpropagation,  y la memoriaasociativa bidireccional.

    2. No supervisado o autoorganiza-do:  No necesitan de un conjuntopreviamente clasificado. Tal es elcaso de las memorias asociativas,las redes de Hopfield, la máqui-na de Boltzmann y la máquina deCauchy, las redes de aprendizajecompetitivo, las redes de Koho-nen o mapas autoorganizados ylas redes de resonancia adaptativa

    (ART).

    12

    m

    1

    1

    3

    n

    Entrada 1

    Capa de

    entrada

    Capa

    oculta

    Capa de

    salida

    Entrada 2

    Entrada 3

    Salida

    Entrada n

    2

  • 8/17/2019 Tecnicas de mineria de datos para la prevencion del LAFT (2).pdf

    27/35

    /26

    3. Redes híbridas: Son un enfoquemixto en el que se utiliza una fun-ción de mejora para facilitar la con-vergencia. Ej: redes de base radial.

    4. Reforzado: Se sitúa a medio ca-mino entre el supervisado y el au-toorganizado.

    Una tercera clasificación está enfunción del tipo de entrada:

    1. Redes analógicas: Procesan da-tos de entrada con valores conti-nuos que normalmente son aco-tados. Ej. Hopfield, Kohonen y lasredes de aprendizaje competitivo.

    2. Redes discretas: Procesan datos

    de entrada de naturaleza discre-ta (habitualmente valores lógicosbooleanos). Ej: máquinas de Boltz-mann y Cauchy, y la red discreta deHopfield.

    • Naive Bayes: Este tipo dealgoritmo comparte elementos dela biología, inteligencia artificialy estadística. Están definidos porun grafo donde existen nodos querepresentan variables aleatorias

     junto con sus enlaces, los cualeshacen referencia a dependenciasentre las mismas. El éxito de las

    redes bayesianas se debe a su ha-

    bilidad para manejar modelos pro-babilísticos complejos al descom-ponerlos en componentes máspequeños y digeribles. Se utilizan

    para investigar relaciones entrevariables y para predecir y explicarsu comportamiento al calcular ladistribución de probabilidad con-dicional de una variable, dados losvalores de otras series de interés(Maimon y Rokach, 2010).

    • Máquinas de soportevectorial (MSV):  Son un conjun-to de algoritmos de aprendizajesupervisado, relacionados conproblemas de clasificación y regre-sión. En este contexto, el aprendi-zaje se relaciona con la estimación

    de funciones a partir de un conjun-to de entrenamiento, que permi-te etiquetar las clases y entrenaruna MSV para construir un mo-delo que prediga la clase de unanueva muestra. La MSV construyeun hiperplano(s) en un espaciohiperdimensional de máxima dis-tancia respecto a los puntos queestén más cerca del mismo. Estosmodelos están estrechamente re-lacionados con las RNA e incorpo-ra la función de Kernel (ej. radial,polinomial, neural, anova, epach-nenikov, combinación gaussiana y

    multicuadrática). Ver Figura 6.

  • 8/17/2019 Tecnicas de mineria de datos para la prevencion del LAFT (2).pdf

    28/35

    /27

    Las MSV y las RNA obtienen un me- jor resultado pero su costo com-putacional es muy alto, lo que sesuma a la complejidad asociada a

    su interpretación y al entrenamien-to requerido para obtener un buenresultado (LiuXuan, 2007; ShijiaGao, 2007; Shijia Gao y HuaiqingWang, 2006).  A continuación, uncomparativo entre las RNA y MSV(ver tabla 1):

    Figura 6. MSV 

    Tabla 1

    Fuente: LiuXuan, 2007; Shijia Gao, 2007; Shijia Gao y Huaiqing Wang, 2006

    H   i    p   e   r    p   l   a  n   o   Ó    p   t   i   m   o  

    Margen

    máximo

    x

    x

    RNA  MSV 

    Las capas ocultas transforman aespacios de cualquier dimensión.

    Kernels Transforma a espacios dedimensión muy alta.

    El espacio de búsqueda tiene

    múltiples mínimos locales.

    El espacio de búsqueda tiene

    un mínimo global.

    El entrenamiento es costoso. El entrenamiento esaltamente eficiente

    Se establece el número de nodos

    y capas ocultas.

    Se diseña la función de kernel y el

    parametro de coste C.

    Alto funcionamiento enproblemas típicos.

    Muy buen funcionamiento en pro-blemas tipicos.

    Extremadamente robusto para gene-

    ralización.Menos necesidad de emplear heurís-

    ticos en el entrenamiento.

  • 8/17/2019 Tecnicas de mineria de datos para la prevencion del LAFT (2).pdf

    29/35

    /28

    Yang, 2007), para dar mayor clari-dad al uso de las herramientas deminería de datos en la detecciónde operaciones de LA o FT. Los

    autores emplean el método de ár-boles de decisión para obtener re-glas que determinen el riesgo quetienen los diferentes tipos de clien-tes, de un banco comercial en undeterminado país, de estar involu-crados en una operación de lavado

    de activos7

    .  Los datos utilizadoscorresponden a una muestra alea-toria de 28 individuos provenientesde un universo de 160 mil clientes,para los cuales se utilizan cuatro de52 variables disponibles: industria,localización, tamaño del negocio yproductos abiertos con el banco.

    Las categorías de cada variable secalifican en tres niveles de acuerdocon el riesgo de LA que percibenlos gerentes de oficina: L (riesgobajo), M (riesgo medio) y H (riesgoalto). Por ejemplo, para la variableindustria:

     • Reglas de inducción:Considerando que los patronesocultos en grandes bases de datossuelen expresarse como un conjun-

    to de reglas, aquellas de inducciónse adaptan a los objetivos de la MDaun cuando son una de las técni-cas más representativas del apren-dizaje de máquina. Aquí, una reglasuele consistir de instrucciones deltipo Si (característica 1, atributo 1)

     y Si (característica 2, atributo 2) y… y Si (característica n, atributo n) en-tonces (decisión, valor), aunque sepueden encontrar reglas más com-plejas. La información utilizada poreste algoritmo es de carácter cate-górico, lo cual facilita en gran me-dida el procesamiento de los datos

    y el entendimiento de los resulta-dos. Los algoritmos utilizados porlas reglas de inducción son LEM1,LEM2 y AQ.

    A continuación se documentan losresultados presentados en (Wang y

    / Este enfoque difiere de otros más tradicionales donde el análisis se centra en las transacciones.

    Tabla 2

    Industria Riesgo LA 

    Manufacturera L

    Química L

    Comercio doméstico M

    Medicina M

    Tecnología M

    Comercio internacional H

    Comercio al por menor H

    Publicidad H

    Venta de Automóviles H

  • 8/17/2019 Tecnicas de mineria de datos para la prevencion del LAFT (2).pdf

    30/35

    /29

    Los autores utilizan el algoritmoID3 sobre una muestra de entrena-miento de 21 individuos y pruebanla validez de los resultados sobre

    los 7 individuos restantes. La repre-sentación gráfica de los resultadosobtenidos es la que se muestra enla Figura 7. En este caso, se eviden-cia que la industria es la variablemás relevante en la determinacióndel riesgo de LA del cliente (se ubi-

    ca al principio del árbol de deci-sión), seguida por localización ytamaño del negocio.

    Al observar el árbol de decisión seobserva que los clientes que per-

    tenecen a una industria con bajoriesgo de LA (rama marcada comoL originada en industria, número 1en la figura) y una localización con

    bajo o mediano riesgo (ramas mar-cadas como L y M, números 2 y 3en la figura) tienen un bajo riesgode estar involucradas en LA. Porel contrario, un individuo de unaindustria con alto riesgo (ramamarcada como H originada en in-

    dustria, número 1 en la figura) ytamaño de bajo riesgo (rama mar-cada como L originada en tamañodel negocio, número 4 en la figura),en realidad tienen un alto riesgo deLA.

    Figura 7. Resultados presentados en Wang y Yang, 2007.

    Bank

    products

    Location

    Bank

    products

    Bussines SizeBussines Size

    Industry

    Location

    1

    L M H

    L M HL M H

    L M H

    H

    L

    L

    M

    M

    H

    L M H

    2 3 4

    High Middle High

    High High

    Low

    LowLow

    Middle MiddleMiddle Middle

    MiddleMiddleMiddle

  • 8/17/2019 Tecnicas de mineria de datos para la prevencion del LAFT (2).pdf

    31/35

    /30

         C     O     N     C     L     U     S     I     O

         N     E     S

    Dado el incremento del volumende la información reportada a lasUnidades de Inteligencia Finan-ciera (UIF) y la complejidad de su

    análisis, son fundamentales lasherramientas computacionalesrobustas, que permitan extraer co-nocimiento no trivial y faciliten laidentificación de señales de alertay construcción y seguimiento deperfiles por sector, respecto a ca-

    sos atípicos u outliers.

    Específicamente, los resultadosobtenidos mediante la selección yaplicación de técnicas de mineríade datos pueden contribuir al pro-ceso de toma de decisiones en en-tidades especializadas en preven-

    ción, detección y/o administracióndel riesgo de LA/FT.

    Experiencias nacionales e interna-cionales demuestran que la adop-ción de técnicas de minería de da-tos para la prevención y detecciónde delitos ha arrojado importantesresultados respecto al hallazgo depatrones de comportamiento deanomalías.

  • 8/17/2019 Tecnicas de mineria de datos para la prevencion del LAFT (2).pdf

    32/35

    /31

         B     I     B

         L     I     O

         G     R     A

         F      Í     AÁvila Flores, José Salvador (2005).Sistema de Administración de Red(S.A.R.) Versión 1.0. UniversidadAutónoma del Estado de Hidalgo.Instituto de Ciencias Básicas e In-geniería. México.

    Blanco Cordero, Isidoro (1997).  Eldelito de blanqueo de capitales.Edit. Aranzadi.

    Fayyad, Usama, Piatetsky-Sha-piro, Gregory and Smyth, Pad-hraic (1996).  From Data Mining toKnowledge Discovery in Databa-

    ses. American Association for Arti-ficial Intelligence.

    Esteban Talaya, Águeda (2008). Principios de marketing. ESIC Edi-torial. Tercera edición.

    LiuXuan, Zhang Pengzhu (2007).An agent based Anti-Money Laun-dering system architecture for fi-nancial supervision. InternationalConference on Wireless Commu-nications, Networking and MobileComputing, Septiembre, pp: 5472-5475.

    FUENTES ACADÉMICAS

  • 8/17/2019 Tecnicas de mineria de datos para la prevencion del LAFT (2).pdf

    33/35

    /32

    Maimon, Oded and Rokach, Lior(2010).  Data Mining and Knowled-ge Discovery Handbook. SecondEdition. Springer.

    Ramírez Quintana, María José yHernández Orallo, José (2003).“Extracción Automática de Conoci-miento en Bases de Datos e Inge-niería del Soware”. España.

    Safavin, S.R., Landgrebe, D (1991). A survey of decision tree classifiermethodology [J]. IEEE Transac-tions on Systems, Man and Cyber-netics, Vol.21, No.3, pp.660-667.

    Senator, Ted E., Goldberg, Henry G.y Wooton, Jerry (1995). The finan-

    cial crimes enforcement network AIsystem (FAIS) identifying potentialmoney laundering from reports oflarge cash transactions[J], AI Maga-zine, Vol.16, No.4, pp. 21-39.

    Shijia Gao, Dongming Xu (2007).Conceptual modeling and develo-pment of an intelligent agent-as-sisted decision support systemfor anti-money laundering. Ex-pert System with Applications,doi:10.1016/j.eswa.

      , Huaiqing Wang,

    Yingfeng Wang (2006).  Intelligent

    Anti-money Laundering System.International Conference on Ser-vice Operation and Loqistics, andInformatics, SOLI’06, IEEE. pp: 851-

    856.

    Sudjianto, A., Nair, S., Yuan, M.,Zhang, A., Kern, D., Cela-Díaz, F.(2010). Statistical Methods for Figh-ting Financial Crimes. Technome-trics 52(1) 5–19.

    Virseda Benito, Fernando y RománCarrillo, Javier (sin año).  “Mineríade datos y aplicaciones”. Universi-dad Carlos III.

    Wang, Su-Nan and Yang, Jian-Gang(2007). A money Laundering Risk

    Evaluation Method Based on Deci-sion Tree. Proceedings of the sixthinternational conference on Machi-ne Learning and Cybernetics, HongKong.

    Yue, D., Wu, X. y Wang, Y. (2007). AReview of Data Mining-Based Fi-nancial Fraud Detection Research.In: 2007 Wireless Comm., Networ-king and Mobile Computing, IEEE.

    Zhang, Z. y Salerno, J. (2003). Appl-ying data mining in investigatingmoney laundering crimes. Disco-

    very and data mining (Mlc) 747.

  • 8/17/2019 Tecnicas de mineria de datos para la prevencion del LAFT (2).pdf

    34/35

    /33

    FUENTESINSTITUCIONALES

    Asobancaria (2011). Banco CentralRumiñahui. Construcción y calibra-ción de un índice multicriterio parala detección de Lavado de Activos.

    FUENTESELECTRÓNICAS

    Artículos estadísticos. http://www.estadistico.com/arts.html. Consul-tado el 14 de agosto de 2014.

    Cárdenas Rojas, Liliam (2010). Aná-lisis Predictivo para la Prevenciónde LA/FT Caso Bancolombia. Ofi-cina de Naciones Unidas contra ladroga y el delito, Cámara de Co-mercio de Bogotá, Embajada Bri-tánica.http://incp.org.co/Site/info/archi-

    vos/bancolombia.pdf. Consultadoel 14 de agosto de 2014.

    Pérez López, Cesar y Santín Gonzá-lez, Daniel (2007). Minería de datos:conceptos, técnicas y sistemas.https ://www.google.com .co/

    search?hl=es&tbo=p&tbm=bks&-

    q=isbn:8497324927. Consultado el14 de agosto de 2014.

    Cruz Arrela, Liliana (2010). Minería

    de datos con aplicaciones. Univer-sidad Nacional Autónoma de Méxi-co.

    http://132.248.9.195/ptd2010/abril/0656187/0656187_A1.pdf.Consultado el 14 de agosto de

    2014.

  • 8/17/2019 Tecnicas de mineria de datos para la prevencion del LAFT (2).pdf

    35/35

    Bogotá D C