Hadoop: MapReduce para procesar grandes cantidades de datos

View
3.377
Download
0
Category

Technology

Preview:

Citation preview

HadoopMapReduce para procesar grandes

cantidades de datos

Raúl Ochoa

Antecedentes

AntecedentesSistemas Distribuidos

AntecedentesSistemas DistribuidosProgramación Funcional

AntecedentesSistemas DistribuidosProgramación FuncionalÁlgebra

AntecedentesSistemas DistribuidosProgramación FuncionalÁlgebraJava

AntecedentesSistemas DistribuidosProgramación FuncionalÁlgebraJavaGoogle

AntecedentesSistemas DistribuidosProgramación FuncionalÁlgebraJavaGoogleCrédito de Libre Elección

ContenidosIntroducción a HadoopMapReduceHadoop Distributed File SystemMapReduce + HDFSSubproyectosDemo

Introducción

IntroducciónObjetivosBaseCaracterísticasHistoriaPowered byComparación con otros sistemas

ObjetivosOpen SourceComputación distribuidaProcesar grandes cantidades de datos

BaseMapReduceGFS

CaracterísticasEscalableEconómicoEficienteFiable

HistoriaCreador: Doug Cutting2002-2004: Nutch2004-2006: GFS & MapReduce Papers2006-2008: Yahoo!

http://wiki.apache.org/hadoop/PoweredBy

ComparaciónRDBMSGrid ComputingSETI@home et al.

ContenidosIntroducción a HadoopMapReduceHadoop Distributed File SystemMapReduce + HDFSSubproyectosDemo

MapReduce

MapReduceComputación distribuida

DEAD LOCK

MapReduceComputación distribuidaProgramación Funcional

MapReduceComputación distribuidaProgramación FuncionalFunciones Map y Reduce

Map

Input

Output

map()

Reduce

Input

Output

reduce()

MapReduceComputación distribuidaProgramación FuncionalFunciones Map y Reducemap() y reduce() en Python

ContenidosIntroducción a HadoopMapReduceHadoop Distributed File SystemMapReduce + HDFSSubproyectosDemo

HDFS

HDFSSuposiciones y ObjetivosArquitecturaNameNodesDataNodesOtras características

Suposiciones y ObjetivosEl hardware fallaGrandes cantidades de datosMáquinas comunesMover la computación, no los datosPortabilidad

Arquitectura

ArquitecturaEspacio de nombres únicoEscribir una vez, leer variasArchivos divididos en bloquesAcceso directo a los datos

Arquitectura

NameNodeControla el espacio de nombresFicheros <> BloquesBloques <> DataNodesConfiguración de clusterMetadata

NameNode MetadataEn memoriaFicherosAtributos: creación, factor de replica.BloquesBloques <> DataNodesLOG

Arquitectura

DataNodeServidor de bloquesReportes al NameNodeEnvió de datos a otros DataNodes

Arquitectura

Otras característicasDisposición de los bloquesHeartbeatsReplicaciónValidación de los datosBalanceoInterfaz web

Otras característicasDisposición de los bloquesHeartbeatsReplicaciónValidación de los datosBalanceoInterfaz de acceso

Fallos en NameNodeSingle Point of FailureLOGNameNode secundario

Lectura/EscrituraLecturaEscritura

Más HDFSHDFS APIsMountableHDFS

ContenidosIntroducción a HadoopMapReduceHadoop Distributed File SystemMapReduce + HDFSSubproyectosDemo

MapReduce + HDFS

Nuevos componentesJobTrackerTaskTracker

Cliente JobTracker

TaskTracker

map

InputFormar

combine()reduce()

regionregion

ram TaskTracker

read

sort

reduce()

InputFiles

split

OutputFile

TaskTracker

regionregion

OutputFormar

Cliente JobTracker

TaskTracker

map

InputFormar

combine()reduce()

regionregion

ram TaskTracker

read

sort

reduce()

InputFiles

split

OutputFile

TaskTracker

regionregion

OutputFormar

Cliente JobTracker

TaskTracker

map

InputFormar

combine()reduce()

regionregion

ram TaskTracker

read

sort

reduce()

InputFiles

split

OutputFile

TaskTracker

regionregion

OutputFormar

Cliente JobTracker

TaskTracker

map

InputFormar

combine()reduce()

regionregion

ram TaskTracker

read

sort

reduce()

InputFiles

split

OutputFile

TaskTracker

regionregion

MapTask

OutputFormar

Cliente JobTracker

TaskTracker

map

InputFormat

combine()reduce()

regionregion

ram TaskTracker

read

sort

reduce()

InputFiles

split

OutputFile

TaskTracker

regionregion

MapTask

OutputFormar

Cliente JobTracker

TaskTracker

map

InputFormar

combine()reduce()

regionregion

ram TaskTracker

read

sort

reduce()

InputFiles

split

OutputFile

TaskTracker

regionregion

MapTask

OutputFormar

Cliente JobTracker

TaskTracker

map

InputFormar

combine()reduce()

regionregion

ram TaskTracker

read

sort

reduce()

InputFiles

split

OutputFile

TaskTracker

regionregion

MapTask

OutputFormar

Cliente JobTracker

TaskTracker

map

InputFormar

combine()reduce()

regionregion

ram TaskTracker

read

sort

reduce()

InputFiles

split

OutputFile

TaskTracker

regionregion

MapTask

OutputFormar

Cliente JobTracker

TaskTracker

map

InputFormar

combine()reduce()

regionregion

ram TaskTracker

read

sort

reduce()

InputFiles

split

OutputFile

TaskTracker

regionregion

MapTask

OutputFormar

Cliente JobTracker

TaskTracker

map

InputFormar

combine()reduce()

regionregion

ram TaskTracker

read

sort

reduce()

InputFiles

split

OutputFile

TaskTracker

regionregion

MapTask

OutputFormar

Cliente JobTracker

TaskTracker

map

InputFormar

combine()reduce()

regionregion

ram TaskTracker

read

sort

reduce()

OutputFormar

InputFiles

split

OutputFile

TaskTracker

regionregion

Cliente JobTracker

TaskTracker

map

InputFormar

combine()reduce()

regionregion

ram TaskTracker

read

sort

reduce()

OutputFormar

InputFiles

split

OutputFile

TaskTracker

regionregion

Hadoop StreamingUtilidadSencillezPensar en tuberías (à la POSIX)Prototipado rápidoNo JavaDemo

ContenidosIntroducción a HadoopMapReduceHadoop Distributed File SystemMapReduce + HDFSSubproyectosDemo

Subproyectos

Core

MapReduce HDFS

Pig

ZooKeeper

Hive HBase

Pig

ZooKeeper

Hive HBase

Core

MapReduce HDFS

ZooKeeper

Core

MapReduce HDFS

Pig

ZooKeeper

Hive HBase

ZooKeeperA. distribuidas: fallos parcialesSimpleExpresivoAlta disponibilidadLoosely coupledAlto rendimiento

Pig

Core

MapReduce HDFS

Pig

ZooKeeper

Hive HBase

PigLenguaje de script: Pig LatinNivel de abstracciónOperaciones y transformacionesMapReduce JobsNo es SQL

Hive

Core

MapReduce HDFS

Pig

ZooKeeper

Hive HBase

HiveAnálisis de datosDatos estructuradosQuery Language (à la SQL)No es un sistema Real Time

HBase

Core

MapReduce HDFS

Pig

ZooKeeper

Hive HBase

HBaseBase de DatosDistribuidaOrientada a columnasBasada en BigTable

Contenidos• Introducción a Hadoop• MapReduce• Hadoop Distributed File System• MapReduce + HDFS• Subproyectos• Demo

Demo

Documentación

• Hadoop Homepagehttp://hadoop.apache.org/

• Hadoop Wikihttp://wiki.apache.org/hadoop/

Libros

• Hadoop: The Definitive GuideTom White – O’Reilly (Julio 2009)http://oreilly.com/catalog/9780596521998/

• Hadoop in ActionChuck Lam y James Warren – Manning (Octubre 2009)http://www.manning.com/lam/

• Pro HadoopJason Venner – Apress (No publicado)http://www.apress.com/book/view/1430219424

Preguntas?

Créditos imágenes

• Deadlock – Unknown Licensevia reddit: http://www.reddit.com/r/programming/comments/65pcg/deadlock_traffic_version_pic

Gracias

Raúl Ochoarochoaf@gmail.com

Recommended

Clusters Data Processing on Large MapReduce: Simplified ...bit/ensino/mo809_1s13/mapreduce.pdf · MapReduce tem sido bastante utilizado pelo Google para diferentes propósitos É

Documents

6 UM + 8 C + 6 D + 1U · expandida aproximando cantidades; comparando y ordenando números naturales en este ámbito numérico; dando ejemplos de estos números naturales en contextos

Documents

T E S I S200.23.113.51/pdf/19531.pdf · Son unidades estructurales del sistema nervioso, y forman una compleja red celular, cuya principal función es procesar la información, de

Documents

Scalable High-Performance Platform for e-Scienceei06090/carlos_carvalheira_a...MapReduce: Simplied Data Processing on Large Clusters. In Proc of 6th Symposium on Operating Systems

Documents

Uma breve história do desenvolvimento de sistemas de ... · UML 1997. MapReduce 2004. Orientação a Serviços Aplicações Monolíticas Aplicações Distribuídas SOA 2005. Smartphones

Documents

ANÁLISE DE ESCALABILIDADE DE APLICAÇÕES … · ANÁLISE DE ESCALABILIDADE DE APLICAÇÕES HADOOP/MAPREDUCE POR MEIO DE SIMULAÇÃO Fabiano da Guia Rocha1,2, Hermes Senger2 1 Instituto

Documents

MapReduce - MCZA020-13 - Programação Paralela

Documents

DIAGNÓSTICO DE SISTEMAS CONVECTIVOS DE MESOESCALA … · realizar caracterizaciones del tipo de lluvia, tipo de nube, altura de la cima de las nubes, cantidades volumétricas de

Documents

Chaordic - BigData e MapReduce - Robson Motta

Internet

MapReduce - renatogbj.files.wordpress.com · Hadoop streaming. Introdução Modelo de programação para processamento de dados. Inerentemente paralelo. Análise de dados de larga

Documents

Batch Processing - inf.ufpr.br · O MapReduce é um modelo de programação paralela; Possuí características parecidas com as ferramentas Unix; Principal diferença é por seu processo

Documents

Metodología para medir DOCUMENTO DE DEBATE gastos ... · - Créditos: Cantidades que se permite rebajar de los impuestos. - Tasas reducidas: Alícuotas de impuestos inferiores a

Documents

CONTAMINACIÓN A MINA DE TOURO-O PINO, DE …adega.gal/web/media/documentos/mina_Touro_def.pdf · A partir de 2000, a mina utilizouse para o depósito de enormes cantidades de residuos,

Documents

Lab 2 MapReduce e o Console Web - ibm.com fileLab 2 –MapReduce e o Console Web ... onde “/input” diz onde estão os arquivos e “output” informa o ... 9 ©2011 BigDataUniversity.com

Documents

Clustering Very Large Multi-dimensional Datasets with ...ukang/papers/BowKDD2011.pdf · Clustering Very Large Multi-dimensional Datasets with MapReduce Robson L. F. Cordeiro CS Department

Documents

Aplicação da Técnica Mapreduce na Modelagem de Algoritmos Genéticos para o “Problema do Caixeiro Viajante”

Technology

ESTUDIO DELRH PORMEDIO DEORBITALES … · tructura electr6nica del cúmulo con 13 áto~s de radio en un arreglo octaé ... cantidades del metal cristalino. Del conjlll1tocompleto

Documents

Hadoop: MapReduce para procesar grandes cantidades de datos

Technology

Clusters Data Processing on Large MapReduce: Simplified ...bit/ensino/mo809_1s13/mapreduce.pdf · MapReduce tem sido bastante utilizado pelo Google para diferentes propósitos É

6 UM + 8 C + 6 D + 1U · expandida aproximando cantidades; comparando y ordenando números naturales en este ámbito numérico; dando ejemplos de estos números naturales en contextos

T E S I S200.23.113.51/pdf/19531.pdf · Son unidades estructurales del sistema nervioso, y forman una compleja red celular, cuya principal función es procesar la información, de

Scalable High-Performance Platform for e-Scienceei06090/carlos_carvalheira_a...MapReduce: Simplied Data Processing on Large Clusters. In Proc of 6th Symposium on Operating Systems

Uma breve história do desenvolvimento de sistemas de ... · UML 1997. MapReduce 2004. Orientação a Serviços Aplicações Monolíticas Aplicações Distribuídas SOA 2005. Smartphones

Construindo Soluções Científicas com Big Data & MapReduce

Avaliação de desempenho de aplicações distribuídas através da análise de tráfego de rede utilizando MapReduce - Thiago

Mineração de Dados Usando MapReduce

ANÁLISE DE ESCALABILIDADE DE APLICAÇÕES … · ANÁLISE DE ESCALABILIDADE DE APLICAÇÕES HADOOP/MAPREDUCE POR MEIO DE SIMULAÇÃO Fabiano da Guia Rocha1,2, Hermes Senger2 1 Instituto

MapReduce - MCZA020-13 - Programação Paralela

DIAGNÓSTICO DE SISTEMAS CONVECTIVOS DE MESOESCALA … · realizar caracterizaciones del tipo de lluvia, tipo de nube, altura de la cima de las nubes, cantidades volumétricas de

Chaordic - BigData e MapReduce - Robson Motta

MapReduce - renatogbj.files.wordpress.com · Hadoop streaming. Introdução Modelo de programação para processamento de dados. Inerentemente paralelo. Análise de dados de larga

Batch Processing - inf.ufpr.br · O MapReduce é um modelo de programação paralela; Possuí características parecidas com as ferramentas Unix; Principal diferença é por seu processo

Metodología para medir DOCUMENTO DE DEBATE gastos ... · - Créditos: Cantidades que se permite rebajar de los impuestos. - Tasas reducidas: Alícuotas de impuestos inferiores a

CONTAMINACIÓN A MINA DE TOURO-O PINO, DE …adega.gal/web/media/documentos/mina_Touro_def.pdf · A partir de 2000, a mina utilizouse para o depósito de enormes cantidades de residuos,

Lab 2 MapReduce e o Console Web - ibm.com fileLab 2 –MapReduce e o Console Web ... onde “/input” diz onde estão os arquivos e “output” informa o ... 9 ©2011 BigDataUniversity.com

Clustering Very Large Multi-dimensional Datasets with ...ukang/papers/BowKDD2011.pdf · Clustering Very Large Multi-dimensional Datasets with MapReduce Robson L. F. Cordeiro CS Department

Aplicação da Técnica Mapreduce na Modelagem de Algoritmos Genéticos para o “Problema do Caixeiro Viajante”

ESTUDIO DELRH PORMEDIO DEORBITALES … · tructura electr6nica del cúmulo con 13 áto~s de radio en un arreglo octaé ... cantidades del metal cristalino. Del conjlll1tocompleto