Upload
william-medina-pereira
View
218
Download
0
Embed Size (px)
Citation preview
Hadoop!? HDInsight!? Hive??Uma introdução ao mundo Big Data para DBA’s
Bruno Feldman da Costa @feldmanB | facebook.com/[email protected]
About Me!
Bruno Feldman da Costa• Tech Leader DB/BI at White Cube• Twitter: @feldmanB• E-mail: [email protected]• Facebook: https://facebook.com/bfcosta• Blog: http://brunofeldman.wordpress.com
Agenda
Big Data? HadoopHDInsightMapReduceMapReduce com HIVE e PIGTransferindo dados com SQOOPWorkflows com OOZIEFerramentas: Powershell e SSIS
Big Data
“Big data are a collection of data sets so large and complex that it becomes difficult to process using on-hand database management tools or traditional data processing applications.” Tom White, Hadoop Definitive Guide
“In pioneer days they used oxen for heavy pulling, and when one ox couldn't budge a log, they didn't try to grow a larger ox. We shouldn't be trying for bigger computers, but for more systems of computers.” Grace Hooper
Big Data
Typified by the “3 V’s”:• Volume – Huge amounts of data to process• Variety – A mixture of structured and unstructured data• Velocity – New data generated extremely frequently
Big Data
Em 1990 um HD típico armazenava 1,4GB com uma taxa de transferência de 4,4MB/s, ou seja, podia ler todo o disco em uns 5 minutos.Uns 20 anos depois, os discos armazenam 1TB mas lêem a 100MB/s, fazendo a leitura de todo o disco em 2h30min.E se dividíssemos os dados entre vários discos, armazenando uma porção do dado em cada?
Hadoop
Plataforma que fornece:• Um sistema de arquivos
distribuído (HDFS) que armazena os dados entre vários servidores.
• Um meio para armazenar/consultar (MapReduce/ YARN) esses dados distribuídos.
HDFS
Name Node Data Nodes
Hadoop Cluster
Blocos de dados redundantes, distribuídos entre os nós do cluster.Falhas nos nós são esperadas!
HDFS – Hadoop Distributed File System
8 |
Hadoop Ecosystem
Distribuições Hadoop• Cloudera CDH• Hortonworks Data Platform (HDP)• MapR
Microsoft Azure HDInsight
Microsoft Azure HDInsight
Implementação do HDP no ambiente do Azure• VM’s com Windows Server (ou Linux) com HDP• WebHDFS (Azure Blob Storage)• Suporte a Powershell e SSIS• Escalabilidade• Rápida implementação
DEMO
Criando um cluster HDInsight
MapReduce
Dado dividido entre os data nodes
Cada nó faz o “MAP” gerando o par “KEY/Value”
O REDUCE faz a agregação.
MapReduce
MAP
REDUCE
DEMO
Executando um Job Map Reduce
HIVE
Muito legal esse Map Reduce!Mas…• Não sei programar em Java• Não sei programar em Python• Não sei programar em C#• Não sei programar!!!!
HIVE
Sou DBA, só entendo de TSQL, quero criar meus jobs apenas utilizando queries, como já faço no SQL Server.O HIVE faz isso!!!
HIVE
Sou DBA, só entendo de TSQL, quero criar meus jobs apenas utilizando queries, como já faço no SQL Server.O HIVE faz isso!!!A query em HiveQL é “traduzida” para um JOB MapReduce
DEMO
Usando o Hive
PIG
O PIG realiza uma série de transformações no dado através de statements Pig Latin.Cada comando Pig Latin vai transformando o dado até chegar no resultado esperado.Ao rodar os comandos DUMP ou STORE o Job MapReduce é executado.
DEMO
Usando o PIG
SQOOP
O SQOOP (SQL-HADOOP) permite a transferência bi-direcional de dados entre banco de dados (compatíveis com jdbc) e clusters Hadoop.
DEMO
Usando o SQOOP
OOZIE
Engine de Workflow para as ações realizadas no cluster Haddop:• Hive• Pig• Sqoop• E outras…
DEMO
Usando o OOZIE
OOZIE / SQOOP
O OOZIE e o SQOOP até que são legais…
Mas o SSIS é MUITO melhor!!
Quer aprender mais?
Books:• Hadoop: The Definitive Guide - Tom White• Microsoft Big Data Solutions - Adam Jorgensen and James
Rowland-Jones• Pro Microsoft HDInsight: Hadoop on Windows - Debarchan SarkarCursos:• EDX:
DAT202.1x Processing Big Data with Hadoop in Azure HDInsight
DÚVIDAS?
OBRIGADO!