Big Data Open Source com Hadoop

  • View
    234

  • Download
    4

Embed Size (px)

DESCRIPTION

Big Data Open Source com Hadoop - Ministrada por Marcio Junior Vieira no FLISOL 2014 - Curitiba

Text of Big Data Open Source com Hadoop

  • 1. Big Data Open Source com Hadoop Palestrante: Marcio Junior Vieira marcio@ambientelivre.com.br Realizao:

2. Marcio Junior Vieira 14 anos de experincia em informtica, vivncia em desenvolvimento e anlise de sistemas de Gesto empresarial. Trabalhando com Software Livre desde 2000 com servios de consultoria e treinamento. Graduado em Tecnologia em Informtica(2004) e ps-graduado em Software Livre(2005) ambos pela UFPR. Palestrante em diversos Congressos relacionados a Software Livre tais como: CONISLI, SOLISC, FISL, LATINOWARE, SFD, JDBR, Campus Party, Pentaho Day. Fundador da Ambiente Livre. 3. Ecosistema Ambiente Livre 4. Colaboraes 5. Big Data - Muito se fala... 6. 7. Big Data um novo conceito se consolidando. Grande armazenamento de dados e maior velocidade 8. Os 4 V's Velocidade , Volume , Variedade e Valor 9. Volume Modelos de Persistncia da ordem de Petabytes, zetabytes ou yottabyte(YB). Geralmente dados no estruturados. Um Zettabyte corresponde a 1.000.000.000.000.000.000.000 (10) ou 1180591620717411303424 (2 elevado a 70) Bytes. 10. Velocidade Processamento de Dados Armazenamento Analise de Dados 11. Variedade Dados semi-estruturados Dados no estruturados Diferentes fontes Diferentes formatos 12. Valor Tomada de Deciso Benefcios Objetivo do Negcio. 13. O momento agora 14. Onde podemos utilizar Big Data ? ? 15. Sistema de Recomendao WWW em geral 16. Redes Sociais 17. Analise de Risco Crdito Seguros Mercado Financeiro 18. Dados Espaciais Clima Imagens Trafego Monitoramento 19. Big Data X BI Big Data e uma evoluo do BI, devem caminhar juntos Data Warehouses so necessrios para armazenar dados estruturados Previso: BI Casos especficos Big Data Analise geral 20. Profissionais Novo profissional: Cientista de Dados 21. Competncias do Cientista de dados Fonte http://www.datascientist.com.br/Artigo.aspx?ID=Competencia_de_um_cientista_de_dados_um_breve_exemplo_de_uma_analise_de_redes 22. De onde ? 23. Ferramentas de Big Data 24. Hadoop O Apache Hadoop um projeto de software open-source escrito em Java. Escalvel, confivel e com processamento distribudo. Filesystem Distribuido. Inspirado Originalmente pelo GFS e MapReduce da Google ( Modelo de programao MapReduce) Utiliza-se de Hardware Comum ( Commodity cluster computing ) Framework para computao distribuda infraestrutura confivel capaz de lidar com falhas ( hardware, software, rede ) 25. Motivaes Atuais Grande quantidade ( massiva ) de dados Dados no cabem em uma mquina Demoram muito para processar de forma serial Mquinas individuais falham Computao nas nuvens Escalabilidade de aplicaes Computao sob demanda 26. A origem do Nome Segundo Doug Cutting, criador do Hadoop O nome que meu filho deu a um elefante amarelo de pelcia. Curto, relativamente fcil de soletrar e pronunciar, sem sentido, e no usado em outro lugar: esses so os meus critrios de nomeao 27. Ecosistema 28. O que HDFS Hadoop Filesystem Um sistema de arquivos distribudo que funciona em grandes aglomerados de mquinas de commodities. 29. Caractersticas do HDFS Inspirado em GFS Projetado para trabalhar com arquivos muito grandes e grandes volumes Executado em hardware comum Streaming de acesso a dados Replicao e localidade 30. HDFS Projetado para escalar a petabytes de armazenamento, e correr em cima dos sistemas de arquivos do sistema operacional subjacente. 31. Fonte:http://hadoop.apache.org/docs/r1.2.1/hdfs_design.html 32. HDFS - Replicao Dados de entrada copiado para HDFS dividido em blocos e cada blocos de dados replicado para vrias mquinas 33. MapReduce um modelo de programao desenhado para processar grandes volumes de dados em paralelo, dividindo o trabalho em um conjunto de tarefas independentes 34. Programao Distribuda 35. MapReduce Voc especifica o map (...) e reduce (...) funes map = (lista (k, v) -> lista (k, v)) reduce = (k, lista (v) -> k, v) O Framework faz o resto Dividir os dados Execute vrios mappers sobre as divises Embaralhar os dados para os redutores Execute vrios redutores Guarde os resultados finais 36. MapReduce Map Reduce 37. Modos de Operao Standalone ( Local ) Pseudo-distributed Fully-distributed 38. Outros componentes PIG - linguagem de fluxo de dados e ambiente de execuo para explorar grandes conjuntos de dados.Executado no HDFS e grupos MapReduce. Hive - Armazm de dados (datawarehouse) distribudos. Gerencia os dados armazenados no HDFS e fornece uma linguagem de consulta baseada em SQL para consultar os dados. Hbase Banco de dados orientada por colunas distribuda. HBase usa o HDFS por sua subjacente de armazenamento e suporta os clculos de estilo lote usando MapReduce e ponto consultas (leituras aleatrias). 39. Outros componentes ZooKeeper Servio de coordenao altamente disponvel e distribudo. Fornece funes de bloqueios distribudos que podem ser usados para a construo de aplicaes distribudas. Sqoop Ferramenta para a movimentao eficiente de dados entre bancos de dados relacionais e HDFS. Mahout - Aprendizagem de mquina escalvel, de fcil uso comercial para a construo de aplicativos inteligentes 40. Distribuies Hadoop Open Source Apache Comercial Open Source - Cloudera - HortoWorks - MapR - AWS MapReduce - Microsoft HDInsight (beta) 41. Possibilidades de Uso DataWareHouse Business Intelligence Aplicaes analticas Mdias Sociais Sugesto de Compras Analise preditiva Compras Coletivas Recomendaes 42. Modelo tradicional de Uso 43. Empresa Usando Hadoop Amazon Facebook Google IBM Yahoo Linkedin Joost Last.fm New York Times PowerSet Veoh Twitter Ebay 44. Hadoop no Brasil 45. Contatos e-mail: marcio @ ambientelivre.com.br http://twitter.com/ambientelivre @ambientelivre @marciojvieira Blog blogs.ambientelivre.com.br/marcio Facebook/ambientelivre 46. Convite Pentaho Day 17 de Maio SP FTSL - 18 e 19 de Setembro Software Freedom Day 20 de Setembro.