Arquitetura para solução Big Data – open source

  • View
    181

  • Download
    3

Embed Size (px)

DESCRIPTION

A apresentação tem como objetivo demonstrar uma arquitetura para solução Big Data utilizando componentes Open Source, a mesma foi apresentada no TDC 2014 em Porto Alegre.

Text of Arquitetura para solução Big Data – open source

  • 1. Arquitetura parasoluo Big DataOpenSourceFelipe RenzTDC 2014 Porto Alegrefjrenz@gmail.com@feliperenz

2. CAMADAS DA SOLUOFonte de DadosIngestoInfraestrutura do HadoopArmazenamento do HadoopPlataforma de Gesto do HadoopSeguranaVisualizaoMonitoramento 3. CAMADA DE FONTE DE DADOSDados Estruturados :Banco de dados Relacionais (MySQL, PostgreSQL)Dados No-Estruturados:Imagens, textos, vdeos, sensores, redes sociais 4. ARQUITETURA SOLUO BIG DATA 5. CAMADA INGESTOA camada de Ingesto extremante importante, ela possui a obrigao de limpar osrudos das informaes e entregar os dados para a camada de armazenamento. 6. ARQUITETURA SOLUO BIG DATA 7. CAMADA INFRAESTRUTURA DO HADOOP Recursos de Hardware Suporta a camada de Armazenamento Infraestrutura fsica robusta, barata e confivel para garantir aoperao e escalabilidade da arquitetura de dados. Baseado em um modelo de computao distribuda.Disponibilizao dos Recursos: Servio de Nuvem Virtualizados Cluster de Maquinas; 8. ARQUITETURA SOLUO BIG DATA 9. CAMADA ARMAZENAMENTO DO HADOOP Tolerncia a falhas, Paralelizao de algoritmos, Processamento distribudo, Larga escala trabalha com Pb de dados .NoSQL. Alta velocidade, 10. CAMADA ARMAZENAMENTO DO HADOOPHadoop no precisa substituir DW.Pode atuar como integrador do DW.A partir de diferentes fontes, agregando ao HDFS os dados antes detransformar e entregar ao DW. 11. ARQUITETURA SOLUO BIG DATA 12. CAMADA DA PLATAFORMA DE GESTO DO HADOOPPrincipais problemas a serem resolvidos:Processar gigantescas quantidades de dados de maneira eficiente,Custo-benefcio apropriado,Tempo satisfatrio.Fornece as ferramentas/ linguagens de consulta para acessar os bancos de dados NoSQL,Executa consultas e gerencia as camadas inferiores, por meio das linguagens Pig e Hive. 13. ARQUITETURA SOLUO BIG DATA 14. CAMADA DE SEGURANAImportante + Preocupante = Privacidade Hbitos de compra de clientes. Dados demogrficos de doenas genticas. Histrico mdico de pacientes.Performance, Escalabilidade e Funcionalidade Autenticar utilizando protocolos seguroscomo o Kerberos, Permitir a criptografia de arquivos por camadas, Garantir que toda a comunicao entre os servidores distribudos seja segura, 15. ARQUITETURA SOLUO BIG DATA 16. CAMADA DE VISUALIZAOGrande volume pode levar a sobrecarga de informao,Deve ser incorporada numa fase inicial do projeto,Trabalha com os dados j consolidados nas camadas anteriores,Auxiliar os analistas de dados e cientistas a obter insights,Analise tempo real deve utilizar motores e arquitetura orientada a eventos.http://gephi.github.io/www.r-project.org 17. CAMADA DE VISUALIZAOhttp://matplotlib.org/ 18. ARQUITETURA SOLUO BIG DATA 19. CAMADA DE MONITORAMENTOGrande nmero de clusters utilizados na soluo de Big Data,Garantir que os acordos de nvel de servio estejam sendo atendidos,Dever ser capaz de lidar com aglomerado distribudo de servidores,Suportar diferentes sistemas operacionais,Trabalhar com diferentes tipos de hardware,Capaz de se comunicar com os protocolos de alto nvel como o XML.Alm do desempenho e paralelismo deve prover o armazenamento evisualizao de dados do monitoramento. 20. ARQUITETURA SOLUO BIG DATA 21. ARQUITETURA SOLUO BIG DATA 22. YARN YARN significa "Yet Another Resources Negotiator" Sua responsabilidade prover a reduo da dependncia doMapReduce e outras ferramentas do Hadoop. Criando uma camada de abstrao para adicionar ou retirar componentes,exemplo interfaces de programao.Sqoop Tem como responsabilidade fornecer a conectividade para mover dados entre bancos de dados relacionais, bando dedados de data warehouses e Hadoop.MapReduce Modelo de programao para sistemas distribudos, com processamento paralelo, o processamento divido emduas etapas, uma chamada Map, que consiste no mapeamento e validao dos dados e a outra chamada Reduce que recebe osdados da fase do Map e para gerar o resultado final.HBase Banco de dados NoSQL orientada a coluna construdo sobre o HDFS, o HBase tem como responsabilidade prover umacesso rpido para leitura / gravao com grandes volume de dados entre diversas ferramentas.Hive- Uma linguagem de alto nvel SQL-like usado para executar consultas sobre os dados armazenados no Hadoop, o Hivepermite que desenvolvedores no familiarizados com a forma de escrever em MapReduce possam escrever consultas de dadosque so traduzidos em trabalhos de MapReduce no Hadoop. Assim como Pig, Hive foi desenvolvido para ser uma camada deabstrao, orientada para os analistas de banco de dados familiarizados com as linguagens SQL e Java.Pig Uma abstrao sobre a complexidade da programao do MapReduce, a plataforma de desenvolvimento Pig possuiambiente de execuo e uma linguagem de script (Pig Latin) seu compilador traduz Pig Latin em seqncias de programaspara o MapReduce.Mahout Biblioteca para aprendizado de mquina e minerao de dados que fornece implementaes de MapReduce, paraalgoritmos populares incluindo algoritmos de analise preditiva, testes de regresso, e modelagem estatstica do serviodistribuda do Hadoop.Zookepper Tem como responsabilidade a coordenao Flume Tem como finalidade validar, limpar, transformar, reduzir,sendo capaz de trabalhar com um grande volume de dados oriundo das mais diversas fontes e move-las para dentro doHadoop da forma mais eficiente possvel, alm de coordernar outros componentes como, exemplos: o Hbase, Hive, Pig,Mahout.