Upload
voanh
View
213
Download
0
Embed Size (px)
Citation preview
• Instrutor
• Gerente de Projetos
• Consultor
• MBA Gestão Estratégia de Empresas pela Unisinos
• Bacharel em Administração de Empresas com Ênfase em Análise de Sistemas pela PUCRS
• 53 Certificação Oficial da Microsoft
• Mais de 7500 alunos treinados
Sergio Adriano BlumData Scientists
Agenda
• Big Data
• Visão geral sobre Big Data, 3Vs
• Estruturas de utilização de Big Data
• Gartner Magic Quadrant
• Big Data Landscape, Market share
• Onde se faz Big Data
• DataWarehouse Tradicional X Modern DataWarehouse
• Cases de Sucesso
• File Storing and Processing
• NfeData Lake
• Análise Preditiva e Machine Learning
• Risco de Crédito Financeiro Machine Learning
• Data Visualization
• Tracking de Caminhões PowerBI
• Próximos Passos
O que é Big Data?
Volume▪ Quantidade de Dados processáveis
Velocidade▪ Tempo hábil para movimentar processar dados
Variedade▪ Diferentes tipos de dados
www.gartner.com
3V
O que é Big Data?
Volume▪ Quantidade de Dados processáveis
Um compuador pessoal possuia cerca de 10 GB de dados em 2000.
Hoje, o Facebook informa gerar cerca de 500 terabytes de dados, todo dia (Comercial Tendence)
A Boeing informa que o 737 vai gerar cerca de 240 terabytes de dados em uma única viagem (IoT –Internet das Coisas)
Smatphones e sensores embutidos em objetivos de uso diário irão gerar, em breve, bilhões de dados, constantemente atualizáveis, alimentando um ambiente com informações cruciais para o negócio,como localidade e formato de uso.
Mobile Devices
Readers/Scanners
Science facilities
Microphones
Cameras
Social Media
Programs/ Software
www.gartner.com
3V
O que é Big Data?
Volume▪ Quantidade de Dados processáveis
Velocidade▪ Tempo hábil para movimentar e processar dados
• Cliques na Intenet e Impressão de Anúncios em Páginas capturam uma enormidade de comportamentos dos consumidos a cada segundo.
• Atualizações de dados de Bolsas de Valores distribuem dados por devices ao redor do mundo, em tempo real
• Máquinas se comunicam com outras máquinas através de protocolos não estruturados, de forma síncrona
• Sensores e aparelhos de medição geram grande quantidaded de logs em tempo real
• Jogos na internet suportam milhões de usuários concorrentes, cada qual consumindo e produzindo dados
• Placas de carros e rostos de pessoas são fotografadas e processadas em tempo real
3V
O que é Big Data?
Volume▪ Quantidade de Dados processáveis
Velocidade▪ Tempo hábil para movimentar processar dados
Variedade▪ Diferentes tipos de dados
• Big Data não consome apenas números, datas e palavras.• Estamos falando também de Dados Geoespaciais, Dados em
3D, Áudio, Vídeo, Textos Desestruturados, incluindo arquivos de log e mídia social
• Bancos de Dados tradicionais foram desenhados para trabalhar com um volume “pequeno” de dados, poucas atualizações e predições, mas sempre com Dados Estruturados
• Análises em Big Data incluem diferentes tipos de dados
3V
A estrutura de Big Data
❖ Estruturado• Maioria das origens de dados
❖ Semi-estruturado• Muitas origens de Big Data
❖ Desestruturado• Video e audio
Users
Application
Systems
Sensors
Large and growing files(Big data files)
Garner Magic Quadrant
for Data Management Solutions for Analyticsfor Operational Database Management System
www.gartner.com
Garner Magic Quadrant
for Business Intelligence and Analytics Platformfor Data Science Platform
www.gartner.com
Muito bonito, mas...Vamos reduzir nosso olhar a 3 áreas que certamente abrirão seus olhos para uma Nova Oportunidade
File Storing andProcessing
• Modern Data Warehouse
• Data Lake
• Hadoop | Spark
Análise Preditiva e Machine Learning
• R e Python
• MachineLearning
• Stream Analytics
Data Visualization
• PowerBI
File Storing and Processing
• Modern Data Warehouse
• Data Lake
• Hadoop | Spark
Azure HDInsight – serviço de nuvem Apache Spark e Hadoop® para a
empresa
• Oferece Spark, Hive, Map Reduce, HBase, Storm, Kafka e R-Server
• Cada uma dessas tecnologias de Big Data, assim como aplicativos são
facilmente implantáveis e gerenciados como clusters, com segurança e
monitoramento de nível empresarial
Data Lake Store – um data lake ilimitado que impulsiona a análise de Big Data
• Massivamente escalonável e criado para o padrão aberto do HDFS.
• Sem limites para o tamanho dos dados e com a habilidade para executar
análises massivamente paralelas
Data Warehouse - Traditional
Enterprise_Data_Warehouses_and_BI_in_the_Age_of_Cloud_Computing_and_big_Data_EN_US.pdf
Data Management Platform for Analytics
Enterprise_Data_Warehouses_and_BI_in_the_Age_of_Cloud_Computing_and_big_Data_EN_US.pdf
Case para Data Lake
Enterprise_Data_Warehouses_and_BI_in_the_Age_of_Cloud_Computing_and_big_Data_EN_US.pdf
Toda Nota Fiscal gerada apartir de 2017 contem um QRCodeassociadoApesar da Receita Federal deter todos as NF em formato digital, não possível que um cidadão comum acesse a massa de dados
Através de um Aplicativo de Celular, todo usuário pode ler seus QRCodes e enviar para armazenamento em Data Lake
Apesar de sua serventia individual ser limitada, as possibilidade de análises é grande:• Variação de preços por território geográfico• Variação de preço por período• Previsão de alteração de preços no mercado• Avisos de “Melhor Compra” para os usuários• Mapeamento de produtos em posição geográfica para
concorrentes
Análise Preditiva e Machine Learning
• R e Python
• Machine Learning
• Stream Analytics
Algoritmos são organizados de forma a gerar predições sobre dados históricos.R e Python são ferramentas comuns utilizadas para análise de dados em Machine Learning
Case para Machine Learning
Enterprise_Data_Warehouses_and_BI_in_the_Age_of_Cloud_Computing_and_big_Data_EN_US.pdf
Detecção de anomalias: Risco de Crédito
Empresa de empréstimos financeiros envia massa de dados de seus Clientes e Negócios para um Data Lake, juntamente com o histórico de fraudes, então estes são analisados através de algoritmos de Machine Learning.
Para cada novo empréstimo, os dados do cliente e do negócio são confrontados com o aprendizado da máquina, a qual informa a probabilidade deste negócio ser uma Fraude
Informações do Cliente
Informações do Empréstimo
Machine Learning
Aprendizado
Probabilidade de Fraude
Case para Stream Analytics
Enterprise_Data_Warehouses_and_BI_in_the_Age_of_Cloud_Computing_and_big_Data_EN_US.pdf
Detecção de Tendência: Evasão escolar em EAD
Faculdade com EAD registra todos os clicks em seu portal de EAD e cruza essas informações contra histórico de evasão.Baseado no comportamento dos alunos que evadiram no passado, consegue-se prever nas primeiras semanas o aluno que abandonará o curso antes do final do semestre
Aluno interage no Portal EAD
Portal EAD envia cada Clickpara o Stream Analytics
Machine Learning
Aprendizado
Probabilidade de EvasãoStream Analytics
Case para Stream Analytics
Enterprise_Data_Warehouses_and_BI_in_the_Age_of_Cloud_Computing_and_big_Data_EN_US.pdf
Detecção de Tendência: Site de Ecommerce
Site de Ecommerce envia cada click no portal para o Stream Analytics, o qual analisa a informação e baseado no histórico de Machine Learning, alterna as promoções e destaques no Site, aumentando a efetividade de compra dos usuários
Usuário interage no Site do ECommerce
Site envia os dados para o StreamAnalytics
Machine Learning
Aprendizado
Alterna Promoções no SiteStream Analytics
Como analisar o dados em ambientes desse porte?• Consumo de dados em Big Data• Análise de todos os dados, quaisquer dados• Análise em Nuvem
Data Visualization
• PowerBI
Data Visualization
• PowerBI
Case de Sucesso para Data Visialization
Empresa de transporte rodoviário monitora em tempo real o comportamento de seus caminhões, compreendendo quando há alteração de rota ou mudanças bruscas no comportamento
Qual o caminho, por onde seguir?
Data Scientist: Profissão em destaque que surgiu devido ao ambiente de Big Data
• Mas eu não tenho uma grande quantidade de Dados!• Essas tecnologias consegue manipular
grandes quantidade de informação, porém, o importante é resultado, não o
meio
• Gostaria de iniciar um projeto em Big Data• Não queira iniciar um projeto de Big Data,
porém, imagine o que esses novas possibilidades podem trazer ao seu negócio.Inicie, sim, um projeto inovador sobre seus dados
Business Intelligece
É baseado em alguns Softwares
Objetiva disponibilizar um Software com efeito visual
Possui um fim planejado e certo
A resultado é preditiva
Os dados estão disponíveis
O resultado final são gráficos para a tomada de decisão
Dados domésticos
vs Data Scientist
É baseado em Técnicas
Objetiva prover Informação e Insights para o negócio
O fim é determinado durante o trabalho
O resultado não é previsível
Os dados devem ser minerados
O resultado final é a decisão a ser tomada
Big Data
Tecnologias EnvolvidasBusiness Intelligence | Data Insight | BigData | SQL | NoSQL
▪ Microsoft SQL Server▪ R language▪ Microsoft Azure
▪ Data Factory▪ Stream Insight▪ Machine Learning▪ HD Insight
▪ BigData Tools▪ Hadoop▪ HBase▪ MapReduce▪ PolyBase
▪ Business Intelligence Tools▪ PowerBI▪ Microstrategy▪ QlikView
▪ Excel/Access