Uma visão sobre Fast-Data: Spark, VoltDB e Elasticsearcherbd2018.c3.furg.br/downloads/ERBD.pdf ·...

View
3
Download
0
Category

Documents

Preview:

Citation preview

Uma visão sobre Fast-Data:Spark, VoltDB e Elasticsearch

Luiz Henrique Zambom Santana

Agenda● Introdução● Processamento: Apache Spark● Armazenamento: VoltDB● Analytics: Elasticsearch● Conclusões

IntroduçãoLuiz Henrique Zambom Santana

Parte 1

Big Data

Tempo real

Não custa lembrar...

No início era o Apache Hadoop

...e o map/reduce...

O que é mais importante?

Latência ou Vazão?

Arquitetura Fast DataLuiz Henrique Zambom Santana

Parte 2

Arquitetura Lambda

Not only SQLSadalage e Fowler, 2012(http://martinfowler.com/books/nosql.html)

Relational databases will be a footnote in history

Nathan Marz, 2014 (http://www.slideshare.net/nathanmarz/runaway-complexity-in-big-data-and-a-plan-to-stop-it)

Armazenamento

SQL and NoSQL will merge “Not yet SQL”Michael Stonebraker, 2015https://www.youtube.com/watch?v=KRcecxdGxvQ

Armazenamento

https://www.youtube.com/watch?v=KRcecxdGxvQ

Processamento

Matei Zaharia

Analytics

Shay Banon

O problema que vamos tratar...

https://github.com/lhzsantana/fastdata

Processadores:Apache Spark

Luiz Henrique Zambom SantanaParte 2

Agenda - Processadores: Apache Spark● Frameworks para processamento de Big Data● Arquitetura do Apache Spark● Funcionamento do cluster● Fluxo de processamento

○ Directed Acyclic Graph (DAG)○ Resilient Distributed Dataset (RDD)○ Evolução do RDD

● Exercícios

Frameworks para processamento de Big Data● Streaming

○ Apache Spark, Apache Storm

● Filas○ Apache Kafka, RabbitMQ

● Gestão de Clusters○ Apache Mesos, Apache Zookeeper

● Aprendizado de Máquina○ Apache Spark, Apache Mahout, IBM Watson, TensorFlow

● Estatística○ Apache Spark

● Gestão de Memória○ Apache Spark, Apache Ignite

Arquitetura do Apache Spark

Funcionamento do cluster

Fluxo de processamento

Directed Acyclic Graph (DAG)

Resilient Distributed Dataset (RDD)

Evolução do RDD

Spark Streaming

SparkML

Apache Bahir

Apache Kafka

Apache Ignite

Exercícios1. Classificar os Tweets de POA

--------------------- Lição de casa :) ---------------------

2. Receber em modo Streaming os dados do Twitter e filtrar pela latitude e longitude de POA

3. Criar uma fila de processamento para adicionar os Tweets coletados no exercício do Spark para contar as palavras mais comuns nesses Tweets

4. Usando como base o código de streaming do Twitter, fazer um streaming direto do Cassandraa. https://github.com/datastax/spark-cassandra-connector/blob/master/doc/8_streaming.md

5. Configurar o Ignite para armazenar os Twitters e usar a API SQL do Ignite para consultar esses Twitters 36

https://github.com/datastax/spark-cassandra-connector/blob/master/doc/8_streaming.md

Bancos de Dados:VoltDB

Luiz Henrique Zambom SantanaParte 3

Agenda - Banco de Dados: VoltDB● Problemas com SQL● NewSQL● VoltDB● Como o VoltDB entrega o que promete?● Exercício

Problema SQL: múltiplos gargalos

NewSQL: comparação

NewSQL: definições● Definições

○ SQL como interface principal○ Suporte a transações ACID○ Sem lock no controle de concorrência○ Alto desempenho○ Arquitetura escalável (share nothing)

● In-memory○ Alta ○ Baixa latência○ Sem gerenciamento de bugger○ Sem locks e latches

● HBase, Clustrix, NuoDB e VoltDB

Share nothing

NewSQL: como?● Particionamento

○ Sharding

● Controle de concorrência por agendamento ou multi-versões● Indexação● Replicação

NoSQL vs. NewSQL: produtos

Mercado NewSQL

HStore

VoltDB

● Evolução do C-Store e H-Store○ http://hstore.cs.brown.edu/documentation/faq/

● Visão:○ VoltDB relies on horizontal partitioning

down to the individual hardware thread to scale, k-safety (synchronous replication) to provide high availability, and a combination of continuous snapshots and command logging for durability (crash recovery)

K-safety

● A segurança K é uma medida de quantas cópias dos dados existem no cluster

VoltDB: console

VoltDB

VoltDB: arquitetura

VoltDB: integrações

Command logging

Recuperação de desastre

Comandos VoltDB● ./voltdb init

● ./voltdb start

● ./sqlcmd

● CREATE TABLE users (id INTEGER UNIQUE NOT NULL, username VARCHAR(15), city VARCHAR(15));

● CREATE TABLE tweets (id INTEGER UNIQUE NOT NULL, body VARCHAR(150), userId INTEGER);

● insert into users values (1,'lhzsantana','floripa');

● insert into tweets values (1,'sol em floripa', 1);

● select * from users;

● select * from users u inner join tweets t on u.id=t.userId;

● drop table users;

● CREATE INDEX name_idx ON users (name);

● PARTITION TABLE users ON COLUMN city;

● show tables;

Instalação do VoltDB

Referência: https://www.voltdb.com/try-voltdb/download-enterprise/

https://www.voltdb.com/try-voltdb/download-enterprise/

Exercícios1. Salvar os dados de streaming e os dados do DataPoa no VoltDB

--------------------- Lição de casa :) ---------------------

2. Consultar os usuários que mais postam no Twitter

Visualização e analytics: Elasticsearch

Luiz Henrique Zambom SantanaParte 4

Agenda - Visualização e analytics: Elasticsearch● Elasticsearch?

Elasticsearch?

• Tempo real

• Flexível

• Livre de esquema e muito escalável

• Iniciado por Shay Banon em 2010

• Desenvolvido pela comunidade

• Código aberto em:• https://github.com/elastic/elasticsearch

• Atualmente apoiado pela Elastic

Onde é usado?

Mais casos de uso em: https://www.elastic.co/use-cases 63

Visão geral

• Cluster

• Lucene

• Índice

• Mapeamento

• Tipo Lucene Banco de dados relacional (BDR)

Índice (Index) Esquema

Type Tabela

Documento (JSON) Linha

Campo (Field) Coluna

Mapeamento (Mapping) Estrutura da tabela

Query DSL SQL 64

Arquitetura - Indexação

Client API ElasticsearchUsuários

Usuários

Arquitetura - Busca

Client API ElasticsearchUsuários

Usuários

Arquitetura - Autocomplete (“search as you type”)

Client API ElasticsearchUsuários

Usuários

Cliente API ElasticsearchUsuários

Usuários

Arquitetura - Indexação em lote

ElasticsearchAPI69

Desenvolvimento com o Elasticsearch - Pontos importantes

● Gerenciamento dos dados○ Backup do Elasticsearch?

■ Geralmente o Elasticsearch é usado como um repositório volátil■ Backup:

● https://www.elastic.co/guide/en/elasticsearch/reference/current/modules-snapshots.html

■ Segurança: ● https://www.elastic.co/products/shield

● Mapeamento

Desenvolvimento com o Elasticsearch - Instalação

• Simplesmente baixar e desempacotar• Elasticsearch e Kibana

• https://www.elastic.co/downloads/elasticsearch• https://www.elastic.co/downloads/kibana

• Iniciar:• /bin/elasticsearch• /bin/kibana

• Em produção não é tão simples:• http://logz.io/blog/deploy-elk-production/

https://www.elastic.co/downloads/elasticsearch

http://logz.io/blog/deploy-elk-production/

Verificar se está funcionando (localhost:9200)

Kibana Dev Tools

Criar índice e mapeamento no Elasticsearch• Exemplo simples “Tweet” e “Comentário”• Criar um índice seria tão simples como:

• PUT erdb

• O mapeamento no Elasticsearch é flat• O Elasticsearch está configurado para buscar palavras em Inglês

• Usar um analisador para português• GIST:

• https://gist.github.com/lhzsantana/4f940684075ce115d799

Indexar alguns documentosPOST erbd/tweet/1

{

"author":"Luiz",

"text":"Tá muito sol para falar de Elasticsearch",

"hashtag":"#queriatánapraia"

}

POST tweet/post

{

"author":"Luiz",

"text":"Esse post não tem ID",

"hashtag":"#seráqfunciona"

}

Indexar alguns documentosPOST erbd/tweet/1

{

"author":"Luiz",

"text":"Elasticsearch é mais legal que praia",

"hashtag":"#sqn"

}

POST erbd/tweet

{

"author":"Luiz",

"text":"O mapeamento do Elasticsearch é flexível",

"local":"Florianópolis",

"hashtag":"#schemaless"

}

Indexar alguns documentos

POST erbd/comments/1

{

"author":"Anônimo",

"text": "Até agora não vi nada de Spark",

"hashtag":"#taenrolando"

}

POST erbd/comment/1?parent=1

{

"author":"Anônimo",

"text": "Jurerê ou PHP?",

"hashtag":"#queriatánapraia"

}

Como ficou o mapeamento?

• GET erbd/_mapping• Mapping com o nome errado “comments”• O campo “local” não tem analisador

https://gist.github.com/lhzsantana/b72dd13f339ff29b4682

Mapeamento com Geo Point

PUT erbd

{

"mappings": {

"crash": {

"properties": {

"location": {

"type": "geo_point"

}

Busca

GET /_search

{

"query": {

"match_all": {}

}

GET /erbd/_search

{

"query": {

"match_all": {}

}

GET /erbd/tweet/_search

{

"query": {

"match_all": {}

}

GET /erbd/tweet,comment/_search

{

"query": {

"match_all": {}

}

GET /erbd, sbbd/_search

{

"query": {

"match_all": {}

}

GET /erbd,sbbd/tweet,comment/

_search

{

"query": {

"match_all": {}

}}80

Busca

GET /_search

{

"query": {

"match": {

"author": "luiz"

}

Busca

GET /_search

{

"query": {

"match": {

"local": "florianopolis"

}

Busca - bool, boost e agregações

GET /erbd/tweet,comment

/_search

{

"sort": [

{

"author": {

"order": "desc"

}

"size": 100,

"query": {

"bool": {

"should": [{

"match": {

"author": "anônimo"

}}, {

"match": {

"local": "Florianópolis"

}

]

} ,

"aggs" : {

"hashtags" : {

"terms" : { "field" : "author.raw" }

}

https://gist.github.com/lhzsantana/f552751d66a153741657

Busca - bool, boost e agregações

{

"took": 88,

"timed_out": false,

"_shards": {

"total": 5,

"successful": 5,

"failed": 0

"hits": {

"total": 2,

"max_score": null,

"hits": [{

"_index": "phpsc",

"_type": "post",

"_id": "AVLauzKDtyulCxogNOoi",

"_score": null,

"_source": {

"author": "Luiz",

"text": "O mapeamento do Elasticsearch é flexível",

"local": "Florianópolis",

"hashtag": "#schemaless"

"aggregations": {

"hashtags": {

"doc_count_error_upper_bound": 0,

"sum_other_doc_count": 0,

"buckets": [

{

"key": "anônimo",

"doc_count": 1

{

"key": "luiz",

"doc_count": 1

}

]

}

Exercícios1. Enviar dados do Twitter e do DataPOA para o Elasticsearch2. Buscar palavras nos dados

--------------------- Lição de casa :) ---------------------

3. Fazer gráfico de calor4. Fazer gráfico de barras

Conclusões

Recommended

Conhecendo Apache Cassandra Meetup - Conhecendo … · Eiti Kimura Coordenador de TI na Movile - Apache Cassandra MVP 2015 - Apache Cassandra MVP 2014 - Contribuidor Apache Cassandra

Documents

GERENCIAMENTO DE TEXTURAS PARA APLICAÇÕES DE …monografias.poli.ufrj.br/monografias/monopoli10020199.pdf · distribuída, Apache Spark, Cassandra, banco de dados. viii ABSTRACT

Documents

INSTITUTO SUPERIOR DE ENGENHARIA DE LISBOA§ão.pdf · Para o conjunto de dados usado, concluiu-se que o Apache Spark é mais vantajoso quando o número de instâncias atinge as 50

Documents

Apache Hadoop - Conceitos teóricos e práticos, evolução e ... · Apache Hadoop Apache Hadoop Conceitosteóricosepráticos,evolução enovaspossibilidades DanielCordeiro Departamento

Documents

NGK€¦ · NGK NGK SPARK pÚüGs NGK PLATINUM ALLOY SPARK PLUGS SPARK PLUGS BOUGIES NGK NGK . Title: Author: CConwall Created Date: 4/4/2019 3:04:13 PM

Documents

Instrução 7bpm Spark

Documents

Escalonador Distribuído de Tarefas para o Apache Spark · O Apache Spark foi o Framework utilizado para implementarmos uma vers~ao do escalonador de tarefas distribu do hier arquico

Documents

Apache htaccess

Documents

Spark _Atila

Documents

Identiﬁcaçãodediﬁculdadesequestõesde ... · Apache Spark / Denis José Sousa de Albuquerque. - 2019. 117f.: il. Dissertação (mestrado) - Universidade Federal do Rio Grande

Documents

Extraia valiosos BIG DATA · do Apache™ Hadoop® e do Apache™ Spark® com Cloudera®, Hortonworks®, IMB® e MapR®. L Conﬁguração testada Acesso instantâneo aos dados Plataforma

Documents

Índios Apache

Education

Uma visão sobre Fast-Data: Spark, VoltDB e Elasticsearcherbd2018.c3.furg.br/downloads/ERBD.pdf ·...

Documents

Conhecendo Apache Cassandra Meetup - Conhecendo … · Eiti Kimura Coordenador de TI na Movile - Apache Cassandra MVP 2015 - Apache Cassandra MVP 2014 - Contribuidor Apache Cassandra

GERENCIAMENTO DE TEXTURAS PARA APLICAÇÕES DE …monografias.poli.ufrj.br/monografias/monopoli10020199.pdf · distribuída, Apache Spark, Cassandra, banco de dados. viii ABSTRACT

Documentação Spark

Pré processamento de grandes dados com Apache Spark

Catalogo Maxitelecom da Spark Controles

Teste Apache

INSTITUTO SUPERIOR DE ENGENHARIA DE LISBOA§ão.pdf · Para o conjunto de dados usado, concluiu-se que o Apache Spark é mais vantajoso quando o número de instâncias atinge as 50

Apache Hadoop - Conceitos teóricos e práticos, evolução e ... · Apache Hadoop Apache Hadoop Conceitosteóricosepráticos,evolução enovaspossibilidades DanielCordeiro Departamento

NGK€¦ · NGK NGK SPARK pÚüGs NGK PLATINUM ALLOY SPARK PLUGS SPARK PLUGS BOUGIES NGK NGK . Title: Author: CConwall Created Date: 4/4/2019 3:04:13 PM

Instrução 7bpm Spark

Escalonador Distribuído de Tarefas para o Apache Spark · O Apache Spark foi o Framework utilizado para implementarmos uma vers~ao do escalonador de tarefas distribu do hier arquico

Apache htaccess

Spark _Atila

Identiﬁcaçãodediﬁculdadesequestõesde ... · Apache Spark / Denis José Sousa de Albuquerque. - 2019. 117f.: il. Dissertação (mestrado) - Universidade Federal do Rio Grande

Apache Hadoop

[DEVFEST] Apache Spark Casos de Uso e Escalabilidade

Apache Struts

Linux - Apache

Extraia valiosos BIG DATA · do Apache™ Hadoop® e do Apache™ Spark® com Cloudera®, Hortonworks®, IMB® e MapR®. L Conﬁguração testada Acesso instantâneo aos dados Plataforma

Índios Apache