Google BigQuery

Rastreador de vagas disponíveis na Web

Davi Amaral (CEO)Felipe Pinto Bruno Pedrosa Francke PeixotoThiago Dias Ricardo Gomes


CenárioUm analista de sistemas da JOIN US, em seu momento de ócio, desenvolveu umrastreador que procura por publicação de vagas na web. Como analisar esses dados

de forma simples, barata é rápida?

O WebCrawler desenvolvido por Felipe Pinto, gera por mês em média 50 milhões de linhas.

Dados oriundos de navegação em redes sociais, grupos de e-mails e fóruns.


Solução proposta

O que é ?

É uma solução em nuvem (cloud) para entregar Big Data SaaS. Pague pelo que usar.

O Google BigQuery é uma solução Big Data, como o Hadoop, com a vantagem de não se precisar contratar e/ou comprar uma série de servidores, nem, contar com mão-de-obra, altamente, especializada.


Porque o Google BigQuery?

Demonstração 1gb grátis para armazenamento 5Gb grátis por 12 meses Ferramenta é Livre

Preço $ 0,025/mês por Gb + $5,00 por Tb processado

$84/mês por Tb Desvantagem de se precisar contratar e/ou comprar uma série de servidores, contar com mão-de-obra, altamente, especializada. Deixando seus custos menos controláveis.

Manutenção $0 $0


Comparativo

Enquanto a maioria dos clusters de Hadoop que tenho visto no Brasil, vão de 4 a 10 servidores (alguns casos com até 40 servidores, mas, a maioria fica abaixo de 10) e isso é muito custo $$$.

No BigQuery as aplicações já nascem grande. Seus dados são replicados para dezenas de servidores.

Por que o BigQuery é muito mais rápido do que o Hadoop?

Muito difícil. Para ganhar performance escalar, o Hadoop depende de caixas (servidores).

Assim como, uma andorinha não faz verão, meia dúzia de servidores Hadoop também não.

Então, comparar a performance do BigQuery com um “clusterzinho” de Hadoop não é uma comparação das mais justas.


ComparativoObter informações a respeito da performance de processamento com

O TPC é uma organização sem fins lucrativos, tendo como objetivo principal estabelecer critérios para se obter informações a respeito da performance de processamento de transações e de banco de dados através de benchmarks. Baseia-se em testes padronizados tais como o TPC-C, o TPC-W e o TPC-H para obter tais resultados e só assim divulgar os dados reais dessa performance. Estes testes do TPC seguem normas extremamente rigorosas que testam diversos pontos do sistema - principalmente nos quesitos confiabilidade e durabilidade.

TPC Transaction Processing Performance Council

TPC-HSimulam um ambiente de Data Warehouse, sincronizado com bancos de dados de produção online. Este benchmark se utiliza de consultas aleatórias de alto grau de complexidade, projetadas para responder a algumas questões de

negócios do mundo real, como: perguntas sobre pré e promoções, oferta e demanda, lucro e receita e

participação de mercado.


Comparativo

Tempo de execução de consulta por segundos.


Conclusão da Analise

Para TPC-H Query (massively parallelizable) Vemos que BigQuery supera claramente RedShift (com um nó, bem como 8 nós).

Mesmo o desempenho do cache hot do RedShift é inferior ao BigQuery. Este é provavelmente porque o BigQuery utiliza servidores proporcionais para resolver a consulta massivas com um alto grau de paralelismo mediante ao tamanho do DataSet.

Para esse projeto a solução mais viável é o

Entre as soluções apresentadas ela é mais economicamente viável, e não apresenta

custo de mão de obra para manutenção dos servidores.


Nem tudo são flores...

A importação e/ou cópia dos dados para a nuvem é uma tarefa árdua, demorada, chata e nada inteligente. Se algo dá errado em algum arquivo, as coisas ficam, realmente, pretas.

O BigQuery não é um banco de dados relacional tradicional!

Ele continua sendo um Big Data, em toda sua amplitude: Dados não estruturados (embora apresente-os como tabelas), NoSQL (embora tenha uma linguagem,

própria, SQL “like”), não é possível criar índices, não é possível modificar os dados (updates or deletes).

Ele é um sistema, puramente, OLAP.

Rastreador de vagas disponíveis na Web Obrigado!Fonteshttp://bighadoop.wordpress.com/2012/05/13/google-bigquery/https://cloud.google.com/developers/articles/getting-started-with-google-bigquery?hl=pt-brhttp://computerworld.com.br/tecnologia/2013/01/25/os-10-melhores-provedores-de-armazenamento-na-nuvem-segundo-o-gartner/http://www.fam2011.com.br/site/revista/pdf/ed10/art04.pdfhttp://bighadoop.wordpress.com/2012/05/13/google-bigquery/http://news.dice.com/2013/04/15/googles-bigquery-vs-hadoop-a-matchup-2/http://gavinbadcock.wordpress.com/2013/02/06/googles-bigquery-vs-hadoop-complimentors-or-competitors/http://googlecloudplatform.blogspot.com.br/2014/04/google-bigquery-and-datastore-connectors-for-hadoop.htmlhttp://gigaom.com/2012/07/07/why-the-days-are-numbered-for-hadoop-as-we-know-it/http://cloudacademy.com/blog/when-to-use-google-bigquery/http://www.megapivot.com/blog/posts/redshift-vs-bigquery-vs-hadoop.htmlhttp://courses.cs.washington.edu/courses/cse544/13sp/final-projects/p18-lijl.pdf

Internet

Google BigQuery