10

Click here to load reader

Pré-Projeto Big Data - Leandro Wanderley

Embed Size (px)

Citation preview

Page 1: Pré-Projeto Big Data - Leandro Wanderley

INSTITUTO FEDERAL DE ALAGOAS - IFAL

Bacharelado em Sistemas de Informação

Disciplina: Tópicos Especiais em Sistemas de Informação 1

LEANDRO WANDERLEY COUTO DA SILVA

BIG DATA – ANÁLISE DE UM SERVIDOR WEB

COM A FERRAMENTA SPLUNK

Maceió – AL

Julho/2013

Page 2: Pré-Projeto Big Data - Leandro Wanderley

INSTITUTO FEDERAL DE ALAGOAS - IFAL

Bacharelado em Sistemas de Informação

Disciplina: Tópicos Especiais em Sistemas de Informação 1

Sumário

1. Introdução ............................................................................................................................... 3

2. Justificativa ............................................................................................................................. 5

3. Objetivos ................................................................................................................................. 6

3.1 Objetivo Geral .................................................................................................................. 6

3.2 Objetivos Específicos ....................................................................................................... 6

4. Revisão da Literatura .............................................................................................................. 7

5. Cronograma ............................................................................................................................ 9

Referências ............................................................................................................................... 10

Page 3: Pré-Projeto Big Data - Leandro Wanderley

INSTITUTO FEDERAL DE ALAGOAS - IFAL

Bacharelado em Sistemas de Informação

Disciplina: Tópicos Especiais em Sistemas de Informação 1

1. Introdução

Desde o início do século 21 especula-se muito sobre os rumos que a tecnologia está

seguindo e tudo que ela está proporcionando e ainda irá proporcionar, a quantidade de

informação gerada hoje em todo o planeta é extremamente maior do que qualquer uma gerada

nos dois últimos milênios juntos, segundo TAURION (2011), estima-se que diariamente, são

gerados 15 petabytes de informações (financeiras, redes sociais, dispositivos móveis, etc.) em

todo mundo, advindas das mais diversas plataformas.

Com esse cenário de total mudança e com a velocidade que as coisas vêm acontecendo

é necessário rever a forma como administramos e tratamos os dados.

Big Data foi o termo adotado à quase dois anos para descrever esse volume de dados

gerados de forma descontrolada. ZIKOPOULOS (2011) afirma que o grande desafio é

transformar estes dados em conhecimento. A partir daí, inúmeras empresas buscam encontrar

uma maneira de sair na frente e transformar esses dados em informações valiosas para serem

vendidos, e a preço de ouro, porém KRUG (2013) ressalta que mais da metade das empresas

não consegue efetuar tal análise, ou seja, tem a capacidade de capturar e armazenar grande

volume de dados e, no entanto, enfrentam dificuldades no momento de processá-los de forma

rápida e eficiente.

De acordo com VIEIRA, M. R et. al. (2012), o conceito Big Data pode ser

resumidamente definido como uma coleção de bases de dados tão complexa e volumosa que

se torna muito difícil (ou impossível) e complexa fazer algumas operações simples (e.g.,

remoção, ordenação, sumarização) de forma eficiente utilizando Sistemas Gerenciadores de

Bases de Dados (SGBD) tradicionais.

Nesse processo, os dados passaram de estruturados (tabelas, nomes, padrões) para

serem dados semiestruturados ou até não estruturados. E para que eles possam ser utilizados

de forma eficiente nas tomadas de decisão e/ou planejamento estratégico, por exemplo,

precisam estar disponíveis em tempo real. Isto porque o valor de muitos dados tem vida curta,

dado o dinamismo com que são produzidos (ZIKOPOULOS, 2011). Entre eles destacamos as

postagens constantes de conteúdos nas redes sociais.

Uma das tendências apresentadas para solucionar os problemas e desafios gerados pelo

contexto Big Data é conhecido como NoSQL (Not only SQL), que trouxe novas visões de

solução para esse estudo. Atualmente, existe uma grande adoção e difusão de tecnologias

Page 4: Pré-Projeto Big Data - Leandro Wanderley

INSTITUTO FEDERAL DE ALAGOAS - IFAL

Bacharelado em Sistemas de Informação

Disciplina: Tópicos Especiais em Sistemas de Informação 1

NoSQL nos mais diversos domínios de aplicação no contexto de Big Data. Esses domínios

envolvem, em sua maioria, os quais os SBGD tradicionais ainda são fortemente dominantes

como, por exemplo, instituições financeiras, agências governamentais, e comercio de

produtos de varejo. Isto pode ser explicado pelo fato que existe uma demanda muito grande

para soluções que tenham alta flexibilidade, escalabilidade, performance, e suporte a

diferentes modelos de dados complexos.

Através deste trabalho tentarei apresentar as características da Big Data, suas

vantagens, oportunidades e desafios, qual a sua influência e quais as mudanças serão

necessárias nos softwares e sistemas de análise para compreender o que está por vir. Para isso

será necessário rever os conceitos sobre Data Warehouse e das técnicas de Data Mining

atuais que auxiliarão nos trabalhos futuros.

Será explorada também a aplicação da ferramenta Splunk, com foco na análise do

fluxo de dados e registros de conteúdo num servidor de hospedagem para web, através dos

seus arquivos de log.

Page 5: Pré-Projeto Big Data - Leandro Wanderley

INSTITUTO FEDERAL DE ALAGOAS - IFAL

Bacharelado em Sistemas de Informação

Disciplina: Tópicos Especiais em Sistemas de Informação 1

2. Justificativa

De acordo com pesquisas recentes a IBM afirmou que 90% dos dados existentes na

web foram gerados nos últimos dois anos, dessa forma, muito do que é produzido nem se quer

passa por uma análise. Usando ferramentas ideais e realizando um bom trabalho de mineração

de dados será possível extrair informações valiosas dentro do domínio estabelecido e com isso

uma série de melhorias e oportunidades podem surgir.

Com a necessidade de converter todo e/ou qualquer dado em informação faz com que

as técnicas sejam aprimoradas e ao mesmo tempo colocadas em prática a fim de alcançar os

objetivos desejados.

Seja para a área social, política, industrial, econômica ou qualquer outra seria possível

apresentar valor, atrair investimento ou ainda descobrir tendências. E com isso torna-se

possível realizar ações mais focadas na melhoria dos serviços.

Page 6: Pré-Projeto Big Data - Leandro Wanderley

INSTITUTO FEDERAL DE ALAGOAS - IFAL

Bacharelado em Sistemas de Informação

Disciplina: Tópicos Especiais em Sistemas de Informação 1

3. Objetivos

A seguir serão apresentados o objetivo geral e os específicos que nortearão a condução

deste projeto.

3.1 Objetivo Geral

O objetivo geral é caracterizar e exemplificar o termo Big Data com intuito de

compreender o seu surgimento e aplicação no atual cenário de dados gerados de forma

continua e aleatória na internet.

3.2 Objetivos Específicos

Junto com a pesquisa tentarei atingir os seguintes objetivos específicos:

Objetivo específico 1: Apresentar o Data Warehouse e o Data Mining como

técnicas que auxiliam o Big Data e não o contrario;

Objetivo específico 2: Promover o entendimento sobre dados estruturados e não

estruturados;

Objetivo específico 3: Usar a ferramenta Splunk para exemplificar a análise de

dados não estruturados num servidor web.

Page 7: Pré-Projeto Big Data - Leandro Wanderley

INSTITUTO FEDERAL DE ALAGOAS - IFAL

Bacharelado em Sistemas de Informação

Disciplina: Tópicos Especiais em Sistemas de Informação 1

4. Revisão da Literatura

Com o passar dos anos os dados gerados diariamente ao redor do mundo tornaram-se

tão grandes que se inviabilizam de ser analisado com as técnicas atuais, Joe Hellerstein,

cientista da computação na University of California, em Berkeley (USA), chama isso de “a

revolução industrial do dado. O efeito está sendo sentido em todos os lugares, desde os

negócios até a ciência, do governo a artes. Cientistas e engenheiros da computação cunharam

um novo termo para o fenômeno: big data”.

De acordo com LIMA JUNIOR (2011) “Big data” refere-se ao conjunto de dados

(dataset) cujo tamanho está além da habilidade de ferramentas típicas de banco de capturar,

gerenciar e analisar. A definição é intencionalmente subjetiva e incorpora uma definição

móvel de como um grande conjunto de dados necessita a fim de ser considerada Big data.

“Não definimos Big data em termos de ser maior do que certo número de Terabytes (milhares

de Gigabytes)”.

Porém essa mudança não ocorreu de forma repentina e desde a década de 80 surgiram

os primeiros conceitos sobre Data Warehouse que segundo OLIVEIRA (2008) é um sistema

de computação utilizado para armazenar informações relativas às atividades de uma

organização em bancos de dados, de forma consolidada. O Data Warehouse possibilita a

análise de grandes volumes de dados coletados dos sistemas transacionais (OLTP).

Com o volume de dados armazenados crescendo diariamente, responder uma questão

tornou-se crucial: O que fazer com os dados armazenados? As técnicas tradicionais de

exploração de dados não são mais adequadas para tratar a grande maioria dos repositórios.

Com a finalidade de responder a esta questão, foi proposta, no final da década de 80, a

Mineração de Dados, do inglês Data Mining.

Segundo Fayyad (1996), o modelo tradicional para transformação dos dados em

informação (conhecimento) consiste em um processamento manual de todas essas

informações por especialistas que, então, produzem relatórios que deverão ser analisados. Na

grande maioria das situações, devido ao grande volume de dados, esse processo manual torna-

se impraticável.

Ainda segundo Fayyad (1996), o KDD (Knowledge Discovery in Databases ou

Descoberta de Conhecimento nas Bases de Dados) é uma tentativa de solucionar o problema

Page 8: Pré-Projeto Big Data - Leandro Wanderley

INSTITUTO FEDERAL DE ALAGOAS - IFAL

Bacharelado em Sistemas de Informação

Disciplina: Tópicos Especiais em Sistemas de Informação 1

causado pela chamada "era da informação": a sobrecarga de dados. O KDD refere-se a todo o

processo de descoberta de conhecimento, e a Mineração de Dados a uma das atividades do

processo.

A partir daí irei trabalhar conceitos importantes sobre dados estruturados e não

estruturados, segundo CLARO (2012), os dados mantidos em um SGBD são chamados de

dados estruturados por manterem a mesma estrutura de representação (rígida), previamente

projetada (esquema), já os dados que não possuem uma estrutura definida e que normalmente

são caracterizados por serem documentos de textos, imagens, vídeos, etc. São ditos dados não

estruturados. Atualmente esses formam a maioria dos dados nas empresas e na internet.

Para exemplificar todo esse quadro de análise de dados que existe atualmente irei fazer

uso da ferramenta de análise de dados SPLUNK, escolhida por ser simples e fácil de ser

configurada e administrada, também trata-se de um software livre e com isso não precisa ser

comprada para uso, a mesma apresenta uma versão mais robusta que é paga, mas não será

usada na pesquisa. Serão analisados logs de um servidor web a fim de encontrar padrões e

informações úteis dos acessos realizados pelos usuários.

Page 9: Pré-Projeto Big Data - Leandro Wanderley

INSTITUTO FEDERAL DE ALAGOAS - IFAL

Bacharelado em Sistemas de Informação

Disciplina: Tópicos Especiais em Sistemas de Informação 1

5. Cronograma

ATIVIDADES PARA 2013.2 AGO SET OUT NOV DEZ JAN FEV

Revisão da literatura

Criação e configuração de cenário para análise

Captação dos resultados

Entrega e apresentação do projeto

Page 10: Pré-Projeto Big Data - Leandro Wanderley

INSTITUTO FEDERAL DE ALAGOAS - IFAL

Bacharelado em Sistemas de Informação

Disciplina: Tópicos Especiais em Sistemas de Informação 1

Referências

KRUG, Daniel. Hadoop: Processando Grande Volume de Dados. Universidade Feevale,

Novo Hamburgo, 2013.

ZIKOPOULOS, Paul C., et al. Understanding Big Data: Analytics for Enterprise Class

Hadoop and Streaming Data. 1.ed. New York, NY. McGraw-Hill, 2011.

TAURION, Cezar. Big Data: nova fronteira em gerenciamento de dados. developerWorks

Brasil, 2011. Disponível em

<https://www.ibm.com/developerworks/mydeveloperworks/blogs/ctaurion/entry/big_data_no

va_fronteira_em_gerenciamento_de_dados?lang=pt_br>. Acesso em: 14/07/2013.

VIEIRA, M. R; FIGUEIREDO, J. M; LIBERATTI, G; VIEBRANTZ, A. F. M. Bancos de

Dados NoSQL: Conceitos, Ferramentas, Linguagens e Estudos de Casos no Contexto de

Big Data. IBM Research Laboratory – Brasil, Instituto de Computação Universidade Federal

de Mato Grosso (UFMT). Simpósio Brasileiro de Bancos de Dados - SBBD 2012.

OLIVEIRA, M. Data Warehouse. Disponível em:

<http://www.datawarehouse.inf.br/academicos.htm>. Acesso em: 15/07/2013.

LIMA JUNIOR, W. T. Jornalismo Computacional em função da Era do Big Data. SBPJor

– Associação Brasileira de Pesquisadores em Jornalismo. 9º. Encontro Nacional de

Pesquisadores em Jornalismo. Rio de Janeiro, ECO- Universidade Federal do Rio de Janeiro,

novembro de 2011.

CLARO, D. B. Tópicos Avançados em Banco de Dados (Conteúdo Programático: Dados

Estruturados, Dados Semi-Estruturados e Dados não-estruturados. Ciência da

Computação - Ufba – Unifacs. 2012.

FAYYAD, U; PIATETSKY-SHAPIRO, G; SMYTH, P. From Data Mining to Knowledge

Discovery in Databases. American Association for Artificial Intelligence, 1996.

CAMILO, C. O; SILVA, J. C. Mineração de Dados: Conceitos, Tarefas, Métodos e

Ferramentas. Instituto de Informática. Universidade Federal de Goiás. Agosto 2009