Big Data 306

Embed Size (px)

Citation preview

  • 8/12/2019 Big Data 306

    1/6

    C O M P U T A O

    18 | CINCIAHOJE | 306 | VOL. 51

    Computao para uma sociedadeconectada e digitalizada

    BIG DATA

  • 8/12/2019 Big Data 306

    2/6

    Uma cmera registraa placa de um carro.

    Algum paga uma conta com o cartode crdito, aluga um filme na TVa cabo ou posta uma mensagem

    em uma rede social...

    A cada transao,dados vo sendo guardados.A digitalizao e conexo total

    de nossa sociedade resultam nacriao e no armazenamento de uma

    quantidade enorme de dados.Uma variedade de informaes gerada

    no s por cientistas, empresase governos, como acontecia antes,

    mas tambm pela populaoem geral, por meio de equipamentoscomo cmeras digitais ou programas

    como as redes sociais.Essa informao pode ser til?

    Pode ser correlacionada?

    Geraldo XexoDepartamento de Cincia

    da Computao,

    Instituto de Matemtica e Programa de Engenharia

    de Sistemas e Computao (Coppe),Universidade Federal do Rio de Janeiro

    >>>

    Big Data descreve um conjunto de problemas esuas solues tecnolgicas em computao apli-cada com caractersticas que tornam seus dadosdifceis de tratar. H consenso de que trs des-sas caractersticas, as iniciadas pelos trs Vs,

    so as principais: volume, velocidade e variedade. Apesar deBig Data ser uma expresso criada para ter impacto merca-dolgico, acabou definindo uma nova rea de pesquisa.

    Como o termo Big Data faz supor, um dos desafios aenorme quantidade de dados, ou seja, seu volume. Os sis-temas tradicionais atuais no esto preparados para tratarcertas colees de dados que j temos ou vamos obter nosprximos anos. A previso que passaremos da faixa demuitos gigabytes (bilhes de bytes) ou poucos terabytes (tri-lhes) para a faixa de petabytes (milhares de trilhes) ouat mesmo exabytes(milhes de trilhes).

    Para dar uma ideia, um disco rgido comum tem atual-mente em torno de 1 terabyte. O LHC, o maior aceleradorde partculas do mundo, no Centro Europeu de PesquisasNucleares (CERN), na Sua, armazena 15 petabytes por

    ano de dados na forma original. o equivalente a 15 mildiscos rgidos cheios. Ao longo do tempo, os dados j somam100 petabytes.

    Velocidade significa que esses dados so enviados aosnossos sistemas com uma taxa de bytespor intervalo de tem-po muito alta, to grande que no temos como armazen-lostodos. Assim, muitas vezes, somos obrigados a escolher da-dos para guardar e outros para descartar. Para armazenaraqueles 15 petabytes por ano, o CERN escolhe dados rele-vantes entre 15 petabytesgerados por segundo de operaodo LHC.

    Como saber o que guardar e guardar cada vez mais r-

    pido o desafio.

    Mais trs Vs Variedade significa que os dados aparecemem formas diferentes. Nossos sistemas tradicionais so oti-mizados para processar dados que podem ser facilmentedescritos na forma de tabelas, como uma planilha eletrni-ca, onde cada coluna tem tamanho constante ou previs-vel, mesmo que a quantidade de linhas seja muito gran-de. Entretanto, muitos dos novos tipos de dados tm for-matos mais livres (textos, imagens etc.) ou com estruturasespecficas (redes, por exemplo).

    CINCIAHOJE|306 |AGOSTO 2013|19

  • 8/12/2019 Big Data 306

    3/6

    C O M P U T A O

    A partir desses trs Vs, diversos autores propemainda outros conceitos, como veracidade, variabilidadeou valor. So outras preocupaes importantes, comogarantir que o dado seja verdadeiro e ainda vlido notempo.

    Outra maneira de entender Big Data est na formacomo os dados acabam sendo usados muitas vezes,no planejada desde sua criao. A prtica de guardarinformao qualquer que seja permite que, maistarde, exista uma disponibilidade que pode ser apro-veitada em uma oportunidade no identificada previa-mente. No jargo da rea, modelamos ou remodelamosos dados depois de obt-los.

    Basicamente, com a diminuio do custo de armazena-mento de dados causada pela reduo do preo dos discosrgidos e das fitas magnticos, guarda-se tudo que pos-svel e, mais tarde, descobre-se como usar. Vale lembrar

    aqui que o preo de armazenar 1 megabyteem mdia mag-ntica caiu de US$ 30 (cerca de R$ 60), em 1980, paramenos de US$ 0,0001 (cerca de R$ 0,00005) neste ano.

    Muitos desses dados esto ou podem ser relacionados,mesmo que criados de forma independente. Por exem-plo, mensagens que so enviadas por redes sociais j fo-ram cruzadas com os movimentos das bolsas de valorese com a evoluo geogrfica da gripe.

    Essas caractersticas geraram novos desafios tecnol-gicos na computao e exigem novos tipos de sistemas,seja de equipamentos, seja de programas.

    Mercado e empregos Esses dados realmenteexistem? So to comuns? A resposta afirmativa paraas duas questes.

    Portanto, resta perguntar: onde esto?No comrcio, por exemplo. Quantas informaes so

    geradas em cada venda em uma rede de supermercados?E se essas informaes forem cruzadas com mensagensem redes sociais sobre mercados, produtos, receitas e

    notcias na mdia? Ou e tambm com dados de clubesde relacionamento, de carto de crdito e as regiesgeogrficas em que acontecem?

    Raciocinando dessa forma, sistemas que analisamtoda essa informao permitem a obteno tanto de per-fis de consumo individualizados quanto da experinciade compra do cliente e seus gastos.

    J na indstria, um dos fatores que aumentaram aquantidade de dados foi a multiplicao dos sensores devrios tipos, de cmeras de alta definio a simples con-tadores ou termmetros. Mais: uma empresa pode colo-car sensores no s em sua fbrica, para analisar o pro-

    cesso produtivo, mas tambm em seus produtos, queenviam, ao fabricante, dados sobre sua localizao geo-grfica, seu uso e desempenho.

    A maioria das casas j tem equipamentos que forne-cem constantemente informao aos seus produtores ouprovedores de servio, como computadores e as deze-nas de programas neles instalados , equipamentos deTV a cabo e celulares. A cada ano, produtos que consi-deramos mais simples passam a funcionar com compu-tadores integrados que enviam informao a seus fabri-cantes ou empresas que os operam. J temos geladeirasligadas internet, e a proposta que os produtos guar-dados nessas geladeiras possam informar seu estado ouritmo de consumo.

    No Brasil, em especial, a indstria de petrleo gran-de criadora de dados, que vo da pesquisa ssmica inicial

    Quanto de informao?(em valores aproximados)

    20 |CINCIAHOJE |306 |VOL. 51

    BASEADOEM:

    HTTP:/

    /BIT.L

    Y/12QWLUW

  • 8/12/2019 Big Data 306

    4/6 CINCIAHOJE|306 |AGOSTO 2013|21

    Para isso, precisamos de novas teorias e tecnologias.Uma questo crtica como armazen-los de forma

    que possam ser rapidamente encontrados e manipula-dos. Um dos grandes desenvolvimentos tecnolgicos emcomputao do sculo passado foram os Sistemas de

    Gerenciamento de Banco de Dados (SGBDs). So elesque permitem que tratemos de forma eficiente milhesde contas bancrias e outros sistemas que basicamentefazem o gerenciamento de transaes.

    Todos os SGBDs compartilham uma linguagem cha-mada SQL (sigla, em ingls, para linguagem de con-sulta estruturada), e o modo de organizar essas tabelaspara condies timas de acesso bem conhecida. Comnovos tipos de dados, essa tecnologia no eficiente, e,para alguns, o caminho parece ser o que denominamosbancos de dados No-SQL ou outros ainda mais especia-lizados, como bancos de dados para grafos. Outra solu-

    o adotada por empresas que produzem os SGBDs adicionar a esse tipo de linguagem funes que tratemespecificamente dos novos desafios.

    Outro caminho a paralelizao do processamento,ou seja, a realizao simultnea de vrias tarefas, o queajuda a diminuir o tempo de resposta quando lidamoscom bases de dados muito grandes. Essa paralelizao sed em muitos nveis. Por exemplo, em um computadorcom vrios processadores (chips); em processadores comvrios ncleos; ou pela unio de computadores para for-mar uma rede que age como um supercomputador.

    H ainda a opo do processamento em nuvem, emque computadores podem ser alocados ou alugados sobdemanda, no momento em que o processamento ne-cessrio. Propostas como o programa livre Hadoop ba-seado no MapReduce, um dos mecanismos que fazem o

    e monitorao eletrnica de poos at a venda de com-bustvel na bomba dos postos de abastecimento. Porexemplo, em dezembrodo ano passado, o Banco de Da-dos de Explorao, mantido pela Agncia Nacional dePetrleo (ANP), continha 4,57 petabytes e isso s com

    dados relativos a pesquisas ssmicas.Os dados desse banco da ANP so usados por vriasempresas de petrleo, que produzem ainda mais infor-mao. A partir deles, so gerados imagens e filmes queso analisados e geram textos e relatrios, que, por suavez, geram investimentos financeiros, movimentos dabolsa e notcias na mdia.

    Um desafio importante entender como esses dadosevoluem. Essa tarefa criar, em 2015, segundo a grandeempresa norte-americana de consultoria Gartner Group,cerca de 4,4 milhes de empregos muitos deles paraprofissionais capacitados a analisar esses dados , em um

    mercado mundial avaliado, j para este ano, em US$ 34bilhes (cerca de R$ 70 bilhes).Aproveitando essas oportunidades, grandes empresas

    de computao j orientam suas linhas de produtos eservios para atender a esse mercado.

    Desafios pela frente Segundo Simon Szykman,diretor de informtica do Departamento de ComrcioNorte-americano, os desafios em relao aos dados po-dem ser divididos em: i) como adquirir; ii) armazenar;iii) processar; iv) transmitir e disseminar; v) gerenciare manter; vi) arquivar por longo prazo; vii) garantir asegurana; viii) treinar pessoas para us-los; ix) pagarpor tudo isso. Ainda podemos adicionar a esses desafios,como entend-los de forma isolada e como relacion-los.

  • 8/12/2019 Big Data 306

    5/6

    C O M P U T A O

    22 |CINCIAHOJE |306 |VOL. 51

    Googlefuncionar permitem que um problema seja di-vidido por vrias mquinas e, depois, tenha seu resulta-do agregado em uma mquina central.

    Em todo caso, qualquer que seja o desenvolvimentona rea, uma questo importante entender qual o efei-to do aumento da quantidade de dados (ou de processa-dores), para se obter a soluo de um problema. Paracada algoritmo que usamos, podemos calcular sua com-plexidade, que indica como cresce o tempo de soluoem funo do crescimento da quantidade de dados. Porexemplo, para comparar todos os pares de uma coleoqualquer (nomes, CPFs, nmero de telefones, compras,endereos etc.), precisamos gastar um tempo proporcio-nal ao quadrado da quantidade de dados. Caso o tempofosse medido em microssegundos e uma lista com quatronomes levasse 16 microssegundos; uma com 10 nomeslevaria, ento, 100 microssegundos.

    Portanto, com bases de dados enormes, precisamosmelhorar nossos algoritmos, diminuindo sua complexida-de, ou buscar solues aproximadas caso contrrio, oprocessamento se torna invivel pelo enorme tempo de-mandado. Algumas vezes, solues paralelas permitemdesempenho superlinear, isto , o aumento de velocida-de maior do que o aumento do nmero exigido de pro-cessadores. Em outros casos, em problemas tipicamentesequenciais, o efeito da paralelizao pode ser inferior multiplicao dos processadores. Outra forma de atacaresses problemas utilizar tcnicas de amostragem, o queexige um tratamento estatstico da forma de trabalho.

    Desenvolver novos algoritmos uma das tarefas mais

    difceis postas frente do pesquisador de Big Data.

    Fora humana Big Datatambm tem relao comoutras reas de pesquisa. A chamada nuvem computacio-nal, muitas vezes, o que permite que essas quantidadesde dados sejam trabalhadas e compartilhadas. Grandeslojas virtuais de vendas pela internet oferecem gratuita-mente uma enorme quantidade de dados para pesquisa-dores como uma coleo de 5 bilhes de pginas j na-vegadas. Tambm esto disponveis para a pesquisa ba-ses de dados sobre o genoma.

    Claro que, para usar os dados, muitos pesquisadoresacabam comprando recursos computacionais da empre-sa que os forneceu. O principal motivo que no fcilter poder computacional para tratar tanta informao disposio.

    Crowdsourcing outra rea relacionada, usada quan-do empregamos pessoas para gerar dados ou realizarparte do processamento, principalmente em processosem que humanos ainda so melhores que computadores,como no reconhecimento de padres. Exemplos: i) pes-quisas sobre redes sociais nos ajudam a detectar vrus;ii) jogos so construdos para que internautas colabora-rem na busca de solues para problemas difceis, comoPhylo, no qual podemos tentar alinhar sequncias deDNA (material gentico).

    Uma das principais aplicaes de ter disposio umagrande quantidade de dados descobrir algo novo. Issopode se dar por deteces de padres, levantamento deregras ou aprendizado de mquina. Analisando e criandoum modelo de execuo a partir de exemplos, podemosfazer com que um computador aprenda a reconhecerpadres ou fazer previses.

    O LHC gera 15 petabytes de informao por segundo, mas s so guardados 15 petabytes por ano

    CERN

  • 8/12/2019 Big Data 306

    6/6 CINCIAHOJE|306 |AGOSTO 2013|23

    SENTIMENTO NAS REDES SOCIAIS

    O Programa de Engenharia de Sistemas e Computao pertence Coppe, como mais conhecido o maior centro de pesquisa emengenharia da Amrica Latina, o Instituto Alberto Luiz Coimbrade Ps-graduao e Pesquisa de Engenharia, da UniversidadeFederal do Rio de Janeiro, que este ano completa seu 50 aniver-srio de fundao. Naquele programa, so feitas pesquisas quetratam de todo o ciclo de vida de Big Data. No momento, o autordeste artigo investiga modelos de representao para textos e aanlise do sentimento expresso em mensagens em redes sociais.

    Para o pblico, o resultado das pesquisas em Big Datafica mais claro quando investigamos sua aplicao, mani-pulando dados reais e obtendo resultados surpreendentes.Como grande parte da pesquisa em Big Data aplicada,muitos dos casos de sucesso acontecem em outras reasda cincia, como em sade ou fsica de altas energias.

    A organizao no governamental Global Viral usatcnicas de crowdsourcingpara descobrir surtos de doen-as contagiosas em seu incio. No Japo, uma rede demilhares de sensores permite detectar terremotos e avi-sar a populao. Empresas de cotao de preos, bemcomo as de vendas pela internet, analisam o perfil dosclientes, para dar sugestes de consumo. Instituiesfinanceiras e governos avaliam milhes de transaesfinanceiras em busca de fraudes.

    Mesmo o padro de comunicao entre celulares, r-dios, sem que se saiba o que est sendo falado como noescndalo recentemente revelado sobre o monitoramen-

    to feito pelo governo norte-americano , pode ajudar adescobrir uma conspirao. Mas Big Data pode atenderobjetivos bem mais pragmticos: por exemplo, empresasde TV por internetobservam seus clientes e analisam asmanifestaes nas redes sociais para orientar a produode sries de televiso.

    E a tica? No podemos deixar de lembrar que BigDatatambm traz tona novos problemas ticos. O queempresas e governos fazem com tantos dados privados?Que informao pode ser deduzida a partir de dados?

    O uso das informaes que estamos guardando eanalisando pode ter resultados no desejados. famosaa histria do caso de um pai que descobriu, por meio dapropaganda direcionada de uma rede norte-americanade lojas de varejo, que sua filha adolescente estava gr-vida fato que havia sido detectado pelos algoritmos daempresa. Questes como a dificuldade de garantir asegurana e privacidade de dados chegam a inviabilizarprojetos, como uma base central de pronturios mdi-cos, devido ao risco de essa informao ser utilizada deforma indevida.

    A disponibilidade dessas grandes bases de dados e aviabilidade de sua interligao permitem que imagine-mos aplicaes que salvam ou prejudicam vidas. Fazerum julgamento tico ou moral de uma tecnologia no questo simples. Vrios pesquisadores se debruam so-bre o tema, entre eles o professor de histria norte-ame-ricano Melvin Kranzberg (1917-1995), que disse: Atecnologia no boa nem m, nem neutra.

    No devemos esquecer o ditado que diz: informao poder. Mesmo uma aplicao altamente benfica,como o pronturio mdico integrado, nas mos erradas,pode resultar em polticas discriminatrias. essencialum questionamento tico constante no s sobre o uso,mas tambm sobre a coleta, o armazenamento e contro-

    le de acesso a esses dados.

    No Brasil Big Data tambm uma preocupao demuitos pesquisadores e profissionais brasileiros, tanto nacomputao quanto em outras reas que esto gerandoe analisando dados. Como pas de grandes propores ecom uma populao de aproximadamente 200 milhesde pessoas, algumas bases de dados aqui j traziam pro-

    blemas de Big Dataantes que esse nome fosse criado.Por exemplo, as bases de dados do Instituto Nacionalde Seguro Social (INSS) e do Fundo de Garantia por Tem-po de Servio (FGTS) esto entre as maiores do mundosobre pessoas. A base da Receita Federal associa e cruzadados fornecidos por empresas e pessoas fsicas sem fa-lar na necessidade de receber milhes de declaraes emcurto espao de tempo. Segundo a Agncia Nacional deTelecomunicaes, as empresas de telefonia mvel reali-zaram 262 milhes de acessos apenas em janeiro desteano. At a questo que parece simples de calcular aconta telefnica no Brasil um problema de Big Data.

    Assim como nuvem, Big Data um termo que agre-ga muita coisa que j vinha sendo feita. Caracteriz-locomo uma rea especfica de pesquisa tem a vantagemde direcionar para ela pesquisadores e profissionais queatuavam em reas distintas e, com isso, abrir mais opor-tunidades de cooperao. um campo interessante paraa interao entre universidades e empresas, bem comopesquisadores de computao e de outras reas, devido importncia da utilizao de dados reais nas pesquisas.A oportunidade aparece quando juntamos quem tem osdados com quem tem ou pode criar as ferramentasadequadas para trat-los.

    Sugestes para leituraBig Data Now: 2012 Edition [Edio Kindle]. OReilly Media Inc.

    NA INTERNET

    Quantos bytes? (em ingls): http://bit.ly/12qwLUw