114
Pontifícia Universidade Católica de São Paulo Luna Neide Macedo Gutierres O conceito de big data: novos desafios, novas oportunidades. Mestrado em Tecnologias da Inteligência e Design Digital. São Paulo 2017

Pontifícia Universidade Católica de São Paulo · 2017-10-04 · Mestrado em Tecnologias da Inteligência e Design Digital. São Paulo 2017 . Pontifícia Universidade Católica

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Pontifícia Universidade Católica de São Paulo

Luna Neide Macedo Gutierres

O conceito de big data: novos desafios, novas oportunidades.

Mestrado em Tecnologias da Inteligência e Design Digital.

São Paulo 2017

Pontifícia Universidade Católica de São Paulo

Luna Neide Macedo Gutierres

O conceito de big data: novos desafios, novas oportunidades

Dissertação apresentada à Banca Examinadora da

Pontifícia Universidade Católica de São Paulo, como

exigência parcial para obtenção do título de Mestre

em Tecnologias da Inteligência e Design Digital,

redigida sob a orientação do professor Dr. Claudio

Fernando André.

São Paulo 2017

Macedo Gutierres, Luna Neide.

O Conceito de big data. Novos Desafios. Novas

Oportunidades

Registro: 2017

Orientador: Claudio Fernando André.

Dissertação de Conclusão de Mestrado – Pontifícia

Universidade Católica de São Paulo

1. Big data. 2. Dados. 3. Analítica. Mudança Tecnológica.

GUTIERRES, Luna Neide Macedo. O conceito de big

data: novos desafios, novas oportunidades. Dissertação.

Pontifícia Universidade Católica de São Paulo. Mestrado em

Tecnologias da Inteligência e Design Digital, redigida sob a

orientação do professor Dr. Claudio Fernando André.

Dissertação aprovada em São Paulo, a …………. de julho de 2017, pela

banca composta pelos professores:

__________________________________________

Professor Dr. Claudio Fernando André

PUC-SP Orientador

__________________________________________

Professora Dra. Ana Maria Di Grado Hessel

PUC-SP

__________________________________________

Professora Dra. Regina Claudia Cantele

FIAP-SP

AGRADECIMENTOS

Em primeiro lugar, agradeço o meu marido, Ruy Augusto Gutierres, que faz

toda a diferença em minha vida, sempre.

A todos os professores da PUC – SP que, com sua generosidade,

apresentaram-me novos caminhos e possibilidades que, certamente, contribuirão em

todos os aspectos de minha vida.

A todos nas instituições em que leciono, que me permitem consolidar

conhecimentos, ganhar experiência e conviver com pessoas especiais diariamente.

A Edna Conti, da PUC – SP, que é a grande maestra do nosso curso.

Ao meu orientador, Prof. Doutor Claudio Fernando André, que, com seu

conhecimento, experiência e paciência, tornara possível a conclusão deste trabalho.

Em especial, aos meus alunos, que são a grande inspiração na busca

contínua do conhecimento.

RESUMO

O mundo enfrenta um crescimento exponencial de dados. Dados são criados

por dispositivos inteligentes, tecnologias RFID (Radio-Frequency IDentification),

sensores, redes sociais, vigilância por vídeo e muito mais. Esses dados gerados não

são mais considerados estáticos, cuja utilidade termina depois que o objetivo da

coleta é alcançado, eles se tornaram a matéria-prima dos negócios, um recurso

econômico vital, usado para criar uma nova forma de valor econômico. Surge então

o conceito de “big data”. O objetivo desta pesquisa é levantar a discussão sobre o

conceito de big data, extraindo da literatura atual definições que ofereçam subsídios

para o entendimento de seu real significado e impacto na geração de ideias úteis e

bens e serviços de valor significativo. Entretanto, por ser um tema recente, a

literatura disponível é escassa. É uma investigação de finalidade aplicada, com um

objetivo descritivo e utiliza o método qualitativo de abordagem. Tem por tipo de

pesquisa a revisão da literatura para a fundamentação teórica, e também a revisão

de estudo de dois casos através de pesquisa exploratória para a coleta dos dados a

serem analisados. Busca confrontar a teoria com as hipóteses e práticas

identificadas, para avaliar sua aderência, chegando em conclusões fundamentadas,

além de sugerir estudos futuros que podem dar continuidade a esta linha abordada.

Palavras-chave: big data, dados, analítica, mudança tecnológica.

ABSTRACT

The world faces exponential data growth. Data is created by smart devices,

RFID technologies (Radio-Frequency IDentification), sensors, social networks, video

surveillance and more. These generated data are no longer considered static, whose

usefulness ends after the purpose of the collection is reached, they have become the

raw material of the business, a vital economic resource, used to create a new form of

economic value. Then comes the concept of “big data”. The objective of this research

is to raise the discussion about the concept of big data, drawing from the current

literature definitions that offer subsidies for the understanding of its real meaning and

impact in the generation of useful ideas and goods and services of significant value.

However, because it is a recent theme, the available literature is scarce. It is an

applied purpose research with a descriptive purpose and uses the qualitative method

of approach. It has by type of research the review of the literature for the theoretical

basis, and also the study review of two cases through an exploratory research to

collect the data to be analyzed. It seeks to confront the theory with the identified

hypotheses and practices, to assess its adherence, arriving at informed conclusions,

and to suggest future studies that may continue this line.

Keywords: big data, data, analytical, technological change.

ÍNDICE DE ILUSTRAÇÕES

Figuras:

Figura 1 – Ciclo Hype do Gartner 2012. ................................................................... 11

Figura 2 – Data IQ. ................................................................................................... 39

Figura 3 – Dimensão do banco e capacidade analítica. ........................................... 41

Figura 4 – Quatro tipos de capacidade analítica. ..................................................... 43

Figura 5 – Estágios da analítica. .............................................................................. 44

Figura 6 – As 5 fases principais do big data. ............................................................ 46

Figura 7 – Infraestrutura do armazém de dados. ..................................................... 48

Figura 8 – Oportunidade de big data - mapa de calor por indústria. ........................ 59

Figura 9 – Data Warehouse Empresarial: simples e tradicional................................66

Figura 10 – Big data e hadoop: simples configuração hadoop autônomo. ............... 67

Figura 11 – Estágio dados estruturados: configuração tradicional ............................ 69

Figura 12 – Processo dados estruturados: configuração tradicional ......................... 70

Gráficos:

Gráfico 1 – Crescimento dos dados. ......................................................................... 27

Quadros:

Quadro 1 – O dado, a informação e o conhecimento. ............................................... 23

Quadro 2 – Definições de big data ............................................................................ 31

Quadro 3 – Outras definições de big data..................................................................33

Quadro 4 – 5 Vs do big data. ..................................................................................... 34

Quadro 5 – Definição 5 Vs. ........................................................................................ 36

LISTA DE ABREVIATURAS

BI – Business Intelligence

CNPq – Conselho Nacional de Desenvolvimento Científico e Tecnológico;

Coppe – Instituto Alberto Luiz Coimbra de Pós-Graduação e Pesquisa de Engenharia, da UFRJ;

CRM – Customer Relationship Management;

EDW – Ecossistema de data warehouse;

ERP – Enterprise Resource Planning;

ETL – Extract Transform Load;

FGV – Fundação Getúlio Vargas;

GFS – Google File System;

GPS – Global positioning system;

HDFS – Hadoop Distributed File Syste;

HDFS – Hadoop Distributed File System;

HMR – Haddop MapReduce;

IDC – International Data Corporation;

Labic – Laboratório de Estudos sobre Imagem e Cibercultura;

NASA (National Aeronautics and Space Administration;

NoSQL – Não SQL;

NTIC’s - Novas Tecnologias de Informaão e Comunicação;

OCEAN – Openness to experience, conscientiousness, extraversion, agreeableness, neuroticism;

ODS – Operational Data Source;OLAP - Online Analytical Processing;

POS - Point of Sale;

QA- Question Answer;

RFID – Radio-frequency Identification;

SGBD – Sistema Gerenciador de Banco de Dados;

Tecccog – Grupo de Pesquisa Tecnologia, Comunicação e Ciência Cognitiva;

TI – Tecnologia da Informação;

UFES – Universidade Federal do Espírito Santo;

UFRJ – Universidade Federal do Rio de Janeiro;

UNECE – United Nations Economic Comission for Europe;

UNSD – United Nations Statistics Division;

XML Extensible Markup Language.

SUMÁRIO

1 INTRODUÇÃO ..................................................................................... 91.1 DEFINIÇÃO DO TEMA ................................................................................ 091.2 DELIMITAÇÃO DO PROBLEMA DA PESQUISA ................................................ 121.3 LOCALIZAÇÃO NO TEMPO E NO ESPAÇO ..................................................... 131.4 JUSTIFICATIVA DA ESCOLHA ...................................................................... 131.5 OBJETIVOS GERAL E ESPECÍFICO .............................................................. 161.5.1 Objetivo geral ..................................................................................... 161.5.2 Objetivos específicos ......................................................................... 161.6 INDICAÇÃO DA METODOLOGIA ................................................................... 17

2 FUNDAMENTAÇÃO TEÓRICA .............................................................. 192.1 REVISÃO DA LITERATURA ......................................................................... 192.2 DADOS ................................................................................................... 212.3 BIG DATA ................................................................................................ 242.4 ANALÍTICA ............................................................................................... 372.5 TERMOS IMPORTANTES RELACIONADOS .................................................... 472.6 RISCOS DO BIG DATA ............................................................................... 492.7 USOS E APLICAÇÕES DO BIG DATA ............................................................ 512.8 BIG DATA VERSUS SMALL DATA ................................................................. 592.8.1 Objetivos ............................................................................................ 602.8.2 Localização ........................................................................................ 602.8.3 Estrutura de dados e conteúdo .......................................................... 612.8.4 Preparação dos dados ....................................................................... 612.8.5 Longevidade ...................................................................................... 612.8.6 Mensuração ....................................................................................... 622.8.7 Reprodução ....................................................................................... 622.8.8 Suporte .............................................................................................. 622.8.9 Visão interna – introspecção ............................................................. 632.8.10 Análises ............................................................................................ 632.9 VISÃO TECNOLÓGICA DE BIG DATA ............................................................ 64

3 ANÁLISE DE CASOS .......................................................................... 713.1 BIG DATA EM CAMPANHAS ELEITORAIS ....................................................... 713.1.1 O caso da campanha eleitoral de Obama ......................................... 743.1.2 Segunda eleição de Obama, 2012 .................................................... 753.1.3 Do Brexit a Trump: como o big data pode estar se tornando

decisivo nas eleições ................................................................... 77

4 ANÁLISES DOS RESULTADOS DA PESQUISA ....................................... 855 CONCLUSÕES ................................................................................ 1006 REFERÊNCIAS ................................................................................ 104

9

1 INTRODUÇÃO

1.1 DEFINIÇÃO DO TEMA

O IDC (internacional Data Corporation), empresa de inteligência de

mercado e consultoria nas indústrias de tecnologia da informação,

telecomunicações e mercados de consumo em massa de tecnologia, estimou

que os dados criados pela humanidade em 2000 foram de dois exabytes;

quantidade similar foi criada em 2011 a cada dia (LYMAN & VARIAN, 2011).

A Revolução Industrial foi um grande marco na história da humanidade.

Seus desdobramentos afetaram todo o mundo. O termo foi usado para

descrever as mudanças e avanços sociais entre os séculos XVIII e XIX e foi

escolhido porque as mudanças da época eram tão drásticas que o único

evento similar em que poderia se inspirar foi o da Revolução Francesa.

Estamos atualmente em direção a um momento igualmente

revolucionário: a revolução dos dados, ou seja, a revolução de big data. A

sociedade em rede redefiniu as estruturas sociais fazendo com que todo o

repertório construído pela vida em sociedade fosse alterado completamente.

Não se produz como antigamente, não se negocia mais da mesma

maneira e os relacionamentos não são mais como antes. A forma de trabalho

está tentando acompanhar as novidades, independentemente do segmento em

que se atua. Há exemplos de fracasso em indústrias e empresas que ainda não

conseguiram se adaptar à nova lógica econômica, mas há exemplos de

pessoas e empresas estabelecendo novas formas de conexão para impulsionar

a inovação e o sucesso.

Essas organizações lançaram mão da colaboração em massa a fim de

criar um valor real para os participantes e têm estabelecido novos padrões de

gestão. Desde então, o mundo está enfrentando crescimento exponencial de

dados; incalculáveis volumes de dados são gerados pelos dispositivos

inteligentes, tecnologias de RFID (Radio-Frequency Identification) que são

10

identificadores por rádio-frequência, sensores, mídia social, vigilância por vídeo

e diversos outros canais e dispositivos que surgem a cada dia.

Nos dias modernos de big data, a curadoria dos dados tornou-se cada

vez mais importante, especialmente para o manuseio de sistemas de dados de

alto volume e complexos.

Com os volumes de dados crescendo exponencialmente, juntamente à

crescente variedade e heterogeneidade das fontes, sua análise tornou-se um

processo dispendioso e demorado. Múltiplos conjuntos de dados de várias

fontes devem primeiro ser processados e conectados antes que eles possam

ser usados por ferramentas de análises de dados.

A publicação e a apresentação da análise de dados também são muito

importantes. No entanto, os sistemas tradicionais de tratamento de dados não

foram projetados para esse propósito e não há consideração em valores

cronológicos. Outra limitação é que são, geralmente, projetados para

programadores, não para usuários comuns.

Enquanto os dados são criados principalmente por indivíduos, espera-se

que as organizações os gerenciem (GANTZ & REINSEL, 2011). As discussões

se iniciam no sentido de entender se Isso não é um fardo inevitável para as

organizações ou se o problema de gerenciar e armazenar dados é

preocupação vital que precisa de resolução imediata.

Os defensores do big data acreditam que a explosão de informações

representa enorme oportunidade para as organizações e a sociedade; minerar

esse volume de dados desorganizados provavelmente relevará oportunidades

das mais variadas.

A consultoria empresarial americana Mckinsey (et al., 2011) estimou que

o valor anual potencial de impulsionar big data no sistema de saúde dos EUA

passou de US$ 300 bilhões, e um número ainda maior na administração do

setor público da Europa. Outra consultoria, a Gartner, mencionou o big data

11

mais de dez vezes no Ciclo Hype, relatório publicado que visa mostrar as

tendências em tecnologia emergentes (PETTEY; MEULEN, 2012).

Entretanto, uma análise cuidadosa do Ciclo Hype indica que o big data

está prestes a alcançar o auge da expectativa inflacionada, que é seguida por

uma desilusão. Isso significa que o big data pode ser um modismo e

simplesmente uma nova buzzword (palavra da moda) de TI (Tecnologia da

Informação).

Fonte: Gartner, 2016.

Em paralelo, várias empresas estão competindo para criar tecnologias

sólidas que capturem, gerenciem e analisem essas enormes quantidades de

dados. Outras empresas estão criando mais dispositivos inteligentes e

aplicativos para criar ainda mais dados. Vários investimentos estão sendo

feitos com o propósito de coletar sem certeza de ganho real, esperando-se

descobrir como monetizá-los em algum momento, seguindo o caminho do

Facebook ou do Google, por exemplo.

Figura 1 – Ciclo Hype do Gartner 2012.

12

“Como os computadores permitiram que os humanos

coletassem mais dados do que podemos assimilar, é natural voltar-se

para técnicas computacionais para nos ajudar a descobrir padrões e

estruturas significativas dos volumes massivos de dados.” (FAYYAD

et al., 1996).

Esses muitos dados gerados são desestruturados ou semiestruturados,

o que é uma forma diferente de geração e captura com que as tecnologias

tradicionais estavam aptas a lidar. Eles também são criados e transmitidos em

alta velocidade, o que requer agilidade no entendimento do valor gerado. Isso

representa outro desafio para as tecnologias tradicionais e atuais.

Big Data é um termo genérico para dados que não podem

ser contidos nos repositórios atuais; refere-se a dados volumosos

demais para caber em um único servidor; não estruturados demais

para se adequar a um único banco de dados organizado em linhas e

colunas; ou fluidos demais para serem armazenados e um data

warehouse estático. (DAVENPORT et al, 2014, p.1)

O entendimento e conhecimento acerca do tema em questão são

relevantes. Portanto, é objetivo desse projeto entender mais profundamente o

conceito de big data e tentar diferenciar realidades e mitos sobre o tema. Para

isto, apresenta uma análise da literatura sobre o assunto, sintetizando

contribuições de especialistas e fazendo uma revisão de estudos de caso do

uso de big data na área política.

1.2 DELIMITAÇÃO DO PROBLEMA DA PESQUISA

De acordo com Manyika et al (2011), a utilização do Big Data apoiará

novas ondas de crescimento da produtividade no universo empresarial e será a

base fundamental da concorrência e crescimento para as organizações,

considerando o mercado competitivo e o potencial de captura do valor

proporcionado. No entanto, seu significado e aplicação ainda não estão claros.

13

A pesquisa objeto deste trabalho, toma como referência a seguinte

questão: o que é big data, de acordo com a literatura atual, e como esse novo

fenômeno tem sido aplicado no campo do marketing político.

A análise de artigos, teses e dissertações foi feita a partir de pesquisas

realizadas em duas bases de buscas selecionadas e disponíveis: Banco de

Teses e Dissertações da Capes: Scopus e ISI (Web of Science) e Banco de

Teses e Dissertações da PUC-SP (Pontifícia Universidade Católica de São

Paulo), o que limita os resultados encontrados ao conteúdo disponível nessas

bases, e também considerando os filtros aplicados às pesquisas realizadas:

conceito de big data e uso em campanhas políticas.

1.3 LOCALIZAÇÃO NO TEMPO E NO ESPAÇO

Embora tenha nascido na década de 1990, na NASA (National

Aeronautics and Space Administration – Administração Nacional da

Aeronáutica e Espaço) – para descrever grandes e complexos conjuntos de

dados, que desafiam os limites computacionais tradicionais de captura,

processamento, análise e armazenamento, para esta pesquisa, a revisão

bibliográfica considerou os últimos cinco anos da literatura disponível. Período

em que o conceito de big data começou a ser desenvolvido e utilizado pelo

mercado com mais frequência.

A literatura considerada neste período teve como foco produções em

língua portuguesa do Brasil e em literatura da língua inglesa, mais

especificamente, dos Estados Unidos.

1.4 JUSTIFICATIVA DA ESCOLHA

A pesquisa em questão pretende proporcionar maior entendimento sobre

o conceito de big data. O tema é relativamente novo e cercado por grande dose

de expectativas e, algumas vezes, seu conceito parte da adaptação de uma

teoria já existente, o que pode diminuir a visão e dimensões do seu

desempenho.

14

Conhecido como big data, esse fenômeno de digitalização nos legou

dados em volume, variedade e velocidade suficientes para torná-los confiáveis.

Uma vez estruturados, esses dados permitem visualização de padrões,

relações e correlações inusitadas e fundamentais para a criação de modelos

descritivos, diagnósticos e preditivos de alta performance usados como

capacitadores do tomador de decisão. Ainda existem muitos obstáculos para

que isso seja algo comum nas instituições e a curva de aprendizagem está

apenas começando, o que dificulta a extração de valor dos dados disponíveis.

Entre os motivos mais relevantes estão a falta de conhecimento de seu

significado e de suas metodologias.

O entendimento do significado e aplicação de big data podem contribuir

para a sociedade como um todo, pois a geração de valor por meio da utilização

de dados poderá criar oportunidades em diversas áreas e, como consequência,

novos degraus serão alcançados na escala da evolução.

Com o surgimento dessas oportunidades, a academia traz sua visão

teórica e fundamental para também contribuir na prática com a geração de

novas ideias e conceitos que, quando aplicados, podem proporcionar

inovações diferenciadas e disruptivas.

Pode ser igualmente interessante desmistificar o significado de um

fenômeno que, a princípio, está cada vez mais estabelecido, como meio

importante a se destacar, avaliando possíveis mudanças positivas e

construtivas que buscam sustentar um crescimento contínuo de geração de

dados e em linha com as novas tecnologias e novos comportamentos, que

aparecem a todo momento nos dias atuais.

A pesquisadora e autora desta dissertação encontra suas motivações

para desenvolver a pesquisa em alguns fatores decorridos no percurso de sua

experiência acadêmico-profissional, pois, sendo publicitária e especialista em

marketing de relacionamento e CRM (Customer Relationship Management),

tendo atuado por mais de 25 anos em agências de propaganda e

relacionamento, sempre viu nos dados um grande aliado para o

15

desenvolvimento de estratégias de comunicação e, até o momento desta

publicação, se interessa pelas questões relacionadas à área.

Também durante a atuação como professora em cursos de marketing

digital, a autora vê o constante crescimento e a importância da utilização de

dados gerados pela sociedade para o desenvolvimento de estratégias de

comunicação de marketing eficazes que tragam benefícios para as empresas e

os consumidores impactados.

Com todos estes fatores interligados, e adicionando a crença pessoal da

pesquisadora de que os dados gerados pela sociedade são uma nova classe

de ativo econômico valioso, a pesquisa se tornou um meio importante e

necessário a fazer parte da etapa de sua vida tanto no ambiente acadêmico

quanto profissional.

Durante o processo para a escolha e delimitação do tema, vários

caminhos se apresentaram em função da novidade da abordagem e de sua

importância inexorável para os tempos atuais.

Nas pesquisas realizadas, identificou-se que os trabalhos produzidos

permeiam o conceito de big data para suportar sua aplicação. Nos trabalhos

pesquisados, o foco da produção estava nos usos e aplicações de big data e

não seu conceito central e seu diálogo com temas relacionados.

Trabalhos foram produzidos no período analisado como: (a) Big Data:

Diretrizes e Técnicas para a Preservação da Privacidade; (b) Utilização de big

data analytics nos sistemas de medição de desempenho: estudos de caso; (c)

Big Data Estratégico: Um Framework Para Gestão Sistêmica do Ecossistema

Big Data; (d) Otimização do processo de aprendizagem da estrutura gráfica de

Redes Bayesianas em Big Data; (e) Usos do Big Data em campanhas

eleitorais; entre outros.

Após a análise e catalogação de todo o material pesquisado, optou-se

pela revisão bibliográfica do conceito de big data, apontando novos desafios e

novas oportunidades. Acredita-se que este projeto é relevante para que o

16

entendimento do conceito fique um pouco mais claro e que contribua para que

sua adoção traga benefícios tangíveis para todos os envolvidos no ecossistema

de geração e utilização de dados.

De acordo com uma matéria da Revista Exame (2016), o big data é uma

das mais promissoras tendências da tecnologia. O fenômeno do big data, em

conjunto com a computação em nuvem – o cloud computing – tem potencial

para ser disruptivo para todas as indústrias.

Diante do impacto dessa nova tecnologia para as empresas, instituições

e sociedade em geral, considerou-se importante e relevante a produção de

trabalhos que apresentem seu conceito na visão de diversos autores.

1.5 OBJETIVOS GERAL E ESPECÍFICO

1.5.1 Objetivo geral

O objetivo geral desta investigação é esclarecer o termo big data e os

conceitos a ele relacionados, bem como tendências e desafios que são parte

do processo.

1.5.2 Objetivos específicos

A partir do objetivo geral proposto, esta pesquisa também tem por

objetivos específicos:

a) Mapear o conhecimento de pesquisadores e acadêmicos acerca de

big data, pela comparação dos resultados da análise da literatura.

b) Avaliar como se deram essas definições com base em sua etimologia

e cronologia e abordagem de seus principais autores;

c) Apresentar conclusão do estudo das buscas feitas com as análises

dos dados;

d) Propor novos estudos para continuidade e evolução dos

conhecimentos abordados.

17

Para a revisão da literatura foi mapeado e avaliado o território intelectual

existente dos últimos 05 anos, período em que o termo big data começou a ser

amplamente discutido.

1.6 INDICAÇÃO DA METODOLOGIA

Seguindo a classificação das áreas de conhecimento apresentadas pela

Capes (BRASIL, 2009), esta pesquisa atua na área multidisciplinar (90000005),

tendo como área de avaliação interdisciplinar (90192000) centrada em sociais

e humanidades.

Esta pesquisa é classificada, quanto aos fins, como exploratória, por

conta de haver pouco conhecimento acumulado e sistematizado (MORESI,

2003), de ter o propósito de proporcionar maior familiaridade com o problema,

com vistas a torná-lo mais explícito e a coleta de informações envolver

levantamento bibliográfico (GIL, 2010).

Quanto aos meios de investigação, este estudo é eminentemente

bibliográfico, pois busca a recuperação do conhecimento científico acumulado

sobre o problema formulado, via compilação das publicações existentes como

livros, revistas, periódicos, artigos científicos, jornais, boletins, Internet, porém

não é mera repetição do que já foi dito ou escrito sobre certo assunto; propicia

o exame de um tema sob novo enfoque ou abordagem (MARCONI; LAKATOS,

2010).

É uma revisão da literatura com enfoque em uma revisão narrativa

(ELIAS et al., 2012), que tem por tipos de pesquisa a bibliográfica para a

revisão da literatura e para a fundamentação teórica utilizada, e também a

revisão do estudo de caso de duas campanhas eleitorais americanas.

Esta investigação tem dois propósitos (MAZZOTTI, 2002): a construção

de uma contextualização para o problema e a análise das possibilidades

presentes na literatura consultada para a concepção do referencial teórico da

pesquisa.

18

Do ponto de vista dos procedimentos técnicos, a pesquisa bibliográfica

tem como escopo recuperar o conhecimento científico sobre o tema e as

questões que já foram abordadas, a partir de material já publicado, constituído

por livros, artigos de periódicos, dentre outros, de modo que se verifique as

opiniões similares e diferentes, bem como aspectos a respeito do problema

(GIL, 2010). Assim, a pesquisa visa proporcionar maior familiaridade com o

problema com vistas a torná-lo explícito, pelo envolvimento de levantamento

bibliográfico, cuja principal vantagem reside no fato de permitir que o

pesquisador cubra uma gama de fenômenos mais ampla do que aquela que

poderia ser pesquisada diretamente.

“Todo conceito tem uma história, semelhante a uma história

de vida, exceto que, no caso dos conceitos, quanto mais férteis eles

são, tanto mais sua história tende a ser potencialmente sem fim. Eles

nascem, crescem e proliferam com vida própria pelos mais diversos

campos do saber, de modo que rastrear o mapa de seus caminhos,

os mais largos, os vicinais, enfim, de todos os seus meandros, é

tarefa não só, de certo modo, detetivesca, como também impossível

de ser levada a cabo por uma só pessoa.” (SANTAELLA, 2007, p. 26)

Como primeira etapa do mapeamento, será apresentado o levantamento

bibliográfico, que tem por finalidade levantar todas as referências encontradas

sobre o tema (CERVO; BERVIAN, 2002). A partir da revisão sistemática da

literatura e das análises realizadas na literatura pesquisada, foram definidos os

constructos deste trabalho e suas principais variáveis. O constructo big data

possui cinco variáveis: veracidade, volume, velocidade, variedade e valor.

Essas variáveis foram estabelecidas de acordo com as definições de

Zikopoulos et al. (2011).

19

2 FUNDAMENTAÇÃO TEÓRICA

De acordo com Demo (2000), é fundamental que a pesquisa tenha uma

base teórica de caráter explicativo. Alguns procedimentos necessários para

haver fundamentação teórica são: definir os conceitos-chave e estudar a

bibliografia pertinente.

Os principais autores consultados e que dão suporte a esta pesquisa

são: Charlene Li e Josh Bernoff (2010) no que tange aos fenômenos sociais

nos negócios; Brian Solis (2009); Kenneth Cukier (2013), Viktor Mayer-

Schönberger (2013) e Jules J. Berman (2013), que apresenta uma análise

sobre o conceito de big data. No que se refere a pesquisa bibliográfica para

contextualizar big data, usam-se principalmente as contribuições dos autores

Schönberger-Mayer e Cukier (2013), que são os pioneiros e referências no

mundo na discussão dessa temática.

Após estudar a bibliografia pertinente, este capítulo apresenta a revisão

sistemática da literatura que foi realizada para mapear as publicações

existentes. Este capítulo também contém uma seção dedicada à

fundamentação teórica de temas relacionados a big data como: dados e

analítica.

2.1 REVISÃO DA LITERATURA

Para os objetivos deste projeto, a literatura consultada contempla

artigos, monografias, dissertações e livros que tratam dos principais conceitos

para o entendimento de big data. Este material traz o que vem sendo publicado

com diferentes pontos de vista e em diferentes instituições, enriquecendo com

conteúdo e informações que servem de apoio no decorrer das reflexões

realizadas, pois abrangem princípios modernos sobre sua aplicação, além de

apresentar as principais questões e desafios, tendências e casos conhecidos

de aplicação do big data.

20

Durante esse processo, várias limitações na pesquisa devem ser

ressaltadas. A primeira foi a escassez de literatura sobre a temática. A maioria

encontrada, e que serviu como orientação para a pesquisa, coloca big data

sempre como um tema ainda em construção, emergente, flexível e plausível de

confusões conceituais, bem como com visões positivas em relação a seus

benefícios. As publicações começam a surgir a partir de 2012, quando essa

dissertação também começa a ser delineada; mas, ao longo dos últimos anos,

inúmeras publicações sobre big data surgiram, ligadas a negócios e tecnologia,

que se caracterizaram como visão parcial do ponto de vista da efetividade e

amplitude dos usos do big data.

Por décadas, as empresas coletaram dados, principalmente dados

transacionais e dados de pesquisa, mas, até recentemente, não haviam

coletado em quantidade suficiente para, no mínimo, vislumbrar seu potencial,

nem mesmo para ter ideia do que fazer com os dados. Contudo, recentemente,

as empresas começaram a enxergar o potencial, e alguns poucos pioneiros

passaram a explorar e a aproveitar os insights na busca de ganhos,

produtividade e lucros. Há uma revolução no horizonte: a revolução do big

data.

A tecnologia de big data é ainda muito recente, mas começa a despertar

o interesse do mercado. Seu conceito ainda está em construção e, como é

fértil, está proliferando pelos mais diversos campos do saber, o que contribui

para certa confusão, já que pode adquirir vários significados, de acordo com o

ângulo em que está sendo visto. As empresas de TI definem big data como

uma solução empacotada que pode ser colocada em prática simplesmente

adquirindo tecnologia do próprio fornecedor.

Big data não é apenas um debate sobre tecnologias, mas,

principalmente, como os negócios poderão usufruir da montanha de dados que

está agora a sua disposição. Para melhor compreensão acerca da definição do

big data, faz-se necessário entender as raízes do acúmulo de dados.

21

2.2 DADOS

Do latim datum (aquilo que se dá), um dado é um documento, uma

informação ou um testemunho que permite chegar ao conhecimento de algo ou

deduzir as consequências legítimas de um fato, e que serve de apoio a

diversas operações.

Dados são definidos como uma sequência de símbolos quantificados ou

quantificáveis. Portanto, um texto é um dado. De fato, as letras são símbolos

quantificados, já que o alfabeto por si só constitui uma base numérica. Também

são dados imagens, sons e animação, pois todos podem ser quantificados a

ponto de alguém que entra em contato com eles ter eventualmente dificuldade

de distinguir a sua reprodução, a partir da representação quantificada, com o

original. É muito importante notar-se que qualquer texto constitui um dado ou

uma sequência de dados, mesmo que ele seja inelegível para o leitor.

Dados são um conjunto de valores ou ocorrências em um estado bruto

com o qual são obtidas informações com o objetivo de adquirir benefícios.

Existem dois tipos de dados: estruturados e não estruturados. Para os dados

estruturados, que são formatados, organizados em tabelas – linhas e colunas –

e são facilmente processados, geralmente utiliza-se um sistema gerenciador de

banco de dados para armazená-los. Um exemplo são os dados gerados por

aplicações empresariais. Os dados não estruturados não possuem formatação

específica e são mais difíceis de serem processados. Por exemplo, mensagens

de e-mail, imagens, documentos de texto, mensagens em redes sociais

(SHRIVASTAVA e SOMASUNDARAM, 2009)

Em informática dados brutos (raw data) designam os dados ou valores

recolhidos e armazenados tal qual foram adquiridos, sem terem sofrido o

menor tratamento. Apresentam-se como um conjunto de números, caracteres,

imagens ou outros dispositivos de saídas para converter quantidades físicas

em símbolos, em um sentido muito extenso.

22

O dado na tecnologia da informação é a representação física de um

evento, no tempo e espaço, que não agrega fundamento para quem o sente ou

recebe, não podendo ser possível entender o que ele representa ou para que

ele existe. Podemos ter como exemplo um número, se somente esse número

for disponibilizado para alguém ou para o tempo e espaço, por alguém ou por

um evento, não é possível saber o que ele significa ou o que ele representa,

podendo representar qualquer coisa ou não representar nada. Porém, quando

existir uma agregação com outro dado ele passa a ter potencial de uma

informação.

A informação é o dado organizado. Um texto pode ser uma informação

uma fonte de muitas informações ou um conjunto de informação, pois se os

dados agrupados gerarem sentido para quem os lê e ficando claro ou não

(valor da informação se dá à qualidade com a qual é disponibilizada, reduzindo

ou aumentando a probabilidade de interpretação ambígua pelo emitente,

quanto mais precisa, mais valiosa ela se torna) a que se refere, o dado passa a

ser o valor de determinado item, evento do que se refere. Um relatório, um

boletim escolar, uma folha de pagamento são exemplos de informação, desde

que faça sentido a quem o vê.

O conhecimento é resultado de várias informações organizadas de

forma lógica e suficiente para criar um evento, tornar possível um evento ainda

não conhecido ou o poder de entender um evento, suas causas, eventos

anteriores e suas causas, eventos da causa, evento resultante de causas, o

poder de manipular eventos e causas.

Dados também podem ser um conjunto de informações que constituem

uma informação. Já o conhecimento, refere-se à habilidade de criar um modelo

mental que descreva o objeto e indique as ações a implementar, as decisões a

tomar. (REZENDE, 2003). O especificado fica nítido ao observar o quadro 1.

23

Quadro 1 – O dado, a informação e o conhecimento.

Fonte: REZENDE, 2003, adaptado pela autora.

O dado não tem por si significado, mas apenas quando usado na

tomada de decisões ou na realização de cálculos a partir de um processamento

adequado e tendo em conta respectivo contexto. Em geral, o dado é a

representação simbólica ou atributo da entidade.

No campo das humanidades, os dados consideram-se como a

expressão mínima de conteúdo relativamente ao tema. O conjunto dos dados

relacionados entre si constitui a informação.

Para a informática, os dados são expressões gerais que descrevem

características das entidades sobre as quais operam os algoritmos. Essas

expressões devem ser apresentadas de maneira a que possam ser tratadas

por um computador. Nesse caso, os dados por si também não constituem

informação, a menos que ela surja do adequado processamento deles.

Conhece-se como base de dados (ou database, de acordo com o termo

em inglês) o conjunto dos dados que pertencem ao mesmo contexto e que são

armazenados sistematicamente para que possam ser usados no futuro. Essas

bases de dados podem ser estáticas (quando os dados armazenados não

variam com o passar do tempo) ou dinâmicas (os dados são alterados com o

tempo, pelo que requerem atualizações periódicas).

Dado Informação Conhecimento

Simples observações sobre o estado do mundo

Dados dotados de relevância e propósito

Informação valiosa da mente humana inclui reflexão, síntese, contexto

•  Facilmente estruturado •  Facilmente obtido por

máquinas •  Frequentemente

quantificado •  Facilmente transferível

•  Requer unidade de análise •  Exige consendo em relação

ao significado •  Exige necessariamente a

mediação humana

•  De difícil estruturação •  De díficil captura em

máquinas •  Frequentemente tácito •  De díficil transferência

24

Meio século depois de os computadores entrarem no meio social, os

dados passaram a se acumular a ponto de algo novo começar a acontecer. O

mundo não apenas está mais cheio de informação como também a informação

está se acumulando com mais rapidez. A mudança de escala levou à mudança

de estado. A mudança quantitativa gerou mudança qualitativa. Tanto a ciência

como a astronomia e a genômica, que vivenciaram uma explosão no final da

década de 90, cunharam o termo big data. Hoje, o conceito está migrando para

todos os campos do conhecimento humano.

Desde o século XIX, a sociedade depende do uso de amostragens

quando se trata de grandes quantidades. Mas a necessidade dessas

amostragens remonta ao período de escassez de informações, produto dos

limites naturais de se interagir com as informações na era analógica. Antes do

domínio das tecnologias digitais de alto desempenho, não percebíamos a

amostragem como algo artificial, mas algo comum.

Hoje, porém, a quantidade de dados, o poder de processamento e de

armazenamento, viabilizam a análise de muito mais dados. Contudo, apesar de

as mudanças na tecnologia terem sido um fator crítico, algo mais importante e

sutil também mudou: a mentalidade sobre como os dados poderiam ser

usados.

Os dados não eram mais considerados estáticos e banais, cuja utilidade

terminava depois que o objetivo da coleta era alcançado. Em vez disso, os

dados se tornaram matéria-prima dos negócios, um recurso econômico vital,

usado para criar uma nova forma de valor econômico.

2.3 BIG DATA

É importante distinguir big data de “lotes de dados” ou “dados massivos”.

Em big data, três componentes são aplicáveis: volume, variedade e velocidade

(estes elementos são detalhados a frente, acrescentando-se valor e

veracidade). É o tamanho, a complexidade e a inquietação dos grandes

25

recursos de dados que explicam os métodos pelos quais esses recursos são

projetados, operados e analisados.

O termo lotes de dados é frequentemente aplicado a enormes coleções

de arquivos de simples formatos, por exemplo, cada pessoa que mora no Brasil

e seus números de telefones. Esse conjunto de dados são listas importantes.

Algumas dessas listas são catálogos cujo propósito é armazenar e recuperar a

informação. Algumas coleções de lotes de dados são planilhas como tabelas

de duas dimensões de colunas e linhas, matematicamente equivalente a uma

imensa matriz.

Para propósitos científicos, às vezes, é necessário analisar todos os

dados de uma matriz de uma única vez. As análises de grandes matrizes são

intensivas do ponto de vista computacional e podem requerer os recursos de

um supercomputador.

Os recursos de big data não são equivalentes a uma grande planilha, e

os dados não são analisados em sua totalidade. As análises de big data são

processos que contemplam múltiplos passos pelos quais o dado é extraído,

filtrado e transformado, com análises, muitas vezes de forma fragmentada, e

muitas vezes recursiva.

De maneira simples, de acordo com Jim Davis Senior, Vice President

and Chief Marketing Officer da SAS (empresa americana de software e

serviços de business anlytics), quanto se excede a capacidade convencional de

um sistema de banco de dados você está tratando de big data. Antes disto

acontecer, você tem o que a SAS se refere como growing data ou dados em

crescimento, que é uma grande quantidade de dados, mas ainda não excede

as limitações do banco de dados convencional.

O termo big data tem recebido na atualidade diversas contribuições para

sua conceituação. Parte delas trata o termo como uma referência de mercado

ou mesmo de “moda”, outros já consideram um conceito mal definido e pouco

compreendido (TAURION, 2014), mas que merece ser estudado. Por ser ainda

26

pouco explorado no meio científico, optou-se nesta dissertação usar o termo

big data como popularmente vem sendo referenciado em congressos e debates

acadêmicos nacionais e internacionais, a fim de contribuir com as listas de

discussões em torno da temática.

O potencial do big data para criar vantagem competitiva vem

influenciando a forma como os negócios e empresas são gerenciados. Isso

ocorre por meio da análise que pode ser um elemento fundamental dos

esforços das empresas para melhorar seu desempenho (MANYIKA et al.,

2011)

Entre os grandes difusores deste conceito encontra-se a empresa IBM

que, por meio de sua tecnologia voltada para Question Answering (QA),

concebeu uma máquina, dentro de uma iniciativa de marketing, capaz de

processar grandes volumes de dados e competir de igual para igual com

especialistas humanos em um programa de TV estilo pergunta-resposta (IBM,

2011).

O êxito no universo empresarial passa pela compreensão e aplicação de

soluções estratégicas e negociais inovadoras voltadas ao cliente, com a

utilização das inteligências competitiva e estratégica, por meio da produção de

informação e conhecimento para suporte adequado e ágil à decisão e apoio

aos negócios.

De acordo com Gandomi et al. (2015), o termo big data vem evoluindo

rapidamente; sendo assim, sua definição acaba gerando questionamentos e

dúvidas a respeito da abrangência dessa área. Uma pesquisa on-line realizada

pela empresa Harris Interactive (Small and midsize companies look to make big

gains with big data, 2012), consolidou as respostas de 154 executivos a

respeito de como eles definiriam o termo big data.

No gráfico 1 é ilustrada a divergência de respostas recebidas e como os

participantes abordaram a pergunta.

27

Gráfico 1. O que significa o termo big data.

Fonte: DANTAS, 2016, adaptado pela autora.

Nesse cenário, ainda em formulação, é importante destacar que o big

data remete a própria possibilidade de datificação da sociedade, que leva a

geração de mais e mais dados (TAURION, 2015). Dessa forma, a ideia básica

é a percepção que praticamente tudo o que a humanidade faz no dia a dia vai

gerar um “rastro digital” que poderá ser eventualmente analisado. Como

observa Bruno (2012, p. 687) “comunicar é deixar rastros”. Assim, qualquer

ação digital, principalmente em espaços da internet é passível de ser coletada

e analisada.

De acordo com o McKinsey Global Institute, big data refere-se aos

conjuntos de dados cujo tamanho está além da capacidade de ferramentas

típicas de software de banco de dados para capturar, armazenar, gerenciar e

analisar”. Já para o IDC, big data é apresentado como “(...) uma nova geração

de tecnologias e arquiteturas, projetadas economicamente para extrair valor de

28%

19%

18%

24%

11%

Crescimento acentuado de dados transacionais, incluindo dados de clientes e Supply Chain

Demanda por armazenamento e arquivação de dados para regulamentação e conformidade

Expansão de novas fontes de dados (redes sociais, dispositivos móveis, sensores)

Novas tecnologias desenvolvidas para ajudar nos desafios de volume, variedade e velocidade relacionados ao Big Data

Outras definições

28

volumes muito grandes de uma larga variedade de dados, permitindo alta

velocidade de captura, descoberta e análise”.

Por outro lado, Schönberger-Mayer e Cukier (2013) observam que,

apesar de haver uma crença implícita entre os tecnólogos de que big data

remonta à revolução do silício, em essência, o avanço rumo ao big data é a

continuação da antiga busca da humanidade por medir, registrar e analisar o

mundo. Para esses autores, os sistemas modernos de tecnologia da

informação (TI) possibilitam big data, mas não são os únicos responsáveis pelo

seu surgimento.

“A revolução da TI é evidente, mas a ênfase estava mais no T, na

tecnologia. É hora de voltarmos o olhar para o I, a informação”

(SCHÖNBERGER-MAYER; CUKIER, 2013, p. 54). Nesse sentido, os autores

abordam que, a fim de captar informações quantificáveis, de datificar, é preciso

saber como medir e registrar essa medição, o que exige um conjunto certo de

instrumentos, além do desejo de quantificar e registrar. Como eles apontam,

ambos são pré-requisitos da datificação, e desenvolvemos os fundamentos

dessa prática séculos antes do nascimento da era digital (ANTONIUTTI, 2015).

Outros autores (POSPIEC; FELDENS, 2012) definem big data como um

desafio em que há um equilíbrio desfavorável entre dados disponíveis e

conceitos e tecnologias de informação atuais. Consequentemente, não há

suporte para essa grande quantidade de informação que, segundo Callebaut

(2012), está crescendo de tamanho, bem como está aumentando a rapidez

desse crescimento.

No Brasil, várias revistas (Veja, 2013; Ciência Hoje, 2013; Exame, 2012)

publicaram reportagens apresentando o conceito de big data como a

“revolução dos dados” ou como um “fenômeno big data”, ressaltando suas

aplicações, principalmente nas áreas comercial e empresarial. Jornais

nacionais (O Globo) também exploraram o tema em 2012. As reportagens

buscaram contextualizar o tema com o objetivo de esclarecer os leitores sobre

o que vem a ser big data.

29

Para Schönberger-Mayer (2013, p. 2), “big data é a capacidade de uma

sociedade de obter informações de maneiras novas a fim de gerar ideias úteis

e bens e serviços de valor significativo”.

Como vimos, não há definição rigorosa para o termo em função de big

data ser um conceito relativamente novo; portanto, sua definição se submete a

constantes aperfeiçoamentos, pois a consolidação do termo se dá pela

percepção, no tempo, de seu valor para qualquer tipo de uso.

A princípio, a ideia era a de que o volume de informação crescera tanto

que a quantidade examinada já não cabia na memória de processamento dos

computadores; por isso, os engenheiros tiveram de aprimorar os instrumentos

que utilizavam para a análise.

Uma maneira de pensar na questão hoje é: big data se refere a

trabalhos em grande escala que não podem ser feitos em escala menor, para

extrair novas ideias e criar novas formas de valor de modo que alterem os

mercados, as organizações, a relação entre cidadãos e governos etc. Mas isso

é apenas o começo. A era do big data desafia a maneira como se vive e se

interage com o mundo. Mas o mais importante é que a sociedade precisará

conter um pouco da obsessão pela causalidade e trocá-la por correlações

simples: sem saber o porquê, apenas o quê.

No big data, os dados podem revelar aspectos que não se imaginavam

possíveis e, portanto, não eram buscados, gerando conhecimento novo e

inédito para quem tiver disposição e instrumentos para obtê-lo. O grande

desafio está em como utilizar os dados como matéria-prima dos negócios,

criando assim uma nova forma de valor econômico.

Para Mayer-Schonberger e Cukier (2013), big data refere-se à

capacidade de uma organização obter informações de novas formas, com o

objetivo de gerar ideias úteis e bens e serviços significativos. Em seu livro “Big

Data: como extrair volume, variedade, velocidade e valor da avalanche de

30

informação cotidiana”, Os autories afirmam não haver definição rigorosa para o

termo, embora tragam uma forma de definir big data.

Não há uma definição rigorosa para o termo. [...] Uma

maneira de pensar na questão hoje – a que usamos nesse livro – é:

big data se refere a trabalhos em grande escala que não podem ser

feitos em escala menor, para extrair novas ideias e criar novas formas

de valor de maneira que alterem os mercados, as organizações, a

relação entre cidadãos e governos, etc. (MAYER-SCHONBERGER E

CUKIER, 2013, p.54).

O termo big data é usado principalmente para descrever grandes bases

de dados, que, comparadas às bases tradicionais, incluem dados não

estruturados com necessidade de análise em tempo real (CHEN et al., 2014).

Uma definição importante para big data pode ser encontrada no Gartner

IT Glossary (Glossário de Tecnologia da Informação), que define big data como

ativos de informação de grande volume, alta velocidade ou de grande

variedade, que requer formas inovadores e econômicas de processar

informações, permitindo, dessa forma, maior visibilidade, tomada de decisão e

automação de processos.

Mesmo fora da literatura, o conceito não segue uma linha de

pensamento única. De forma geral, o big data fala em tratar grandes volumes

de dados com grande velocidade e a partir de uma variedade de informações

(TAURION, 2014; BROWN, 2013). Outras definições para o termo são

apresentadas no quadro 2, porém, sem rigidez conceitual.

Em essência, big data relaciona-se com previsões. Apesar de ser

descrito como um ramo da ciência da computaçãoo chamado inteligência

artificial e mais, especificamente, uma área chamada “aprendizado de

máquina”, esta ideia é enganosa. Big data não tem a ver com tentar ensinar um

computador a pensar como ser humano (SCHONBERGER R CUKIER, 2013).

Big Data trata-se de aplicar a matemática a enormes quantidades de

dados a fim de prever probabilidades. Esses sistemas funcionam porque são

31

alimentados por enormes, quantidades de dados, que formam a base das

previsões (SCHONBERGER R CUKIER, 2013).

Quadro 2 – Definições de big data.

Fonte: FREITAS JUNIOR, et al, 2016.

De acordo com Mayer-Schonberger (2013), com a informação, assim

como na física, o tamanho importa. Desse modo, ao combinar centenas de

bilhões de termos de busca, o Google mostrou ser capaz de identificar o

surgimento de um surto de gripe quase tão bem quanto os dados oficiais com

base nos pacientes que visitam o médico – e pôde gerar uma resposta quase

em tempo real, muito mais rápido que as fontes oficiais. Do mesmo modo,

pode-se prever a volatilidade do preço de uma passagem de avião e, assim,

dar um poder econômico significativo para os consumidores. Mas ambos só

conseguem isso pela análise de centenas de bilhões de dados.

Esses dois exemplos mostram o valor científico e social do big data,

assim como a medida em que eles podem se tornar fonte de valor econômico.

Os exemplos marcam duas maneiras pelas quais o mundo do big data

Autores Definições

Kim, Trimi, e Ji-Hyong (2014)

Trata-se de um termo geral para a enorme quantidade de dados digitais coletados a partir de todo os tipos de fontes

Mahrt e Scharkow (2013)

Denotam um maior conjunto de dados ao longo do tempo, conjunto de dados estes que são grandes demais para serem manipulados por infraestruturas de armazenamento e processamento regulares

Davenport (2012) e Kwon (2014)

Dados demasiadamente volumosos ou muito desestruturados para serem gerenciados e analisados através de meios tradicionais

Di Martino et al. (2014)

Refere-se ao conjunto de dados cujo tamanho está além da habilidade de ferramentas típicas de banco de dados em capturar, gerenciar e analisar

Rajesh (2013)

São conjuntos de dados que são tão grandes que se tornam díficeis de trabalhar com o uso de ferramentas atualmente disponíveis

Mahrt e Scharkow (2013)

Denotam um maior conjunto de dados ao longo do tempo, conjuntos de dados estes que são grandes demais para serem manipulados por infraestruturas de armazenamento e processamento regulares

32

está, de fato, mudando os negócios, às ciências e saúde, governo, educação,

economia, ciências humanas e todos os demais aspectos da sociedade.

Apesar de estarmos apenas nos primórdios do big data, ele é usado

diariamente. Filtros antispam são projetados para se adaptarem

automaticamente às mudanças dos tipos de lixo eletrônico. Sites de namoro

formam pares com base em como suas várias características correspondem às

de relacionamentos anteriores. O corretor automático dos smartphones analisa

nossas ações e acrescenta novas palavras a seus dicionários com base no que

é escrito.

Em um primeiro momento, big data se confunde com volume de dados

gerados; no entanto, não se trata apenas da dimensão volume, mas também

da variedade de dados não estruturados, dentro e fora das empresas, que

precisam ser validados para adquirirem veracidade e tratados em velocidade

adequada para obterem valor para o negócio.

Para Taurion (2013), volume é com certeza uma das fortes

características que define esse fenômeno de big data, porém, para

complementar a composição, ele sugere ainda a existência de mais duas

características fortes: variedade e velocidade. Esses três Vs formam a mais

básica estrutura que irá compor a área de big data.

Segundo Taurion (2013), apenas a companhia Google processa sozinha

mais de 24 pentabytes de dados por dia e o Facebook faz upload de pelo

menos 10 milhões de novas fotos a cada hora. Sendo assim, os dados de hoje

vêm em todos os tipos de formato, sendo gerados milhões de dados por

segundo e vindo de diversas fontes, implicando nas dimensões velocidade e

variedade.

Com a constante evolução da tecnologia, o aumento dos limites de

armazenamento e tratamento de dados também crescem; hoje, os números

são gigantescos, tendendo a expandir geometricamente. Isso permite às

empresas não trabalharem apenas com as pesquisas tradicionais e com dados

33

transacionais, mas também com dados gerados pelas pessoas, de forma

espontânea, fora das corporações, por exemplo, nas mídias sociais e

aplicativos. No quadro 3 um resumo de outras definições de big data.

Quadro 3 – Outras definições de big data.

Fonte: ANTONIUTTI, CLEIDE, et al, 2016.

Originalmente, big data se caracterizava por 3Vs (volume, velocidade e

variedade. Os 3Vs foram apontados por Doug Laney, em 2001, em um relatório

do Meta Group, grupo que foi adquirido pela Gartner em 2005. Nesse relatório,

Laney (2001) identifica três grandes desafios da gestão de dados: volume,

velocidade e variedade, que atualmente são amplamente utilizados na

definição de big data (GANDOMI; HAIDER, 2015).

Autores Definições

Cavalcanti (2015)

As pessoas, equivocadamente, associam Big Data apenas à grande quantidade de dados digitais hoje disponíveis. Na verdade, a maior riqueza do Big data vem da variedade (diversidade) de dados. São dados transacionais, das redes sociais, gps… e dos assuntos os mais variados. Costumamos dizer que Big data está associado a 4 “V”s: volume (quantidade), variedade (diversidade), veracidade (são dados coletados on line, na hora que estamos fazendo algo; não é uma “pesquisa” onde perguntamos coisas às pessoas) e velocidade (os dados estão imediatamente disponíveis na nuvem)

Brown (2014) Big data é volume, velocidade, variedade. Então significa que você tem uma ou mais dessas três coisas

Costa (2015) Big data é um ecossistema, que se alimenta e retroalimenta de dados o tempo todo, de dados que estão digitalizados ou não e dos quais se têm a necessidade de tirar valor

Taurion (2014)

Resumindo o que é Big Data em uma simples fórmula para conceitualizá-lo: Big Data = volume + variedade + velocidade + veracidade, tudo agregado + valor

Moura (2015)

Teoricamente é aglutinar diversas informações em diversas fontes em um único depositório. Seria a manutenção, a orientação e o enriquecimento de um banco de dados de diversas fontes. Na prática isso é feito por meio de um depositório seja em nuvem, ou seja, de um depositório próprio que utiliza todas essas informações

Guerreiro (2014)

Big data se refere à necessidade de uma organização lidar com dados que, para serem analisados e gerarem resultados, demandam capacidade muito além daquela de que a empresa dispõe, seja com relação ao volume (mais comum), velocidade de tratamento ou variedade de formatos

Lima Júnior (2014)

Big data é conjunto de dados (dataset) cujo tamanho está além da habilidade de ferramentas típicas de banco de dados em capturar, gerenciar e analisar

34

Pouco tempo depois, as características do big data passaram a ser

descritas como os 4Vs: volume, variedade, velocidade e valor. Esses quatro Vs

foram amplamente reconhecidos, já que enfatizam o significado e a

necessidade do big data. Essa definição indica o problema mais crítico do big

data, que é como descobrir valor de base de dados em grande escala, vários

tipos e rápida geração. (CHEN et al., 2014).

Mais recentemente, a veracidade dos dados passou a ser considerada

também tão importante quanto o volume.

Quadro 4 – 5 Vs do big data.

Fonte: TELXPERTS (2016), adaptado pela autora.

a. Volume: Esse V sugere que a quantidade de dados disponível

para as organizações está crescendo exponencialmente e as

fontes de dados estão aumentando em número e conteúdo

gerado por elas. Também reflete a tendência de analisar grandes

porções de dados, ao invés de pequenas amostras, para capturar

mais valor, alguns argumentam (SAS, 2012);

b. Velocidade: refere-se à velocidade de capturar dados em tempo

real e à necessidade de processá-los rapidamente em tempo real;

c. Variedade: destaca a importância de dados não estruturados

(texto, áudio, blogs, micro blogs, etc.), ao longo de dados

tradicionais e transacionais;

d. Veracidade: Um em cada 3 líderes não confiam nos dados que

5 Vs do Big Data

Volume Velocidade Valor Veracidade Variedade

•  Terabytes

•  Registros

•  Transações

•  Tabelas, Arquivos

•  Lotes

•  Tempo real

•  Processos

•  Transmissão

•  Estatístico

•  Eventos

•  Correlações

•  Hipóteses

•  Confiabilidade

•  Autenticidade

•  Origem,

Reputação

•  Responsabilidade

•  Estruturado

•  Não-Estruturado

•  Multiplas fontes

•  Probabilidade

35

recebem (IBM, 2015). Para colher bons frutos do processo do big

data é necessário obter dados verídicos. O conceito de

velocidade, já descrito, é bem alinhado ao conceito de veracidade

pela necessidade constante de análise em tempo real, isso

significa, que os dados condizem com a realidade daquele

momento, pois dados passados não podem ser considerados

dados verídicos para o momento em que é analisado. A

relevância dos dados coletados é tão importante quanto o primeiro

conceito. A verificação dos dados coletados para adequação e

relevância ao propósito da análise é um ponto chave para se obter

dados que agreguem valor ao processo. (TAURION, 2013);

e. Valor: Quanto maior a riqueza de dados, mais importante é saber

realizar as perguntas certas no início de todo processo de análise

(BROWN; ERIC, 2014). É necessário estar focado para a

orientação do negócio, para o valor que a coleta e análise dos

dados trará para o negócio. Não é viável realizar todo o processo

de big data se não se tem questionamentos que ajudem o negócio

de modo realístico. Da mesma forma é importante estar atento

aos custos envolvidos nessa operação. O valor agregado de todo

esse trabalho desenvolvido, coleta, armazenamento e análise de

todos esses dados tem que compensar os custos financeiros

envolvidos (TAURION, 2013).

Apesar de não haver consenso sobre a definição de big data, o lugar

comum converge para os 3Vs propostos por Laney (2001): volume, velocidade

e variedade. Dadas as definições, grandes mudanças decorreram do novo

poder analítico e foram abordadas e aprofundadas por Mayer-Schonberger e

Cukier em 2013.

O quadro 5 apresenta um resumo da definição dos 5 Vs de big data.

36

Quadro 5 – Definição 5 Vs.

Fonte: FREITAS JUNIOR, et al, 2016. Adaptado pela autora.

Mayer-Schonberger e Cukier (2013) apontam três grandes mudanças,

que representam quebras significativas de paradigma: a primeira delas é de

que a necessidade de amostragens se deve à época em que informação era

algo escasso; a segunda é de que a obsessão por dados corretos e a

preocupação com a qualidade integral dos dados se devia ao fato de a

disponibilidade de dados ser limitada, sendo assim, era crucial garantir a

qualidade dos pequenos dados disponíveis; a terceira delas é o abandono da

busca pela causalidade e o contentamento com a descoberta do fato em si e

não buscar explicações ou motivos que levaram a ele.

Para a primeira grande mudança, o argumento permeia a definição de

big data como grande em termos relativos e não absolutos. Os autores

remontam a inviabilidade e altos preços de se estudar um universo em sua

integralidade e reforçam o fato de que, atualmente, alguns segmentos coletam

o máximo de dados possível (MAYER-SCHONBERGER e CUKIER, 2013).

A segunda grande mudança refere-se à obsessão por dados corretos,

que complementam a primeira mudança: a disponibilidade de dados. Antes,

tínhamos dados limitados, então era muito importante assegurar a qualidade

Atributos Definição

Volume Magnitude relacionada a quantidade de dados a serem processados

Variedade Estrutura heterogênea encontrada em bases de dados

Velocidade Taxa na qual é gerado os dados assim como a rapidez que necessitam ser processados e

analisados

Veracidade Nível de confiança que pode ser atribuído aos dados recebidos direto da fonte

Valor Potencial financeiro que a organização pode conseguir através do uso de técnicas de Big

Data

37

integral desses dados, além da própria limitação tornar possíveis tantos

tratamentos. Nas palavras dos autores, “o aumento da quantidade de dados

abre portas para a inexatidão”. Para os autores, “big data transforma os

números em algo mais ‘probabilístico’ que exato”. (MAYER-SCHONBERGER;

CUKIER, 2013, p. 62). Para corroborar esta ideia, Helland (2011) afirma que,

“quando se ganha escala, perde-se precisão”.

Por fim, a terceira e grande mudança na era do big data é que as

previsões com base em correlações estão na essência do big data. Isso quer

dizer que big data lança análises não causais, de forma a transformar o modo

pelo qual entendemos o mundo. Para os autores, a mentalidade mudou sobre

como os dados poderiam ser utilizados (MAYER-SCHONBERGER; CUKIER,

2013).

Para Mayer-Schonberger; Cukier (2013), os sistemas e o avanço das

tecnologias tornam o big data possível, mas, “em essência, o avanço rumo a

big data é uma continuação da antiga busca da humanidade por medir,

registrar e analisar o mundo”.

Os principais conceitos para o entendimento do big data abrangem os

princípios modernos da análise quantitativa de dados, a chamada Analítica,

definições e tecnologias do big data, o papel e habilidades do profissional do

momento, o cientista de dados.

Para explorar e analisar a grande quantidade de dados, um relatório da

McKinsey Global Institute projetou que os Estados Unidos, por exemplo,

precisarão de 140 mil a 190 mil trabalhadores com experiência “analítica

profunda” e 1,5 milhão de gerentes mais alfabetizados em dados, treinados ou

contratados.

2.4 ANALÍTICA

Para melhor compreensão acerca da definição do big data, faz-se

necessário entender as raízes da análise quantitativa de dados, também

38

chamada de Analítica. Davenport at al. (2014) define a Analítica como:

“Analítica significa o uso amplo de dados, de análise estatística e quantitativa,

de modelos explanatórios e preditivos e de gestão fatual para orientar decisões

e agregar valor.” Ele afirma ainda que é necessário que estes dados sejam

explorados com vistas à melhor tomada de decisão ou a falta desta análise fará

com que os gestores sejam pegos de surpresa por questões que poderiam ter

sido previstas.

De acordo com Taurion (2012), vivemos uma nova revolução industrial e

já é consenso que dados são os recursos naturais dessa revolução. Na atual

sociedade industrial, ter apenas recursos naturais como minério e exportá-los

de forma bruta, importando em troca produtos manufaturados, não garante a

competitividade de um país no longo prazo. O importante é a tecnologia e o

conhecimento que criam produtos manufaturados. Dados passam a ser ativos

corporativos importantes e, como tal, podem e deverão ser quantificados

economicamente.

Mas antes de fazer qualquer utilização dos dados, é essencial entender

a proposta ampla da análise de dados e a real razão para utilizar esse recurso.

É importante ter um objetivo claro: criar inteligência de dados ou data

intelligence. Inteligência de dados é um termo amplo que descreve as

percepções reais e significativas que podem ser extraídas a partir de seus

dados. Os tipos de inteligência de dados necessários para resolver um

problema específico podem variar. E podem até ser colocados numa escala de

dados de QI – quociente de inteligência, conforme diagrama da figura 2.

39

Figura 2 – Data IQ.

Fonte: DAVIS SENIOR, 2014, adaptado pela autora.

a. Resposta a questões feitas anteriormente – relatórios estáticos se

enquadram nessa categoria – são os mais baixos na escala de

dados. Respostas obsoletas que ainda são imprecisas seriam

menor ainda;

b. Os painéis exibem a resposta a uma pergunta pedida e atualiza a

resposta em tempo real. Mas se deve saber a pergunta certa a

fazer em primeiro lugar, e eles são muito inflexíveis;

c. Outliers (valor discrepante) podem ser detectados e analisados

para identificar oportunidades e avisos. No mínimo, eles são

interessantes e oferecem uma ideia melhor do que os seus dados

representam;

d. Correlações podem ser detectadas e reportadas para encontrar os

O que já era conhecido

O que ainda não era conhecido

Irrelevante

Impactante

Painel

•  Relatórios Estáticos

•  Predições

Detecção de outlier

•  Alerta em tempo real

Correlações

Data IQ

40

pontos de pressão-chave que podem ser manipulados para mudar

e controlar tendências e padrões;

e. Previsões podem ser úteis, mas são muitas vezes limitadas por

dados e pela imprecisão. Se alimentado com os dados

adequados, no entanto, elas podem ser extremamente poderosas;

f. O reconhecimento de padrões é um termo mais amplo que inclui

algumas outras ideias: é geralmente uma combinação de

detecção de outlier, informações correlacionadas, e por vezes

mesmo as previsões. Mas eles são muito poderosos, e são

usados para alertar os usuários para o movimento e direção em

seus negócios e da base de clientes.

Davenport at al. (2014) defende que todos, sem distinção, em uma

organização, saibam usar a Analítica em maior ou menor grau. No lugar de

confiar nos instintos, é necessário munir-se de dados para compreender melhor

os resultados e usá-los para melhorar o desempenho da organização.

Apesar de hoje as organizações poderem armazenar grandes

quantidades de dados, o tempo de processamento tornou-se excessivo porque

ambientes de armazenamento tradicionais não são propícios para análises

proativas. Quando a quantidade de dados chega a um ponto em que o tempo

de processamento torna-se inaceitável, pode-se estar lidando com grandes

quantidade de dados ou big data, mas também pode-se estar lidando com um

grande problema de análise.

Para entender melhor a diferença, a empresa SAS criou um gráfico com

análises reativas e análises proativas no eixo Y e o tamanho dos dados no eixo

X, conforme apresentado na figura 3.

41

Figura 3. Dimensão do banco e capacidade analítica

Fonte: DAVIS SENIOR, 2014, adaptado pela autora.

Estes quatro tipos de soluções de software estão disponíveis no

mercado analítico para ver como eles podem abordar diferentes tipos de

problemas analíticos.

a. Business Intelligence (BI): quando se lida com grande quantidade

de dados e fornecendo recursos de relatórios para usuários finais

para que eles possam acessar os dados, resumir, e detalhá-los,

está-se lidando com aplicações de inteligência. Essas soluções

fornecem às pessoas uma análise profundamente do

desempenho passado da organização. Isso é BI, por definição.

(Veja o quadrante inferior esquerdo na figura 3.);

b. Big Data BI: refere-se a quando os dados aumentam e se está

lidando com fontes de dados externas ou puxando dados não

estruturados, nota-se que os problemas de dados também

aumentam. Por exemplo, pode demorar muito tempo para obter

BIG ANALYTICS BIG DATA ANALYTICS

BI BIG DATA BI

CA

PAC

IDA

DE

AN

ALÍ

TIC

A

TAMANHO DO BANCO

Pro

ativ

o R

eativ

o

Grande Big Data

42

as informações necessárias, ou pode ser impossível combinar

fontes de dados suficientemente rápido para cumprir prazos de

relatórios;

c. Big Analytics: é preciso um tipo diferente de análise para permitir

a frente da tomada de decisão. Se se estiver olhando as

preferências do cliente, otimizações ou previsões de fraude,

também é necessário um tipo de arquitetura diferente. Esses

“problemas” geralmente envolvem tamanho crescente de dados e

análises proativas. Para questões que precisam ser abordadas

hoje, há a necessidade de respostas em segundos ou minutos, o

que requer grandes análises e soluções. (Veja o quadrante

superior esquerdo da figura 3.);

d. Big Data Analytics: agora, quando a análise tratar de muitos

dados e estiver lidando com tomada de decisão proativa, as

empresas de varejo, por exemplo, podem tem centenas de

milhões de skus (Stock Keeping Unit) em várias lojas de varejo.

Os fabricantes e seguradoras também podem estar olhando para

futuras fontes de dados. Da mesma forma, os fabricantes podem

desejar prever problemas de segurança antes de afetarem

clientes e companhias de seguros.

Esses são exemplos de situações em que as empresas enfrentam

verdadeiramente big data e big data analytics – um tipo de solicitação nova. A

resolução de questões como essas exige grandes análises de dados.

Para Gartner (2014), a capacidade analítica pode ser classificada em

quatro tipos, conforme demonstra a figura 4.

43

Figura 4. Quatro tipos de capacidade analítica.

Fonte: GARTNER, 2014, adaptado pela autora.

A analítica descritiva abrange a coleta, organização, tabulação e

apresentação dos dados, ela tem como objetivo descrever os fatos, porém, não

os explica. Já a analítica preditiva utiliza dados do passado para realizar

previsões sobre o futuro, pela associação entre as variáveis e cálculo da

probabilidade dos fenômenos. A analítica prescritiva realiza sugestões de

ações a serem tomadas e resolve problemas de otimização (DAVENPORT,

BARTH et al, 2014).

A analítica diagnóstica não foi explicitada por Davenport et al (2014),

porém, é possível inferir seu papel dentro do universo analítico: a busca de

explicações causais (motivos) para a ocorrência de determinado evento no

processo de análise. Cada tipo de analítica engloba uma série de técnicas e

ferramentas para a análise dos dados. Delloite (2015) detalha essas técnicas

em um quadro resumido, que poder ser observado na figura 5.

Dados Decisão Ação

Analítica Ação Humana

Apoio a decisão

Automatização da decisão

Descritiva O que aconteceu?

Diagnóstica Por que aconteceu?

Preditiva O que irá acontecer?

Prescritiva O que devo fazer?

44

Figura 5. Estágios da Analítica.

Fonte: DELOITTE. 2015, adaptado pela autora.

Na figura 5, é possível observar como o avanço das técnicas aplicadas à

análise de dados se relacionam com os objetivos analíticos descritos na

primeira coluna da figura: hindsight, insight e foresight.

As análises mais básicas encontram-se na base da figura 5, hindsight,

em que se aborda uma análise descritiva e preocupa-se com a análise

retrospectiva do objeto estudado, limitando-se em entender o que aconteceu.

Neste tipo de análise, a influência humana é dominante, como pode ser

observado na figura 4.

Passando para o segundo momento da Analítica, percebe-se a

preocupação maior com o que pode acontecer. Agora, um grau maior de

sofisticação das técnicas é aplicado, embora a ação humana seja bastante

representativa.

Finalmente, em estágio mais avançado, percebe-se a preocupação

prescritiva. O objetivo, nesse momento, é definir que ações tomar no presente

para impactar resultados futuros. Cruzando essa informação com a figura 4,

Utiilização de regras dinâmicas

Simulação e modelagem

Análises quantitativas

Modelos de previsão avançados

Alertas em tempo real

Papéis baseados em métricas de desempenho

Relatórios gerenciais com drill downs

Gestão de dados corporativos

Aprendizagem de máquina

Descritiva

Preditiva

Prescritiva

Hindsight

Insight

Foresight

SOFISTICAÇÃO

45

nesse estágio, já não há influência humana e basicamente as decisões

decorrem de algoritmos.

Nessa última etapa da Analítica, enquadra-se o que hoje é um dos

maiores fenômenos tanto no meio acadêmico e profissional: o big data. No

estágio mais avançado da Analítica, o big data engloba as técnicas analíticas

mais sofisticadas, com pouca intervenção humana, que requerem a utilização

de tecnologias igualmente avançadas.

As técnicas de análise do big data envolvem uma série de disciplinas,

incluindo estatística, mineração de dados, aprendizagem de máquina, redes

neurais, análise de redes sociais, processamento de sinais, reconhecimento de

padrões, métodos de otimização e abordagens de visualização (CHEN at al,

2014).

Conforme sugerem Gandomi e Haider (2015), a Analítica encontra-se no

final da cadeia de processos do big data, conforme figura 5, como visto

anteriormente nas figuras 3 e 4, em seu grau mais elevado de sofisticação e

com pouca ou nenhuma interferência humana. Essa etapa é chamada de Big

Data Analytics.

O potencial do Big Data Analytics é percebido quando o processo de

tomada de decisão é alavancado pelo uso. Cada vez mais, as empresas estão

buscando meios eficientes de transformar grandes e variados volumes de

dados em poderosos insights. Desta forma, Labrinidis e Jagadish (2012)

consideram cinco fases principais como base para uso do big data no processo

de tomada de decisão, sendo estas fases subdivididas em dois grupos: Data

Management e Analytics.

Na figura 6, essas fases são apresentadas em seus respectivos grupos:

46

Figura 6. As 5 fases principais do big data.

Fonte: GANDOMI et al., 2015, adaptado pela autora.

Para Gandomi et al. (2015), Data Management envolve as etapas de

aquisição e armazenamento de informações que vão antecipar a transformação

dos dados, removendo inconsistências e estruturando a base para ser utilizado

na preparação de modelos e análises.

No caso de Analytics, o mesmo autor define como sendo técnicas

usadas para analisar os dados de forma a extrair insights que possam ser

utilizados para gerir os negócios de forma mais inteligente. Esse último é onde

encaixa-se o termo Big Data Analytics.

De acordo com a Gartner (2014), Big Data Analytics é uma prioridade

para grandes negócios obterem vantagem competitiva, impelidos pela

necessidade de tornarem mais acessíveis esses tipos de análises avançadas,

assim como expandir o suporte a tomada de decisão. Segundo essa

consultoria, o segmento de Big Data Analytics é um dos grandes mercados

crescentes, superando a marca de um bilhão de dólares já em 2013.

Aquisição e Armazenamento

Extração e limpeza

Integração, agregação e

carregamento

Modelagem e análise Interpretação

Data Management Analytics

Fluxo Big Data

47

2.5 TERMOS IMPORTANTES RELACIONADOS

Mineração de Dados ou Datamining: definido como a extração de

conhecimento de grandes quantidades de dados (HAN et al. 2012). Linoff &

Berry (2011) têm uma definição similar com ênfase na parte operacional da

mineração de dados, ao declará-la como um processo do negócio. A

mineração de dados e a descoberta do conhecimento para dados são

normalmente usados como sinônimos. Outros usam o termo mineração de

dados como um passo no processo da descoberta do conhecimento, que é

quando se refere aos métodos inteligentes usados para extrair insights e

padrões a partir dos dados. A mineração de dados também pode ser vista

como um passo no big data analytics; é preditiva e os algoritmos descritivos

são citados normalmente em textos esclarecendo as oportunidades possíveis

com o big data analytics.

O datamining é um conjunto de técnicas reunidas da estatística e da

inteligência artificial com o objetivo específico de descobrir conhecimento novo,

que porventura esteja escondido em grandes massas de dados armazenadas

em bancos de dados, e encontrar uma relação nova entre os dados que não

são perceptíveis sem as técnicas adequadas (BARBIERI, 1990).

As ferramentas da ciência dita datamining são antigas conhecidas dos

pesquisadores da ciência da computação, e já há muito utilizadas no meio

acadêmico e empresarial gerador de tecnologia.

A popularização dessas ferramentas e a sua nova designação pelo

nome mineração de dados devem-se a vários fatores, entre os quais se podem

citar a competitividade empresarial e a disponibilidade de grandes massas de

dados armazenados em forma digital. O conhecimento gerado a partir desse

processo é utilizado por profissionais de diversas áreas: estatísticos, governo,

medicina, segurança e marketing.

De acordo com Carvalho (2005), a metodologia do datamining pode ser

realizada de três diferentes formas: (a) descoberta não supervisionada de

48

relações (se nada se sabe sobre o comportamento dos fenômenos), (b) teste

de uma hipótese (quando se possui algum conhecimento sobre o campo de

atuação) e (c) modelagem de dados (quando se tem maior conhecimento da

área e da relação que deseja estudar) (BARBIERI, 2009).

Armazenamento de dados é o processo de captar dados e coletá-los de

fontes diferentes para torná-los disponíveis para recuperação on-line (FAYYAD

et al. 1996). No processo, os dados são extraídos de sistemas operacionais,

transformados, limpos, agregados, carregados e resumidos em um repositório

para processamento (BONTEMPO; ZAGELOW 1998). O armazém de dados

(figura 7) ajuda a simplificar os sistemas de suporte de decisão e devem

representar, idealmente, um ponto de verdade único sobre dados de

organizações. O data mart é um subconjunto do armazém de dados acessado

normalmente por uma determinada área ou linha de negócios.

Figura 7: Infraestrutura do armazém de dados.

Fonte: REIS, 2015, adaptado pela autora.

Reports Reports

Reports

Vendas

SCM

ERP

Externos

ETL DWH Relatórios

Data Mart Relatórios

Data Mart Relatórios

Data Mart Relatórios

Data Mart Relatórios

49

2.6 RISCOS DO BIG DATA

A importância do big data não gira em torno da quantidade de dados

disponível, mas em torno do que se faz com eles. Dados de qualquer fonte

podem ser analisados para encontrar respostas que permitam 1) redução de

custos, 2) redução de tempo, 3) desenvolvimento de novos produtos e ofertas

otimizadas, 4) decisões mais inteligentes. Quando o big data é combinado com

a alta potência do analytics, são viabilizadas tarefas relacionadas a negócios,

tais como:

a. Determinar a causa raiz de falhas, problemas e defeitos em tempo

quase real;

b. Gerar cupons no ponto de venda com base em hábitos de compra

dos clientes;

c. Recalcular carteiras de risco inteiras, em questão de minutos;

d. Detectar comportamentos fraudulentos antes que afetem sua

organização.

Em 2012, a Pew Internet Research publicou um artigo, que resume um

estudo com centenas de pesquisadores e especialistas sobre os impactos,

positivos ou negativos que o big data poderá ocasionar nas empresas, pessoas

e sociedade nos próximos anos. O crescimento do volume e variedade de

dados é imenso e a velocidade de geração de novos dados está se acelerando

rapidamente. Dados já começam a ser parte tão importante da economia como

trabalho e capital (TAURION, 2013). A pesquisa foi realizada a partir de uma

parceria com o Centro para a Imaginação da Internet da Universidade de Elon,

onde foram entrevistados 1.400 pensadores de tecnologia.

Muitos dos pensadores acreditam que a internet será usada para novas

violações de privacidade por parte do governo, haverá mais monitoramento e

queda da confiança, além de um “esmagamento” da criatividade causado pelo

controle das grandes companhias. Os especialistas acreditam ainda em

ameaças causadas pela personificação do conteúdo, que tenderá a limitar a

50

sobrecarga de informação, mas, em contrapartida, será responsável por acabar

com descobertas ocasionais feitas na rede.

Segundo Lee Rainie, diretor do Pew Internet Center e coautor do estudo,

quando questionados sobre as oportunidades e ameaças do conteúdo livre na

internet, os especialistas foram pessimistas, com uma “sensação mais palpável

de temor” sobre a relação na web, afirma. O grupo inicialmente se mostrava

otimista, no entanto, quando questionado sobre as principais ameaças ao

acesso, compartilhamento e conteúdo na internet, mudou suas visões (HARDY,

2014).

No relatório, a palavra “ameaça” é repetida 57 vezes, enquanto

“esperança” e variáveis positivas surgem apenas 12 vezes. As palavras

“corporativa” e “corporação” são mencionadas 31 vezes, no entanto, apenas

uma vez é empregada de forma positiva. Nos relatórios anteriores divulgados

pela Pew Research, especialistas tinham previsto uma internet onipresente,

enquanto outro estudo apontava implicações da internet das coisas – ambos

mais otimistas que a atual divulgação.

Mesmo com as ideias negativas do novo relatório, o clima em que ele foi

realizado influenciou suas conclusões. Ele foi produzido entre novembro de

2013 e janeiro de 2014, período em que as revelações de Edward Snowden -

o analista de sistemas, ex-administrador de sistemas da CIA e ex-contratado

da NSA que tornou públicos detalhes de vários programas que constituem o

sistema de vigilância global da NSA americana - estavam fortemente

presentes nos noticiários, o que, para Rainie, influenciou a opinião dos

especialistas consultados. (ANDERSON; RAINIE, 2014).

O medo de que companhias dominem o ambiente online para geração

de lucro a partir do tempo ocioso dos usuários, faz parte, segundo Rainie, de

uma tendência de “preocupação crônica sobre a comercialização de tudo on-

line”.

51

As revelações de Snowden, por mais relevantes, não mudaram a forma

como as pessoas se relacionam com a internet. Dessa maneira, acredita-se

que elas tenham influenciado mais diretamente o modo como os especialistas

olham para a questão. Entre os entrevistados, a maioria se declarou norte-

americana, portanto, essa visão também pode ser diferente em outros locais

(HARDY, 2014).

2.7 USOS E APLICAÇÕES DO BIG DATA

O trabalho com big data vem ganhando cada vez mais espaço em

campos como comunicação e tecnologia, impulsionado principalmente pela

produção de dados e informações em larga escala, pela sua disponibilidade na

internet e pelo aumento das ferramentas para extração e análise desses dados.

Raquel Recuero (2012) observa que há uma gama de pesquisadores de todo o

mundo interessado no que parece ser a grande novidade em termos de dados,

proporcionada principalmente pelo advento das ferramentas de comunicação

mediada por computador.

Chad Gaffield dedicou-se, nos últimos anos, aos estudos de dados, mais

especificamente do big data. “Nos negócios o foco começou a mudar do

produto para o consumidor. Hoje, empresas querem saber o que as pessoas

querem, os produtos são ‘useroriente’ (orientado ao usuário) e os serviços

buscam entender como o usuário pensa”, declara, ao citar previsões sobre

como o conhecimento sobre o homem pode contribuir para vida em sociedade.

No trabalho, as empresas terão o dever de compreender seus

empregados. Assim como os políticos, cada vez mais, terão que entender

quem é o cidadão. Na educação, por 200 anos, não se preocuparam em

entender como as pessoas aprendem. Sabemos hoje que transmitir

conhecimento unilateralmente nem sempre é o melhor jeito de aprender. Na

saúde, ouvir o médico era a principal fonte de informação, hoje a saúde é sobre

o paciente e não mais sobre a doença (GAFFIELD, 2013).

52

Todo esse interesse é resultado direto de uma época em que a

humanidade se encontra cada vez mais conectada, o que nos permite ter

informações sobre outros como nunca antes. O aspecto mais distinto sobre o

big data deve ser esse: o fato desses grandes conjuntos de dados serem sobre

a humanidade, sobre pessoas. Para o pesquisador é a partir da análise das

relações entre pessoas que poderemos entender como as mudanças

acontecem na sociedade. (GAFFIELD, 2013).

Da mesma forma, cientistas como Stephen Wolfram e laboratórios como

o MIT Connection Science propõem uma integração da teoria de redes,

computação e ciências comportamentais para apontar novos modelos de fluxo

de informação e influência em redes sociais, sejam elas digitais ou não.

Barabasi (2002), considerado uma das maiores referências mundiais no estudo

de redes complexas, foi o primeiro a utilizar dados digitais para tentar

compreender o comportamento das pessoas na internet.

Ao encontrar padrões em rastros de navegação, concluiu que redes

complexas possuem propriedades e que essas propriedades podem ser

aplicadas no conhecimento e gestão de outros sistemas complexos como um

organismo, uma célula ou a própria sociedade. Sobre isso, Costa e Cavalcanti

(2014) abordam que, nos últimos quatro séculos, o método científico foi usado

para construir o conhecimento.

Para esses autores, a ampliação do conhecimento científico nos leva ao

desafio de que conhecemos as mínimas partes de todo sistema que

estudamos, mas temos cada vez mais problemas sem solução. Dessa forma,

eles entendem que a Ciência das Redes traz novo oxigênio ao campo das

ciências, complementando o método cientifico reducionista que chegou ao seu

limite. “Conhecer as partes nos possibilitou muito conhecimento e inovação,

mas garantiu a solução apenas daqueles problemas que têm a sua gênese no

entendimento das partes do sistema, e não na relação entre estas partes”

(COSTA; CAVALCANTI, 2014).

53

Não são poucas as pesquisas em âmbitos acadêmicos que têm se

dedicado a entender e analisar o grande volume de dados que a humanidade

vem gerando nos últimos anos e que têm se mostrado como um grande desafio

não somente para o mercado, mas também para a ciência.

Alguns estudos, como se observou, valem-se da terminologia big data e

outros preferem usar dados digitais. Recuero (2012), por sua vez, cita os

estudos do Axel Bruns, na Austrália, que tem usado big data para entender o

comportamento das pessoas nas mídias sociais em momentos de crise (por

exemplo, durante um desastre) e tentando aprender com isso como criar

estratégias para lidar com essas crises. Ele também tem estudado como as

mídias sociais (o que as pessoas falam na internet, basicamente) têm a ver

com as audiências feitas nas redes, tentando entender um pouco melhor o

comportamento desses públicos.

Outros estudos usando big data em análise de mídias, podem ser

apontados a partir das experiências internacionais, como as citadas por

Ronaldo Cristiano Prati (2014). O sistema Lydia, desenvolvido por Lloyd,

Kechagias e Skiena (2005), tem propósito múltiplo e foi usado para detectar

padrões espaciais e temporais de entidades presentes nas notícias, a

comparação de ocorrência dessas entidades entre mídias tradicionais e blogs,

o sentimento associado a essas entidades e a sua correlação com o mercado

financeiro para a previsão de preço de ações.

Esse sistema também foi utilizado nas análises das campanhas

presidenciais americanas de 2008 e 2012. Ali et al. (2011) desenvolveram o

sistema NOAM para coleta e análise automática de notícias. Segundo Prati

(2014), o estudo reportado em Flaounas et al. (2013) descreve ampla pesquisa

com 2,5 milhões de notícias coletadas a partir de 498 diferentes provedores de

98 países e que publicaram textos na língua inglesa por um período de 10

meses. As notícias foram automaticamente classificadas utilizando técnicas de

aprendizado de máquina em 15 categorias diferentes. O objetivo era encontrar

padrões e similaridades no estilo de escrita entre diferentes provedores de

54

notícias, diferenças de gênero no conteúdo das notícias e seu relacionamento

com a popularidade dos artigos.

Além de notícias atuais, o big data também vem sendo aplicado para

analisar arquivos históricos de jornais. Um exemplo é o projeto An

Epidemiology of Information que tem como proposta investigar padrões de

disseminação de informação a respeito da epidemia de gripe espanhola nos

Estados Unidos. De acordo com Prati (2014) os pesquisadores Ewing, Gad e

Ramakrishnan (2013) usaram técnicas de inteligência artificial para estudar o

padrão de cobertura jornalística a respeito dos locais em que focos de gripe

ganhavam a atenção da mídia da época. Posteriormente, Ewing et al. (2014)

estudaram o tom das notícias, classificando-as como alarmistas, de aviso,

explanatórias e tranquilizadoras.

Outro exemplo de pioneirismo nesse campo, envolvendo o

processamento e análise de grandes volumes de imagens na internet, é o

Laboratório Software Studies, da Universidade da Califórnia, criado em 2007

pelo professor e pesquisador Lev Manovich. O pesquisador e sua equipe

desenvolvem ferramentas que possibilitam a visualização e,

consequentemente, a análise de grandes volumes de imagens. O destaque de

suas pesquisas é a criação do ImagePlot, um plugin desenvolvido para um

software chamado ImageJ, que permite a organização de milhares de imagens

em um gráfico único (ou plot), obedecendo a alguns parâmetros pré-

determinados, dentre eles cor, brilho, saturação e tempo.

As pesquisas do Software Studies não possuem tema único, passeando

por entre o campo artístico (comparação entre pinturas de Mondrian e Rocko,

por exemplo) e atingindo análises de dados on-line (como o projeto

Phototrails). Os parâmetros de cor, brilho e saturação que compõem essas

visualizações dão margem às análises que vão desde poder revelar padrões

comportamentais de uma sociedade até observar a variância da evolução de

uma veia artística.

55

Entre os projetos desenvolvidos pelo laboratório está o Phototrails,

idealizado por Nadav Hochman, Lev Manovich e Jay Chow. O objetivo proposto

com esse estudo foi explorar padrões visuais, dinâmicas e estruturas em

escala planetária sobre o compartilhamento de fotos geradas por usuários,

usando uma amostra de cerca de 2,3 milhões de fotos do Instagram, vindas de

13 cidades ao redor do planeta. As teorias formuladas a partir das análises das

visualizações mostram como as mudanças temporais, de localidade e das

características visuais podem revelar comportamentos sociais, culturais e

políticos acerca da atividade das pessoas pelo mundo.

Como mencionado anteriormente, novos tipos de sensores remotos

estão gerando fluxos de dados digitais de telescópios, câmeras de vídeo,

monitores de tráfego, imagens de máquinas de ressonância magnética,

sensores químicos e biológicos do ambiente. Além disso, milhões de indivíduos

estão gerando fluxos de dados pessoais por meio de seus celulares,

computadores, sites e outros dispositivos digitais. Por conta desses fluxos de

dados, o big data representa muitas oportunidades para o progresso

empresarial e da sociedade. Há muitas frentes que podem ser exploradas para

acelerar a descoberta e inovação.

Pessoas podem usar novas ferramentas para ajudar a melhorar sua

saúde e bem-estar, os cuidados médicos podem ser mais eficientes e efetivos.

Os governos também têm grande participação no uso de grandes bancos de

dados para melhorar a entrega de serviço e monitorar ameaças à segurança

nacional.

Esses dados também abrem toda sorte de novas oportunidades

negociais, ajudando as companhias a entender a dinâmica de certas áreas da

vida, como a difusão de doenças, hábitos de consumo, atividade da vida

cotidiana, que terão forte repercussão nas atividades empresariais e do

governo (BOLLIER, 2010).

Para fins de aplicações governamentais, a United Nations Statistics

Division (UNSD) e a United Nations Economic Commmission for Europe

56

(UNECE) (2015) assinalam que a nova arquitetura integrada para produção de

dados também introduzirá inovações para incorporar fontes de dados não

tradicionais, especialmente em relação ao big data, que até então têm sido

subutilizadas na produção de estatísticas oficiais.

Não obstante os seus benefícios potenciais, a adequação de novas

fontes não tradicionais de dados para propósitos oficiais precisa ser examinada

e avaliadas mantendo a qualidade existente e outros requisitos seguidos pelas

práticas estatísticas.

A International Data Corporation (IDC) (2013) apresenta extensa lista de

oportunidades vertentes de negócios e processos em vários segmentos de

mercado e governo:

a. serviços financeiros: prevenção e detecção de fraudes bancárias e

de seguros; avaliação preditiva de danos na indústria de seguros;

análises de reclamações em seguros; integração de dados

transacionais a partir de técnicas de Customer Relationship

Management (CRM), pagamentos com cartões de crédito, transações

e conta e dados não estruturados de redes sociais; avaliação de

exposição de portfólio e riscos; perfis de consumo, foco e otimização

de ofertas para vendas cruzadas; central de atendimento a

consumidores; análises de reputação da marca e de opinião de

clientes; correlação de opiniões em mídias sociais com o retorno de

ações para apoiar decisões de investimento; modelagem de

catástrofes em seguros; gerenciamento do valor do cliente;

b. telecomunicações: otimização de rede; retenção de consumidores

baseada em gravações de atendimentos, contatos e atividades de

assinantes; redução de evasão de clientes; otimização de ofertas por

venda cruzada; prevenção de fraudes; oferta de serviços com base

em localização geográfica; alocação de largura de banda baseada

em padrões de uso;

57

c. meios de comunicação: classificação de consumidores, prevenção de

fraudes, retenção de clientes, otimização de audiência, alocação de

largura de banda baseada no padrão de acesso para vídeo, música e

fluxo on-line oriundo de software de jogos;

d. serviços/óleo e gás: utilização de padrões em tempo real para a

otimização do consumo e definição de preço; análise preditiva;

previsão de carga de distribuição e agendamento; modelagem de

processos operacionais; gestão de desastres; análise de feedback de

consumidores e de gravações telefônicas; pesquisas da exploração

na indústria de óleo e gás; processamento de dados sísmicos;

otimização e vigilância de perfurações;

e. serviços profissionais: gerenciamento de campanhas e programas de

fidelidade; prevenção de crimes e detecção para serviços de

segurança; preços personalizados de viagem; monitoramento de

infraestrutura de TI, manutenção preventiva e gestão de TI; detecção

de violações de segurança e aprendizado de máquina para a criação

de regras na TI;

f. transporte: otimização de logística; análises baseadas na localização

pela utilização de dados de GPS; análise de clientes e fidelidade;

manutenção preventiva; otimização de capacidade e preço;

g. varejo e atacado: leiaute e localização de estoque; otimização da

cadeia de fornecedores; rastreamento via identificação por rádio-

frequência ou radiofrequency identification (RFID); otimização de

preços; análise de comportamento de consumidores; insights práticos

de consumidores, micro segmentação; análise de fidelidade e

promoções; venda cruzada e indução de vendas no ponto de vendas;

otimização de descontos com base nos padrões de consumo do

cliente; análise de cesta baseada na demografia; otimização de

merchandising; prevenção e detecção de fraudes; detecção de

fraudes no comércio eletrônico;

58

h. produção industrial: manutenção preventiva; análise de processos e

qualidade; gestão de garantias; automação da produção; automação

da detecção de efeitos adversos de drogas na indústria farmacêutica;

monitoramento, via sensores, para a manutenção de veículos,

construções e máquinas; monitoramento para otimização do

consumo de energia; análise baseada em localização pelo uso de

dados de GPS; análise de comentários em redes sociais para gestão

de qualidade de veículos; previsão de demandas e planejamento de

fornecimentos; fábrica digital para enxugamento da manufatura;

otimização da distribuição; gerenciamento de qualidade com base em

comentários em redes sociais;

i. setor público: aperfeiçoamento de serviços para cidadãos e

pacientes; sistemas de armas e contra o terrorismo; análise de

impostos; detecção de fraude; segurança cibernética; programas de

vigilância e resposta.

O big data se torna um grande impulsionador econômico de vários

segmentos e a Gartner, empresa de consultoria norte-americana, divulgou em

2012 as previsões dos segmentos que obteriam maiores resultados por conta

do grande volume de dados como observado na figura 8. Como afirma Donald

Feinberg (2013).

“Agora, as organizações têm mais conhecimento do que é o Big Data e como ele pode

transformar o negócio de novas formas. As questões chave mudaram para ‘quais são

as estratégias e as habilidades necessárias’ e ‘como podemos medir e ter certeza do

retorno do investimento?’. Muitas empresas ainda estão nos estágios iniciais e poucas

têm pensado em uma abordagem empresarial ou, ainda, percebido o profundo impacto

que Big Data terá em suas infraestruturas, organizações e indústrias”

59

Figura 8: Oportunidade de big data – mapa de calor por indústria.

Fonte: GARTNER, 2012.

Os efeitos do big data são muitos em termos práticos, à medida em que

a tecnologia é aplicada para encontrar soluções para problemas cotidianos.

Mas é apenas o começo. O big data está destinado a reformular a maneira

como vivemos, trabalhamos e pensamos. A mudança que enfrentamos é, de

certo modo, maior que as geradas por inovações notáveis que drasticamente

expandiram o escopo e a escala das informações na sociedade (MAYER-

SCHONBERGER; CUKIER, 2013).

2.8 BIG DATA VERSUS SMALL DATA

Big data não é um small data que cresceu a ponto de não ser suportado

em uma planilha, também não é um banco de dados que, de repente, se tornou

grande demais. No entanto, de acordo com Jules J. Berman, observa-se que

alguns profissionais que costumam trabalhar com conjuntos de dados

Ban

cos

e se

gura

dora

s

Edu

caçã

o

Gov

erno

Pro

vedo

res

Saú

de

Seg

uros

Man

ufat

ura

de R

ecur

sos

Nat

urai

s

Vare

jo

Tran

spor

te

Util

ities

Ata

cado

Volume de dados

Velocidade de dados

Variedade de dados

Sub-utilização dados

Serviços

Hardware

Software

Potencial de oportunidade em Big Data em cada dimensão é:

Muito Alto (comparado com outras indústrias)

Alto

Moderado

Baixo

Muito baixo (comparado com outras industrias

60

relativamente pequenos têm a falsa impressão de que podem aplicar suas

habilidades adquiridas em análises de planilhas e banco de dados, diretamente

a recursos de big data sem dominar novas habilidades e sem ajustes em novos

paradigmas analíticos (BERMAN, 2013)).

Diante desta visão, quando os dados aumentam, apenas o computador

deve se ajustar a esta realidade (obtendo dados mais rápido, adquirindo

memória mais volátil e aumentando seus recursos de armazenamento). O big

data não apresenta questões especiais que um super-computador não possa

resolver. Esta visão é contraproducente. Ela leva a um software lento e

ineficaz, grandes perdas de investimentos, análises ruins e a produção inútil e

irreversível dos recursos de big data.

De acordo com Jules J. Berman (2013), as principais diferenças que

podem ajudar a distinguir big data e Small Data estão a seguir:

2.8.1 Objetivos

a. Small data – geralmente desenhado para responder a questão

específica ou servir a determinado objetivo.

b. Big data – geralmente desenhado com objetivo flexível e as

questões apresentadas estão em constante mudança. Não há

como especificar completamente o que o big data irá conter e

como os vários tipos de dados mantidos no recurso serão

organizados, conectados a outros recursos de dados ou

analisados de forma útil. Ninguém poderá especificar, com

confiabilidade, o destino final de um projeto de big data;

geralmente isto é surpresa, é algo novo.

2.8.2 Localização

c. Small data – tipicamente, small data pertence a uma organização,

frequentemente em um computador e algumas vezes em um

arquivo.

61

d. Big data – tipicamente, está espalhado pelo espaço eletrônico e

geralmente compartilhado em vários servidores de internet,

localizados em qualquer lugar da terra.

2.8.3 Estrutura de dados e conteúdo

e. Small data – originalmente, contém dados altamente estruturados.

O domínio do dado é restrito a uma única disciplina ou

subdisciplina. Os dados geralmente dão entrada de registros

uniformes uma planilha ordenada.

f. Big data – deve ser capaz de absorver dados não estruturados

(por exemplo, documentos de texto livre, imagens, filmes,

gravações de som). O assunto de interesse pode estar em

múltiplas disciplinas, e os objetos de dados individuais não podem

vincular a dados contidos em outro, aparentemente não

relacionados.

2.8.4 Preparação dos dados

g. Small data – em muitos casos, o usuário do dado prepara seu

próprio dado, para seu próprio objetivo.

h. Big data – os dados vêm de diversas fontes, e são preparados por

muitas pessoas. Os usuários dos dados raramente são os

mesmos que preparam os dados.

2.8.5 Longevidade

i. Small data – quando o projeto termina, o dado é mantido por

tempo limitado (raramente superior há sete anos, o período

tradicional de vida acadêmico para dados de pesquisa) e, então,

são descartados.

j. Big data – projetos de big data usualmente contêm dados que

devem ser armazenados perpetuamente. Idealmente, dados

armazenados em recursos de big data serão absorvidos por outro

62

recurso quando o original terminar. Muitos projetos de big data se

estendem do futuro ao passado (por exemplo, dados legados),

acumulando dados a serem prospectados e dados já

prospectados no passado.

2.8.6 Mensuração

k. Small data – usualmente, o dado é mensurado usando protocolo

experimental, e o dado pode ser representado usando um

conjunto de unidade padrão.

l. Big data – muitos diferentes tipos de dados são entregues em

diferentes formatos eletrônicos. A medições, quando presentes,

podem ser obtidas por meio de diferentes protocolos. Verificar a

qualidade do big data é uma das mais difíceis tarefas dos

gerentes de dados.

2.8.7 Reprodução

m. Small data – projetos usualmente podem ser replicáveis. Se há

alguma questão sobre a qualidade do dado, a reprodução do dado

ou validade das conclusões extraídas dos dados, o projeto inteiro

pode ser refeito, produzindo novo conjunto de dados.

n. Big data – replicação em um projeto de big data raramente é

factível. Na maioria dos casos, tudo o que se pode esperar é que

dados considerados ruins em big data sejam encontrados e

sinalizados como tal.

2.8.8 Suporte

o. Small data – Custo do projeto são limitados. Laboratórios e

instituições podem usualmente recuperar das falhas ocasionais

em small data.

p. Big data – projetos de big data podem exigir altos investimentos.

Um fracasso em uma iniciativa de big data pode levar à falência,

63

colapso institucional, disparos em massa e a súbita desintegração

de todos os dados mantidos no recurso. Como um exemplo, o

projeto NIH big data conhecido como NCI câncer Biomedical

Informatics Grid custou pelo menos US$ 350 milhões por ano

entre 2004 a 2010. Um comitê ad hoc que revisou o recurso

descobriu que, apesar dos intensos esforços de centenas de

pesquisadores e especialistas em informações sobre o câncer,

alcançou muito pouco diante de uma despesa tão grande que

uma moratória para o pagamento do projeto foi pedida. Pouco

tempo depois, o recurso foi encerrado. Os custos da falha podem

ser altos em termos de dinheiro, tempo e mão-de-obra, as falhas

dos esforços em big data podem até ter algum valor a ser

recuperado. Porém, cada esforço que falha vive como restos

intelectuais consumidos pelo próximo esforço em big data.

2.8.9 Visão interna – introspecção

q. Small data – pontos de dados individuais são identificados pela

sua localização em linhas e colunas em uma planilha ou tabela de

dados. Se é sabido os cabeçalhos de linhas e colunas, pode-se

encontrar e especificar todos os pontos de dados contidos.

r. Big data – a menos que o recurso de big data seja

excepcionalmente bem desenhado, os conteúdos e a organização

do recurso pode ser inescrutável, mesmo para os gerentes de

dados. Acesso completo a dados, informações e sobre a

organização dos dados são obtidas pela técnica aqui referida

como introspecção.

2.8.10 Análises

s. Small data – na maioria das vezes, todos os dados contidos no

projeto podem ser analisados juntamente e de uma vez.

t. Big data – com raras exceções, como aquelas conduzidas por

64

supercomputadores ou em paralelos em múltiplos computadores,

big data é comumente analisado em passos incrementais. Os

dados são extraídos, revisados, reduzidos, normatizados,

transformados, visualizados, interpretados e reanalisados com

diferentes métodos.

2.9 VISÃO TECNOLÓGICA DE BIG DATA

É importante observar que a “era do big data” só se materializou com a

confluência de alguns fatores como a queda do custo de armazenar dados.

Guardar e acessar com eficiência um volume relativamente pequeno de

informações exigia um investimento financeiro considerável em hardware, além

do tempo de instalação ser grande.

Nos anos 90, estocar 1 gigabyte custava 1000 dólares para as

empresas. Hoje, custa 6 centavos, diz Frederico Grosso, diretor da unidade de

softwares para análise de dados da HP, na América Latina (FEIJÓ, 2013).

Assim, o big data é uma evolução natural da computação em nuvem, em

que o poder de arquivamento e processamento das máquinas migrou para a

internet. Os custos são rateados com milhares de usuários (FEIJÓ, 2013).

Devido ao modelo econômico adotado pela globalização, o termo just in

time, totalmente dependente da necessidade de uma expansão virtual, se

tornou a palavra de ordem das negociações e forçou a ampliação da estrutura

para armazenamento de dados. Um exemplo é o Hadoop, uma tecnologia que

se destaca no cenário de big data.

As tecnologias que envolvem big data podem ser analisadas sob duas

óticas: as envolvidas com analytics, tendo o Haoop, uma plataforma de

software em Java de computação distribuída voltada para clusters e

processamento de grandes massas de dados e o MapReduce, modelo de

programação, e framework introduzido pelo Google para suportar computações

paralelas em grandes coleções de dados em clusters de computadores, como

nomes principais. E as tecnologias de infraestrutura, que armazenam e

65

processam os petabytes de dados. Nesse aspecto, destacam-se os bancos de

dados NoSQL (Not Only SQL) , termo usado para descrever bancos de dados

não relacionais de alto desempenho. Os bancos de dados NoSQL usam

diversos modelos de dados, incluindo documentos, gráficos, chave-valor e

colunares.

O Hadoop é um projeto da comunidade Apache (hadoop.apache.org),

criado pelo Yahoo em 2005, inspirado no trabalho do Google em seu GFS

(Google File System) e no paradigma de programação MapReduce, que

basicamente divide o trabalho em tarefas como um mapeador (mapper) e um

resumidor (reduce) que manipulam dados distribuídos em um cluster de

servidores usados de forma massivamente paralela.

O Haddop é uma combinação de dois projetos separados, que são o

Haddop MapReduce (HMR), que é um framework para processamento

paralelo, e o Hadoop Distributed File Syste (HDFS). O HMR é um spinoff (sbu-

produto) do MapReduce, software que o Google usa para acelerar as

pesquisas enderaçadas ao seu buscador. O HDFS é um sistema de arquivos

distribuídos, otimizados para atuar em dados não estruturados e é também

baseado na tecnologia do Google, neste caso o Google File System. Hoje vem,

de forma crescente, sendo adotado por empresas que precisam tratar volumes

massivos de dados não estruturados.

De acordo com um estudo da empresa SAP, intitulado A Non-Geek’s big

data Playbook: Hadoop and the Enterprise Data Warehouse, o big data pode

ser demonstrado em seis etapas comuns com o Apache Hadoop, criador de

código aberto para grandes tecnologias de dados. O ecossistema de data

warehouse (EDW) da empresa se inicia com uma peça simples e popular e

progride para peças mais complexas e integradas.

Cada objeto do EDW representa um componente-chave no ecossistema

(figura 9).

66

Figura 9 – Data Warehouse Empresarial: simples e tradicional configuração EDW.

Fonte: DULL, T (s.d.), adaptado pela autora.

a. Fontes de dados estruturados: este é o componente de criação de

dados. Tipicamente, são aplicativos que capturam dados

transacionais que são armazenados em um banco de dados

relacional. As fontes de exemplo incluem: ERP (Enterprise

Resource Planning), CRM (Customer Relationship Management),

dados financeiros, dados POS (Point of Sale), insumos, e-

commerce e aplicativos legados;

b. Enterprise warehouse de dados (EDW): Este é o componente de

armazenamento de dados. O EDW é um repositório de dados

integrados de vários dados estruturados, fontes usadas para

relatórios e análise de dados. Ferramentas de integração de

dados, como ETL (Extract Transform Load) normalmente são

usados para extrair, transformar e carregar dados estruturados em

um SGBD (Sistema Gerenciador de Banco de Dados) relacionado

ou orientado a coluna. Os componentes de armazenamento por

exemplo incluem: armazém operacional, armazém analítico (ou

sandbox), data mart operacional, armazenamento de dados ODS

(Operational Data Source) e dispositivo de data warehouse;

c. BI / Analítycs: este é o componente de ação de dados. Estas são

as aplicações, ferramentas e utilitários projetados para que os

usuários acessem, interajam, analisem e criem decisões usando

dados em bancos de dados relacionais. É importante notar que

muitos fornecedores tradicionais também estenderam seus

FONTE DE DADOS ESTRUTURADOS

DATA WAREHOUSE

EMPRESARIAL

BI / ANALYTICS

67

produtos de BI e analytics produtos para apoiar o Hadoop. Os

exemplos de aplicativos incluem: operacional, relatórios, consultas

ad hoc, OLAP (Online Analytical Processing) análise descritiva,

análise preditiva, análise prescritiva e visualização de dados.

Cada objeto neste diagrama representa os principais componentes

relacionados a Hadoop (figura 10)

Figura 10 – Big data e hadoop: simples configuração Hadoop autônomo.

Fonte: DULL, T (s.d.), adaptado pela autora.

d. Fontes de dados não estruturadas: este é o componente de

criação de dados. Tipicamente, este é um dado que não é ou não

pode ser armazenado em um banco de dados estruturado e

relacional. Inclui fontes de dados semiestruturadas e não

estruturadas. Exemplo estas fontes incluem: e-mail, dados sociais,

dados XML (Extensible Markup Language), vídeos, arquivos de

áudio, fotos, GPS, imagens de satélite, dados do sensor,

planilhas, dados do log da web, dados móveis, etiquetas RFID e

documentos PDF.

e. Hadoop (HDFS): o sistema de arquivos distribuídos Hadoop

(HDFS) é o componente de armazenamento de dados do projeto

open source (código aberto) Apache Hadoop. Pode armazenar

qualquer tipo de dado – estruturados, semiestruturados e não

FONTE DE DADOS NÃO

ESTRUTURADOS HADOOP

BIG DATA APPS

68

estruturados. Projetado para funcionar com hardware de baixo

custo e pode ser escalado de forma rápida em milhares de

máquinas.

f. Grandes aplicativos de dados: este é o componente de ação de

dados. Estas são as aplicações, ferramentas e utilitários criados

nativamente para o usuário acessar, interagir, analisar e tomar

decisões usando dados em Hadoop e outros sistemas não

relacionais de armazenamento. Não inclui aplicativos de BI,

análise tradicionais ou ferramentas que foram estendidas para

suportar o Hadoop.

Não representado diretamente na figura 11 é MapReduce, o

gerenciamento e processamento de recursos componente do Hadoop.

MapReduce permite que desenvolvedores Hadoop escrevam programas

otimizados que podem processar grandes volumes de dados, estruturados e

não estruturados, em paralelo, através de aglomerados de máquinas de forma

confiável e tolerante a falhas. Por exemplo, um programador pode usar

MapReduce para encontrar amigos ou calcular o número médio de contatos em

uma aplicação de rede social ou processar estatísticas de log de acesso à web

para analisar volume de tráfego e padrões da web.

Outro benefício do MapReduce é que ele processa os dados onde ele

reside (em HDFS) em vez de movê-lo, como por vezes é o que acontece em

um sistema EDW tradicional. Também vem com um sistema de recuperação

incorporado – então, se uma máquina falhar, MapReduce sabe onde ir para

obter outra cópia dos dados. Embora o processamento do MapReduce seja

rápido, quando comparado aos métodos tradicionais, seus trabalhos devem ser

executados no modo de lotes. Isso provou ser uma limitação para as

organizações que precisam processar dados com mais frequência ou mais

próximos do tempo real.

69

Com o aumento dos volumes de dados e o aumento dos requisitos para

processar e analisá-los ainda mais rapidamente, as organizações enfrentam

três opções nos dias de hoje:

a. Adicionar mais hardware ou potência ao seu EDW existente

e sistemas operacionais.

b. Consideram formas alternativas de gerenciar seus dados.

c. Não fazem nada.

Enquanto a opção 1 é viável, mas exige alto investimento, e a opção 3

poderia ser muito prejudicial para algumas organizações, a opção 2 é onde o

Haddop pode ser considerado.

A figura 11 apresenta uma configuração tradicional de dados

estruturados e a figura 12 apresenta os processos aplicados usando o data

warehouse empresarial e o hadoop.

Figura 11 – Estágio dados estruturados: configuração tradicional

Fonte: DULL, T (s.d.), adaptado pela autora.

FONTE DE DADOS ESTRUTURADOS

DATA WAREHOUSE

EMPRESARIAL

BI / ANALYTICS

FONTE DE DADOS NÃO ESTRUTURADOS

HADOOP

BIG DATA APPS

70

Figura 12 – Processo dados estruturados: configuração tradicional

Fonte: DULL, T (s.d.), adaptado pela autora.

A melhoria de desempenho em sistemas paralelos requer uma

abordagem estruturada que faça um bom uso dos recursos de

desenvolvimento, obtendo resultados mais rapidamente. Eles podem ser dividid

em três estágios distintos:

• Primeiro Estágio: Estabelecendo uma metodologia de otimização. Melhores práticas ajudam a planejar com antecedência e

permanecer dentro do plano.

• Segundo Estágio: Criando uma carga de trabalho adequada. Uma

quantidade consistente de trabalho para o aplicativo realizar antes e

depois do ajuste permite medir o progresso.

• Terceiro Estágio: Construindo o ambiente de teste. Um ambiente de

teste adequado emula de forma válida o ambiente de produção dentro

de seu processo empírico.

FONTE DE DADOS ESTRUTURADOS

DATA WAREHOUSE

EMPRESARIAL

BI / ANALYTICS

FONTE DE DADOS NÃO

ESTRUTURADOS HADOOP

BIG DATA APPS

71

3 ANÁLISE DE CASOS

Nesse capítulo, são apresentados dois casos que atingiram que fizeram

uso de big data. Os casos foram selecionados devido à riqueza do conteúdo

disponível on-line e a revelação dos resultados. É importante ressaltar,

entretanto, que a escolha de casos relevantes com a utilização de big data

enfrenta desafios práticos, alguns dos quais são:

a. A vantagem competitiva é um conjunto complexo de

competências difícil de isolar e medir na vida real:

b. O tópico big data ainda é recente. Com exceção de organizações

nascidas digitalmente (i.e., Facebook, Google, Amazon, etc.), ele

enfrenta um desafio em encontrar muitas organizações que

desenvolveram a competência integral e publicaram informações

detalhadas sobre tais competências:

c. Organizações que veem o analytics como vantagem competitiva

poderiam relutar em divulgar suas iniciativas, para evitar que a

concorrência reproduza suas estratégias.

Para os fins desse projeto, tentou-se descobrir convergências e

diferenças entre os ensaios de exemplos que alcançaram sucessos publicados.

Evitou-se intencionalmente organizações construídas ao redor de big data

(Facebook, Linkedin, Google, etc.), já que seus modelos de negócios poderiam

ser difíceis de replicar e, até então, menos comuns.

3.1 BIG DATA EM CAMPANHAS ELEITORAIS

No Brasil, existem já experiências em estudos com o big data que valem

referências. O professor e pesquisador Fábio Malini, da Universidade Federal

do Espírito Santo (UFES), tem trabalhado sobre as organizações e

manifestações políticas e de ativismo nesses espaços de fluxos comunicativos.

Desde 2012, o Laboratório de Estudos sobre Imagem e Cibercultura

(Labic) vem recolhendo conteúdo público na Internet focado em manifestações

72

políticas. O foco dos estudos de Malini está na cartografia política a respeito

dos protestos brasileiros a partir de 2013.

A pesquisa busca extrair dados de mídias sociais, especialmente do

Twitter, de menções relacionadas com figuras políticas de destaque assim

como hashtags utilizadas durante os protestos. A primeira análise de dados foi

feita em 170 mil tweets, que representavam diversos perfis de mídia social no

Brasil, variando de meios de comunicação tradicionais aos perfis dos

movimentos sociais.

Nesse estudo, conseguiu-se fazer uma visualização de dados

envolvendo determinados políticos e se descobriu dois padrões de

comportamentos: os que são contra (negativo) e os que são favoráveis ao

político (positivo), além desses um grupo que se colocava como neutro.

Da mesma forma, destacam-se as pesquisas do professor e pesquisador

Walter Lima Júnior, do Observatório de Mídias Sociais Conectadas da

Universidade Metodista de São Paulo. Suas pesquisas são focadas em redes

sociais e campanhas eleitorais presidenciais. As primeiras pesquisas foram

feitas sobre as eleições brasileiras de 2010 e 2014. Segundo Lima Júnior

(2014) com o objetivo de compreender melhor as circunstâncias

comunicacionais das campanhas on-line, surgiu o projeto de pesquisa aplicada

Observatório de Mídias Sociais Conectadas, denominada de Neofluxo,

elaborado pelo Grupo de Pesquisa Tecnologia, Comunicação e Ciência

Cognitiva (Tecccog) e aprovado em junho de 2010 pelo Conselho Nacional de

Desenvolvimento Científico e Tecnológico (CNPq).

Por meio de softwares produzidos ou combinados, o projeto se dedicou

aos seguintes propósitos interdependentes: (1) se mensagens dos programas

televisivos dos principais candidatos à presidência eram utilizadas como

parâmetro para processos comunicativos sustentados pelo Twitter, avaliando

também as estratégias de tais candidatos na plataforma específica, (2) se havia

ação de astroturfings (usuários especializados que se passam por usuários

comuns, por exemplo) vinculados aos partidos ou candidatos particulares.

73

A partir da elaboração de critérios valor-notícia para seleção de

palavras-chave foi possível rastrear, coletar e armazenar participações de

usuários cadastrados no Twitter, formando-se um banco de dados com mais de

20 milhões de mensagens. A pesquisa centrava suas análises a partir das

redes sociais (Facebook, Flickr, Twitter, Youtube) e site oficial da campanha

dos candidatos.

Além disso, a pesquisa buscou mapear como aconteciam os fluxos

informativos entre os canais oficiais dos candidatos e o Twitter (ponto de

partida, caminho percorrido e redistribuição da mensagem), medindo a relação

direta entre as mensagens emitidas pelos canais oficiais dos candidatos à

presidência e o conteúdo divulgado por outros usuários no Twitter.

Também identificava a presença e a influência de astroturfings (ação

artificial de indivíduos que se passam por usuários comuns, disseminando

boatos, mentiras ou informações vantajosas de determinados candidatos a

outros usuários se passando por eleitores que não possuem relação direta com

o partido ou postulante ao cargo de presidente) no processo de troca e

disseminação de mensagens.

Na mesma iniciativa de pesquisas na Universidade Federal do Rio de

Janeiro (UFRJ), foi criado em 2012 o Instituto Big Data Brasil, que trabalha com

pesquisadores da Coppe/UFRJ em conjunto com outras Universidades,

desenvolvendo projetos e pesquisas que têm como foco o uso dos grandes

volumes de dados e informações extraídos dos ambientes digitais. Segundo

Luciana Sodré Costa, o instituto desenvolve pesquisas inspiradas pela Network

Science, a ciência que estuda as propriedades das redes científicas.

Entre os projetos desenvolvidos estão os que são mantidos em parcerias

com a Fundação Getúlio Vargas (FGV) e com a prefeitura do Rio. Além disso, o

Instituto oferece cursos livres, profissionalizantes e MBA para diversas

empresas públicas ou privadas. Segundo Sodré (2015), o Data Driven

Inovation (inovação guiada por dados) demanda habilidades em mapeamento

de sistemas complexos, gestão estratégica de dados, design thinking (fazer a

74

pergunta certa, reduzir os dados e contar a história), visualização de dados,

tomada de decisão e colocação do projeto em ação.

A partir das perspectivas apresentadas, conhecer e controlar os

fenômenos complexos são as promessas do big data que têm mobilizado as

pessoas em torno do tema. Entusiastas e críticos desprendem grandes

esforços para entender as possibilidades e consequências dessa nova

plataforma de geração do conhecimento (COSTA; CAVALCANTI, 2013).

3.1.1 O caso da campanha eleitoral de Obama

Esse caso mostra como dois anos de processamento de dados por

dezenas de gurus de dados foram alavancados para impulsionar o marketing

pessoal – ou o que Wadhwa (2012) chamou de “ciência política de dados”; e

como o analytics ajudou a conduzir a campanha de Obama para conquistar a

corrida presidencial em 2012. É certo que muitos segredos de campanha não

serão revelados tão cedo. Na verdade, muitas das informações publicadas

sobre o uso da tecnologia na campanha de Obama não foram disponibilizada

até que o Obama fosse reeleito.

Nas eleições presidenciais de 2008, a equipe de Barack Obama atribuiu

a cada eleitor norte-americano pontos baseados na probabilidade de aquela

pessoa realizar duas ações distintas e essenciais para a sua campanha:

preencher uma cédula de votação e, mais importante, a cédula ser um voto

para o democrata. Estes pontos eram derivados de um volume de dados sem

precedentes, gerado por um contínuo trabalho de pesquisa. Para cada debate

semanal por estado norte-americano, os call centers da campanha conduziam

de 5 mil a 10 mil entrevistas curtas que rapidamente verificavam as

preferências do eleitor, além de mil entrevistas em versão longa.

Para aprofundar as predições de intenção de voto individual, algoritmos

gerados por softwares de Big Data Analytics buscaram traçar padrões entre

estas opiniões e os dados sobre cada eleitor que a campanha reuniu.

Chegaram-se a mais de 100 variáveis em padrões de eleitores, definidas a

75

partir do histórico de votos das pessoas, bases de dados de consumidores e

contatos das últimas campanhas.

Essa inovação foi muito valorizada entre os responsáveis pelas

pesquisas de campo. Um ciclo quase perfeito de modelos micro segmentados

direcionou voluntários a realizarem conversas roteirizadas porta a porta ou via

telefone com eleitores específicos. Cada uma das interações produzia dados

que eram transmitidos de volta aos servidores de Obama, a fim de refinar os

modelos que direcionavam os voluntários às casas de eleitores que realmente

valiam a pena serem visitados.

A eficiência e extensão desse processo colocou os democratas bem à

frente dos republicanos quando o assunto foi a definição dos perfis dos

eleitores. A campanha de John McCain, na maioria dos estados, aplicou seu

modelo estatístico apenas uma vez, atribuindo apenas uma micro segmentação

a cada eleitor. Com isso, a equipe de McCain foi incapaz de recalcular a

probabilidade de esses eleitores apoiarem o candidato republicano conforme

as mudanças ocorridas ao longo da corrida presidencial. Já as pontuações que

a equipe de Obama atribuía aos eleitores eram ajustadas semanalmente, de

acordo com novos e relevantes eventos que iam surgindo, como a nomeação

de Sarah Palin a vice-presidente pelo lado republicano ou o pedido de

concordata do banco de investimento Lehman Brothers.

3.1.2 Segunda eleição de Obama, 2012

A segunda campanha de Barack Obama também foi pautada por um

grande trabalho conjunto de pesquisas tradicionais e big data. Foi a segunda

campanha digital de Obama, mas, na segunda vez, o departamento de

inteligência de negócios foi cinco vezes maior do que o anterior. O

departamento tinha dezenas de posições analíticas. David Murphy (2012) listou

alguns títulos, como estrategistas digitais chefes, chefe de integração e diretor

de inovação, oficial de inovação, diretor de analytics digital e analista eleitoral

dos estados do campo de batalha. Isso destaca não apenas a importância da

76

ciência de novos dados e cientistas de dados, mas também a diversidade em

um escopo que possa ser criado nos anos vindouros para tal profissão.

Em um relatório do Times, Scherer (2012) citou Jim Messina, o gerente

de campanha de Obama, após assumir o cargo “mediremos todas as coisas

nessa campanha” e seu time deu início à consolidar bancos de dados dos

eleitores e doadores. Eles conseguiram fazer uma microabordagem de

eleitores e prever várias questões, como: (a) Quem iria votar em Obama?

Quem iria votar em Romney? (b) Quem estava relutante? Quem não iria votar

de forma alguma? (c) Quem votaria se fosse abordado? (d) Que tipos de

pessoas seriam persuadidas por certos tipos de apelos (SCHERER 2012).

Em entrevista da MIT Sloan com Andrew McAfee, o cientista de

princípios de pesquisa, disse:

“Esperaria que se tornasse cada vez mais claro que o estilo

[analítico] é cada vez mais superior ao estilo erudito de tomada de

decisões,”... “Não estou dizendo que a intuição não existe, ou que é

ruim ou errada; nossos cérebros são realmente computadores

maravilhosos. – e nosso kit de ferramentas para fazer isso é muito

bom atualmente – não precisamos de um equilíbrio entre intuição e

sermos guiados por dados. Precisamos de cerca de cem por cento da

participação de mercado do último.” (FERGUSON, 2012).

Apesar do comentário de Andrew de usar cem por cento de analytics

poder ser visto como exagerado, realmente reflete a nova realidade em que os

dados podem dar uma perspectiva melhor do que a intuição em muitas

situações. A campanha do Obama pôde levantar US$ 1 bilhão, dos quais 50%

foi arrecadado digitalmente, e ele conseguiu ganhar a corrida digital

novamente.

Mais uma vez, é possível observar um compromisso dos executivos de

campanha em programas orientados por dados para medir tudo da campanha.

Vários artigos falaram sobre a modelagem matemática usada, as

consolidações de banco de dados conduzidas, rastros em redes sociais e as

sofisticações usadas durante essa campanha. Dois anos de preparo e

77

execução, talentos totalmente qualificados, incluindo Chris Hughes – o

cofundador do Facebook – e um compromisso integral com o analytics levou a

campanha de Obama ao sucesso que conhecemos.

3.1.3 Do Brexit a Trump: como o big data pode estar se tornando decisivo nas eleições

Estrategistas do Partido Republicano, de Donald Trump, e da campanha

do Leave EU (pela saída do Reino Unido da União Europeia) são claros sobre

o peso decisivo da rede social na vitória de ambos.

A eleição de Donald Trump para a presidência dos Estados Unidos

deixou muitos analistas surpresos, e muitos responsabilizaram as redes sociais

(principalmente o Facebook) e o compartilhamento de notícias falsas como um

dos fatores que levaram Trump à Casa Branca.

No dia 9 de novembro de 2016, ficou claro que esses dados poderiam

ser utilizados para muito mais. A empresa por trás da campanha online de

Trump é a Cambridge Analytica, uma empresa especializada em análise de big

data — a mesma empresa contratada pelo Leave EU na fase inicial da

campanha pró-Brexit (Britain Exit), uma expressão inglesa que significa “Saída

Britânica”, na tradução literal para o português. Este termo se refere ao plano

que prevê a saída do Reino Unido da União Europeia (UE).

Alexander Nix, CEO da Cambridge Analytica, explica de forma muito

honesta a metodologia de sua empresa. Primeiro, a Cambridge Analytica

compra dados pessoais de diferentes fontes, entre eles sistemas de registros

de terras, dados automotivos, dados de compras, cartões de fidelidade, listas

de sócios de clubes, assinaturas de revistas e igrejas. Nix exibe os logotipos de

corretoras de dados como a Acxiom e a Experian — nos EUA, quase todos

seus dados pessoais estão à venda.

É possível, por exemplo, saber o local com maior concentração de

mulheres judias e comprar essa informação, incluindo uma lista de números de

telefone. Depois disso, a Cambridge Analytica junta esses dados às listas

78

eleitorais do Partido Republicano e atribui um perfil do Big Five a cada um de

seus membros.

Ao longo desse processo, pegadas digitais tornam-se pessoas reais,

com medos, necessidades, interesses e endereços. A metodologia utilizada

pela Cambridge Analytica é muito parecida com aquela desenvolvida por

Michal Kosinski. Um exemplo: a Cambridge Analytica também usa, como

afirma Nix, “pesquisas feitas em mídias sociais” e dados do Facebook. Além

disso, a empresa faz exatamente aquilo que Kosinski sempre repudiou: “Nós

definimos a personalidade de todos os adultos dos Estados Unidos — 220

milhões de pessoas”.

Entretanto, a questão é mais profunda do que parece. A Cambridge

Analytica é uma empresa que trabalhou na campanha online de Trump e do

Brexit no Reino Unido e trabalha com big data, coletando dados de usuários,

estabelecendo perfis psicológicos através das informações que todos deixamos

na rede e traçando estratégias de comunicação.

A Cambridge Analytica, segundo seu CEO, Alexander Nix, disse, é

capaz de formar um modelo para diagnosticar a personalidade de cada um dos

adultos dos Estados Unidos. De acordo com Nix, o sucesso do marketing da

Cambridge Analytica baseia-se numa combinação de três elementos: ciência

comportamental usando o Modelo OCEAN (openness to experience,

conscientiousness, extraversion, agreeableness, neuroticism), análise de big

data e publicidade segmentada. Publicidade segmentada são comerciais

personalizados, alinhados o mais precisamente possível à personalidade de

um consumidor individual.

Para entender o resultado da eleição e como a comunicação política

pode funcionar no futuro, é preciso começar com um acontecimento na

Universidade de Cambridge em 2014, no Centro de Psicometria de Kosinski.

Psicometria, às vezes também chamada de psicografia, centra-se na

medição de traços psicológicos, como a personalidade. Na década de 1980,

79

duas equipes de psicólogos desenvolveram um modelo que buscava avaliar

pessoas com base em cinco traços de personalidade – o modelo foi chamado

de Big Five: abertura (a novas experiências), consenciosidade

(perfeccionismo), extroversão (sociabilidade), condescendência

(cooperatividade) e neuroticismo (temperamento).

Com base nessas dimensões – conhecidas pela sigla em inglês OCEAN

(openness to experience, conscientiousness, extraversion, agreeableness,

neuroticism) – é possível fazer uma avaliação relativamente precisa de

qualquer pessoa. Isso inclui necessidades e medos e como eles devem se

comportar. O Big Five tornou-se a técnica padrão de psicometria. Mas, por

muito tempo, o problema com essa abordagem foi a coleta de dados. Isso

porque era preciso preencher um questionário complicado com informações

muito pessoais. Então veio a internet.

A Cambridge Analytica também usa pesquisas nas mídias sociais e

dados do Facebook. E a empresa faz exatamente aquilo para o que Kosinski

alertara: “Traçamos o perfil de personalidade de todos os adultos nos Estados

Unidos da América – 220 milhões de pessoas”.

Para abordar cada pessoa com a mensagem política adequada a

Cambridge Analytica os classifica psicometricamente e eles podem ser

abordados de diferentes maneiras — com base, por exemplo, no direito à

posse de armas, estabelecido na 2ª Emenda à Constituição dos EUA: “Para

uma audiência altamente neurótica e consciente sobre ameaça de um assalto –

e a política de segurança de uma arma”. Uma imagem à esquerda mostra a

mão de um intruso arrebentando uma janela. O lado direito mostra um homem

e uma criança em pé num campo ao pôr do Sol, ambos portando armas,

claramente atirando em patos: “O contrário, para uma audiência fechada e

prazerosa. Pessoas que se importam com tradição, e hábitos, e família.”

As inconsistências de Trump, sua muito criticada instabilidade, e a série

de mensagens contraditórias resultantes — de repente, tudo isso torna-se um

grande trunfo: uma mensagem diferente para cada eleitor. A noção de que

80

Trump agiu como um algoritmo perfeitamente oportunista seguindo a reação da

audiência é algo que a matemática Cathy O’Neil observou em agosto de 2016.

Quase toda mensagem que Trump enunciou foi guiada por dados,

afirma Alexander Nix. No dia do terceiro debate presidencial entre Trump e

Hillary, a equipe do candidato testou 175 mil variações diferentes de anúncios

publicitários para seus argumentos, de modo a encontrar as versões mais

certeiras via Facebook.

Em sua maioria, as mensagens diferiam umas das outras por detalhes

microscópicos, de modo a apontar para os destinatários com a melhor

abordagem psicológica possível: diferentes títulos, cores, legendas, com uma

foto ou vídeo. Esta afinação atinge todos, até os menores grupos, explicou Nix

numa entrevista. “Podemos nos dirigir a vilarejos ou blocos de apartamentos de

modo segmentado. Até mesmo a indivíduos.”

No distrito de Little Haiti, em Miami, por exemplo, a campanha de Trump

forneceu aos habitantes notícias sobre o fracasso da Fundação Clinton após o

terremoto no Haiti, de modo a evitar que votassem em Hillary. Esse era um dos

objetivos: manter potenciais eleitores de Clinton (o que incluía esquerdistas

vacilantes, afro-americanos e mulheres jovens) longe das urnas; “inibir” seus

votos, como contou à Bloomberg um profissional graduado da campanha

semanas antes das eleições. Estes “posts escuros” — propagandas

patrocinadas em estilo news-feed na timeline do Facebook, vistos somente por

usuários com perfis específicos – incluíam vídeos dirigidos aos afro-americanos

em que Hillary refere-se aos homens negros como predadores, por exemplo.

Não é possível enxergar quão precisamente os norte-americanos

estavam sendo alvejados pelas tropas digitais de Trump naquele momento,

porque eles atacaram menos na TV e mais com mensagens personalizadas

nas mídias sociais ou na TV digital. Enquanto a equipe de Hillary pensava estar

na liderança, com base em projeções demográficas, o jornalista Sasha

Issenberg, da Bloomberg, ficou surpreso ao notar, numa visita a San Antonio –

81

onde a campanha digital de Trump tinha sua base – que um “segundo quartel-

general” estava sendo criado.

A equipe da Cambridge Analytica, aparentemente não mais que uma

dúzia de pessoas, recebeu US$ 100 mil de Trump em julho, US$ 250 mil em

agosto e US$ 5 milhões em setembro. De acordo com Nix, a empresa recebeu

ao todo mais de US$ 15 milhões. A empresa está registrada nos EUA, onde as

leis relativas à divulgação de dados pessoais são mais flexíveis do que em

países da União Europeia. Enquanto as leis europeias de privacidade

requerem que a pessoa opte por sua inclusão (opt in) na divulgação de dados,

as dos EUA permitem que dados sejam divulgados, a não ser quando o usuário

opte por sua não inclusão (opt out).

As medições foram radicais: desde julho de 2016, os cabos eleitorais de

Trump receberam um aplicativo com o qual podiam identificar a visão política e

tipo de personalidade dos habitantes de uma residência. Era o mesmo

aplicativo usado pelos que fizeram a campanha do Brexit. As equipes de Trump

simplesmente tocavam a campainha das casas que o aplicativo classificava

como receptivos a suas mensagens. Os cabos eleitorais vinham preparados

com orientação para conversas adaptadas ao tipo de personalidade do

residente. Por sua vez, alimentavam o aplicativo com as reações, e os novos

dados voltavam para os painéis da campanha de Trump.

Os democratas fizeram coisas semelhantes, mas não há evidências de

que eles se baseavam em perfis psicométricos. A Cambridge Analytica,

contudo, dividiu a população dos EUA em 32 tipos de personalidade, e focou

em apenas 17 estados. Assim como Kosinski definiu que é um pouco mais

provável que homens que gostam de cosméticos MAC sejam gays, a empresa

descobriu que a preferência por carros fabricados nos EUA era um grande

indicador de um potencial eleitor de Trump.

Entre outras coisas, essas descobertas mostravam agora para Trump

quais mensagens funcionavam melhor e onde. A decisão de focalizar em

Michigan e Wiscosin nas semanas finais da campanha foi feita com base na

82

análise de dados. O candidato tornou-se um instrumento para implementar um

modelo de big data. (GRASSEGGER; KROGERUS, 2107).

De acordo com uma matéria no The Economist (2017), intitulada “A

verdade e a estatística”, após a eleição de Donald Trump, o big data perdeu

grande parte do brilho que tinha. A derrota de Clinton para Trump foi em

grande medida atribuída à equipe responsável pelas análises estatísticas da

campanha da democrata, que não enxergou os sinais de alerta vindos dos

estados do Meio Oeste. No entanto, de acordo com pesquisas realizadas pelo

ex-cientista de dados do Google, Seth Stephens-Davidwitz, o verdadeiro erro

de Hillary foi não ter confiado mais nas novas estatísticas. Hillary usou os

melhores programas de análises de dados disponíveis no mercado. Mas

continuou baseando seus cálculos principalmente em fontes tradicionais de

dados, tais como listas de eleitores e sondagens eleitorais.

Setephens-Davidowitz preferiu explorar um tipo novo de informação: as

buscas que as pessoas fazem do Google. Concentrou-se, em especial, na

frequência com que a palavra “negro” (“nigger”) insulto racial particularmente

ofensivo nos EUA, era pesquisada no mecanismo de buscas. Ao contrário do

que diz o senso comum, segundo o qual as manifestações mais patentes de

racismo se limitariam aos Estados do Sul, os números coletados por

Setephens-Davidowitz indicam que, na comparação com o restante do país, a

palavra desperta significativo grau de interesse em todo o Meio Oeste e na

antiga região industrial do Nordeste americano.

Nas primárias republicanas de 2016, essa foi a variável mais preditiva de

apoio a Trump. Se os estatísticos de Hillary tivessem feito melhor uso desse

tipo de dado, talvez houvessem chegado à conclusão, antes que fosse tarde

demais, de que os alicerces da “muralha democrata” estavam ruindo. Para ele,

os democratas perderam para Trump por se basearem em fontes tradicionais

de dados.

Como os EUA, a Grã-Bretanha foi abalada pelo resultado do referendo e

as implicações do que isso significa a longo prazo ainda não foram vistas. No

83

curto prazo, podemos ver que a Libra caiu aos níveis pré-1985, é provável que

a Escócia deixará o Reino Unido (levando cerca de 10% do PIB total do país),

os agentes imobiliários preveem uma queda de 20% nos preços das

residências em todo o país.

Em um de seus artigos para o New Statesman, Martin Fletcher, detalha

como os bancos forneceram uma quantidade considerável de financiamento

inicial para a campanha Leave EU. Com esse dinheiro e outras doações, a

Cambridge Analytica seria contratada. Então, foi um caso de chegar aos

eleitores identificados e fazê-lo de uma forma acessível para a campanha

campanha Leave EU, afinal, não tinha o financiamento comparável à

campanha de Trump. Isso deu à campanha duas abordagens.

A primeira foi o lançamento de propaganda individualmente segmentada

especialmente adaptada ao Facebook para grupos-chave de personalidade -

da mesma forma que a campanha Trump alavancou seus dados. Esta é uma

rota muito eficaz para a vitória, mas também exige muito investimento para ser

a única saída.

A segunda foi utilizar esse conhecimento e executar uma campanha e

acompanhamento de custos mais baixos. Sob a liderança dos Bancos, a

campanha Leave EU funcionou nos escritórios dos bancos em Bristol e criou

páginas do Facebook para uma variedade de áreas locais onde eles

esperavam alvejar. Quase todo o Reino Unido estava coberto por alguma sub-

página.

Com um forte conhecimento psicométrico de quais questões

fundamentais motivavam os eleitores a se juntarem com a campanha Leave

EU, os bancos basicamente iniciaram a veiculação da mídia. Seu objetivo era

atingir a imigração como a questão-chave.

O processo de promoção de mídia social do Brexit foi relativamente

simples: (a) criou-se um conteúdo de mídia provocativo que atraia os medos-

chave da audiência ou atingia as fraquezas dos seus oponentes; (b) os

84

conteúdos foram publicados através de diversos canais de mídia diferentes,

tanto quanto possível; (c) um centro de atendimento de 70 pessoas que incluía

o monitoramento da mídia social foi montado para acompanhar tudo que

estava relacionado às postagens. Nesta terceira etapa poderia se promover

mais conteúdos, convidá-los a curtir a página particular do Facebook ou dirigi-

los para o site Leave EU para se voluntariar.

Pode haver uma série de outras razões pelas quais essas eleições

obtiveram esses resultados. A correlação não é causalidade, por exemplo.

No entanto, o fato de que ambas as campanhas eleitorais utilizaram

táticas similares e até empregaram as mesmas empresas privadas mostra que

seus sucessos compartilhados provavelmente estão vinculados.

A demografia Leave EU destinou-se a votar em massa para deixar a UE,

com apenas as cidades ao sul da fonteira da Inglaterra estarem contra a

tendência. A campanha Trump e Leave EU compartilharam o fator-chave das

pesquisas que diziam que não ganhariam.

As principais abordagens orientadas por dados operam em uma escala

muito maior do que as metodologias de pesquisa geralmente empregadas pelo

YouGov ou ComRes, ou outros pesquisadores do Reino Unido.

“À medida que as habilidades analíticas das empresas-chave neste setor

crescem, talvez devêssemos reconhecer que big data irá decidir mais do que

apenas as eleições de 2016 (HENSHALL, 2017)”.

85

4 ANÁLISES DOS RESULTADOS DA PESQUISA

Big data implica, em essência, que tudo o que fazemos online ou offline

deixa traços digitais. Cada compra feita com um cartão, cada busca feita no

Google, cada movimento feito com o celular é armazenado. Especialmente

cada interação nas mídias sociais como: comentários, compartilhamentos e

curtidas.

Nesta investigação sobre o conceito de big data, campanhas eleitorais

são o campo em que o conceito foi avaliado. Assim, buscando relacionar os

ambientes comunicacionais, como espaços importantes e determinantes dos

processos políticos na contemporaneidade, buscou-se referência às mudanças

da comunicação de massa para a comunicação segmentada e

microsegmentada, muito usada por campanhas eleitorais nos dias de hoje.

Ressalta-se também a importância da internet na construção das

campanhas eleitorais como espaços de divulgação, mas também de coleta de

dados e informações de eleitores, que contribuem para a condução das ações

de marketing.

Para fins desta análise, não foi obedecido uma visão cronológica das

campanhas, mas a aplicação dos atributos de big data nos casos descritos no

capítulo 3. A campanha eleitoral americana de Barack Obama de 2012, é

considerada um exemplo emblemático na atualidade pelo uso de tecnologias

aliadas as ferramentas de big data na conquista dos eleitores americanos.

Na disputa por um cargo público, uma campanha eleitoral é o momento

mais intenso da disputa entre candidatos. O termo campanha é derivado da

palavra francesa “campo aberto” (POPKIN, 1996). Esse significado traz para a

política a metáfora militar de que as campanhas são batalhas para fora dos

parlamentos e sedes executivas, disputadas através de um debate público de

opiniões com vistas a conquistar o voto dos eleitores.

86

As perspectivas dos estudiosos em relação ao papel da mídia no

processo eleitoral são de que as campanhas políticas sofreram alterações nos

últimos tempos, acompanhando as significativas mudanças na sociedade e as

inovações tecnológicas (BLUMER; KAVANAGH, 1999).

Antes do surgimento da internet, era o aparelho televisivo que passava a

estabelecer uma conexão entre o representante e o representado, ou seja, a

televisão era o único veículo de comunicação por meio do qual os eleitores

encontravam os candidatos (SWANSON; MANCINI, 1996).

Já Norris (2000) credita as transformações nas campanhas eleitorais a

partir da reconfiguração da imprensa, do forte desenvolvimento da indústria

televisiva e da contribuição de novos instrumentos de comunicação

interpessoal, pela via da Internet e de outros meios. Para a autora, modificam-

se assim as estratégias de comunicação política e eleitoral.

Nessa linha, Norris (2000) divide o desenvolvimento das campanhas

eleitorais em três fases: (1) pré-moderna; (2) moderna; (3) pós-moderna. De

acordo com a análise apresentada pela investigadora inglesa, os EUA e o

Reino Unido são exemplos de países que, a partir de meados do século XIX

até a década de 1950, viveram campanhas pré-modernas, caracterizadas por

um enorme envolvimento de voluntários partidários locais que colaboravam

ativamente na organização da campanha, sob coordenação dos dirigentes

dessas mesmas forças políticas.

A fase pré-moderna se distingue bastante das fases posteriores, pois

aqui ainda há formas mais diretas de comunicação entre eleitores e candidatos

e uma forte tendência de identificação e adesão aos partidos.

Já na fase chamada de moderna, que corresponde à segunda metade

do século XX, as campanhas eleitorais são marcadas pela televisão que

substitui a campanha face a face e transforma o cenário de competição

eleitoral. Este é o marco da profissionalização da campanha abordado por

87

Mancini e Swanson (1995). Neste momento também já há uma menor

identificação com os partidos.

A terceira fase de campanhas eleitorais tem seu início com o advento

das NTIC’s (Novas Tecnologias de Informação e Comunicação), que se

acentuou no início da década de 1990. O papel central das mídias de massa

em conectar os cidadãos não foi substituído, apenas complementado pelas

novas tecnologias (IASULAITIS, 2012). No roll dessas novas tecnologias

destaca-se a Internet, que, ao decorrer dos pleitos eleitorais, tem ganhando

cada vez mais espaço e eficácia na condução das campanhas eleitorais,

juntamente com as redes sociais.

No que se refere aos meios de comunicação, é possível nessa fase

também observar a fragmentação da televisão em diversos canais abertos e

via satélite, o aumento das programações de rádio e a popularização da

internet. Essas inovações tecnológicas impulsionaram uma série de

transformações sociais e partidárias no período, o que levou a se repensarem

as estruturas de campanha, principalmente no que se refere à comunicação

política.

Silva (2012) enfatiza a necessidade de as campanhas eleitorais pós-

modernas recorrerem a plataformas interativas sem se afastarem dos canais

tradicionais, destacando assim a importância da gestão dos meios de

comunicação integrada para a campanha.

Além disso, há segmentação das mensagens e estudos mais

aprofundados, baseando-se nas pesquisas de opinião pública, para identificar

as características do eleitorado e como atingi-lo por meio das estratégias de

comunicação usadas pelos profissionais.

É neste contexto que as novas tecnologias de informação e

comunicação passam a ser usadas no marketing eleitoral (NORRIS, 2000). A

partir dessa caracterização de Norris (2000) para as campanhas atuais é

possível ampliar os usos das tecnologias da informação e comunicação em

88

campanhas eleitorais, não somente como ambientes para divulgação de ações

e mensagens de campanha.

Hoje a internet, com destaque para as mídias sociais, é considerada

uma grande aliada nas campanhas eleitorais. A rápida expansão da rede

mundial de computadores transformou esse espaço em um importante campo

de disputas simbólicas e de comunicação entre a esfera política e a população,

seja na administração da visibilidade (THOMPSON, 1998), na interação entre

os atores políticos com a população, na mobilização política, ou ainda, na

condução de novos mecanismos de realização de campanhas eleitorais, entre

outras.

Assim, campanhas políticas contemporâneas como as de Obama e de

Trump têm apostado na internet como meio alternativo para veiculação eleitoral

e que são próprios do ambiente virtual (GOMES et al., 2009). Para Gomes

(2009) existem três estágios no uso da rede pelos políticos: (i) “pré-web” que

concentra o uso da internet no envio de mensagens eletrônicas e e-mails, sem

um uso interativo dos websites; (ii) um estágio “Web”, que tem como plataforma

básica de contato dos políticos com o público em geral os websites pessoais

basicamente reproduzindo os conteúdos das mídias tradicionais; (iii) e uma

terceira etapa iniciada com a campanha presidencial de Barack Obama,

qualificada de “pós-web”, onde os websites passam a ser apenas uma

ferramenta virtual entre outras empregadas pelos políticos, cumprindo a função

de ser um distribuidor de conteúdo a ser reproduzido nas mídias sociais.

Para o entusiasta da política na rede, Canavilhas (2009), é graças à

internet que a política parece ter encontrado uma forma de retomar o contato

direto com o eleitorado, evitando assim intermediários, como a imprensa

tradicional. O autor observa que os políticos americanos desde 2004 apostam

nas potencialidades comunicativas e informacionais da internet.

Mas foi a partir da campanha de Barack Obama em 2008, que a Internet

passou a ser vista como um novo elemento importante na manobra de um

candidato. Obama utilizou quase todas as aplicações on-line disponíveis no

89

momento. Além disso, criou espaços nas redes sociais, como Obama

Everywhere, e só no Facebook chegou aos 320 mil utilizadores. Obama

arrecadou ainda 28 milhões de dólares de apoio, o que lhe permitiu manter

alguma distância em relação aos adversários.

Desde a experiência do presidente norte-americano Barack Obama,

campanhas políticas têm apostado na Internet como meio alternativo para a

aplicação do marketing político e eleitoral. Porém, com um elemento adicional

que é o da utilização da internet não somente como canal de comunicação mas

como um grande armazém de dados com informações dos eleitores.

No capítulo 2, este trabalho apresentou as definições de big data na

visão de diversos autores. Nesta parte do trabalho busca-se apresentar

discussões em torno de campanhas eleitorais atuais que são desenvolvidas

com base em análises de dados e informações sobre os cidadãos e que tem

por objetivo informar e orientar os esforços táticos e contribuir com as

estratégias eleitorais, principalmente na comunicação com os eleitores. Para o

jornalista Sasha Issenberg (2013), essa preocupação é tratada como uma nova

ciência do voto adotada em campanhas eleitorais.

Dado sempre foi a principal matéria-prima para as campanhas eleitorais.

As pesquisas de opinião fazem parte da prática, sempre tratadas como dados

estruturados e analisados por amostragem. Mas foi a partir da campanha de

Obama que os dados não estruturados começaram a ser considerados na

corrida eleitoral. Jed Mole, Diretor de Marketing Europeu na Acxiom afirma que

“Dados têm sido usados há décadas para entender as preferências e hábitos

dos eleitores, embora esta seja a primeira vez que os partidos políticos estão

usando-os a sério para se comunicar.”

Big data de forma objetiva se caracteriza pela presença de 5 atributos

principais, chamados de 5 V’s, a saber – volume, velocidade, variedade,

veracidade e valor. No capítulo 3 onde os cases são apresentados, nota-se a

importância que as pesquisas eleitorais passaram a ter nos processos de

disputas do voto.

90

Para influenciar os eleitores, saber quais deles conquistar e se

posicionar melhor perante esse público-alvo foi necessário ter um

conhecimento prévio do seu comportamento. Além das ferramentas tradicionais

de análises de dados se fez necessário o emprego de métodos mais

sistemáticos e científicos para conhecer o mercado eleitoral.

Parte-se do pressuposto de que o emprego do big data na busca por

características e individualidades comuns de eleitores, possibilitadas com as

técnicas e metodologias de microssegmentação em campanhas eleitorais, têm

se constituído num importante campo de investigação, mas pouco explorado

tanto do ponto de vista do mercado eleitoral quanto das pesquisas científicas.

Para os profissionais que já fizeram usos do conceito, principalmente

das análises de dados e informações, o big data se mostra como uma

ferramenta importante em estratégias e ações de campanhas de marketing

eleitoral e de produtos.

Sem o uso de big data as campanhas eleitorais baseavam suas

estratégias de comunicação apenas em pesquisas políticas tradicionais, mas

com o advento das interações nas mídias sociais, isso teve que ser

reformulado. Especialistas da área de ciência política têm ressaltado a

importância do uso do big data em campanhas eleitorais. Durante uma

palestra, o cientista político e professor Adriano Oliveira (2013) observou que

iniciativas inovadoras na área de big data podem ser sentidas na política

eleitoral.

Vivemos em um mundo onde políticos podem usar a tecnologia para

influenciar decisões, operadoras de telefonia celular podem prever nossa

localização e algoritmos das redes sociais conseguem decifrar alguns traços da

nossa personalidade.

Desde 2010 big data e análise de dados tornaram-se mais confiáveis. O

que podemos constatar nos casos descritos no capítulo anterior é que o

aprendizado dos partidos políticos está em entender que não é apenas como

91

você capta e armazena informações que conta, mas como usar estas

informações para desenvolver um plano de ação para reagir estrategicamente,

quase em tempo real.

Tanto nas campanhas de Obama quanto na de Donald Trump, as

dimensões e atributos de big data discutidas neste trabalho estão presentes.

Elas foram utilizadas para a definição das estratégias e planos de ação.

O volume de dados, descrito no capítulo 2 como a extensão e magnitude

relacionada a quantidade de dados a serem processados, chama a atenção

como a variável que permitiu o acesso e interação, de forma segmentada, a

um grande número de eleitores.

Como os objetivos da campanha de Obama em 2012 giravam em torno

do convencimento de pessoas certas a fazerem doações e buscava apoios à

campanha, bem como o aumento do comparecimento às urnas, era importante

que a campanha pudesse impactar o maior número possível de eleitores de

forma personalizada. Além disso, buscava manter a fidelidade do voto

daqueles eleitores que já haviam votado em sua campanha em 2008.

Entre as estratégias usadas para atingir esses objetivos, estavam: (1)

Técnicas usadas por empresas para atrair consumidores, como marketing

direcionado e microsegmentação; (2) Compra de dados em empresas como

Experian e a Acxiom; (3) Enriquecimento de dados com informações de redes

sociais (em especial Twitter e o Facebook); (4) Segmentação dos eleitores de

acordo com o perfil de navegação no site oficial da campanha; (5) Criação de

cluster de acordo com os gostos e características das pessoas (perfil político

etc.); (6) Ações de comunicação individualizadas one to one. (ANTONIUTTI,

2015, p.152).

As informações vindas do documento oficial da campanha de Obama

“Inside the Cave” relatam como eram feitas outras ações de coleta de

informações e análises de dados na campanha. É importante destacar que a

campanha de Obama em 2012 sabia o nome de cada um dos 69.456.897

92

americanos que votaram nele em 2008. Essas informações foram possíveis a

partir do mapa eleitoral feito pela equipe de campanha. Esse mapa do eleitor

americano começou a ser delineado com o então cientista político Peter

Giangreco, considerado um dos maiores especialistas em mala direta dos

Estados Unidos, que na campanha de 2008 foi responsável pela estratégia de

marketing direto e microtargeting da campanha presidencial.

Somado ao volume, todo o processo exigia velocidade na tomada de

decisão. Velocidade é o atributo de big data caracterizado pela rapidez na qual

os dados são gerados. Apesar das campanhas eleitorais americanas iniciarem

seu processo 01 ano antes da eleição, a velocidade exigia mudanças no rumo

das campanhas quase em tempo real.

Todas as ações eram baseadas em informações e análise de dados que

vinham da estrutura de big data, a partir de relatórios que eram gerados pelo

sistema Alexandria com análises da equipe de inteligência da campanha e

repassados as demais equipes. Nenhuma decisão sobre a comunicação

eleitoral era tomada sem o aval da coordenação de comunicação e marketing

político da campanha, sem o conhecimento do Diretório Estadual do Partido,

assessores políticos e o próprio candidato.

O segundo atributo identificado nos casos apresentados é o da

velocidade com que as informações chegavam à campanha e obrigava os

profissionais a tomarem decisões rápidas. Além das pesquisas oficiais, eram

feitas pesquisas internas sobre intenções de votos e a partir dos resultados

muitas ações de comunicação eram mantidas ou então reformuladas.

Uma das principais funções da equipe de comunicação era acompanhar

tudo que saia nos telejornais diários, nas redes sociais e em outros canais

digitais sobre o candidato e a campanha. Os dados eram coletados diariamente

e analisados pela equipe de inteligência de dados da campanha. Todos os dias

aconteciam reuniões com os principais líderes de cada segmento para alinhar

mensagens e ações do candidato a partir dos fatos e acontecimentos do dia,

que envolvia diretamente o candidato.

93

A campanha se manteve presente em todas as redes sociais (Facebook,

Twitter e Instagram, Youtube). Para cada rede a comunicação era usada de

forma segmentada, levando em consideração os seus usuários e a forma como

usavam esses canais. Mas também havia integração dos conteúdos usados

nas mídias tradicionais como por exemplos nas propagandas eleitorais na

Televisão e no Rádio.

A variedade de dados obtidos de diversas fontes, diz respeito à

diversidade de tipos e formatos de dados coletados e utilizados nos casos

analisados. As campanhas utilizaram os dois tipos de dados descritos no

capítulo 2: dados estruturados e não estruturados.

Os primeiros referem-se àqueles que já estavam organizados

antecipadamente e que apresentam pouca mudança como os dados

demográficos. Já os dados não estruturados, apesar de não possuir formato

padrão, permitiram aos analíticos extraírem conhecimentos das aspirações,

necessidades e desejos dos eleitores, para, a partir daí, apresentar uma

comunicação que respondesse a tais anseios.

A comunicação apresentada pelos candidatos, levou em consideração

esta variedade de dados e de fontes, apresentando o conteúdo de forma

personalizada e no canal e formato mais efetivos para a entrega da mensagem.

Outro atributo que pode ser verificado nas campanhas eleitorais

avaliadas no capítulo 3 diz respeito a veracidade e a confiabilidade dos dados.

Os dados precisam ser confiáveis. Lidar com os outros fatores, como volume,

velocidade e variedade pouco adianta se não forem reais. Assim sendo, é

necessário que haja o máximo possível de consistência dos dados (TAURION,

2013). No que se refere a veracidade apresentam-se questões como: O que

eles representam? De onde eles vieram? Em que contexto estão inseridos?

A veracidade, diz respeito ao fluxo de dados que nem sempre são

confiáveis devido a picos sazonais ou acontecimentos esporádicos. Esse talvez

seja um dos maiores desafios de gerenciar dados.

94

Segundo Issenberg, é com uma campanha baseada na persuasão, que

uma eleição é ganha, mais que na mobilização dos eleitores, o que requer um

intenso trabalho de campo. Para persuadir é necessário criar a convicção no

eleitor e a internet foi usada como ferramenta principal, apresentando conteúdo

de acordo com o perfil dos eleitores. Perfis estes identificados graças ao

volume e a variedade dos dados obtidos.

Neste ponto da análise, faz-se necessário apresentar mais um recurso:

os filtros, que significa o que apresentar e para quem. A quantidade de

informações compartilhada na internet supera a capacidade do indivíduo de

processá-las, implicando na dificuldade da filtragem do conteúdo que circula. É

o que os pesquisadores denominam information overload.

Nesse cenário, surgem as grandes empresas de aplicações para internet

que, por meio de seu alto conhecimento tecnológico, ofertam serviços de

“filtragem” de informações, os quais correspondem a algoritmos que facilitam o

filtro, a fim de propiciar ao usuário as “principais” informações conforme as

palavras-chave fornecidas pelo próprio interessado.

A partir disso, podem derivar duas consequências apontadas por

MAGRANI (2014). De um lado, a filtragem de conteúdo não intencional, feita

pelos provedores, que é denominada como filter bubble (bolhas de filtro), que

significa que à medida em que empresas da Web fornecem serviços sob

medida para os gostos pessoais (incluindo notícias e resultados de pesquisa),

acontece uma não intencional consequência: os "filtros-bolha" e os usuários

não são expostos à informações que poderiam desafiar ou ampliar sua visão

de mundo.

A segunda consequência é a busca dos próprios indivíduos por filtrarem

voluntariamente as informações que consomem, agravando o problema

também desencadeado pelo filter bubble, da fragmentação do debate.

A teoria do filter bubble concebida por Eli Pariser (2011), consiste na

identificação de padrões, por meio dos algoritmos, com a finalidade de propiciar

95

uma personalização no conteúdo a fim de melhorar a experiência do usuário,

adotada pelos profissionais de marketing. É a ideia de se utilizar da coleta e

análise de dados para reconhecer comportamento e preferências, a fim de

viabilizar uma “melhor experiência” de navegação ou uso de determinado

serviço ou produto, ou ainda consumo de conteúdo.

Para a sociedade, esse mecanismo é passado como uma comodidade,

um serviço personificado. Entretanto, mesmo que a priori esse mecanismo

seduza os olhos dos usuários, é nessa conveniência que reside uma nova

discussão. Esses filtros são segregadores – ou seja, a partir do momento em

que o padrão do usuário é reconhecido, somente terá “contato” com aquilo que

o algoritmo filtrou como de seu interesse. (MAGRANI, 2014). Parisier (2016)

argumenta vigorosamente que isto mostrar-se-á ruim para as pessoas e para a

democracia.

Desta forma, a veracidade dos dados como um dos atributos de big data

que geram valor, juntamente com o volume, variedade e velocidade, ganha

relevância para os dois lados envolvidos na relação: candidato e eleitor. No

caso do candidato para ter valor o dado precisa ser confiável, e o desafio está

em como garantir a veracidade dos dados oriundos de diversas fontes.

Já para o eleitor, a partir dos filtros, ele passa a ter acesso a conteúdos

que confirmam seus conceitos pré-estabelecidos, seja pelos filtros gerados

pelos algorítimos dos sistemas de busca, ou que previamente demonstrou

interesse, impedindo a oportunidade do diálogo aberto.

Quase todas as pesquisas eleitorais apontavam a vitória da democrata

Hillary Clinton na corrida pela presidência dos Estados Unidos. Assim, o triunfo

do candidato republicano Donald Trump, foi uma surpresa. Analistas fizeram

uma revisão de suas previsões e muita reflexão terá que ser feita daqui em

diante.

Hillary Clinton, candidata do partido Democrata, bateu recorde em

arrecadações em sua campanha presidencial à presidência dos EUA,

96

alcançando a marca de $143 milhões de dólares (Estado de Minas, 2016).

Apesar de sair à frente nas urnas, vencendo em vinte estados e obtendo quase

3 milhões de votos a mais que o adversário (Diário de Notícias, 2016), Hillary

perdeu para Donald Trump por uma diferença de nove estados.

Embora a esperada campanha acirrada, a eleição sofreu bastante

intervenção de fatores tecnológicos e polêmicas que, ao final, dificultaram a

chegada de Hillary ao poder e especula-se que podem ter favorecido o

candidato Donald Trump na disputa à Casa Branca.

A pouco mais de dez dias da eleição, a Agência de Investigação

Americana, FBI, anunciou a abertura de investigação de e-mails de Hillary, a

fim de observar informações secretas que estavam em suspeita devido ao uso

de um servidor privado que candidata tivera em sua residência quando ainda

ocupava o cargo de Secretária de Estado (G1, 2016).

Ainda, à luz das campanhas presidenciais norte-americanas, conclui-se

que é essencial a proximidade da figura pública com seu eleitorado onde quer

ele esteja. Para tanto, torna-se imprescindível recorrer ao uso de big data e

explorar os benefícios e alcance das mídias sociais.

Outra notícia que enfraqueceu a campanha da democrata foi a

divulgação de e-mails hackeados da conta de Jonh Podesta, coordenador da

campanha de Hillary, pelo site de vazamento de informações, Wikileaks. Os e-

mails continham informações tais como tentativas de trocas de favores, defesa

de ação secreta na Síria, críticas à China, ironia de assessores contra

católicos, desconfiança com refugiados, dentre outros (G1, 2016). Podesta

acusou o governo russo de estar por trás do vazamento e disse que o

candidato Trump já sabia a respeito.

Conforme o jornal “The New York Times”, a iminência de que ao menos

um sistema de computadores do Partido Democrata havia sido comprometido

por hackers, apelidados de “The Dukes”, uma equipe de espionagem ligada ao

governo russo, foi alertada em setembro de 2015 pelo FBI. Este foi o primeiro

97

enigmático sinal de campanha de ciberespionagem e guerra de informação

elaborada para interferir na eleição presidencial de 2016 (apud. Folha de São

Paulo, 2016).

A “epidemia” de notícias falsas veiculadas, conforme advertiu a própria

candidata Hillary (Época, 2016), também impactou o curso das eleições.

Pesquisa realizada pelo site BuzzFeed (2016), com base em dados do

Facebook, mostra que, nos últimos três meses antes da eleição americana, os

20 principais links com informações falsas tiveram mais compartilhamentos,

reação e comentários que os 20 maiores conteúdos jornalísticos do período. O

BuzzFeed calculou que histórias procedentes de sites especializados em

“hoax” (farsas, piadas) e de blogs partidários geraram pouco mais de 8,7

milhões de comentários, reações e compartilhamentos nas redes sociais,

contra o registro de 7,4 milhões de reações de notícias de sites oficiais como

“The New York Times”, “The Washington Post” e “Huffington Post” (Veja, 2016).

Tal realidade é potencializada pelo algoritmo do Facebook, que decide

quais publicações serão promovidas no feed de notícias dos usuários. Segundo

entrevista ao pesquisador João Carlos Magalhães, da London School of

Economics, pela Carta Capital, os algoritmos são usados para decidir

automaticamente o que é mais ou menos relevante ao usuário e, portanto, ser

mais ou menos visto. Bem como, o que estará no feed de notícias e na primeira

ou na terceira página de sua busca no Google (Carta Capital, 2016).

Ainda de acordo com o pesquisador, a “personalização profunda” só é

possível pelos sensores e pelos usuários que “ajudam a treinar os algoritmos

sobre o que nos interessa, e permitem que os sistemas sejam constantemente

afinados para refletir nossas supostas preferências” (Carta Capital, 2016).

Além disso, conforme delineado pelos pesquisadores, o fato de bots

(expressão derivada da palavra, em inglês, “robot”, que significa “robô”),

(LOUREIRO, 2016) produzirem sistematicamente conteúdos positivos a

determinado candidato, pode implicar na percepção dos eleitores sobre um

98

suposto apoio orgânico para este candidato quando, na verdade, trata-se de

algo artificialmente gerado.

O estudo apontou que, apesar de o uso de bots em mídias sociais para

fins políticos não ser uma novidade, observa-se que os mesmos estão cada

vez mais sofisticados, de modo que resta quase impossível averiguar a

procedência desses – quem os implementou. Contudo, a pesquisa demonstrou

que, aproximadamente, 75% dos bots eram em favor do então candidato

Donald Trump.

Tal fato ocorre, também, porque muitos dos usuários não verificam a

credibilidade das fontes e a veracidade das informações, como delineado

anteriormente, possibilitando, assim, a propagação de notícias falsas em larga

escala, já que os bots permitem a publicação de milhares de conteúdos ao

mesmo tempo.

À luz da campanha norte americana, verificou-se os impactos da

plataforma digital na corrida eleitoral, tal como a disseminação de notícias

falsas, reforçadas pelo algoritmo de personalização do Facebook, a invasão de

hackers a servidores de candidatos e, ao fim, a divulgação de dados pelo

Wikileaks, fatos que pesaram na corrida eleitoral. Observou-se também o quão

essencial é o domínio das peculiaridades das redes sociais e da estratégia

comunicacional tendo-se em vista o perfil do público que se quer atingir e

localizando-o através de ferramentas do big data.

No caso do Brexit, com David Cameron, o primeiro-ministro britânico,

renunciando depois de convocar o referendo, o país também está enfrentando

questões de liderança no que parece ser um momento cada vez mais sombrio

para o país.

Existe também um preocupação considerável para os menores de 50

anos (que serão mais afetados), com dados de votação mostrando que a

grande maioria que votou pela permanência, enquanto a maioria acima dessa

idade votou pela saída. Em uma sociedade democrática, isso é simplesmente

99

algo que sempre é necessário, mesmo que pareça injusto com aqueles que

suportarão o peso da decisão quando não concordaram com ela.

Em face de tudo isso, pode haver uma alternativa se o novo governo

estiver disposto a usar os dados efetivamente para criar novos negócios,

protocolos e leis. A Grã-Bretanha tem a oportunidade de utilizar os dados para

criar leis, políticas e legislação efetivas com base em fatos sólidos e na retórica

política. As leis agora podem ser decretadas a partir da enorme quantidade de

dados públicos que o Reino Unido detém. Ao invés do policiamento baseado

em leis arcaicas, com a quantidade de reformas necessárias, um sistema de lei

inteiro teoricamente poderia basear-se em números reais e não em vontade

política.

Uma das principais críticas da campanha estava relacionada ao fato de

que não foram estabelecidos cenários reais, mas, sem dúvida, os dados agora

podem ajudá-los a priorizar o que precisa ser feito e graças aos dados dos

eleitores, atividades on-line e até mesmo análises de redes sociais, é possível

identificar áreas de consenso e tentar construir pontes entre as comunidades

divididas.

No que tange às eleições, muito há que se pesquisar acerca do tema,

posto que a tendência é a de que o uso do big data e mecanismos de

inteligência artificial sejam cada vez mais incorporados ao cotidiano dos

indivíduos. Faz-se necessário refletir sobre o uso enviesado dos mecanismos

tecnológicos para fins não democráticos, como, por exemplo, o uso de bots

para a criação de milhares de perfis falsos e a consequente propagação de

notícias inverídicas distorcendo a percepção do eleitorado.

Segundo Martin Hilbert, professor da Universidade da Califórnia e

assessor de tecnologia da Biblioteca do Congresso dos Estados Unidos, o fluxo

de dados entre cidadãos e governantes pode nos levar a uma “ditadura da

informação”, algo imaginado pelo escritor George Orwell no livro 1984.

100

5 CONCLUSÕES

Há uma nova revolução no horizonte: a revolução de big data. Por

décadas, a sociedade coletou dados, mas, até recentemente, nunca em

quantidades grandes suficientes para vislumbrar seu potencial. Nem se tinha

ideia sobre o que fazer com a interação entre eles. Assim como o microscópio

e o telescópio transformaram as ciências naturais, o big data está

revolucionando as ciências sociais.

Esta investigação teve como objetivo geral esclarecer o termo big data e

os conceitos a ele relacionados, bem como tendências e desafios que são

parte do processo. Para atingir esse objetivo, na dimensão teórica,

investigaram-se as raízes do conceito e suas principais definições por diversos

autores.

De forma ampla, big data é um termo guarda-chuva, que encobre

diferentes ferramentas, metodologias, práticas e técnicas para solucionar

desafios de analisar grandes quantidades de dados e que pode ser aplicado e

usado em qualquer setor.

A importância da utilização de grandes massas de dados cresce a cada

dia e todas as áreas de conhecimento buscam entender a relevância da sua

utilização – e por uma boa razão: a geração de dados continua a crescer com o

uso de computadores, dispositivos móveis e a internet. Assim como mais

dispositivos, casas e máquinas estão sendo equipadas com sensores,

medidores inteligentes e transmissores.

A interação entre sociedade e tecnologia presente no contexto da

midiatização, potencializada por processos e ferramentas como o big data são

a base de avanços científicos que vêm, paulatinamente, transformando o nosso

cotidiano. Com o fenômeno do big data, capta-se uma torrente de dados,

gerando infinitas possibilidades de conexões.

101

Com o advento do armazenamento de baixo custo, análises, memórias e

outras tecnologias de computação, é possível extrair conhecimento desses

grandes volumes de dados e transformá-los em ideias significativas que

capacitam as organizações e a sociedade para que sejam proativas e mais

informadas na tomada de decisão do que nunca.

Além disso, todas as organizações – grandes e pequenas – têm o

potencial para se beneficia, porque muitos dos recursos de big data hoje são

públicos. Pensar em dados abertos do governo, clima, dados meteorológicos,

dados de comportamento do consumidor, opiniões, dados das mídias sociais,

estão à espera de serem analisados. Mesmo pequenos players nas indústrias

podem se dar ao luxo de usá-los para avançar na competição ao ser o primeiro

a armazenar e incorporar fontes de dados abertas em seus trabalhos

analíticos.

A microeconomia, a sociologia, a ciência política e a psicologia

quantitativa atualmente dependem, em larga medida, da realização de

sondagens com amostras de, no mínimo, alguns milhares de entrevistados. Já

o big data, oferece novas fontes de informação; retrata o que as pessoas

realmente fazem ou pensam, em vez do que optam por dizer aos

entrevistadores; permite que os pesquisadores concentrem sua atenção em

subgrupos demográficos ou geográficos, estabelecendo comparações entre

eles; e possibilitam a realização ágil de estudos randomizados controlados

capazes de apontar não apenas correlações, mas também causalidades.

Dessa forma, os cientistas sociais não precisarão mais passar meses

recrutando pequenos números de pessoas para realizar um teste único. Em

vez disso, as ciências sociais e comportamentais ganharão escala e as

conclusões que os pesquisadores chegarão terão caráter verdadeiramente

científico, e não apenas pseudocientífico.

O big data será uma nova fonte de valor econômico e inovação. Seu

predomínio representa três mudanças na forma como as informações são

102

analisadas e transformam a forma como as organizações e a sociedade é

entendida.

A primeira trata da possibilidade de poder analisar mais dados. Não

existe mais a restrição da análise de amostragens que era característica de um

período de escassez de informações, produto dos limites naturais de se

interagir com as informações em uma era analógica. Após o domínio das

tecnologias digitais de alto desempenho, é possível analisar todos os dados

disponíveis, o que permite que se vejam detalhes nunca vistos quando havia o

limite de quantidades menores. O big data possibilita uma visão que é granular:

subcategorias e submercados que as amostragem não alcançam.

A segunda é que, com menos erros de amostragens, mais erros de

medição são aceitos. Quando a capacidade de medição é limitada, apenas o

mais importante é considerado. Existe um esforço para se conseguir o número

apropriado. As ferramentas buscavam a exatidão. O big data varia em

qualidade e está distribuído em incontáveis servidores pelo mundo. Ele oferece

uma sensação aproximada de direção, sem a necessidade de um milimétrico

conhecimento do fenômeno. O que se perde em precisão microscópica ganha-

se em visão macroscópica.

A terceira mudança trata de um afastamento da antiga visão pela

causalidade. A sociedade sempre buscou nos dados a causa, mesmo quando

esta busca era difícil e levava a caminhos errados. Em big data, por sua vez,

não há a necessidade de se fixar na causalidade; é possível descobrir padrões

e correlações nos dados que propiciem novas e valiosas ideias. As correlações

podem não dizer com exatidão por que algo está acontecendo, mas pode

alertar que algo está acontecendo.

A motivação para adotar big data é imediata para as organizações. As

soluções exigirão inovação das organizações em diversos níveis, incluindo

técnico, financeiro e organizacional.

103

Big data, como qualquer tecnologia de alta performance, nas mãos

certas, nos impulsiona em direção a possibilidades ilimitadas. Por outro lado,

nas mãos erradas as consequências podem ser destrutivas de forma que não

podemos imaginar. No entanto, independente do tipo de dado que se quer,

para alguns especialistas o big data ainda passa por muitos desafios que

devem ser levados em consideração.

No momento da finalização deste trabalho surge uma nova discussão

que alerta sobre os equívocos a que os dados podem induzir os tomadores de

decisão. A discussão também trata do risco de que os donos desses bancos de

dados venham a fazer uso abusivo deles.

Como sugestão para pesquisas futuras, entendemos oportuno

aprofundar discussões sobre os riscos dos usos indevidos de big data.

104

6 REFERÊNCIAS

ALVES-MAZZOTTI, A. J.; GEWANDSZNAJDER, F.; O Método nas Ciências Naturais e sociais Pesquisa Quantitativa e Qualitative. 2a. edição. São Paulo. Pioneira. 2002.

ANDERSON, C. (2008). The End of Theory: The Data Deluge Makes the Scientific Method Obsolete. Disponível em <https://goo.gl/CwP3zT> acesso a 18 de maio de 2017.

ANDERSON, Janna and RAINIE, Lee (2014). Digital Life in 2025. Pew Research Center. Disponível em: <https://goo.gl/6NFgQp>; acesso em 25 de janeiro de 2017.

ANTONIUTTI, Cleide Luciane (2015). Usos do big data em campanhas eleitorais. Tese (Doutorado em Ciência da Informação) IBICT-UFRJ. Disponível em: <https://goo.gl/jFP76r>; acesso em 20 de fevereiro de 2017.

ARTIGO “Notícias falsas” é tema de declaração assinada por relatores para a Liberdade de Expressão. Disponível em: <https://goo.gl/gmV8gu>; acesso a 23 de abril de 2017.

ARTIGO MAGIC WEB DESIGN. Políticos Norte-Americanos investem em mídias sociais de nicho. 2016. Disponível em: <http://www.magicwebdesign.com.br/blog/redes-sociais/politicos-doseua-investem-em-midias-sociais/>.Acesso em: 10 de janeiro. 2016.

BARBIERI, Carlos. BI – Business Intelligence. Brasil. Axcel Books. 2001.

BERMAN, Jules J. Principles of Big Data: Preparing, Sharing, and Analyzing Complex Information. San Francisco. Morgan Kaufmann Publishers Inc. 2013.

105

BERNOFF, Josh e LI, Charlene. Groundswell. USA. Campus. 2010

BERRY, Michael J. A., LINOFF, Gordon. Data Mining Techiniques. USA. Wiley Computer Publishing. 2011.

BLUMER, John G. KAVANAGH, Dennis. The third Age of political communication: influences and features. 1999.

BODEN, Margaret A. Artificial Intelligence and Natural Man. USA. Hassocks. Harvester. 1977.

BOLLIER, David. The Promise and the Peril of Big Data. USA. 2010.

BOND, Robert M.; FARISS, Christopher J. ei al. A 61-million-person experiment in social influence and political mobilization. Disponível em: <https://goo.gl/CHkewA>; acesso em 20 de janeiro de 2017.

BONTEMPO, C., ZAGELOW, G. The IBM data warehouse architecture. ACM, 41(9), pp.38–48. 1988

BOYD, D. & CRAWFORD, Kate (2011). Six Provocation for big data. In A Decade in Internet Time: Symposium on the Dynamics of the Internet and Society. Disponível em <https://goo.gl/upS3SK>;>; acesso a 13 de maio de 2017.

BROWN, Donald. Diretor do Instituto Big Data da Universidade de Virgínia dos Estados. Unidos. Entrevista realizada no dia 16 de dezembro de 2013.

CABETTE FABIO, André (2016). Como funcionará o sistema de checagem de notícias falsas do Facebook. Nexo. Publicado em: 16 dez. Disponível em: <https://goo.gl/V9L77A>; acesso em 13 de maio de 2017.

106

CANAVILHAS, João. A comunicação política na era da internet. Corvilhã, Portugal, Universidade da Beira Interior, 2009. Disponível em: http://www.bocc.ubi.pt/pag/canavilhasjoao-comunicacao-politica-na-era-da-Internet.pdf . Acesso em 06 setembro 2016.

CARVALHO, Luís Alfredo Vidal de. Datamining: a mineração de dados no marketing, medicina, economia, engenharia e administração. São Paulo: Érica, 2001.

CASTELLS, Manuel Castells. A Sociedade em Rede Vol. I. São Paulo.Paz e Terra. 1999.

CERVO, A. L. BERVIAN, P. A. Metodologia científica. 5.ed. São Paulo: Prentice. Hall, 2002.

CHEN, Min; MAO, Shiwen; ZHANG Yin, LEUNG, Victor C.M.; Big Data Related Technologies, Challenges, and Future Prospects. Sprienger Briefs. USA. 2014.

COSTA, Luciana Sodré; CAVALCANTI, Marcos. Big data não é uma tecnologia. DataGramaZero - Revista de Informação - v.15 n.3 jun/14. Disponível em: < http://www.dgz.org.br/jun14/Ind_com.htm#autor>. Acesso em 12 de Setembro de 2015.

CRESPO, Marcelo; ALMEIDA CAMARGO, Coriolano (2016). Inteligência artificial, tecnologia e o Direito: o debate não pode esperar! In: Direito Digit@al – Migalhas. Publicado em: 30 nov. Disponível em: <https://goo.gl/wLUyLD>; acesso em 20 de março de 2017.

DAVENPORT, Thomas; BARTH, Paul; BEAN, Randy. How 'big data' is different. MIT Sloan Management Review, 30, julho 2012. Disponível em: http://sloanreview.mit.edu/article/how-big-data-is-different/. Acesso em 12 de Dezembro 2016.

107

DAVIS SENIOR, Jim (2014). What Kind of Big Data Problem Do You Have? SAS Disponível em: <https://goo.gl/1Mr9Db>; acesso em 25 de janeiro de 2017.

DEMO, P. Educar pela pesquisa. 5. ed. Campinas, SP. Autores Associados. Pesquisa e construção de conhecimento. 4. ed. Rio de Janeiro: Tempo Brasileiro, 2000.

DULL, T (s.d.). A Non-Geek’s big data Playbook: Hadoop and the Enterprise Data Warehouse. SAS Institute; Inc. Disponível em <https://goo.gl/ap7GYG>; acesso a 12 de maio de 2017.

DANTAS, Leonardo André Colares (2016). Utilização da análise envoltória de dados na concepção de um sistema de apoio a decisão para gestão de uma distribuidora de recargas de dispositivos móveis. Monografia (TCC). Universidade Federal do Ceará. Departamento de engenharia da Produção.

ESTRADA, A. A (2009). Os fundamentos da teoria da complexidade em Edgar. Morin. Akrópolis Umuarama, v. 17, n. 2, p. 85-90, abril/junho.

FAN, J.; HAN, F.; LIU, H (2014). Challenges of big data analysis. USA. National Science Review, pp. 293–314.

FAYYAD, Usama M.; PIATETSKY-SHAPIRO, Gregory; UTHURUSAMY Ramasamy . Advances in Knowledge Discovery and Data Mining. USA. Mit Press. 1996.

FEIJÓ, Bruno Vieira. A revolução dos dados. Revista Exame PME – Pequenas e Médias Empresas, São Paulo, p. 30-43, set. 2013.

FREITAS JUNIOR, José Carlos da Silva; MAÇADA, Antonio Carlos Gastaud; OLIVEIRA, Mírian; BRINKHUES, Rafael (2016). Big data e gestão do conhecimento: definições e direcionamentos de pesquisa. Revista Alcance

108

–Eletrônica –vol. 23 –n. 4–out./dez. Disponível em <https://goo.gl/GqdBTG>; acesso a 12 de maio de 2017.

GANDOMI, A.; HAIDER, M. Beyond the hype: big data concepts, methods, and analytics, 2015. Int J Inf Manag 35 (2):137–144

GANTZ, John e REINSEL David. THE DIGITAL UNIVERSE IN 2020: Big Data, Bigger Digital Shadow s, and Biggest Grow th in the Far East December 2012. Disponível em https://www.emc.com/collateral/analyst-reports/idc-the-digital-universe-in-2020.pdf. Acesso 12 de abril de 2017.

GARTNER IT Glossary. Definition of BIG DATA, 2012. Disponível em <https://goo.gl/kyib9D>; acesso em 28 de abril de 2017.

GARTNER IT Glossary. Definition of Business Inteligence, 2014. Disponível em <https://goo.gl/zTTC3y>; acesso em 17 de abril de 2017.

GIL, Antonio Carlos. Como elaborar projetos de pesquisa. São Paulo: Atlas, 2002.

GOMES, Neuza Demartini. Formas persuasivas de comunicação política. Propaganda política e publicidade eleitoral. 3. ed. Porto Alegre. EDUPUCRS, 2004.

GRASSEGGER, Hannes e KROGERUS, Mikael (2107). A manipulação da democracia através do Big Data. GGN. Disponível em: <https://goo.gl/3zTMPf>; acesso em12 de junho de 2017.

HARDY, Quentin (2014). Relatório prevê futuro “sombrio” para a internet. Folha de S. Paulo. Dismponível em <https://goo.gl/9uy6Qp>; acesso em 22 de abril de 2017.

109

HELLAND, Pat. The Singular Success of SQL. Communications of the ACM, New York, v. 59, nº 8, p. 38-41, aug. 2016.

KOLB, Jason and KOLB, Jeremy (2013). The Secrets Big Data Revolution: The Tricks Your Competitors Don't Want You To Know. Painfield, IL.

KOTLER, Philip (1984). Marketing. Brasil. Atlas. 2007.

LABRINIS, Alexandros; A community white paper developed by leading researchers across the United States. Disponível em: http://cra.org/ccc/docs/init/bigdatawhitepaper.pdf, acesso em 25 de Maio de 2017.

LANEY, Douglas. “The importance of ‘Big Data’: a definition”. Gatner, 2012. Disponivel em: http://www.gartner.com/resid=2057415. Acesso em: 20 Jan. 2014

LICKS, Rogério Augusto de Souza:.– Bg data: diretrizes e técnicas para preservação da privacidade

file:///Users/lunagutierres/Downloads/Rog%C3%A9rio%20Augusto%20de%20Souza%20Licks%20(2).pdf

LIMA JUNIOR, Walter. Jornalismo computacional em função da “Era do Big Data”. Líbero. São Paulo v. 14, n. 28, p. 45-52, dez. 2011. Disponível em: http://casperlibero.edu.br/wpcontent/uploads/2014/05/1-Jornalismo-computacional.pdf. Acesso em 20 outubro de 2016.

LOUREIRO, Rodrigo (2016). Entenda de uma vez por todas o que é um bot e como ele funciona. OlharDigital. Publicado em: 11 abr. Disponível em: <https://goo.gl/jNpv1P>; acesso em 20 de maio de 2017.

LYMAN, Peter; VARIAN, Hal R. How much information 2003? Berkeley,California: University of California at Berkeley, 2003. 100 p. (Relatório

110

produzido pelos estudantes da Escola de Gestão da Informação e Sistemas da Universidade da Califórnia em Berkeley). Disponível em <http://www2.sims.berkeley.edu/research/projects/how-much-info- 2003/index.htm > Acesso em 18 julho 2016.

MAGRANI, Eduardo (2014). Democracia conectada: a internet como ferramenta de engajamento político – democrático: Rio de Janeiro: Juruá. Disponível em: <https://goo.gl/PYXaVC>; acesso em 20 de janeiro de 2017.

MANCINI, P; SWANSON, David L. Politics, media and modern democracy: an international sudy of innovations in electoral campaigning and their consequences. London: Praeger, 1996.

MANYIKA, James, CHUI Michael, Brown Brad, BUGHIN Jacques, DOBBS Richard, ROXBURGH Charles, BYERS Angela Hung; Big Data; McKinsey Global Institute. USA. 2011.

MARCONI, Marina de andrade; LAKATOS, Eva Maria; Fundamentos da Metodologia Científica; São Paulo. 2010.

MAYER SCHÖNBERGER, Viktor; CUKIER, Kenneth. Big Data. Como Extrair Volume, Variedade, Velocidade e Valor da Avalanche de Informação Quotidiana. Rio de Janeiro. Campus. 2013.

MIRANDA FILHO, Renato (2014). Um arcabouço para pesquisas de opinião em redes sociais. Dissertação apresentada ao Programa de Pós-Graduação em Ciência da Computação do Instituto de Ciências Exatas da Universidade Federal de Minas Gerais – Departamento de Ciência da Computação. Disponível em: <https://goo.gl/oyJdnQ> Acesso em 28 de janeiro de 2017.

111

MORESI, Eduardo (Org). Metodologia da pesquisa. Brasília. PUC. 2003.

NORRIS, Pippa. Democratic divide? The impact of the Internet on parliaments worldwide. Havard: Harvard University, John Kennedy School of Government, 2000.

PARISIER, Eli. O filtro invisível: o que a internet está escondendo de você. Rio de Janeiro: Zahar, 2012.

PASQUALE, Frank. The Black Box Society – The Secret Alrorithms That Control Money and Information. Harvard University Press. 2015.

Christy Pettey e Rob van der Meulen. Gartner's 2012 Hype Cycle for Emerging Technologies Identifies "Tipping Point" Technologies That Will Unlock Long-Awaited Technology Scenarios.2012. Disponível em http://www.gartner.com/newsroom/id/2124315. Acesso em 12 de abril de 2017

POPKIN, Samuel. The reasoning voter: communication and persuasion in presidential campaigns. Chicago. Chicago University Press, 1996.

POSPIECH, Marco; FELDEN, Carten. Big Data – A state – of-the-art. In: AMERICA CONFERENCE ON INFORMATION SYSTEMS (AMCIS), 18, Seattle. Proceedings. Seattle, 2012.

REIS. Everson Andrade dos. Fluxo e tecnologias de informação no contexto brasileiro de inventário de ciclo de vida. Tese de doutorado Ciência da Informação – FFC, UNESP. 2015.

REZENDE, Cecília; Conceitos Fundamentais sobre Banco de Dados. Campos. São Paulo. 2003.

RUMMERT, Sonia Maria. Os meios de comunicação de massa como aparelhos de hegemonia. Disponível em: <https://goo.gl/3VfzKL>; acesso em 20 de janeiro de 2017.

112

SANTAELLA, Lúcia. Linguagens Líquidas na Era da Mobilidade. Brasil. Brasiliense. 2007.

SEARLE, John. Minds, Brains and Science. England. Penguin Group. 2008.

SEGALA ALVES, Carla; VAINZOF, Rony. Direito Digital: Privacy by Design e Proteção de Dados Pessoais. In: Jota. Publicado em: 6 julho de 2016. Disponível em: <https://goo.gl/8pfXuk>; acesso em 3 de novembro de 2016.

SHRIVASTAVA; SOMASUNDARAM. Armazenamento e Gerenciamento de Informações: Como armazenar, gerenciar e proteger informações digitais. São Paulo: Bookman. 2009.

SILVA, Elias Adriano N; FORTES, Renata Pontim; LUCRÉDIO, Daniel; Revisão sistemática de Literatura em Estratégias de Interoperabilidade no modelo de computação em Nuvem. São Carlos. 2012.

SOLIS, Brian. Engage! John Wiley Trade. USA. 2009

TAURION, C (2013). Big Data. Rio de Janeiro: Brasport. Disponível em: <https://goo.gl/MVNFQ3>; acesso em 3 de novembro de 2016.

TELXPERTS (2016). Big Data Archive. Disponível em <https://goo.gl/PsEjZw>; acesso a 13 de abril de 2017.

US CONGRESS (1988_, Office of Technology Assessment, SDI: Technology, Survivability and Software, OTA – ISC-353 (Whashington, DC: U.S. Government Printing Office, May). p. 188.

ZIKOPOULOS, P. et al. Understanding big data: Analytics for Enterprise Class Hadoop and Streaming Data. USA. McGraw-Hill. 2012.