Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
Pontifícia Universidade Católica de São Paulo
Luna Neide Macedo Gutierres
O conceito de big data: novos desafios, novas oportunidades.
Mestrado em Tecnologias da Inteligência e Design Digital.
São Paulo 2017
Pontifícia Universidade Católica de São Paulo
Luna Neide Macedo Gutierres
O conceito de big data: novos desafios, novas oportunidades
Dissertação apresentada à Banca Examinadora da
Pontifícia Universidade Católica de São Paulo, como
exigência parcial para obtenção do título de Mestre
em Tecnologias da Inteligência e Design Digital,
redigida sob a orientação do professor Dr. Claudio
Fernando André.
São Paulo 2017
Macedo Gutierres, Luna Neide.
O Conceito de big data. Novos Desafios. Novas
Oportunidades
Registro: 2017
Orientador: Claudio Fernando André.
Dissertação de Conclusão de Mestrado – Pontifícia
Universidade Católica de São Paulo
1. Big data. 2. Dados. 3. Analítica. Mudança Tecnológica.
GUTIERRES, Luna Neide Macedo. O conceito de big
data: novos desafios, novas oportunidades. Dissertação.
Pontifícia Universidade Católica de São Paulo. Mestrado em
Tecnologias da Inteligência e Design Digital, redigida sob a
orientação do professor Dr. Claudio Fernando André.
Dissertação aprovada em São Paulo, a …………. de julho de 2017, pela
banca composta pelos professores:
__________________________________________
Professor Dr. Claudio Fernando André
PUC-SP Orientador
__________________________________________
Professora Dra. Ana Maria Di Grado Hessel
PUC-SP
__________________________________________
Professora Dra. Regina Claudia Cantele
FIAP-SP
AGRADECIMENTOS
Em primeiro lugar, agradeço o meu marido, Ruy Augusto Gutierres, que faz
toda a diferença em minha vida, sempre.
A todos os professores da PUC – SP que, com sua generosidade,
apresentaram-me novos caminhos e possibilidades que, certamente, contribuirão em
todos os aspectos de minha vida.
A todos nas instituições em que leciono, que me permitem consolidar
conhecimentos, ganhar experiência e conviver com pessoas especiais diariamente.
A Edna Conti, da PUC – SP, que é a grande maestra do nosso curso.
Ao meu orientador, Prof. Doutor Claudio Fernando André, que, com seu
conhecimento, experiência e paciência, tornara possível a conclusão deste trabalho.
Em especial, aos meus alunos, que são a grande inspiração na busca
contínua do conhecimento.
RESUMO
O mundo enfrenta um crescimento exponencial de dados. Dados são criados
por dispositivos inteligentes, tecnologias RFID (Radio-Frequency IDentification),
sensores, redes sociais, vigilância por vídeo e muito mais. Esses dados gerados não
são mais considerados estáticos, cuja utilidade termina depois que o objetivo da
coleta é alcançado, eles se tornaram a matéria-prima dos negócios, um recurso
econômico vital, usado para criar uma nova forma de valor econômico. Surge então
o conceito de “big data”. O objetivo desta pesquisa é levantar a discussão sobre o
conceito de big data, extraindo da literatura atual definições que ofereçam subsídios
para o entendimento de seu real significado e impacto na geração de ideias úteis e
bens e serviços de valor significativo. Entretanto, por ser um tema recente, a
literatura disponível é escassa. É uma investigação de finalidade aplicada, com um
objetivo descritivo e utiliza o método qualitativo de abordagem. Tem por tipo de
pesquisa a revisão da literatura para a fundamentação teórica, e também a revisão
de estudo de dois casos através de pesquisa exploratória para a coleta dos dados a
serem analisados. Busca confrontar a teoria com as hipóteses e práticas
identificadas, para avaliar sua aderência, chegando em conclusões fundamentadas,
além de sugerir estudos futuros que podem dar continuidade a esta linha abordada.
Palavras-chave: big data, dados, analítica, mudança tecnológica.
ABSTRACT
The world faces exponential data growth. Data is created by smart devices,
RFID technologies (Radio-Frequency IDentification), sensors, social networks, video
surveillance and more. These generated data are no longer considered static, whose
usefulness ends after the purpose of the collection is reached, they have become the
raw material of the business, a vital economic resource, used to create a new form of
economic value. Then comes the concept of “big data”. The objective of this research
is to raise the discussion about the concept of big data, drawing from the current
literature definitions that offer subsidies for the understanding of its real meaning and
impact in the generation of useful ideas and goods and services of significant value.
However, because it is a recent theme, the available literature is scarce. It is an
applied purpose research with a descriptive purpose and uses the qualitative method
of approach. It has by type of research the review of the literature for the theoretical
basis, and also the study review of two cases through an exploratory research to
collect the data to be analyzed. It seeks to confront the theory with the identified
hypotheses and practices, to assess its adherence, arriving at informed conclusions,
and to suggest future studies that may continue this line.
Keywords: big data, data, analytical, technological change.
ÍNDICE DE ILUSTRAÇÕES
Figuras:
Figura 1 – Ciclo Hype do Gartner 2012. ................................................................... 11
Figura 2 – Data IQ. ................................................................................................... 39
Figura 3 – Dimensão do banco e capacidade analítica. ........................................... 41
Figura 4 – Quatro tipos de capacidade analítica. ..................................................... 43
Figura 5 – Estágios da analítica. .............................................................................. 44
Figura 6 – As 5 fases principais do big data. ............................................................ 46
Figura 7 – Infraestrutura do armazém de dados. ..................................................... 48
Figura 8 – Oportunidade de big data - mapa de calor por indústria. ........................ 59
Figura 9 – Data Warehouse Empresarial: simples e tradicional................................66
Figura 10 – Big data e hadoop: simples configuração hadoop autônomo. ............... 67
Figura 11 – Estágio dados estruturados: configuração tradicional ............................ 69
Figura 12 – Processo dados estruturados: configuração tradicional ......................... 70
Gráficos:
Gráfico 1 – Crescimento dos dados. ......................................................................... 27
Quadros:
Quadro 1 – O dado, a informação e o conhecimento. ............................................... 23
Quadro 2 – Definições de big data ............................................................................ 31
Quadro 3 – Outras definições de big data..................................................................33
Quadro 4 – 5 Vs do big data. ..................................................................................... 34
Quadro 5 – Definição 5 Vs. ........................................................................................ 36
LISTA DE ABREVIATURAS
BI – Business Intelligence
CNPq – Conselho Nacional de Desenvolvimento Científico e Tecnológico;
Coppe – Instituto Alberto Luiz Coimbra de Pós-Graduação e Pesquisa de Engenharia, da UFRJ;
CRM – Customer Relationship Management;
EDW – Ecossistema de data warehouse;
ERP – Enterprise Resource Planning;
ETL – Extract Transform Load;
FGV – Fundação Getúlio Vargas;
GFS – Google File System;
GPS – Global positioning system;
HDFS – Hadoop Distributed File Syste;
HDFS – Hadoop Distributed File System;
HMR – Haddop MapReduce;
IDC – International Data Corporation;
Labic – Laboratório de Estudos sobre Imagem e Cibercultura;
NASA (National Aeronautics and Space Administration;
NoSQL – Não SQL;
NTIC’s - Novas Tecnologias de Informaão e Comunicação;
OCEAN – Openness to experience, conscientiousness, extraversion, agreeableness, neuroticism;
ODS – Operational Data Source;OLAP - Online Analytical Processing;
POS - Point of Sale;
QA- Question Answer;
RFID – Radio-frequency Identification;
SGBD – Sistema Gerenciador de Banco de Dados;
Tecccog – Grupo de Pesquisa Tecnologia, Comunicação e Ciência Cognitiva;
TI – Tecnologia da Informação;
UFES – Universidade Federal do Espírito Santo;
UFRJ – Universidade Federal do Rio de Janeiro;
UNECE – United Nations Economic Comission for Europe;
UNSD – United Nations Statistics Division;
XML Extensible Markup Language.
SUMÁRIO
1 INTRODUÇÃO ..................................................................................... 91.1 DEFINIÇÃO DO TEMA ................................................................................ 091.2 DELIMITAÇÃO DO PROBLEMA DA PESQUISA ................................................ 121.3 LOCALIZAÇÃO NO TEMPO E NO ESPAÇO ..................................................... 131.4 JUSTIFICATIVA DA ESCOLHA ...................................................................... 131.5 OBJETIVOS GERAL E ESPECÍFICO .............................................................. 161.5.1 Objetivo geral ..................................................................................... 161.5.2 Objetivos específicos ......................................................................... 161.6 INDICAÇÃO DA METODOLOGIA ................................................................... 17
2 FUNDAMENTAÇÃO TEÓRICA .............................................................. 192.1 REVISÃO DA LITERATURA ......................................................................... 192.2 DADOS ................................................................................................... 212.3 BIG DATA ................................................................................................ 242.4 ANALÍTICA ............................................................................................... 372.5 TERMOS IMPORTANTES RELACIONADOS .................................................... 472.6 RISCOS DO BIG DATA ............................................................................... 492.7 USOS E APLICAÇÕES DO BIG DATA ............................................................ 512.8 BIG DATA VERSUS SMALL DATA ................................................................. 592.8.1 Objetivos ............................................................................................ 602.8.2 Localização ........................................................................................ 602.8.3 Estrutura de dados e conteúdo .......................................................... 612.8.4 Preparação dos dados ....................................................................... 612.8.5 Longevidade ...................................................................................... 612.8.6 Mensuração ....................................................................................... 622.8.7 Reprodução ....................................................................................... 622.8.8 Suporte .............................................................................................. 622.8.9 Visão interna – introspecção ............................................................. 632.8.10 Análises ............................................................................................ 632.9 VISÃO TECNOLÓGICA DE BIG DATA ............................................................ 64
3 ANÁLISE DE CASOS .......................................................................... 713.1 BIG DATA EM CAMPANHAS ELEITORAIS ....................................................... 713.1.1 O caso da campanha eleitoral de Obama ......................................... 743.1.2 Segunda eleição de Obama, 2012 .................................................... 753.1.3 Do Brexit a Trump: como o big data pode estar se tornando
decisivo nas eleições ................................................................... 77
4 ANÁLISES DOS RESULTADOS DA PESQUISA ....................................... 855 CONCLUSÕES ................................................................................ 1006 REFERÊNCIAS ................................................................................ 104
9
1 INTRODUÇÃO
1.1 DEFINIÇÃO DO TEMA
O IDC (internacional Data Corporation), empresa de inteligência de
mercado e consultoria nas indústrias de tecnologia da informação,
telecomunicações e mercados de consumo em massa de tecnologia, estimou
que os dados criados pela humanidade em 2000 foram de dois exabytes;
quantidade similar foi criada em 2011 a cada dia (LYMAN & VARIAN, 2011).
A Revolução Industrial foi um grande marco na história da humanidade.
Seus desdobramentos afetaram todo o mundo. O termo foi usado para
descrever as mudanças e avanços sociais entre os séculos XVIII e XIX e foi
escolhido porque as mudanças da época eram tão drásticas que o único
evento similar em que poderia se inspirar foi o da Revolução Francesa.
Estamos atualmente em direção a um momento igualmente
revolucionário: a revolução dos dados, ou seja, a revolução de big data. A
sociedade em rede redefiniu as estruturas sociais fazendo com que todo o
repertório construído pela vida em sociedade fosse alterado completamente.
Não se produz como antigamente, não se negocia mais da mesma
maneira e os relacionamentos não são mais como antes. A forma de trabalho
está tentando acompanhar as novidades, independentemente do segmento em
que se atua. Há exemplos de fracasso em indústrias e empresas que ainda não
conseguiram se adaptar à nova lógica econômica, mas há exemplos de
pessoas e empresas estabelecendo novas formas de conexão para impulsionar
a inovação e o sucesso.
Essas organizações lançaram mão da colaboração em massa a fim de
criar um valor real para os participantes e têm estabelecido novos padrões de
gestão. Desde então, o mundo está enfrentando crescimento exponencial de
dados; incalculáveis volumes de dados são gerados pelos dispositivos
inteligentes, tecnologias de RFID (Radio-Frequency Identification) que são
10
identificadores por rádio-frequência, sensores, mídia social, vigilância por vídeo
e diversos outros canais e dispositivos que surgem a cada dia.
Nos dias modernos de big data, a curadoria dos dados tornou-se cada
vez mais importante, especialmente para o manuseio de sistemas de dados de
alto volume e complexos.
Com os volumes de dados crescendo exponencialmente, juntamente à
crescente variedade e heterogeneidade das fontes, sua análise tornou-se um
processo dispendioso e demorado. Múltiplos conjuntos de dados de várias
fontes devem primeiro ser processados e conectados antes que eles possam
ser usados por ferramentas de análises de dados.
A publicação e a apresentação da análise de dados também são muito
importantes. No entanto, os sistemas tradicionais de tratamento de dados não
foram projetados para esse propósito e não há consideração em valores
cronológicos. Outra limitação é que são, geralmente, projetados para
programadores, não para usuários comuns.
Enquanto os dados são criados principalmente por indivíduos, espera-se
que as organizações os gerenciem (GANTZ & REINSEL, 2011). As discussões
se iniciam no sentido de entender se Isso não é um fardo inevitável para as
organizações ou se o problema de gerenciar e armazenar dados é
preocupação vital que precisa de resolução imediata.
Os defensores do big data acreditam que a explosão de informações
representa enorme oportunidade para as organizações e a sociedade; minerar
esse volume de dados desorganizados provavelmente relevará oportunidades
das mais variadas.
A consultoria empresarial americana Mckinsey (et al., 2011) estimou que
o valor anual potencial de impulsionar big data no sistema de saúde dos EUA
passou de US$ 300 bilhões, e um número ainda maior na administração do
setor público da Europa. Outra consultoria, a Gartner, mencionou o big data
11
mais de dez vezes no Ciclo Hype, relatório publicado que visa mostrar as
tendências em tecnologia emergentes (PETTEY; MEULEN, 2012).
Entretanto, uma análise cuidadosa do Ciclo Hype indica que o big data
está prestes a alcançar o auge da expectativa inflacionada, que é seguida por
uma desilusão. Isso significa que o big data pode ser um modismo e
simplesmente uma nova buzzword (palavra da moda) de TI (Tecnologia da
Informação).
Fonte: Gartner, 2016.
Em paralelo, várias empresas estão competindo para criar tecnologias
sólidas que capturem, gerenciem e analisem essas enormes quantidades de
dados. Outras empresas estão criando mais dispositivos inteligentes e
aplicativos para criar ainda mais dados. Vários investimentos estão sendo
feitos com o propósito de coletar sem certeza de ganho real, esperando-se
descobrir como monetizá-los em algum momento, seguindo o caminho do
Facebook ou do Google, por exemplo.
Figura 1 – Ciclo Hype do Gartner 2012.
12
“Como os computadores permitiram que os humanos
coletassem mais dados do que podemos assimilar, é natural voltar-se
para técnicas computacionais para nos ajudar a descobrir padrões e
estruturas significativas dos volumes massivos de dados.” (FAYYAD
et al., 1996).
Esses muitos dados gerados são desestruturados ou semiestruturados,
o que é uma forma diferente de geração e captura com que as tecnologias
tradicionais estavam aptas a lidar. Eles também são criados e transmitidos em
alta velocidade, o que requer agilidade no entendimento do valor gerado. Isso
representa outro desafio para as tecnologias tradicionais e atuais.
Big Data é um termo genérico para dados que não podem
ser contidos nos repositórios atuais; refere-se a dados volumosos
demais para caber em um único servidor; não estruturados demais
para se adequar a um único banco de dados organizado em linhas e
colunas; ou fluidos demais para serem armazenados e um data
warehouse estático. (DAVENPORT et al, 2014, p.1)
O entendimento e conhecimento acerca do tema em questão são
relevantes. Portanto, é objetivo desse projeto entender mais profundamente o
conceito de big data e tentar diferenciar realidades e mitos sobre o tema. Para
isto, apresenta uma análise da literatura sobre o assunto, sintetizando
contribuições de especialistas e fazendo uma revisão de estudos de caso do
uso de big data na área política.
1.2 DELIMITAÇÃO DO PROBLEMA DA PESQUISA
De acordo com Manyika et al (2011), a utilização do Big Data apoiará
novas ondas de crescimento da produtividade no universo empresarial e será a
base fundamental da concorrência e crescimento para as organizações,
considerando o mercado competitivo e o potencial de captura do valor
proporcionado. No entanto, seu significado e aplicação ainda não estão claros.
13
A pesquisa objeto deste trabalho, toma como referência a seguinte
questão: o que é big data, de acordo com a literatura atual, e como esse novo
fenômeno tem sido aplicado no campo do marketing político.
A análise de artigos, teses e dissertações foi feita a partir de pesquisas
realizadas em duas bases de buscas selecionadas e disponíveis: Banco de
Teses e Dissertações da Capes: Scopus e ISI (Web of Science) e Banco de
Teses e Dissertações da PUC-SP (Pontifícia Universidade Católica de São
Paulo), o que limita os resultados encontrados ao conteúdo disponível nessas
bases, e também considerando os filtros aplicados às pesquisas realizadas:
conceito de big data e uso em campanhas políticas.
1.3 LOCALIZAÇÃO NO TEMPO E NO ESPAÇO
Embora tenha nascido na década de 1990, na NASA (National
Aeronautics and Space Administration – Administração Nacional da
Aeronáutica e Espaço) – para descrever grandes e complexos conjuntos de
dados, que desafiam os limites computacionais tradicionais de captura,
processamento, análise e armazenamento, para esta pesquisa, a revisão
bibliográfica considerou os últimos cinco anos da literatura disponível. Período
em que o conceito de big data começou a ser desenvolvido e utilizado pelo
mercado com mais frequência.
A literatura considerada neste período teve como foco produções em
língua portuguesa do Brasil e em literatura da língua inglesa, mais
especificamente, dos Estados Unidos.
1.4 JUSTIFICATIVA DA ESCOLHA
A pesquisa em questão pretende proporcionar maior entendimento sobre
o conceito de big data. O tema é relativamente novo e cercado por grande dose
de expectativas e, algumas vezes, seu conceito parte da adaptação de uma
teoria já existente, o que pode diminuir a visão e dimensões do seu
desempenho.
14
Conhecido como big data, esse fenômeno de digitalização nos legou
dados em volume, variedade e velocidade suficientes para torná-los confiáveis.
Uma vez estruturados, esses dados permitem visualização de padrões,
relações e correlações inusitadas e fundamentais para a criação de modelos
descritivos, diagnósticos e preditivos de alta performance usados como
capacitadores do tomador de decisão. Ainda existem muitos obstáculos para
que isso seja algo comum nas instituições e a curva de aprendizagem está
apenas começando, o que dificulta a extração de valor dos dados disponíveis.
Entre os motivos mais relevantes estão a falta de conhecimento de seu
significado e de suas metodologias.
O entendimento do significado e aplicação de big data podem contribuir
para a sociedade como um todo, pois a geração de valor por meio da utilização
de dados poderá criar oportunidades em diversas áreas e, como consequência,
novos degraus serão alcançados na escala da evolução.
Com o surgimento dessas oportunidades, a academia traz sua visão
teórica e fundamental para também contribuir na prática com a geração de
novas ideias e conceitos que, quando aplicados, podem proporcionar
inovações diferenciadas e disruptivas.
Pode ser igualmente interessante desmistificar o significado de um
fenômeno que, a princípio, está cada vez mais estabelecido, como meio
importante a se destacar, avaliando possíveis mudanças positivas e
construtivas que buscam sustentar um crescimento contínuo de geração de
dados e em linha com as novas tecnologias e novos comportamentos, que
aparecem a todo momento nos dias atuais.
A pesquisadora e autora desta dissertação encontra suas motivações
para desenvolver a pesquisa em alguns fatores decorridos no percurso de sua
experiência acadêmico-profissional, pois, sendo publicitária e especialista em
marketing de relacionamento e CRM (Customer Relationship Management),
tendo atuado por mais de 25 anos em agências de propaganda e
relacionamento, sempre viu nos dados um grande aliado para o
15
desenvolvimento de estratégias de comunicação e, até o momento desta
publicação, se interessa pelas questões relacionadas à área.
Também durante a atuação como professora em cursos de marketing
digital, a autora vê o constante crescimento e a importância da utilização de
dados gerados pela sociedade para o desenvolvimento de estratégias de
comunicação de marketing eficazes que tragam benefícios para as empresas e
os consumidores impactados.
Com todos estes fatores interligados, e adicionando a crença pessoal da
pesquisadora de que os dados gerados pela sociedade são uma nova classe
de ativo econômico valioso, a pesquisa se tornou um meio importante e
necessário a fazer parte da etapa de sua vida tanto no ambiente acadêmico
quanto profissional.
Durante o processo para a escolha e delimitação do tema, vários
caminhos se apresentaram em função da novidade da abordagem e de sua
importância inexorável para os tempos atuais.
Nas pesquisas realizadas, identificou-se que os trabalhos produzidos
permeiam o conceito de big data para suportar sua aplicação. Nos trabalhos
pesquisados, o foco da produção estava nos usos e aplicações de big data e
não seu conceito central e seu diálogo com temas relacionados.
Trabalhos foram produzidos no período analisado como: (a) Big Data:
Diretrizes e Técnicas para a Preservação da Privacidade; (b) Utilização de big
data analytics nos sistemas de medição de desempenho: estudos de caso; (c)
Big Data Estratégico: Um Framework Para Gestão Sistêmica do Ecossistema
Big Data; (d) Otimização do processo de aprendizagem da estrutura gráfica de
Redes Bayesianas em Big Data; (e) Usos do Big Data em campanhas
eleitorais; entre outros.
Após a análise e catalogação de todo o material pesquisado, optou-se
pela revisão bibliográfica do conceito de big data, apontando novos desafios e
novas oportunidades. Acredita-se que este projeto é relevante para que o
16
entendimento do conceito fique um pouco mais claro e que contribua para que
sua adoção traga benefícios tangíveis para todos os envolvidos no ecossistema
de geração e utilização de dados.
De acordo com uma matéria da Revista Exame (2016), o big data é uma
das mais promissoras tendências da tecnologia. O fenômeno do big data, em
conjunto com a computação em nuvem – o cloud computing – tem potencial
para ser disruptivo para todas as indústrias.
Diante do impacto dessa nova tecnologia para as empresas, instituições
e sociedade em geral, considerou-se importante e relevante a produção de
trabalhos que apresentem seu conceito na visão de diversos autores.
1.5 OBJETIVOS GERAL E ESPECÍFICO
1.5.1 Objetivo geral
O objetivo geral desta investigação é esclarecer o termo big data e os
conceitos a ele relacionados, bem como tendências e desafios que são parte
do processo.
1.5.2 Objetivos específicos
A partir do objetivo geral proposto, esta pesquisa também tem por
objetivos específicos:
a) Mapear o conhecimento de pesquisadores e acadêmicos acerca de
big data, pela comparação dos resultados da análise da literatura.
b) Avaliar como se deram essas definições com base em sua etimologia
e cronologia e abordagem de seus principais autores;
c) Apresentar conclusão do estudo das buscas feitas com as análises
dos dados;
d) Propor novos estudos para continuidade e evolução dos
conhecimentos abordados.
17
Para a revisão da literatura foi mapeado e avaliado o território intelectual
existente dos últimos 05 anos, período em que o termo big data começou a ser
amplamente discutido.
1.6 INDICAÇÃO DA METODOLOGIA
Seguindo a classificação das áreas de conhecimento apresentadas pela
Capes (BRASIL, 2009), esta pesquisa atua na área multidisciplinar (90000005),
tendo como área de avaliação interdisciplinar (90192000) centrada em sociais
e humanidades.
Esta pesquisa é classificada, quanto aos fins, como exploratória, por
conta de haver pouco conhecimento acumulado e sistematizado (MORESI,
2003), de ter o propósito de proporcionar maior familiaridade com o problema,
com vistas a torná-lo mais explícito e a coleta de informações envolver
levantamento bibliográfico (GIL, 2010).
Quanto aos meios de investigação, este estudo é eminentemente
bibliográfico, pois busca a recuperação do conhecimento científico acumulado
sobre o problema formulado, via compilação das publicações existentes como
livros, revistas, periódicos, artigos científicos, jornais, boletins, Internet, porém
não é mera repetição do que já foi dito ou escrito sobre certo assunto; propicia
o exame de um tema sob novo enfoque ou abordagem (MARCONI; LAKATOS,
2010).
É uma revisão da literatura com enfoque em uma revisão narrativa
(ELIAS et al., 2012), que tem por tipos de pesquisa a bibliográfica para a
revisão da literatura e para a fundamentação teórica utilizada, e também a
revisão do estudo de caso de duas campanhas eleitorais americanas.
Esta investigação tem dois propósitos (MAZZOTTI, 2002): a construção
de uma contextualização para o problema e a análise das possibilidades
presentes na literatura consultada para a concepção do referencial teórico da
pesquisa.
18
Do ponto de vista dos procedimentos técnicos, a pesquisa bibliográfica
tem como escopo recuperar o conhecimento científico sobre o tema e as
questões que já foram abordadas, a partir de material já publicado, constituído
por livros, artigos de periódicos, dentre outros, de modo que se verifique as
opiniões similares e diferentes, bem como aspectos a respeito do problema
(GIL, 2010). Assim, a pesquisa visa proporcionar maior familiaridade com o
problema com vistas a torná-lo explícito, pelo envolvimento de levantamento
bibliográfico, cuja principal vantagem reside no fato de permitir que o
pesquisador cubra uma gama de fenômenos mais ampla do que aquela que
poderia ser pesquisada diretamente.
“Todo conceito tem uma história, semelhante a uma história
de vida, exceto que, no caso dos conceitos, quanto mais férteis eles
são, tanto mais sua história tende a ser potencialmente sem fim. Eles
nascem, crescem e proliferam com vida própria pelos mais diversos
campos do saber, de modo que rastrear o mapa de seus caminhos,
os mais largos, os vicinais, enfim, de todos os seus meandros, é
tarefa não só, de certo modo, detetivesca, como também impossível
de ser levada a cabo por uma só pessoa.” (SANTAELLA, 2007, p. 26)
Como primeira etapa do mapeamento, será apresentado o levantamento
bibliográfico, que tem por finalidade levantar todas as referências encontradas
sobre o tema (CERVO; BERVIAN, 2002). A partir da revisão sistemática da
literatura e das análises realizadas na literatura pesquisada, foram definidos os
constructos deste trabalho e suas principais variáveis. O constructo big data
possui cinco variáveis: veracidade, volume, velocidade, variedade e valor.
Essas variáveis foram estabelecidas de acordo com as definições de
Zikopoulos et al. (2011).
19
2 FUNDAMENTAÇÃO TEÓRICA
De acordo com Demo (2000), é fundamental que a pesquisa tenha uma
base teórica de caráter explicativo. Alguns procedimentos necessários para
haver fundamentação teórica são: definir os conceitos-chave e estudar a
bibliografia pertinente.
Os principais autores consultados e que dão suporte a esta pesquisa
são: Charlene Li e Josh Bernoff (2010) no que tange aos fenômenos sociais
nos negócios; Brian Solis (2009); Kenneth Cukier (2013), Viktor Mayer-
Schönberger (2013) e Jules J. Berman (2013), que apresenta uma análise
sobre o conceito de big data. No que se refere a pesquisa bibliográfica para
contextualizar big data, usam-se principalmente as contribuições dos autores
Schönberger-Mayer e Cukier (2013), que são os pioneiros e referências no
mundo na discussão dessa temática.
Após estudar a bibliografia pertinente, este capítulo apresenta a revisão
sistemática da literatura que foi realizada para mapear as publicações
existentes. Este capítulo também contém uma seção dedicada à
fundamentação teórica de temas relacionados a big data como: dados e
analítica.
2.1 REVISÃO DA LITERATURA
Para os objetivos deste projeto, a literatura consultada contempla
artigos, monografias, dissertações e livros que tratam dos principais conceitos
para o entendimento de big data. Este material traz o que vem sendo publicado
com diferentes pontos de vista e em diferentes instituições, enriquecendo com
conteúdo e informações que servem de apoio no decorrer das reflexões
realizadas, pois abrangem princípios modernos sobre sua aplicação, além de
apresentar as principais questões e desafios, tendências e casos conhecidos
de aplicação do big data.
20
Durante esse processo, várias limitações na pesquisa devem ser
ressaltadas. A primeira foi a escassez de literatura sobre a temática. A maioria
encontrada, e que serviu como orientação para a pesquisa, coloca big data
sempre como um tema ainda em construção, emergente, flexível e plausível de
confusões conceituais, bem como com visões positivas em relação a seus
benefícios. As publicações começam a surgir a partir de 2012, quando essa
dissertação também começa a ser delineada; mas, ao longo dos últimos anos,
inúmeras publicações sobre big data surgiram, ligadas a negócios e tecnologia,
que se caracterizaram como visão parcial do ponto de vista da efetividade e
amplitude dos usos do big data.
Por décadas, as empresas coletaram dados, principalmente dados
transacionais e dados de pesquisa, mas, até recentemente, não haviam
coletado em quantidade suficiente para, no mínimo, vislumbrar seu potencial,
nem mesmo para ter ideia do que fazer com os dados. Contudo, recentemente,
as empresas começaram a enxergar o potencial, e alguns poucos pioneiros
passaram a explorar e a aproveitar os insights na busca de ganhos,
produtividade e lucros. Há uma revolução no horizonte: a revolução do big
data.
A tecnologia de big data é ainda muito recente, mas começa a despertar
o interesse do mercado. Seu conceito ainda está em construção e, como é
fértil, está proliferando pelos mais diversos campos do saber, o que contribui
para certa confusão, já que pode adquirir vários significados, de acordo com o
ângulo em que está sendo visto. As empresas de TI definem big data como
uma solução empacotada que pode ser colocada em prática simplesmente
adquirindo tecnologia do próprio fornecedor.
Big data não é apenas um debate sobre tecnologias, mas,
principalmente, como os negócios poderão usufruir da montanha de dados que
está agora a sua disposição. Para melhor compreensão acerca da definição do
big data, faz-se necessário entender as raízes do acúmulo de dados.
21
2.2 DADOS
Do latim datum (aquilo que se dá), um dado é um documento, uma
informação ou um testemunho que permite chegar ao conhecimento de algo ou
deduzir as consequências legítimas de um fato, e que serve de apoio a
diversas operações.
Dados são definidos como uma sequência de símbolos quantificados ou
quantificáveis. Portanto, um texto é um dado. De fato, as letras são símbolos
quantificados, já que o alfabeto por si só constitui uma base numérica. Também
são dados imagens, sons e animação, pois todos podem ser quantificados a
ponto de alguém que entra em contato com eles ter eventualmente dificuldade
de distinguir a sua reprodução, a partir da representação quantificada, com o
original. É muito importante notar-se que qualquer texto constitui um dado ou
uma sequência de dados, mesmo que ele seja inelegível para o leitor.
Dados são um conjunto de valores ou ocorrências em um estado bruto
com o qual são obtidas informações com o objetivo de adquirir benefícios.
Existem dois tipos de dados: estruturados e não estruturados. Para os dados
estruturados, que são formatados, organizados em tabelas – linhas e colunas –
e são facilmente processados, geralmente utiliza-se um sistema gerenciador de
banco de dados para armazená-los. Um exemplo são os dados gerados por
aplicações empresariais. Os dados não estruturados não possuem formatação
específica e são mais difíceis de serem processados. Por exemplo, mensagens
de e-mail, imagens, documentos de texto, mensagens em redes sociais
(SHRIVASTAVA e SOMASUNDARAM, 2009)
Em informática dados brutos (raw data) designam os dados ou valores
recolhidos e armazenados tal qual foram adquiridos, sem terem sofrido o
menor tratamento. Apresentam-se como um conjunto de números, caracteres,
imagens ou outros dispositivos de saídas para converter quantidades físicas
em símbolos, em um sentido muito extenso.
22
O dado na tecnologia da informação é a representação física de um
evento, no tempo e espaço, que não agrega fundamento para quem o sente ou
recebe, não podendo ser possível entender o que ele representa ou para que
ele existe. Podemos ter como exemplo um número, se somente esse número
for disponibilizado para alguém ou para o tempo e espaço, por alguém ou por
um evento, não é possível saber o que ele significa ou o que ele representa,
podendo representar qualquer coisa ou não representar nada. Porém, quando
existir uma agregação com outro dado ele passa a ter potencial de uma
informação.
A informação é o dado organizado. Um texto pode ser uma informação
uma fonte de muitas informações ou um conjunto de informação, pois se os
dados agrupados gerarem sentido para quem os lê e ficando claro ou não
(valor da informação se dá à qualidade com a qual é disponibilizada, reduzindo
ou aumentando a probabilidade de interpretação ambígua pelo emitente,
quanto mais precisa, mais valiosa ela se torna) a que se refere, o dado passa a
ser o valor de determinado item, evento do que se refere. Um relatório, um
boletim escolar, uma folha de pagamento são exemplos de informação, desde
que faça sentido a quem o vê.
O conhecimento é resultado de várias informações organizadas de
forma lógica e suficiente para criar um evento, tornar possível um evento ainda
não conhecido ou o poder de entender um evento, suas causas, eventos
anteriores e suas causas, eventos da causa, evento resultante de causas, o
poder de manipular eventos e causas.
Dados também podem ser um conjunto de informações que constituem
uma informação. Já o conhecimento, refere-se à habilidade de criar um modelo
mental que descreva o objeto e indique as ações a implementar, as decisões a
tomar. (REZENDE, 2003). O especificado fica nítido ao observar o quadro 1.
23
Quadro 1 – O dado, a informação e o conhecimento.
Fonte: REZENDE, 2003, adaptado pela autora.
O dado não tem por si significado, mas apenas quando usado na
tomada de decisões ou na realização de cálculos a partir de um processamento
adequado e tendo em conta respectivo contexto. Em geral, o dado é a
representação simbólica ou atributo da entidade.
No campo das humanidades, os dados consideram-se como a
expressão mínima de conteúdo relativamente ao tema. O conjunto dos dados
relacionados entre si constitui a informação.
Para a informática, os dados são expressões gerais que descrevem
características das entidades sobre as quais operam os algoritmos. Essas
expressões devem ser apresentadas de maneira a que possam ser tratadas
por um computador. Nesse caso, os dados por si também não constituem
informação, a menos que ela surja do adequado processamento deles.
Conhece-se como base de dados (ou database, de acordo com o termo
em inglês) o conjunto dos dados que pertencem ao mesmo contexto e que são
armazenados sistematicamente para que possam ser usados no futuro. Essas
bases de dados podem ser estáticas (quando os dados armazenados não
variam com o passar do tempo) ou dinâmicas (os dados são alterados com o
tempo, pelo que requerem atualizações periódicas).
Dado Informação Conhecimento
Simples observações sobre o estado do mundo
Dados dotados de relevância e propósito
Informação valiosa da mente humana inclui reflexão, síntese, contexto
• Facilmente estruturado • Facilmente obtido por
máquinas • Frequentemente
quantificado • Facilmente transferível
• Requer unidade de análise • Exige consendo em relação
ao significado • Exige necessariamente a
mediação humana
• De difícil estruturação • De díficil captura em
máquinas • Frequentemente tácito • De díficil transferência
24
Meio século depois de os computadores entrarem no meio social, os
dados passaram a se acumular a ponto de algo novo começar a acontecer. O
mundo não apenas está mais cheio de informação como também a informação
está se acumulando com mais rapidez. A mudança de escala levou à mudança
de estado. A mudança quantitativa gerou mudança qualitativa. Tanto a ciência
como a astronomia e a genômica, que vivenciaram uma explosão no final da
década de 90, cunharam o termo big data. Hoje, o conceito está migrando para
todos os campos do conhecimento humano.
Desde o século XIX, a sociedade depende do uso de amostragens
quando se trata de grandes quantidades. Mas a necessidade dessas
amostragens remonta ao período de escassez de informações, produto dos
limites naturais de se interagir com as informações na era analógica. Antes do
domínio das tecnologias digitais de alto desempenho, não percebíamos a
amostragem como algo artificial, mas algo comum.
Hoje, porém, a quantidade de dados, o poder de processamento e de
armazenamento, viabilizam a análise de muito mais dados. Contudo, apesar de
as mudanças na tecnologia terem sido um fator crítico, algo mais importante e
sutil também mudou: a mentalidade sobre como os dados poderiam ser
usados.
Os dados não eram mais considerados estáticos e banais, cuja utilidade
terminava depois que o objetivo da coleta era alcançado. Em vez disso, os
dados se tornaram matéria-prima dos negócios, um recurso econômico vital,
usado para criar uma nova forma de valor econômico.
2.3 BIG DATA
É importante distinguir big data de “lotes de dados” ou “dados massivos”.
Em big data, três componentes são aplicáveis: volume, variedade e velocidade
(estes elementos são detalhados a frente, acrescentando-se valor e
veracidade). É o tamanho, a complexidade e a inquietação dos grandes
25
recursos de dados que explicam os métodos pelos quais esses recursos são
projetados, operados e analisados.
O termo lotes de dados é frequentemente aplicado a enormes coleções
de arquivos de simples formatos, por exemplo, cada pessoa que mora no Brasil
e seus números de telefones. Esse conjunto de dados são listas importantes.
Algumas dessas listas são catálogos cujo propósito é armazenar e recuperar a
informação. Algumas coleções de lotes de dados são planilhas como tabelas
de duas dimensões de colunas e linhas, matematicamente equivalente a uma
imensa matriz.
Para propósitos científicos, às vezes, é necessário analisar todos os
dados de uma matriz de uma única vez. As análises de grandes matrizes são
intensivas do ponto de vista computacional e podem requerer os recursos de
um supercomputador.
Os recursos de big data não são equivalentes a uma grande planilha, e
os dados não são analisados em sua totalidade. As análises de big data são
processos que contemplam múltiplos passos pelos quais o dado é extraído,
filtrado e transformado, com análises, muitas vezes de forma fragmentada, e
muitas vezes recursiva.
De maneira simples, de acordo com Jim Davis Senior, Vice President
and Chief Marketing Officer da SAS (empresa americana de software e
serviços de business anlytics), quanto se excede a capacidade convencional de
um sistema de banco de dados você está tratando de big data. Antes disto
acontecer, você tem o que a SAS se refere como growing data ou dados em
crescimento, que é uma grande quantidade de dados, mas ainda não excede
as limitações do banco de dados convencional.
O termo big data tem recebido na atualidade diversas contribuições para
sua conceituação. Parte delas trata o termo como uma referência de mercado
ou mesmo de “moda”, outros já consideram um conceito mal definido e pouco
compreendido (TAURION, 2014), mas que merece ser estudado. Por ser ainda
26
pouco explorado no meio científico, optou-se nesta dissertação usar o termo
big data como popularmente vem sendo referenciado em congressos e debates
acadêmicos nacionais e internacionais, a fim de contribuir com as listas de
discussões em torno da temática.
O potencial do big data para criar vantagem competitiva vem
influenciando a forma como os negócios e empresas são gerenciados. Isso
ocorre por meio da análise que pode ser um elemento fundamental dos
esforços das empresas para melhorar seu desempenho (MANYIKA et al.,
2011)
Entre os grandes difusores deste conceito encontra-se a empresa IBM
que, por meio de sua tecnologia voltada para Question Answering (QA),
concebeu uma máquina, dentro de uma iniciativa de marketing, capaz de
processar grandes volumes de dados e competir de igual para igual com
especialistas humanos em um programa de TV estilo pergunta-resposta (IBM,
2011).
O êxito no universo empresarial passa pela compreensão e aplicação de
soluções estratégicas e negociais inovadoras voltadas ao cliente, com a
utilização das inteligências competitiva e estratégica, por meio da produção de
informação e conhecimento para suporte adequado e ágil à decisão e apoio
aos negócios.
De acordo com Gandomi et al. (2015), o termo big data vem evoluindo
rapidamente; sendo assim, sua definição acaba gerando questionamentos e
dúvidas a respeito da abrangência dessa área. Uma pesquisa on-line realizada
pela empresa Harris Interactive (Small and midsize companies look to make big
gains with big data, 2012), consolidou as respostas de 154 executivos a
respeito de como eles definiriam o termo big data.
No gráfico 1 é ilustrada a divergência de respostas recebidas e como os
participantes abordaram a pergunta.
27
Gráfico 1. O que significa o termo big data.
Fonte: DANTAS, 2016, adaptado pela autora.
Nesse cenário, ainda em formulação, é importante destacar que o big
data remete a própria possibilidade de datificação da sociedade, que leva a
geração de mais e mais dados (TAURION, 2015). Dessa forma, a ideia básica
é a percepção que praticamente tudo o que a humanidade faz no dia a dia vai
gerar um “rastro digital” que poderá ser eventualmente analisado. Como
observa Bruno (2012, p. 687) “comunicar é deixar rastros”. Assim, qualquer
ação digital, principalmente em espaços da internet é passível de ser coletada
e analisada.
De acordo com o McKinsey Global Institute, big data refere-se aos
conjuntos de dados cujo tamanho está além da capacidade de ferramentas
típicas de software de banco de dados para capturar, armazenar, gerenciar e
analisar”. Já para o IDC, big data é apresentado como “(...) uma nova geração
de tecnologias e arquiteturas, projetadas economicamente para extrair valor de
28%
19%
18%
24%
11%
Crescimento acentuado de dados transacionais, incluindo dados de clientes e Supply Chain
Demanda por armazenamento e arquivação de dados para regulamentação e conformidade
Expansão de novas fontes de dados (redes sociais, dispositivos móveis, sensores)
Novas tecnologias desenvolvidas para ajudar nos desafios de volume, variedade e velocidade relacionados ao Big Data
Outras definições
28
volumes muito grandes de uma larga variedade de dados, permitindo alta
velocidade de captura, descoberta e análise”.
Por outro lado, Schönberger-Mayer e Cukier (2013) observam que,
apesar de haver uma crença implícita entre os tecnólogos de que big data
remonta à revolução do silício, em essência, o avanço rumo ao big data é a
continuação da antiga busca da humanidade por medir, registrar e analisar o
mundo. Para esses autores, os sistemas modernos de tecnologia da
informação (TI) possibilitam big data, mas não são os únicos responsáveis pelo
seu surgimento.
“A revolução da TI é evidente, mas a ênfase estava mais no T, na
tecnologia. É hora de voltarmos o olhar para o I, a informação”
(SCHÖNBERGER-MAYER; CUKIER, 2013, p. 54). Nesse sentido, os autores
abordam que, a fim de captar informações quantificáveis, de datificar, é preciso
saber como medir e registrar essa medição, o que exige um conjunto certo de
instrumentos, além do desejo de quantificar e registrar. Como eles apontam,
ambos são pré-requisitos da datificação, e desenvolvemos os fundamentos
dessa prática séculos antes do nascimento da era digital (ANTONIUTTI, 2015).
Outros autores (POSPIEC; FELDENS, 2012) definem big data como um
desafio em que há um equilíbrio desfavorável entre dados disponíveis e
conceitos e tecnologias de informação atuais. Consequentemente, não há
suporte para essa grande quantidade de informação que, segundo Callebaut
(2012), está crescendo de tamanho, bem como está aumentando a rapidez
desse crescimento.
No Brasil, várias revistas (Veja, 2013; Ciência Hoje, 2013; Exame, 2012)
publicaram reportagens apresentando o conceito de big data como a
“revolução dos dados” ou como um “fenômeno big data”, ressaltando suas
aplicações, principalmente nas áreas comercial e empresarial. Jornais
nacionais (O Globo) também exploraram o tema em 2012. As reportagens
buscaram contextualizar o tema com o objetivo de esclarecer os leitores sobre
o que vem a ser big data.
29
Para Schönberger-Mayer (2013, p. 2), “big data é a capacidade de uma
sociedade de obter informações de maneiras novas a fim de gerar ideias úteis
e bens e serviços de valor significativo”.
Como vimos, não há definição rigorosa para o termo em função de big
data ser um conceito relativamente novo; portanto, sua definição se submete a
constantes aperfeiçoamentos, pois a consolidação do termo se dá pela
percepção, no tempo, de seu valor para qualquer tipo de uso.
A princípio, a ideia era a de que o volume de informação crescera tanto
que a quantidade examinada já não cabia na memória de processamento dos
computadores; por isso, os engenheiros tiveram de aprimorar os instrumentos
que utilizavam para a análise.
Uma maneira de pensar na questão hoje é: big data se refere a
trabalhos em grande escala que não podem ser feitos em escala menor, para
extrair novas ideias e criar novas formas de valor de modo que alterem os
mercados, as organizações, a relação entre cidadãos e governos etc. Mas isso
é apenas o começo. A era do big data desafia a maneira como se vive e se
interage com o mundo. Mas o mais importante é que a sociedade precisará
conter um pouco da obsessão pela causalidade e trocá-la por correlações
simples: sem saber o porquê, apenas o quê.
No big data, os dados podem revelar aspectos que não se imaginavam
possíveis e, portanto, não eram buscados, gerando conhecimento novo e
inédito para quem tiver disposição e instrumentos para obtê-lo. O grande
desafio está em como utilizar os dados como matéria-prima dos negócios,
criando assim uma nova forma de valor econômico.
Para Mayer-Schonberger e Cukier (2013), big data refere-se à
capacidade de uma organização obter informações de novas formas, com o
objetivo de gerar ideias úteis e bens e serviços significativos. Em seu livro “Big
Data: como extrair volume, variedade, velocidade e valor da avalanche de
30
informação cotidiana”, Os autories afirmam não haver definição rigorosa para o
termo, embora tragam uma forma de definir big data.
Não há uma definição rigorosa para o termo. [...] Uma
maneira de pensar na questão hoje – a que usamos nesse livro – é:
big data se refere a trabalhos em grande escala que não podem ser
feitos em escala menor, para extrair novas ideias e criar novas formas
de valor de maneira que alterem os mercados, as organizações, a
relação entre cidadãos e governos, etc. (MAYER-SCHONBERGER E
CUKIER, 2013, p.54).
O termo big data é usado principalmente para descrever grandes bases
de dados, que, comparadas às bases tradicionais, incluem dados não
estruturados com necessidade de análise em tempo real (CHEN et al., 2014).
Uma definição importante para big data pode ser encontrada no Gartner
IT Glossary (Glossário de Tecnologia da Informação), que define big data como
ativos de informação de grande volume, alta velocidade ou de grande
variedade, que requer formas inovadores e econômicas de processar
informações, permitindo, dessa forma, maior visibilidade, tomada de decisão e
automação de processos.
Mesmo fora da literatura, o conceito não segue uma linha de
pensamento única. De forma geral, o big data fala em tratar grandes volumes
de dados com grande velocidade e a partir de uma variedade de informações
(TAURION, 2014; BROWN, 2013). Outras definições para o termo são
apresentadas no quadro 2, porém, sem rigidez conceitual.
Em essência, big data relaciona-se com previsões. Apesar de ser
descrito como um ramo da ciência da computaçãoo chamado inteligência
artificial e mais, especificamente, uma área chamada “aprendizado de
máquina”, esta ideia é enganosa. Big data não tem a ver com tentar ensinar um
computador a pensar como ser humano (SCHONBERGER R CUKIER, 2013).
Big Data trata-se de aplicar a matemática a enormes quantidades de
dados a fim de prever probabilidades. Esses sistemas funcionam porque são
31
alimentados por enormes, quantidades de dados, que formam a base das
previsões (SCHONBERGER R CUKIER, 2013).
Quadro 2 – Definições de big data.
Fonte: FREITAS JUNIOR, et al, 2016.
De acordo com Mayer-Schonberger (2013), com a informação, assim
como na física, o tamanho importa. Desse modo, ao combinar centenas de
bilhões de termos de busca, o Google mostrou ser capaz de identificar o
surgimento de um surto de gripe quase tão bem quanto os dados oficiais com
base nos pacientes que visitam o médico – e pôde gerar uma resposta quase
em tempo real, muito mais rápido que as fontes oficiais. Do mesmo modo,
pode-se prever a volatilidade do preço de uma passagem de avião e, assim,
dar um poder econômico significativo para os consumidores. Mas ambos só
conseguem isso pela análise de centenas de bilhões de dados.
Esses dois exemplos mostram o valor científico e social do big data,
assim como a medida em que eles podem se tornar fonte de valor econômico.
Os exemplos marcam duas maneiras pelas quais o mundo do big data
Autores Definições
Kim, Trimi, e Ji-Hyong (2014)
Trata-se de um termo geral para a enorme quantidade de dados digitais coletados a partir de todo os tipos de fontes
Mahrt e Scharkow (2013)
Denotam um maior conjunto de dados ao longo do tempo, conjunto de dados estes que são grandes demais para serem manipulados por infraestruturas de armazenamento e processamento regulares
Davenport (2012) e Kwon (2014)
Dados demasiadamente volumosos ou muito desestruturados para serem gerenciados e analisados através de meios tradicionais
Di Martino et al. (2014)
Refere-se ao conjunto de dados cujo tamanho está além da habilidade de ferramentas típicas de banco de dados em capturar, gerenciar e analisar
Rajesh (2013)
São conjuntos de dados que são tão grandes que se tornam díficeis de trabalhar com o uso de ferramentas atualmente disponíveis
Mahrt e Scharkow (2013)
Denotam um maior conjunto de dados ao longo do tempo, conjuntos de dados estes que são grandes demais para serem manipulados por infraestruturas de armazenamento e processamento regulares
32
está, de fato, mudando os negócios, às ciências e saúde, governo, educação,
economia, ciências humanas e todos os demais aspectos da sociedade.
Apesar de estarmos apenas nos primórdios do big data, ele é usado
diariamente. Filtros antispam são projetados para se adaptarem
automaticamente às mudanças dos tipos de lixo eletrônico. Sites de namoro
formam pares com base em como suas várias características correspondem às
de relacionamentos anteriores. O corretor automático dos smartphones analisa
nossas ações e acrescenta novas palavras a seus dicionários com base no que
é escrito.
Em um primeiro momento, big data se confunde com volume de dados
gerados; no entanto, não se trata apenas da dimensão volume, mas também
da variedade de dados não estruturados, dentro e fora das empresas, que
precisam ser validados para adquirirem veracidade e tratados em velocidade
adequada para obterem valor para o negócio.
Para Taurion (2013), volume é com certeza uma das fortes
características que define esse fenômeno de big data, porém, para
complementar a composição, ele sugere ainda a existência de mais duas
características fortes: variedade e velocidade. Esses três Vs formam a mais
básica estrutura que irá compor a área de big data.
Segundo Taurion (2013), apenas a companhia Google processa sozinha
mais de 24 pentabytes de dados por dia e o Facebook faz upload de pelo
menos 10 milhões de novas fotos a cada hora. Sendo assim, os dados de hoje
vêm em todos os tipos de formato, sendo gerados milhões de dados por
segundo e vindo de diversas fontes, implicando nas dimensões velocidade e
variedade.
Com a constante evolução da tecnologia, o aumento dos limites de
armazenamento e tratamento de dados também crescem; hoje, os números
são gigantescos, tendendo a expandir geometricamente. Isso permite às
empresas não trabalharem apenas com as pesquisas tradicionais e com dados
33
transacionais, mas também com dados gerados pelas pessoas, de forma
espontânea, fora das corporações, por exemplo, nas mídias sociais e
aplicativos. No quadro 3 um resumo de outras definições de big data.
Quadro 3 – Outras definições de big data.
Fonte: ANTONIUTTI, CLEIDE, et al, 2016.
Originalmente, big data se caracterizava por 3Vs (volume, velocidade e
variedade. Os 3Vs foram apontados por Doug Laney, em 2001, em um relatório
do Meta Group, grupo que foi adquirido pela Gartner em 2005. Nesse relatório,
Laney (2001) identifica três grandes desafios da gestão de dados: volume,
velocidade e variedade, que atualmente são amplamente utilizados na
definição de big data (GANDOMI; HAIDER, 2015).
Autores Definições
Cavalcanti (2015)
As pessoas, equivocadamente, associam Big Data apenas à grande quantidade de dados digitais hoje disponíveis. Na verdade, a maior riqueza do Big data vem da variedade (diversidade) de dados. São dados transacionais, das redes sociais, gps… e dos assuntos os mais variados. Costumamos dizer que Big data está associado a 4 “V”s: volume (quantidade), variedade (diversidade), veracidade (são dados coletados on line, na hora que estamos fazendo algo; não é uma “pesquisa” onde perguntamos coisas às pessoas) e velocidade (os dados estão imediatamente disponíveis na nuvem)
Brown (2014) Big data é volume, velocidade, variedade. Então significa que você tem uma ou mais dessas três coisas
Costa (2015) Big data é um ecossistema, que se alimenta e retroalimenta de dados o tempo todo, de dados que estão digitalizados ou não e dos quais se têm a necessidade de tirar valor
Taurion (2014)
Resumindo o que é Big Data em uma simples fórmula para conceitualizá-lo: Big Data = volume + variedade + velocidade + veracidade, tudo agregado + valor
Moura (2015)
Teoricamente é aglutinar diversas informações em diversas fontes em um único depositório. Seria a manutenção, a orientação e o enriquecimento de um banco de dados de diversas fontes. Na prática isso é feito por meio de um depositório seja em nuvem, ou seja, de um depositório próprio que utiliza todas essas informações
Guerreiro (2014)
Big data se refere à necessidade de uma organização lidar com dados que, para serem analisados e gerarem resultados, demandam capacidade muito além daquela de que a empresa dispõe, seja com relação ao volume (mais comum), velocidade de tratamento ou variedade de formatos
Lima Júnior (2014)
Big data é conjunto de dados (dataset) cujo tamanho está além da habilidade de ferramentas típicas de banco de dados em capturar, gerenciar e analisar
34
Pouco tempo depois, as características do big data passaram a ser
descritas como os 4Vs: volume, variedade, velocidade e valor. Esses quatro Vs
foram amplamente reconhecidos, já que enfatizam o significado e a
necessidade do big data. Essa definição indica o problema mais crítico do big
data, que é como descobrir valor de base de dados em grande escala, vários
tipos e rápida geração. (CHEN et al., 2014).
Mais recentemente, a veracidade dos dados passou a ser considerada
também tão importante quanto o volume.
Quadro 4 – 5 Vs do big data.
Fonte: TELXPERTS (2016), adaptado pela autora.
a. Volume: Esse V sugere que a quantidade de dados disponível
para as organizações está crescendo exponencialmente e as
fontes de dados estão aumentando em número e conteúdo
gerado por elas. Também reflete a tendência de analisar grandes
porções de dados, ao invés de pequenas amostras, para capturar
mais valor, alguns argumentam (SAS, 2012);
b. Velocidade: refere-se à velocidade de capturar dados em tempo
real e à necessidade de processá-los rapidamente em tempo real;
c. Variedade: destaca a importância de dados não estruturados
(texto, áudio, blogs, micro blogs, etc.), ao longo de dados
tradicionais e transacionais;
d. Veracidade: Um em cada 3 líderes não confiam nos dados que
5 Vs do Big Data
Volume Velocidade Valor Veracidade Variedade
• Terabytes
• Registros
• Transações
• Tabelas, Arquivos
• Lotes
• Tempo real
• Processos
• Transmissão
• Estatístico
• Eventos
• Correlações
• Hipóteses
• Confiabilidade
• Autenticidade
• Origem,
Reputação
• Responsabilidade
• Estruturado
• Não-Estruturado
• Multiplas fontes
• Probabilidade
35
recebem (IBM, 2015). Para colher bons frutos do processo do big
data é necessário obter dados verídicos. O conceito de
velocidade, já descrito, é bem alinhado ao conceito de veracidade
pela necessidade constante de análise em tempo real, isso
significa, que os dados condizem com a realidade daquele
momento, pois dados passados não podem ser considerados
dados verídicos para o momento em que é analisado. A
relevância dos dados coletados é tão importante quanto o primeiro
conceito. A verificação dos dados coletados para adequação e
relevância ao propósito da análise é um ponto chave para se obter
dados que agreguem valor ao processo. (TAURION, 2013);
e. Valor: Quanto maior a riqueza de dados, mais importante é saber
realizar as perguntas certas no início de todo processo de análise
(BROWN; ERIC, 2014). É necessário estar focado para a
orientação do negócio, para o valor que a coleta e análise dos
dados trará para o negócio. Não é viável realizar todo o processo
de big data se não se tem questionamentos que ajudem o negócio
de modo realístico. Da mesma forma é importante estar atento
aos custos envolvidos nessa operação. O valor agregado de todo
esse trabalho desenvolvido, coleta, armazenamento e análise de
todos esses dados tem que compensar os custos financeiros
envolvidos (TAURION, 2013).
Apesar de não haver consenso sobre a definição de big data, o lugar
comum converge para os 3Vs propostos por Laney (2001): volume, velocidade
e variedade. Dadas as definições, grandes mudanças decorreram do novo
poder analítico e foram abordadas e aprofundadas por Mayer-Schonberger e
Cukier em 2013.
O quadro 5 apresenta um resumo da definição dos 5 Vs de big data.
36
Quadro 5 – Definição 5 Vs.
Fonte: FREITAS JUNIOR, et al, 2016. Adaptado pela autora.
Mayer-Schonberger e Cukier (2013) apontam três grandes mudanças,
que representam quebras significativas de paradigma: a primeira delas é de
que a necessidade de amostragens se deve à época em que informação era
algo escasso; a segunda é de que a obsessão por dados corretos e a
preocupação com a qualidade integral dos dados se devia ao fato de a
disponibilidade de dados ser limitada, sendo assim, era crucial garantir a
qualidade dos pequenos dados disponíveis; a terceira delas é o abandono da
busca pela causalidade e o contentamento com a descoberta do fato em si e
não buscar explicações ou motivos que levaram a ele.
Para a primeira grande mudança, o argumento permeia a definição de
big data como grande em termos relativos e não absolutos. Os autores
remontam a inviabilidade e altos preços de se estudar um universo em sua
integralidade e reforçam o fato de que, atualmente, alguns segmentos coletam
o máximo de dados possível (MAYER-SCHONBERGER e CUKIER, 2013).
A segunda grande mudança refere-se à obsessão por dados corretos,
que complementam a primeira mudança: a disponibilidade de dados. Antes,
tínhamos dados limitados, então era muito importante assegurar a qualidade
Atributos Definição
Volume Magnitude relacionada a quantidade de dados a serem processados
Variedade Estrutura heterogênea encontrada em bases de dados
Velocidade Taxa na qual é gerado os dados assim como a rapidez que necessitam ser processados e
analisados
Veracidade Nível de confiança que pode ser atribuído aos dados recebidos direto da fonte
Valor Potencial financeiro que a organização pode conseguir através do uso de técnicas de Big
Data
37
integral desses dados, além da própria limitação tornar possíveis tantos
tratamentos. Nas palavras dos autores, “o aumento da quantidade de dados
abre portas para a inexatidão”. Para os autores, “big data transforma os
números em algo mais ‘probabilístico’ que exato”. (MAYER-SCHONBERGER;
CUKIER, 2013, p. 62). Para corroborar esta ideia, Helland (2011) afirma que,
“quando se ganha escala, perde-se precisão”.
Por fim, a terceira e grande mudança na era do big data é que as
previsões com base em correlações estão na essência do big data. Isso quer
dizer que big data lança análises não causais, de forma a transformar o modo
pelo qual entendemos o mundo. Para os autores, a mentalidade mudou sobre
como os dados poderiam ser utilizados (MAYER-SCHONBERGER; CUKIER,
2013).
Para Mayer-Schonberger; Cukier (2013), os sistemas e o avanço das
tecnologias tornam o big data possível, mas, “em essência, o avanço rumo a
big data é uma continuação da antiga busca da humanidade por medir,
registrar e analisar o mundo”.
Os principais conceitos para o entendimento do big data abrangem os
princípios modernos da análise quantitativa de dados, a chamada Analítica,
definições e tecnologias do big data, o papel e habilidades do profissional do
momento, o cientista de dados.
Para explorar e analisar a grande quantidade de dados, um relatório da
McKinsey Global Institute projetou que os Estados Unidos, por exemplo,
precisarão de 140 mil a 190 mil trabalhadores com experiência “analítica
profunda” e 1,5 milhão de gerentes mais alfabetizados em dados, treinados ou
contratados.
2.4 ANALÍTICA
Para melhor compreensão acerca da definição do big data, faz-se
necessário entender as raízes da análise quantitativa de dados, também
38
chamada de Analítica. Davenport at al. (2014) define a Analítica como:
“Analítica significa o uso amplo de dados, de análise estatística e quantitativa,
de modelos explanatórios e preditivos e de gestão fatual para orientar decisões
e agregar valor.” Ele afirma ainda que é necessário que estes dados sejam
explorados com vistas à melhor tomada de decisão ou a falta desta análise fará
com que os gestores sejam pegos de surpresa por questões que poderiam ter
sido previstas.
De acordo com Taurion (2012), vivemos uma nova revolução industrial e
já é consenso que dados são os recursos naturais dessa revolução. Na atual
sociedade industrial, ter apenas recursos naturais como minério e exportá-los
de forma bruta, importando em troca produtos manufaturados, não garante a
competitividade de um país no longo prazo. O importante é a tecnologia e o
conhecimento que criam produtos manufaturados. Dados passam a ser ativos
corporativos importantes e, como tal, podem e deverão ser quantificados
economicamente.
Mas antes de fazer qualquer utilização dos dados, é essencial entender
a proposta ampla da análise de dados e a real razão para utilizar esse recurso.
É importante ter um objetivo claro: criar inteligência de dados ou data
intelligence. Inteligência de dados é um termo amplo que descreve as
percepções reais e significativas que podem ser extraídas a partir de seus
dados. Os tipos de inteligência de dados necessários para resolver um
problema específico podem variar. E podem até ser colocados numa escala de
dados de QI – quociente de inteligência, conforme diagrama da figura 2.
39
Figura 2 – Data IQ.
Fonte: DAVIS SENIOR, 2014, adaptado pela autora.
a. Resposta a questões feitas anteriormente – relatórios estáticos se
enquadram nessa categoria – são os mais baixos na escala de
dados. Respostas obsoletas que ainda são imprecisas seriam
menor ainda;
b. Os painéis exibem a resposta a uma pergunta pedida e atualiza a
resposta em tempo real. Mas se deve saber a pergunta certa a
fazer em primeiro lugar, e eles são muito inflexíveis;
c. Outliers (valor discrepante) podem ser detectados e analisados
para identificar oportunidades e avisos. No mínimo, eles são
interessantes e oferecem uma ideia melhor do que os seus dados
representam;
d. Correlações podem ser detectadas e reportadas para encontrar os
O que já era conhecido
O que ainda não era conhecido
Irrelevante
Impactante
Painel
• Relatórios Estáticos
• Predições
Detecção de outlier
• Alerta em tempo real
Correlações
Data IQ
40
pontos de pressão-chave que podem ser manipulados para mudar
e controlar tendências e padrões;
e. Previsões podem ser úteis, mas são muitas vezes limitadas por
dados e pela imprecisão. Se alimentado com os dados
adequados, no entanto, elas podem ser extremamente poderosas;
f. O reconhecimento de padrões é um termo mais amplo que inclui
algumas outras ideias: é geralmente uma combinação de
detecção de outlier, informações correlacionadas, e por vezes
mesmo as previsões. Mas eles são muito poderosos, e são
usados para alertar os usuários para o movimento e direção em
seus negócios e da base de clientes.
Davenport at al. (2014) defende que todos, sem distinção, em uma
organização, saibam usar a Analítica em maior ou menor grau. No lugar de
confiar nos instintos, é necessário munir-se de dados para compreender melhor
os resultados e usá-los para melhorar o desempenho da organização.
Apesar de hoje as organizações poderem armazenar grandes
quantidades de dados, o tempo de processamento tornou-se excessivo porque
ambientes de armazenamento tradicionais não são propícios para análises
proativas. Quando a quantidade de dados chega a um ponto em que o tempo
de processamento torna-se inaceitável, pode-se estar lidando com grandes
quantidade de dados ou big data, mas também pode-se estar lidando com um
grande problema de análise.
Para entender melhor a diferença, a empresa SAS criou um gráfico com
análises reativas e análises proativas no eixo Y e o tamanho dos dados no eixo
X, conforme apresentado na figura 3.
41
Figura 3. Dimensão do banco e capacidade analítica
Fonte: DAVIS SENIOR, 2014, adaptado pela autora.
Estes quatro tipos de soluções de software estão disponíveis no
mercado analítico para ver como eles podem abordar diferentes tipos de
problemas analíticos.
a. Business Intelligence (BI): quando se lida com grande quantidade
de dados e fornecendo recursos de relatórios para usuários finais
para que eles possam acessar os dados, resumir, e detalhá-los,
está-se lidando com aplicações de inteligência. Essas soluções
fornecem às pessoas uma análise profundamente do
desempenho passado da organização. Isso é BI, por definição.
(Veja o quadrante inferior esquerdo na figura 3.);
b. Big Data BI: refere-se a quando os dados aumentam e se está
lidando com fontes de dados externas ou puxando dados não
estruturados, nota-se que os problemas de dados também
aumentam. Por exemplo, pode demorar muito tempo para obter
BIG ANALYTICS BIG DATA ANALYTICS
BI BIG DATA BI
CA
PAC
IDA
DE
AN
ALÍ
TIC
A
TAMANHO DO BANCO
Pro
ativ
o R
eativ
o
Grande Big Data
42
as informações necessárias, ou pode ser impossível combinar
fontes de dados suficientemente rápido para cumprir prazos de
relatórios;
c. Big Analytics: é preciso um tipo diferente de análise para permitir
a frente da tomada de decisão. Se se estiver olhando as
preferências do cliente, otimizações ou previsões de fraude,
também é necessário um tipo de arquitetura diferente. Esses
“problemas” geralmente envolvem tamanho crescente de dados e
análises proativas. Para questões que precisam ser abordadas
hoje, há a necessidade de respostas em segundos ou minutos, o
que requer grandes análises e soluções. (Veja o quadrante
superior esquerdo da figura 3.);
d. Big Data Analytics: agora, quando a análise tratar de muitos
dados e estiver lidando com tomada de decisão proativa, as
empresas de varejo, por exemplo, podem tem centenas de
milhões de skus (Stock Keeping Unit) em várias lojas de varejo.
Os fabricantes e seguradoras também podem estar olhando para
futuras fontes de dados. Da mesma forma, os fabricantes podem
desejar prever problemas de segurança antes de afetarem
clientes e companhias de seguros.
Esses são exemplos de situações em que as empresas enfrentam
verdadeiramente big data e big data analytics – um tipo de solicitação nova. A
resolução de questões como essas exige grandes análises de dados.
Para Gartner (2014), a capacidade analítica pode ser classificada em
quatro tipos, conforme demonstra a figura 4.
43
Figura 4. Quatro tipos de capacidade analítica.
Fonte: GARTNER, 2014, adaptado pela autora.
A analítica descritiva abrange a coleta, organização, tabulação e
apresentação dos dados, ela tem como objetivo descrever os fatos, porém, não
os explica. Já a analítica preditiva utiliza dados do passado para realizar
previsões sobre o futuro, pela associação entre as variáveis e cálculo da
probabilidade dos fenômenos. A analítica prescritiva realiza sugestões de
ações a serem tomadas e resolve problemas de otimização (DAVENPORT,
BARTH et al, 2014).
A analítica diagnóstica não foi explicitada por Davenport et al (2014),
porém, é possível inferir seu papel dentro do universo analítico: a busca de
explicações causais (motivos) para a ocorrência de determinado evento no
processo de análise. Cada tipo de analítica engloba uma série de técnicas e
ferramentas para a análise dos dados. Delloite (2015) detalha essas técnicas
em um quadro resumido, que poder ser observado na figura 5.
Dados Decisão Ação
Analítica Ação Humana
Apoio a decisão
Automatização da decisão
Descritiva O que aconteceu?
Diagnóstica Por que aconteceu?
Preditiva O que irá acontecer?
Prescritiva O que devo fazer?
44
Figura 5. Estágios da Analítica.
Fonte: DELOITTE. 2015, adaptado pela autora.
Na figura 5, é possível observar como o avanço das técnicas aplicadas à
análise de dados se relacionam com os objetivos analíticos descritos na
primeira coluna da figura: hindsight, insight e foresight.
As análises mais básicas encontram-se na base da figura 5, hindsight,
em que se aborda uma análise descritiva e preocupa-se com a análise
retrospectiva do objeto estudado, limitando-se em entender o que aconteceu.
Neste tipo de análise, a influência humana é dominante, como pode ser
observado na figura 4.
Passando para o segundo momento da Analítica, percebe-se a
preocupação maior com o que pode acontecer. Agora, um grau maior de
sofisticação das técnicas é aplicado, embora a ação humana seja bastante
representativa.
Finalmente, em estágio mais avançado, percebe-se a preocupação
prescritiva. O objetivo, nesse momento, é definir que ações tomar no presente
para impactar resultados futuros. Cruzando essa informação com a figura 4,
Utiilização de regras dinâmicas
Simulação e modelagem
Análises quantitativas
Modelos de previsão avançados
Alertas em tempo real
Papéis baseados em métricas de desempenho
Relatórios gerenciais com drill downs
Gestão de dados corporativos
Aprendizagem de máquina
Descritiva
Preditiva
Prescritiva
Hindsight
Insight
Foresight
SOFISTICAÇÃO
45
nesse estágio, já não há influência humana e basicamente as decisões
decorrem de algoritmos.
Nessa última etapa da Analítica, enquadra-se o que hoje é um dos
maiores fenômenos tanto no meio acadêmico e profissional: o big data. No
estágio mais avançado da Analítica, o big data engloba as técnicas analíticas
mais sofisticadas, com pouca intervenção humana, que requerem a utilização
de tecnologias igualmente avançadas.
As técnicas de análise do big data envolvem uma série de disciplinas,
incluindo estatística, mineração de dados, aprendizagem de máquina, redes
neurais, análise de redes sociais, processamento de sinais, reconhecimento de
padrões, métodos de otimização e abordagens de visualização (CHEN at al,
2014).
Conforme sugerem Gandomi e Haider (2015), a Analítica encontra-se no
final da cadeia de processos do big data, conforme figura 5, como visto
anteriormente nas figuras 3 e 4, em seu grau mais elevado de sofisticação e
com pouca ou nenhuma interferência humana. Essa etapa é chamada de Big
Data Analytics.
O potencial do Big Data Analytics é percebido quando o processo de
tomada de decisão é alavancado pelo uso. Cada vez mais, as empresas estão
buscando meios eficientes de transformar grandes e variados volumes de
dados em poderosos insights. Desta forma, Labrinidis e Jagadish (2012)
consideram cinco fases principais como base para uso do big data no processo
de tomada de decisão, sendo estas fases subdivididas em dois grupos: Data
Management e Analytics.
Na figura 6, essas fases são apresentadas em seus respectivos grupos:
46
Figura 6. As 5 fases principais do big data.
Fonte: GANDOMI et al., 2015, adaptado pela autora.
Para Gandomi et al. (2015), Data Management envolve as etapas de
aquisição e armazenamento de informações que vão antecipar a transformação
dos dados, removendo inconsistências e estruturando a base para ser utilizado
na preparação de modelos e análises.
No caso de Analytics, o mesmo autor define como sendo técnicas
usadas para analisar os dados de forma a extrair insights que possam ser
utilizados para gerir os negócios de forma mais inteligente. Esse último é onde
encaixa-se o termo Big Data Analytics.
De acordo com a Gartner (2014), Big Data Analytics é uma prioridade
para grandes negócios obterem vantagem competitiva, impelidos pela
necessidade de tornarem mais acessíveis esses tipos de análises avançadas,
assim como expandir o suporte a tomada de decisão. Segundo essa
consultoria, o segmento de Big Data Analytics é um dos grandes mercados
crescentes, superando a marca de um bilhão de dólares já em 2013.
Aquisição e Armazenamento
Extração e limpeza
Integração, agregação e
carregamento
Modelagem e análise Interpretação
Data Management Analytics
Fluxo Big Data
47
2.5 TERMOS IMPORTANTES RELACIONADOS
Mineração de Dados ou Datamining: definido como a extração de
conhecimento de grandes quantidades de dados (HAN et al. 2012). Linoff &
Berry (2011) têm uma definição similar com ênfase na parte operacional da
mineração de dados, ao declará-la como um processo do negócio. A
mineração de dados e a descoberta do conhecimento para dados são
normalmente usados como sinônimos. Outros usam o termo mineração de
dados como um passo no processo da descoberta do conhecimento, que é
quando se refere aos métodos inteligentes usados para extrair insights e
padrões a partir dos dados. A mineração de dados também pode ser vista
como um passo no big data analytics; é preditiva e os algoritmos descritivos
são citados normalmente em textos esclarecendo as oportunidades possíveis
com o big data analytics.
O datamining é um conjunto de técnicas reunidas da estatística e da
inteligência artificial com o objetivo específico de descobrir conhecimento novo,
que porventura esteja escondido em grandes massas de dados armazenadas
em bancos de dados, e encontrar uma relação nova entre os dados que não
são perceptíveis sem as técnicas adequadas (BARBIERI, 1990).
As ferramentas da ciência dita datamining são antigas conhecidas dos
pesquisadores da ciência da computação, e já há muito utilizadas no meio
acadêmico e empresarial gerador de tecnologia.
A popularização dessas ferramentas e a sua nova designação pelo
nome mineração de dados devem-se a vários fatores, entre os quais se podem
citar a competitividade empresarial e a disponibilidade de grandes massas de
dados armazenados em forma digital. O conhecimento gerado a partir desse
processo é utilizado por profissionais de diversas áreas: estatísticos, governo,
medicina, segurança e marketing.
De acordo com Carvalho (2005), a metodologia do datamining pode ser
realizada de três diferentes formas: (a) descoberta não supervisionada de
48
relações (se nada se sabe sobre o comportamento dos fenômenos), (b) teste
de uma hipótese (quando se possui algum conhecimento sobre o campo de
atuação) e (c) modelagem de dados (quando se tem maior conhecimento da
área e da relação que deseja estudar) (BARBIERI, 2009).
Armazenamento de dados é o processo de captar dados e coletá-los de
fontes diferentes para torná-los disponíveis para recuperação on-line (FAYYAD
et al. 1996). No processo, os dados são extraídos de sistemas operacionais,
transformados, limpos, agregados, carregados e resumidos em um repositório
para processamento (BONTEMPO; ZAGELOW 1998). O armazém de dados
(figura 7) ajuda a simplificar os sistemas de suporte de decisão e devem
representar, idealmente, um ponto de verdade único sobre dados de
organizações. O data mart é um subconjunto do armazém de dados acessado
normalmente por uma determinada área ou linha de negócios.
Figura 7: Infraestrutura do armazém de dados.
Fonte: REIS, 2015, adaptado pela autora.
Reports Reports
Reports
Vendas
SCM
ERP
Externos
ETL DWH Relatórios
Data Mart Relatórios
Data Mart Relatórios
Data Mart Relatórios
Data Mart Relatórios
49
2.6 RISCOS DO BIG DATA
A importância do big data não gira em torno da quantidade de dados
disponível, mas em torno do que se faz com eles. Dados de qualquer fonte
podem ser analisados para encontrar respostas que permitam 1) redução de
custos, 2) redução de tempo, 3) desenvolvimento de novos produtos e ofertas
otimizadas, 4) decisões mais inteligentes. Quando o big data é combinado com
a alta potência do analytics, são viabilizadas tarefas relacionadas a negócios,
tais como:
a. Determinar a causa raiz de falhas, problemas e defeitos em tempo
quase real;
b. Gerar cupons no ponto de venda com base em hábitos de compra
dos clientes;
c. Recalcular carteiras de risco inteiras, em questão de minutos;
d. Detectar comportamentos fraudulentos antes que afetem sua
organização.
Em 2012, a Pew Internet Research publicou um artigo, que resume um
estudo com centenas de pesquisadores e especialistas sobre os impactos,
positivos ou negativos que o big data poderá ocasionar nas empresas, pessoas
e sociedade nos próximos anos. O crescimento do volume e variedade de
dados é imenso e a velocidade de geração de novos dados está se acelerando
rapidamente. Dados já começam a ser parte tão importante da economia como
trabalho e capital (TAURION, 2013). A pesquisa foi realizada a partir de uma
parceria com o Centro para a Imaginação da Internet da Universidade de Elon,
onde foram entrevistados 1.400 pensadores de tecnologia.
Muitos dos pensadores acreditam que a internet será usada para novas
violações de privacidade por parte do governo, haverá mais monitoramento e
queda da confiança, além de um “esmagamento” da criatividade causado pelo
controle das grandes companhias. Os especialistas acreditam ainda em
ameaças causadas pela personificação do conteúdo, que tenderá a limitar a
50
sobrecarga de informação, mas, em contrapartida, será responsável por acabar
com descobertas ocasionais feitas na rede.
Segundo Lee Rainie, diretor do Pew Internet Center e coautor do estudo,
quando questionados sobre as oportunidades e ameaças do conteúdo livre na
internet, os especialistas foram pessimistas, com uma “sensação mais palpável
de temor” sobre a relação na web, afirma. O grupo inicialmente se mostrava
otimista, no entanto, quando questionado sobre as principais ameaças ao
acesso, compartilhamento e conteúdo na internet, mudou suas visões (HARDY,
2014).
No relatório, a palavra “ameaça” é repetida 57 vezes, enquanto
“esperança” e variáveis positivas surgem apenas 12 vezes. As palavras
“corporativa” e “corporação” são mencionadas 31 vezes, no entanto, apenas
uma vez é empregada de forma positiva. Nos relatórios anteriores divulgados
pela Pew Research, especialistas tinham previsto uma internet onipresente,
enquanto outro estudo apontava implicações da internet das coisas – ambos
mais otimistas que a atual divulgação.
Mesmo com as ideias negativas do novo relatório, o clima em que ele foi
realizado influenciou suas conclusões. Ele foi produzido entre novembro de
2013 e janeiro de 2014, período em que as revelações de Edward Snowden -
o analista de sistemas, ex-administrador de sistemas da CIA e ex-contratado
da NSA que tornou públicos detalhes de vários programas que constituem o
sistema de vigilância global da NSA americana - estavam fortemente
presentes nos noticiários, o que, para Rainie, influenciou a opinião dos
especialistas consultados. (ANDERSON; RAINIE, 2014).
O medo de que companhias dominem o ambiente online para geração
de lucro a partir do tempo ocioso dos usuários, faz parte, segundo Rainie, de
uma tendência de “preocupação crônica sobre a comercialização de tudo on-
line”.
51
As revelações de Snowden, por mais relevantes, não mudaram a forma
como as pessoas se relacionam com a internet. Dessa maneira, acredita-se
que elas tenham influenciado mais diretamente o modo como os especialistas
olham para a questão. Entre os entrevistados, a maioria se declarou norte-
americana, portanto, essa visão também pode ser diferente em outros locais
(HARDY, 2014).
2.7 USOS E APLICAÇÕES DO BIG DATA
O trabalho com big data vem ganhando cada vez mais espaço em
campos como comunicação e tecnologia, impulsionado principalmente pela
produção de dados e informações em larga escala, pela sua disponibilidade na
internet e pelo aumento das ferramentas para extração e análise desses dados.
Raquel Recuero (2012) observa que há uma gama de pesquisadores de todo o
mundo interessado no que parece ser a grande novidade em termos de dados,
proporcionada principalmente pelo advento das ferramentas de comunicação
mediada por computador.
Chad Gaffield dedicou-se, nos últimos anos, aos estudos de dados, mais
especificamente do big data. “Nos negócios o foco começou a mudar do
produto para o consumidor. Hoje, empresas querem saber o que as pessoas
querem, os produtos são ‘useroriente’ (orientado ao usuário) e os serviços
buscam entender como o usuário pensa”, declara, ao citar previsões sobre
como o conhecimento sobre o homem pode contribuir para vida em sociedade.
No trabalho, as empresas terão o dever de compreender seus
empregados. Assim como os políticos, cada vez mais, terão que entender
quem é o cidadão. Na educação, por 200 anos, não se preocuparam em
entender como as pessoas aprendem. Sabemos hoje que transmitir
conhecimento unilateralmente nem sempre é o melhor jeito de aprender. Na
saúde, ouvir o médico era a principal fonte de informação, hoje a saúde é sobre
o paciente e não mais sobre a doença (GAFFIELD, 2013).
52
Todo esse interesse é resultado direto de uma época em que a
humanidade se encontra cada vez mais conectada, o que nos permite ter
informações sobre outros como nunca antes. O aspecto mais distinto sobre o
big data deve ser esse: o fato desses grandes conjuntos de dados serem sobre
a humanidade, sobre pessoas. Para o pesquisador é a partir da análise das
relações entre pessoas que poderemos entender como as mudanças
acontecem na sociedade. (GAFFIELD, 2013).
Da mesma forma, cientistas como Stephen Wolfram e laboratórios como
o MIT Connection Science propõem uma integração da teoria de redes,
computação e ciências comportamentais para apontar novos modelos de fluxo
de informação e influência em redes sociais, sejam elas digitais ou não.
Barabasi (2002), considerado uma das maiores referências mundiais no estudo
de redes complexas, foi o primeiro a utilizar dados digitais para tentar
compreender o comportamento das pessoas na internet.
Ao encontrar padrões em rastros de navegação, concluiu que redes
complexas possuem propriedades e que essas propriedades podem ser
aplicadas no conhecimento e gestão de outros sistemas complexos como um
organismo, uma célula ou a própria sociedade. Sobre isso, Costa e Cavalcanti
(2014) abordam que, nos últimos quatro séculos, o método científico foi usado
para construir o conhecimento.
Para esses autores, a ampliação do conhecimento científico nos leva ao
desafio de que conhecemos as mínimas partes de todo sistema que
estudamos, mas temos cada vez mais problemas sem solução. Dessa forma,
eles entendem que a Ciência das Redes traz novo oxigênio ao campo das
ciências, complementando o método cientifico reducionista que chegou ao seu
limite. “Conhecer as partes nos possibilitou muito conhecimento e inovação,
mas garantiu a solução apenas daqueles problemas que têm a sua gênese no
entendimento das partes do sistema, e não na relação entre estas partes”
(COSTA; CAVALCANTI, 2014).
53
Não são poucas as pesquisas em âmbitos acadêmicos que têm se
dedicado a entender e analisar o grande volume de dados que a humanidade
vem gerando nos últimos anos e que têm se mostrado como um grande desafio
não somente para o mercado, mas também para a ciência.
Alguns estudos, como se observou, valem-se da terminologia big data e
outros preferem usar dados digitais. Recuero (2012), por sua vez, cita os
estudos do Axel Bruns, na Austrália, que tem usado big data para entender o
comportamento das pessoas nas mídias sociais em momentos de crise (por
exemplo, durante um desastre) e tentando aprender com isso como criar
estratégias para lidar com essas crises. Ele também tem estudado como as
mídias sociais (o que as pessoas falam na internet, basicamente) têm a ver
com as audiências feitas nas redes, tentando entender um pouco melhor o
comportamento desses públicos.
Outros estudos usando big data em análise de mídias, podem ser
apontados a partir das experiências internacionais, como as citadas por
Ronaldo Cristiano Prati (2014). O sistema Lydia, desenvolvido por Lloyd,
Kechagias e Skiena (2005), tem propósito múltiplo e foi usado para detectar
padrões espaciais e temporais de entidades presentes nas notícias, a
comparação de ocorrência dessas entidades entre mídias tradicionais e blogs,
o sentimento associado a essas entidades e a sua correlação com o mercado
financeiro para a previsão de preço de ações.
Esse sistema também foi utilizado nas análises das campanhas
presidenciais americanas de 2008 e 2012. Ali et al. (2011) desenvolveram o
sistema NOAM para coleta e análise automática de notícias. Segundo Prati
(2014), o estudo reportado em Flaounas et al. (2013) descreve ampla pesquisa
com 2,5 milhões de notícias coletadas a partir de 498 diferentes provedores de
98 países e que publicaram textos na língua inglesa por um período de 10
meses. As notícias foram automaticamente classificadas utilizando técnicas de
aprendizado de máquina em 15 categorias diferentes. O objetivo era encontrar
padrões e similaridades no estilo de escrita entre diferentes provedores de
54
notícias, diferenças de gênero no conteúdo das notícias e seu relacionamento
com a popularidade dos artigos.
Além de notícias atuais, o big data também vem sendo aplicado para
analisar arquivos históricos de jornais. Um exemplo é o projeto An
Epidemiology of Information que tem como proposta investigar padrões de
disseminação de informação a respeito da epidemia de gripe espanhola nos
Estados Unidos. De acordo com Prati (2014) os pesquisadores Ewing, Gad e
Ramakrishnan (2013) usaram técnicas de inteligência artificial para estudar o
padrão de cobertura jornalística a respeito dos locais em que focos de gripe
ganhavam a atenção da mídia da época. Posteriormente, Ewing et al. (2014)
estudaram o tom das notícias, classificando-as como alarmistas, de aviso,
explanatórias e tranquilizadoras.
Outro exemplo de pioneirismo nesse campo, envolvendo o
processamento e análise de grandes volumes de imagens na internet, é o
Laboratório Software Studies, da Universidade da Califórnia, criado em 2007
pelo professor e pesquisador Lev Manovich. O pesquisador e sua equipe
desenvolvem ferramentas que possibilitam a visualização e,
consequentemente, a análise de grandes volumes de imagens. O destaque de
suas pesquisas é a criação do ImagePlot, um plugin desenvolvido para um
software chamado ImageJ, que permite a organização de milhares de imagens
em um gráfico único (ou plot), obedecendo a alguns parâmetros pré-
determinados, dentre eles cor, brilho, saturação e tempo.
As pesquisas do Software Studies não possuem tema único, passeando
por entre o campo artístico (comparação entre pinturas de Mondrian e Rocko,
por exemplo) e atingindo análises de dados on-line (como o projeto
Phototrails). Os parâmetros de cor, brilho e saturação que compõem essas
visualizações dão margem às análises que vão desde poder revelar padrões
comportamentais de uma sociedade até observar a variância da evolução de
uma veia artística.
55
Entre os projetos desenvolvidos pelo laboratório está o Phototrails,
idealizado por Nadav Hochman, Lev Manovich e Jay Chow. O objetivo proposto
com esse estudo foi explorar padrões visuais, dinâmicas e estruturas em
escala planetária sobre o compartilhamento de fotos geradas por usuários,
usando uma amostra de cerca de 2,3 milhões de fotos do Instagram, vindas de
13 cidades ao redor do planeta. As teorias formuladas a partir das análises das
visualizações mostram como as mudanças temporais, de localidade e das
características visuais podem revelar comportamentos sociais, culturais e
políticos acerca da atividade das pessoas pelo mundo.
Como mencionado anteriormente, novos tipos de sensores remotos
estão gerando fluxos de dados digitais de telescópios, câmeras de vídeo,
monitores de tráfego, imagens de máquinas de ressonância magnética,
sensores químicos e biológicos do ambiente. Além disso, milhões de indivíduos
estão gerando fluxos de dados pessoais por meio de seus celulares,
computadores, sites e outros dispositivos digitais. Por conta desses fluxos de
dados, o big data representa muitas oportunidades para o progresso
empresarial e da sociedade. Há muitas frentes que podem ser exploradas para
acelerar a descoberta e inovação.
Pessoas podem usar novas ferramentas para ajudar a melhorar sua
saúde e bem-estar, os cuidados médicos podem ser mais eficientes e efetivos.
Os governos também têm grande participação no uso de grandes bancos de
dados para melhorar a entrega de serviço e monitorar ameaças à segurança
nacional.
Esses dados também abrem toda sorte de novas oportunidades
negociais, ajudando as companhias a entender a dinâmica de certas áreas da
vida, como a difusão de doenças, hábitos de consumo, atividade da vida
cotidiana, que terão forte repercussão nas atividades empresariais e do
governo (BOLLIER, 2010).
Para fins de aplicações governamentais, a United Nations Statistics
Division (UNSD) e a United Nations Economic Commmission for Europe
56
(UNECE) (2015) assinalam que a nova arquitetura integrada para produção de
dados também introduzirá inovações para incorporar fontes de dados não
tradicionais, especialmente em relação ao big data, que até então têm sido
subutilizadas na produção de estatísticas oficiais.
Não obstante os seus benefícios potenciais, a adequação de novas
fontes não tradicionais de dados para propósitos oficiais precisa ser examinada
e avaliadas mantendo a qualidade existente e outros requisitos seguidos pelas
práticas estatísticas.
A International Data Corporation (IDC) (2013) apresenta extensa lista de
oportunidades vertentes de negócios e processos em vários segmentos de
mercado e governo:
a. serviços financeiros: prevenção e detecção de fraudes bancárias e
de seguros; avaliação preditiva de danos na indústria de seguros;
análises de reclamações em seguros; integração de dados
transacionais a partir de técnicas de Customer Relationship
Management (CRM), pagamentos com cartões de crédito, transações
e conta e dados não estruturados de redes sociais; avaliação de
exposição de portfólio e riscos; perfis de consumo, foco e otimização
de ofertas para vendas cruzadas; central de atendimento a
consumidores; análises de reputação da marca e de opinião de
clientes; correlação de opiniões em mídias sociais com o retorno de
ações para apoiar decisões de investimento; modelagem de
catástrofes em seguros; gerenciamento do valor do cliente;
b. telecomunicações: otimização de rede; retenção de consumidores
baseada em gravações de atendimentos, contatos e atividades de
assinantes; redução de evasão de clientes; otimização de ofertas por
venda cruzada; prevenção de fraudes; oferta de serviços com base
em localização geográfica; alocação de largura de banda baseada
em padrões de uso;
57
c. meios de comunicação: classificação de consumidores, prevenção de
fraudes, retenção de clientes, otimização de audiência, alocação de
largura de banda baseada no padrão de acesso para vídeo, música e
fluxo on-line oriundo de software de jogos;
d. serviços/óleo e gás: utilização de padrões em tempo real para a
otimização do consumo e definição de preço; análise preditiva;
previsão de carga de distribuição e agendamento; modelagem de
processos operacionais; gestão de desastres; análise de feedback de
consumidores e de gravações telefônicas; pesquisas da exploração
na indústria de óleo e gás; processamento de dados sísmicos;
otimização e vigilância de perfurações;
e. serviços profissionais: gerenciamento de campanhas e programas de
fidelidade; prevenção de crimes e detecção para serviços de
segurança; preços personalizados de viagem; monitoramento de
infraestrutura de TI, manutenção preventiva e gestão de TI; detecção
de violações de segurança e aprendizado de máquina para a criação
de regras na TI;
f. transporte: otimização de logística; análises baseadas na localização
pela utilização de dados de GPS; análise de clientes e fidelidade;
manutenção preventiva; otimização de capacidade e preço;
g. varejo e atacado: leiaute e localização de estoque; otimização da
cadeia de fornecedores; rastreamento via identificação por rádio-
frequência ou radiofrequency identification (RFID); otimização de
preços; análise de comportamento de consumidores; insights práticos
de consumidores, micro segmentação; análise de fidelidade e
promoções; venda cruzada e indução de vendas no ponto de vendas;
otimização de descontos com base nos padrões de consumo do
cliente; análise de cesta baseada na demografia; otimização de
merchandising; prevenção e detecção de fraudes; detecção de
fraudes no comércio eletrônico;
58
h. produção industrial: manutenção preventiva; análise de processos e
qualidade; gestão de garantias; automação da produção; automação
da detecção de efeitos adversos de drogas na indústria farmacêutica;
monitoramento, via sensores, para a manutenção de veículos,
construções e máquinas; monitoramento para otimização do
consumo de energia; análise baseada em localização pelo uso de
dados de GPS; análise de comentários em redes sociais para gestão
de qualidade de veículos; previsão de demandas e planejamento de
fornecimentos; fábrica digital para enxugamento da manufatura;
otimização da distribuição; gerenciamento de qualidade com base em
comentários em redes sociais;
i. setor público: aperfeiçoamento de serviços para cidadãos e
pacientes; sistemas de armas e contra o terrorismo; análise de
impostos; detecção de fraude; segurança cibernética; programas de
vigilância e resposta.
O big data se torna um grande impulsionador econômico de vários
segmentos e a Gartner, empresa de consultoria norte-americana, divulgou em
2012 as previsões dos segmentos que obteriam maiores resultados por conta
do grande volume de dados como observado na figura 8. Como afirma Donald
Feinberg (2013).
“Agora, as organizações têm mais conhecimento do que é o Big Data e como ele pode
transformar o negócio de novas formas. As questões chave mudaram para ‘quais são
as estratégias e as habilidades necessárias’ e ‘como podemos medir e ter certeza do
retorno do investimento?’. Muitas empresas ainda estão nos estágios iniciais e poucas
têm pensado em uma abordagem empresarial ou, ainda, percebido o profundo impacto
que Big Data terá em suas infraestruturas, organizações e indústrias”
59
Figura 8: Oportunidade de big data – mapa de calor por indústria.
Fonte: GARTNER, 2012.
Os efeitos do big data são muitos em termos práticos, à medida em que
a tecnologia é aplicada para encontrar soluções para problemas cotidianos.
Mas é apenas o começo. O big data está destinado a reformular a maneira
como vivemos, trabalhamos e pensamos. A mudança que enfrentamos é, de
certo modo, maior que as geradas por inovações notáveis que drasticamente
expandiram o escopo e a escala das informações na sociedade (MAYER-
SCHONBERGER; CUKIER, 2013).
2.8 BIG DATA VERSUS SMALL DATA
Big data não é um small data que cresceu a ponto de não ser suportado
em uma planilha, também não é um banco de dados que, de repente, se tornou
grande demais. No entanto, de acordo com Jules J. Berman, observa-se que
alguns profissionais que costumam trabalhar com conjuntos de dados
Ban
cos
e se
gura
dora
s
Edu
caçã
o
Gov
erno
Pro
vedo
res
Saú
de
Seg
uros
Man
ufat
ura
de R
ecur
sos
Nat
urai
s
Vare
jo
Tran
spor
te
Util
ities
Ata
cado
Volume de dados
Velocidade de dados
Variedade de dados
Sub-utilização dados
Serviços
Hardware
Software
Potencial de oportunidade em Big Data em cada dimensão é:
Muito Alto (comparado com outras indústrias)
Alto
Moderado
Baixo
Muito baixo (comparado com outras industrias
60
relativamente pequenos têm a falsa impressão de que podem aplicar suas
habilidades adquiridas em análises de planilhas e banco de dados, diretamente
a recursos de big data sem dominar novas habilidades e sem ajustes em novos
paradigmas analíticos (BERMAN, 2013)).
Diante desta visão, quando os dados aumentam, apenas o computador
deve se ajustar a esta realidade (obtendo dados mais rápido, adquirindo
memória mais volátil e aumentando seus recursos de armazenamento). O big
data não apresenta questões especiais que um super-computador não possa
resolver. Esta visão é contraproducente. Ela leva a um software lento e
ineficaz, grandes perdas de investimentos, análises ruins e a produção inútil e
irreversível dos recursos de big data.
De acordo com Jules J. Berman (2013), as principais diferenças que
podem ajudar a distinguir big data e Small Data estão a seguir:
2.8.1 Objetivos
a. Small data – geralmente desenhado para responder a questão
específica ou servir a determinado objetivo.
b. Big data – geralmente desenhado com objetivo flexível e as
questões apresentadas estão em constante mudança. Não há
como especificar completamente o que o big data irá conter e
como os vários tipos de dados mantidos no recurso serão
organizados, conectados a outros recursos de dados ou
analisados de forma útil. Ninguém poderá especificar, com
confiabilidade, o destino final de um projeto de big data;
geralmente isto é surpresa, é algo novo.
2.8.2 Localização
c. Small data – tipicamente, small data pertence a uma organização,
frequentemente em um computador e algumas vezes em um
arquivo.
61
d. Big data – tipicamente, está espalhado pelo espaço eletrônico e
geralmente compartilhado em vários servidores de internet,
localizados em qualquer lugar da terra.
2.8.3 Estrutura de dados e conteúdo
e. Small data – originalmente, contém dados altamente estruturados.
O domínio do dado é restrito a uma única disciplina ou
subdisciplina. Os dados geralmente dão entrada de registros
uniformes uma planilha ordenada.
f. Big data – deve ser capaz de absorver dados não estruturados
(por exemplo, documentos de texto livre, imagens, filmes,
gravações de som). O assunto de interesse pode estar em
múltiplas disciplinas, e os objetos de dados individuais não podem
vincular a dados contidos em outro, aparentemente não
relacionados.
2.8.4 Preparação dos dados
g. Small data – em muitos casos, o usuário do dado prepara seu
próprio dado, para seu próprio objetivo.
h. Big data – os dados vêm de diversas fontes, e são preparados por
muitas pessoas. Os usuários dos dados raramente são os
mesmos que preparam os dados.
2.8.5 Longevidade
i. Small data – quando o projeto termina, o dado é mantido por
tempo limitado (raramente superior há sete anos, o período
tradicional de vida acadêmico para dados de pesquisa) e, então,
são descartados.
j. Big data – projetos de big data usualmente contêm dados que
devem ser armazenados perpetuamente. Idealmente, dados
armazenados em recursos de big data serão absorvidos por outro
62
recurso quando o original terminar. Muitos projetos de big data se
estendem do futuro ao passado (por exemplo, dados legados),
acumulando dados a serem prospectados e dados já
prospectados no passado.
2.8.6 Mensuração
k. Small data – usualmente, o dado é mensurado usando protocolo
experimental, e o dado pode ser representado usando um
conjunto de unidade padrão.
l. Big data – muitos diferentes tipos de dados são entregues em
diferentes formatos eletrônicos. A medições, quando presentes,
podem ser obtidas por meio de diferentes protocolos. Verificar a
qualidade do big data é uma das mais difíceis tarefas dos
gerentes de dados.
2.8.7 Reprodução
m. Small data – projetos usualmente podem ser replicáveis. Se há
alguma questão sobre a qualidade do dado, a reprodução do dado
ou validade das conclusões extraídas dos dados, o projeto inteiro
pode ser refeito, produzindo novo conjunto de dados.
n. Big data – replicação em um projeto de big data raramente é
factível. Na maioria dos casos, tudo o que se pode esperar é que
dados considerados ruins em big data sejam encontrados e
sinalizados como tal.
2.8.8 Suporte
o. Small data – Custo do projeto são limitados. Laboratórios e
instituições podem usualmente recuperar das falhas ocasionais
em small data.
p. Big data – projetos de big data podem exigir altos investimentos.
Um fracasso em uma iniciativa de big data pode levar à falência,
63
colapso institucional, disparos em massa e a súbita desintegração
de todos os dados mantidos no recurso. Como um exemplo, o
projeto NIH big data conhecido como NCI câncer Biomedical
Informatics Grid custou pelo menos US$ 350 milhões por ano
entre 2004 a 2010. Um comitê ad hoc que revisou o recurso
descobriu que, apesar dos intensos esforços de centenas de
pesquisadores e especialistas em informações sobre o câncer,
alcançou muito pouco diante de uma despesa tão grande que
uma moratória para o pagamento do projeto foi pedida. Pouco
tempo depois, o recurso foi encerrado. Os custos da falha podem
ser altos em termos de dinheiro, tempo e mão-de-obra, as falhas
dos esforços em big data podem até ter algum valor a ser
recuperado. Porém, cada esforço que falha vive como restos
intelectuais consumidos pelo próximo esforço em big data.
2.8.9 Visão interna – introspecção
q. Small data – pontos de dados individuais são identificados pela
sua localização em linhas e colunas em uma planilha ou tabela de
dados. Se é sabido os cabeçalhos de linhas e colunas, pode-se
encontrar e especificar todos os pontos de dados contidos.
r. Big data – a menos que o recurso de big data seja
excepcionalmente bem desenhado, os conteúdos e a organização
do recurso pode ser inescrutável, mesmo para os gerentes de
dados. Acesso completo a dados, informações e sobre a
organização dos dados são obtidas pela técnica aqui referida
como introspecção.
2.8.10 Análises
s. Small data – na maioria das vezes, todos os dados contidos no
projeto podem ser analisados juntamente e de uma vez.
t. Big data – com raras exceções, como aquelas conduzidas por
64
supercomputadores ou em paralelos em múltiplos computadores,
big data é comumente analisado em passos incrementais. Os
dados são extraídos, revisados, reduzidos, normatizados,
transformados, visualizados, interpretados e reanalisados com
diferentes métodos.
2.9 VISÃO TECNOLÓGICA DE BIG DATA
É importante observar que a “era do big data” só se materializou com a
confluência de alguns fatores como a queda do custo de armazenar dados.
Guardar e acessar com eficiência um volume relativamente pequeno de
informações exigia um investimento financeiro considerável em hardware, além
do tempo de instalação ser grande.
Nos anos 90, estocar 1 gigabyte custava 1000 dólares para as
empresas. Hoje, custa 6 centavos, diz Frederico Grosso, diretor da unidade de
softwares para análise de dados da HP, na América Latina (FEIJÓ, 2013).
Assim, o big data é uma evolução natural da computação em nuvem, em
que o poder de arquivamento e processamento das máquinas migrou para a
internet. Os custos são rateados com milhares de usuários (FEIJÓ, 2013).
Devido ao modelo econômico adotado pela globalização, o termo just in
time, totalmente dependente da necessidade de uma expansão virtual, se
tornou a palavra de ordem das negociações e forçou a ampliação da estrutura
para armazenamento de dados. Um exemplo é o Hadoop, uma tecnologia que
se destaca no cenário de big data.
As tecnologias que envolvem big data podem ser analisadas sob duas
óticas: as envolvidas com analytics, tendo o Haoop, uma plataforma de
software em Java de computação distribuída voltada para clusters e
processamento de grandes massas de dados e o MapReduce, modelo de
programação, e framework introduzido pelo Google para suportar computações
paralelas em grandes coleções de dados em clusters de computadores, como
nomes principais. E as tecnologias de infraestrutura, que armazenam e
65
processam os petabytes de dados. Nesse aspecto, destacam-se os bancos de
dados NoSQL (Not Only SQL) , termo usado para descrever bancos de dados
não relacionais de alto desempenho. Os bancos de dados NoSQL usam
diversos modelos de dados, incluindo documentos, gráficos, chave-valor e
colunares.
O Hadoop é um projeto da comunidade Apache (hadoop.apache.org),
criado pelo Yahoo em 2005, inspirado no trabalho do Google em seu GFS
(Google File System) e no paradigma de programação MapReduce, que
basicamente divide o trabalho em tarefas como um mapeador (mapper) e um
resumidor (reduce) que manipulam dados distribuídos em um cluster de
servidores usados de forma massivamente paralela.
O Haddop é uma combinação de dois projetos separados, que são o
Haddop MapReduce (HMR), que é um framework para processamento
paralelo, e o Hadoop Distributed File Syste (HDFS). O HMR é um spinoff (sbu-
produto) do MapReduce, software que o Google usa para acelerar as
pesquisas enderaçadas ao seu buscador. O HDFS é um sistema de arquivos
distribuídos, otimizados para atuar em dados não estruturados e é também
baseado na tecnologia do Google, neste caso o Google File System. Hoje vem,
de forma crescente, sendo adotado por empresas que precisam tratar volumes
massivos de dados não estruturados.
De acordo com um estudo da empresa SAP, intitulado A Non-Geek’s big
data Playbook: Hadoop and the Enterprise Data Warehouse, o big data pode
ser demonstrado em seis etapas comuns com o Apache Hadoop, criador de
código aberto para grandes tecnologias de dados. O ecossistema de data
warehouse (EDW) da empresa se inicia com uma peça simples e popular e
progride para peças mais complexas e integradas.
Cada objeto do EDW representa um componente-chave no ecossistema
(figura 9).
66
Figura 9 – Data Warehouse Empresarial: simples e tradicional configuração EDW.
Fonte: DULL, T (s.d.), adaptado pela autora.
a. Fontes de dados estruturados: este é o componente de criação de
dados. Tipicamente, são aplicativos que capturam dados
transacionais que são armazenados em um banco de dados
relacional. As fontes de exemplo incluem: ERP (Enterprise
Resource Planning), CRM (Customer Relationship Management),
dados financeiros, dados POS (Point of Sale), insumos, e-
commerce e aplicativos legados;
b. Enterprise warehouse de dados (EDW): Este é o componente de
armazenamento de dados. O EDW é um repositório de dados
integrados de vários dados estruturados, fontes usadas para
relatórios e análise de dados. Ferramentas de integração de
dados, como ETL (Extract Transform Load) normalmente são
usados para extrair, transformar e carregar dados estruturados em
um SGBD (Sistema Gerenciador de Banco de Dados) relacionado
ou orientado a coluna. Os componentes de armazenamento por
exemplo incluem: armazém operacional, armazém analítico (ou
sandbox), data mart operacional, armazenamento de dados ODS
(Operational Data Source) e dispositivo de data warehouse;
c. BI / Analítycs: este é o componente de ação de dados. Estas são
as aplicações, ferramentas e utilitários projetados para que os
usuários acessem, interajam, analisem e criem decisões usando
dados em bancos de dados relacionais. É importante notar que
muitos fornecedores tradicionais também estenderam seus
FONTE DE DADOS ESTRUTURADOS
DATA WAREHOUSE
EMPRESARIAL
BI / ANALYTICS
67
produtos de BI e analytics produtos para apoiar o Hadoop. Os
exemplos de aplicativos incluem: operacional, relatórios, consultas
ad hoc, OLAP (Online Analytical Processing) análise descritiva,
análise preditiva, análise prescritiva e visualização de dados.
Cada objeto neste diagrama representa os principais componentes
relacionados a Hadoop (figura 10)
Figura 10 – Big data e hadoop: simples configuração Hadoop autônomo.
Fonte: DULL, T (s.d.), adaptado pela autora.
d. Fontes de dados não estruturadas: este é o componente de
criação de dados. Tipicamente, este é um dado que não é ou não
pode ser armazenado em um banco de dados estruturado e
relacional. Inclui fontes de dados semiestruturadas e não
estruturadas. Exemplo estas fontes incluem: e-mail, dados sociais,
dados XML (Extensible Markup Language), vídeos, arquivos de
áudio, fotos, GPS, imagens de satélite, dados do sensor,
planilhas, dados do log da web, dados móveis, etiquetas RFID e
documentos PDF.
e. Hadoop (HDFS): o sistema de arquivos distribuídos Hadoop
(HDFS) é o componente de armazenamento de dados do projeto
open source (código aberto) Apache Hadoop. Pode armazenar
qualquer tipo de dado – estruturados, semiestruturados e não
FONTE DE DADOS NÃO
ESTRUTURADOS HADOOP
BIG DATA APPS
68
estruturados. Projetado para funcionar com hardware de baixo
custo e pode ser escalado de forma rápida em milhares de
máquinas.
f. Grandes aplicativos de dados: este é o componente de ação de
dados. Estas são as aplicações, ferramentas e utilitários criados
nativamente para o usuário acessar, interagir, analisar e tomar
decisões usando dados em Hadoop e outros sistemas não
relacionais de armazenamento. Não inclui aplicativos de BI,
análise tradicionais ou ferramentas que foram estendidas para
suportar o Hadoop.
Não representado diretamente na figura 11 é MapReduce, o
gerenciamento e processamento de recursos componente do Hadoop.
MapReduce permite que desenvolvedores Hadoop escrevam programas
otimizados que podem processar grandes volumes de dados, estruturados e
não estruturados, em paralelo, através de aglomerados de máquinas de forma
confiável e tolerante a falhas. Por exemplo, um programador pode usar
MapReduce para encontrar amigos ou calcular o número médio de contatos em
uma aplicação de rede social ou processar estatísticas de log de acesso à web
para analisar volume de tráfego e padrões da web.
Outro benefício do MapReduce é que ele processa os dados onde ele
reside (em HDFS) em vez de movê-lo, como por vezes é o que acontece em
um sistema EDW tradicional. Também vem com um sistema de recuperação
incorporado – então, se uma máquina falhar, MapReduce sabe onde ir para
obter outra cópia dos dados. Embora o processamento do MapReduce seja
rápido, quando comparado aos métodos tradicionais, seus trabalhos devem ser
executados no modo de lotes. Isso provou ser uma limitação para as
organizações que precisam processar dados com mais frequência ou mais
próximos do tempo real.
69
Com o aumento dos volumes de dados e o aumento dos requisitos para
processar e analisá-los ainda mais rapidamente, as organizações enfrentam
três opções nos dias de hoje:
a. Adicionar mais hardware ou potência ao seu EDW existente
e sistemas operacionais.
b. Consideram formas alternativas de gerenciar seus dados.
c. Não fazem nada.
Enquanto a opção 1 é viável, mas exige alto investimento, e a opção 3
poderia ser muito prejudicial para algumas organizações, a opção 2 é onde o
Haddop pode ser considerado.
A figura 11 apresenta uma configuração tradicional de dados
estruturados e a figura 12 apresenta os processos aplicados usando o data
warehouse empresarial e o hadoop.
Figura 11 – Estágio dados estruturados: configuração tradicional
Fonte: DULL, T (s.d.), adaptado pela autora.
FONTE DE DADOS ESTRUTURADOS
DATA WAREHOUSE
EMPRESARIAL
BI / ANALYTICS
FONTE DE DADOS NÃO ESTRUTURADOS
HADOOP
BIG DATA APPS
70
Figura 12 – Processo dados estruturados: configuração tradicional
Fonte: DULL, T (s.d.), adaptado pela autora.
A melhoria de desempenho em sistemas paralelos requer uma
abordagem estruturada que faça um bom uso dos recursos de
desenvolvimento, obtendo resultados mais rapidamente. Eles podem ser dividid
em três estágios distintos:
• Primeiro Estágio: Estabelecendo uma metodologia de otimização. Melhores práticas ajudam a planejar com antecedência e
permanecer dentro do plano.
• Segundo Estágio: Criando uma carga de trabalho adequada. Uma
quantidade consistente de trabalho para o aplicativo realizar antes e
depois do ajuste permite medir o progresso.
• Terceiro Estágio: Construindo o ambiente de teste. Um ambiente de
teste adequado emula de forma válida o ambiente de produção dentro
de seu processo empírico.
FONTE DE DADOS ESTRUTURADOS
DATA WAREHOUSE
EMPRESARIAL
BI / ANALYTICS
FONTE DE DADOS NÃO
ESTRUTURADOS HADOOP
BIG DATA APPS
71
3 ANÁLISE DE CASOS
Nesse capítulo, são apresentados dois casos que atingiram que fizeram
uso de big data. Os casos foram selecionados devido à riqueza do conteúdo
disponível on-line e a revelação dos resultados. É importante ressaltar,
entretanto, que a escolha de casos relevantes com a utilização de big data
enfrenta desafios práticos, alguns dos quais são:
a. A vantagem competitiva é um conjunto complexo de
competências difícil de isolar e medir na vida real:
b. O tópico big data ainda é recente. Com exceção de organizações
nascidas digitalmente (i.e., Facebook, Google, Amazon, etc.), ele
enfrenta um desafio em encontrar muitas organizações que
desenvolveram a competência integral e publicaram informações
detalhadas sobre tais competências:
c. Organizações que veem o analytics como vantagem competitiva
poderiam relutar em divulgar suas iniciativas, para evitar que a
concorrência reproduza suas estratégias.
Para os fins desse projeto, tentou-se descobrir convergências e
diferenças entre os ensaios de exemplos que alcançaram sucessos publicados.
Evitou-se intencionalmente organizações construídas ao redor de big data
(Facebook, Linkedin, Google, etc.), já que seus modelos de negócios poderiam
ser difíceis de replicar e, até então, menos comuns.
3.1 BIG DATA EM CAMPANHAS ELEITORAIS
No Brasil, existem já experiências em estudos com o big data que valem
referências. O professor e pesquisador Fábio Malini, da Universidade Federal
do Espírito Santo (UFES), tem trabalhado sobre as organizações e
manifestações políticas e de ativismo nesses espaços de fluxos comunicativos.
Desde 2012, o Laboratório de Estudos sobre Imagem e Cibercultura
(Labic) vem recolhendo conteúdo público na Internet focado em manifestações
72
políticas. O foco dos estudos de Malini está na cartografia política a respeito
dos protestos brasileiros a partir de 2013.
A pesquisa busca extrair dados de mídias sociais, especialmente do
Twitter, de menções relacionadas com figuras políticas de destaque assim
como hashtags utilizadas durante os protestos. A primeira análise de dados foi
feita em 170 mil tweets, que representavam diversos perfis de mídia social no
Brasil, variando de meios de comunicação tradicionais aos perfis dos
movimentos sociais.
Nesse estudo, conseguiu-se fazer uma visualização de dados
envolvendo determinados políticos e se descobriu dois padrões de
comportamentos: os que são contra (negativo) e os que são favoráveis ao
político (positivo), além desses um grupo que se colocava como neutro.
Da mesma forma, destacam-se as pesquisas do professor e pesquisador
Walter Lima Júnior, do Observatório de Mídias Sociais Conectadas da
Universidade Metodista de São Paulo. Suas pesquisas são focadas em redes
sociais e campanhas eleitorais presidenciais. As primeiras pesquisas foram
feitas sobre as eleições brasileiras de 2010 e 2014. Segundo Lima Júnior
(2014) com o objetivo de compreender melhor as circunstâncias
comunicacionais das campanhas on-line, surgiu o projeto de pesquisa aplicada
Observatório de Mídias Sociais Conectadas, denominada de Neofluxo,
elaborado pelo Grupo de Pesquisa Tecnologia, Comunicação e Ciência
Cognitiva (Tecccog) e aprovado em junho de 2010 pelo Conselho Nacional de
Desenvolvimento Científico e Tecnológico (CNPq).
Por meio de softwares produzidos ou combinados, o projeto se dedicou
aos seguintes propósitos interdependentes: (1) se mensagens dos programas
televisivos dos principais candidatos à presidência eram utilizadas como
parâmetro para processos comunicativos sustentados pelo Twitter, avaliando
também as estratégias de tais candidatos na plataforma específica, (2) se havia
ação de astroturfings (usuários especializados que se passam por usuários
comuns, por exemplo) vinculados aos partidos ou candidatos particulares.
73
A partir da elaboração de critérios valor-notícia para seleção de
palavras-chave foi possível rastrear, coletar e armazenar participações de
usuários cadastrados no Twitter, formando-se um banco de dados com mais de
20 milhões de mensagens. A pesquisa centrava suas análises a partir das
redes sociais (Facebook, Flickr, Twitter, Youtube) e site oficial da campanha
dos candidatos.
Além disso, a pesquisa buscou mapear como aconteciam os fluxos
informativos entre os canais oficiais dos candidatos e o Twitter (ponto de
partida, caminho percorrido e redistribuição da mensagem), medindo a relação
direta entre as mensagens emitidas pelos canais oficiais dos candidatos à
presidência e o conteúdo divulgado por outros usuários no Twitter.
Também identificava a presença e a influência de astroturfings (ação
artificial de indivíduos que se passam por usuários comuns, disseminando
boatos, mentiras ou informações vantajosas de determinados candidatos a
outros usuários se passando por eleitores que não possuem relação direta com
o partido ou postulante ao cargo de presidente) no processo de troca e
disseminação de mensagens.
Na mesma iniciativa de pesquisas na Universidade Federal do Rio de
Janeiro (UFRJ), foi criado em 2012 o Instituto Big Data Brasil, que trabalha com
pesquisadores da Coppe/UFRJ em conjunto com outras Universidades,
desenvolvendo projetos e pesquisas que têm como foco o uso dos grandes
volumes de dados e informações extraídos dos ambientes digitais. Segundo
Luciana Sodré Costa, o instituto desenvolve pesquisas inspiradas pela Network
Science, a ciência que estuda as propriedades das redes científicas.
Entre os projetos desenvolvidos estão os que são mantidos em parcerias
com a Fundação Getúlio Vargas (FGV) e com a prefeitura do Rio. Além disso, o
Instituto oferece cursos livres, profissionalizantes e MBA para diversas
empresas públicas ou privadas. Segundo Sodré (2015), o Data Driven
Inovation (inovação guiada por dados) demanda habilidades em mapeamento
de sistemas complexos, gestão estratégica de dados, design thinking (fazer a
74
pergunta certa, reduzir os dados e contar a história), visualização de dados,
tomada de decisão e colocação do projeto em ação.
A partir das perspectivas apresentadas, conhecer e controlar os
fenômenos complexos são as promessas do big data que têm mobilizado as
pessoas em torno do tema. Entusiastas e críticos desprendem grandes
esforços para entender as possibilidades e consequências dessa nova
plataforma de geração do conhecimento (COSTA; CAVALCANTI, 2013).
3.1.1 O caso da campanha eleitoral de Obama
Esse caso mostra como dois anos de processamento de dados por
dezenas de gurus de dados foram alavancados para impulsionar o marketing
pessoal – ou o que Wadhwa (2012) chamou de “ciência política de dados”; e
como o analytics ajudou a conduzir a campanha de Obama para conquistar a
corrida presidencial em 2012. É certo que muitos segredos de campanha não
serão revelados tão cedo. Na verdade, muitas das informações publicadas
sobre o uso da tecnologia na campanha de Obama não foram disponibilizada
até que o Obama fosse reeleito.
Nas eleições presidenciais de 2008, a equipe de Barack Obama atribuiu
a cada eleitor norte-americano pontos baseados na probabilidade de aquela
pessoa realizar duas ações distintas e essenciais para a sua campanha:
preencher uma cédula de votação e, mais importante, a cédula ser um voto
para o democrata. Estes pontos eram derivados de um volume de dados sem
precedentes, gerado por um contínuo trabalho de pesquisa. Para cada debate
semanal por estado norte-americano, os call centers da campanha conduziam
de 5 mil a 10 mil entrevistas curtas que rapidamente verificavam as
preferências do eleitor, além de mil entrevistas em versão longa.
Para aprofundar as predições de intenção de voto individual, algoritmos
gerados por softwares de Big Data Analytics buscaram traçar padrões entre
estas opiniões e os dados sobre cada eleitor que a campanha reuniu.
Chegaram-se a mais de 100 variáveis em padrões de eleitores, definidas a
75
partir do histórico de votos das pessoas, bases de dados de consumidores e
contatos das últimas campanhas.
Essa inovação foi muito valorizada entre os responsáveis pelas
pesquisas de campo. Um ciclo quase perfeito de modelos micro segmentados
direcionou voluntários a realizarem conversas roteirizadas porta a porta ou via
telefone com eleitores específicos. Cada uma das interações produzia dados
que eram transmitidos de volta aos servidores de Obama, a fim de refinar os
modelos que direcionavam os voluntários às casas de eleitores que realmente
valiam a pena serem visitados.
A eficiência e extensão desse processo colocou os democratas bem à
frente dos republicanos quando o assunto foi a definição dos perfis dos
eleitores. A campanha de John McCain, na maioria dos estados, aplicou seu
modelo estatístico apenas uma vez, atribuindo apenas uma micro segmentação
a cada eleitor. Com isso, a equipe de McCain foi incapaz de recalcular a
probabilidade de esses eleitores apoiarem o candidato republicano conforme
as mudanças ocorridas ao longo da corrida presidencial. Já as pontuações que
a equipe de Obama atribuía aos eleitores eram ajustadas semanalmente, de
acordo com novos e relevantes eventos que iam surgindo, como a nomeação
de Sarah Palin a vice-presidente pelo lado republicano ou o pedido de
concordata do banco de investimento Lehman Brothers.
3.1.2 Segunda eleição de Obama, 2012
A segunda campanha de Barack Obama também foi pautada por um
grande trabalho conjunto de pesquisas tradicionais e big data. Foi a segunda
campanha digital de Obama, mas, na segunda vez, o departamento de
inteligência de negócios foi cinco vezes maior do que o anterior. O
departamento tinha dezenas de posições analíticas. David Murphy (2012) listou
alguns títulos, como estrategistas digitais chefes, chefe de integração e diretor
de inovação, oficial de inovação, diretor de analytics digital e analista eleitoral
dos estados do campo de batalha. Isso destaca não apenas a importância da
76
ciência de novos dados e cientistas de dados, mas também a diversidade em
um escopo que possa ser criado nos anos vindouros para tal profissão.
Em um relatório do Times, Scherer (2012) citou Jim Messina, o gerente
de campanha de Obama, após assumir o cargo “mediremos todas as coisas
nessa campanha” e seu time deu início à consolidar bancos de dados dos
eleitores e doadores. Eles conseguiram fazer uma microabordagem de
eleitores e prever várias questões, como: (a) Quem iria votar em Obama?
Quem iria votar em Romney? (b) Quem estava relutante? Quem não iria votar
de forma alguma? (c) Quem votaria se fosse abordado? (d) Que tipos de
pessoas seriam persuadidas por certos tipos de apelos (SCHERER 2012).
Em entrevista da MIT Sloan com Andrew McAfee, o cientista de
princípios de pesquisa, disse:
“Esperaria que se tornasse cada vez mais claro que o estilo
[analítico] é cada vez mais superior ao estilo erudito de tomada de
decisões,”... “Não estou dizendo que a intuição não existe, ou que é
ruim ou errada; nossos cérebros são realmente computadores
maravilhosos. – e nosso kit de ferramentas para fazer isso é muito
bom atualmente – não precisamos de um equilíbrio entre intuição e
sermos guiados por dados. Precisamos de cerca de cem por cento da
participação de mercado do último.” (FERGUSON, 2012).
Apesar do comentário de Andrew de usar cem por cento de analytics
poder ser visto como exagerado, realmente reflete a nova realidade em que os
dados podem dar uma perspectiva melhor do que a intuição em muitas
situações. A campanha do Obama pôde levantar US$ 1 bilhão, dos quais 50%
foi arrecadado digitalmente, e ele conseguiu ganhar a corrida digital
novamente.
Mais uma vez, é possível observar um compromisso dos executivos de
campanha em programas orientados por dados para medir tudo da campanha.
Vários artigos falaram sobre a modelagem matemática usada, as
consolidações de banco de dados conduzidas, rastros em redes sociais e as
sofisticações usadas durante essa campanha. Dois anos de preparo e
77
execução, talentos totalmente qualificados, incluindo Chris Hughes – o
cofundador do Facebook – e um compromisso integral com o analytics levou a
campanha de Obama ao sucesso que conhecemos.
3.1.3 Do Brexit a Trump: como o big data pode estar se tornando decisivo nas eleições
Estrategistas do Partido Republicano, de Donald Trump, e da campanha
do Leave EU (pela saída do Reino Unido da União Europeia) são claros sobre
o peso decisivo da rede social na vitória de ambos.
A eleição de Donald Trump para a presidência dos Estados Unidos
deixou muitos analistas surpresos, e muitos responsabilizaram as redes sociais
(principalmente o Facebook) e o compartilhamento de notícias falsas como um
dos fatores que levaram Trump à Casa Branca.
No dia 9 de novembro de 2016, ficou claro que esses dados poderiam
ser utilizados para muito mais. A empresa por trás da campanha online de
Trump é a Cambridge Analytica, uma empresa especializada em análise de big
data — a mesma empresa contratada pelo Leave EU na fase inicial da
campanha pró-Brexit (Britain Exit), uma expressão inglesa que significa “Saída
Britânica”, na tradução literal para o português. Este termo se refere ao plano
que prevê a saída do Reino Unido da União Europeia (UE).
Alexander Nix, CEO da Cambridge Analytica, explica de forma muito
honesta a metodologia de sua empresa. Primeiro, a Cambridge Analytica
compra dados pessoais de diferentes fontes, entre eles sistemas de registros
de terras, dados automotivos, dados de compras, cartões de fidelidade, listas
de sócios de clubes, assinaturas de revistas e igrejas. Nix exibe os logotipos de
corretoras de dados como a Acxiom e a Experian — nos EUA, quase todos
seus dados pessoais estão à venda.
É possível, por exemplo, saber o local com maior concentração de
mulheres judias e comprar essa informação, incluindo uma lista de números de
telefone. Depois disso, a Cambridge Analytica junta esses dados às listas
78
eleitorais do Partido Republicano e atribui um perfil do Big Five a cada um de
seus membros.
Ao longo desse processo, pegadas digitais tornam-se pessoas reais,
com medos, necessidades, interesses e endereços. A metodologia utilizada
pela Cambridge Analytica é muito parecida com aquela desenvolvida por
Michal Kosinski. Um exemplo: a Cambridge Analytica também usa, como
afirma Nix, “pesquisas feitas em mídias sociais” e dados do Facebook. Além
disso, a empresa faz exatamente aquilo que Kosinski sempre repudiou: “Nós
definimos a personalidade de todos os adultos dos Estados Unidos — 220
milhões de pessoas”.
Entretanto, a questão é mais profunda do que parece. A Cambridge
Analytica é uma empresa que trabalhou na campanha online de Trump e do
Brexit no Reino Unido e trabalha com big data, coletando dados de usuários,
estabelecendo perfis psicológicos através das informações que todos deixamos
na rede e traçando estratégias de comunicação.
A Cambridge Analytica, segundo seu CEO, Alexander Nix, disse, é
capaz de formar um modelo para diagnosticar a personalidade de cada um dos
adultos dos Estados Unidos. De acordo com Nix, o sucesso do marketing da
Cambridge Analytica baseia-se numa combinação de três elementos: ciência
comportamental usando o Modelo OCEAN (openness to experience,
conscientiousness, extraversion, agreeableness, neuroticism), análise de big
data e publicidade segmentada. Publicidade segmentada são comerciais
personalizados, alinhados o mais precisamente possível à personalidade de
um consumidor individual.
Para entender o resultado da eleição e como a comunicação política
pode funcionar no futuro, é preciso começar com um acontecimento na
Universidade de Cambridge em 2014, no Centro de Psicometria de Kosinski.
Psicometria, às vezes também chamada de psicografia, centra-se na
medição de traços psicológicos, como a personalidade. Na década de 1980,
79
duas equipes de psicólogos desenvolveram um modelo que buscava avaliar
pessoas com base em cinco traços de personalidade – o modelo foi chamado
de Big Five: abertura (a novas experiências), consenciosidade
(perfeccionismo), extroversão (sociabilidade), condescendência
(cooperatividade) e neuroticismo (temperamento).
Com base nessas dimensões – conhecidas pela sigla em inglês OCEAN
(openness to experience, conscientiousness, extraversion, agreeableness,
neuroticism) – é possível fazer uma avaliação relativamente precisa de
qualquer pessoa. Isso inclui necessidades e medos e como eles devem se
comportar. O Big Five tornou-se a técnica padrão de psicometria. Mas, por
muito tempo, o problema com essa abordagem foi a coleta de dados. Isso
porque era preciso preencher um questionário complicado com informações
muito pessoais. Então veio a internet.
A Cambridge Analytica também usa pesquisas nas mídias sociais e
dados do Facebook. E a empresa faz exatamente aquilo para o que Kosinski
alertara: “Traçamos o perfil de personalidade de todos os adultos nos Estados
Unidos da América – 220 milhões de pessoas”.
Para abordar cada pessoa com a mensagem política adequada a
Cambridge Analytica os classifica psicometricamente e eles podem ser
abordados de diferentes maneiras — com base, por exemplo, no direito à
posse de armas, estabelecido na 2ª Emenda à Constituição dos EUA: “Para
uma audiência altamente neurótica e consciente sobre ameaça de um assalto –
e a política de segurança de uma arma”. Uma imagem à esquerda mostra a
mão de um intruso arrebentando uma janela. O lado direito mostra um homem
e uma criança em pé num campo ao pôr do Sol, ambos portando armas,
claramente atirando em patos: “O contrário, para uma audiência fechada e
prazerosa. Pessoas que se importam com tradição, e hábitos, e família.”
As inconsistências de Trump, sua muito criticada instabilidade, e a série
de mensagens contraditórias resultantes — de repente, tudo isso torna-se um
grande trunfo: uma mensagem diferente para cada eleitor. A noção de que
80
Trump agiu como um algoritmo perfeitamente oportunista seguindo a reação da
audiência é algo que a matemática Cathy O’Neil observou em agosto de 2016.
Quase toda mensagem que Trump enunciou foi guiada por dados,
afirma Alexander Nix. No dia do terceiro debate presidencial entre Trump e
Hillary, a equipe do candidato testou 175 mil variações diferentes de anúncios
publicitários para seus argumentos, de modo a encontrar as versões mais
certeiras via Facebook.
Em sua maioria, as mensagens diferiam umas das outras por detalhes
microscópicos, de modo a apontar para os destinatários com a melhor
abordagem psicológica possível: diferentes títulos, cores, legendas, com uma
foto ou vídeo. Esta afinação atinge todos, até os menores grupos, explicou Nix
numa entrevista. “Podemos nos dirigir a vilarejos ou blocos de apartamentos de
modo segmentado. Até mesmo a indivíduos.”
No distrito de Little Haiti, em Miami, por exemplo, a campanha de Trump
forneceu aos habitantes notícias sobre o fracasso da Fundação Clinton após o
terremoto no Haiti, de modo a evitar que votassem em Hillary. Esse era um dos
objetivos: manter potenciais eleitores de Clinton (o que incluía esquerdistas
vacilantes, afro-americanos e mulheres jovens) longe das urnas; “inibir” seus
votos, como contou à Bloomberg um profissional graduado da campanha
semanas antes das eleições. Estes “posts escuros” — propagandas
patrocinadas em estilo news-feed na timeline do Facebook, vistos somente por
usuários com perfis específicos – incluíam vídeos dirigidos aos afro-americanos
em que Hillary refere-se aos homens negros como predadores, por exemplo.
Não é possível enxergar quão precisamente os norte-americanos
estavam sendo alvejados pelas tropas digitais de Trump naquele momento,
porque eles atacaram menos na TV e mais com mensagens personalizadas
nas mídias sociais ou na TV digital. Enquanto a equipe de Hillary pensava estar
na liderança, com base em projeções demográficas, o jornalista Sasha
Issenberg, da Bloomberg, ficou surpreso ao notar, numa visita a San Antonio –
81
onde a campanha digital de Trump tinha sua base – que um “segundo quartel-
general” estava sendo criado.
A equipe da Cambridge Analytica, aparentemente não mais que uma
dúzia de pessoas, recebeu US$ 100 mil de Trump em julho, US$ 250 mil em
agosto e US$ 5 milhões em setembro. De acordo com Nix, a empresa recebeu
ao todo mais de US$ 15 milhões. A empresa está registrada nos EUA, onde as
leis relativas à divulgação de dados pessoais são mais flexíveis do que em
países da União Europeia. Enquanto as leis europeias de privacidade
requerem que a pessoa opte por sua inclusão (opt in) na divulgação de dados,
as dos EUA permitem que dados sejam divulgados, a não ser quando o usuário
opte por sua não inclusão (opt out).
As medições foram radicais: desde julho de 2016, os cabos eleitorais de
Trump receberam um aplicativo com o qual podiam identificar a visão política e
tipo de personalidade dos habitantes de uma residência. Era o mesmo
aplicativo usado pelos que fizeram a campanha do Brexit. As equipes de Trump
simplesmente tocavam a campainha das casas que o aplicativo classificava
como receptivos a suas mensagens. Os cabos eleitorais vinham preparados
com orientação para conversas adaptadas ao tipo de personalidade do
residente. Por sua vez, alimentavam o aplicativo com as reações, e os novos
dados voltavam para os painéis da campanha de Trump.
Os democratas fizeram coisas semelhantes, mas não há evidências de
que eles se baseavam em perfis psicométricos. A Cambridge Analytica,
contudo, dividiu a população dos EUA em 32 tipos de personalidade, e focou
em apenas 17 estados. Assim como Kosinski definiu que é um pouco mais
provável que homens que gostam de cosméticos MAC sejam gays, a empresa
descobriu que a preferência por carros fabricados nos EUA era um grande
indicador de um potencial eleitor de Trump.
Entre outras coisas, essas descobertas mostravam agora para Trump
quais mensagens funcionavam melhor e onde. A decisão de focalizar em
Michigan e Wiscosin nas semanas finais da campanha foi feita com base na
82
análise de dados. O candidato tornou-se um instrumento para implementar um
modelo de big data. (GRASSEGGER; KROGERUS, 2107).
De acordo com uma matéria no The Economist (2017), intitulada “A
verdade e a estatística”, após a eleição de Donald Trump, o big data perdeu
grande parte do brilho que tinha. A derrota de Clinton para Trump foi em
grande medida atribuída à equipe responsável pelas análises estatísticas da
campanha da democrata, que não enxergou os sinais de alerta vindos dos
estados do Meio Oeste. No entanto, de acordo com pesquisas realizadas pelo
ex-cientista de dados do Google, Seth Stephens-Davidwitz, o verdadeiro erro
de Hillary foi não ter confiado mais nas novas estatísticas. Hillary usou os
melhores programas de análises de dados disponíveis no mercado. Mas
continuou baseando seus cálculos principalmente em fontes tradicionais de
dados, tais como listas de eleitores e sondagens eleitorais.
Setephens-Davidowitz preferiu explorar um tipo novo de informação: as
buscas que as pessoas fazem do Google. Concentrou-se, em especial, na
frequência com que a palavra “negro” (“nigger”) insulto racial particularmente
ofensivo nos EUA, era pesquisada no mecanismo de buscas. Ao contrário do
que diz o senso comum, segundo o qual as manifestações mais patentes de
racismo se limitariam aos Estados do Sul, os números coletados por
Setephens-Davidowitz indicam que, na comparação com o restante do país, a
palavra desperta significativo grau de interesse em todo o Meio Oeste e na
antiga região industrial do Nordeste americano.
Nas primárias republicanas de 2016, essa foi a variável mais preditiva de
apoio a Trump. Se os estatísticos de Hillary tivessem feito melhor uso desse
tipo de dado, talvez houvessem chegado à conclusão, antes que fosse tarde
demais, de que os alicerces da “muralha democrata” estavam ruindo. Para ele,
os democratas perderam para Trump por se basearem em fontes tradicionais
de dados.
Como os EUA, a Grã-Bretanha foi abalada pelo resultado do referendo e
as implicações do que isso significa a longo prazo ainda não foram vistas. No
83
curto prazo, podemos ver que a Libra caiu aos níveis pré-1985, é provável que
a Escócia deixará o Reino Unido (levando cerca de 10% do PIB total do país),
os agentes imobiliários preveem uma queda de 20% nos preços das
residências em todo o país.
Em um de seus artigos para o New Statesman, Martin Fletcher, detalha
como os bancos forneceram uma quantidade considerável de financiamento
inicial para a campanha Leave EU. Com esse dinheiro e outras doações, a
Cambridge Analytica seria contratada. Então, foi um caso de chegar aos
eleitores identificados e fazê-lo de uma forma acessível para a campanha
campanha Leave EU, afinal, não tinha o financiamento comparável à
campanha de Trump. Isso deu à campanha duas abordagens.
A primeira foi o lançamento de propaganda individualmente segmentada
especialmente adaptada ao Facebook para grupos-chave de personalidade -
da mesma forma que a campanha Trump alavancou seus dados. Esta é uma
rota muito eficaz para a vitória, mas também exige muito investimento para ser
a única saída.
A segunda foi utilizar esse conhecimento e executar uma campanha e
acompanhamento de custos mais baixos. Sob a liderança dos Bancos, a
campanha Leave EU funcionou nos escritórios dos bancos em Bristol e criou
páginas do Facebook para uma variedade de áreas locais onde eles
esperavam alvejar. Quase todo o Reino Unido estava coberto por alguma sub-
página.
Com um forte conhecimento psicométrico de quais questões
fundamentais motivavam os eleitores a se juntarem com a campanha Leave
EU, os bancos basicamente iniciaram a veiculação da mídia. Seu objetivo era
atingir a imigração como a questão-chave.
O processo de promoção de mídia social do Brexit foi relativamente
simples: (a) criou-se um conteúdo de mídia provocativo que atraia os medos-
chave da audiência ou atingia as fraquezas dos seus oponentes; (b) os
84
conteúdos foram publicados através de diversos canais de mídia diferentes,
tanto quanto possível; (c) um centro de atendimento de 70 pessoas que incluía
o monitoramento da mídia social foi montado para acompanhar tudo que
estava relacionado às postagens. Nesta terceira etapa poderia se promover
mais conteúdos, convidá-los a curtir a página particular do Facebook ou dirigi-
los para o site Leave EU para se voluntariar.
Pode haver uma série de outras razões pelas quais essas eleições
obtiveram esses resultados. A correlação não é causalidade, por exemplo.
No entanto, o fato de que ambas as campanhas eleitorais utilizaram
táticas similares e até empregaram as mesmas empresas privadas mostra que
seus sucessos compartilhados provavelmente estão vinculados.
A demografia Leave EU destinou-se a votar em massa para deixar a UE,
com apenas as cidades ao sul da fonteira da Inglaterra estarem contra a
tendência. A campanha Trump e Leave EU compartilharam o fator-chave das
pesquisas que diziam que não ganhariam.
As principais abordagens orientadas por dados operam em uma escala
muito maior do que as metodologias de pesquisa geralmente empregadas pelo
YouGov ou ComRes, ou outros pesquisadores do Reino Unido.
“À medida que as habilidades analíticas das empresas-chave neste setor
crescem, talvez devêssemos reconhecer que big data irá decidir mais do que
apenas as eleições de 2016 (HENSHALL, 2017)”.
85
4 ANÁLISES DOS RESULTADOS DA PESQUISA
Big data implica, em essência, que tudo o que fazemos online ou offline
deixa traços digitais. Cada compra feita com um cartão, cada busca feita no
Google, cada movimento feito com o celular é armazenado. Especialmente
cada interação nas mídias sociais como: comentários, compartilhamentos e
curtidas.
Nesta investigação sobre o conceito de big data, campanhas eleitorais
são o campo em que o conceito foi avaliado. Assim, buscando relacionar os
ambientes comunicacionais, como espaços importantes e determinantes dos
processos políticos na contemporaneidade, buscou-se referência às mudanças
da comunicação de massa para a comunicação segmentada e
microsegmentada, muito usada por campanhas eleitorais nos dias de hoje.
Ressalta-se também a importância da internet na construção das
campanhas eleitorais como espaços de divulgação, mas também de coleta de
dados e informações de eleitores, que contribuem para a condução das ações
de marketing.
Para fins desta análise, não foi obedecido uma visão cronológica das
campanhas, mas a aplicação dos atributos de big data nos casos descritos no
capítulo 3. A campanha eleitoral americana de Barack Obama de 2012, é
considerada um exemplo emblemático na atualidade pelo uso de tecnologias
aliadas as ferramentas de big data na conquista dos eleitores americanos.
Na disputa por um cargo público, uma campanha eleitoral é o momento
mais intenso da disputa entre candidatos. O termo campanha é derivado da
palavra francesa “campo aberto” (POPKIN, 1996). Esse significado traz para a
política a metáfora militar de que as campanhas são batalhas para fora dos
parlamentos e sedes executivas, disputadas através de um debate público de
opiniões com vistas a conquistar o voto dos eleitores.
86
As perspectivas dos estudiosos em relação ao papel da mídia no
processo eleitoral são de que as campanhas políticas sofreram alterações nos
últimos tempos, acompanhando as significativas mudanças na sociedade e as
inovações tecnológicas (BLUMER; KAVANAGH, 1999).
Antes do surgimento da internet, era o aparelho televisivo que passava a
estabelecer uma conexão entre o representante e o representado, ou seja, a
televisão era o único veículo de comunicação por meio do qual os eleitores
encontravam os candidatos (SWANSON; MANCINI, 1996).
Já Norris (2000) credita as transformações nas campanhas eleitorais a
partir da reconfiguração da imprensa, do forte desenvolvimento da indústria
televisiva e da contribuição de novos instrumentos de comunicação
interpessoal, pela via da Internet e de outros meios. Para a autora, modificam-
se assim as estratégias de comunicação política e eleitoral.
Nessa linha, Norris (2000) divide o desenvolvimento das campanhas
eleitorais em três fases: (1) pré-moderna; (2) moderna; (3) pós-moderna. De
acordo com a análise apresentada pela investigadora inglesa, os EUA e o
Reino Unido são exemplos de países que, a partir de meados do século XIX
até a década de 1950, viveram campanhas pré-modernas, caracterizadas por
um enorme envolvimento de voluntários partidários locais que colaboravam
ativamente na organização da campanha, sob coordenação dos dirigentes
dessas mesmas forças políticas.
A fase pré-moderna se distingue bastante das fases posteriores, pois
aqui ainda há formas mais diretas de comunicação entre eleitores e candidatos
e uma forte tendência de identificação e adesão aos partidos.
Já na fase chamada de moderna, que corresponde à segunda metade
do século XX, as campanhas eleitorais são marcadas pela televisão que
substitui a campanha face a face e transforma o cenário de competição
eleitoral. Este é o marco da profissionalização da campanha abordado por
87
Mancini e Swanson (1995). Neste momento também já há uma menor
identificação com os partidos.
A terceira fase de campanhas eleitorais tem seu início com o advento
das NTIC’s (Novas Tecnologias de Informação e Comunicação), que se
acentuou no início da década de 1990. O papel central das mídias de massa
em conectar os cidadãos não foi substituído, apenas complementado pelas
novas tecnologias (IASULAITIS, 2012). No roll dessas novas tecnologias
destaca-se a Internet, que, ao decorrer dos pleitos eleitorais, tem ganhando
cada vez mais espaço e eficácia na condução das campanhas eleitorais,
juntamente com as redes sociais.
No que se refere aos meios de comunicação, é possível nessa fase
também observar a fragmentação da televisão em diversos canais abertos e
via satélite, o aumento das programações de rádio e a popularização da
internet. Essas inovações tecnológicas impulsionaram uma série de
transformações sociais e partidárias no período, o que levou a se repensarem
as estruturas de campanha, principalmente no que se refere à comunicação
política.
Silva (2012) enfatiza a necessidade de as campanhas eleitorais pós-
modernas recorrerem a plataformas interativas sem se afastarem dos canais
tradicionais, destacando assim a importância da gestão dos meios de
comunicação integrada para a campanha.
Além disso, há segmentação das mensagens e estudos mais
aprofundados, baseando-se nas pesquisas de opinião pública, para identificar
as características do eleitorado e como atingi-lo por meio das estratégias de
comunicação usadas pelos profissionais.
É neste contexto que as novas tecnologias de informação e
comunicação passam a ser usadas no marketing eleitoral (NORRIS, 2000). A
partir dessa caracterização de Norris (2000) para as campanhas atuais é
possível ampliar os usos das tecnologias da informação e comunicação em
88
campanhas eleitorais, não somente como ambientes para divulgação de ações
e mensagens de campanha.
Hoje a internet, com destaque para as mídias sociais, é considerada
uma grande aliada nas campanhas eleitorais. A rápida expansão da rede
mundial de computadores transformou esse espaço em um importante campo
de disputas simbólicas e de comunicação entre a esfera política e a população,
seja na administração da visibilidade (THOMPSON, 1998), na interação entre
os atores políticos com a população, na mobilização política, ou ainda, na
condução de novos mecanismos de realização de campanhas eleitorais, entre
outras.
Assim, campanhas políticas contemporâneas como as de Obama e de
Trump têm apostado na internet como meio alternativo para veiculação eleitoral
e que são próprios do ambiente virtual (GOMES et al., 2009). Para Gomes
(2009) existem três estágios no uso da rede pelos políticos: (i) “pré-web” que
concentra o uso da internet no envio de mensagens eletrônicas e e-mails, sem
um uso interativo dos websites; (ii) um estágio “Web”, que tem como plataforma
básica de contato dos políticos com o público em geral os websites pessoais
basicamente reproduzindo os conteúdos das mídias tradicionais; (iii) e uma
terceira etapa iniciada com a campanha presidencial de Barack Obama,
qualificada de “pós-web”, onde os websites passam a ser apenas uma
ferramenta virtual entre outras empregadas pelos políticos, cumprindo a função
de ser um distribuidor de conteúdo a ser reproduzido nas mídias sociais.
Para o entusiasta da política na rede, Canavilhas (2009), é graças à
internet que a política parece ter encontrado uma forma de retomar o contato
direto com o eleitorado, evitando assim intermediários, como a imprensa
tradicional. O autor observa que os políticos americanos desde 2004 apostam
nas potencialidades comunicativas e informacionais da internet.
Mas foi a partir da campanha de Barack Obama em 2008, que a Internet
passou a ser vista como um novo elemento importante na manobra de um
candidato. Obama utilizou quase todas as aplicações on-line disponíveis no
89
momento. Além disso, criou espaços nas redes sociais, como Obama
Everywhere, e só no Facebook chegou aos 320 mil utilizadores. Obama
arrecadou ainda 28 milhões de dólares de apoio, o que lhe permitiu manter
alguma distância em relação aos adversários.
Desde a experiência do presidente norte-americano Barack Obama,
campanhas políticas têm apostado na Internet como meio alternativo para a
aplicação do marketing político e eleitoral. Porém, com um elemento adicional
que é o da utilização da internet não somente como canal de comunicação mas
como um grande armazém de dados com informações dos eleitores.
No capítulo 2, este trabalho apresentou as definições de big data na
visão de diversos autores. Nesta parte do trabalho busca-se apresentar
discussões em torno de campanhas eleitorais atuais que são desenvolvidas
com base em análises de dados e informações sobre os cidadãos e que tem
por objetivo informar e orientar os esforços táticos e contribuir com as
estratégias eleitorais, principalmente na comunicação com os eleitores. Para o
jornalista Sasha Issenberg (2013), essa preocupação é tratada como uma nova
ciência do voto adotada em campanhas eleitorais.
Dado sempre foi a principal matéria-prima para as campanhas eleitorais.
As pesquisas de opinião fazem parte da prática, sempre tratadas como dados
estruturados e analisados por amostragem. Mas foi a partir da campanha de
Obama que os dados não estruturados começaram a ser considerados na
corrida eleitoral. Jed Mole, Diretor de Marketing Europeu na Acxiom afirma que
“Dados têm sido usados há décadas para entender as preferências e hábitos
dos eleitores, embora esta seja a primeira vez que os partidos políticos estão
usando-os a sério para se comunicar.”
Big data de forma objetiva se caracteriza pela presença de 5 atributos
principais, chamados de 5 V’s, a saber – volume, velocidade, variedade,
veracidade e valor. No capítulo 3 onde os cases são apresentados, nota-se a
importância que as pesquisas eleitorais passaram a ter nos processos de
disputas do voto.
90
Para influenciar os eleitores, saber quais deles conquistar e se
posicionar melhor perante esse público-alvo foi necessário ter um
conhecimento prévio do seu comportamento. Além das ferramentas tradicionais
de análises de dados se fez necessário o emprego de métodos mais
sistemáticos e científicos para conhecer o mercado eleitoral.
Parte-se do pressuposto de que o emprego do big data na busca por
características e individualidades comuns de eleitores, possibilitadas com as
técnicas e metodologias de microssegmentação em campanhas eleitorais, têm
se constituído num importante campo de investigação, mas pouco explorado
tanto do ponto de vista do mercado eleitoral quanto das pesquisas científicas.
Para os profissionais que já fizeram usos do conceito, principalmente
das análises de dados e informações, o big data se mostra como uma
ferramenta importante em estratégias e ações de campanhas de marketing
eleitoral e de produtos.
Sem o uso de big data as campanhas eleitorais baseavam suas
estratégias de comunicação apenas em pesquisas políticas tradicionais, mas
com o advento das interações nas mídias sociais, isso teve que ser
reformulado. Especialistas da área de ciência política têm ressaltado a
importância do uso do big data em campanhas eleitorais. Durante uma
palestra, o cientista político e professor Adriano Oliveira (2013) observou que
iniciativas inovadoras na área de big data podem ser sentidas na política
eleitoral.
Vivemos em um mundo onde políticos podem usar a tecnologia para
influenciar decisões, operadoras de telefonia celular podem prever nossa
localização e algoritmos das redes sociais conseguem decifrar alguns traços da
nossa personalidade.
Desde 2010 big data e análise de dados tornaram-se mais confiáveis. O
que podemos constatar nos casos descritos no capítulo anterior é que o
aprendizado dos partidos políticos está em entender que não é apenas como
91
você capta e armazena informações que conta, mas como usar estas
informações para desenvolver um plano de ação para reagir estrategicamente,
quase em tempo real.
Tanto nas campanhas de Obama quanto na de Donald Trump, as
dimensões e atributos de big data discutidas neste trabalho estão presentes.
Elas foram utilizadas para a definição das estratégias e planos de ação.
O volume de dados, descrito no capítulo 2 como a extensão e magnitude
relacionada a quantidade de dados a serem processados, chama a atenção
como a variável que permitiu o acesso e interação, de forma segmentada, a
um grande número de eleitores.
Como os objetivos da campanha de Obama em 2012 giravam em torno
do convencimento de pessoas certas a fazerem doações e buscava apoios à
campanha, bem como o aumento do comparecimento às urnas, era importante
que a campanha pudesse impactar o maior número possível de eleitores de
forma personalizada. Além disso, buscava manter a fidelidade do voto
daqueles eleitores que já haviam votado em sua campanha em 2008.
Entre as estratégias usadas para atingir esses objetivos, estavam: (1)
Técnicas usadas por empresas para atrair consumidores, como marketing
direcionado e microsegmentação; (2) Compra de dados em empresas como
Experian e a Acxiom; (3) Enriquecimento de dados com informações de redes
sociais (em especial Twitter e o Facebook); (4) Segmentação dos eleitores de
acordo com o perfil de navegação no site oficial da campanha; (5) Criação de
cluster de acordo com os gostos e características das pessoas (perfil político
etc.); (6) Ações de comunicação individualizadas one to one. (ANTONIUTTI,
2015, p.152).
As informações vindas do documento oficial da campanha de Obama
“Inside the Cave” relatam como eram feitas outras ações de coleta de
informações e análises de dados na campanha. É importante destacar que a
campanha de Obama em 2012 sabia o nome de cada um dos 69.456.897
92
americanos que votaram nele em 2008. Essas informações foram possíveis a
partir do mapa eleitoral feito pela equipe de campanha. Esse mapa do eleitor
americano começou a ser delineado com o então cientista político Peter
Giangreco, considerado um dos maiores especialistas em mala direta dos
Estados Unidos, que na campanha de 2008 foi responsável pela estratégia de
marketing direto e microtargeting da campanha presidencial.
Somado ao volume, todo o processo exigia velocidade na tomada de
decisão. Velocidade é o atributo de big data caracterizado pela rapidez na qual
os dados são gerados. Apesar das campanhas eleitorais americanas iniciarem
seu processo 01 ano antes da eleição, a velocidade exigia mudanças no rumo
das campanhas quase em tempo real.
Todas as ações eram baseadas em informações e análise de dados que
vinham da estrutura de big data, a partir de relatórios que eram gerados pelo
sistema Alexandria com análises da equipe de inteligência da campanha e
repassados as demais equipes. Nenhuma decisão sobre a comunicação
eleitoral era tomada sem o aval da coordenação de comunicação e marketing
político da campanha, sem o conhecimento do Diretório Estadual do Partido,
assessores políticos e o próprio candidato.
O segundo atributo identificado nos casos apresentados é o da
velocidade com que as informações chegavam à campanha e obrigava os
profissionais a tomarem decisões rápidas. Além das pesquisas oficiais, eram
feitas pesquisas internas sobre intenções de votos e a partir dos resultados
muitas ações de comunicação eram mantidas ou então reformuladas.
Uma das principais funções da equipe de comunicação era acompanhar
tudo que saia nos telejornais diários, nas redes sociais e em outros canais
digitais sobre o candidato e a campanha. Os dados eram coletados diariamente
e analisados pela equipe de inteligência de dados da campanha. Todos os dias
aconteciam reuniões com os principais líderes de cada segmento para alinhar
mensagens e ações do candidato a partir dos fatos e acontecimentos do dia,
que envolvia diretamente o candidato.
93
A campanha se manteve presente em todas as redes sociais (Facebook,
Twitter e Instagram, Youtube). Para cada rede a comunicação era usada de
forma segmentada, levando em consideração os seus usuários e a forma como
usavam esses canais. Mas também havia integração dos conteúdos usados
nas mídias tradicionais como por exemplos nas propagandas eleitorais na
Televisão e no Rádio.
A variedade de dados obtidos de diversas fontes, diz respeito à
diversidade de tipos e formatos de dados coletados e utilizados nos casos
analisados. As campanhas utilizaram os dois tipos de dados descritos no
capítulo 2: dados estruturados e não estruturados.
Os primeiros referem-se àqueles que já estavam organizados
antecipadamente e que apresentam pouca mudança como os dados
demográficos. Já os dados não estruturados, apesar de não possuir formato
padrão, permitiram aos analíticos extraírem conhecimentos das aspirações,
necessidades e desejos dos eleitores, para, a partir daí, apresentar uma
comunicação que respondesse a tais anseios.
A comunicação apresentada pelos candidatos, levou em consideração
esta variedade de dados e de fontes, apresentando o conteúdo de forma
personalizada e no canal e formato mais efetivos para a entrega da mensagem.
Outro atributo que pode ser verificado nas campanhas eleitorais
avaliadas no capítulo 3 diz respeito a veracidade e a confiabilidade dos dados.
Os dados precisam ser confiáveis. Lidar com os outros fatores, como volume,
velocidade e variedade pouco adianta se não forem reais. Assim sendo, é
necessário que haja o máximo possível de consistência dos dados (TAURION,
2013). No que se refere a veracidade apresentam-se questões como: O que
eles representam? De onde eles vieram? Em que contexto estão inseridos?
A veracidade, diz respeito ao fluxo de dados que nem sempre são
confiáveis devido a picos sazonais ou acontecimentos esporádicos. Esse talvez
seja um dos maiores desafios de gerenciar dados.
94
Segundo Issenberg, é com uma campanha baseada na persuasão, que
uma eleição é ganha, mais que na mobilização dos eleitores, o que requer um
intenso trabalho de campo. Para persuadir é necessário criar a convicção no
eleitor e a internet foi usada como ferramenta principal, apresentando conteúdo
de acordo com o perfil dos eleitores. Perfis estes identificados graças ao
volume e a variedade dos dados obtidos.
Neste ponto da análise, faz-se necessário apresentar mais um recurso:
os filtros, que significa o que apresentar e para quem. A quantidade de
informações compartilhada na internet supera a capacidade do indivíduo de
processá-las, implicando na dificuldade da filtragem do conteúdo que circula. É
o que os pesquisadores denominam information overload.
Nesse cenário, surgem as grandes empresas de aplicações para internet
que, por meio de seu alto conhecimento tecnológico, ofertam serviços de
“filtragem” de informações, os quais correspondem a algoritmos que facilitam o
filtro, a fim de propiciar ao usuário as “principais” informações conforme as
palavras-chave fornecidas pelo próprio interessado.
A partir disso, podem derivar duas consequências apontadas por
MAGRANI (2014). De um lado, a filtragem de conteúdo não intencional, feita
pelos provedores, que é denominada como filter bubble (bolhas de filtro), que
significa que à medida em que empresas da Web fornecem serviços sob
medida para os gostos pessoais (incluindo notícias e resultados de pesquisa),
acontece uma não intencional consequência: os "filtros-bolha" e os usuários
não são expostos à informações que poderiam desafiar ou ampliar sua visão
de mundo.
A segunda consequência é a busca dos próprios indivíduos por filtrarem
voluntariamente as informações que consomem, agravando o problema
também desencadeado pelo filter bubble, da fragmentação do debate.
A teoria do filter bubble concebida por Eli Pariser (2011), consiste na
identificação de padrões, por meio dos algoritmos, com a finalidade de propiciar
95
uma personalização no conteúdo a fim de melhorar a experiência do usuário,
adotada pelos profissionais de marketing. É a ideia de se utilizar da coleta e
análise de dados para reconhecer comportamento e preferências, a fim de
viabilizar uma “melhor experiência” de navegação ou uso de determinado
serviço ou produto, ou ainda consumo de conteúdo.
Para a sociedade, esse mecanismo é passado como uma comodidade,
um serviço personificado. Entretanto, mesmo que a priori esse mecanismo
seduza os olhos dos usuários, é nessa conveniência que reside uma nova
discussão. Esses filtros são segregadores – ou seja, a partir do momento em
que o padrão do usuário é reconhecido, somente terá “contato” com aquilo que
o algoritmo filtrou como de seu interesse. (MAGRANI, 2014). Parisier (2016)
argumenta vigorosamente que isto mostrar-se-á ruim para as pessoas e para a
democracia.
Desta forma, a veracidade dos dados como um dos atributos de big data
que geram valor, juntamente com o volume, variedade e velocidade, ganha
relevância para os dois lados envolvidos na relação: candidato e eleitor. No
caso do candidato para ter valor o dado precisa ser confiável, e o desafio está
em como garantir a veracidade dos dados oriundos de diversas fontes.
Já para o eleitor, a partir dos filtros, ele passa a ter acesso a conteúdos
que confirmam seus conceitos pré-estabelecidos, seja pelos filtros gerados
pelos algorítimos dos sistemas de busca, ou que previamente demonstrou
interesse, impedindo a oportunidade do diálogo aberto.
Quase todas as pesquisas eleitorais apontavam a vitória da democrata
Hillary Clinton na corrida pela presidência dos Estados Unidos. Assim, o triunfo
do candidato republicano Donald Trump, foi uma surpresa. Analistas fizeram
uma revisão de suas previsões e muita reflexão terá que ser feita daqui em
diante.
Hillary Clinton, candidata do partido Democrata, bateu recorde em
arrecadações em sua campanha presidencial à presidência dos EUA,
96
alcançando a marca de $143 milhões de dólares (Estado de Minas, 2016).
Apesar de sair à frente nas urnas, vencendo em vinte estados e obtendo quase
3 milhões de votos a mais que o adversário (Diário de Notícias, 2016), Hillary
perdeu para Donald Trump por uma diferença de nove estados.
Embora a esperada campanha acirrada, a eleição sofreu bastante
intervenção de fatores tecnológicos e polêmicas que, ao final, dificultaram a
chegada de Hillary ao poder e especula-se que podem ter favorecido o
candidato Donald Trump na disputa à Casa Branca.
A pouco mais de dez dias da eleição, a Agência de Investigação
Americana, FBI, anunciou a abertura de investigação de e-mails de Hillary, a
fim de observar informações secretas que estavam em suspeita devido ao uso
de um servidor privado que candidata tivera em sua residência quando ainda
ocupava o cargo de Secretária de Estado (G1, 2016).
Ainda, à luz das campanhas presidenciais norte-americanas, conclui-se
que é essencial a proximidade da figura pública com seu eleitorado onde quer
ele esteja. Para tanto, torna-se imprescindível recorrer ao uso de big data e
explorar os benefícios e alcance das mídias sociais.
Outra notícia que enfraqueceu a campanha da democrata foi a
divulgação de e-mails hackeados da conta de Jonh Podesta, coordenador da
campanha de Hillary, pelo site de vazamento de informações, Wikileaks. Os e-
mails continham informações tais como tentativas de trocas de favores, defesa
de ação secreta na Síria, críticas à China, ironia de assessores contra
católicos, desconfiança com refugiados, dentre outros (G1, 2016). Podesta
acusou o governo russo de estar por trás do vazamento e disse que o
candidato Trump já sabia a respeito.
Conforme o jornal “The New York Times”, a iminência de que ao menos
um sistema de computadores do Partido Democrata havia sido comprometido
por hackers, apelidados de “The Dukes”, uma equipe de espionagem ligada ao
governo russo, foi alertada em setembro de 2015 pelo FBI. Este foi o primeiro
97
enigmático sinal de campanha de ciberespionagem e guerra de informação
elaborada para interferir na eleição presidencial de 2016 (apud. Folha de São
Paulo, 2016).
A “epidemia” de notícias falsas veiculadas, conforme advertiu a própria
candidata Hillary (Época, 2016), também impactou o curso das eleições.
Pesquisa realizada pelo site BuzzFeed (2016), com base em dados do
Facebook, mostra que, nos últimos três meses antes da eleição americana, os
20 principais links com informações falsas tiveram mais compartilhamentos,
reação e comentários que os 20 maiores conteúdos jornalísticos do período. O
BuzzFeed calculou que histórias procedentes de sites especializados em
“hoax” (farsas, piadas) e de blogs partidários geraram pouco mais de 8,7
milhões de comentários, reações e compartilhamentos nas redes sociais,
contra o registro de 7,4 milhões de reações de notícias de sites oficiais como
“The New York Times”, “The Washington Post” e “Huffington Post” (Veja, 2016).
Tal realidade é potencializada pelo algoritmo do Facebook, que decide
quais publicações serão promovidas no feed de notícias dos usuários. Segundo
entrevista ao pesquisador João Carlos Magalhães, da London School of
Economics, pela Carta Capital, os algoritmos são usados para decidir
automaticamente o que é mais ou menos relevante ao usuário e, portanto, ser
mais ou menos visto. Bem como, o que estará no feed de notícias e na primeira
ou na terceira página de sua busca no Google (Carta Capital, 2016).
Ainda de acordo com o pesquisador, a “personalização profunda” só é
possível pelos sensores e pelos usuários que “ajudam a treinar os algoritmos
sobre o que nos interessa, e permitem que os sistemas sejam constantemente
afinados para refletir nossas supostas preferências” (Carta Capital, 2016).
Além disso, conforme delineado pelos pesquisadores, o fato de bots
(expressão derivada da palavra, em inglês, “robot”, que significa “robô”),
(LOUREIRO, 2016) produzirem sistematicamente conteúdos positivos a
determinado candidato, pode implicar na percepção dos eleitores sobre um
98
suposto apoio orgânico para este candidato quando, na verdade, trata-se de
algo artificialmente gerado.
O estudo apontou que, apesar de o uso de bots em mídias sociais para
fins políticos não ser uma novidade, observa-se que os mesmos estão cada
vez mais sofisticados, de modo que resta quase impossível averiguar a
procedência desses – quem os implementou. Contudo, a pesquisa demonstrou
que, aproximadamente, 75% dos bots eram em favor do então candidato
Donald Trump.
Tal fato ocorre, também, porque muitos dos usuários não verificam a
credibilidade das fontes e a veracidade das informações, como delineado
anteriormente, possibilitando, assim, a propagação de notícias falsas em larga
escala, já que os bots permitem a publicação de milhares de conteúdos ao
mesmo tempo.
À luz da campanha norte americana, verificou-se os impactos da
plataforma digital na corrida eleitoral, tal como a disseminação de notícias
falsas, reforçadas pelo algoritmo de personalização do Facebook, a invasão de
hackers a servidores de candidatos e, ao fim, a divulgação de dados pelo
Wikileaks, fatos que pesaram na corrida eleitoral. Observou-se também o quão
essencial é o domínio das peculiaridades das redes sociais e da estratégia
comunicacional tendo-se em vista o perfil do público que se quer atingir e
localizando-o através de ferramentas do big data.
No caso do Brexit, com David Cameron, o primeiro-ministro britânico,
renunciando depois de convocar o referendo, o país também está enfrentando
questões de liderança no que parece ser um momento cada vez mais sombrio
para o país.
Existe também um preocupação considerável para os menores de 50
anos (que serão mais afetados), com dados de votação mostrando que a
grande maioria que votou pela permanência, enquanto a maioria acima dessa
idade votou pela saída. Em uma sociedade democrática, isso é simplesmente
99
algo que sempre é necessário, mesmo que pareça injusto com aqueles que
suportarão o peso da decisão quando não concordaram com ela.
Em face de tudo isso, pode haver uma alternativa se o novo governo
estiver disposto a usar os dados efetivamente para criar novos negócios,
protocolos e leis. A Grã-Bretanha tem a oportunidade de utilizar os dados para
criar leis, políticas e legislação efetivas com base em fatos sólidos e na retórica
política. As leis agora podem ser decretadas a partir da enorme quantidade de
dados públicos que o Reino Unido detém. Ao invés do policiamento baseado
em leis arcaicas, com a quantidade de reformas necessárias, um sistema de lei
inteiro teoricamente poderia basear-se em números reais e não em vontade
política.
Uma das principais críticas da campanha estava relacionada ao fato de
que não foram estabelecidos cenários reais, mas, sem dúvida, os dados agora
podem ajudá-los a priorizar o que precisa ser feito e graças aos dados dos
eleitores, atividades on-line e até mesmo análises de redes sociais, é possível
identificar áreas de consenso e tentar construir pontes entre as comunidades
divididas.
No que tange às eleições, muito há que se pesquisar acerca do tema,
posto que a tendência é a de que o uso do big data e mecanismos de
inteligência artificial sejam cada vez mais incorporados ao cotidiano dos
indivíduos. Faz-se necessário refletir sobre o uso enviesado dos mecanismos
tecnológicos para fins não democráticos, como, por exemplo, o uso de bots
para a criação de milhares de perfis falsos e a consequente propagação de
notícias inverídicas distorcendo a percepção do eleitorado.
Segundo Martin Hilbert, professor da Universidade da Califórnia e
assessor de tecnologia da Biblioteca do Congresso dos Estados Unidos, o fluxo
de dados entre cidadãos e governantes pode nos levar a uma “ditadura da
informação”, algo imaginado pelo escritor George Orwell no livro 1984.
100
5 CONCLUSÕES
Há uma nova revolução no horizonte: a revolução de big data. Por
décadas, a sociedade coletou dados, mas, até recentemente, nunca em
quantidades grandes suficientes para vislumbrar seu potencial. Nem se tinha
ideia sobre o que fazer com a interação entre eles. Assim como o microscópio
e o telescópio transformaram as ciências naturais, o big data está
revolucionando as ciências sociais.
Esta investigação teve como objetivo geral esclarecer o termo big data e
os conceitos a ele relacionados, bem como tendências e desafios que são
parte do processo. Para atingir esse objetivo, na dimensão teórica,
investigaram-se as raízes do conceito e suas principais definições por diversos
autores.
De forma ampla, big data é um termo guarda-chuva, que encobre
diferentes ferramentas, metodologias, práticas e técnicas para solucionar
desafios de analisar grandes quantidades de dados e que pode ser aplicado e
usado em qualquer setor.
A importância da utilização de grandes massas de dados cresce a cada
dia e todas as áreas de conhecimento buscam entender a relevância da sua
utilização – e por uma boa razão: a geração de dados continua a crescer com o
uso de computadores, dispositivos móveis e a internet. Assim como mais
dispositivos, casas e máquinas estão sendo equipadas com sensores,
medidores inteligentes e transmissores.
A interação entre sociedade e tecnologia presente no contexto da
midiatização, potencializada por processos e ferramentas como o big data são
a base de avanços científicos que vêm, paulatinamente, transformando o nosso
cotidiano. Com o fenômeno do big data, capta-se uma torrente de dados,
gerando infinitas possibilidades de conexões.
101
Com o advento do armazenamento de baixo custo, análises, memórias e
outras tecnologias de computação, é possível extrair conhecimento desses
grandes volumes de dados e transformá-los em ideias significativas que
capacitam as organizações e a sociedade para que sejam proativas e mais
informadas na tomada de decisão do que nunca.
Além disso, todas as organizações – grandes e pequenas – têm o
potencial para se beneficia, porque muitos dos recursos de big data hoje são
públicos. Pensar em dados abertos do governo, clima, dados meteorológicos,
dados de comportamento do consumidor, opiniões, dados das mídias sociais,
estão à espera de serem analisados. Mesmo pequenos players nas indústrias
podem se dar ao luxo de usá-los para avançar na competição ao ser o primeiro
a armazenar e incorporar fontes de dados abertas em seus trabalhos
analíticos.
A microeconomia, a sociologia, a ciência política e a psicologia
quantitativa atualmente dependem, em larga medida, da realização de
sondagens com amostras de, no mínimo, alguns milhares de entrevistados. Já
o big data, oferece novas fontes de informação; retrata o que as pessoas
realmente fazem ou pensam, em vez do que optam por dizer aos
entrevistadores; permite que os pesquisadores concentrem sua atenção em
subgrupos demográficos ou geográficos, estabelecendo comparações entre
eles; e possibilitam a realização ágil de estudos randomizados controlados
capazes de apontar não apenas correlações, mas também causalidades.
Dessa forma, os cientistas sociais não precisarão mais passar meses
recrutando pequenos números de pessoas para realizar um teste único. Em
vez disso, as ciências sociais e comportamentais ganharão escala e as
conclusões que os pesquisadores chegarão terão caráter verdadeiramente
científico, e não apenas pseudocientífico.
O big data será uma nova fonte de valor econômico e inovação. Seu
predomínio representa três mudanças na forma como as informações são
102
analisadas e transformam a forma como as organizações e a sociedade é
entendida.
A primeira trata da possibilidade de poder analisar mais dados. Não
existe mais a restrição da análise de amostragens que era característica de um
período de escassez de informações, produto dos limites naturais de se
interagir com as informações em uma era analógica. Após o domínio das
tecnologias digitais de alto desempenho, é possível analisar todos os dados
disponíveis, o que permite que se vejam detalhes nunca vistos quando havia o
limite de quantidades menores. O big data possibilita uma visão que é granular:
subcategorias e submercados que as amostragem não alcançam.
A segunda é que, com menos erros de amostragens, mais erros de
medição são aceitos. Quando a capacidade de medição é limitada, apenas o
mais importante é considerado. Existe um esforço para se conseguir o número
apropriado. As ferramentas buscavam a exatidão. O big data varia em
qualidade e está distribuído em incontáveis servidores pelo mundo. Ele oferece
uma sensação aproximada de direção, sem a necessidade de um milimétrico
conhecimento do fenômeno. O que se perde em precisão microscópica ganha-
se em visão macroscópica.
A terceira mudança trata de um afastamento da antiga visão pela
causalidade. A sociedade sempre buscou nos dados a causa, mesmo quando
esta busca era difícil e levava a caminhos errados. Em big data, por sua vez,
não há a necessidade de se fixar na causalidade; é possível descobrir padrões
e correlações nos dados que propiciem novas e valiosas ideias. As correlações
podem não dizer com exatidão por que algo está acontecendo, mas pode
alertar que algo está acontecendo.
A motivação para adotar big data é imediata para as organizações. As
soluções exigirão inovação das organizações em diversos níveis, incluindo
técnico, financeiro e organizacional.
103
Big data, como qualquer tecnologia de alta performance, nas mãos
certas, nos impulsiona em direção a possibilidades ilimitadas. Por outro lado,
nas mãos erradas as consequências podem ser destrutivas de forma que não
podemos imaginar. No entanto, independente do tipo de dado que se quer,
para alguns especialistas o big data ainda passa por muitos desafios que
devem ser levados em consideração.
No momento da finalização deste trabalho surge uma nova discussão
que alerta sobre os equívocos a que os dados podem induzir os tomadores de
decisão. A discussão também trata do risco de que os donos desses bancos de
dados venham a fazer uso abusivo deles.
Como sugestão para pesquisas futuras, entendemos oportuno
aprofundar discussões sobre os riscos dos usos indevidos de big data.
104
6 REFERÊNCIAS
ALVES-MAZZOTTI, A. J.; GEWANDSZNAJDER, F.; O Método nas Ciências Naturais e sociais Pesquisa Quantitativa e Qualitative. 2a. edição. São Paulo. Pioneira. 2002.
ANDERSON, C. (2008). The End of Theory: The Data Deluge Makes the Scientific Method Obsolete. Disponível em <https://goo.gl/CwP3zT> acesso a 18 de maio de 2017.
ANDERSON, Janna and RAINIE, Lee (2014). Digital Life in 2025. Pew Research Center. Disponível em: <https://goo.gl/6NFgQp>; acesso em 25 de janeiro de 2017.
ANTONIUTTI, Cleide Luciane (2015). Usos do big data em campanhas eleitorais. Tese (Doutorado em Ciência da Informação) IBICT-UFRJ. Disponível em: <https://goo.gl/jFP76r>; acesso em 20 de fevereiro de 2017.
ARTIGO “Notícias falsas” é tema de declaração assinada por relatores para a Liberdade de Expressão. Disponível em: <https://goo.gl/gmV8gu>; acesso a 23 de abril de 2017.
ARTIGO MAGIC WEB DESIGN. Políticos Norte-Americanos investem em mídias sociais de nicho. 2016. Disponível em: <http://www.magicwebdesign.com.br/blog/redes-sociais/politicos-doseua-investem-em-midias-sociais/>.Acesso em: 10 de janeiro. 2016.
BARBIERI, Carlos. BI – Business Intelligence. Brasil. Axcel Books. 2001.
BERMAN, Jules J. Principles of Big Data: Preparing, Sharing, and Analyzing Complex Information. San Francisco. Morgan Kaufmann Publishers Inc. 2013.
105
BERNOFF, Josh e LI, Charlene. Groundswell. USA. Campus. 2010
BERRY, Michael J. A., LINOFF, Gordon. Data Mining Techiniques. USA. Wiley Computer Publishing. 2011.
BLUMER, John G. KAVANAGH, Dennis. The third Age of political communication: influences and features. 1999.
BODEN, Margaret A. Artificial Intelligence and Natural Man. USA. Hassocks. Harvester. 1977.
BOLLIER, David. The Promise and the Peril of Big Data. USA. 2010.
BOND, Robert M.; FARISS, Christopher J. ei al. A 61-million-person experiment in social influence and political mobilization. Disponível em: <https://goo.gl/CHkewA>; acesso em 20 de janeiro de 2017.
BONTEMPO, C., ZAGELOW, G. The IBM data warehouse architecture. ACM, 41(9), pp.38–48. 1988
BOYD, D. & CRAWFORD, Kate (2011). Six Provocation for big data. In A Decade in Internet Time: Symposium on the Dynamics of the Internet and Society. Disponível em <https://goo.gl/upS3SK>;>; acesso a 13 de maio de 2017.
BROWN, Donald. Diretor do Instituto Big Data da Universidade de Virgínia dos Estados. Unidos. Entrevista realizada no dia 16 de dezembro de 2013.
CABETTE FABIO, André (2016). Como funcionará o sistema de checagem de notícias falsas do Facebook. Nexo. Publicado em: 16 dez. Disponível em: <https://goo.gl/V9L77A>; acesso em 13 de maio de 2017.
106
CANAVILHAS, João. A comunicação política na era da internet. Corvilhã, Portugal, Universidade da Beira Interior, 2009. Disponível em: http://www.bocc.ubi.pt/pag/canavilhasjoao-comunicacao-politica-na-era-da-Internet.pdf . Acesso em 06 setembro 2016.
CARVALHO, Luís Alfredo Vidal de. Datamining: a mineração de dados no marketing, medicina, economia, engenharia e administração. São Paulo: Érica, 2001.
CASTELLS, Manuel Castells. A Sociedade em Rede Vol. I. São Paulo.Paz e Terra. 1999.
CERVO, A. L. BERVIAN, P. A. Metodologia científica. 5.ed. São Paulo: Prentice. Hall, 2002.
CHEN, Min; MAO, Shiwen; ZHANG Yin, LEUNG, Victor C.M.; Big Data Related Technologies, Challenges, and Future Prospects. Sprienger Briefs. USA. 2014.
COSTA, Luciana Sodré; CAVALCANTI, Marcos. Big data não é uma tecnologia. DataGramaZero - Revista de Informação - v.15 n.3 jun/14. Disponível em: < http://www.dgz.org.br/jun14/Ind_com.htm#autor>. Acesso em 12 de Setembro de 2015.
CRESPO, Marcelo; ALMEIDA CAMARGO, Coriolano (2016). Inteligência artificial, tecnologia e o Direito: o debate não pode esperar! In: Direito Digit@al – Migalhas. Publicado em: 30 nov. Disponível em: <https://goo.gl/wLUyLD>; acesso em 20 de março de 2017.
DAVENPORT, Thomas; BARTH, Paul; BEAN, Randy. How 'big data' is different. MIT Sloan Management Review, 30, julho 2012. Disponível em: http://sloanreview.mit.edu/article/how-big-data-is-different/. Acesso em 12 de Dezembro 2016.
107
DAVIS SENIOR, Jim (2014). What Kind of Big Data Problem Do You Have? SAS Disponível em: <https://goo.gl/1Mr9Db>; acesso em 25 de janeiro de 2017.
DEMO, P. Educar pela pesquisa. 5. ed. Campinas, SP. Autores Associados. Pesquisa e construção de conhecimento. 4. ed. Rio de Janeiro: Tempo Brasileiro, 2000.
DULL, T (s.d.). A Non-Geek’s big data Playbook: Hadoop and the Enterprise Data Warehouse. SAS Institute; Inc. Disponível em <https://goo.gl/ap7GYG>; acesso a 12 de maio de 2017.
DANTAS, Leonardo André Colares (2016). Utilização da análise envoltória de dados na concepção de um sistema de apoio a decisão para gestão de uma distribuidora de recargas de dispositivos móveis. Monografia (TCC). Universidade Federal do Ceará. Departamento de engenharia da Produção.
ESTRADA, A. A (2009). Os fundamentos da teoria da complexidade em Edgar. Morin. Akrópolis Umuarama, v. 17, n. 2, p. 85-90, abril/junho.
FAN, J.; HAN, F.; LIU, H (2014). Challenges of big data analysis. USA. National Science Review, pp. 293–314.
FAYYAD, Usama M.; PIATETSKY-SHAPIRO, Gregory; UTHURUSAMY Ramasamy . Advances in Knowledge Discovery and Data Mining. USA. Mit Press. 1996.
FEIJÓ, Bruno Vieira. A revolução dos dados. Revista Exame PME – Pequenas e Médias Empresas, São Paulo, p. 30-43, set. 2013.
FREITAS JUNIOR, José Carlos da Silva; MAÇADA, Antonio Carlos Gastaud; OLIVEIRA, Mírian; BRINKHUES, Rafael (2016). Big data e gestão do conhecimento: definições e direcionamentos de pesquisa. Revista Alcance
108
–Eletrônica –vol. 23 –n. 4–out./dez. Disponível em <https://goo.gl/GqdBTG>; acesso a 12 de maio de 2017.
GANDOMI, A.; HAIDER, M. Beyond the hype: big data concepts, methods, and analytics, 2015. Int J Inf Manag 35 (2):137–144
GANTZ, John e REINSEL David. THE DIGITAL UNIVERSE IN 2020: Big Data, Bigger Digital Shadow s, and Biggest Grow th in the Far East December 2012. Disponível em https://www.emc.com/collateral/analyst-reports/idc-the-digital-universe-in-2020.pdf. Acesso 12 de abril de 2017.
GARTNER IT Glossary. Definition of BIG DATA, 2012. Disponível em <https://goo.gl/kyib9D>; acesso em 28 de abril de 2017.
GARTNER IT Glossary. Definition of Business Inteligence, 2014. Disponível em <https://goo.gl/zTTC3y>; acesso em 17 de abril de 2017.
GIL, Antonio Carlos. Como elaborar projetos de pesquisa. São Paulo: Atlas, 2002.
GOMES, Neuza Demartini. Formas persuasivas de comunicação política. Propaganda política e publicidade eleitoral. 3. ed. Porto Alegre. EDUPUCRS, 2004.
GRASSEGGER, Hannes e KROGERUS, Mikael (2107). A manipulação da democracia através do Big Data. GGN. Disponível em: <https://goo.gl/3zTMPf>; acesso em12 de junho de 2017.
HARDY, Quentin (2014). Relatório prevê futuro “sombrio” para a internet. Folha de S. Paulo. Dismponível em <https://goo.gl/9uy6Qp>; acesso em 22 de abril de 2017.
109
HELLAND, Pat. The Singular Success of SQL. Communications of the ACM, New York, v. 59, nº 8, p. 38-41, aug. 2016.
KOLB, Jason and KOLB, Jeremy (2013). The Secrets Big Data Revolution: The Tricks Your Competitors Don't Want You To Know. Painfield, IL.
KOTLER, Philip (1984). Marketing. Brasil. Atlas. 2007.
LABRINIS, Alexandros; A community white paper developed by leading researchers across the United States. Disponível em: http://cra.org/ccc/docs/init/bigdatawhitepaper.pdf, acesso em 25 de Maio de 2017.
LANEY, Douglas. “The importance of ‘Big Data’: a definition”. Gatner, 2012. Disponivel em: http://www.gartner.com/resid=2057415. Acesso em: 20 Jan. 2014
LICKS, Rogério Augusto de Souza:.– Bg data: diretrizes e técnicas para preservação da privacidade
file:///Users/lunagutierres/Downloads/Rog%C3%A9rio%20Augusto%20de%20Souza%20Licks%20(2).pdf
LIMA JUNIOR, Walter. Jornalismo computacional em função da “Era do Big Data”. Líbero. São Paulo v. 14, n. 28, p. 45-52, dez. 2011. Disponível em: http://casperlibero.edu.br/wpcontent/uploads/2014/05/1-Jornalismo-computacional.pdf. Acesso em 20 outubro de 2016.
LOUREIRO, Rodrigo (2016). Entenda de uma vez por todas o que é um bot e como ele funciona. OlharDigital. Publicado em: 11 abr. Disponível em: <https://goo.gl/jNpv1P>; acesso em 20 de maio de 2017.
LYMAN, Peter; VARIAN, Hal R. How much information 2003? Berkeley,California: University of California at Berkeley, 2003. 100 p. (Relatório
110
produzido pelos estudantes da Escola de Gestão da Informação e Sistemas da Universidade da Califórnia em Berkeley). Disponível em <http://www2.sims.berkeley.edu/research/projects/how-much-info- 2003/index.htm > Acesso em 18 julho 2016.
MAGRANI, Eduardo (2014). Democracia conectada: a internet como ferramenta de engajamento político – democrático: Rio de Janeiro: Juruá. Disponível em: <https://goo.gl/PYXaVC>; acesso em 20 de janeiro de 2017.
MANCINI, P; SWANSON, David L. Politics, media and modern democracy: an international sudy of innovations in electoral campaigning and their consequences. London: Praeger, 1996.
MANYIKA, James, CHUI Michael, Brown Brad, BUGHIN Jacques, DOBBS Richard, ROXBURGH Charles, BYERS Angela Hung; Big Data; McKinsey Global Institute. USA. 2011.
MARCONI, Marina de andrade; LAKATOS, Eva Maria; Fundamentos da Metodologia Científica; São Paulo. 2010.
MAYER SCHÖNBERGER, Viktor; CUKIER, Kenneth. Big Data. Como Extrair Volume, Variedade, Velocidade e Valor da Avalanche de Informação Quotidiana. Rio de Janeiro. Campus. 2013.
MIRANDA FILHO, Renato (2014). Um arcabouço para pesquisas de opinião em redes sociais. Dissertação apresentada ao Programa de Pós-Graduação em Ciência da Computação do Instituto de Ciências Exatas da Universidade Federal de Minas Gerais – Departamento de Ciência da Computação. Disponível em: <https://goo.gl/oyJdnQ> Acesso em 28 de janeiro de 2017.
111
MORESI, Eduardo (Org). Metodologia da pesquisa. Brasília. PUC. 2003.
NORRIS, Pippa. Democratic divide? The impact of the Internet on parliaments worldwide. Havard: Harvard University, John Kennedy School of Government, 2000.
PARISIER, Eli. O filtro invisível: o que a internet está escondendo de você. Rio de Janeiro: Zahar, 2012.
PASQUALE, Frank. The Black Box Society – The Secret Alrorithms That Control Money and Information. Harvard University Press. 2015.
Christy Pettey e Rob van der Meulen. Gartner's 2012 Hype Cycle for Emerging Technologies Identifies "Tipping Point" Technologies That Will Unlock Long-Awaited Technology Scenarios.2012. Disponível em http://www.gartner.com/newsroom/id/2124315. Acesso em 12 de abril de 2017
POPKIN, Samuel. The reasoning voter: communication and persuasion in presidential campaigns. Chicago. Chicago University Press, 1996.
POSPIECH, Marco; FELDEN, Carten. Big Data – A state – of-the-art. In: AMERICA CONFERENCE ON INFORMATION SYSTEMS (AMCIS), 18, Seattle. Proceedings. Seattle, 2012.
REIS. Everson Andrade dos. Fluxo e tecnologias de informação no contexto brasileiro de inventário de ciclo de vida. Tese de doutorado Ciência da Informação – FFC, UNESP. 2015.
REZENDE, Cecília; Conceitos Fundamentais sobre Banco de Dados. Campos. São Paulo. 2003.
RUMMERT, Sonia Maria. Os meios de comunicação de massa como aparelhos de hegemonia. Disponível em: <https://goo.gl/3VfzKL>; acesso em 20 de janeiro de 2017.
112
SANTAELLA, Lúcia. Linguagens Líquidas na Era da Mobilidade. Brasil. Brasiliense. 2007.
SEARLE, John. Minds, Brains and Science. England. Penguin Group. 2008.
SEGALA ALVES, Carla; VAINZOF, Rony. Direito Digital: Privacy by Design e Proteção de Dados Pessoais. In: Jota. Publicado em: 6 julho de 2016. Disponível em: <https://goo.gl/8pfXuk>; acesso em 3 de novembro de 2016.
SHRIVASTAVA; SOMASUNDARAM. Armazenamento e Gerenciamento de Informações: Como armazenar, gerenciar e proteger informações digitais. São Paulo: Bookman. 2009.
SILVA, Elias Adriano N; FORTES, Renata Pontim; LUCRÉDIO, Daniel; Revisão sistemática de Literatura em Estratégias de Interoperabilidade no modelo de computação em Nuvem. São Carlos. 2012.
SOLIS, Brian. Engage! John Wiley Trade. USA. 2009
TAURION, C (2013). Big Data. Rio de Janeiro: Brasport. Disponível em: <https://goo.gl/MVNFQ3>; acesso em 3 de novembro de 2016.
TELXPERTS (2016). Big Data Archive. Disponível em <https://goo.gl/PsEjZw>; acesso a 13 de abril de 2017.
US CONGRESS (1988_, Office of Technology Assessment, SDI: Technology, Survivability and Software, OTA – ISC-353 (Whashington, DC: U.S. Government Printing Office, May). p. 188.
ZIKOPOULOS, P. et al. Understanding big data: Analytics for Enterprise Class Hadoop and Streaming Data. USA. McGraw-Hill. 2012.