Upload
leandro-de-castro
View
422
Download
2
Embed Size (px)
DESCRIPTION
Citation preview
LCoN:Atuação em Big Data
Leandro Nunes de [email protected]
@lndecastro
Faculdade de Computação e Informática &Programa de Pós-Graduação em Engenharia Elétrica
Laboratório de Computação Natural (LCoN)www.mackenzie.br/lcon.html
2
Sumário• Motivação: Dados e Redes Sociais• Mineração de Dados• Computação Natural• Estudos de Caso:
– Reclame Aqui– Análise de Sentimento no Twitter– Sistemas de Recomendação
• O LCoN• Discussão
Motivação
Um Universo de Dados e
Redes Sociais
Sobre Dados e Informação
Mineração de Dados
Conceitos Básicos
Image: jannoon028 / FreeDigitalPhotos.net
Pode-se definir a descoberta de conhecimento em bancos de dados (KDD) como sendo o processo não trivial de identificação de padrões válidos, novos, potencialmente úteis e compreensíveis em grandes bancos de dados
Image: jannoon028 / FreeDigitalPhotos.net
Base de Dados Pré-Processamento Análise Validação
(Conhecimento)
Processo de KDD
Image: jscreationzs/ digitalart / Vlado / jscreationzs / FreeDigitalPhotos.net
Mineração de Dados
Estatística
Matemática
Engenharia
Inteligência ArtificialBancos de Dados
Sistemas de Informação
Visualização
Análises Preditivas
Análises Descritivas
Images: jscreationzs / renjith krishnan / digitalart / sheelamohan / renjith krishnan / FreeDigitalPhotos.net
Detecção de AnomaliasAgrupamento
Descrição de Classes e Conceitos
AssociaçãoPredição: Classificação e Estimação
Computação Natural
Conceitos Básicos
Image: Stuart Miles / FreeDigitalPhotos.net
Imagine um mundo onde os computadores podem criar novos universos, e dentro destes universos existam formas naturais que reproduzem, crescem e pensam. Imagine formas vegetais, montanhas, colônias de formigas, sistemas imunológicos, e cérebros, todos aprendendo e evoluindo, e se tornando mais adaptados ao ambiente. Imagine se nossos computadores passassem a conter novas formas de vida. Pense no que isso afetaria nossas vidas. Talvez pudéssemos criar automaticamente projetos de casas e música, novas formas de proteger computadores contra invasores, novas formas de resolver problemas complexos, novos organismos, e novas formas de computar.
Agora pare de imaginar. Seja bem vindo à Computação Natural
Image: Stuart Miles / FreeDigitalPhotos.net
• Computação Bioinspirada– Redes Neurais Artificiais– Algoritmos Evolutivos– Inteligência de Enxame– Sistemas Imunológicos Artificiais
• Síntese Computacional da Natureza– Geometria Fractal– Vida Artificial
• Computação com Novas Matérias Primas– Computação de DNA– Computação Quântica
Principais Áreas
Aproximador Universal de Funções
f 1
W 1
b 1
u 1
x
1
First layer
y 1 = f 1 ( W 1 x + b 1 )
f 2
W 2
b 2
u 2
y 1
1
Second layer
y 2 = f 2 ( W 2 y 1 + b 2 )
f 3
W 3
b 3
u 3
y 2
1
Third layer
y 3 = f 3 ( W 3 y 2 + b 3 )
y 3
o
ii
m
jjijim wxwfxxxF
10
121 α),...,,(
Ant-Based Clustering
2
1
1
fk
kp p
2
2
fk
fpd
otherwise0
0 ifα
),(1
1)(
)(Neigh2
)(
fd
sfr
ji
issjx
xxx
Immunocomputing
k njiij npkneDGm 1ε)(),(
i
N
j
N
jjijijiij
N
jjiji
i ckycmccmkccmkdt
dc3
1 12
11
1 21
Idiotope
Paratope
1 5
2 4
3
6
Bioinspirações
Nomenclatura e Tipos de DadosSalário
R$Idade
Estado Civil
Cartão de Crédito
Imóveis VeículosNro de Filhos
Possui Cheque Especial
Financiamento
Pretendido
Credito
Autorizado
350 21 Sol. 0 0 0 0 Sim 10.000 Não
3700 52 Cas. 1 1 2 2 Sim 7.000 Sim
1200 26 Cas. 1 0 1 1 Não 10.000 Não
700 25 Sol. 0 0 0 0 Não 5.000 Sim
8500 50 Cas. 2 1 2 2 Sim 40.000 Sim
1800 27 Sol. 1 0 1 0 Sim 20.000 Não
350 20 Sol. 0 0 0 0 Não 10.000 Não
Objetos x AtributosTipos de Dados: Nominais, Ordinais, Numéricos
Estudo de Caso 01 Descrição de Classes e Conceitos
Dados do Reclame Aqui
Panorama Geral do Setor
7%
31%
19%24%
20%
Status das Reclamações
Nao Respondido
Respondido
Replicas
Finalizada - Resolvido
Finalizada - Nao Resolvido
Média Geral Média ">0"
3.9
5.3
0.5
2.6
Média das Notas
Finalizada - Resolvido Finalizada - Nao Resolvido
Panorama Geral do Setor
centra
l
financia
mento
portal
processo
públicodúvid
a
contra
to
resposta
depart
amen
to site
solic
itaçã
o
telefo
ne
atendim
ento
disposiç
ão
esclar
ecim
ento
contat
o
reclam
ação
informaç
ão
relac
ionamen
tocli
ente
2% 2% 2% 2% 2% 2% 2% 3% 3% 4% 4% 5% 5% 5% 5% 5% 6%
10%
13%
17%
Construção Civil - Piores Atendimentos
Panorama Geral do Setor
clien
te
relac
ionamen
to
informaç
ão
reclam
ação
contat
o
esclar
ecim
ento
disposiç
ão
telefo
nesit
e
depart
amen
to
atendim
ento
resposta
solic
itaçã
o
qualidad
e
públicodúvid
aporta
l
serviç
o
preocu
pação
prestar
17%
13%
9%
6% 6% 6% 6%4% 4% 4% 4% 3% 3% 2% 2% 2% 2% 2% 2% 2%
Construção Civil
Estudo de Caso 02 Análise de Sentimento em Tweets
Dados da Rede Globo
• Para realizar as análises a serem apresentadas foram utilizados 206.259 tweets de 127.945 usuários entre os dias 1 e 31 de dezembro de 2010.
• Os atributos disponíveis para essa análise foram: Cliente, Avaliação, Termo, Usuário, Texto e Data.
Base de Análise
Domingão do Faustão
restar
t
gustt
avo
vieira luan
palco
vivo
amores
inventor
kingo cin
e
platina
rockres
tart
mundoam
ore
peitinho
banda
justinbieb
er
vitoria
biber
youtube
segunda
11%
8% 8%
7% 7% 6% 6% 6% 6% 5%4% 4% 4% 4%
3% 3%2% 2% 2% 2%3% 2% 2% 2% 2% 2% 2% 1% 1% 1% 1% 1% 1% 1% 1% 1% 1% 1% 0% 0%
Palavras mais comentadas - Domingão do Faustão
Total Top 20 Total Twitters
Comentários Positivos
profissao
ascari
ocas
esporte
programa
clandesti
noshuck
mulheres
misturad
oxu
xaalt
as
passione
melhor
adoro
familia
aragu
aiajornal
legal
paraben
sad
orei
demais
13%
11%10%
7% 7%6% 6%
5% 5%4% 3% 3% 3% 3% 3% 3% 3% 2% 2% 2%
3% 3% 3%2% 2% 2% 2% 1% 1% 1% 1% 1% 1% 1% 1% 1% 1% 1% 1% 0%
Palavras mais comentadas - Tweets positivos
Total Top 20 Total Twitters
Comentários Negativos
casse
tazo
rra
malhaç
ão
passione
globinho
fausta
o
aragu
aia
acab
ar
novela
merda
acab
ou
querem pior
melhor
nunca
reporte
r
apres
entad
ores
familia xu
xa
27%
16%
8%5% 5% 4% 4% 3% 3% 3% 3% 2% 2% 2% 2% 2% 2% 2% 2% 2%
6%3%
2% 1% 1% 1% 1% 1% 1% 1% 1% 0% 0% 0% 0% 0% 0% 0% 0% 0%
Palavras mais comentados - Tweets negativos
Total Top 20 Total Twitters
InfluenciadoresId Usuários Qtde de
TweetsPercentual de
Tweets (%)Qtde de
SeguidoresQtde de Seguidos
1 adnoticia 253 0,12% 175 2192 annoticia 256 0,12% 271 3503 comuniquebrinde 170 0,08% 1.211 1.9674 feedrssreader 192 0,09% 350 2455 g1 389 0,19% 467.484 216 mariana_viips 155 0,08% 694 677 news_mundo_ 224 0,11% 281 8958 novinhabru 320 0,16% 2.992 1.9639 romariontv 177 0,09% - -
10 segundoplanobr 151 0,07% 347 711 siteg1 207 0,10% 60 -12 sjodiel_indica 262 0,13% 855 61513 standupbot 384 0,19% 386 -14 tudodoesporte 522 0,25% 894 36615 tweets24hs 158 0,08% 2.940 3.25816 vidasemglobo 147 0,07% 600 17717 waldeterossi 313 0,15% 70 1318 zocialtv_br 242 0,12% 338 11519 _invo 720 0,35% 342 22
TOTAL: 5.242 2,54%
Segmentando os Influenciadores
Segmentando os Influenciadores
Grupo 1
adnoticia
annoticia
g1
news_mundo_
siteg1
waldeterossi
_invo
Grupo 2
comuniquebrinde
feedrssreader
segundoplanobr
sjodiel_indica
tweets24hs
Grupo 3
mariana_viips
novinhabru
romariontv
standupbot
tudonoesporte
vidasemglobo
zocialtv_br
Análise dos Grupos
Grupo Palavras
1Rio, Brasil, Paulo, chuva, lula, mundial, policia, governo, sul, natal, pais, wikileaks, brasileiros, Dilma, feira, alemão, sudeste, estados, justiça, preso.
2Rio, Paulo, Brasil, chuva, insensato, pais, governo, natal, wikileaks, Dilma, mundial, justiça, policia, brasileiros, segurança, temporais, projeto, risco, Cielo, prisão.
3Programa, gosta, assista, Faustão, cine, peça, hoje, ajuda, vídeo, twitteado, amore, marcos, noticias, castro, Araguaia, Ana, comedy, zilza, vote, malhação.
Estudo de Caso 03Recomendação em Comércio Eletrônico
Alguns Clientes TUILUX
35
“Os serviços de recomendação personalizada formam um guia
indispensável no processo de escolha de produtos em um e-commerce e visam
sugerir o produto mais atraente para cada cliente, em cada contexto, antes da perda de sua atenção. Essa sugestão pode ser feita através de vitrines personalizadas
dentro da loja ou disparando e-mails com produtos selecionados exclusivamente
para cada cliente.”*
* Artigo publicado na revista E-Commerce Brasil, Ano 2, Edição 1, 2012.
36
37
Visão Geral sobre Serviços de Recomendação
1. Capturar informação sobre os produtos
2. Capturar informação sobre as interações dos usuários
3. Aplicar algoritmos de seleção de produtos
4. Mostrar o conteúdo selecionado
5. Monitorar e analisar a efetividade da recomendação
38
Página de Produto: Exemplos
Vitrine Produtos Relacionados
Cross-sellO que nem os clientes sabiam que queriam
Discussão
O LCoN
Laboratório de Computação Natural
• Missão: Utilizar a computação natural para produzir conhecimento científico de qualidade, promover a formação de capital intelectual altamente qualificado e transformar ciência em tecnologia.
• Visão: Ser referência internacional na formação de mestres e doutores, e na produção de artigos científicos e ferramentas de solução de problemas baseadas na computação natural.
Missão e Visão
Linhas de P&D
• Meta-Aprendizagem para Agrupamento• Algoritmos bio-inspirados para
agrupamento nebulosos de dados• Jogos educacionais• Detecção de anomalias (fraudes e furtos)• Análise de sentimento em redes sociais• Algoritmos de recomendação• Etc.
• Mais informação que nossa capacidade de processá-la
• A natureza como fonte de inspiração para o desenvolvimento de novos paradigmas de computação
• Necessidade de analisar dados de forma sistemática e efetiva
• Gerações X, Y e Z!
Discussão