Upload
marcel-caraciolo
View
1.975
Download
3
Embed Size (px)
DESCRIPTION
My lecture at PythonBrasil about Data mining applied on the lectures of Python Brasil. Lighting talk - PythonBrasil - Curitiba -22/10/2010
Citation preview
Marcel Caraciolo - @marcelcaraciolo
Mineração de Palestras
1
Quem é Marcel ?
Marcel Pinheiro Caraciolo - @marcelcaraciolo
Mestrando em Ciência da Computação no CIN/UFPE na área de mineração de dados
Diretor de Pesquisa e Desenvolvimento na Orygens
Membro e Moderador da Celúla de Usuários Python de Pernambuco (PUG-PE)
Minhas áreas de interesse: Computação móvel e Computação inteligente
Meus blogs: http://www.mobideia.com (sobre Mobilidade desde 2006) http://aimotion.blogspot.com (sobre I.A. desde 2009)
Jovem Aprendiz ainda nas artes pythonicas.... (desde 2007)
Sergipano, porém Recifense.
2
Como comecei esta análise ?
20 hrs atrás no Hotel....
3
Scraping do PythonBrasil
Mini-Crawler para extrair as palestras aprovadasurllib2,BeautifulSoap, regex...
4
Dilema
Esses dados são Públicos ??
Não ? Podemos negociar ein ...
5
Alguns dados interessantes
6
48 Palestras aceitas2160 minutos de Palestras
7
Ou seja
=˜388.800 tweets postados
8
Ou assistir
Todas temporadas Big Bang Theory
Toda a Saga Star Wars 2x
9
Na nossa língua agora...
Zerar Super Mario 216 x
http://video.google.com/videoplay?docid=-8297067084319900351&q=mario#
10
Na nossa língua agora...
Abrir o Eclipse 2 vezes!
11
Total de Pontos recebidos: 4812
12
Convertendo em votos
Não dava para eleger Tiririca, mas
Mas veja conseguimos um número perfeito!
4812 MB = Capacidade de um DVD!
13
Palestra Hackeada
Dinf & C3SL infra estrutura - 999 vontos
Apelão mesmo!
14
Distribuição das palestras
Ainda precisamos distribuir melhor o nível das
palestras!
Avançado2%
Intermediario56%
Basico42%
AvançadoIntermediarioBasico
15
Distribuição das palestras
16
Temas mais frequentes
Temas relacionados a desenvolvimento, dados, sistemas, linguagem,ferramentas, django
A partir dos resumos
17
Temas mais frequentes
Mas como ver a distribuição dos temas
18
Temas mais frequentes
Mas ainda fica difícil de distinguir!
19
Distribuição das palestras
Utilizado o algoritmo de clustering K-means
Ferramenta de visualização em Python UbiGraph
DEMO
20
Distribuição das palestrasFerramenta de visualização UbiGraph
Inteligencia Artificial
HardwareWeb (Django e AppEngine)
Empreendorismo
Padrões e Práticas
Ferramentas
Testes
Mineração de Dados
http://ubietylab.net/ubigraph/
21
RESUMO
Excelente nível de palestras!
Submetam seus trabalhos, vocês podem estar aqui também!
Engaje, colabore e divulgue!
22
Marcel Caraciolo - @marcelcaraciolo
Mineração de Palestras
23
Marcel Caraciolo - @marcelcaraciolo
Mineração de Palestras
23