Fundamentos, precau¸c˜oes e tendˆencias Prof. Walmes...

Preview:

Citation preview

Visualizacao de dadosFundamentos, precaucoes e tendencias

Prof. Walmes Zevianiwalmes@ufpr.br

Departamento de EstatısticaUniversidade Federal do Parana

Sobre mim

Formacao

I Bel. em Agronomia - UFGD (2007).I MSc. em Estatıstica & Experimentacao Agropecuaria - UFPR (2009).I Dsc. em Estatıstica & Experimentacao Agropecuaria - UFPR (2013).

Walmes Zeviani · DEST/UFPR Visualizacao de dados 2

Sobre mim

Atuacao academica

I Prof. Adjunto III - Departamento de Estatıstica - UFPR (2010 - hoje).I Ensino:

I Estatıstica Computacional II - Bel. em Estatıstica).I Controle de Processos Industriais - Bel. em Estatıstica).I Planejamento e Analise de Experimentos - PP em Agro. e Prod.

Vegetal.I Assuntos diversos na Esp. em Data Science & Big Data.

I Projetos e contribuicoes:I Ciencia do solo, fitopatologia e eng. florestal (recente).I Treinamentos em R, materiais de apoio e palestras.

Walmes Zeviani · DEST/UFPR Visualizacao de dados 3

Sobre mim

Interesses

I Planejamento e analise de experimentos.I Modelos de regressao, principalmente nao linear.I Manipulacao e visualizacao de dados.I Mineracao de texto.

Walmes Zeviani · DEST/UFPR Visualizacao de dados 4

Sobre mim

Contato

I Homepage: http://www.leg.ufpr.br/∼walmesI Email: walmes@ufpr.brI Twitter: @walmeszevianiI Instagram: @walmeszeviani

Walmes Zeviani · DEST/UFPR Visualizacao de dados 5

Por que Visualizacao de Dados e taoimportante?

Walmes Zeviani · DEST/UFPR Visualizacao de dados 6

O poder de ver alem

“The greatest value of a picture is when it forces usto notice what we never expected to see.”

– John Tukey · Estatıstico

“Visualization gives you answers to questions youdidn’t know you had.”

– Ben Schneiderman · Cientista da Computacao

Walmes Zeviani · DEST/UFPR Visualizacao de dados 7

O fenonemo Big Data

Definicao e desafiosI Big data: conjuntos de dados

grandes ou complexos em queas abordagens tradicionais deprocessamento sao inadequadas.

I Desafios: captura,armazenamento, beneficiamento,consulta, transferencia,visualizacao, analise eprivacidade.

Figura 1. Os 8 V’s do Big Data.

Walmes Zeviani · DEST/UFPR Visualizacao de dados 8

O fenonemo Big Data

Algumas estatısticasI 90% dos dados no mundo foram

gerados nos ultimos 2 anos!I 2.5 bilhoes de GB de novos

dados ao dia!I IoT: 1 trilhao de dispositivos

conectados em 2015.

Figura 2. Infografico sobre tipos de dados emBig Data.

https://www.sciencedaily.com/releases/2013/05/130522085217.htm

Walmes Zeviani · DEST/UFPR Visualizacao de dados 9

O fenonemo Big Data

Comunicacao

“The art of communication is the language of leadership.”

– James Humes

I Acesso/inspecao de dados de forma visualmente disgestıvel.I Graficos bem elaborados sao uma forma simples e poderosa de

reconhecimento de padroes, extracao de insights e comunicacao.

Walmes Zeviani · DEST/UFPR Visualizacao de dados 10

Uma breve passagem pela historia daVisualizacao de Dados

Walmes Zeviani · DEST/UFPR Visualizacao de dados 11

Linha do tempo da Visualizacao de Dados

Gráfico de linhas, barras, setores.

1786 - Willian Playfair

Mapeamento e descobertada fonte de cólera.

1854 - John Snow

Diagamas “coxcomb” do exército britânico.

1858 - Florence Nightingale

Exército de Napoleãomarcha para Rússia.

1861 - Charles Minard

Graphic methods for presenting factsVisualização para negócios.

1914 - Willard Brinton

Sémiologie graphiqueTeoria da vis. e 7 variáveis visuais.

1967 - Jacques Bertin

The visual display of quantitative informationRigor estatístico, clareza, design.

1983 - Edward Tufte

Tese sobre J. Bertin para a era da digital.

1986 - Jock Mackinlay

Charting statisticsBoas práticas no GovernoAmericano.

1952 - Mary Eleanor Spear

Vis. com computadores e vis.exploratória e confirmatória.

1970s - John Tukey

Recursos para construção de vis.Vis. interativa e em tempo realDashboards

Hoje

Medir percepção gráfica e vis. efetiva.

1984 - W. Cleveland & R. McGill

Percepção · Lei de WeberEfetividade gráfica.

2010 - Ronald Rensink

The gammar of graphicsGramática concisa para repres.componentes gráficos.

1999 - Leland Wilkinson

1900 – 2000

Walmes Zeviani · DEST/UFPR Visualizacao de dados 12

Linha do tempo da Visualizacao de Dados

Figura 3. William Playfair (esq.), grafico de barras (meio) e grafico de linhas (dir.).

1786 - Willian Playfair produziu os primeiros graficos de linhas, barras esetores.

Walmes Zeviani · DEST/UFPR Visualizacao de dados 13

Linha do tempo da Visualizacao de Dados

Figura 4. John Snow e as ocorrencias de obito por colera em Londres, 1854.

1854 - John Snow (medico britanico) descobre a fonte transmissora decolera com uma representacao no mapa das ocorrencias dos obitos.

Walmes Zeviani · DEST/UFPR Visualizacao de dados 14

Linha do tempo da Visualizacao de Dados

Figura 5. Florence Nightingale e os diagramas de “coxcomb”.

Florence Nightingale (enfermeira britanica) foi enfermeira voluntaria naguerra da Crimeia (1853 a 1856).

1858 - Florence Nightingale produziu o “coxcomb diagrams” que mostrou oefeito devastador de doenca sobre o exercito britanico.

Walmes Zeviani · DEST/UFPR Visualizacao de dados 15

Linha do tempo da Visualizacao de Dados

Figura 6. Charles Minard e a baixas da investida de Napoleao sobre o territorio da Russia.

1861 - Charles Minard (eng. civil frances) publicou um diagrama exibindoas baixas no exercito de Napoleao na marcha para a Russia.

Walmes Zeviani · DEST/UFPR Visualizacao de dados 16

Linha do tempo da Visualizacao de Dados

Figura 7. Paginas de “Graphic Methods for presenting Facts”.

1914 - Willard Brinton (engenheiro americano) publicou o “GraphicMethods for presenting Facts”, o primeiro livro de visualizacao paranegocios.

Walmes Zeviani · DEST/UFPR Visualizacao de dados 17

Linha do tempo da Visualizacao de Dados

Figura 8. Capa e dobras de “Pratical Charting Statistics”.

1952 - Mary Eleanor Spear publicou o “Pratical Charting Statistics”, boaspraticas baseadas em decadas de servico no governo Americano.

Walmes Zeviani · DEST/UFPR Visualizacao de dados 18

Linha do tempo da Visualizacao de Dados

Figura 9. Jacques Bertin e sua obra em dois idiomas.

1967 - Jacques Bertin (cartografo frances) publicou “Semiologie Graphique”,primeiro sobre teoria da visualizacao.

Bertin descreveu 7 variaveis visuais (posicao, tamanho, forma, cor, saturacao,orientacao e textura) e estabeleceu 2 princıpios: o da expressividade e daefetividade.

Walmes Zeviani · DEST/UFPR Visualizacao de dados 19

Linha do tempo da Visualizacao de Dados

Figura 10. John Tukey e a capa de seu livro.

1970s - John Tukey (matematico americano) foi o pioneiro no uso decomputadores para visualizacao e popularizou o conceito de visualizacaoexploratoria e confirmatoria.

Tukey foi o criador do grafico de caixas e bigodes ou boxplot.

Walmes Zeviani · DEST/UFPR Visualizacao de dados 20

Linha do tempo da Visualizacao de Dados

Figura 11. Edward Tufte e sua obra.

1983 - Edward Tufte publicou o “The visual display of quantitativeinformation” combinando rigor estatıstico com clareza e princıpios de design.

Walmes Zeviani · DEST/UFPR Visualizacao de dados 21

Linha do tempo da Visualizacao de Dados

Figura 12. Ilustracao de formas de percepcao grafica dos trabalhos de Cleveland e McGill.

1984 - Willian Cleveland e Robert McGill publicaram os primeiros artigossobre percepcao grafica, buscando compreender como fazer visualizacoesefetivas.

Walmes Zeviani · DEST/UFPR Visualizacao de dados 22

Linha do tempo da Visualizacao de Dados

Figura 13. Jock Mackinlay e o menu de opcoes de graficos do Tableau.

1986 - Jock Mackinlay publicou sua Tese de PhD que levou o trabalho deJacques Bertin para era digital.

Hoje Mackinlay e vice presidente de P&D do Tableau.

Walmes Zeviani · DEST/UFPR Visualizacao de dados 23

Linha do tempo da Visualizacao de Dados

Figura 14. Leland Wilkinson e as camadas na gramatica de graficos usado no pacote ggplot2.

1999 - Leland Wilkinson publicou o “The Grammar of Graphics” queestabeleu uma gramatica concisa para descrever os componentes de umgrafico.

Walmes Zeviani · DEST/UFPR Visualizacao de dados 24

Linha do tempo da Visualizacao de DadosI 1990s – 2000 - Ocorrem varias ramificacoes de abordagem para

visualizacao de dados: abordagens orientadas a computadores,orientadas ao design e a comunidade cientıfica.

I 2010sI A internet social, softwares amigaveis e baratos, massiva disposicao de

dados democratiza a pratica da visualizacao em todos os segmentos.I Cria-se uma atmosfera propıcia para experiencias.I Visualizacao nao e mais uma provıncia de experts, e um fenomeno.

I HojeI As experiencias continuam um amplo espectro de disciplinas.I Ferramentas para visualizacao continuamente evoluem.I Representacoes graficas mais apropriadas sao desenvolvidas.I Novas dimensoes: animacao, reatividade e interatividade.I Valocidade e acesso: atualizacao em tempo real, relatorios web,

aplicativos moveis, smart thigs.I Monitoramento com dashboards.

Walmes Zeviani · DEST/UFPR Visualizacao de dados 25

Figura 15. Exemplo de dashboard.

Walmes Zeviani · DEST/UFPR Visualizacao de dados 26

Figura 16. Dashboard feito com o R.

Walmes Zeviani · DEST/UFPR Visualizacao de dados 27

Fundamentos importantes em Visualizacao deDados

Walmes Zeviani · DEST/UFPR Visualizacao de dados 28

ConstrucaoComo linguagem

I Visualizacao de dados tem um papel crıtico no jornalismo moderno:jornalismo de dados.

I Data storytelling com visualizacao cria uma impactante resposta naaudiencia.

Fundamentos

I Conceito de camadas, estabalecimento de hierarquias e preconizarclareza.

I Desafiar o usuario a pensar sobre a substancia ao inves dametodologia, design grafico ou tecnologia usada para construcao.

I Encorarar o olho a comparar e identificar padroes, revelar nos dadosvarios nıveis de detalhes, de uma visao ampla ate estatısticasminuciosas.

I The visual display of quantitative information - Edward Tufte.Walmes Zeviani · DEST/UFPR Visualizacao de dados 29

Graficos e infograficosQual a diferenca?

I Visualizacao de dados (data graphics).I Entender tendencias, padroes e relacoes.I Instrumentos para raciocinar sobre a informacao.I Exibicao visual de quantidades medidas mapeadas em atributos visuais,

geometricos e esteticos.I A mesma tecnica de visualizacao pode ser reutilizada em muitos

dados/contextos.I Graficos de informacao (info graphics).

I Representacao caracterısticas especıficas e informacao processada.I Instrumentos para comunicacao visual da informacao.I Representacao visual da informacao, para mais enfase ou compreensao.I Podem ilustrar processos, fluxos, etc.I O infografico e especifıco de um contexto.

Ambos podem ser estaticos, animados ou interativos.

https://readwrite.com/2011/01/07/difference-between-datavisualization-infographics/

Walmes Zeviani · DEST/UFPR Visualizacao de dados 30

Figura 17. Exemplos de infograficos.

Walmes Zeviani · DEST/UFPR Visualizacao de dados 31

Quando usar visualizacao de dados

I Absorver informacao de forma rapida e criativa.I Compreender relacoes, padroes e tendencias.I Identificar e agir sobre emergentes tendencias rapidamente.I Manipular e interagir diretamente com os dados.I E a nova linguagem para comunicacao entre pessoas na industria

orientada aos dados.

Walmes Zeviani · DEST/UFPR Visualizacao de dados 32

E para a area academica

“Most of us need to listen to the music to understand how beautiful it is.But often that’s how we present statistics: we just show the notes, we don’t

play the music.”

– Hans Rosling

I Melhor compreensao dos fenomenos.I Adocao de sensores: muitos dados → representacao suscinta.I Geracao e aperfeicoamento de hipoteses e modelos conceituais.I Maior impacto na comunicacao dos resultados.I Cativacao dos revisores e da audiencia.

Walmes Zeviani · DEST/UFPR Visualizacao de dados 33

Variaveis visuais

Figura 18. Variaveis visuais de Bertin.

https://library.ucalgary.ca/ld.php?content id=25052966

Walmes Zeviani · DEST/UFPR Visualizacao de dados 34

Sobre a percepcao/julgamento visualComo elas permitem julgar/perceber?

I Magnitude.I Diferencas.I Associacao.I Tendencias.I Pertencimento.

Figura 19. As variaveis visuais.

Walmes Zeviani · DEST/UFPR Visualizacao de dados 35

Propriedades das variaveis visuais

I Seletiva - capaz de destacar um caso dos demais?I Associativa - capaz de indentificar grupos?I Quantitativa - capaz de dizer que algo e 3x que outro?I Ordenativa - capaz de expressar a ordem, do menor para o maior?I Diferenciativa/divisiva - quantas diferencas sao possıveis detectar?

https://library.ucalgary.ca/ld.php?content id=25052966

Walmes Zeviani · DEST/UFPR Visualizacao de dados 36

Classificacao

Selet. Assoc. Quant. Orden. Divis.Tamanho X X ± X 5/20Posicao X X X X XForma < 5 < 5 × × 5/X

Saturacao X X × X 7/10Cor X X ± ± 7/10

Angulo X X × × 4/8Textura X X × × X

https://library.ucalgary.ca/ld.php?content id=25052966

Walmes Zeviani · DEST/UFPR Visualizacao de dados 37

Classificacao pela adequabilidade das variaveis visuais

Figura 20. Classificacao das variaveis visuais quanto a adequabilidade para cada tipo depercepcao.

Walmes Zeviani · DEST/UFPR Visualizacao de dados 38

Landscape de Recursos Graficos do R

Walmes Zeviani · DEST/UFPR Visualizacao de dados 39

O landscape de recursos no R

I graphicsI Conjunto de recursos basicos e primitivos.I Extendidos por pacotes como plotrix e gplots.I Outputs graficos de modelos (resıduos, dendrogramas, biplots, etc).

I latticeI Desenvolvido por Deepayan Sarkar.I Plotagem multipainel, mapeamento em cores, sımbolos, etc.I E parte do grupo de pacotes recomendados do R.I Extendido com a latticeExtra.

Walmes Zeviani · DEST/UFPR Visualizacao de dados 40

O landscape de recursos no R

I ggplot2I Desenvolvido por Hadley Wickham.I E baseado na Grammar of Graphics.I Plotagem multipainel, mapeamento em variaveis visuais, etc, equivalente

a lattice.I Porem, com uma sintaxe clara e concisa.I Tem se tornado cada vez mais popular.

I Visualizacao com animacao, reatividade ou interatividade: plotly,highcharter, googleVis, rCharts, leaflet, iplots, rgl, animatione outros.

https://www.stat.ubc.ca/∼jenny/STAT545A/block90 baseLatticeGgplot2.html

Walmes Zeviani · DEST/UFPR Visualizacao de dados 41

O que voce deve evitar

“The human eye is a wonderful device. With a little effort, it can fail to seeeven the most glaring injustice.”

– Richard K. Morgan · Altered Carbon

Walmes Zeviani · DEST/UFPR Visualizacao de dados 42

Figura 21. Grafico de setores com perspectiva tridimensional gera distorcao dos angulos.

Walmes Zeviani · DEST/UFPR Visualizacao de dados 43

Figura 22. Comparacao de comprimentos angulares e menos precisa, principalmente em umaperspectiva 3D.

Walmes Zeviani · DEST/UFPR Visualizacao de dados 44

Figura 23. Perpectiva 3D e pontos de fuga deformam o sistema de coordenadas e dificultamparceber comprimentos.

Walmes Zeviani · DEST/UFPR Visualizacao de dados 45

Figura 24. Mais do mesmo. Softwares comerciais de planilha eletronica oferencem variosrecusos graficos tridimensionais com baixa efetividade. Isso popularizou ou maluso de graficos (availability bias).

Walmes Zeviani · DEST/UFPR Visualizacao de dados 46

Figura 25. Graficos que violam os princıpios de expressividade e efetividade.

Walmes Zeviani · DEST/UFPR Visualizacao de dados 47

Figura 26. A falta de sistema de coordenadas para compreensao da informacao o torna sim-plesmente uma alegoria.

Walmes Zeviani · DEST/UFPR Visualizacao de dados 48

“You can achieve simplicity in the design of effective charts, graphs andtables by remembering three fundamental principles: restrain, reduce,

emphasize.”

– Garr Reynolds

Walmes Zeviani · DEST/UFPR Visualizacao de dados 49

Consideracoes finais

“Numbers have an important story to tell. They rely on you to give them aclear and convincing voice.”

– Stephen Few

I Esforce-se para compreender melhor os seus dados.I Invista em recursos para manipulacao e visualizacao de dados!I Na pesquisa, uma apropriada visualizacao impacta mais do que

multiplas tabelas, testes e ındices de ajuste.I No R: aprenda os recursos basicos, depois va para o ggplot2.

Walmes Zeviani · DEST/UFPR Visualizacao de dados 50

Pela oportunidade e atencao, agradeco.

Prof. Walmes Zevianiwalmes@ufpr.br

Walmes Zeviani · DEST/UFPR Visualizacao de dados 51