48
Oficina de Métodos de Análise de Dados & Degustação de Software Livre Prof. Dr. Márcia Echeveste Dr. Vera Martins Aline Gularte Seminário de Iniciação Científica e Tecnológica Departamento de Estatística – IME UFRGS

Oficina de Métodos de Análise de Dados & Degustação de ... · Departamento de Estatística –IME UFRGS. ... 7) Você gosta de Matemática? 8) ... Buscar na lista um diretório

  • Upload
    ngokhue

  • View
    212

  • Download
    0

Embed Size (px)

Citation preview

Oficina de Métodos de Análise de Dados &

Degustação de Software Livre

Prof. Dr. Márcia EchevesteDr. Vera Martins

Aline Gularte

Seminário de Iniciação Científica e Tecnológica

Departamento de Estatística – IME UFRGS

Objetivo:Apresentar elementos básicos para a análise de dados quantitativos em pesquisa e uso de softwares livres

Pré-requisitos: Disciplina de Estatística

Como saber se as pesquisas são

confiáveis?

Fonte https://brasil.elpais.com/brasil/2018/03/15/ciencia/1521113964_993420.htmlAdicionar texto

Princípios:

● Objetividade do pesquisador: basear-se em fatos, evidências;● Precisão da medida: o processo de medida não pode influenciar os resultados;● Natureza contínua e exaustiva de investigação: a busca da verdade é um

processo contínuo que conduz o progresso da ciência;

MÉTODO CIENTÍFICO

PESQUISA CIENTÍFICAPESQUISA CIENTÍFICAPROCURAR EVIDÊNCIAS!!!

ETAPAS DO MÉTODO CIENTÍFICO

Modifique as hipóteses

Observe o Fenômeno

Defina Hipóteses

Teste Hipóteses Experimentos

Estabeleça ateoria com base na repetição

ESTATÍSTICAÉ a ciência que planeja a coleta, classifica, analisa e interpreta dados, usando teorias de probabilidade para previsões e entendimento do padrão de fenômenos em diferentes áreas de pesquisa.

ESTATÍSTICA

Explorar ou Concluir?Descritivo ou Inferencial?Método de pesquisa

DESCRITIVO: Visa descrever o comportamento dos dados. A descrição é normalmente percentuais, medidas-resumo (como média e desvio-padrão), tabelas de distribuição de frequência, gráficos, etc.

Trata-se de coletar uma amostra PROBABILÍSTICArepresentativa da população e a partir

dessa amostra, obter conclusões a respeito da população.

INFERENCIAL

VariáveisVariáveisO que são?

Variáveis em Estatística são meios de mensurar características de interesse no estudo.

Variáveis estão nas “colunas”do Banco de Dados.

Níveis de Mensuração

O que são? Qualitativas, classificatórias, categorias

Qualitativas, relação de ordem

Quantitativa discreta

Contínua

NOMINAL

INTERVALAR

ORDINAL

Escala Características Exemplos Est. Descritiva Est. InferencialNominal Os números classificam e

identificam os objetosClassificação por sexo, segmento de empresas

Porcentagens, moda

Teste Qui-quadrado

Ordinal Os números indicam as posições relativas dos objetos, mas não a magnitude das diferenças entre eles

Classificação de preferência, nível de satisfação

Percentil, mediana Correlação por postos, ANOVA de Friedman

IntervalarDiscreta

Geralmente são números inteiros, representam pontos, ocorrem em intervalos iguais

Número de falhas, número de peças, número de pessoas

Continua É possível comparar as diferenças entre objetos; o ponto zero é arbitrário

Temperatura, idade, renda, custos, vendas

Intervalo, média, desvio-padrão

Correlação, testes t, ANOVA, regressão, análise fatorial

Níveis de mensuração e possíveis análises

Banco de dados

Um banco de dados é uma estrutura de dados organizada que permite a extração de informações.

quest area_Ha sacas Tipo Produtor Munícipio/EstadoSituação atual do

processo de secagem Até o valor __ R$ eu

certamente implementaria

Até o valor ___ R$ eu

certamente pagaria uma

manutenção semestral

Anos que

trabalha com

agricultura

Cargo atual na

fazenda

id Q3a Q3b Q4 Q5 Q6 Q13a Q14a Q15 Q16

1 10 20 1 Morro reuter-RS 1 25.000,00R$ 1.500,00R$ 40 1

2 30 50 1 Jacutinga-RS 1 50.000,00R$ 500,00R$ 37 1

3 3 50 1 Canela-RS 1 60.000,00R$ 500,00R$ 30 1

4 3 60 1 São José do Norte -RS 1 30.000,00R$ 500,00R$ 15 1

5 5 40 1 Nova Prata -RS 1 35.000,00R$ 700,00R$ 47 1

6 60 115 1 Ijuí-RS 1 25.000,00R$ 500,00R$ 14 1

7 40 90 1 Santa Rosa - RS 1 30.000,00R$ 400,00R$ 10 1

8 80 110 1 Lajeado-RS 1 35.000,00R$ 600,00R$ 13 1

9 70 110 1 Caxias do Sul -RS 1 30.000,00R$ 400,00R$ 17 1

10 90 115 2 Torres -RS 3 60.000,00R$ 600,00R$ 40 1

11 140 120 2 São Nicolau -RS 2 70.000,00R$ 1.000,00R$ 25 1

12 70 140 2 Erechim - RS 2 70.000,00R$ 1.000,00R$ 14 1

13 200 150 2 Turvo - SC 2 30.000,00R$ 1.000,00R$ 60 1

14 60 120 2 Torres -RS 2 70.000,00R$ 750,00R$ 23 1

15 100 170 2 Itaqui -RS 2 45.000,00R$ 800,00R$ 21 1

16 80 160 2 Santa Vitória do Palmar -RS 2 40.000,00R$ 1.000,00R$ 17 1

17 108 75 2 Novo Machado -RS 3 90.000,00R$ 1.000,00R$ 34 1

18 70 120 2 São Borja -RS 1 40.000,00R$ 800,00R$ 17 1

19 65 100 2 Alegrete- RS 1 55.000,00R$ 700,00R$ 19 1

20 260 160 2 Eudoraldo do Sul - RS 1 30.000,00R$ 1.000,00R$ 40 1

21 240 236 2 Cruz Alta -RS 4 70.000,00R$ 800,00R$ 23 1

22 170 142 2 Tupanciretã -RS 4 60.000,00R$ 700,00R$ 26 1

Linhas=

unidade

experimental

Colunas=

variáveis

Unidade amostralO que é?

Unidade Amostral é a menor unidade de análise de um estudo.

Geralmente são as observações que podem ser: indivíduos, cidades, empresas.

Estão nas “linhas”do Banco de Dados.

Unidade amostral

Conceitos-

chave

Degustação Degustação

EXERCíCIO

ABRIR O BANCO DE DADOS “olimpiadas_matemática.xls”

Análise de Dados

1. MEDIDAS RESUMO

2. TABELAS SIMPLES

3. TABELAS ESTATÍSTICAS

4. TABELAS DE CONTIGÊNCIA

5. GRÁFICOS

6. TESTE QUI-QUADRADO

HISTÓRIA

OLIMPÍADAS DE MATEMÁTICA

Dados sobre alunos do ensino médio, a respeito da Olimpíadas de Matemática. OBMEP

n = 126 respondentes; 24 variáveis.

Turma

Sexo

Idade3) Você está cursando qual ano do Ensino Médio?

4) O que você acha do grau de dificuldade questões da prova da OBMEP?

5) Qual o seu grau de entusiasmo/envolvimento para resolver a prova da OBMEP?

6) Quantas vezes você já participou da OBMEP durante o Ensino Médio?

7) Você gosta de Matemática?

8) A OBMEP causou algum impacto na sua percepção como aluno para o ensino de Matemática?

9) Quantas vezes você foi classificado para a segunda fase da OBMEP durante o Ensino Médio?

10) ......

13) Os professores costumam avisar com antecedência a aplicação das provas da OBMEP?

17) .......

18) Os professores corrigem a prova da OBMEP que foi aplicada em algum momento?

19) Você procura o professor para resolver alguns exercícios da prova da OBMEP?

20) Você estudou durante o Ensino Fundamental em uma Escola Pública?

22) Quantas vezes você participou da OBMEP na primeira fase?

23) Quantas vezes você foi classificado para a segunda fase da OBMEP (nível 1 ou nível 2)?

24) Os professores incentivavam a sua participação?

VARIÁVEIS

SOFTWARE R COMMANDER

SOFTWARE R COMMANDER

O Rcommander ou Rcmdr é uma interface gráfica intuitiva, alternativa à utilização com programação do R-Project.

Nesta interface estão disponíveis as análises mais comumente utilizadas por usuários do R e sua instalação é ativada por pacotes específicos.

Para instalar o Rcommander é necessário a instalação prévia do R-Project adequada ao seu sistema operacional: https://www.r-project.org/

R Commander (Rcmdr) a graphical interface for R

https://www.r-project.org/

Após a instalação do R-Project deve-se seguir os seguintes passos:

1- Instalar pacotes: Clicar em pacotes; Instalar pacotes e

2 - Buscar na lista um diretório de sua preferência e clicar em ok.

Uma janela chamada Packages se abrirá e deverá selecionar o Rcmdr.

1

2

É preciso aguardar a finalização da instalação. O R Console estará mostrando as etapas de instalação, este processo pode demorar algum tempo.

3 - Carregar pacotes: Para utilizar o pacote é preciso clicar novamente em “pacotes”; e,

4 - Clicar em carregar pacotes; Procure o Rcmdr na lista.

Provavelmente pacotes adicionais serão necessários, apenas autorize a busca e instalação.

3

4

Ao carregar o pacote, a interface se abrirá. Então basta carregar o arquivo com os dados e você já pode fazer suas análises estatísticas!!!

Passe o mouse sobre as abas, descubra que análises poderá fazer e aprecie sua degustação.

E mais...

O Rcommander oferece uma gama de 29 pacotes diferentes para realizar as suas análises. Escolha o mais adequado e aprecie os resultados.

http://www.rcommander.com/

RcmdrPlugin.BCA Rcmdr Plug-In for Business and Customer Analytics

RcmdrPlugin.coin Rcmdr Coin Plug-In

RcmdrPlugin.depthTools R commander Depth Tools Plug-In

RcmdrPlugin.doBy Rcmdr doBy Plug-In

RcmdrPlugin.DoE R Commander Plugin for (industrial) Design of Experiments

RcmdrPlugin.doex Rcmdr plugin for Stat 4309 course

RcmdrPlugin.EACSPIR Plugin de R-Commander para el manual EACSPIR

RcmdrPlugin.EBM Rcmdr Evidence Based Medicine Plug-In package

RcmdrPlugin.epack Rcmdr plugin for time series

RcmdrPlugin.EZR R Commander Plug-in for the EZR (Easy R) Package

RcmdrPlugin.HH Rcmdr support for the HH package

RcmdrPlugin.IPSUR An IPSUR Plugin for the R Commander

RcmdrPlugin.KMggplot2 Rcmdr Plug-In for Kaplan-Meier Plots and Other Plots Using the ggplot2 Package

RcmdrPlugin.mosaic Adds menu items to produce mosaic plots and assoc plots to Rcmdr

RcmdrPlugin.MPAStats R Commander Plug-in for MPA Statistics

RcmdrPlugin.orloca orloca Rcmdr Plug-in

RcmdrPlugin.plotByGroup Rcmdr plots by group using lattice

RcmdrPlugin.qcc Rcmdr qcc Plug-In

RcmdrPlugin.qual Rcmdr plugin for quality control course

RcmdrPlugin.SCDA Rcmdr plugin for designing and analyzing single-case experiments

RcmdrPlugin.seeg Rcmdr Plugin for seeg

RcmdrPlugin.SLC SLC Rcmdr Plug-in

RcmdrPlugin.SM Rcmdr Sport Management Plug-In

RcmdrPlugin.StatisticalURV Statistical URV Rcmdr Plug-In

RcmdrPlugin.steepness Steepness Rcmdr Plug-in

RcmdrPlugin.survival R Commander Plug-in for the survival Package

RcmdrPlugin.TeachingDemos Rcmdr Teaching Demos Plug-In

RcmdrPlugin.temis Graphical user interface providing an integrated text mining solution

RcmdrPlugin.UCA UCA Rcmdr Plug-in

Abra o arquivo excel

Identifique as variáveis e o nível de mensuração

Analise os dados usando o R Commander

PRÁTICAPRÁTICA

PRÁTICA 1(1) Qual o percentual(%) de respondentes que declararam gostar de matemática?

(2) Quantas vezes, em média, os respondentes participaram da OBMEP entre meninos e meninas?

(3) O grau de dificuldade percebido da avaliação da OBMEP depende da série na qual o aluno está

matriculado?

(4) Compare os gráficos de histogramas de idade entre meninos e meninas. Apresente o boxplot.

(5) Relacione o grau de entusiasmo com o número de vezes que passou para a segunda fase.

PRÁTICA 2Considere os dados do banco EXTRA, que fornece o sexo, idade e percentual de

gordura corporal de 18 alunos.

Pergunta: O pesquisador gostaria de saber se há associação entre o percentual de

gordura e a idade dos alunos?

FAÇA VOCÊ MESMO:(1) Qual o percentual(%) de respondentes que são meninos e meninas?

(2) Qual a média da idade dos respondentes que participaram da OBMEP entre meninos e

meninas?

(3) Os alunos que se preparam para a prova da OBMEP percebem algum impacto para o ensino da

matemática?

(4) Compare os gráficos de histogramas de número de participações por entre meninos e meninas.

HINTSHINTS (FAÇA VOCÊMESMO)(1) Estatísticas Resumos Distribuições de Frequência

Variável: sexo.

(2) Estatísticas Resumos Tabela de Estatísticas

Variáveis: sexo x Idade

(3) Estatísticas Tabela de Contingencia Tabelas de dupla entrada

Variáveis: q8 x q14

(Ir em: Estatísticas Percentual nas colunas e Testes de independência de Qui-Quadrado)

(4) Gráficos Histograma...

Variáveis: q6 x sexo

1

2

GERANDO RELATÓRIO

ESTATÍSTICAS MULTIVARIADAS

R Commander & RStudio

3 – Área de trabalho e

Histórico

1 – Código

2 – R Console4 – Gráficos, pacotes e Help

EXPORTAR GRÁFICOS

R Commander & RStudio

AUTO AJUDA ESTATISTICA AUTO AJUDA ESTATÍSTICA

http://www.portalaction.com.br/ambiente-virtual-de-aprendizado

Portal Action possui um ambiente virtual de aprendizado que desmobiliza conteúdos de estatística apresentados em forma teórica e prática, com muitos exemplos para facilitar o entendimento.

O JASP é um programa gráfico gratuito e de código aberto para análise estatística, projetado para ser fácil de usar e familiar aos usuários do software SPSS.

Além disso, o JASP fornece muitos métodos estatísticos bayesianos. SPSS - Statistical Package for Social Sciences

*https://jasp-stats.org/

O Kaggle é uma plataforma de modelagem preditiva e de competições analíticas em que estatísticos e mineradores de dados competem para produzir os melhores modelos para prever e descrever os conjuntos de dados enviados por empresas e usuários.

Essa abordagem de crowdsourcing se baseia no fato de que existem inúmeras estratégias que podem ser aplicadas a tarefa de modelagem preditiva.

https://www.kaggle.com/

OUTROS SOFTWARES LIVRESOUTROS SOFTWARES LIVRES

OUTROS SOFTWARES LIVRES

O que é Power BI?

O Power BI é um pacote de ferramentas de análisede negócios que oferece insights em toda a suaorganização.

Todos podem criar painéis personalizados com umaexibição exclusiva e completa dos negócios e escalaro seu uso em toda a empresa, com governança esegurança internas.

OUTROS SOFTWARES LIVRES

PSPP é um software livre para análise de dados, destinado a ser uma alternativa para o IBM SPSS.

Permite gerar relatórios tabulados, normalmente utilizados na realização de análises descritivas e inferências a respeito de correlações entre variáveis.

O software possibilita a realização de análises descritivas, testes T, regressão linear e testes não paramétricos.

We love data. And we love getting data good and tight and comprehensive.

● https://informationisbeautiful.net/about/

Para saber mais:

NAE

NÚCLEO DE

ASSESSORIA

ESTATÍSTICA

Departamento de Estatística

IME- UFRGS

www.mat.ufrgs.br/nae/onae.htm