28
05/04/2011 1 Profª Drª Alcione Miranda dos Santos Departamento de Saúde Pública – UFMA Programa de Pós-Graduação em Saúde Coletiva-UFMA INTRODUÇÃO AO INTRODUÇÃO AO Por que STATA? Muitos dos pacotes estatísticos são bastante extensos em termos de opções de análise disponíveis. Alguns são mais voltados para áreas específicas. O STATA tem recursos para trabalhar por meio da Internet. Site: www.stata.com O STATA já está em sua versão 11.0.

Slides Tutorial Stata

Embed Size (px)

Citation preview

Page 1: Slides Tutorial Stata

05/04/2011

1

Profª Drª Alcione Miranda dos SantosDepartamento de Saúde Pública – UFMA

Programa de Pós-Graduação em Saúde Coletiva-UFMA

INTRODUÇÃO AOINTRODUÇÃO AO

Por que STATA?� Muitos dos pacotes estatísticos são bastante extensos

em termos de opções de análise disponíveis.

� Alguns são mais voltados para áreas específicas.�

� O STATA tem recursos para trabalhar por meio daInternet.

� Site: www.stata.com

� O STATA já está em sua versão 11.0.

Page 2: Slides Tutorial Stata

05/04/2011

2

Iniciando o STATA

� Command – entrada dos comandos STATA.

� Results – mostra o comando que você digitou e o respectivoresultado. (Se “more” é apresentado, pressione ‘enter’ paracontinuar os resultados ou ‘q’ para sair).

� Review – mostra o histórico dos comandos digitadosrecentemente.

� Variables – lista as variáveis contidas na base de dados.

� Data Editor – mostra a base de dados atual em forma deuma planilha. Esta janela pode ser fechada posteriormente.

� Graph – apresenta os resultados dos gráficos.

Quando iniciamos o STATA, várias janelas aparecem:

Page 3: Slides Tutorial Stata

05/04/2011

3

Introdução aos comandos do STATA

� Todos os comandos do STATA devem ser digitadosem letras minúsculas.

� O programa é sensível a letras maiúsculas eminúsculas, ou seja

Sexo ≠ sexo

� Muitos comandos podem ser abreviados (porexemplo:

� summary summ

� tabulate tab

� describe desc

� Existem duas maneiras de trabalhar com o STATA:

� Modo interativo: Comandos podem ser digitadosdiretamente na janela Command e executadospressionando Enter.

� Modo em lote: Comandos podem ser escritos em umarquivo separado (chamado arquivo do) e executadoem uma única vez.

� Primeiramente, usaremos o modo interativo para osexercícios, posteriormente veremos como criararquivos do.

Introdução aos comandos do STATA

Page 4: Slides Tutorial Stata

05/04/2011

4

� Para saber qual diretório está sendo usado,digite pwd

pwd

D:\stata10\Stata10

� Para criar um diretório, use o comandomkdir

mkdir aulas

cd aulas

pwd

D:\stata10\Stata10\aulas

Introdução aos comandos do STATA

EXERCÍCIO 1: Conhecendo o STATA

� Abra o programa Stata 10.0� Identifique as janelas: Results, Command, Review,

Variables.

� Abra o editor de dados ( ) e tente entrar comalguns valores (digite os valores e pressioneEnter).

� Feche o editor de dados e então digite ocomando clear na janela Command.

� Clique no ícone Help (Help � Contents).

Page 5: Slides Tutorial Stata

05/04/2011

5

Abrindo a base de dados

O STATA pode ler os seguintes tipos de arquivos:

.dta – formato Stata

.txt - formato ASCII (text)

.raw – formato ASCII (text)

.xls – formato Excel

� Base de dados criada no STATA tem a extensão .dta.

� Para acessar o arquivo existente (por exemplo, filename.dta) selecionando File � Open ou digitando:

use filename, clear

� Se o nome do arquivo contém espaços em branco, ele deve ser colocado entre aspas.

Abrindo a base de dados

Page 6: Slides Tutorial Stata

05/04/2011

6

� O STATA mantém a base de dados na memória.

� Se você estiver trabalhando com uma base de dados, edesejar trabalhar com outra base, é preciso remover abase de dados atual da memória, para isto digite clear

� Para grandes bases de dados, faz-se necessárioaumentar o limite de memória do STATA (o padrãoé 1 megabyte).set memory #

# representa o número de kilobytes (k), megabytes (m) ougigabytes (g).

Abrindo a base de dados

� Por exemplo:set memory 100m

� Por default, STATA assume que todos os arquivosestão emc:\data.

� Para mudar o diretório digite:cd nomedapasta

� Se o nome da pasta contém espaços em branco,ele deve ser colocado entre aspas.

Abrindo a base de dados

Page 7: Slides Tutorial Stata

05/04/2011

7

� Se uma base de dados já está na memória (e não énecessário salvá-lo), limpe a memória com a opçãoclear

� Para salvar a base de dados, clique em oudigite:save filename, replace

� Use a opção replace se você deseja substituir abase de dados existente no STATA (.dta).

Salvando a base de dados

� Existem várias maneiras de inserir dados noSTATA, a escolha depende da natureza dosdados.� Entrada manual: digitando ou colando os dados

dentro do editor de dados.

� Usando arquivo no formato ASCII (por exemplo,arquivos txt)

�Uso de outros programas que criam base dedados no formato do STATA (ex: SAS, SPSS)

Criando a base de dados no STATA

Page 8: Slides Tutorial Stata

05/04/2011

8

Usando arquivos ASCII

� A base de dados deve estar no formato ASCII(texto).

� Se você usou o EXCEL para criar a base de dados,salve o arquivo como texto (.txt), e não como .xls.

� Opções:� Dados sem formatação (i.e. as colunas são

separadas por espaço, tabulação ou vírgula): useinfile ou insheet.

�Dados com formatação(i.e. dados com colunasfixas): use infix.

Abrindo dados sem formatação

� Você pode usar insheet quando a base dedados foi criada em um pacote computacionalque utiliza planilhas, por exemplo Excel:insheet using nomedoarquivo

� A primeira linha da base de dados deve conter onome das variáveis.

� Podemos também usar infile para base dedados com outros formatos, mas necessitaespecificar todas as variáveis.

Page 9: Slides Tutorial Stata

05/04/2011

9

EXERCÍCIO 2� Crie uma pasta para guardar as bases de dados

criadas no STATA (c:\statadados) e mude odiretório usando o comando cd

� Use insheet para ler a base de dados:pediatrics.txt

� Salve o arquivo (no seu diretório de trabalho)como

“pediatrics.dta”

Rotulando as variáveis� Rótulo (label) é uma descrição de uma variável em

até 80 caracteres.

� Útil quando construímos gráficos, etc.

� Para criar rótulos para as variáveis, clique duas vezesna coluna da variável a ser rotulado ou digite:

label variable nomevar “label”

� Rótulos para valores numéricos também podem serdefinidos.

Page 10: Slides Tutorial Stata

05/04/2011

10

Rotulando as variáveis

� Exemplos:

label variable idade “Idade dos pacientes(anos)”

label variable sexo “Sexo dos pacientes”

� Os rótulos também ajudam a lembrar o significado dos códigos de 0 e 1, definidos para determinada variável categórica.

Definindo os rótulos� Dois passos para criar rótulos para os códigos da variável:

label define nomelabel 0 “label" 1“label"

label values nomevar nomelabel

� Exemplo:

label define sex 1 “feminino” 0 “masculino”

label values sexo sex

Nota: Para modificar um rótulo uselabel define nomelabel 0 “label" 1“label”, modify

Page 11: Slides Tutorial Stata

05/04/2011

11

Arquivos Log� Todos os comandos do STATA e seus resultados

(exceto gráficos) são guardados em um arquivo log.

� Ao iniciar uma sessão no STATA, é aconselhável abrir um arquivo log, usando o comando:log using nomearquivo

(onde nomearquivo é escolhido pelo usuário)

� Para fechar o log, digite:log close

Criando arquivos Log

log using c:\pasta1\resulta_1.txt,text

Cria o arquivo “resulta_1.txt” e salva os resultados no formato texto.

log using c:\pasta1\resulta_1.txt,text replace

Grava o conteúdo do arquivo “resulta_1.txt” com os novos resultados

log using c:\pasta1\resulta_1.txt,text append

Adiciona novos resultados no final do arquivo “resulta_1.txt”

Page 12: Slides Tutorial Stata

05/04/2011

12

Formatos das variáveis

� Todas as variáveis são formatadas por valoresnuméricos (real) ou alfanuméricos (string).

� Você identificar o formato da variável pela cor:preto para numérica e vermelho paraalfanumérica.

� Alternativamente, podemos ver o tipo davariável digitando: describe

Examinando os dados

� codebook é útil para verificar erros nos dados.Fornece informação de cada variável comrelação ao tipo, rótulo, valores ausentes, etc.

� Alternativamente, list permite o usuário ver abase de dados para inspeção.

� Os comandos codebook e list podem serrestritos a variáveis específicas ou obervações.

Page 13: Slides Tutorial Stata

05/04/2011

13

Examinando os dados� Utilizando o comando codebook

Examinando os dados� Usaremos os seguintes comandos

� Informações das variáveis e estatísticas descritivas� describe – propriedades de cada variável� list – mostra os dados� summarize – medidas descritivas� tabulate – constrói tabelas de frequências

� Gráficos� scatter – diagrama de dispersão� line – gráfico de linhas� hist – histograma� graph box – box plot� graph bar – gráfico de barras� graph pie – gráfico de setores

Page 14: Slides Tutorial Stata

05/04/2011

14

Examinando os dados� Comando describe ou desc

Examinando os dados� Comando list

Page 15: Slides Tutorial Stata

05/04/2011

15

Analisando os dados

� summarize - mostra o número de casos,média, desvio padrão, mínimo e máximo.

� sum - modo abreviado de summarize.

� sum nomevar, detail - mostra os percentis,coeficiente de curtose, coeficiente de assimetriada variável nomevar

Analisando os dados

Page 16: Slides Tutorial Stata

05/04/2011

16

Analisando os dados

� Para produzir tabelas de frequências, usamos ocomando

tabulate nomevar

Analisando os dados

� O comando tabulate nomevar1 nomevar2

constrói uma tabela de contingência para duasvariáveis.

Page 17: Slides Tutorial Stata

05/04/2011

17

Analisando os dados

� Para mostrar o número de casos e porcentagem,devemos usar um dos comandos:

tabulate nomevar1 nomevar2,row

tabulate nomevar1 nomevar2,col

� Caso deseja-se apresentar a frequência de valoresausentes (missings), digite:

tabulate nomevar1 nomevar2,missing

Analisando os dados

Page 18: Slides Tutorial Stata

05/04/2011

18

Analisando os dados

� Algumas vezes, desejamos representar as frequênciasde uma variável para cada valor de outra variável.

� Por exemplo, queremos analisar a variável idade porsexo. Para isto, usamos o comando

by sexo:summary idade

� Antes de usar o comando by, precisamos ordenar osvalores da variável sexo. Para isto, usa-se o comando

sort sexo

Analisando os dados

Page 19: Slides Tutorial Stata

05/04/2011

19

Analisando os dados

Operadores matemáticos e lógicos

• + soma• sqrt() raiz quadrada• > maior que• - diferença• exp() exponencial• >= maior ou igual que• / divisão• < menor que• * multiplicação

• ~ negação• <= menor ou igual que• ^ potência• & e• == igual • ln() logaritmo natural• | ou• ~= diferente• != diferente

Page 20: Slides Tutorial Stata

05/04/2011

20

Transformações de variáveis� Novas variáveis podem ser criadas usando o comando

generate:generate novavar = expressão

� expressão pode conter funções ou combinações de variáveisexistentes, por exemplo:gen imc=peso/altura^2

� replace pode ser usado para mudar o conteúdo da variávelexistente:replace oldvar = expressao1 [if expressao2]

� Qualquer função pode ser usada com generate ou comreplace.

� if é usado para restringir o comando a um subconjunto de observações:replace idade=. if idade==999

� Note que dois sinais de igualdade == são usados para testar a igualdade, enquanto um sinal = é usado para atribuir o valor.

� Operadores lógicos também podem ser usado após if:� & denota “and”� | denota “or”� ~ or ! denota “not” (ex: ~= significa “diferente de”)

Transformações de variáveis

Page 21: Slides Tutorial Stata

05/04/2011

21

� Por exemplo, para criar uma variável dummy use:

gen sobrepeso=0

replace sobrepeso=1 if imc>=25.0 & imc<29.9

� Uma simples alternativa para o código acima é:

gen sobrepeso=(imc>=25.0 & imc<29.9)

Transformações de variáveis

� rename pode ser usado para renomear a variável.rename oldvarname newvarname

� Para deletar uma variável ou mais, digite:drop nomevar

� Alternativamente, o comando keep nomevar elimina todas as variáveis, menos as variáveis descritas no comando.

� Para deletar certas observações use:drop if exp

� Por exemplo, drop if idade==.

Transformações de variáveis

Page 22: Slides Tutorial Stata

05/04/2011

22

EXERCÍCIO 3

� Abra a base de dados “pediatric.dta”.

� Use describe para verificar quais variáveis sãoalfanuméricas e quais são as numéricas.

� Renomeie a estatura como comprimento.

� Converta peso em kilogramas para gramas, usandoreplace.

� Rotule peso como “peso do rn (em gramas)”.

� Crie a variável razao usando:

gen razao = (peso * 1000)/estatura

� Faça uma tabela de frequência para a variávelsexo

� Apresenta as variáveis sexo e anomalia em umatabela de contigência.

EXERCÍCIO 3 (cont.)

Page 23: Slides Tutorial Stata

05/04/2011

23

� Determine as medidas descritivas para as variáveispeso e estatura.

� Guarde somente as observações dos recém-nascidos com anomalia. (use drop ou keep).

� Salve a base de dados modificada. (Lembre-se decolocar outro nome para a base de dados modificada.)

EXERCÍCIO 3 (cont.)

Construindo Gráficos

� Podemos construir diversos gráficos no STATA.

� Vejamos os principais gráficos:

� Gráficos de barras e de setores� Box-plot� Histograma� Gráficos de linhas� Diagrama de dispersão

Page 24: Slides Tutorial Stata

05/04/2011

24

Gráficos de barrasgraph bar cigs, over(year) title("Cigarette Consumption

Per Person, US") b2(Year) ytitle("number of

Cigarettes") ylabel(0(2000)4000)

02,

000

4,00

0N

umbe

r of

Cig

aret

tes

1900 1910 1920 1930 1940 1950 1960 1970 1980 1990Year

Cigarette Consumption Per Person, US

Gráfico de setores

vaginal cesáreafórceps

Tipo de parto das mães dos recém-nascidos, MA

graph pie, over(parto) title("Tipo de parto das mães dos

recém-nascidos, MA")

Page 25: Slides Tutorial Stata

05/04/2011

25

Histogramahist idademae, frequency title("Idade (em anos) das mães

dos recém-nascidos, MA") xtitle("idade") ytitle("Número

de mães")

020

040

060

080

0N

úm

ero

de

mãe

s

10 20 30 40 50idade

Idade (em anos) das mães dos recém-nascidos, MA

Histogramahist idademae, bin(10)frequency title("Idade (em anos)

das mães dos recém-nascidos, MA") xtitle("idade")

ytitle("Número de mães")

010

0020

0030

00N

úmer

o de

mãe

s

10 20 30 40 50idade

Idade (em anos) das mães dos recém-nascidos, MA

Page 26: Slides Tutorial Stata

05/04/2011

26

Box plotgraph box idademae, title(“Idade(em anos) das mães dos recém-nascidos, MA") ytitle(“idade")

1020

3040

50id

ade

Idade (em anos) das mães dos recém-nascidos, MA

Box plot por grupograph box idademae, by(parto) ytitle(“idade da mãe(emanos)")

1020

3040

5010

2030

4050

vaginal cesárea

fórceps

idad

e da

mãe

(em

ano

s)

Graphs by tipo de parto

Page 27: Slides Tutorial Stata

05/04/2011

27

Gráfico de linhas

6080

100

120

140

de c

asos

2000 2001 2002 2003 2004 2005 2006 2007 2008 2009ano

dados fictícios

Nº de casos de tuberculose, 1999-2009, São Luís-MA

line casos ano

Diagrama de dispersão

020

0040

0060

00pe

so a

o na

scer

em

gra

mas

30 40 50 60comp ao nascer cm

graph twoway scatter pesonasc compnasc

Page 28: Slides Tutorial Stata

05/04/2011

28

Links úteis

� http://www.iies.su.se/~masa/stata.htm� Contém links para outros sites

� http://www.princeton.edu/~erp/stata/main.html

� http://www.ats.ucla.edu/stat/stata/webbooks/reg/default.htm

Obtendo mais informações sobre o STATA

� STATA tem arquivos de ajuda para todos oscomandos.

� Comandos do STATA são descritos com detalhes noSTATA User’s Guide and Reference Manual.

� Finalmente, você pode obter vários tutoriais nainternet. Um fácil caminho para encontrar é usar oGoogle e procurar por Stata tutorial.

(Este tutorial foi preparado usando informações do livro “Data analysis using STATA ” Ulrich Kohler e Frauke Kreuter, Stata Press, 2009. )