24
Universidade Federal de São Carlos CENTRO DE CIÊNCIAS AGRÁRIAS- campus de Araras Prof. Dr. Rubismar Stolf - [email protected] Departamento de Recursos Naturais e Proteção Ambiental Via Anhanguera, km 174. Cx.Postal.153 CEP 13600-970 ARARAS SP BR Acervo técnico do Prof. Dr. Rubismar Stolf Acesso: http://www.servidores.ufscar.br/hprubismar/hprubismar.htm ou: http://www.cca.ufscar.br/drnpa/hprubismar.htm 68. STOLF, R. Programa de regressão múltipla (REGR) de fácil manipulação e transformação de arquivos eletrônicos de dados. Geociências, São Paulo, v.15, n.2, p.425-433, 1996. Para visualizar o trabalho vá para a próxima página Nota: o mesmo trabalho em dois formatos: digitalizado da revista (pg. 2-10) e original formato word (pg. 11-24). Multiple regression computing program (regr) for easy manipulation and data files transformation Abstract The aim of this work was to develop an easy and fast multiple regression program, specially designed for modeling. To pursue the mentioned aim, the following characteristics was introduced: a) short and self - explained subroutines, avoiding questions/decisions; b)semi - automatic graphical interface to detect biased deviation regions of the model. c)Sub - menu with 20 options for manipulating and transforming data files e)Accumulated historical record of the past statistical analyses ( tables with date of analyses; file name; total number of data; number of points and variables; parameters of the fitted equation; multiple correlation and determination coefficients; standard error; F value (Snedecor test). Through the bibliography, to accomplish training and testing purposes, 15 multiple regression examples was incorporated to the program with the literature, the meaning of the variable and results.. Keywords: multiple regression, soft - ware, computing, modeling

68. STOLF, R. Programa de regressão múltipla (REGR) de ... · Nota: o mesmo trabalho em dois formatos: digitalizado da revista (pg. 2-10) e original formato word (pg. 11-24). Multiple

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 68. STOLF, R. Programa de regressão múltipla (REGR) de ... · Nota: o mesmo trabalho em dois formatos: digitalizado da revista (pg. 2-10) e original formato word (pg. 11-24). Multiple

Universidade Federal de São Carlos CENTRO

DE CIÊNCIAS AGRÁRIAS- campus de Araras Prof. Dr. Rubismar Stolf - [email protected]

Departamento de Recursos Naturais e Proteção Ambiental Via Anhanguera, km 174. Cx.Postal.153 CEP 13600-970 ARARAS SP BR

Acervo técnico do Prof. Dr. Rubismar Stolf Acesso: http://www.servidores.ufscar.br/hprubismar/hprubismar.htm

ou: http://www.cca.ufscar.br/drnpa/hprubismar.htm

68. STOLF, R. Programa de regressão múltipla (REGR) de fácil manipulação e transformação de arquivos

eletrônicos de dados. Geociências, São Paulo, v.15, n.2,

p.425-433, 1996.

Para visualizar o trabalho vá para a próxima página ↓

Nota: o mesmo trabalho em dois formatos: digitalizado da revista (pg. 2-10) e original formato word (pg. 11-24).

Multiple regression computing program (regr) for easy manipulation and data

files transformation

Abstract

The aim of this work was to develop an easy and fast multiple regression program,

specially designed for modeling. To pursue the mentioned aim, the following characteristics

was introduced: a) short and self - explained subroutines, avoiding questions/decisions;

b)semi - automatic graphical interface to detect biased deviation regions of the model. c)Sub

- menu with 20 options for manipulating and transforming data files e)Accumulated historical

record of the past statistical analyses ( tables with date of analyses; file name; total number of

data; number of points and variables; parameters of the fitted equation; multiple correlation

and determination coefficients; standard error; F value (Snedecor test). Through the

bibliography, to accomplish training and testing purposes, 15 multiple regression examples

was incorporated to the program with the literature, the meaning of the variable and results..

Keywords: multiple regression, soft - ware, computing, modeling

Page 2: 68. STOLF, R. Programa de regressão múltipla (REGR) de ... · Nota: o mesmo trabalho em dois formatos: digitalizado da revista (pg. 2-10) e original formato word (pg. 11-24). Multiple
Page 3: 68. STOLF, R. Programa de regressão múltipla (REGR) de ... · Nota: o mesmo trabalho em dois formatos: digitalizado da revista (pg. 2-10) e original formato word (pg. 11-24). Multiple
Page 4: 68. STOLF, R. Programa de regressão múltipla (REGR) de ... · Nota: o mesmo trabalho em dois formatos: digitalizado da revista (pg. 2-10) e original formato word (pg. 11-24). Multiple
Page 5: 68. STOLF, R. Programa de regressão múltipla (REGR) de ... · Nota: o mesmo trabalho em dois formatos: digitalizado da revista (pg. 2-10) e original formato word (pg. 11-24). Multiple
Page 6: 68. STOLF, R. Programa de regressão múltipla (REGR) de ... · Nota: o mesmo trabalho em dois formatos: digitalizado da revista (pg. 2-10) e original formato word (pg. 11-24). Multiple
Page 7: 68. STOLF, R. Programa de regressão múltipla (REGR) de ... · Nota: o mesmo trabalho em dois formatos: digitalizado da revista (pg. 2-10) e original formato word (pg. 11-24). Multiple
Page 8: 68. STOLF, R. Programa de regressão múltipla (REGR) de ... · Nota: o mesmo trabalho em dois formatos: digitalizado da revista (pg. 2-10) e original formato word (pg. 11-24). Multiple
Page 9: 68. STOLF, R. Programa de regressão múltipla (REGR) de ... · Nota: o mesmo trabalho em dois formatos: digitalizado da revista (pg. 2-10) e original formato word (pg. 11-24). Multiple
Page 10: 68. STOLF, R. Programa de regressão múltipla (REGR) de ... · Nota: o mesmo trabalho em dois formatos: digitalizado da revista (pg. 2-10) e original formato word (pg. 11-24). Multiple
Page 11: 68. STOLF, R. Programa de regressão múltipla (REGR) de ... · Nota: o mesmo trabalho em dois formatos: digitalizado da revista (pg. 2-10) e original formato word (pg. 11-24). Multiple

PROGRAMA DE REGRESSÃO MÚLTIPLA (REGR) DE FÁCIL MANIPULAÇÃO

E TRANSFORMAÇÃO DE ARQUIVOS ELETRÔNICOS DE DADOS(*)

(TEXTO ORIGINAL DO MESMO TRABALHO)

Rubismar STOLF (**)

RESUMO

O objetivo foi desenvolver um programa de regressão múltipla,

especialmente desenhado para modelagem, que apresentasse facilidade e

agilidade de operação. Para atingir o objetivo proposto as seguintes

características foram introduzidas no programa: a) sub rotinas autoexplicativas,

curtas, com reduzida necessidade de responder perguntas/tomar decisões; b)

interface simples de confecção semi-automática de gráficos para detecção de

regiões de desvios tendenciosos do modelo; c) submenu de manipulação e

transformação matemática de arquivos de dados com 20 opções diferentes,

permitindo o ajuste de uma gama de modelos; e) registro acumulado de todos os

resultados das análises estatísticas passadas (tabelas contendo: data da

realização da regressão; nome do arquivo; no

total de dados, no

de variáveis, no

de pontos; constantes da equação de regressão; coeficiente de determinação e

correlação múltipla; desvio padrão de regressão, valor de F (teste F de

Snedecor). Realizou-se uma revisão bibliográfica, extraindo-se, de compêndios

de estatística, 15 exemplos de aplicação. Os mesmos foram transformados em (*) Auxílio FAPESP, processo 93/2997 - 7. Trabalho apresentado no VI SIMPÓSIO DE QUANTIFICAÇÃO EM GEOCIÊNCIAS, Rio Claro, 1995.

(**) Depto. de Recursos Naturais e Proteção Ambiental, Centro de Ciências Agrárias, UFSCar , Campus de Araras.

13600 - Araras, SP.

Page 12: 68. STOLF, R. Programa de regressão múltipla (REGR) de ... · Nota: o mesmo trabalho em dois formatos: digitalizado da revista (pg. 2-10) e original formato word (pg. 11-24). Multiple

2

arquivos eletrônicos de dados e incorporados ao programa. Subsequente à linha

em branco do final de cada arquivo de dados (campo de observação), incluiu-se

a citação bibliográfica, e os parâmetros estatísticos extraídos do livro citado.

Palavras - chave: regressão múltipla, programa, computação, modelagem

INTRODUÇÃO

Programas, referentes a uma análise específica no campo da estatística,

apresentam, isoladamente, um inexpressivo valor comercial pelo reduzido

número de usuários e pela facilidade de reprodução de suas concepções. Estes

programas, tais como os de regressão múltipla, têm sido inseridos, ultimamente,

como parte de grandes pacotes estatísticos extremamente bem desenhados.

Contudo, podem requerer tempo tanto para sua compreensão como no percurso

de séries extensas de submenus. Dessa forma, sempre que o usuário recorrer a

uma análise específica, das mais simples, via de regra necessitará do auxílio de

um especialista do ambiente estatístico no qual o programa se insere.

Parte da produção de programas de científicos dentro das universidades

ocorre como atividade informal. Tais programas, mesmo sem valor comercial,

podem apresentar mérito científico competitivo, quando desenhado

especificamente para um tipo de aplicação. Contudo, não havendo a

preocupação por parte dos pesquisadores/programadores em criar uma interface

amigável para usuários, bem como difundir seu trabalho, o mesmo é perdido ao

Page 13: 68. STOLF, R. Programa de regressão múltipla (REGR) de ... · Nota: o mesmo trabalho em dois formatos: digitalizado da revista (pg. 2-10) e original formato word (pg. 11-24). Multiple

3

longo do tempo. Por outro lado, sua divulgação cria alternativas em relação aos

pacotes multitarefas, dirigidos a um público amplo, indiscriminado.

A análise de regressão múltipla é uma importante ferramenta para o ajuste

e seleção de modelos em geociências. É aplicada, normalmente, em situações de

difícil controle de variáveis que influenciam o fenômeno, como em estudos

ambientais. Via de regra é utilizada de maneira interativa com o usuário. Dessa

forma um conjunto de dados é retrabalhado através de transformações

matemáticas com acompanhamento dos parâmetros de ajuste e visualizações

gráficas, característicos da modelagem. O objetivo do presente trabalho foi

desenvolver um programa que apresente agilidade e facilidade de realizar tais

operações.

MATERIAL E MÉTODO

Procurou-se imprimir as seguintes características ao programa no sentido de

conferir ao mesmo agilidade e facilidade de uso: a) sub rotinas curtas,

autoexplicativas, com reduzida necessidade de responder perguntas/tomar

decisões; b) interface simples de confecção semi-automática de gráficos para

detecção de regiões de desvios tendenciosos do modelo; c) possibilidade de

transformação matemática e criação de novas variáveis para estabelecimento de

modelos não lineares; e) registro acumulado de todos os resultados das análises

estatísticas passadas.

Page 14: 68. STOLF, R. Programa de regressão múltipla (REGR) de ... · Nota: o mesmo trabalho em dois formatos: digitalizado da revista (pg. 2-10) e original formato word (pg. 11-24). Multiple

4

Os seguintes parâmetros estatísticos e informações foram selecionados para

apresentação na tabela de resultados: data da realização da regressão; nome

do arquivo; no

total de dados, no

de variáveis, no

de pontos; constantes da

equação de regressão; coeficiente de determinação e correlação múltipla; desvio

padrão de regressão corrigido pelo grau de liberdade, valor de F de regressão

múltipla (para o teste F de Snedecor). Utilizou-se o método clássico “dos mínimos

quadrados” para o ajuste da função descrito em compêndios de estatística tal como

em SPIEGEL (1971)(3)

. Neste método, os coeficientes de uma dada equação

são calculados de maneira a minimizar a somatória do quadrado das diferenças

entre o valor medido (real) e o estimado pela equação. Conseqüentemente,

minimiza-se também o desvio padrão de regressão (erro padrão), parâmetro, este,

normalmente utilizado como indicador do ajuste.

Utilizou-se a linguagem Basic (Quick Basic, versão profissional 4.50 para

DOS)

Utilizou-se também comandos do DOS, através da instrução SHELL da

linguagem Basic (executa uma linha de comando DOS e retorna à linha de

programa).

Com o objetivo de testar o programa e incorporar ao mesmo uma série de

didática de arquivos de dados, realizou-se uma coletânea de exemplos de uso da

regressão, utilizando-se os seguintes compêndios de estatística, DIXON et al.

(1),WILFRID et al.

(2), FOX

(3), LI

(4), SPIEGEL

(5), STEEL & TORRIE

(6),

WEISKERG(7)

.

Page 15: 68. STOLF, R. Programa de regressão múltipla (REGR) de ... · Nota: o mesmo trabalho em dois formatos: digitalizado da revista (pg. 2-10) e original formato word (pg. 11-24). Multiple

5

RESULTADOS E DISCUSSÃO

O programa é composto de 9 arquivos. Quatro deles são resultantes do

desenvolvimento do presente trabalho, propriamente dito. Os demais, são

arquivos auxiliares, não específicos do programa, utilizados na edição e

apresentação dos resultados. Na tabela 1 são apresentados os referidos arquivos

com suas respectivas funções. O arquivo REGR.EXE comanda os demais arquivos.

As tabelas, de 2 a 5, e figura 1 e 2 são cópias de telas do programa. Na tabela

2 apresenta-se o menu principal com suas funções. O programa interage com

intensidade com o DOS, da maneira exposta no item material e métodos. O uso

mais flagrante desse artifício aparece nas chaves “1 “, “2”, “3”, “7”, “8” do MENU

do programa (tabela 2), pois a apresentação dos resultados estatísticos da

regressão, a criação e edição de arquivos de dados, a reedição histórica de análises

passadas e o caderno de anotações do usuário são apresentados na tela através

do editor de texto (ascii) do próprio DOS, versão 5.0 ou posterior (EDIT.COM).

Dessa forma, carregam-se diferentes informações na tela, segundo as várias sub

rotinas do programa, colocando a disposição do usuário um editor mundialmente

conhecido como se fosse a própria tela de apresentação do programa.

Na tabela 3 apresenta-se a edição de um arquivo de dados. A estrutura do

arquivo é em colunas. Cada coluna representa uma variável; cada linha, as

Page 16: 68. STOLF, R. Programa de regressão múltipla (REGR) de ... · Nota: o mesmo trabalho em dois formatos: digitalizado da revista (pg. 2-10) e original formato word (pg. 11-24). Multiple

6

coordenadas de um ponto. Carregando o arquivo pela chave de regressão o

programa reconhecerá automaticamente o número de variáveis e de pontos.

Além disso denominará, seqüencialmente, a 1a. coluna de variável X1; a 2a. de X2;

a 3a. de X3; e assim sucessivamente até a penúltima coluna. A última coluna será

interpretada como sendo a variável Y. Carregando-se, através da chave 1, por

exemplo, um arquivo de 3 colunas, o programa ajustará automaticamente o

modelo: ao+a1.x1+a2.x2=y, eliminando-se a necessidade de entrar com no

de

pontos, no

de variáveis e nome das variáveis. Também no sentido de agilizar as

operações, todas as vezes que for solicitada entrada de nome do arquivo o

diretório atual é listado previamente, permitindo a busca através de curingas (*.*).

Além disso o nome do ultimo arquivo utilizado é apresentado como opção de

carregamento automático pressionando-se a tecla ENTER.

O programa admite até 50 variáveis e um número de pontos praticamente

ilimitado. Durante o processo computacional estatístico, o programa encerrará

normalmente a leitura de dados caso encontre uma linha em branco (ou mais) no

arquivo. Isto permite a colocação, a vontade, de observações no final do arquivo

de dados sem necessidade de seguir um formato padrão (na tabela 3, vide

observações após dados numéricos). Essas observações, caso haja, serão

automaticamente mostradas na tela, quando o arquivo de dados for carregado para

execução da regressão.

Na tabela 4 apresenta-se o submenu de transformadas matemáticas tais

com exponenciação (radiciação), transformação logarítmica, trigonométricas,

trigonométricas inversas; soma (subtração) de uma constante, multiplicação

Page 17: 68. STOLF, R. Programa de regressão múltipla (REGR) de ... · Nota: o mesmo trabalho em dois formatos: digitalizado da revista (pg. 2-10) e original formato word (pg. 11-24). Multiple

7

(divisão) por uma constante, totalizando 20 tipos. Após a transformação pode-se

optar por criar uma nova variável (criar mais uma coluna de dados), ou fazer com

que a nova variável, substitua a variável original. Permite também, manipular o

arquivo promovendo troca de posição, soma, subtração, multiplicação ou divisão

entre 2 colunas de dados bem como eliminar uma coluna de dados.

Na tabela 5 ilustra-se a forma de apresentação dos resultados de regressão,

utilizando os dados contidos em um arquivo denominado GRADES4.DAT. Trata-

se de um modelo em quatro dimensões com coeficiente de correlação múltipla

0,89. Contudo o gráfico semi-automático, Y medido versus Y estimado (figura 1),

evidencia a existência de desvios tendenciosos nas extremidades do campo de

variação de Y do modelo. Trata-se de um indicativo de que ha’ um potencial de

incremento do modelo no sentido de sua linearização. Enquanto a figura 1

representa graficamente o ajuste do modelo ao + a1.x1 + a2.x2 + a3.x3 = y, a figura

2 corresponde ao modelo ao.(x1)a1

(x )a2

.(x )a3

= y, este último incontestavelmente

. 2 3

superior. Com este exemplo, procurou-se evidenciar a importância da chave 5

(confecção semi - automática de gráfico Y medido, Y estimado), não presente em

programas correlatos.

Acompanha o programa uma serie didática de 15 exemplos. Os 15 arquivos

foram assim codificados (V?_EX??.DAT): V2_EX01.DAT (exemplo 01 de 2

variáveis) ... V3_EX07.DAT (sétimo exemplo de 3 variáveis) ...

V5_EX01.DAT(exemplo 01 de 5 variáveis). Na zona de observações de cada um

deles (subsequente a linha em branco do final do arquivo de dados), foram

adicionadas as seguintes informações: referência completa sobre o livro do qual o

Page 18: 68. STOLF, R. Programa de regressão múltipla (REGR) de ... · Nota: o mesmo trabalho em dois formatos: digitalizado da revista (pg. 2-10) e original formato word (pg. 11-24). Multiple

8

exemplo foi extraído; o significado físico das variáveis; e resultados estatísticos

fornecidos pelo livro correspondentes aos que o programa fornece. Dessa forma

é possível exercitar-se na utilização do programa e conhecer algumas aplicações.

Para cada chave de ação (1 a 8) existe uma chave específica (help) de ajuda

(F1 a F8). A chave “A -Ajuda Geral “ lista uma apostila eletrônica sobre o programa

contendo 21 telas.

O programa cria automaticamente alguns arquivos temporários no diretório

de trabalho. Se o programa for instalado em um diretório protegido (como

algumas áreas de REDE), após iniciar o programa mude para uma área não

protegida: no menu principal acione D - Dos e mude de diretório/drive; após

retorne ao programa (digite EXIT).

MULTIPLE REGRESSION COMPUTING PROGRAM (REGR) FOR EASY

MANIPULATION AND DATA FILES TRANSFORMATION

ABSTRACT

The aim of this work was to develop an easy and fast multiple regression

program, specially designed for modeling. To pursue the mentioned aim, the

following characteristics was introduced: a) short and self - explained subroutines,

avoiding questions/decisions; b)semi - automatic graphical interface to detect

biased deviation regions of the model. c)Sub - menu with 20 options for manipulating

and transforming data files e)Accumulated historical record of the past statistical

analyses ( tables with date of analyses; file name; total number of

Page 19: 68. STOLF, R. Programa de regressão múltipla (REGR) de ... · Nota: o mesmo trabalho em dois formatos: digitalizado da revista (pg. 2-10) e original formato word (pg. 11-24). Multiple

9

data; number of points and variables; parameters of the fitted equation; multiple

correlation and determination coefficients; standard error; F value (Snedecor test).

Through the bibliography, to accomplish training and testing purposes, 15

multiple regression examples was incorporated to the program. The literature, the

meaning of the variable and the book results, was added at the zone observation

(in the file, after the end of the numeric data).

Keywords: multiple regression, soft - ware, computing, modeling

REFERÊNCIAS BIBLIOGRAFIAS

DIXON, Wilfrid J., MASSEY Jr, Frank J. Introduction to statistical analysis. 3ed.

New York: Mc Graw Hill, 1969. p.213-214.

FOX, J. Linear statistical models and related methods. New York: John Wiley,

l984. p.30-33.

LI, J. C. R. Statistical inference. 2ed. Ann Arbor: Edwards Brothers, l967. p.90-

95.

SPIEGEL, M. R. Estatistica. São Paulo: Mc Graw Hill do Brasil, l976. p.452-

465.

SPIEGEL, M. R. Statistical. New York: Mc Graw Hill, 1961. p.273-274, 281.

STEEL, R. G. D., TORRIE, J. H. Principles and procedures of statistics. New

York: Mc Graw Hill, l960. p.277-304.

Page 20: 68. STOLF, R. Programa de regressão múltipla (REGR) de ... · Nota: o mesmo trabalho em dois formatos: digitalizado da revista (pg. 2-10) e original formato word (pg. 11-24). Multiple

10

WEISKERG, S. Applied linear regression. 2ed. New York: John Wiley, 1985.

p.34-41.

Page 21: 68. STOLF, R. Programa de regressão múltipla (REGR) de ... · Nota: o mesmo trabalho em dois formatos: digitalizado da revista (pg. 2-10) e original formato word (pg. 11-24). Multiple

11

Tabela 1- Arquivos, do programa e auxiliares, com respectivas funções

ARQUIVOS DO PROGRAMA:

1) REGR.EXE (arquivo principal - ligado às funções básicas) 2) REG-GRF1.EXE (gráfico entre y estimado e y medido) 3) REG-GRF2.EXE (gráfico entre 2 variáveis qualquer do arquivo) 4) REG-AJUD.TXT (apostila sobre o programa)

ARQUIVOS AUXILIARES (manter no diretório do programa, opcional/ no

DOS) :

1) REG-MONO.EXE (permite confecção gráfica em monitores antigos) 2) LIST.COM (leitor de textos) 3) EDIT.COM (editor de texto do DOS 5.0 em diante) 4) EDIT.HLP (texto de ajuda do editor do DOS 5.0 em diante) 5) QBASIC.EXE (necessário para rodar o editor EDIT.COM do DOS)

Tabela 2. Tela do MENU PRINCIPAL. Chaves, de 1 a 7, são as básicas.

Page 22: 68. STOLF, R. Programa de regressão múltipla (REGR) de ... · Nota: o mesmo trabalho em dois formatos: digitalizado da revista (pg. 2-10) e original formato word (pg. 11-24). Multiple

12

Tabela 3. Tela exemplificando edição de arquivo de dados pela chave “3” do menu principal. A última coluna corresponde sempre à variável Y. As observações colocadas após linha em branco não interferem na análise estatística.

TABELA 4. Tela do SUBMENU de transformadas matemáticas (chave “4” do MENU PRINCIPAL)

Page 23: 68. STOLF, R. Programa de regressão múltipla (REGR) de ... · Nota: o mesmo trabalho em dois formatos: digitalizado da revista (pg. 2-10) e original formato word (pg. 11-24). Multiple

13

Tabela 5. Tela de apresentação dos resultados.

Figura 1. A Chave “5” do MENU PRINCIPAL. permite uma visualização da qualidade do ajuste. No exemplo, o modelo y=a0+a1.x1+a2.x2+a3.x3

aplicado aos dados do arquivo grades4.dat provoca desvios tendenciosos.

Page 24: 68. STOLF, R. Programa de regressão múltipla (REGR) de ... · Nota: o mesmo trabalho em dois formatos: digitalizado da revista (pg. 2-10) e original formato word (pg. 11-24). Multiple

14

Figura 2. O modelo y=a0. (x1)a1

. (x2)a2

. (x3)a3

aplicado aos dados do arquivo grades4.dat não provoca desvios tendenciosos (compare com a figura anterior).