Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
Universidade Federal de São Carlos CENTRO
DE CIÊNCIAS AGRÁRIAS- campus de Araras Prof. Dr. Rubismar Stolf - [email protected]
Departamento de Recursos Naturais e Proteção Ambiental Via Anhanguera, km 174. Cx.Postal.153 CEP 13600-970 ARARAS SP BR
Acervo técnico do Prof. Dr. Rubismar Stolf Acesso: http://www.servidores.ufscar.br/hprubismar/hprubismar.htm
ou: http://www.cca.ufscar.br/drnpa/hprubismar.htm
68. STOLF, R. Programa de regressão múltipla (REGR) de fácil manipulação e transformação de arquivos
eletrônicos de dados. Geociências, São Paulo, v.15, n.2,
p.425-433, 1996.
Para visualizar o trabalho vá para a próxima página ↓
Nota: o mesmo trabalho em dois formatos: digitalizado da revista (pg. 2-10) e original formato word (pg. 11-24).
Multiple regression computing program (regr) for easy manipulation and data
files transformation
Abstract
The aim of this work was to develop an easy and fast multiple regression program,
specially designed for modeling. To pursue the mentioned aim, the following characteristics
was introduced: a) short and self - explained subroutines, avoiding questions/decisions;
b)semi - automatic graphical interface to detect biased deviation regions of the model. c)Sub
- menu with 20 options for manipulating and transforming data files e)Accumulated historical
record of the past statistical analyses ( tables with date of analyses; file name; total number of
data; number of points and variables; parameters of the fitted equation; multiple correlation
and determination coefficients; standard error; F value (Snedecor test). Through the
bibliography, to accomplish training and testing purposes, 15 multiple regression examples
was incorporated to the program with the literature, the meaning of the variable and results..
Keywords: multiple regression, soft - ware, computing, modeling
PROGRAMA DE REGRESSÃO MÚLTIPLA (REGR) DE FÁCIL MANIPULAÇÃO
E TRANSFORMAÇÃO DE ARQUIVOS ELETRÔNICOS DE DADOS(*)
(TEXTO ORIGINAL DO MESMO TRABALHO)
Rubismar STOLF (**)
RESUMO
O objetivo foi desenvolver um programa de regressão múltipla,
especialmente desenhado para modelagem, que apresentasse facilidade e
agilidade de operação. Para atingir o objetivo proposto as seguintes
características foram introduzidas no programa: a) sub rotinas autoexplicativas,
curtas, com reduzida necessidade de responder perguntas/tomar decisões; b)
interface simples de confecção semi-automática de gráficos para detecção de
regiões de desvios tendenciosos do modelo; c) submenu de manipulação e
transformação matemática de arquivos de dados com 20 opções diferentes,
permitindo o ajuste de uma gama de modelos; e) registro acumulado de todos os
resultados das análises estatísticas passadas (tabelas contendo: data da
realização da regressão; nome do arquivo; no
total de dados, no
de variáveis, no
de pontos; constantes da equação de regressão; coeficiente de determinação e
correlação múltipla; desvio padrão de regressão, valor de F (teste F de
Snedecor). Realizou-se uma revisão bibliográfica, extraindo-se, de compêndios
de estatística, 15 exemplos de aplicação. Os mesmos foram transformados em (*) Auxílio FAPESP, processo 93/2997 - 7. Trabalho apresentado no VI SIMPÓSIO DE QUANTIFICAÇÃO EM GEOCIÊNCIAS, Rio Claro, 1995.
(**) Depto. de Recursos Naturais e Proteção Ambiental, Centro de Ciências Agrárias, UFSCar , Campus de Araras.
13600 - Araras, SP.
2
arquivos eletrônicos de dados e incorporados ao programa. Subsequente à linha
em branco do final de cada arquivo de dados (campo de observação), incluiu-se
a citação bibliográfica, e os parâmetros estatísticos extraídos do livro citado.
Palavras - chave: regressão múltipla, programa, computação, modelagem
INTRODUÇÃO
Programas, referentes a uma análise específica no campo da estatística,
apresentam, isoladamente, um inexpressivo valor comercial pelo reduzido
número de usuários e pela facilidade de reprodução de suas concepções. Estes
programas, tais como os de regressão múltipla, têm sido inseridos, ultimamente,
como parte de grandes pacotes estatísticos extremamente bem desenhados.
Contudo, podem requerer tempo tanto para sua compreensão como no percurso
de séries extensas de submenus. Dessa forma, sempre que o usuário recorrer a
uma análise específica, das mais simples, via de regra necessitará do auxílio de
um especialista do ambiente estatístico no qual o programa se insere.
Parte da produção de programas de científicos dentro das universidades
ocorre como atividade informal. Tais programas, mesmo sem valor comercial,
podem apresentar mérito científico competitivo, quando desenhado
especificamente para um tipo de aplicação. Contudo, não havendo a
preocupação por parte dos pesquisadores/programadores em criar uma interface
amigável para usuários, bem como difundir seu trabalho, o mesmo é perdido ao
3
longo do tempo. Por outro lado, sua divulgação cria alternativas em relação aos
pacotes multitarefas, dirigidos a um público amplo, indiscriminado.
A análise de regressão múltipla é uma importante ferramenta para o ajuste
e seleção de modelos em geociências. É aplicada, normalmente, em situações de
difícil controle de variáveis que influenciam o fenômeno, como em estudos
ambientais. Via de regra é utilizada de maneira interativa com o usuário. Dessa
forma um conjunto de dados é retrabalhado através de transformações
matemáticas com acompanhamento dos parâmetros de ajuste e visualizações
gráficas, característicos da modelagem. O objetivo do presente trabalho foi
desenvolver um programa que apresente agilidade e facilidade de realizar tais
operações.
MATERIAL E MÉTODO
Procurou-se imprimir as seguintes características ao programa no sentido de
conferir ao mesmo agilidade e facilidade de uso: a) sub rotinas curtas,
autoexplicativas, com reduzida necessidade de responder perguntas/tomar
decisões; b) interface simples de confecção semi-automática de gráficos para
detecção de regiões de desvios tendenciosos do modelo; c) possibilidade de
transformação matemática e criação de novas variáveis para estabelecimento de
modelos não lineares; e) registro acumulado de todos os resultados das análises
estatísticas passadas.
4
Os seguintes parâmetros estatísticos e informações foram selecionados para
apresentação na tabela de resultados: data da realização da regressão; nome
do arquivo; no
total de dados, no
de variáveis, no
de pontos; constantes da
equação de regressão; coeficiente de determinação e correlação múltipla; desvio
padrão de regressão corrigido pelo grau de liberdade, valor de F de regressão
múltipla (para o teste F de Snedecor). Utilizou-se o método clássico “dos mínimos
quadrados” para o ajuste da função descrito em compêndios de estatística tal como
em SPIEGEL (1971)(3)
. Neste método, os coeficientes de uma dada equação
são calculados de maneira a minimizar a somatória do quadrado das diferenças
entre o valor medido (real) e o estimado pela equação. Conseqüentemente,
minimiza-se também o desvio padrão de regressão (erro padrão), parâmetro, este,
normalmente utilizado como indicador do ajuste.
Utilizou-se a linguagem Basic (Quick Basic, versão profissional 4.50 para
DOS)
Utilizou-se também comandos do DOS, através da instrução SHELL da
linguagem Basic (executa uma linha de comando DOS e retorna à linha de
programa).
Com o objetivo de testar o programa e incorporar ao mesmo uma série de
didática de arquivos de dados, realizou-se uma coletânea de exemplos de uso da
regressão, utilizando-se os seguintes compêndios de estatística, DIXON et al.
(1),WILFRID et al.
(2), FOX
(3), LI
(4), SPIEGEL
(5), STEEL & TORRIE
(6),
WEISKERG(7)
.
5
RESULTADOS E DISCUSSÃO
O programa é composto de 9 arquivos. Quatro deles são resultantes do
desenvolvimento do presente trabalho, propriamente dito. Os demais, são
arquivos auxiliares, não específicos do programa, utilizados na edição e
apresentação dos resultados. Na tabela 1 são apresentados os referidos arquivos
com suas respectivas funções. O arquivo REGR.EXE comanda os demais arquivos.
As tabelas, de 2 a 5, e figura 1 e 2 são cópias de telas do programa. Na tabela
2 apresenta-se o menu principal com suas funções. O programa interage com
intensidade com o DOS, da maneira exposta no item material e métodos. O uso
mais flagrante desse artifício aparece nas chaves “1 “, “2”, “3”, “7”, “8” do MENU
do programa (tabela 2), pois a apresentação dos resultados estatísticos da
regressão, a criação e edição de arquivos de dados, a reedição histórica de análises
passadas e o caderno de anotações do usuário são apresentados na tela através
do editor de texto (ascii) do próprio DOS, versão 5.0 ou posterior (EDIT.COM).
Dessa forma, carregam-se diferentes informações na tela, segundo as várias sub
rotinas do programa, colocando a disposição do usuário um editor mundialmente
conhecido como se fosse a própria tela de apresentação do programa.
Na tabela 3 apresenta-se a edição de um arquivo de dados. A estrutura do
arquivo é em colunas. Cada coluna representa uma variável; cada linha, as
6
coordenadas de um ponto. Carregando o arquivo pela chave de regressão o
programa reconhecerá automaticamente o número de variáveis e de pontos.
Além disso denominará, seqüencialmente, a 1a. coluna de variável X1; a 2a. de X2;
a 3a. de X3; e assim sucessivamente até a penúltima coluna. A última coluna será
interpretada como sendo a variável Y. Carregando-se, através da chave 1, por
exemplo, um arquivo de 3 colunas, o programa ajustará automaticamente o
modelo: ao+a1.x1+a2.x2=y, eliminando-se a necessidade de entrar com no
de
pontos, no
de variáveis e nome das variáveis. Também no sentido de agilizar as
operações, todas as vezes que for solicitada entrada de nome do arquivo o
diretório atual é listado previamente, permitindo a busca através de curingas (*.*).
Além disso o nome do ultimo arquivo utilizado é apresentado como opção de
carregamento automático pressionando-se a tecla ENTER.
O programa admite até 50 variáveis e um número de pontos praticamente
ilimitado. Durante o processo computacional estatístico, o programa encerrará
normalmente a leitura de dados caso encontre uma linha em branco (ou mais) no
arquivo. Isto permite a colocação, a vontade, de observações no final do arquivo
de dados sem necessidade de seguir um formato padrão (na tabela 3, vide
observações após dados numéricos). Essas observações, caso haja, serão
automaticamente mostradas na tela, quando o arquivo de dados for carregado para
execução da regressão.
Na tabela 4 apresenta-se o submenu de transformadas matemáticas tais
com exponenciação (radiciação), transformação logarítmica, trigonométricas,
trigonométricas inversas; soma (subtração) de uma constante, multiplicação
7
(divisão) por uma constante, totalizando 20 tipos. Após a transformação pode-se
optar por criar uma nova variável (criar mais uma coluna de dados), ou fazer com
que a nova variável, substitua a variável original. Permite também, manipular o
arquivo promovendo troca de posição, soma, subtração, multiplicação ou divisão
entre 2 colunas de dados bem como eliminar uma coluna de dados.
Na tabela 5 ilustra-se a forma de apresentação dos resultados de regressão,
utilizando os dados contidos em um arquivo denominado GRADES4.DAT. Trata-
se de um modelo em quatro dimensões com coeficiente de correlação múltipla
0,89. Contudo o gráfico semi-automático, Y medido versus Y estimado (figura 1),
evidencia a existência de desvios tendenciosos nas extremidades do campo de
variação de Y do modelo. Trata-se de um indicativo de que ha’ um potencial de
incremento do modelo no sentido de sua linearização. Enquanto a figura 1
representa graficamente o ajuste do modelo ao + a1.x1 + a2.x2 + a3.x3 = y, a figura
2 corresponde ao modelo ao.(x1)a1
(x )a2
.(x )a3
= y, este último incontestavelmente
. 2 3
superior. Com este exemplo, procurou-se evidenciar a importância da chave 5
(confecção semi - automática de gráfico Y medido, Y estimado), não presente em
programas correlatos.
Acompanha o programa uma serie didática de 15 exemplos. Os 15 arquivos
foram assim codificados (V?_EX??.DAT): V2_EX01.DAT (exemplo 01 de 2
variáveis) ... V3_EX07.DAT (sétimo exemplo de 3 variáveis) ...
V5_EX01.DAT(exemplo 01 de 5 variáveis). Na zona de observações de cada um
deles (subsequente a linha em branco do final do arquivo de dados), foram
adicionadas as seguintes informações: referência completa sobre o livro do qual o
8
exemplo foi extraído; o significado físico das variáveis; e resultados estatísticos
fornecidos pelo livro correspondentes aos que o programa fornece. Dessa forma
é possível exercitar-se na utilização do programa e conhecer algumas aplicações.
Para cada chave de ação (1 a 8) existe uma chave específica (help) de ajuda
(F1 a F8). A chave “A -Ajuda Geral “ lista uma apostila eletrônica sobre o programa
contendo 21 telas.
O programa cria automaticamente alguns arquivos temporários no diretório
de trabalho. Se o programa for instalado em um diretório protegido (como
algumas áreas de REDE), após iniciar o programa mude para uma área não
protegida: no menu principal acione D - Dos e mude de diretório/drive; após
retorne ao programa (digite EXIT).
MULTIPLE REGRESSION COMPUTING PROGRAM (REGR) FOR EASY
MANIPULATION AND DATA FILES TRANSFORMATION
ABSTRACT
The aim of this work was to develop an easy and fast multiple regression
program, specially designed for modeling. To pursue the mentioned aim, the
following characteristics was introduced: a) short and self - explained subroutines,
avoiding questions/decisions; b)semi - automatic graphical interface to detect
biased deviation regions of the model. c)Sub - menu with 20 options for manipulating
and transforming data files e)Accumulated historical record of the past statistical
analyses ( tables with date of analyses; file name; total number of
9
data; number of points and variables; parameters of the fitted equation; multiple
correlation and determination coefficients; standard error; F value (Snedecor test).
Through the bibliography, to accomplish training and testing purposes, 15
multiple regression examples was incorporated to the program. The literature, the
meaning of the variable and the book results, was added at the zone observation
(in the file, after the end of the numeric data).
Keywords: multiple regression, soft - ware, computing, modeling
REFERÊNCIAS BIBLIOGRAFIAS
DIXON, Wilfrid J., MASSEY Jr, Frank J. Introduction to statistical analysis. 3ed.
New York: Mc Graw Hill, 1969. p.213-214.
FOX, J. Linear statistical models and related methods. New York: John Wiley,
l984. p.30-33.
LI, J. C. R. Statistical inference. 2ed. Ann Arbor: Edwards Brothers, l967. p.90-
95.
SPIEGEL, M. R. Estatistica. São Paulo: Mc Graw Hill do Brasil, l976. p.452-
465.
SPIEGEL, M. R. Statistical. New York: Mc Graw Hill, 1961. p.273-274, 281.
STEEL, R. G. D., TORRIE, J. H. Principles and procedures of statistics. New
York: Mc Graw Hill, l960. p.277-304.
10
WEISKERG, S. Applied linear regression. 2ed. New York: John Wiley, 1985.
p.34-41.
11
Tabela 1- Arquivos, do programa e auxiliares, com respectivas funções
ARQUIVOS DO PROGRAMA:
1) REGR.EXE (arquivo principal - ligado às funções básicas) 2) REG-GRF1.EXE (gráfico entre y estimado e y medido) 3) REG-GRF2.EXE (gráfico entre 2 variáveis qualquer do arquivo) 4) REG-AJUD.TXT (apostila sobre o programa)
ARQUIVOS AUXILIARES (manter no diretório do programa, opcional/ no
DOS) :
1) REG-MONO.EXE (permite confecção gráfica em monitores antigos) 2) LIST.COM (leitor de textos) 3) EDIT.COM (editor de texto do DOS 5.0 em diante) 4) EDIT.HLP (texto de ajuda do editor do DOS 5.0 em diante) 5) QBASIC.EXE (necessário para rodar o editor EDIT.COM do DOS)
Tabela 2. Tela do MENU PRINCIPAL. Chaves, de 1 a 7, são as básicas.
12
Tabela 3. Tela exemplificando edição de arquivo de dados pela chave “3” do menu principal. A última coluna corresponde sempre à variável Y. As observações colocadas após linha em branco não interferem na análise estatística.
TABELA 4. Tela do SUBMENU de transformadas matemáticas (chave “4” do MENU PRINCIPAL)
13
Tabela 5. Tela de apresentação dos resultados.
Figura 1. A Chave “5” do MENU PRINCIPAL. permite uma visualização da qualidade do ajuste. No exemplo, o modelo y=a0+a1.x1+a2.x2+a3.x3
aplicado aos dados do arquivo grades4.dat provoca desvios tendenciosos.
14
Figura 2. O modelo y=a0. (x1)a1
. (x2)a2
. (x3)a3
aplicado aos dados do arquivo grades4.dat não provoca desvios tendenciosos (compare com a figura anterior).