24
Universidade Federal de São Carlos CENTRO DE CIÊNCIAS AGRÁRIAS- campus de Araras Prof. Dr. Rubismar Stolf - [email protected] Departamento de Recursos Naturais e Proteção Ambiental Via Anhanguera, km 174. Cx.Postal.153 CEP 13600-970 ARARAS SP BR Acervo técnico do Prof. Dr. Rubismar Stolf 68. STOLF, R. Programa de regressão múltipla (REGR) de fácil manipulação e transformação de arquivos eletrônicos de dados. Geociências , São Paulo, v.15, n.2, p.425-433, 1996. Para visualizar o trabalho vá para a próxima página Nota: o mesmo trabalho em dois formatos: digitalizado da revista (pg. 2-10) e original formato word (pg. 11-24). Acesso: http://www.cca.ufscar.br/~rubismar/ ou: http://www.cca.ufscar.br/drnpa/hprubismar.htm

68. Programa de Regressao Multipla (REGR) de Facil Manipulacao e Transformacao de Arquivos (Stolf,R.)

Embed Size (px)

DESCRIPTION

regressao

Citation preview

  • Universidade Federal de So CarlosCENTRO DE CINCIAS AGRRIAS- campus de Araras

    Prof. Dr. Rubismar Stolf - [email protected] de Recursos Naturais e Proteo Ambiental

    Via Anhanguera, km 174. Cx.Postal.153 CEP 13600-970 ARARAS SP BR

    Acervo tcnico do Prof. Dr. Rubismar Stolf

    68. STOLF, R. Programa de regresso mltipla (REGR) de fcil manipulao e transformao de arquivos eletrnicos de dados. Geocincias, So Paulo, v.15, n.2, p.425-433, 1996.

    Para visualizar o trabalho v para a prxima pgina Nota: o mesmo trabalho em dois formatos: digitalizado da revista (pg. 2-10) e original formato word (pg. 11-24).

    Acesso: http://www.cca.ufscar.br/~rubismar/ ou: http://www.cca.ufscar.br/drnpa/hprubismar.htm

  • (*) Auxlio FAPESP, processo 93/2997 - 7. Trabalho apresentado no VI SIMPSIO DE QUANTIFICAO EM GEOCINCIAS, Rio Claro, 1995. (**) Depto. de Recursos Naturais e Proteo Ambiental, Centro de Cincias Agrrias, UFSCar , Campus de Araras. 13600 - Araras, SP.

    PROGRAMA DE REGRESSO MLTIPLA (REGR) DE FCIL MANIPULAO E TRANSFORMAO DE ARQUIVOS ELETRNICOS DE DADOS(*)

    (TEXTO ORIGINAL DO MESMO TRABALHO)

    Rubismar STOLF (**)

    RESUMO

    O objetivo foi desenvolver um programa de regresso mltipla, especialmente desenhado para modelagem, que apresentasse facilidade e

    agilidade de operao. Para atingir o objetivo proposto as seguintes caractersticas foram introduzidas no programa: a) sub rotinas autoexplicativas, curtas, com reduzida necessidade de responder perguntas/tomar decises; b) interface simples de confeco semi-automtica de grficos para deteco de

    regies de desvios tendenciosos do modelo; c) submenu de manipulao e transformao matemtica de arquivos de dados com 20 opes diferentes,

    permitindo o ajuste de uma gama de modelos; e) registro acumulado de todos os resultados das anlises estatsticas passadas (tabelas contendo: data da realizao da regresso; nome do arquivo; no total de dados, no

    de variveis, no

    de pontos; constantes da equao de regresso; coeficiente de determinao e

    correlao mltipla; desvio padro de regresso, valor de F (teste F de Snedecor). Realizou-se uma reviso bibliogrfica, extraindo-se, de compndios de estatstica, 15 exemplos de aplicao. Os mesmos foram transformados em

  • 2

    arquivos eletrnicos de dados e incorporados ao programa. Subsequente linha

    em branco do final de cada arquivo de dados (campo de observao), incluiu-se a citao bibliogrfica, e os parmetros estatsticos extrados do livro citado.

    Palavras - chave: regresso mltipla, programa, computao, modelagem

    INTRODUO

    Programas, referentes a uma anlise especfica no campo da estatstica,

    apresentam, isoladamente, um inexpressivo valor comercial pelo reduzido

    nmero de usurios e pela facilidade de reproduo de suas concepes. Estes

    programas, tais como os de regresso mltipla, tm sido inseridos, ultimamente,

    como parte de grandes pacotes estatsticos extremamente bem desenhados.

    Contudo, podem requerer tempo tanto para sua compreenso como no percurso

    de sries extensas de submenus. Dessa forma, sempre que o usurio recorrer a

    uma anlise especfica, das mais simples, via de regra necessitar do auxlio de

    um especialista do ambiente estatstico no qual o programa se insere.

    Parte da produo de programas de cientficos dentro das universidades

    ocorre como atividade informal. Tais programas, mesmo sem valor comercial,

    podem apresentar mrito cientfico competitivo, quando desenhado

    especificamente para um tipo de aplicao. Contudo, no havendo a

    preocupao por parte dos pesquisadores/programadores em criar uma interface

    amigvel para usurios, bem como difundir seu trabalho, o mesmo perdido ao

  • 3

    longo do tempo. Por outro lado, sua divulgao cria alternativas em relao aos

    pacotes multitarefas, dirigidos a um pblico amplo, indiscriminado.

    A anlise de regresso mltipla uma importante ferramenta para o ajuste e seleo de modelos em geocincias. aplicada, normalmente, em situaes de difcil controle de variveis que influenciam o fenmeno, como em estudos

    ambientais. Via de regra utilizada de maneira interativa com o usurio. Dessa

    forma um conjunto de dados retrabalhado atravs de transformaes matemticas com acompanhamento dos parmetros de ajuste e visualizaes grficas, caractersticos da modelagem. O objetivo do presente trabalho foi desenvolver um programa que apresente agilidade e facilidade de realizar tais

    operaes.

    MATERIAL E MTODO

    Procurou-se imprimir as seguintes caractersticas ao programa no sentido

    de conferir ao mesmo agilidade e facilidade de uso: a) sub rotinas curtas, autoexplicativas, com reduzida necessidade de responder perguntas/tomar

    decises; b) interface simples de confeco semi-automtica de grficos para deteco de regies de desvios tendenciosos do modelo; c) possibilidade de transformao matemtica e criao de novas variveis para estabelecimento de

    modelos no lineares; e) registro acumulado de todos os resultados das anlises estatsticas passadas.

  • 4

    Os seguintes parmetros estatsticos e informaes foram selecionados

    para apresentao na tabela de resultados: data da realizao da regresso;

    nome do arquivo; no total de dados, no de variveis, no de pontos; constantes da

    equao de regresso; coeficiente de determinao e correlao mltipla; desvio

    padro de regresso corrigido pelo grau de liberdade, valor de F de regresso

    mltipla (para o teste F de Snedecor). Utilizou-se o mtodo clssico dos mnimos quadrados para o ajuste da funo descrito em compndios de estatstica tal como em SPIEGEL (1971)(3). Neste mtodo, os coeficientes de uma dada equao so calculados de maneira a minimizar a somatria do quadrado das

    diferenas entre o valor medido (real) e o estimado pela equao. Conseqentemente, minimiza-se tambm o desvio padro de regresso (erro padro), parmetro, este, normalmente utilizado como indicador do ajuste. Utilizou-se a linguagem Basic (Quick Basic, verso profissional 4.50 para DOS) Utilizou-se tambm comandos do DOS, atravs da instruo SHELL da

    linguagem Basic (executa uma linha de comando DOS e retorna linha de programa). Com o objetivo de testar o programa e incorporar ao mesmo uma srie de didtica de arquivos de dados, realizou-se uma coletnea de exemplos de uso da

    regresso, utilizando-se os seguintes compndios de estatstica, DIXON et al. (1)

    ,WILFRID et al.(2), FOX(3), LI (4), SPIEGEL (5), STEEL & TORRIE(6),

    WEISKERG(7).

  • 5

    RESULTADOS E DISCUSSO

    O programa composto de 9 arquivos. Quatro deles so resultantes do

    desenvolvimento do presente trabalho, propriamente dito. Os demais, so

    arquivos auxiliares, no especficos do programa, utilizados na edio e

    apresentao dos resultados. Na tabela 1 so apresentados os referidos arquivos

    com suas respectivas funes. O arquivo REGR.EXE comanda os demais

    arquivos.

    As tabelas, de 2 a 5, e figura 1 e 2 so cpias de telas do programa. Na

    tabela 2 apresenta-se o menu principal com suas funes. O programa interage

    com intensidade com o DOS, da maneira exposta no item material e mtodos. O

    uso mais flagrante desse artifcio aparece nas chaves 1 , 2, 3, 7, 8 do

    MENU do programa (tabela 2), pois a apresentao dos resultados estatsticos da regresso, a criao e edio de arquivos de dados, a reedio histrica de

    anlises passadas e o caderno de anotaes do usurio so apresentados na

    tela atravs do editor de texto (ascii) do prprio DOS, verso 5.0 ou posterior (EDIT.COM). Dessa forma, carregam-se diferentes informaes na tela, segundo as vrias sub rotinas do programa, colocando a disposio do usurio um editor

    mundialmente conhecido como se fosse a prpria tela de apresentao do

    programa.

    Na tabela 3 apresenta-se a edio de um arquivo de dados. A estrutura do

    arquivo em colunas. Cada coluna representa uma varivel; cada linha, as

  • 6

    coordenadas de um ponto. Carregando o arquivo pela chave de regresso o

    programa reconhecer automaticamente o nmero de variveis e de pontos.

    Alm disso denominar, seqencialmente, a 1a. coluna de varivel X1; a 2a. de

    X2; a 3a. de X3; e assim sucessivamente at a penltima coluna. A ltima coluna

    ser interpretada como sendo a varivel Y. Carregando-se, atravs da chave 1,

    por exemplo, um arquivo de 3 colunas, o programa ajustar automaticamente o

    modelo: ao+a1.x1+a2.x2=y, eliminando-se a necessidade de entrar com no de

    pontos, no de variveis e nome das variveis. Tambm no sentido de agilizar as

    operaes, todas as vezes que for solicitada entrada de nome do arquivo o

    diretrio atual listado previamente, permitindo a busca atravs de curingas (*.*). Alm disso o nome do ultimo arquivo utilizado apresentado como opo de

    carregamento automtico pressionando-se a tecla ENTER.

    O programa admite at 50 variveis e um nmero de pontos praticamente

    ilimitado. Durante o processo computacional estatstico, o programa encerrar

    normalmente a leitura de dados caso encontre uma linha em branco (ou mais) no arquivo. Isto permite a colocao, a vontade, de observaes no final do arquivo

    de dados sem necessidade de seguir um formato padro (na tabela 3, vide observaes aps dados numricos). Essas observaes, caso haja, sero automaticamente mostradas na tela, quando o arquivo de dados for carregado

    para execuo da regresso.

    Na tabela 4 apresenta-se o submenu de transformadas matemticas tais

    com exponenciao (radiciao), transformao logartmica, trigonomtricas, trigonomtricas inversas; soma (subtrao) de uma constante, multiplicao

  • 7

    (diviso) por uma constante, totalizando 20 tipos. Aps a transformao pode-se optar por criar uma nova varivel (criar mais uma coluna de dados), ou fazer com que a nova varivel, substitua a varivel original. Permite tambm, manipular o

    arquivo promovendo troca de posio, soma, subtrao, multiplicao ou diviso

    entre 2 colunas de dados bem como eliminar uma coluna de dados.

    Na tabela 5 ilustra-se a forma de apresentao dos resultados de regresso,

    utilizando os dados contidos em um arquivo denominado GRADES4.DAT. Trata-

    se de um modelo em quatro dimenses com coeficiente de correlao mltipla

    0,89. Contudo o grfico semi-automtico, Y medido versus Y estimado (figura 1), evidencia a existncia de desvios tendenciosos nas extremidades do campo de

    variao de Y do modelo. Trata-se de um indicativo de que ha um potencial de

    incremento do modelo no sentido de sua linearizao. Enquanto a figura 1

    representa graficamente o ajuste do modelo ao + a1.x1 + a2.x2 + a3.x3 = y, a figura

    2 corresponde ao modelo ao.(x1)a1.(x2)a2 .(x3)a3 = y, este ltimo incontestavelmente superior. Com este exemplo, procurou-se evidenciar a importncia da chave 5

    (confeco semi - automtica de grfico Y medido, Y estimado), no presente em programas correlatos.

    Acompanha o programa uma serie didtica de 15 exemplos. Os 15 arquivos

    foram assim codificados (V?_EX??.DAT): V2_EX01.DAT (exemplo 01 de 2 variveis) ... V3_EX07.DAT (stimo exemplo de 3 variveis) ... V5_EX01.DAT(exemplo 01 de 5 variveis). Na zona de observaes de cada um deles (subsequente a linha em branco do final do arquivo de dados), foram adicionadas as seguintes informaes: referncia completa sobre o livro do qual o

  • 8

    exemplo foi extrado; o significado fsico das variveis; e resultados estatsticos

    fornecidos pelo livro correspondentes aos que o programa fornece. Dessa forma

    possvel exercitar-se na utilizao do programa e conhecer algumas aplicaes.

    Para cada chave de ao (1 a 8) existe uma chave especfica (help) de ajuda (F1 a F8). A chave A -Ajuda Geral lista uma apostila eletrnica sobre o programa contendo 21 telas.

    O programa cria automaticamente alguns arquivos temporrios no diretrio

    de trabalho. Se o programa for instalado em um diretrio protegido (como algumas reas de REDE), aps iniciar o programa mude para uma rea no protegida: no menu principal acione D - Dos e mude de diretrio/drive; aps

    retorne ao programa (digite EXIT).

    MULTIPLE REGRESSION COMPUTING PROGRAM (REGR) FOR EASY

    MANIPULATION AND DATA FILES TRANSFORMATION

    ABSTRACT

    The aim of this work was to develop an easy and fast multiple regression

    program, specially designed for modeling. To pursue the mentioned aim, the

    following characteristics was introduced: a) short and self - explained subroutines, avoiding questions/decisions; b)semi - automatic graphical interface to detect biased deviation regions of the model. c)Sub - menu with 20 options for manipulating and transforming data files e)Accumulated historical record of the past statistical analyses ( tables with date of analyses; file name; total number of

  • 9

    data; number of points and variables; parameters of the fitted equation; multiple

    correlation and determination coefficients; standard error; F value (Snedecor test). Through the bibliography, to accomplish training and testing purposes, 15

    multiple regression examples was incorporated to the program. The literature, the

    meaning of the variable and the book results, was added at the zone observation

    (in the file, after the end of the numeric data). Keywords: multiple regression, soft - ware, computing, modeling

    REFERNCIAS BIBLIOGRAFIAS

    DIXON, Wilfrid J., MASSEY Jr, Frank J. Introduction to statistical analysis. 3ed.

    New York: Mc Graw Hill, 1969. p.213-214.

    FOX, J. Linear statistical models and related methods. New York: John Wiley,

    l984. p.30-33.

    LI, J. C. R. Statistical inference. 2ed. Ann Arbor: Edwards Brothers, l967. p.90-

    95.

    SPIEGEL, M. R. Estatistica. So Paulo: Mc Graw Hill do Brasil, l976. p.452-

    465.

    SPIEGEL, M. R. Statistical. New York: Mc Graw Hill, 1961. p.273-274, 281.

    STEEL, R. G. D., TORRIE, J. H. Principles and procedures of statistics. New

    York: Mc Graw Hill, l960. p.277-304.

  • 10

    WEISKERG, S. Applied linear regression. 2ed. New York: John Wiley, 1985.

    p.34-41.

  • 11

    Tabela 1- Arquivos, do programa e auxiliares, com respectivas funes

    ARQUIVOS DO PROGRAMA:

    1) REGR.EXE (arquivo principal - ligado s funes bsicas) 2) REG-GRF1.EXE (grfico entre y estimado e y medido) 3) REG-GRF2.EXE (grfico entre 2 variveis qualquer do arquivo) 4) REG-AJUD.TXT (apostila sobre o programa)

    ARQUIVOS AUXILIARES (manter no diretrio do programa, opcional/ no DOS) :

    1) REG-MONO.EXE (permite confeco grfica em monitores antigos) 2) LIST.COM (leitor de textos) 3) EDIT.COM (editor de texto do DOS 5.0 em diante) 4) EDIT.HLP (texto de ajuda do editor do DOS 5.0 em diante) 5) QBASIC.EXE (necessrio para rodar o editor EDIT.COM do DOS)

    Tabela 2. Tela do MENU PRINCIPAL. Chaves, de 1 a 7, so as bsicas.

  • 12

    Tabela 3. Tela exemplificando edio de arquivo de dados pela chave 3 do menu principal. A ltima coluna corresponde sempre varivel Y. As observaes colocadas aps linha em branco no interferem na anlise estatstica.

    TABELA 4. Tela do SUBMENU de transformadas matemticas (chave 4 do MENU PRINCIPAL)

  • 13

    Tabela 5. Tela de apresentao dos resultados.

    Figura 1. A Chave 5 do MENU PRINCIPAL. permite uma visualizao da qualidade do ajuste. No exemplo, o modelo y=a0+a1.x1+a2.x2+a3.x3 aplicado aos dados do arquivo grades4.dat provoca desvios tendenciosos.

  • 14

    Figura 2. O modelo y=a0. (x1)a1. (x2)a2. (x3)a3 aplicado aos dados do arquivo grades4.dat no provoca desvios tendenciosos (compare com a figura anterior).