39
Kaio Breno Pereira Alves UTILIZAÇÃO DE COMPONENTES PRINCIPAIS PARA ANÁLISE DE EXPERIMENTOS COM RESPOSTAS MÚLTIPLAS: UMA APLICAÇÃO EM MODELOS PARA PREVISÃO METEOROLÓGICA Natal - RN 01 de março de 2019

Kaio Breno Pereira Alves - UFRN: Home...Alves, Kaio Breno Pereira. Utilização de componentes principais para análise de experimentos com respostas múltiplas: uma aplicação em

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Kaio Breno Pereira Alves - UFRN: Home...Alves, Kaio Breno Pereira. Utilização de componentes principais para análise de experimentos com respostas múltiplas: uma aplicação em

Kaio Breno Pereira Alves

UTILIZAÇÃO DE COMPONENTES PRINCIPAIS PARA ANÁLISE DEEXPERIMENTOS COM RESPOSTAS MÚLTIPLAS: UMA APLICAÇÃO EM

MODELOS PARA PREVISÃO METEOROLÓGICA

Natal - RN

01 de março de 2019

Page 2: Kaio Breno Pereira Alves - UFRN: Home...Alves, Kaio Breno Pereira. Utilização de componentes principais para análise de experimentos com respostas múltiplas: uma aplicação em

Kaio Breno Pereira Alves

UTILIZAÇÃO DE COMPONENTES PRINCIPAIS PARA ANÁLISE DEEXPERIMENTOS COM RESPOSTAS MÚLTIPLAS: UMA APLICAÇÃO EM

MODELOS PARA PREVISÃO METEOROLÓGICA

Monografia de Graduação apresentada ao De-partamento de Estatística do Centro de Ci-ências Exatas e da Terra da UniversidadeFederal do Rio Grande do Norte como re-quisito parcial para a obtenção do grau deBacharel em Estatística.

Universidade Federal do Rio Grande do Norte

Centro de Ciências Exatas e da Terra

Departamento de Estatística

Orientador: Profa. Dra. Carla Almeida Vivacqua

Natal - RN01 de março de 2019

Page 3: Kaio Breno Pereira Alves - UFRN: Home...Alves, Kaio Breno Pereira. Utilização de componentes principais para análise de experimentos com respostas múltiplas: uma aplicação em

Alves, Kaio Breno Pereira. Utilização de componentes principais para análise deexperimentos com respostas múltiplas: uma aplicação em modelospara previsão meteorológica / Kaio Breno Pereira Alves. - 2019. 38f.: il.

Monografia (Bacharelado em Estatística) - UniversidadeFederal do Rio Grande do Norte, Centro de Ciências Exatas e daTerra, Departamento de Estatística. Natal, 2019. Orientadora: Carla Almeida Vivacqua.

1. Previsão de tempo - Monografia. 2. Planejamento deexperimento - Monografia. 3. Método de Lenth - Monografia. 4.Simulação númerica - Monografia. 5. WRF - Monografia. I.Vivacqua, Carla Almeida. II. Título.

RN/UF/CCET CDU 551.509

Universidade Federal do Rio Grande do Norte - UFRNSistema de Bibliotecas - SISBI

Catalogação de Publicação na Fonte. UFRN - Biblioteca Setorial Prof. Ronaldo Xavier de Arruda - CCET

Elaborado por Joseneide Ferreira Dantas - CRB-15/324

Page 4: Kaio Breno Pereira Alves - UFRN: Home...Alves, Kaio Breno Pereira. Utilização de componentes principais para análise de experimentos com respostas múltiplas: uma aplicação em

Scanned by CamScanner

Page 5: Kaio Breno Pereira Alves - UFRN: Home...Alves, Kaio Breno Pereira. Utilização de componentes principais para análise de experimentos com respostas múltiplas: uma aplicação em

Aos meus pais.

Page 6: Kaio Breno Pereira Alves - UFRN: Home...Alves, Kaio Breno Pereira. Utilização de componentes principais para análise de experimentos com respostas múltiplas: uma aplicação em

Agradecimentos

A Deus por iluminar meus caminhos e dar força para seguir em frente.

Aos meus pais, José Humberto e Jacqueline Machado, aos meus irmãos, FelipeBruno e Ricardo Breno e à minha companheira Adrielly Rosana por todo o apoio que mederam ao longo desses anos de curso.

Aos amigos do curso, principalmente a Anthony Iury, Diego Medeiros, Igor Antônio,Daniel Nóbrega, Luana Pontes, Rodrigo Matheus, Lucas Sales e Érika, por todo apoio emomentos que passamos juntos.

À minha avó Elza Machado por me ajudar financeiramente, com conselhos e apoiosempre que precisei dela.

À minha orientadora Carla Vivacqua pela ajuda e dedicação na estruturação dessetrabalho.

Aos professores Marcus Alexandre e André Pinho por aceitarem fazer parte dabanca e agregarem valor a este trabalho.

E a todos os meus professores do curso pelos incentivos e conhecimentos trasmitidoscom profissionalismo.

Page 7: Kaio Breno Pereira Alves - UFRN: Home...Alves, Kaio Breno Pereira. Utilização de componentes principais para análise de experimentos com respostas múltiplas: uma aplicação em

“Insanidade é continuar fazendo sempre a mesma coisa e esperar resultados diferentes.”Isaac Newton

Page 8: Kaio Breno Pereira Alves - UFRN: Home...Alves, Kaio Breno Pereira. Utilização de componentes principais para análise de experimentos com respostas múltiplas: uma aplicação em

ResumoNo Nordeste do Brasil, são observados fenômenos meteorológicos que causam transtornoscomo deslizamento de terra, ruas alagadas e trânsitos desordenados. Além disso, osverões mais úmidos e temperaturas altas estão a expandir a área em que certos insetostransmissores de doenças conseguem sobreviver e propagar-se, transmitindo doenças comolyme, dengue e malária. Com isso, vem se tornando uma preocupação para os especialistasem meteorologia preverem com melhor exatidão a temperatura. Uma previsão minuciosade eventos extremos é de suma importância para que sejam desenvolvidas atividades peloEstado com o intuito de apaziguar os efeitos causados pelos fenômenos meteorológicos eclimáticos. A utilização de métodos quantitativos para a realização de previsão de tempomediante simulações numéricas vem tendo destaque na meteorologia. Nesse sentido, oprincipal objetivo do presente trabalho é propor técnicas de análise de experimentos commúltiplas respostas, com o intuito de contribuir para uma robusta seleção de configuraçõesadequadas de parametrizações do modelo Weather Research and Forecasting (WRF) paramelhorar as previsões de temperatura mínima e máxima nas regiões próximas de Natal,capital do Rio Grande do Norte. Foram selecionadas cinco parametrizações da física domodelo WRF, em que cada uma possui vários níveis, contendo assim muitas combinações.Desta forma, foi utilizado uma técnica de análise multivariada conhecida como análise decomponentes principais conjuntamente com o gráfico de Lenth para avaliar a qualidade daspossíveis combinações de parametrizações. Observou-se que a parametrização microfísicanão influênciou na resposta e as configurações recomendadas para temperatura mínima sãodiferentes da temperatura máxima. Caso somente seja possível utilizar uma configuraçãodo WRF, sugere-se estabelecer um critério de prioridade entre as temperaturas mínima emáxima, que considere as especificidades do objetivo central da previsão.

Palavras-chave: Previsão de Tempo; Planejamento de Experimento; Método de Lenth;Simulação Numérica; WRF.

Page 9: Kaio Breno Pereira Alves - UFRN: Home...Alves, Kaio Breno Pereira. Utilização de componentes principais para análise de experimentos com respostas múltiplas: uma aplicação em

AbstractIn the Northeast of Brazil, meteorological phenomena are observed that caused suchdisorders as landslides, flooded streets and disordered transits. In addition, wetter summersand higher temperatures are expanding the area where certain disease-carrying insectscan survive and spread, spreading diseases like lyme, dengue and malaria. With this, ithas become a concern for meteorologists to predict the temperature more accurately. Athorough forecast of extreme events is of paramount importance for the development ofactivities by the State to appease the effects caused by weather and climate phenomena.The use of quantitative methods to perform weather forecasting using numerical simulationshas been highlighted in meteorology. In this sense, the main objective of the present work isto propose techniques of analysis of experiments with multiple answers, with the intentionof contributing to a robust selection of suitable configurations of parameterizations ofthe Model Weather and Forecasting (WRF) to improve the forecasts of minimum andmaximum temperature in the regions near Natal, capital of Rio Grande do Norte. Fiveparametrizations of the physics of the WRF model were selected, in which each one hasseveral levels, thus containing many combinations. Thus, a multivariate analysis techniqueknown as principal component analysis was used in conjunction with the Lenth graph toevaluate the quality of possible combinations of parametrizations. It was observed thatthe microphysical parameterization did not influence the response and the recommendedminimum temperature settings are different from the maximum temperature. If it is onlypossible to use a WRF configuration, it is suggested to establish a criterion of prioritybetween minimum and maximum temperatures, which takes into account the specificitiesof the central objective of the forecast.

Keywords: Weather Forecast; Design of Experiments; Lenth Method; Numerical Simula-tion; WRF.

Page 10: Kaio Breno Pereira Alves - UFRN: Home...Alves, Kaio Breno Pereira. Utilização de componentes principais para análise de experimentos com respostas múltiplas: uma aplicação em

Lista de ilustrações

Figura 3.1 – Regiões divididas por similaridade pelo modelo WRF. . . . . . . . . . . 20Figura 4.1 – Scree plot para análise de componente principal . . . . . . . . . . . . . 28Figura 4.2 – Gráfico de Lenth . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29Figura 4.3 – Distribuição dos dados para os fatores radiação e cúmulus na tempera-

tura máxima . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29Figura 4.4 – Distribuição dos dados da interação RadiaçãoxPBL . . . . . . . . . . . 30Figura 4.5 – Distribuição dos dados PDF e P90 . . . . . . . . . . . . . . . . . . . . 30Figura 4.6 – Distribuição dos dados CA e Média . . . . . . . . . . . . . . . . . . . . 31Figura 4.7 – Gráfico de Lenth . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31Figura 4.8 – Distribuição dos dados para os fatores radiação e cúmulus na tempera-

tura mínima . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32Figura 4.9 – Gráfico de Lenth . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32Figura 4.10–Gráfico de Lenth . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

Page 11: Kaio Breno Pereira Alves - UFRN: Home...Alves, Kaio Breno Pereira. Utilização de componentes principais para análise de experimentos com respostas múltiplas: uma aplicação em

Lista de tabelas

Tabela 3.1 – Fatores e níveis utilizados no WRF. . . . . . . . . . . . . . . . . . . . . 19Tabela 3.2 – Configurações usadas em cada uma das simulações no WRF . . . . . . 23Tabela 4.1 – Autovetor do componente principal . . . . . . . . . . . . . . . . . . . . 28Tabela 4.2 – Melhores parametrizações físicas para a região EB . . . . . . . . . . . . 33Tabela 4.3 – Melhores parametrizações físicas para a região TAB . . . . . . . . . . . 33

Page 12: Kaio Breno Pereira Alves - UFRN: Home...Alves, Kaio Breno Pereira. Utilização de componentes principais para análise de experimentos com respostas múltiplas: uma aplicação em

Sumário

Lista de tabelas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111.1 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131.2 Objetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2 REVISÃO CONCEITUAL . . . . . . . . . . . . . . . . . . . . . . . . 142.1 Planejamento de Experimentos . . . . . . . . . . . . . . . . . . . . . . 142.1.1 Plano Experimental . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142.2 Experimentos Fatoriais . . . . . . . . . . . . . . . . . . . . . . . . . . . 152.2.1 Análise de Experimentos Fatoriais Completos Assimétricos . . . . . . . . . 162.3 Método de Lenth . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162.4 Análise de Componentes Principais . . . . . . . . . . . . . . . . . . . 17

3 DESCRIÇÃO DO EXPERIMENTO . . . . . . . . . . . . . . . . . . 193.1 Construção do Plano Experimental . . . . . . . . . . . . . . . . . . . 193.2 Região de Estudo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

4 RESULTADOS E DISCUSSÃO . . . . . . . . . . . . . . . . . . . . . 264.1 Análise Estatística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264.1.1 Tratamento dos Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264.1.2 Análise Estatística no Escudo Brasileiro . . . . . . . . . . . . . . . . . . . 274.1.3 Avaliação Estatística em Terras Altas Brasileiras . . . . . . . . . . . . . . . 32

5 CONSIDERAÇÕES FINAIS . . . . . . . . . . . . . . . . . . . . . . . 35

REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

Page 13: Kaio Breno Pereira Alves - UFRN: Home...Alves, Kaio Breno Pereira. Utilização de componentes principais para análise de experimentos com respostas múltiplas: uma aplicação em

11

1 Introdução

Um fenômeno natural é um acontecimento não artificial que ocorre sem a intervençãohumana. Assim, quando este fenômeno provoca danos extensos a propriedades ou grandenúmero de vítimas é denominado desastre natural. Segundo Kobiyama, Monteiro e Goerl(2018), nos últimos anos a quantidade de registros de desastres naturais vem tendo umaexpansão considerável. Isto é consequência, especialmente, do aumento da população e oacentuado processo de urbanização e industrialização.

Um desastre natural relacionado à temperatura são as ondas de calor que causamum grande impacto social e econômico chegando a causar óbitos, internações e perda delavouras. Segundo Barcellos et al. (2009) a onda de calor que atingiu a Europa Ocidentalno verão de 2003 causou cerca de 35.000 mortes, sendo 15.000 óbitos só na França.

Outro problema grave relacionado à temperatura é a saúde pública. Os invernosmais suaves e temperaturas altas influenciam na expansão de áreas habitadas por insetostransmissores de virus propagando doenças como dengue, zika e chikungunya. Assim,modelos que sejam capazes de prever adequadamente a temperatura podem ser úteis paradesenvolvimento de políticas públicas para controle e prevenção dessas doenças.

Devido à essa forte expansão de eventos extremos que causam grandes perdaseconômicas e populacionais ao redor do mundo, faz-se necessário a realização de um estudopara analisar modelos de simulação com o intuito de obter um diagnóstico mais preciso,pois é de suma importância estudar as parametrizações que mais influenciam para umamelhor previsão de temperatura.

As previsões são ferramentas muito importantes no desenvolvimento econômicodo país, pois fornece informações importantes sobre diversos setores da sociedade, emespecial os que dependem diretamente das condições atmosféricas como, por exemplo, aagricultura, geração de energia em usinas hidrelétricas e transportes.

Segundo Barreto, Cerqueira e Pellegrini (2010), a simulação numérica tem setornado a tendência na abordagem atmosférica, através de programas computacionaisdenominados por modelos atmosféricos, com o objetivo de reproduzir a complexa dinâmicanão-linear do sistema. Porém, é necessário ajustá-los e validá-los com a utilização de dadoslocais e com a realização de experimentos numéricos específicos.

O número de modelos numéricos de previsão vem aumentando. No entanto, o modeloWeather Research and Forecasting (WRF) vem se destacando. O WRF foi desenvolvidonos Estados Unidos e conta com parcerias com outros centros de pesquisa para seudesenvolvimento, além de um crescimento grande no número de usuários (SOUZA, 2015).

Page 14: Kaio Breno Pereira Alves - UFRN: Home...Alves, Kaio Breno Pereira. Utilização de componentes principais para análise de experimentos com respostas múltiplas: uma aplicação em

Capítulo 1. Introdução 12

O WRF é um sistema de previsão meteorológica numérica de mesoescala da próximageração, desenvolvido para aplicações de pesquisa atmosférica e previsão operacional. Omodelo serve uma ampla gama de aplicações meteorológicas em escalas de dezenas demetros a milhares de quilômetros. Para os pesquisadores, o WRF pode produzir simulaçõescom base nas condições atmosféricas reais (isto é, a partir de observações e análises) oucondições idealizadas. O WRF oferece à previsão operacional uma plataforma flexível ecomputacionalmente eficiente, ao mesmo tempo em que reflete os recentes avanços emfísica, numéricos e assimilação de dados contribuídos pelos desenvolvedores da comunidadede pesquisa expansiva (Ver https://www.mmm.ucar.edu/weather-research-and-forecasting-model).

As parametrizações da física do modelo WRF são implementadas em módulosseparados, organizados em cinco blocos principais, que na linguagem de planejamento deexperimento são os fatores que serão listados abaixo:

• Cúmulus: Responsáveis por resolver as nuvens de origem convectivas;

• Superfície de Terra: Estes esquemas resolvem as trocas de calor e de água no interiordo solo;

• Camada Limite Planetária (PBL): Resolvem as trocas turbulentas não apenas nacamada limite planetária, que se limita com a terra e o mar, mas ao longo de toda acoluna vertical do modelo;

• Radiação: São responsáveis por resolver as trocas radioativas de “onda longa” e“onda curta”;

• Microfísica: Esses esquemas resolvem os processos de condensação e evaporação doar.

Na linguagem de planejamento de experimento, denotaremos essas parametrizaçõescomo fatores, e seus esquemas por níveis. A quantidade de fatores e níveis do modelo émuito grande, gerando assim uma quantidade imensa de resultados.

Além disso, para representar uma característica meteorológica vários aspectostem que ser considerados, como comportamento médio, distribuição, pontos extremos,gerando muitas respostas a serem analisadas. Assim, combinaremos técnicas de análisemultivariada e planejamento de experimento com o intuito de facilitar estudos experimentaismultivariados.

Page 15: Kaio Breno Pereira Alves - UFRN: Home...Alves, Kaio Breno Pereira. Utilização de componentes principais para análise de experimentos com respostas múltiplas: uma aplicação em

Capítulo 1. Introdução 13

1.1 MotivaçãoZanluca et al. (2015) conta que no ano de 2015 vários casos de Zika, doença

trasmitida pelo aeds aegypti, foram relatados no nordeste brasileiro. Segundo Paiva (2018),o surto de mosquitos aeds aegypti no Rio Grande do Norte está relacionado com atemperatura. Portando, é de suma importância melhorar as previsões de temperatura demodo que políticas públicas possam ser adotadas para previnir problemas futuros.

Desta forma, o estudo atual tem como principal motivação propor métodos deanalisar experimentos com respostas múltiplas, com o intuito de ajudar pesquisadores naescolha de configurações de parametrizações físicas que possibilitem melhorar as previsõese potencializar o custo computacional para uma previsão adequada, podendo desenvolverpolíticas públicas para prevenções de futuros problemas.

1.2 ObjetivoEste trabalho pretende ilustrar a aplicação de componentes principais para análise

de um experimento fatorial assimétrico com respostas múltiplas para investigar o efeitoda parametrização física do modelo WRF na previsão de variáveis meteorológicas. Assim,podemos potencializar o custo computacional na simulação do modelo WRF, além demelhorar as previsões do mesmo.

Page 16: Kaio Breno Pereira Alves - UFRN: Home...Alves, Kaio Breno Pereira. Utilização de componentes principais para análise de experimentos com respostas múltiplas: uma aplicação em

14

2 Revisão Conceitual

Para um melhor entendimento do trabalho, este capítulo apresenta os conceitosbásicos sobre planejamento e análise de experimentos, método de Lenth e análise decomponentes principais.

2.1 Planejamento de ExperimentosSegundo Neto, Scarminio e Bruns (2003), um planejamento de experimentos ade-

quado é aquele capaz de oferecer exatamente o tipo de informação que buscamos. ParaMontogomery (2001), planejamento de experimentos consiste no processo de delinear oexperimento de tal maneira que dados consistentes que possam ser analisados por métodosestatísticos sejam coletados, resultando em conclusões válidas e objetivas.

A realização do experimento demanda custo computacional e exige tempo. SegundoLaw e Kelton (2000), planejamento de experimentos, no âmbito da simulação, é umprocedimento que tem como objetivo decidir antes da realização dos experimentos quaisconfigurações simular de modo que a informação esperada possa ser obtida com umaquantidade menor de simulações.

2.1.1 Plano Experimental

Esta etapa é dividida em duas partes, chamadas construção do problema e pla-nejamento do experimento. Na primeira parte é importante compreender organizar edefinir bem os problemas, pois, se não estiverem claro, ou quais são os objetivos a seremalcançados, os resultados não serão bons.

Na operacionalização do processo é indispensável a participação de Estatísticose Meteorologistas para melhor entendimento do problema. Além disso, a experiência econhecimento de cada membro da equipe é fundamental para se obter resultados plausíveiscom a construção e execução do planejamento.

A construção do problema é uma tarefa importante e minuciosa. Faz-se necessáriodescobrir o interesse do pesquisador, para que possa atender suas necessidades. Em seguida,identificar os objetivos e escolher as variáveis resposta de modo que assegure a objetividadena análise dos resultados obtidos.

Segundo Souza (2015), na segunda parte é fortemente aconselhável que todo oprocesso seja organizado de modo que a coleta de dados siga uma mesma metodologiadefinida no planejamento de experimentos. Assim, o pesquisador terá a garantia de que o

Page 17: Kaio Breno Pereira Alves - UFRN: Home...Alves, Kaio Breno Pereira. Utilização de componentes principais para análise de experimentos com respostas múltiplas: uma aplicação em

Capítulo 2. Revisão Conceitual 15

planejamento seja eficiente e ao mesmo tempo eficaz.

Partindo do princípio de que o objetivo da pesquisa tenha sido bem definido, umbom planejamento de experimento ajudará a obter os resultados desejados. Nesta etapaé de suma importância a identificação de todos os candidatos a fatores que afetam asvariáveis respostas, identificando quais desses fatores são principais, secundários e quaisserão mantidos fixos.

Após uma seleção adequada dos fatores, devemos escolher os candidatos a níveisdesses fatores. Caso existam interações entre os fatores de controle, seus efeitos deverãoser estudados no experimento. Por fim, baseado nas informações obtidas no projeto,escolheremos o melhor plano experimental para ser executado.

2.2 Experimentos FatoriaisQuando desejamos estudar o efeito de dois ou mais fatores não hierárquicos simul-

taneamente sobre a variável resposta, o mais indicado na fase inicial do procedimentoexperimental é o planejamento fatorial. Segundo Wu e Hamada (2009), é melhor utilizarum plano fatorial do que um fator de cada vez, pois é a maneira mais eficaz de determinara influência dos fatores na variável resposta.

Os experimentos fatoriais são utilizados em larga escala na indústria por permitiremao experimentador encontrar e estimar interações entre fatores (OLGUÍN; FEARN, 1997).Desse modo, considerando que todos os fatores sejam cruzados, na existência de mais deum fator no experimento, o mais admissível é conduzir um experimento fatorial.

O plano fatorial pode ser completo ou fracionado. Um experimento fatorial completoé um experimento no qual pesquisadores medem respostas em todas as combinações dosníveis de fatores. Um experimento fatorial fracionado é aquele em que pesquisadores medemapenas uma fração dos ensaios no experimento completo. Neste trabalho, utilizaremos oplanejamento fatorial completo.

Uma desvantagem dos experimentos fatoriais é que o aumento no número de níveisou até mesmo de fatores pode causar um crescimento rápido no número de tratamen-tos (combinação de níveis e/ou fatores), muitas vezes tornando inviável a execução doexperimento.

Vantagens do uso do Planejamento Fatorial:

• Realização de menos ensaios sem prejudicar a qualidade da informação;

• Seleção das variáveis que influenciam no processo com quantidade reduzida de provas;

• Permitem estudar os efeitos principais e os efeitos das interações entre os fatores.

Page 18: Kaio Breno Pereira Alves - UFRN: Home...Alves, Kaio Breno Pereira. Utilização de componentes principais para análise de experimentos com respostas múltiplas: uma aplicação em

Capítulo 2. Revisão Conceitual 16

2.2.1 Análise de Experimentos Fatoriais Completos Assimétricos

Existem casos em um experimento que é necessário introduzir um nível a mais emum determinado fator. Quando há casos em que envolvem fatores com uma quantidade deníveis diferentes, estes tipos de experimentos são denominados de experimentos fatoriaisassimétricos.

Os experimentos fatoriais assimétricos são frequentemente encontrados na práticaquando a escolha do nível do fator pode variar com a natureza dos seus níveis, ou seja, onível pode ser qualitativo (tipo de herbicida) ou quantitativo (temperatura). Com isso,existe a possibilidade dos fatores qualitativos possuírem níveis diferentes (SOUZA, 2015).

2.3 Método de LenthLenth (1989) criou um método objetivo para identificar efeitos ativos na análise de

experimentos fatoriais. O método se baseia na dispersão dos efeitos e consiste em obteruma estimativa para o erro padrão dos contrastes.

A construção gráfica é baseada em uma Margem de Erro Simultânea (SME) euma Margem de Erro (ME), dadas por:

SME = tγ;glPSE

ME = t0,975;glPSE

Sendo ci um vetor de estimativas dos contrastes de interesse e m a quantidade decontrastes, define-se um Pseudo Erro Padrão (PSE) como sendo:

PSE = 1,5× [mediana|ci|], i = 1, · · · ,m

Após um estudo de simulação, Lenth (1989) sugeriu utilizar os graus de liberdadecomo sendo m

3 e definiu a γ como:

γ = 1 + 0,951/m

2

O gráfico é retratado através de um gráfico de barras, em que é adicionado linhasreferentes a ± SME eME. Caso o efeito do contraste seja maior que o SME, o efeito podeser considerado ativo e será inativo se for inferior a ME. No caso em que o efeito estiverentre SME e ME, é necessário levar em conta o conhecimento prévio do pesquisador paratomar decisões.

Page 19: Kaio Breno Pereira Alves - UFRN: Home...Alves, Kaio Breno Pereira. Utilização de componentes principais para análise de experimentos com respostas múltiplas: uma aplicação em

Capítulo 2. Revisão Conceitual 17

Vantagens do uso do Gráfico de Lenth:

• Os cálculos são simples, podendo ser feitos a mão;

• Os resultados obtidos são exibidos em termos das unidades de medidas da variávelresposta;

• É possível analisar a significância e tamanho dos efeitos.

2.4 Análise de Componentes PrincipaisA análise de componentes principais é uma técnica de análise multivariada que

transforma um conjunto de variáveis correlacionadas em termos de um conjunto de novasvariáveis não correlacionadas, denominadas de componentes principais. Cada componenteprincipal é uma combinação linear de todas as variáveis originais.

Segundo Varella (2008), a análise de componentes principais está associada àredução de massa de dados, com a menor perda possível de informação. Procura-seredistribuir a variação observada nos eixos originais de forma a se obter um conjunto deeixos ortogonais não correlacionados.

Considere a matriz dos dados de n indivíduos e está se medindo p característicasde cada indivíduo. Seja S a matriz de covariância e R a matriz de correlação, ambasde oderm p × p, os componentes principais são determinados resolvendo-se a equaçãocaracterística da S ou R dos dados, isto é:

det[R− λI] = 0 ou |R− λI| = 0

Sejam λ1, λ2, λ3, · · · , λp as raízes da equação característica da matriz S ou R, então:

λ1 > λ2 > λ3 > · · · > λp.

Para cada autovalor λi existe um autovetor ãi tal que

ãi =

ai1

ai2...aip

Tomando X1, X2, X3, · · · ,Xp como sendo as características observadas. Seja ãi o

autovetor correspondente ao autovalor λi, então o i-ésimo componente principal é dadopor:

Page 20: Kaio Breno Pereira Alves - UFRN: Home...Alves, Kaio Breno Pereira. Utilização de componentes principais para análise de experimentos com respostas múltiplas: uma aplicação em

Capítulo 2. Revisão Conceitual 18

Yi = ai1X1 + ai2X2 + ...+ aipXp

• Propriedades dos componentes principais:

1. A variância do componente principal Yi é igual ao valor do autovalor λi

Var(Yi) = λi

2. O primeiro componente é o que apresenta maior variância e assim por diante:

Var(Y1) > Var(Y2) > ... >Var(Yp)

3. A variância total das variáveis originais é igual ao somatório dos autovalores que éigual a variância total dos componentes principais:

∑ Var(Xi) = ∑λi = ∑ Var(Yi)

4. Os componentes principais não são correlacionados entre si:

Cov(Yi,Yj) = 0

A importância de um componente principal é avaliada pela sua contribuição, ouseja, pela proporção de variâcia explicada pelo componente. Logo, a soma dos primeirosautovalores representa a proporção de informação dos componentes principais retida naredução de p para q dimensões.

Page 21: Kaio Breno Pereira Alves - UFRN: Home...Alves, Kaio Breno Pereira. Utilização de componentes principais para análise de experimentos com respostas múltiplas: uma aplicação em

19

3 Descrição do Experimento

Nesta etapa foi possível reunir conhecimento de pessoas da área de Climatologia eEstatística. Assim, podendo com boas informações atender o interesse de todos envolvidosno trabalho.

3.1 Construção do Plano ExperimentalBuscamos modelos de simulação numérica para melhor previsão de temperatura e

notamos que o modelo WRF vinha sendo bastante utilizado. No entanto, o modelo possuimuitos parâmetros que influenciam na previsão. Além disso, estamos trabalhando commuitas variáveis respostas. Sendo assim, utilizaramos técnicas de análise multivariada jun-tamente com experimentos fatoriais assimétricos para encontrar as melhores combinaçõespossíveis na obtenção de uma boa previsão.

Com o modelo já definido, passamos a tratar as parametrizações como os fatores eseus esquemas como níveis. A Tabela 3.1 exibe os fatores e níveis escolhidos de acordocom o conhecimento dos pesquisadores para utilizar as técnicas de experimentos fatoriaisassimétricos completo para avaliar a influência da parametrização do modelo WRF naqualidade de previsão de tempo e clima.

Tabela 3.1 – Fatores e níveis utilizados no WRF.

Fatores Cumulus Microfísica Radiação PBL

NíveisKF WSMB6 CAM MYJ

NSAS Thompson RRTMG YSUTiedtke

Percebam que temos três fatores com dois níveis e um fator com três níveis,resultando num plano do tipo fatorial assimétrico 23×3 que nos permite executar 24simulações. Como o número de simulações não é grande, utilizaremos um plano fatorialcompleto assimétrico.

Um conjunto de dados de reanálise é gerado pela combinação de um esquema deassimilação de dados coletados e um modelo numérico de previsão de tempo. Com estesprocedimentos, cria-se uma matriz de dados regularmente espaçados que representa umaestimativa consistente do estado atmosférico para cada ponto de grade, em cada instantede tempo (DEE et al., 2016).

Page 22: Kaio Breno Pereira Alves - UFRN: Home...Alves, Kaio Breno Pereira. Utilização de componentes principais para análise de experimentos com respostas múltiplas: uma aplicação em

Capítulo 3. Descrição do Experimento 20

Para avaliarmos a qualidade dos resultados das simulações do modelo WRF,consideramos como os dados observados do estudo os resultados do ERA-INTERIM. Essesistema é a mais recente reanálise atmosférica global produzida pelo Centro Europeu dePrevisões Meteorológicas de Médio Alcance (ECMWF).

3.2 Região de EstudoA região do estudo engloba a maior parte do continente americano, onde o mapa

foi dividido em regiões quadradas de 36 km cada lado. Cada região possui observaçõessimuladas e observadas. A divisão foi feita por regiões que apresentem característicassemelhantes levando em conta os dados observados.

No estudo que estamos desenvolvendo e comprovamos a relação do surto de mos-quitos com a temperatura, utilizamos os dados de casos de doenças transmitidas pelomosquito no Nordeste. Por esse motivo, delinearemos como região de estudo para essetrabalho, a região Terras Altas Brasileiras (TAB) e Escudo Brasileiro (EB).

Figura 3.1 – Regiões divididas por similaridade pelo modelo WRF.

• Parametrizações Físicas

O WRF possui uma ampla gama de opções de configurações que vem sendoimplantadas ao longo dos anos. O intuito é reunir num mesmo sistema os modelos queapresentem resultados satisfatórios nas mais diversas pesquisas. Neste trabalho serãoselecionados os melhores esquemas através de técnicas de planejamento de experimentos.Os melhores níveis foram escolhidos tomando como base pesquisas bibliográficas e discussõescom a equipe multidisciplinar (ver Tabela 3.1).

Page 23: Kaio Breno Pereira Alves - UFRN: Home...Alves, Kaio Breno Pereira. Utilização de componentes principais para análise de experimentos com respostas múltiplas: uma aplicação em

Capítulo 3. Descrição do Experimento 21

Segue abaixo a descrição feita por Souza (2015) dos níveis utilizados neste trabalho:

1. Kain Fritsch

A parametrização Kain-Fritsch (KAIN; FRITSCH, 1990) trabalha com ummodelo de nuvem simples, formado por correntes de umidade ascendes e descendentesincluindo efeitos de troca com a atmosfera tendo uma microfísica relativamentesimples.

2. NSAS

Esquema do tipo fluxo-massa com componentes e transportes rasos e profundos.

3. Tiedtke

Esquema tipo fluxo-massa com escala de tempo de remoção de CAPE, compo-nente superficial e transporte de momento para superfície raza.

4. WSMB6

Esquema relativamente sofisticado, constituído por seis classes de hidrometeoros(vapor de água, chuva, neve, gelo e água de nuvem, graupel)

5. Thompson

Com base em Thompson, Rasmussen e Manning (2004), teve seu desenvolvimentocom objetivo de melhorar a previsão de eventos de congelamento para alertas desegurança na aviação.

6. CAM

O esquema de radiação CAM é especialmente adequado para simulações climáti-cas regionais por ter uma distribuição de ozônio que varia durante a simulação deacordo com dados climatológicos zonal-médios mensais.

7. RRTMG

É um modelo de transferência radiativa que utiliza a abordagem k-correlacionadapara calcular os fluxos de ondas longas e taxas de aquecimento com eficiência eprecisão para aplicação em GCMs.

Page 24: Kaio Breno Pereira Alves - UFRN: Home...Alves, Kaio Breno Pereira. Utilização de componentes principais para análise de experimentos com respostas múltiplas: uma aplicação em

Capítulo 3. Descrição do Experimento 22

8. MYJ

Mellor e Yamada (1982) argumentam que o esquema é apropriado para todos osfluxos estáveis e ligeiramente instáveis, mas que os erros são mais prováveis à medidaque o fluxo se aproxima do limite de convecção livre.

9. YSU

O Yonsei University PBL é a próxima geração do MRF PBL, utilizando tambémos termos counter gradient para representar fluxos devido à gradientes não-locais.

• Plano Experimental

Denotaremos por C o fator cumulus, M microfísica, R radiação e P pbl. Cada Fatorpossuirá seu nível denotado da seguinte forma:

Cumulus =

KF (−1)

NSAS (0)

Tiedtke (+1)

Microfísica =

WSMB6 (−1)

Thompson (+1)

Radiação =

CAM (−1)

RRTMG (+1)PBL =

MY J (−1)

Y SU (+1)

• Construção do Plano Fatorial Completo Assimétrico

O custo computacional será bem elevado para os casos em que o número desimulações é grande. No nosso caso, essa quantidade é razoavelmente pequena, sendo assim,podemos optar por um planejamento fatorial completo.

Para refletir o desempenho da simulação do modelo WRF, resolvemos trabalharcom o erro médio absoluto, que é uma medida utilizada para representar a diferença médiaentre os valores simulados pelo WRF e o valor observado. Quanto menor o erro médioabsoluto, maior será a semelhança entre os valores simulados e observados.

Na simulação númerica a aleatorização não terá efeito na resposta. A ordem deexecução das simulações de diferentes configurações utilizadas no WRF mostradas naTabela 3.2 não importa.

Page 25: Kaio Breno Pereira Alves - UFRN: Home...Alves, Kaio Breno Pereira. Utilização de componentes principais para análise de experimentos com respostas múltiplas: uma aplicação em

Capítulo 3. Descrição do Experimento 23

Tabela 3.2 – Configurações usadas em cada uma das simulações no WRF

Radiação Cumulus Microphysics PBL

CAM Kain-Fritsch WSM6 MYJCAM Kain-Fritsch WSM6 YSUCAM Kain-Fritsch Thompson MYJCAM Kain-Fritsch Thompson YSUCAM NSAS WSM6 MYJCAM NSAS WSM6 YSUCAM NSAS Thompson MYJCAM NSAS Thompson YSUCAM Tiedtke WSM6 MYJCAM Tiedtke WSM6 YSUCAM Tiedtke Thompson MYJCAM Tiedtke Thompson YSU

RRTMG Kain-Fritsch WSM6 MYJRRTMG Kain-Fritsch WSM6 YSURRTMG Kain-Fritsch Thompson MYJRRTMG Kain-Fritsch Thompson YSURRTMG NSAS WSM6 MYJRRTMG NSAS WSM6 YSURRTMG NSAS Thompson MYJRRTMG NSAS Thompson YSURRTMG Tiedtke WSM6 MYJRRTMG Tiedtke WSM6 YSURRTMG Tiedtke Thompson MYJRRTMG Tiedtke Thompson YSU

Fonte: Elaborado pelo autor.

• Banco de Dados

Os dados para cada região possuem um total de 50 variáveis respostas e em cadauma dessas variáveis tem-se o resultado das 24 simulações. Os dados estão divididos daseguinte forma:

1. Variáveis Anuais

Temperatura Máxima

Média

CA

CB

PDF

P90

Temperatura Mínima

Média

CA

CB

PDF

P90

Em que a primeira variável é a diferença média absoluta entre os dados obser-vados e simulados. CA e CB é a diferença entre as extremidades das caudas dos dadosobservados e simulados. Perkins et al. (2007) sugeriu uma métrica que mede a quan-tidade de sobreposição entre uma PDF (função densidade de probabilidade) simuladae modelada. Por fim, P90 é a comparação do percentil 90 dos dados obervados e modelados.

Page 26: Kaio Breno Pereira Alves - UFRN: Home...Alves, Kaio Breno Pereira. Utilização de componentes principais para análise de experimentos com respostas múltiplas: uma aplicação em

Capítulo 3. Descrição do Experimento 24

2. Variáveis Trimestrais

Temperatura Máxima

DJF

MAM

JJA

SON

Temperatura Mínima

DJF

MAM

JJA

SON

Porém, para cada trimestre temos as respostas para média, pdf, p90, caudas altas ebaixas. Assim, temos um total de 40 respostas para as variáveis trimestrais e 10 respostaspara as variáveis anuais em cada uma das duas regiões, totalizando assim 100 variáveisrespostas a serem analisadas.

Podemos notar pela definição das variáveis que quanto maior a resposta do tipo devariável PDF e P90, melhor. No caso das variáveis média, caudas altas e baixas, quantomenor for a resposta melhor. Essas informações serviram para encontrar um padrão efacilitar a interpretação dos componentes principais.

• Componentes Principais

A abordagem comum de ser realizada é de estimar os efeitos para cada fator atravésdas variáveis respostas e dos contrastes. Porém, por possuirmos uma quantidade grande devariáveis, seria inviável buscar os melhores níveis comparando cada uma das 50 variáveisde cada região. Assim, utilizamos componentes principais nas variáveis respostas paraque possamos estudar uma combinação linear dessas variáveis sem perder informaçõesrelevantes.

Para dar segurança de que o método funciona, analisamos de forma individual cadauma das 100 variáveis respostas de cada fator ativo de acordo com o gráfico de Lenth ecomparamos com os resultados obtidos nesse trabalho. Observamos que os componentesprincipais paras as duas regiões resultaram numa boa apoximação da realidade, mesmocom uma proporção da variância explicada pelos componentes sendo cerca de 60%.

Por fim, depois de obtido os efeitos dos contrastes para os fatores e suas interações,utilizamos o gráfico de Lenth para analisar a significância desses efeitos com a finalidadede obtermos os melhores níves para uma boa previsão do modelo WRF.

O fator Cúmulus possui três níveis, por isso ao analisar o efeito do fator existemduas posibilidades. A primeia é o coeficiente linear (Cl), que indica que o nível alto oubaixo podem ser os melhores. O segundo caso é conhecido como coeficiente quadrático(Cq) que indica o nível alto e baixo como melhor ou o nível centróide.

Page 27: Kaio Breno Pereira Alves - UFRN: Home...Alves, Kaio Breno Pereira. Utilização de componentes principais para análise de experimentos com respostas múltiplas: uma aplicação em

Capítulo 3. Descrição do Experimento 25

Na literatura encontramos alguns trabalhos que utilizam diferentes tipos de abor-dagens para análise de experimentos com muitas variáveis respostas:

1. Paiva (2006) utiliza o método de componentes principais aplicados aos arranjos deSuperfície de Resposta, culminando com a proposição de um índice multivariadorepresentativo do conjunto original de múltiplas respostas.

2. Paiva (2008) apresenta um estudo dos métodos de otimização de múltiplas respostas,aplicáveis a processos de manufatura. Combinando-se a Metodologia de Projetos deExperimentos, a Metodologia da Superfície de Resposta e os índices de capacidadeunivariados.

3. Silva et al. (2013) apresenta, de forma prática, a aplicação de técnica de otimi-zação multiobjetivo da Pesquisa Operacional em problemas da área de Projeto eAnálise de Experimentos com múltiplas respostas, comparando-as com as técnicastradicionalmente adotadas.

4. Kurtanjek et al. (2008) tem como objetivo estabelecer um número mínimo de variáveisa serem utilizadas para avaliar a qualidade do trigo, entre as 45 variáveis do estudoderivando modelos de regressão linear multivariada para uso na predição simples erápida de propriedades de trigo. A seleção dos principais fatores foi obtido atravésde análise de componentes principais (PCA).

5. Chiao e Hamada (2001) considera experimentos com múltiplas respostas correlaci-onadas, cujas médias, variações e correlações dependem de fatores experimentais.A análise destes experimentos consiste em modelar parâmetros de distribuição emtermos dos fatores experimentais e encontrar configurações de fatores que maximizama probabilidade de estarem numa região de especificação.

Page 28: Kaio Breno Pereira Alves - UFRN: Home...Alves, Kaio Breno Pereira. Utilização de componentes principais para análise de experimentos com respostas múltiplas: uma aplicação em

26

4 Resultados e Discussão

Neste Capítulo é mostrada de maneira simplificada a obtenção dos resultados,empregando as técnicas estatísticas de análise de experimentos para obtenção de parame-trizações físicas adequadas do WRF em busca de uma boa previsão.

4.1 Análise EstatísticaNesta etapa analisamos a influência do fatores C: Cúmulus, M: Microfísica, R:

Radiação e P: PBL sobre a modelagem da temperatura, através do modelo WRF, aplicadaem duas regiões. Assim, faremos uma diminuição na dimensão dos dados através da técnicade componentes principais e uma busca pelos fatores que são ativos para temperaturamáxima e mínima de cada região. Utilizamos o programa de computador R Core Team(2018) para analisar os dados.

4.1.1 Tratamento dos Dados

Para cada região são geradas 50 variáveis respostas, sendo que 25 são relacionadasà temperatura máxima e 25 à temperatura mínima. Como apresentado no Capítulo 3, emcada um desses grupos temos 5 variáveis anuais e 20 trimestrais.

Cada uma das variáveis possuem o resultado das 24 simulações obtidas pelo modeloWRF. Segue alguns exemplos de variáveis respostas, em que DJF se refere aos meses dedezembro a fevereiro:

• Temperatua-máxima.DJF.média

• Temperatua-máxima.DJF.PDF

• Temperatua-máxima.DJF.P90

• Temperatua-máxima.DJF.CA

• Temperatua-máxima.DJF.CB

A média é obtida pelo módulo da diferença entre valores observados e simulados,sendo assim, quanto menor o valor da média, melhor. As variáveis caudas altas e baixastambém gozam do fato de que é melhor quando seu valor é o menor possível, pois é adiferença entre os valores extremos dos dados observados e simulados. Já no caso de PDFe P90 como foi dito no capítulo anterior quanto maiores seus valores, melhor.

Page 29: Kaio Breno Pereira Alves - UFRN: Home...Alves, Kaio Breno Pereira. Utilização de componentes principais para análise de experimentos com respostas múltiplas: uma aplicação em

Capítulo 4. Resultados e Discussão 27

Numa abordagem usual, para obter o melhor nível da temperatura máxima dofator radiação, por exemplo, que possui os níveis CAM e RRTMG, o melhor nível seriaaquele que possuísse os valores mais altos em PDF e P90, além de possuir os valoresmais baixos na média, caudas altas e baixas. Essa análise pode ser realizada através debox-plot, que é uma ferramenta gráfica para representar a variação dos dados.

Se o objetivo fosse conseguir os melhores níveis dos 4 fatores para temperaturamáxima, supondo que todos os efeitos dos fatores principais fossem ativos e as interaçõesnão, teriamos que realizar um total de 25 gráficos para obter o melhor nível de cada fator,totalizando 100 gráficos para analisar os fatores.

Nesse trabalho, queremos obter os melhores níveis para a temperatura máxima emínima de duas regiões, tornando necessário a realização de 400 análises gráficas apenaspara os fatores principais supondo que eles são ativos, ou seja, se os efeitos das interaçõestambém fossem ativos, esse número seria ainda maior.

Por esse motivo, utilizaremos componentes principais na temperatura máxima emínima de cada região. Essa técnica será usada com o intuito de diminuir a dimensão dosdados de modo que fique mais simples analisá-los.

4.1.2 Análise Estatística no Escudo Brasileiro

A patir dos dados obtidos, nosso primeiro passo é utilizar o PC1 da análise decomponentes principais, como uma combinação linear das variáveis respostas e os contrastespara obter os efeitos e verificar quais são considerados ativos. Utilizamos o gráfico de Lenthpara isso.

• Temperatura Máxima

Não existe uma resposta definitiva para quantos componentes utilizar. Diversosaspectos podem ser utilizados como o tamanho relativo dos autovalores, a quantidadetotal da variância explicada e as interpretações dos componentes.

O scree plot é um auxílio para determinar a quantidade de componentes a seremutilizados. Para determinar a quantidade ideal de componentes, buscamos por um “cotovelo”no gráfico, ou seja, em qual momento conseguimos ver uma dobra significativa.

Como podemos ver na Figura 4.1, o segundo componente está bem no “cotovelo”do gráfico, confirmando que, nesse caso, somente um componente se destaca. O primeirocomponente explica cerca de 60% da variância dos dados, enquanto que o segundo explica17%, ou seja, três vezes menor. Além disso, utilizar o segundo componente dificultaria nainterpretação. Por isso, optamos por utilizar apenas o primeiro componente.

Page 30: Kaio Breno Pereira Alves - UFRN: Home...Alves, Kaio Breno Pereira. Utilização de componentes principais para análise de experimentos com respostas múltiplas: uma aplicação em

Capítulo 4. Resultados e Discussão 28

Figura 4.1 – Scree plot para análise de componente principal

Na Tabela 4.1 se encontra o autovetor do componente pincipal, que explica 59% davarianção dos dados. Era esperado que os sinais de média, caudas altas e baixas fossem osmesmos por possuirem as mesmas interpretações, que quanto menor os valores assumidosem seus níveis melhor seria, porém isso não occorreu no caso de caudas baixas.

Tabela 4.1 – Autovetor do componente principal

Temperatura PDF P90 Média Caudas Altas Caudas BaixasMaxima Anual 0.227 0.226 - 0.235 - 0.232 0.145Maxima DJF 0.132 0.185 - 0.201 - 0.186 0.083Maxima MAM 0.221 0.186 - 0.227 - 0.183 0.147Maxima JJA 0.220 0.242 - 0.152 - 0.243 0.158Maxima SON 0.197 0.253 - 0.247 - 0.252 - 0.050

Na análise de componentes principais, ao invés de avaliarmos 25 gráficos em buscado melhor nível de cada fator ativo, realizamos uma combinação linear das variáveisrespostas, reduzindo a análise a apenas um gráfico. Porém, precisamos antes interpretar ocomponente principal, para decidirmo qual nível é melhor.

No entanto, para interpretação do componente é suficiente que PDF e P90 possuammesmo sinal, assim como nesse caso todos os sinais de PDF e P90 para temperaturamáxima e mínima das duas regiões possuem sinais positivos, assim sendo, a interpretaçãopara o componente principal é de quanto maior for os valores que o nível assumir, melhor.

Como comentado acima, podemos ver um contraste entre caudas baixas com relaçãoa média e caudas altas. Vale salientar que esse contraste nos sinais ocorreu apenas nessecaso pois na análise individual podemos ver que os melhores níveis de caudas baixas sãodiferentes de média e cauldas altas, além disso, são iguais a PDF e P90. Essas análisesserão omitidas nos casos seguintes, pois foram feitas de forma semelhante.

Page 31: Kaio Breno Pereira Alves - UFRN: Home...Alves, Kaio Breno Pereira. Utilização de componentes principais para análise de experimentos com respostas múltiplas: uma aplicação em

Capítulo 4. Resultados e Discussão 29

Utilizamos uma combinação linear das variáveis respostas e os contrastes para obteros efeitos e verificar quais são considerados ativos. Note que na Figura 4.2 o fator R e oscoeficientes lineares e quadráticos do fator C são ativos, além da interação RP pertencer àregião de incerteza.

Figura 4.2 – Gráfico de Lenth

Para as duas regiões, tanto na temperatura máxima quanto na temperatura mínima,o sinal das variáveis que possuem a característica do PDF e P90 são positivos. Note quena Figura 4.3 a radiação possui CAM como melhor nível e o fator cúmulus possui KFcomo melhor nível e NSAS como uma segunda opção.

Figura 4.3 – Distribuição dos dados para os fatores radiação e cúmulus na temperaturamáxima

Na análise da Figura 4.4, podemos observar que o nível CAM do fator radiação,que foi escolhido como melhor nível na Figura 4.3, está melhor no nível YSU, além deestar mais nítida a diferença entre CAM e RRTMG nesse nível. Por esse motivo, ele foiconsiderado o melhor nível do fator PBL.

Page 32: Kaio Breno Pereira Alves - UFRN: Home...Alves, Kaio Breno Pereira. Utilização de componentes principais para análise de experimentos com respostas múltiplas: uma aplicação em

Capítulo 4. Resultados e Discussão 30

Figura 4.4 – Distribuição dos dados da interação RadiaçãoxPBL

O PC1 para temperatura máxima da região Escudo Brasileiro explica cerca de 60%dos dados. Apesar do valor não ser alto, ao fazer a análise de todos os gráficos para osfatores radiação, cúmulus e PBL a conclusão seria a mesma.

Segue abaixo um caso para ilustrar como seria a análise individual:

Figura 4.5 – Distribuição dos dados PDF e P90

Como já vimos anteriormente, quanto maior o valor que o nível obtiver nas variáveisPDF e P90, melhor será esse nível para uma simulação mais precisa da realidade. Comisso, podemos observar na Figura 4.5 que o nível CAM é melhor em todos os casos paravariável PDF e apesar de ter dois confundimentos na variável P90, o nível CAM em geraltambem é melhor.

Page 33: Kaio Breno Pereira Alves - UFRN: Home...Alves, Kaio Breno Pereira. Utilização de componentes principais para análise de experimentos com respostas múltiplas: uma aplicação em

Capítulo 4. Resultados e Discussão 31

Figura 4.6 – Distribuição dos dados CA e Média

No caso das variáveis caudas altas, baixas e a média, quanto menor for o valorque o nível assumir, melhor será esse nível para uma simulação mais precisa. A Figura4.6 mostra os dados para as variáveis média e caudas altas, porém caudas baixas segue amesma interpretação. Logo, notamos que o CAM mesmo com mais confundimento nascaudas altas, também é melhor em sua maioria.

• Temperatura Mínima

Note que na Figura 4.7 o fator radiação é ativo, enquanto que o coeficiente quadráticodo fator cúmulus pertencer à região de incerteza. Um fator pertencer à essa região nosda a informação que o melhor nível para esse fator pode ou não existir, dependendo dainterpretação do pesquisador.

Figura 4.7 – Gráfico de Lenth

Page 34: Kaio Breno Pereira Alves - UFRN: Home...Alves, Kaio Breno Pereira. Utilização de componentes principais para análise de experimentos com respostas múltiplas: uma aplicação em

Capítulo 4. Resultados e Discussão 32

Na análise da Figura 4.8, podemos observar que o nível RRTMG do fator radiaçãoé visivelmente melhor que o nível CAM. Como o coeficiente quadrático está na região deincerteza, é mais difícil de identificar o melhor nível. Porém, os níveis Tiedtke e NSASestão ligeiramente melhores.

Figura 4.8 – Distribuição dos dados para os fatores radiação e cúmulus na temperaturamínima

4.1.3 Avaliação Estatística em Terras Altas Brasileiras

• Temperatura Máxima

Na análise da Figura 4.9, o coefiente quadrático do cúmulus, o fator radiação e PBL,a interação radiação e coeficiente quadrático e, por fim, a interação do coeficiente lineare PBL são ativos. O coeficiente linear, a interação do coeficiente quadrático e PBL e ainteração da radiação, coeficiente quadrático e microfísica pertencem à região de aceitação.

Figura 4.9 – Gráfico de Lenth

Page 35: Kaio Breno Pereira Alves - UFRN: Home...Alves, Kaio Breno Pereira. Utilização de componentes principais para análise de experimentos com respostas múltiplas: uma aplicação em

Capítulo 4. Resultados e Discussão 33

• Temperatura Mínima

Note que na Figura 4.10 o coefiente quadrático do cúmulus, o fator radiação, PBLe a interação PBL e coeficiente quadrático deram ativos.

Figura 4.10 – Gráfico de Lenth

A análise para os melhores níveis da região Terras Altas Brasileiras foi feita demodo analogo a região Escudo Brasileiro. Segue abaixo as tabelas com os melhores níveisde cada região.

Tabela 4.2 – Melhores parametrizações físicas para a região EB

Variável Resposta FatorCumulus Microfísica Radiação PBL

TemperaturaMáxima KF/NSAS CAM YSU

TemperaturaMínima Tiedtke/NSAS RRTMG

Tabela 4.3 – Melhores parametrizações físicas para a região TAB

Variável Resposta FatorCumulus Microfísica Radiação PBL

TemperaturaMáxima Tiedtke/NSAS CAM YSU

TemperaturaMínima Tiedtke/NSAS RRTMG YSU

Page 36: Kaio Breno Pereira Alves - UFRN: Home...Alves, Kaio Breno Pereira. Utilização de componentes principais para análise de experimentos com respostas múltiplas: uma aplicação em

Capítulo 4. Resultados e Discussão 34

Era esperado que os melhores níveis para temperatura máxima e mínima por regiãofossem iguais, mas o fator radiação nas duas regiões possuem melhores níveis diferentes.Porém, os melhores níveis da temperatura máxima comparando as duas regiões podem sersimulados com os mesmos parâmetros se for escolhido o nível NSAS do cumulus. Alémdisso, o mesmo acontece se for comparar os melhores níveis para simular no modelo WRFa temperatura mínima.

Page 37: Kaio Breno Pereira Alves - UFRN: Home...Alves, Kaio Breno Pereira. Utilização de componentes principais para análise de experimentos com respostas múltiplas: uma aplicação em

35

5 Considerações Finais

Podemos notar neste trabalho que é melhor a utilização de experimentos queestudam vários fatores simultâneos do que a análise de um fator por vez. Quando analisamosem um estudo fatores simultâneos, podemos estudar os efeitos principais e as interaçõesentre os fatores.

Foi possível recomendar as melhores parametrizações físicas para o modelo WRF.Assim, podemos gerar previsões mais precisas com o modelo numérico escolhido, podendoassim, adotar políticas públicas para melhoria da saúde pública.

A técnica proposta neste trabalho gerou resultados adequados. A utilização decomponentes principais para analisar experimentos multivariados foi bastante satisfatótia,visto que possibilitou a redução da dimensão dos dados, tornando a análise do experimentomais rápida.

Neste trabalho aplicamos técnicas de experimento fatorial assimétrico junto comanálise de componentes principais para simulação numérica de tempo e clima. Isso sugereque seja ampliado uma discussão sobre a aplicação dessa técnica.

Segue alguns possíveis trabalhos futuros:

• Utilizar outro modelo de dados de reanálise para obtenção dos dados observados ecomparar os resultados com este trabalho;

• Testar o método utilizado neste trabalho para outras regiões, por exemplo, a regiãoNorte que ocorrem surtos parecidos com a região Nordeste;

• Usar a técnica de analisar experimentos com múltiplas respostas correlacionadasproposta por Chiao e Hamada (2001).

• Comparar o método utilizado nesse trabalho com a função desejabilidade, poisnotamos que diversas pesquisas utilizam a função desejabilidade e esperamos que onosso método seja melhor.

Page 38: Kaio Breno Pereira Alves - UFRN: Home...Alves, Kaio Breno Pereira. Utilização de componentes principais para análise de experimentos com respostas múltiplas: uma aplicação em

36

Referências

BARCELLOS, C. et al. Mudanças climáticas e ambientais e as doenças infecciosas: cenáriose incertezas para o brasil. Epidemiologia e Serviços de Saúde, Geral de Desenvolvimentoda Epidemiologia em Serviços/Secretaria de Vigilância em Saúde/Ministério da Saúde,v. 18, n. 3, p. 285–304, 2009.

BARRETO, T.; CERQUEIRA, S.; PELLEGRINI, C. Simulação numérica de tempestadesconvectivas severas no estado de minas gerais: Testes de sensibilidade. CEP, v. 36307,p. 352, 2010.

CHIAO, C.-H.; HAMADA, M. Analyzing experiments with correlated multiple responses.Journal of Quality Technology, Taylor & Francis, v. 33, n. 4, p. 451–465, 2001.

DEE, D. et al. The climate data guide: atmospheric reanalysis: overview & comparisontables. National Center for Atmospheric Research, Boulder, CO). Available athttps://climatedataguide. ucar. edu/climate-data/atmospheric-reanalysis-overview-comparison-tables. Accessed June, v. 1, p. 2017, 2016.

KAIN, J. S.; FRITSCH, J. M. A one-dimensional entraining/detraining plume model andits application in convective parameterization. Journal of the Atmospheric Sciences, v. 47,n. 23, p. 2784–2802, 1990.

KOBIYAMA, M.; MONTEIRO, L. R.; GOERL, R. F. Integração das ciências e dastecnologias para redução de desastres naturais: Sócio-hidrologia e sócio-tecnologia. Revistade gestão & sustentabilidade ambiental. Palhoça, SC. vol. 7, nesp (2018), p. 206-231,2018.

KURTANJEK, Ž. et al. Factor analysis and modelling for rapid quality assessmentof croatian wheat cultivars with different gluten characteristics. Food Technology &Biotechnology, v. 46, n. 3, 2008.

LAW, A. M.; KELTON, D. W. Simulation modeling and analysis. McGraw-Hill, 2000.

LENTH, R. V. Quick and easy analysis of unreplicated factorials. Technometrics, Taylor& Francis, v. 31, n. 4, p. 469–473, 1989.

MELLOR, G. L.; YAMADA, T. Development of a turbulence closure model for geophysicalfluid problems. Reviews of Geophysics, Wiley Online Library, v. 20, n. 4, p. 851–875, 1982.

MONTOGOMERY, D. Design and analysis of experiments. John Wiley and Sons. [S.l.]:New York, 2001.

NETO, B. B.; SCARMINIO, I. S.; BRUNS, R. E. Como Fazer Experimentos: Pesquisa eDesenvolvimento na Ciência e na Indústria. [S.l.]: Editora da UNICAMP, 2003.

OLGUÍN, J.; FEARN, T. A new look at half-normal plots for assessing the significance ofcontrasts for unreplicated factorials. Journal of the Royal Statistical Society: Series C(Applied Statistics), Wiley Online Library, v. 46, n. 4, p. 449–462, 1997.

Page 39: Kaio Breno Pereira Alves - UFRN: Home...Alves, Kaio Breno Pereira. Utilização de componentes principais para análise de experimentos com respostas múltiplas: uma aplicação em

Referências 37

PAIVA, A. Metodologia de Superfície de Resposta e Análise de Componentes Principaisem otimização de processos de manufatura com múltiplas respostas correlacionadas.Tese (Doutorado) — Tese de Doutorado–Programa de Pós-Graduação em EngenhariaMecânica, UNIFEI, Itajubá, 2006.

PAIVA, E. J. Otimização de processos de manufatura com múltiplas respostas baseadaem índices de capacidade. 2008.

PAIVA, H. F. M. Impacto de Variáveis Meteorológicas na Ocorrência de DoençasTransmitidas pelo Mosquito Aedes aegypti em Natal-RN. Dissertação (Mestrado) — UFRN,Brasil, 2018.

PERKINS, S. et al. Evaluation of the ar4 climate models’ simulated daily maximumtemperature, minimum temperature, and precipitation over australia using probabilitydensity functions. Journal of climate, v. 20, n. 17, p. 4356–4376, 2007.

R Core Team. R: A Language and Environment for Statistical Computing. Vienna,Austria, 2018. Disponível em: <https://www.R-project.org/>.

SILVA, A. F. da et al. Aplicação da técnica da programação por compromisso (compromiseprogramming) em problemas de projeto e análise de experimentos com múltiplas respostas.2013.

SOUZA, F. A. D. Experimentos Fatoriais Fracionados Assimétricos para Avaliação deModelos para Previsão de Chuva no Nordeste do Brasil. Dissertação (Mestrado) — Brasil,2015.

THOMPSON, G.; RASMUSSEN, R. M.; MANNING, K. Explicit forecasts of winterprecipitation using an improved bulk microphysics scheme. part i: Description andsensitivity analysis. Monthly Weather Review, v. 132, n. 2, p. 519–542, 2004.

VARELLA, C. A. A. Análise de componentes principais. Seropédica: Universidade FederalRural do Rio de Janeiro, 2008.

WU, C. J.; HAMADA, M. S. Experiments: planning, analysis, and optimization. [S.l.]:John Wiley & Sons, 2009. v. 552.

ZANLUCA, C. et al. First report of autochthonous transmission of zika virus in brazil.Memórias do Instituto Oswaldo Cruz, SciELO Brasil, v. 110, n. 4, p. 569–572, 2015.