Trabalho de Conclusão de Curso - coordest.ufpr.br · os dados obtidos e se elaborará um novo Ranking das Seleções de Futebol Profissional Masculino filiadas à FIFA. Palavras-Chave:

João Cardoso Neto Sandra Helena de Melo

Trabalho de Conclusão de Curso

Trabalho apresentado para a disciplina de Laboratório de Estatística do Curso de Graduação em Estatística da Universidade Federal do Paraná.

Orientação: Professor Doutor Anselmo Chaves Neto.

Curitiba 2009

Crítica ao atual Ranking da FIFA de Seleções Masculinas de Futebol Profissional

João Cardoso Neto Sandra Helena de Melo

Curso de Estatística Universidade Federal do Paraná

2009

Resumo

O objetivo deste trabalho é num primeiro momento realizar uma análise crítica do atual critério adotado pela FIFA (Federação Internacional de Futebol) com relação às Seleções Masculinas de Futebol Profissional. Por exemplo, numa consulta feita através do site http://es.fifa.com, em data de 20 de Agosto de 2009, a Seleção de Gabão ocupa a 31a. colocação no atual Ranking, enquanto a Seleção da Suécia ocupa a singela 41ª. colocação neste mesmo Ranking. Ocorre, porém, que muitas pessoas com modesto conhecimento sobre futebol, ou não, jamais ouviram falar da Seleção do Gabão, além disso, tal agremiação nunca participou de uma Copa do Mundo, ao contrário disso, a Seleção da Suécia já possui uma maior tradição no mundo do Futebol. Participou de 11 (onze) Copas do Mundo, além de ter alcançado em 1958 a segunda colocação, em 1950 e 1994 a terceira colocação e no ano de 1938 a quarta colocação na Copa do Mundo. A partir disto, será feito um Ranking preliminar de todas as Seleções atualmente filiadas à FIFA, utilizando para este primeiro ranqueamento as seguintes variáveis: quantidade de participações em Copas de Mundo, melhores colocações obtidas nessas Copas do Mundo (apenas serão considerados do 1º ao 4º Lugares), melhores colocações obtidas nas Copas Continentais (apenas serão considerados os 1º e 2º Lugares), número de jogadores registrados, não registrados, de clubes e de árbitros. Em seguida, através de uma Análise de Agrupamento (Cluster), ou outra técnica de reconhecimento de padrões, se dividirá este grupo de Seleções em grupos. E, então, serão agregadas mais variáveis ao estudo. Como ilustração do método pode-se supor que a Seleção Brasileira esteja no 1o. nível, e então analisa-se o seu rendimento contra as agremiações do seu e dos demais níveis, e isto será feito de forma sucessiva até a última Seleção ser analisada. De posse de todas as variáveis acima nominadas, irá ser feita uma análise multivariada de todos os dados obtidos e se elaborará um novo Ranking das Seleções de Futebol Profissional Masculino filiadas à FIFA. Palavras-Chave: Futebol, Reconhecimento de Padrões, Análise Multivariada. Professor Orientador: Prof. Dr. Anselmo Chaves Neto

1. INTRODUÇÃO

Que o velho jargão “O Brasil é o País do Futebol” é a mais pura verdade do

povo brasileiro nós estamos cansados de saber, porém com a globalização mundial e o

aumento constante dos meios de interação entre pessoas do mundo todo, independente

da distância em que uma se encontra da outra, não podemos dizer que apenas o

brasileiro é apaixonado por futebol, o futebol é hoje em dia uma paixão mundial.

Prova disso são os diversos campeonatos de clubes existentes em todo o mundo,

para se ter idéia das dimensões da paixão que o mundo todo está nutrindo pelo futebol,

um dos maiores, senão o maior canal de televisão fechada, que exibe programas

exclusivamente de cunho esportivo, a ESPN, neste ano está transmitindo jogos do

Campeonato Russo e Americano de futebol profissional, além dos já tradicionais

Campeonatos Alemão, Holandês, Italiano, Espanhol e Inglês.

Engana-se quem acredita que a paixão pelo futebol é exclusividade dos homens,

pois se não bastasse o acima exposto, este mesmo canal também neste ano, está

realizando a transmissão do Campeonato Americano de futebol profissional feminino.

Logicamente que como qualquer empresa, um canal de televisão somente realiza

transmissões de eventos em que o custo-benefício seja favorável ao mesmo, pois este

possui várias despesas que são pagas com as receitas geradas, sendo que não é segredo

para ninguém que grande parte da receita dos canais de televisão é oriunda da venda de

horários dos comerciais para empresas interessadas em divulgar suas marcas.

Diante deste quadro podemos retirar três afirmações importantes para nosso

trabalho, são elas: a transmissão de futebol é rentável para o canal de televisão em

virtude do custo benefício, assim como as empresas consideram os comerciais destas

transmissões um bom horário para expandir a divulgação de suas marcas e aumentar o

número de clientes, e por fim, se as duas afirmativas anteriores são verdadeiras, existe

um grande número de pessoas que acompanham tais transmissões, tornando rentável a

transmissão destes eventos pelos canais de televisão, bem como a compra de horários de

comercial por empresas em geral.

Evidentemente que existem um grande número de fãs do futebol pelo mundo

todo, estas pessoas acompanham os mais diversos tipos de campeonatos e jogos

movidos pela paixão pelo futebol, independente de suas nacionalidades. Mas além

destes indivíduos, existem várias outras pessoas que mesmo não nutrindo o mesmo

sentimento pelo futebol, em certas ocasiões voltam as suas atenções para tal esporte,

sendo a principal destas ocasiões a Copa do Mundo de Futebol Profissional Masculino,

evento este que ocorre a cada quatro anos, em países pré-selecionados pela FIFA –

Federação Internacional de Futebol.

Para termos uma idéia da proporção de um evento como a Copa do Mundo de

Futebol Profissional Masculino, a última delas, realizada no ano de 2006, na Alemanha

e que teve como campeã a Seleção Italiana, segundo dados fornecidos pela própria

FIFA, teve uma audiência total de 26,3 bilhões de pessoas, sendo transmitida para 214

países e territórios. Uma curiosidade importante para dimensionarmos a grandiosidade

deste evento é que a própria FIFA possuí apenas 207 seleções profissionais filiadas,

número este menor do que os países e territórios para os quais foi transmitida a Copa do

Mundo.

Além disso, é salutar destacarmos as informações da Empresa Reuters do Brasil,

filiada à Thomson Reuters, que é a maior agência internacional de notícias e multimídia

do mundo, publicadas no site http://www.observatoriodaimprensa.com.br.

A Copa do Mundo deste ano registrou uma

audiência média de 93 milhões de telespectadores

por cada jogo, totalizando em um mês o

equivalente à audiência de 64 Super Bowls - finais

do campeonato de futebol americano dos EUA. O

Super Bowl acontece uma vez ao ano nos EUA, o

maior mercado publicitário do mundo, com

empresas pagando até US$ 2,4 milhões para

colocar um comercial de 30 segundos no ar. Mais

de 5,9 bilhões de pessoas assistiram ao vivo aos

jogos da Copa em 54 mercados globais, de acordo

com uma pesquisa divulgada esta semana pelo

instituto de análise de mídia Initiative.

No último jogo, no dia 9/7, 284 milhões de

telespectadores ficaram de olho na telinha para

ver a Itália vencer a França nos pênaltis. Já a

semifinal, entre Itália e Alemanha, foi assistida

por 202 milhões; enquanto a outra semifinal entre

Portugal e França teve uma audiência global de

188 milhões. O Mundial da Alemanha também

atraiu o dobro do número de telespectadores que

assistiram à abertura dos Jogos Olímpicos de

Atenas. A competição deste ano foi benefeciada

por ter sido realizada em um país europeu, indo

ao ar em um horário conveniente para os fãs do

esporte na Europa e na América do Sul. Na Copa

de 2002, que aconteceu na Coréia do Sul e no

Japão, muitos deles não puderam assistir aos

jogos devido ao fuso horário.

A Copa de 2006 atraiu 10% a mais de

telespectadores que em 2002 e teve

aproximadamente a mesma audiência da de 1998.

De todos os telespectadores, 41% eram mulheres -

o maior número de fãs femininas de todas as

Copas. Mesmo assim, a maior parte dos anúncios

foi de produtos destinados a homens.

Logicamente que além destas audiências existe outro fator financeiro envolvido

em eventos como a Copa do Mundo de Futebol que são as apostas feitas pelas pessoas

nas chamadas “Casas de Apostas” com os palpites sobre os resultados dos jogos deste

evento e principalmente sobre os primeiros colocados neste evento.

Para se ter uma idéia o site www.folha.com.br publicou uma notícia em data de

20 de Julho de 2006 uma reportagem com o Senhor Rupert Adams, Porta-voz da Casa

de Apostas Willian Hill, em que cita que:

Antes do início do Mundial, para cada 5

libras (cerca de R$ 20) que uma pessoa apostava

no Brasil, recebia 12 de volta. Esta Copa do

Mundo deverá movimentar 1 bilhão de libras (

pouco mais de R$ 4 bilhões) em apostas apenas na

Grã-Bretanha.

Neste ínterim, devemos ainda destacar o citado por Eduardo Campos, membro

da InvestNews, na Gazeta Mercantil, o qual relata em 19 de Maio de 2006 que:

Os torcedores que não têm dúvidas quanto

ao favoritismo da seleção brasileira para a Copa

do Mundo já estão fazendo suas apostas nos sites

de jogo da Europa. Antecipando um esperado

crescimento na demanda, os sites criaram um

mercado futuro de apostas para os jogos da Copa

do Mundo, com diversas opções. O torcedor pode

escolher qual seleção será a campeã, quem será o

artilheiro e até qual rodada cada time irá durar.

Como era de se esperar, a seleção brasileira é a

favorita nos sites de casas de apostas da Europa.

A aposta no Brasil é de 16/5. A segunda colocada

é a Inglaterra, que paga 6/1; em terceiro vem a

Alemanha, dona da casa, com 7/1; a Argentina

vem na seqüência, pagando 8/1; e a Itália, em

quinto, com 10/1. Como em qualquer outro jogo,

as apostas no azarão pagam muito mais. As

apostas para Estados Unidos e Costa do Marfim

como campeões estão ambas cotadas em 100/1.

Instituição legalizada e regulamentada no

continente, o ramo de apostas em esportes - e em

qualquer outra coisa - movimenta bilhões de

dólares por ano. Não há um número oficial, mas a

Betting Office Licensees Association

(ironicamente conhecida como Bola, na sigla em

inglês) estima que as apostas pela internet

movimentem mais de 680 bilhões de libras por

ano em todo o mundo. A Bola representa as

maiores casas de apostas do Reino Unido e luta

pela redução da tributação imposta pelo governo

ao jogo. Parlamentares americanos estimam que

apenas as apostas online movimentem cerca de

US$ 12 bilhões por ano. Devido a recentes

escândalos envolvendo casas de apostas na

Alemanha e Leste Europeu a Fifa vai acompanhar

este mercado durante o período de jogos. Para se

ter idéia de como o jogo é coisa séria para os

europeus, em particular para os britânicos, há

inúmeras publicações como revistas, jornais e

sites sobre o assunto. O Sportsman, jornal criado

há pouco tempo voltado aos entusiastas das

apostas, vendeu cerca de 21,5 mil cópias por dia

em abril. A meta é chegar a 40 mil até o final do

ano. Atualmente, o jornal de apostas de maior

circulação na ilha é o Racing Post, com uma

tiragem de 80 mil jornais por dia.

Importante enaltecermos ainda que além das Casas Oficiais de apostas, é comum

que os grupos de amigos ou colegas de trabalho façam os famosos “Bolão” antes dos

jogos da Copa do Mundo, oportunidades em que os valores em questão são mais

simbólicos e o real objetivo deste “Bolão” é a diversão associada ao esporte.

Além disso, devemos salientar ainda que é comum que os técnicos ou managers

das várias seleções estudem de forma pormenorizada os seus futuros adversários não só

nas Copas do Mundo como em qualquer outro jogo que venha a ser disputado e baseado

no nível de seu futuro adversário trace uma estratégia técnica e tática para que venha a

obter sucesso nesta partida a ser disputada.

Diante de todo o exposto até o momento se torna de grande importância que

saibamos quais são as melhores e as piores seleções de futebol, bem como qual o nível

das mesmas em um ranqueamento que contemple as várias seleções existentes. Para isto

atualmente temos o Ranking com todas as seleções de futebol que são filiadas à FIFA,

este Ranking é atualizado mensalmente e fica disponível para consulta através do site

http://es.fifa.com.

Ocorre, porém, que este Ranking possui alguns critérios que são muito

discutíveis e geram debates em todo o mundo, principalmente em virtude de que não

somente os especialistas, como a maioria dos indivíduos não concordam com os

critérios utilizados pela FIFA e consequentemente com o Ranking de seleções.

Para termos uma idéia dos critérios utilizados pela FIFA na elaboração de seu

Ranking, seguem algumas informações disponibilizadas pela própria FIFA através do

seu site oficial:

Fórmula básica: P=M*I*T*C*100. O cálculo

leva em conta as seguintes definições e condições:

M: Pontos - para uma vitória são 3 pontos, para

um empate é 1 ponto e para a derrota é 0 pontos.

Se uma partida é decidida nos pênaltis, a equipe

vencedora ganha 2 pontos e o perdedor 1 ponto.

I: Utiliza os seguintes valores: jogo amigável

(incluindo também pequenos torneios): I = 1,0;

Continental e da qualificação para o Mundial: I =

2,5; Competições continentais finais e Copa das

Confederações: I = 3,0; Copa do Mundo da FIFA:

I=4,0.

T: a força da equipe adversária, calculado pela

seguinte fórmula:

[200 - Posição do adversário nesta lista] / 100.

Somente a equipe no primeiro lugar ganha 2,00

como fator de avaliação e da posição

150 em diante ganha 0,50, que é o mínimo.

C: equivalente ao fator de potência de uma

confederação. Para realizar o cálculo em jogos

intercontinentais deve ser usado para este fator a

potência médio da confederação de cada equipe.

Como podemos perceber este critério não é de fácil compreensão e, além disso, é

alvo de várias críticas, pois não reflete a realidade das seleções mundiais. O próprio

presidente da FIFA, Joseph Blatter, em matéria publicada no site http://veja.abril.com.br

em 07 de Julho de 2006 afirmou que:

Reconhecemos a necessidade de uma revisão

profunda e estou convencido de que nossos

especialistas encontraram uma solução

satisfatória com o novo método de cálculos da

classificação.

Diante de todo o exposto até o momento, este trabalho tem como objetivo

principal propor um novo sistema de ranqueamento das seleções masculinas de futebol

profissional. Para este ranqueamento que será proposto, iremos dividir nosso estudo em

três passos principais, da forma como segue:

Passo 1: Realizar um pré agrupamento das 207 seleções filiadas à FIFA,

utilizando para a realização disso as seguintes variáveis: número de participações em

Copas do Mundo, número de primeiros, segundos, terceiros e quarto lugares em Copas

do Mundo, número de primeiros e segundos lugares em Copas Continentais.

As 207 seleções filiadas à FIFA serão agrupadas em 05 níveis, sendo que a

quantidade de seleções em cada nível foi estabelecida em virtude das medidas de

similaridade entre as seleções levando-se em conta as variáveis em estudo anteriormente

descritas.

Passo 2: Após o pré agrupamento das seleções em estudo, iremos incorporar ao

nosso estudo outras variáveis, a saber: número de jogadores registrados e não

registrados, número de clubes, número de árbitros, aproveitamento contra seleções do

nível A, B, C, D e E, considerando os últimos quatro anos.

A incorporação destas novas variáveis se faz necessária em virtude de que é

extremamente lógico que seleções como Brasil e Camboja apresentam muitas

dissimilaridades, da mesma forma que também apresentam dissimilaridades seleções

como a do Timor Leste e a da Itália. Diante deste quadro, é de se esperar que em

confrontos hipotéticos, a seleção Brasileira saia vencedora em confrontos contra

Camboja e Timor Leste, ao passo que num duelo com a seleção Italiana o resultado seja

mais “imprevisível”. Diante disso é importante que o aproveitamento de cada uma das

seleções contra as seleções de todos os níveis sejam consideradas, pois é presumível que

as melhores seleções apresentem um bom aproveitamento contra todas as seleções,

independente do nível, enquanto as seleções mais modestas terão um aproveitamento

baixo contra seleções de nível superiores ao seu.

Passo 3: Após a inserção destas variáveis, será realizado um novo ranqueamento

das seleções, utilizando-se para isto técnicas multivariadas, especificamente a análise

fatorial.

2. REVISÃO DE LITERATURA 2.1. ANÁLISE DE AGRUPAMENTO

Análise de agrupamentos é o nome para um grupo de técnicas multivariadas cuja

finalidade primaria é agregar objetos com base nas características que eles possuem. Ela

classifica objetos de modo que cada um é muito semelhante aos outros no agrupamento

em relação a algum critério de seleção predeterminado. Os agrupamentos resultantes de

objetos devem então exibir elevada homogeneidade interna (dentro dos agrupamentos).

Assim, se a classificação for bem sucedida, os objetos dentro dos agrupamentos estarão

próximos quando representados graficamente e diferentes agrupamentos estarão

distantes.

Em análise de agrupamentos, o conceito da variável estatística é novamente uma

questão central, mas de uma forma bastante diferente de outras técnicas multivariadas.

A variável estatística de agrupamento é o conjunto de variáveis que representam as

características usadas para comparar objetos na análise de agrupamento. Como a

variável estatística de agrupamento inclui apenas as variáveis usadas para comparar

objetos, ela determina o “caráter” dos objetos. A análise de agrupamento é a única

técnica multivariada que não estima a variável estatística empiricamente, mas ao invés

disso usa a variável estatística como especificada pelo pesquisador. O foco da análise de

agrupamento é a comparação de objetos com base na variável estatística, não na

estimação da variável estatística em si. Isso torna a definição da variável estatística feita

pelo pesquisador um passo crítico na análise.

O objetivo principal da analise de agrupamento é definir a estrutura dos dados

colocando as observações mais parecidas em grupos. Mas para conseguir isso, devemos

abordar três questões básicas. Primeiro como medimos a similaridade? Necessitamos de

um método de comparação simultânea de observações sobre as duas variáveis de

agrupamento (V1 e V2). Diversos métodos são possíveis, incluindo a correlação entre

objetos, uma medida de associação usada em outras técnicas multivariadas, ou talvez

uma medida de sua proximidade em um espaço bidimensional tal que a distância entre

observações indique similaridade. Segundo, como formamos os agrupamentos? Não

importa como a similaridade é medida, o procedimento deve agregar as observações que

são mais similares em um agrupamento. Esse procedimento deve determinar a

pertinência a grupo de cada observação. Terceiro, quantos grupos formamos? Várias

“regras” podem ser utilizadas, mas a tarefa fundamental é avaliar a similaridade

“média” entre agrupamentos de forma que quando a média aumenta, os agrupamentos

se tornam menos parecidos. O pesquisador então se depara com uma negociação: menos

agrupamentos versus menos homogeneidade. A estrutura simples, com vistas à

parcimônia, é refletida internamente com o menor número de agrupamentos possível.

No entanto, quando o número de agrupamento diminui, a homogeneidade dentro dos

grupos necessariamente diminui. Assim, deve haver um equilíbrio entre definir a

estrutura mais básica (menos agrupamentos) e ainda conseguir o nível necessário de

similaridade dentro dos agrupamentos. Uma vez que temos os procedimentos para tratar

de cada questão, podemos executar a análise.

2.1.1 Medidas de Similaridade

O conceito de similaridade é fundamental na análise de agrupamentos. A

similaridade entre objetos é uma medida de correspondência ou semelhança entre

objetos a serem agrupados. Primeiramente são especificadas as características de

similaridade, em seguida, as características são combinadas em uma medida de

similaridade calculada para todos os pares de objetos. Desse modo, qualquer objeto

pode ser comparado a qualquer outro por meio da medida de similaridade. O

procedimento da análise de agrupamento prossegue agregando objetos semelhantes em

agrupamentos.

A similaridade entre objetos pode ser medida de diversas maneiras, mas três

métodos dominam as aplicações de análise de agrupamentos: medidas correlacionais,

medidas de distância e medidas de associação. Cada um desses métodos representa uma

perspectiva particular da similaridade, dependendo de seus objetivos e do tipo de dados.

Tanto as medidas correlacionais quanto as medidas de distância requerem dados

métricos, ao passo que as medidas de associação são para dados não-métricos.

2.1.1.2 Medidas de Distância

As medidas de distância são, na verdade, uma medida de similaridade, em que

os valores maiores denotam menor similaridade. A distância é convertida em uma

medida de similaridade pelo uso de uma relação inversa. As medidas de distância se

concentram na magnitude dos valores e representam casos similares que estão

próximos, mas podem ter padrões muito diferentes ao longo das variáveis.

2.1.1.2.1. Distância Euclidiana

Diversas medidas de distância estão disponíveis. A mais comumente usada é a

distância euclidiana. Um exemplo de como distância euclidiana pode ser obtida é

mostrada geometricamente na Figura X. Suponha que dois pontos em duas dimensões

tenham coordenadas (X1 , Y1) e (X2 , Y2), respectivamente. A distância euclidiana entre

os pontos é o comprimento da hipotenusa de um triângulo retângulo, conforme se

calcula pela fórmula sob a aludida Figura. Esse conceito é facilmente generalizado para

mais de duas variáveis. A distância euclidiana é empregada para calcular medidas

específicas, como a distância euclidiana simples (calculada como descrito acima) e a

distância euclidiana quadrada ou absoluta, que é a soma do quadrado das diferenças,

sem calcular a raiz quadrada.

Figura X: Um exemplo de distância euclidiana entre dois objetos medidos sobre duas

variáveis X e Y.

2.1.2. Seleção de um Algoritmo de Agrupamento

A seleção de um algoritmo de agrupamento não é uma tarefa simples, pois

centenas de programas de computadores utilizam diferentes tipos de algoritmos, além

dos já disponíveis vários outros estão em fase de desenvolvimento.

O critério primordial para todos estes algoritmos é que eles tentam maximizar as

diferenças entre os agrupamentos, diferenças estas relativas à variação dos mesmos. Os

algoritmos mais comumente utilizados podem ser classificados em duas grandes

categorias gerais, sendo elas: hierárquica e não-hierárquica.

2.1.2.1. Procedimento Hierárquico Nesse procedimento, os agrupamentos são formados a partir de uma matriz de

parecença. Num primeiro passo, a matriz é utilizada para identificar o par de objetos que

mais se parece. A partir desse instante esse par é agrupado e será considerado como

sendo um único objeto. Isso requer que se defina uma nova matriz de parecença; em

seguida se identifica o par mais semelhante, que formará um novo grupo, e assim

sucessivamente até que todos os objetos estejam reunidos num mesmo grupo. Através

da análise do histórico do agrupamento, pode-se definir a posteriori número de grupos

existentes nos dados.

A técnica de agrupamento hierárquico interliga as amostras por suas

associações, produzindo um dendrograma onde as amostras semelhantes, segundo as

variáveis escolhidas, são agrupadas entre si. A suposição básica de sua interpretação é

esta: quanto menor a distância entre os pontos, maior a semelhança entre as amostras.

Os dendrogramas são especialmente úteis na visualização de semelhanças entre

amostras ou objetos representados por pontos em espaço com dimensão maior do que

três, onde a representação de gráficos convencionais não é possível.

Existem muitas maneiras de procurar agrupamentos no espaço n-dimensional. A

maneira matematicamente mais simples consiste em agrupar os pares de pontos que

estão mais próximos, usando a distância euclidiana, e substituí-los por um novo ponto

localizado na metade da distância entre eles. Este procedimento, quando repetido até

que todos os pontos sejam agrupado em um só ponto, leva a construção do

dendrograma, onde, no eixo horizontal são colocadas as amostras e, no eixo vertical, o

índice de similaridade, sij, entre os pontos i e j, calculado segundo a seguinte expressão:

onde dij é a distância entre os pontos i e j e dmáx é a distância máxima entre qualquer par

de pontos. Os dendrogramas, portanto, consistem em diagramas que representam a

similaridade entre pares de amostras (ou grupos de amostras) numa escala que vai de

um (identidade) a zero (nenhuma similaridade).

Finalmente, importante se faz ressaltar o procedimento hierárquico se divide

basicamente em dois tipos: Métodos Aglomerativos e Métodos Divisivos. Importante

evidenciarmos que em nosso estudo fizemos a utilização dos Métodos Aglomerativos.

2.1.2.2. Métodos Aglomerativos

No Método Aglomerativo, cada objeto ou observação começa como seu próprio

agrupamento. Em passos seguintes, os dois agrupamentos (observações ou indivíduos)

mais próximos são combinados em um novo agregado, reduzindo assim o número de

agrupamentos em uma unidade em cada passo.

Em alguns casos, um terceiro indivíduo, ou mais, se une aos dois primeiros em

um agrupamento. Já em outras situações, dois grupos de indivíduos formados em um

passo anterior podem vir a se juntar em um novo agrupamento.

Eventualmente, todos os indivíduos são reunidos em um grande agregado, por

essa razão, os procedimentos aglomerativos às vezes são chamados de métodos

construtivos.

Na atualidade podemos destacar cinco Métodos de Ligação Aglomerativos que

possuem grande uso, sendo os que seguem: Ligação Individual, Ligação Completa,

Ligação Média, Método Centróide e Método de Ward. Em nosso estudo utilizamos o

Método de Ward.

2.1.2.3. Método de Ward

A alocação de um elemento a um grupo é feita de modo a minimizar uma

medida de homogeneidade interna.

A cada etapa do Método de Ward, busca-se unir objetos que torne cada

agrupamento formado o mais homogêneo possível. A medida de homogeneidade

utilizada baseia-se na partição da soma de quadrados total de uma análise de variância.

O Método de Ward é um método de agrupamento de dados que forma grupos de

maneira a atingir sempre o menor erro interno entre os vetores que compõe cada grupo e

o vetor médio do grupo. Isto equivale a buscar o mínimo desvio padrão entre os dados

de cada grupo. No Método de Ward, os grupos de dados são formados em etapas. No

princípio, têm-se “m” grupos; ou seja, um grupo para cada vetor componente da base de

dados. Neste estágio inicial o erro interno é nulo para todos os grupos, pois cada vetor

que compõe cada grupo é o próprio vetor médio do grupo. Igualmente o desvio padrão

para cada grupo é nulo.

Na etapa subseqüente, cada possibilidade de aglutinação entre os grupos, 2 a 2, é

verificada, e é escolhido o agrupamento que causa o menor aumento no erro interno do

grupo. São “m x m” verificações. Desta forma, para uma base de dados com “m”

elevado, estas verificações exigem um grande esforço computacional caso o método

seja implementado em computador. Nota-se que a cada iteração tem-se “m – i” grupos

(i = número de iterações), no entanto, como o número de elementos pertencentes a cada

grupo aumenta, é maior o número de cálculos para o erro interno de cada grupo.

2.2. ANÁLISE FATORIAL

É uma técnica estatística que tem como objetivo descrever a estrutura de

dependência de um conjunto de variáveis através da criação de fatores, que são

variáveis que, supostamente, medem aspectos comuns.

Historicamente, a origem das técnicas de análise fatorial está ligada a estudos da

área de psicologia. Sua criação data do início do século, quando Spearman (Spearman,

1904) desenvolveu um método para a criação de um índice geral de inteligência (fator

“g”) com base nos resultados de vários testes (escalas) que refletiriam esta aptidão.

Tratava-se de um primeiro método de Análise Fatorial, adequado para a estimação de

um único fator. O desenvolvimento inicial de métodos de Análise Fatorial esteve muito

ligado ao problema da avaliação de escalas cognitivas e foi responsabilidade de uma

série de pesquisadores da área de psicologia (Spearman, 1904, Thurstone, 1935, 1947 e

Burt, 1941, por exemplo). No início, os métodos apresentavam uma característica mais

empírica do que inferencial. Em 1940, com Lawley, surge um primeiro trabalho com

um maior rigor matemático, o que fez com que se aumentasse a aceitação dessas

técnicas, nesse meio (Lawley, 1940).

Uma situação comum em várias áreas do conhecimento é aquela na qual se observa,

para cada elemento amostral, um grande número de variáveis. Essas variáveis podem

ser, por exemplo, características demográficas, um conjunto de itens de uma escala ou

mesmo os resultados obtidos por um indivíduo em diferentes escalas de avaliação.

Diante de um quadro como este, o pesquisador enfrenta dois problemas:

1) Como caracterizar a amostra levando-se em conta um conjunto eventualmente

grande de variáveis.

2) Como descrever a inter-relação existente entre estas variáveis, eventualmente

explicitando uma estrutura de interdependência subjacente aos dados.

A Análise Fatorial vem resolver esses dois problemas. Reis (1997) define a Análise

Fatorial como “um conjunto de técnicas estatísticas cujo objetivo é representar ou

descrever um número de variáveis iniciais a partir de um menor número de variáveis

hipotéticas”. Trata-se de uma técnica estatística multivariada que, a partir da estrutura

de dependência existente entre as variáveis de interesse (em geral representada pelas

correlações ou covariâncias entre essas variáveis), permite a criação de um conjunto

menor de variáveis (variáveis latentes, ou fatores), obtidas a partir das originais. Além

disso, a técnica possibilita saber o quanto cada fator está associado a cada variável e o

quanto o conjunto de fatores explica da variabilidade total dos dados originais.

Importante evidenciarmos a existência de dois tipos distintos de Análise Fatorial, o

primeiro deles, comumente conhecido como Análise Fatorial do Tipo Q se refere a

situações envolvendo casos, e a Análise Fatorial do Tipo R que diz respeito ao

agrupamento de variáveis e é a que utilizaremos em nosso estudo.

2.2.1. Método Fatorial de Variância Total

Após as variáveis do estudo estarem especificadas, devemos decidir o método de

extração de fatores, existe o método baseado na análise de fatores comuns e o método

de análise de componentes, em nosso estudo iremos utilizar o método de análise de

componentes.

Enquanto o método baseado na análise de fatores comuns apenas utiliza a

variância comum, o método de análise de componentes considera além da variância

comum, a variância específica e do erro.

Desta forma, como escolhemos para utilização o método de análise de

componentes, logicamente estamos fazendo uso do método fatorial de variância total, o

qual, como já foi dito anteriormente, considera as seguintes variâncias:

a) Variância Comum.

b) Variância Específica (também conhecida como única).

c) Variância do Erro.

2.2.2. Métodos de Estimação

Como já foi dito no item 2.2.1 iremos utilizar o método da análise de

componentes, o qual também é conhecido como método das componentes principais.

2.2.2.1. Métodos das Componentes Principais

O método das componentes principais considerando a variância total determina

fatores que contêm pequenas proporções de variância única e, em alguns casos,

variância do erro.

O método das componentes principais é apropriado quando a preocupação

principal é a previsão ou o número mínimo de fatores necessários para explicar a parte

máxima da variância representada no conjunto original de variáveis, e quando o

conhecimento anterior sugere que as variâncias específicas e do erro representam uma

proporção relativamente pequena da variância total.

2.2.3. Rotação dos Fatores

Uma ferramenta importante na interpretação de fatores é a rotação fatorial.

Especificamente, os eixos de referência dos fatores são rotacionados em torno da

origem até o que alguma outra posição seja alcançada.

O primeiro fator tende a ser um fator geral com quase toda a variável com carga

significante, e explica a quantia maior de variância. O segundo fator e os seguintes são

então baseados na quantia residual de variância. Cada fator explica porções

sucessivamente menores de variância. O efeito final de rotacionar a matriz fatorial é

redistribuir a variância dos primeiros fatores para os últimos com o objetivo de atingir

um padrão fatorial mais simples e teoricamente mais significativo.

O caso mais simples de é uma rotação ortogonal, na qual os eixos são mantidos a

90 graus.

2.2.3.1. Critério Varimax

O critério Varimax se concentra na simplificação das colunas da matriz fatorial.

Com a abordagem rotacional Varimax, a simplificação máxima possível é conseguida se

apenas 1s e 0s em uma coluna. Ou seja, o método de Varimax maximiza a soma de

variâncias de cargas exigidas da matriz fatorial.

Com a abordagem rotacional Varimax, há uma tendência para algumas cargas

altas, isto é, próximas de -1 e +1, e algumas cargas próximas de 0 em cada coluna da

matriz. A lógica é que a interpretação é mais fácil quando as correlações variável-fator

são próximas de +1 ou -1, indicando assim uma clara associação positiva ou negativa

entre a variável e o fator; ou próximas de 0, apontando para uma clara falta de

associação.

O critério Varimax tem sido muito bem sucedido como uma abordagem analítica

para a obtenção de uma rotação ortogonal de fatores, sendo ainda um dos mais

utilizados na prática e, em modo geral, produz soluções mais simples que outros

métodos. Tal critério também foi o escolhido para o nosso estudo.

2.2.4. Modelo Fatorial Ortogonal

Seja a variável aleatória observável X, com p componentes, X ~ . (µ,Σ). O

modelo fatorial postula que X é linearmente dependente sobre algumas variáveis

aleatórias não observáveis (latentes) F1, F2,..., Fm (m < p) chamadas fatores comuns (m

fatores extraídos de p existentes) e p fontes de variância aditivas ε1, ε2,..., εp, chamadas

erros, ou, algumas vezes, fatores específicos.

X1 - µ1 = l11F1 + l12F2 + ... + l1mFm + ε1

X2 - µ2 = l21F1 + l22F2 + ... + l2mFm + ε2

…

Xi - µ i = li1F1 + li2F2 + ... + limFm + εi

…

Xp - µp = lp1F1 + lp2F2 + ... + lpmFm + εp

Os coeficientes lij (entradas da Matriz L) são chamados de pesos ou

carregamento e, especificamente, lij é o carregamento na i-ésima variável do j-ésimo

fator, tal que a matriz Lpxm é a matriz de carregamentos (pesos) dos fatores. Importante

destacarmos que o fator específico ou erro εi é associado somente com a i-ésima

variável original Xi.

Os desvios X1 - µ1, X2 - µ2,..., Xp - µp são expressos em termos de p+m variáveis

aleatórias: F1, F2,..., Fm, ε1, ε2,..., εp que não são observáveis. Isto distingue o modelo

fatorial do modelo de regressão multivariada, cujas variáveis independentes (que tem

suas posições ocupadas por F) podem ser observadas.

Agora, assumindo que:

a) E(F) = 0mx1, Cov(F) = E(FF’) = Im.

b) E(ε) = 0px1, Cov(ε) = E(εε’) = Ψpxp.

c) F e ε são independentes, assim Cov(ε,F) = E(ε,F’) = 0pxp, com m=p.

Com estas suposições o relacionamento construído em: (X - µ)px1 = lpxmFmx1 +

εpx1, é chamado de modelo fatorial ortogonal e pode ser escrito como Xpx1 = µ px1 +

lpxmFmx1 + εpx1.

2.2.5. Escores Fatoriais

Os escores fatoriais são medidas compostas de cada fator computadas para cada

indivíduo. Conceitualmente, o escore fatorial representa o grau em que cada indivíduo

tem escore elevado no grupo de itens que têm cargas elevadas em um fator. Assim,

valores mais altos nas variáveis com cargas mais elevadas em um fator resultam em um

escore fatorial superior.

O escore fatorial é computado com base nas cargas fatoriais de todas as variáveis

no fator.

2.2.5.1. Método dos Mínimos Quadrados

Quando se utiliza o método das componentes principais para estimar os

carregamentos é costume estimar os escores fatoriais utilizando o método dos mínimos

quadrados. Desta forma, as variâncias específicas Ψi são consideradas como iguais ou

aproximadamente iguais e os escores são:

ƒj = (L’L)-1L’(xj-x), j = 1, 2, 3,...

3. RESULTADOS OBTIDOS 3.1. ESTUDO DESCRITIVO

EM CONSTRUÇÃO

3.2. ANÁLISE DE CLUSTER

Encerrado o breve estudo descritivo dos nossos dados passamos para a Análise

de Cluster a que foram submetidas todas as 207 Seleções de Futebol Profissional

Masculino filiadas à FIFA foram divididas. As variáveis consideradas nesta Análise

foram:

a) Número de Participações em Copas do Mundo.

b) Número de Títulos da Copa do Mundo.

c) Número de Vice-campeonatos da Copa do Mundo.

d) Número de Títulos Continentais.

e) Número de Vice-campeonatos Continentais.

Através da referida Análise de Cluster, e segundo critérios pré-definidos, as 207

Seleções foram divididas em 05 (cinco) agrupamentos, sendo que cada agrupamento

teve o seguinte número de seleções integrantes:

Agrupamento Número de Membros Porcentagem

01 05 2,42 02 18 8,70 03 10 4,83 04 41 19,81 05 133 64,25

Para que pudéssemos realizar o agrupamento das Seleções em estudo, um

importante critério é o centróide, o qual nada mais é que o ponto médio de cada

agrupamento em cada uma das variáveis em estudo, para melhor ilustrarmos as

diferenciações entre os agrupamentos formados, segue logo abaixo uma tabela contendo

nossos 05 (cinco) agrupamentos e os seus respectivos centróides em cada uma de nossas

variáveis.

Agrupamento Participações em Copa do Mundo 1º Lugar em Copa do Mundo 2º Lugar em Copa do Mundo

1 14,80 3,20 2,00 2 8,22 0,11 0,50 3 5,20 0,00 0,00 4 1,75 0,00 0,00 5 0,16 0,00 0,00

Agrupamento 3º Lugar em Copa do Mundo 4º Lugar em Copa do Mundo 1º Lugar em Copa Continental

1 1,20 1,00 7,80 2 0,55 0,66 0,55 3 0,20 0,00 3,60 4 0,00 0,00 0,80 5 0,00 0,00 0,00

Agrupamento 2º Lugar em Copa Continental

1 6,40 2 0,61 3 3,10 4 0,87 5 0,00

Através de nossa Análise de Cluster, utilizando um procedimento hierárquico

com o método aglomerativo chegamos à divisão de nossas Seleções, ressaltando que

através dos pontos centrais de cada um de nossos “clusters” em suas respectivas

variáveis, podemos determinar quais dos “clusters” apresentam resultados mais

elevados em suas variáveis, e quais os “clusters” que apresentam resultados mais baixos

nas variáveis em estudo. Diante desta situação, realizamos uma pré-classificação das

nossas seleções em 05 (cinco) níveis, sendo que as seleções do nível 01 são as que

apresentam os melhores resultados nas variáveis abrangidas pela Análise feita, e assim

sucessivamente, até o nível 05 que contempla as seleções que apresentam os piores

resultados nas variáveis em questão.

a) Primeiro Agrupamento – Seleções do 1º Nível:

Número Seleção Linha

1 Brasil 1 2 Alemanha 4 3 Itália 5 4 Argentina 8 5 Uruguai 21

b) Segundo Agrupamento – Seleções do 2º Nível:


6 Espanha 2 7 Holanda 3 8 Rússia 6 9 Inglaterra 7 10 França 9 11 Croácia 10 12 Sérvia 14 13 Portugal 17 14 República Tcheca 22 15 Bulgária 23 16 Turquia 28 17 Polônia 40 18 Suécia 41 19 Eslováquia 42 20 Hungria 43 21 República da Coréia 48 22 Bélgica 62 23 Áustria 68

c) Terceiro Agrupamento – Seleções do 3º Nível:


24 Estados Unidos 12 25 Austrália 16 26 Paraguai 20 27 Chile 26 28 Camarões 29 29 México 30 30 Egito 33 31 Nigéria 34 32 Gana 35 33 Arábia Saudita 64

d) Quarto Agrupamento – Seleções do 4º Nível:


34 Grécia 11 35 Suíça 13 36 Dinamarca 15 37 Costa do Marfim 18 38 Escócia 24 39 Israel 25 40 Romênia 27 41 Costa Rica 38 42 Japão 39 43 Colômbia 45 44 Honduras 46 45 Argélia 47 46 Tunísia 49 47 Marrocos 55 48 Guiné 57 49 Mali 58 50 Irã 61 51 Bolívia 63 52 África do Sul 72 53 Uganda 75 54 Líbia 76 55 Zâmbia 77 56 Panamá 78 57 El Salvador 81 58 Senegal 84 59 Peru 89 60 Congo 90 61 Sudão 91 62 República do Congo 97 63 Nova Zelândia 99 64 Iraque 100 65 Guatemala 107 66 República da China 108 67 Haiti 115 68 Kuwait 116 69 Emirados Árabes Unidos 124 70 Etiópia 136 71 Birmânia 147 72 Índia 157 73 Ilhas Salomão 162 74 Tahiti 190

e) Quinto Agrupamento – Seleções do 5º Nível:


75 Ucrânia 19 76 Gabão 31 77 Irlanda do Norte 32 78 Equador 36 79 República da Irlanda 37 80 Bósnia-Herzegovina 44 81 Noruega 50 82 Burkina Fasso 51 83 Finlândia 52 84 Macedônia 53 85 Venezuela 54 86 Letônia 56 87 Lituânia 59 88 Eslovênia 60 89 Bahrein 65 90 Canadá 66 91 País de Gales 67 92 Jamaica 69 93 Trinidad e Tobago 70 94 Togo 71 95 Chipre 73 96 Bielorrússia 74 97 Uzbequistão 79 98 Omã 80 99 Moçambique 82 100 Benin 83 101 Qatar 85 102 Coréia do Norte 86 103 Moldávia 87 104 Cuba 88 105 Islândia 92 106 Tanzânia 93 107 Albânia 94 108 Síria 95 109 Montenegro 96 110 Gâmbia 98 111 Ilhas Fiji 101 112 Angola 102 113 Geórgia 103 114 Namíbia 104 115 Quênia 105 116 Barbados 106 117 Malauí 109 118 Antígua e Barbuda 110 119 Suriname 111

120 Estônia 112 121 Granada 113 122 Ilha de Cabo Verde 114 123 Tailândia 117 124 Ruanda 118 125 Luxemburgo 119 126 Zimbábue 120 127 Guiana 121 128 Jordânia 122 129 Armênia 123 130 Serra Leoa 125 131 Chad 126 132 Cingapura 127 133 Burundi 128 134 Guiné Equatorial 129 135 Cazaquistão 130 136 Botsuana 131 137 Madagascar 132 138 Níger 133 139 Indonésia 134 140 Hong Kong 135 141 Azerbaijão 137 142 Nova Caledônia 138 143 Nicarágua 139 144 Libéria 140 145 Iêmen 141 146 Vanuatu 142 147 Bermudas 143 148 Vietnã 144 149 Turcomenistão 145 150 Malta 146 151 Líbano 148 152 St. Kitts e Nevis 149 153 Liechtenstein 150 154 São Vicente e Granadinas 151 155 Malásia 152 156 Suazilândia 153 157 Maldivas 154 158 Tadjiquistão 155 159 Sri Lanka 156 160 Filipinas 158 161 Eritréia 159 162 Quirquistão 160 163 Mauritânia 161 164 Ilhas Faroé 163 165 Lesoto 164 166 Antilhas Holandesas 165 167 Porto Rico 166

168 Paquistão 167 169 Somália 168 170 Bangladesh 169 171 Ilhas Caimã 170 172 Laos 171 173 Taipe Chinês 172 174 Camboja 173 175 Samoa 174 176 Mongólia 175 177 Nepal 176 178 Palestina 177 179 Belize 178 180 Seychelles 179 181 Bahamas 180 182 Turks e Caicos 181 183 Brunei Durassalam 182 184 Maurício 183 185 Tonga 184 186 República Dominicana 185 187 Guiné-Bissau 186 188 Guam 187 189 Ilhas Cook 188 190 Djibuti 189 191 Santa Lúcia 191 192 Afeganistão 192 193 Ilhas Virgens Britânicas 193 194 Macau 194 195 Andorra 195 196 Butão 196 197 Dominica 197 198 Aruba 198 199 Timor Leste 199 200 Ilhas Virgens dos EUA 200 201 Comores 201 202 República Centro-africana 202 203 San Marino 203 204 Anguila 204 205 Montserrat 205 206 Samoa Americana 206 207 Papua Nova Guiné 207

A partir da definição dos agrupamentos acima descritos, passamos para a

segunda terceira de nossa análise que é a análise fatorial da forma como vem a seguir.

3.3. ANÁLISE FATORIAL

EM CONSTRUÇÃO

4. CONCLUSÕES

EM CONSTRUÇÃO 5. CONSIDERAÇÕES FINAIS

EM CONSTRUÇÃO

Documents

Trabalho de Conclusão de Curso - coordest.ufpr.br · os dados obtidos e se elaborará um novo Ranking das Seleções de Futebol Profissional Masculino filiadas à FIFA. Palavras-Chave: