Upload
trinhkiet
View
214
Download
0
Embed Size (px)
Citation preview
João Cardoso Neto Sandra Helena de Melo
Trabalho de Conclusão de Curso
Trabalho apresentado para a disciplina de Laboratório de Estatística do Curso de Graduação em Estatística da Universidade Federal do Paraná.
Orientação: Professor Doutor Anselmo Chaves Neto.
Curitiba 2009
Crítica ao atual Ranking da FIFA de Seleções Masculinas de Futebol Profissional
João Cardoso Neto Sandra Helena de Melo
Curso de Estatística Universidade Federal do Paraná
2009
Resumo
O objetivo deste trabalho é num primeiro momento realizar uma análise crítica do atual critério adotado pela FIFA (Federação Internacional de Futebol) com relação às Seleções Masculinas de Futebol Profissional. Por exemplo, numa consulta feita através do site http://es.fifa.com, em data de 20 de Agosto de 2009, a Seleção de Gabão ocupa a 31a. colocação no atual Ranking, enquanto a Seleção da Suécia ocupa a singela 41ª. colocação neste mesmo Ranking. Ocorre, porém, que muitas pessoas com modesto conhecimento sobre futebol, ou não, jamais ouviram falar da Seleção do Gabão, além disso, tal agremiação nunca participou de uma Copa do Mundo, ao contrário disso, a Seleção da Suécia já possui uma maior tradição no mundo do Futebol. Participou de 11 (onze) Copas do Mundo, além de ter alcançado em 1958 a segunda colocação, em 1950 e 1994 a terceira colocação e no ano de 1938 a quarta colocação na Copa do Mundo. A partir disto, será feito um Ranking preliminar de todas as Seleções atualmente filiadas à FIFA, utilizando para este primeiro ranqueamento as seguintes variáveis: quantidade de participações em Copas de Mundo, melhores colocações obtidas nessas Copas do Mundo (apenas serão considerados do 1º ao 4º Lugares), melhores colocações obtidas nas Copas Continentais (apenas serão considerados os 1º e 2º Lugares), número de jogadores registrados, não registrados, de clubes e de árbitros. Em seguida, através de uma Análise de Agrupamento (Cluster), ou outra técnica de reconhecimento de padrões, se dividirá este grupo de Seleções em grupos. E, então, serão agregadas mais variáveis ao estudo. Como ilustração do método pode-se supor que a Seleção Brasileira esteja no 1o. nível, e então analisa-se o seu rendimento contra as agremiações do seu e dos demais níveis, e isto será feito de forma sucessiva até a última Seleção ser analisada. De posse de todas as variáveis acima nominadas, irá ser feita uma análise multivariada de todos os dados obtidos e se elaborará um novo Ranking das Seleções de Futebol Profissional Masculino filiadas à FIFA. Palavras-Chave: Futebol, Reconhecimento de Padrões, Análise Multivariada. Professor Orientador: Prof. Dr. Anselmo Chaves Neto
1. INTRODUÇÃO
Que o velho jargão “O Brasil é o País do Futebol” é a mais pura verdade do
povo brasileiro nós estamos cansados de saber, porém com a globalização mundial e o
aumento constante dos meios de interação entre pessoas do mundo todo, independente
da distância em que uma se encontra da outra, não podemos dizer que apenas o
brasileiro é apaixonado por futebol, o futebol é hoje em dia uma paixão mundial.
Prova disso são os diversos campeonatos de clubes existentes em todo o mundo,
para se ter idéia das dimensões da paixão que o mundo todo está nutrindo pelo futebol,
um dos maiores, senão o maior canal de televisão fechada, que exibe programas
exclusivamente de cunho esportivo, a ESPN, neste ano está transmitindo jogos do
Campeonato Russo e Americano de futebol profissional, além dos já tradicionais
Campeonatos Alemão, Holandês, Italiano, Espanhol e Inglês.
Engana-se quem acredita que a paixão pelo futebol é exclusividade dos homens,
pois se não bastasse o acima exposto, este mesmo canal também neste ano, está
realizando a transmissão do Campeonato Americano de futebol profissional feminino.
Logicamente que como qualquer empresa, um canal de televisão somente realiza
transmissões de eventos em que o custo-benefício seja favorável ao mesmo, pois este
possui várias despesas que são pagas com as receitas geradas, sendo que não é segredo
para ninguém que grande parte da receita dos canais de televisão é oriunda da venda de
horários dos comerciais para empresas interessadas em divulgar suas marcas.
Diante deste quadro podemos retirar três afirmações importantes para nosso
trabalho, são elas: a transmissão de futebol é rentável para o canal de televisão em
virtude do custo benefício, assim como as empresas consideram os comerciais destas
transmissões um bom horário para expandir a divulgação de suas marcas e aumentar o
número de clientes, e por fim, se as duas afirmativas anteriores são verdadeiras, existe
um grande número de pessoas que acompanham tais transmissões, tornando rentável a
transmissão destes eventos pelos canais de televisão, bem como a compra de horários de
comercial por empresas em geral.
Evidentemente que existem um grande número de fãs do futebol pelo mundo
todo, estas pessoas acompanham os mais diversos tipos de campeonatos e jogos
movidos pela paixão pelo futebol, independente de suas nacionalidades. Mas além
destes indivíduos, existem várias outras pessoas que mesmo não nutrindo o mesmo
sentimento pelo futebol, em certas ocasiões voltam as suas atenções para tal esporte,
sendo a principal destas ocasiões a Copa do Mundo de Futebol Profissional Masculino,
evento este que ocorre a cada quatro anos, em países pré-selecionados pela FIFA –
Federação Internacional de Futebol.
Para termos uma idéia da proporção de um evento como a Copa do Mundo de
Futebol Profissional Masculino, a última delas, realizada no ano de 2006, na Alemanha
e que teve como campeã a Seleção Italiana, segundo dados fornecidos pela própria
FIFA, teve uma audiência total de 26,3 bilhões de pessoas, sendo transmitida para 214
países e territórios. Uma curiosidade importante para dimensionarmos a grandiosidade
deste evento é que a própria FIFA possuí apenas 207 seleções profissionais filiadas,
número este menor do que os países e territórios para os quais foi transmitida a Copa do
Mundo.
Além disso, é salutar destacarmos as informações da Empresa Reuters do Brasil,
filiada à Thomson Reuters, que é a maior agência internacional de notícias e multimídia
do mundo, publicadas no site http://www.observatoriodaimprensa.com.br.
A Copa do Mundo deste ano registrou uma
audiência média de 93 milhões de telespectadores
por cada jogo, totalizando em um mês o
equivalente à audiência de 64 Super Bowls - finais
do campeonato de futebol americano dos EUA. O
Super Bowl acontece uma vez ao ano nos EUA, o
maior mercado publicitário do mundo, com
empresas pagando até US$ 2,4 milhões para
colocar um comercial de 30 segundos no ar. Mais
de 5,9 bilhões de pessoas assistiram ao vivo aos
jogos da Copa em 54 mercados globais, de acordo
com uma pesquisa divulgada esta semana pelo
instituto de análise de mídia Initiative.
No último jogo, no dia 9/7, 284 milhões de
telespectadores ficaram de olho na telinha para
ver a Itália vencer a França nos pênaltis. Já a
semifinal, entre Itália e Alemanha, foi assistida
por 202 milhões; enquanto a outra semifinal entre
Portugal e França teve uma audiência global de
188 milhões. O Mundial da Alemanha também
atraiu o dobro do número de telespectadores que
assistiram à abertura dos Jogos Olímpicos de
Atenas. A competição deste ano foi benefeciada
por ter sido realizada em um país europeu, indo
ao ar em um horário conveniente para os fãs do
esporte na Europa e na América do Sul. Na Copa
de 2002, que aconteceu na Coréia do Sul e no
Japão, muitos deles não puderam assistir aos
jogos devido ao fuso horário.
A Copa de 2006 atraiu 10% a mais de
telespectadores que em 2002 e teve
aproximadamente a mesma audiência da de 1998.
De todos os telespectadores, 41% eram mulheres -
o maior número de fãs femininas de todas as
Copas. Mesmo assim, a maior parte dos anúncios
foi de produtos destinados a homens.
Logicamente que além destas audiências existe outro fator financeiro envolvido
em eventos como a Copa do Mundo de Futebol que são as apostas feitas pelas pessoas
nas chamadas “Casas de Apostas” com os palpites sobre os resultados dos jogos deste
evento e principalmente sobre os primeiros colocados neste evento.
Para se ter uma idéia o site www.folha.com.br publicou uma notícia em data de
20 de Julho de 2006 uma reportagem com o Senhor Rupert Adams, Porta-voz da Casa
de Apostas Willian Hill, em que cita que:
Antes do início do Mundial, para cada 5
libras (cerca de R$ 20) que uma pessoa apostava
no Brasil, recebia 12 de volta. Esta Copa do
Mundo deverá movimentar 1 bilhão de libras (
pouco mais de R$ 4 bilhões) em apostas apenas na
Grã-Bretanha.
Neste ínterim, devemos ainda destacar o citado por Eduardo Campos, membro
da InvestNews, na Gazeta Mercantil, o qual relata em 19 de Maio de 2006 que:
Os torcedores que não têm dúvidas quanto
ao favoritismo da seleção brasileira para a Copa
do Mundo já estão fazendo suas apostas nos sites
de jogo da Europa. Antecipando um esperado
crescimento na demanda, os sites criaram um
mercado futuro de apostas para os jogos da Copa
do Mundo, com diversas opções. O torcedor pode
escolher qual seleção será a campeã, quem será o
artilheiro e até qual rodada cada time irá durar.
Como era de se esperar, a seleção brasileira é a
favorita nos sites de casas de apostas da Europa.
A aposta no Brasil é de 16/5. A segunda colocada
é a Inglaterra, que paga 6/1; em terceiro vem a
Alemanha, dona da casa, com 7/1; a Argentina
vem na seqüência, pagando 8/1; e a Itália, em
quinto, com 10/1. Como em qualquer outro jogo,
as apostas no azarão pagam muito mais. As
apostas para Estados Unidos e Costa do Marfim
como campeões estão ambas cotadas em 100/1.
Instituição legalizada e regulamentada no
continente, o ramo de apostas em esportes - e em
qualquer outra coisa - movimenta bilhões de
dólares por ano. Não há um número oficial, mas a
Betting Office Licensees Association
(ironicamente conhecida como Bola, na sigla em
inglês) estima que as apostas pela internet
movimentem mais de 680 bilhões de libras por
ano em todo o mundo. A Bola representa as
maiores casas de apostas do Reino Unido e luta
pela redução da tributação imposta pelo governo
ao jogo. Parlamentares americanos estimam que
apenas as apostas online movimentem cerca de
US$ 12 bilhões por ano. Devido a recentes
escândalos envolvendo casas de apostas na
Alemanha e Leste Europeu a Fifa vai acompanhar
este mercado durante o período de jogos. Para se
ter idéia de como o jogo é coisa séria para os
europeus, em particular para os britânicos, há
inúmeras publicações como revistas, jornais e
sites sobre o assunto. O Sportsman, jornal criado
há pouco tempo voltado aos entusiastas das
apostas, vendeu cerca de 21,5 mil cópias por dia
em abril. A meta é chegar a 40 mil até o final do
ano. Atualmente, o jornal de apostas de maior
circulação na ilha é o Racing Post, com uma
tiragem de 80 mil jornais por dia.
Importante enaltecermos ainda que além das Casas Oficiais de apostas, é comum
que os grupos de amigos ou colegas de trabalho façam os famosos “Bolão” antes dos
jogos da Copa do Mundo, oportunidades em que os valores em questão são mais
simbólicos e o real objetivo deste “Bolão” é a diversão associada ao esporte.
Além disso, devemos salientar ainda que é comum que os técnicos ou managers
das várias seleções estudem de forma pormenorizada os seus futuros adversários não só
nas Copas do Mundo como em qualquer outro jogo que venha a ser disputado e baseado
no nível de seu futuro adversário trace uma estratégia técnica e tática para que venha a
obter sucesso nesta partida a ser disputada.
Diante de todo o exposto até o momento se torna de grande importância que
saibamos quais são as melhores e as piores seleções de futebol, bem como qual o nível
das mesmas em um ranqueamento que contemple as várias seleções existentes. Para isto
atualmente temos o Ranking com todas as seleções de futebol que são filiadas à FIFA,
este Ranking é atualizado mensalmente e fica disponível para consulta através do site
http://es.fifa.com.
Ocorre, porém, que este Ranking possui alguns critérios que são muito
discutíveis e geram debates em todo o mundo, principalmente em virtude de que não
somente os especialistas, como a maioria dos indivíduos não concordam com os
critérios utilizados pela FIFA e consequentemente com o Ranking de seleções.
Para termos uma idéia dos critérios utilizados pela FIFA na elaboração de seu
Ranking, seguem algumas informações disponibilizadas pela própria FIFA através do
seu site oficial:
Fórmula básica: P=M*I*T*C*100. O cálculo
leva em conta as seguintes definições e condições:
M: Pontos - para uma vitória são 3 pontos, para
um empate é 1 ponto e para a derrota é 0 pontos.
Se uma partida é decidida nos pênaltis, a equipe
vencedora ganha 2 pontos e o perdedor 1 ponto.
I: Utiliza os seguintes valores: jogo amigável
(incluindo também pequenos torneios): I = 1,0;
Continental e da qualificação para o Mundial: I =
2,5; Competições continentais finais e Copa das
Confederações: I = 3,0; Copa do Mundo da FIFA:
I=4,0.
T: a força da equipe adversária, calculado pela
seguinte fórmula:
[200 - Posição do adversário nesta lista] / 100.
Somente a equipe no primeiro lugar ganha 2,00
como fator de avaliação e da posição
150 em diante ganha 0,50, que é o mínimo.
C: equivalente ao fator de potência de uma
confederação. Para realizar o cálculo em jogos
intercontinentais deve ser usado para este fator a
potência médio da confederação de cada equipe.
Como podemos perceber este critério não é de fácil compreensão e, além disso, é
alvo de várias críticas, pois não reflete a realidade das seleções mundiais. O próprio
presidente da FIFA, Joseph Blatter, em matéria publicada no site http://veja.abril.com.br
em 07 de Julho de 2006 afirmou que:
Reconhecemos a necessidade de uma revisão
profunda e estou convencido de que nossos
especialistas encontraram uma solução
satisfatória com o novo método de cálculos da
classificação.
Diante de todo o exposto até o momento, este trabalho tem como objetivo
principal propor um novo sistema de ranqueamento das seleções masculinas de futebol
profissional. Para este ranqueamento que será proposto, iremos dividir nosso estudo em
três passos principais, da forma como segue:
Passo 1: Realizar um pré agrupamento das 207 seleções filiadas à FIFA,
utilizando para a realização disso as seguintes variáveis: número de participações em
Copas do Mundo, número de primeiros, segundos, terceiros e quarto lugares em Copas
do Mundo, número de primeiros e segundos lugares em Copas Continentais.
As 207 seleções filiadas à FIFA serão agrupadas em 05 níveis, sendo que a
quantidade de seleções em cada nível foi estabelecida em virtude das medidas de
similaridade entre as seleções levando-se em conta as variáveis em estudo anteriormente
descritas.
Passo 2: Após o pré agrupamento das seleções em estudo, iremos incorporar ao
nosso estudo outras variáveis, a saber: número de jogadores registrados e não
registrados, número de clubes, número de árbitros, aproveitamento contra seleções do
nível A, B, C, D e E, considerando os últimos quatro anos.
A incorporação destas novas variáveis se faz necessária em virtude de que é
extremamente lógico que seleções como Brasil e Camboja apresentam muitas
dissimilaridades, da mesma forma que também apresentam dissimilaridades seleções
como a do Timor Leste e a da Itália. Diante deste quadro, é de se esperar que em
confrontos hipotéticos, a seleção Brasileira saia vencedora em confrontos contra
Camboja e Timor Leste, ao passo que num duelo com a seleção Italiana o resultado seja
mais “imprevisível”. Diante disso é importante que o aproveitamento de cada uma das
seleções contra as seleções de todos os níveis sejam consideradas, pois é presumível que
as melhores seleções apresentem um bom aproveitamento contra todas as seleções,
independente do nível, enquanto as seleções mais modestas terão um aproveitamento
baixo contra seleções de nível superiores ao seu.
Passo 3: Após a inserção destas variáveis, será realizado um novo ranqueamento
das seleções, utilizando-se para isto técnicas multivariadas, especificamente a análise
fatorial.
2. REVISÃO DE LITERATURA 2.1. ANÁLISE DE AGRUPAMENTO
Análise de agrupamentos é o nome para um grupo de técnicas multivariadas cuja
finalidade primaria é agregar objetos com base nas características que eles possuem. Ela
classifica objetos de modo que cada um é muito semelhante aos outros no agrupamento
em relação a algum critério de seleção predeterminado. Os agrupamentos resultantes de
objetos devem então exibir elevada homogeneidade interna (dentro dos agrupamentos).
Assim, se a classificação for bem sucedida, os objetos dentro dos agrupamentos estarão
próximos quando representados graficamente e diferentes agrupamentos estarão
distantes.
Em análise de agrupamentos, o conceito da variável estatística é novamente uma
questão central, mas de uma forma bastante diferente de outras técnicas multivariadas.
A variável estatística de agrupamento é o conjunto de variáveis que representam as
características usadas para comparar objetos na análise de agrupamento. Como a
variável estatística de agrupamento inclui apenas as variáveis usadas para comparar
objetos, ela determina o “caráter” dos objetos. A análise de agrupamento é a única
técnica multivariada que não estima a variável estatística empiricamente, mas ao invés
disso usa a variável estatística como especificada pelo pesquisador. O foco da análise de
agrupamento é a comparação de objetos com base na variável estatística, não na
estimação da variável estatística em si. Isso torna a definição da variável estatística feita
pelo pesquisador um passo crítico na análise.
O objetivo principal da analise de agrupamento é definir a estrutura dos dados
colocando as observações mais parecidas em grupos. Mas para conseguir isso, devemos
abordar três questões básicas. Primeiro como medimos a similaridade? Necessitamos de
um método de comparação simultânea de observações sobre as duas variáveis de
agrupamento (V1 e V2). Diversos métodos são possíveis, incluindo a correlação entre
objetos, uma medida de associação usada em outras técnicas multivariadas, ou talvez
uma medida de sua proximidade em um espaço bidimensional tal que a distância entre
observações indique similaridade. Segundo, como formamos os agrupamentos? Não
importa como a similaridade é medida, o procedimento deve agregar as observações que
são mais similares em um agrupamento. Esse procedimento deve determinar a
pertinência a grupo de cada observação. Terceiro, quantos grupos formamos? Várias
“regras” podem ser utilizadas, mas a tarefa fundamental é avaliar a similaridade
“média” entre agrupamentos de forma que quando a média aumenta, os agrupamentos
se tornam menos parecidos. O pesquisador então se depara com uma negociação: menos
agrupamentos versus menos homogeneidade. A estrutura simples, com vistas à
parcimônia, é refletida internamente com o menor número de agrupamentos possível.
No entanto, quando o número de agrupamento diminui, a homogeneidade dentro dos
grupos necessariamente diminui. Assim, deve haver um equilíbrio entre definir a
estrutura mais básica (menos agrupamentos) e ainda conseguir o nível necessário de
similaridade dentro dos agrupamentos. Uma vez que temos os procedimentos para tratar
de cada questão, podemos executar a análise.
2.1.1 Medidas de Similaridade
O conceito de similaridade é fundamental na análise de agrupamentos. A
similaridade entre objetos é uma medida de correspondência ou semelhança entre
objetos a serem agrupados. Primeiramente são especificadas as características de
similaridade, em seguida, as características são combinadas em uma medida de
similaridade calculada para todos os pares de objetos. Desse modo, qualquer objeto
pode ser comparado a qualquer outro por meio da medida de similaridade. O
procedimento da análise de agrupamento prossegue agregando objetos semelhantes em
agrupamentos.
A similaridade entre objetos pode ser medida de diversas maneiras, mas três
métodos dominam as aplicações de análise de agrupamentos: medidas correlacionais,
medidas de distância e medidas de associação. Cada um desses métodos representa uma
perspectiva particular da similaridade, dependendo de seus objetivos e do tipo de dados.
Tanto as medidas correlacionais quanto as medidas de distância requerem dados
métricos, ao passo que as medidas de associação são para dados não-métricos.
2.1.1.2 Medidas de Distância
As medidas de distância são, na verdade, uma medida de similaridade, em que
os valores maiores denotam menor similaridade. A distância é convertida em uma
medida de similaridade pelo uso de uma relação inversa. As medidas de distância se
concentram na magnitude dos valores e representam casos similares que estão
próximos, mas podem ter padrões muito diferentes ao longo das variáveis.
2.1.1.2.1. Distância Euclidiana
Diversas medidas de distância estão disponíveis. A mais comumente usada é a
distância euclidiana. Um exemplo de como distância euclidiana pode ser obtida é
mostrada geometricamente na Figura X. Suponha que dois pontos em duas dimensões
tenham coordenadas (X1 , Y1) e (X2 , Y2), respectivamente. A distância euclidiana entre
os pontos é o comprimento da hipotenusa de um triângulo retângulo, conforme se
calcula pela fórmula sob a aludida Figura. Esse conceito é facilmente generalizado para
mais de duas variáveis. A distância euclidiana é empregada para calcular medidas
específicas, como a distância euclidiana simples (calculada como descrito acima) e a
distância euclidiana quadrada ou absoluta, que é a soma do quadrado das diferenças,
sem calcular a raiz quadrada.
Figura X: Um exemplo de distância euclidiana entre dois objetos medidos sobre duas
variáveis X e Y.
2.1.2. Seleção de um Algoritmo de Agrupamento
A seleção de um algoritmo de agrupamento não é uma tarefa simples, pois
centenas de programas de computadores utilizam diferentes tipos de algoritmos, além
dos já disponíveis vários outros estão em fase de desenvolvimento.
O critério primordial para todos estes algoritmos é que eles tentam maximizar as
diferenças entre os agrupamentos, diferenças estas relativas à variação dos mesmos. Os
algoritmos mais comumente utilizados podem ser classificados em duas grandes
categorias gerais, sendo elas: hierárquica e não-hierárquica.
2.1.2.1. Procedimento Hierárquico Nesse procedimento, os agrupamentos são formados a partir de uma matriz de
parecença. Num primeiro passo, a matriz é utilizada para identificar o par de objetos que
mais se parece. A partir desse instante esse par é agrupado e será considerado como
sendo um único objeto. Isso requer que se defina uma nova matriz de parecença; em
seguida se identifica o par mais semelhante, que formará um novo grupo, e assim
sucessivamente até que todos os objetos estejam reunidos num mesmo grupo. Através
da análise do histórico do agrupamento, pode-se definir a posteriori número de grupos
existentes nos dados.
A técnica de agrupamento hierárquico interliga as amostras por suas
associações, produzindo um dendrograma onde as amostras semelhantes, segundo as
variáveis escolhidas, são agrupadas entre si. A suposição básica de sua interpretação é
esta: quanto menor a distância entre os pontos, maior a semelhança entre as amostras.
Os dendrogramas são especialmente úteis na visualização de semelhanças entre
amostras ou objetos representados por pontos em espaço com dimensão maior do que
três, onde a representação de gráficos convencionais não é possível.
Existem muitas maneiras de procurar agrupamentos no espaço n-dimensional. A
maneira matematicamente mais simples consiste em agrupar os pares de pontos que
estão mais próximos, usando a distância euclidiana, e substituí-los por um novo ponto
localizado na metade da distância entre eles. Este procedimento, quando repetido até
que todos os pontos sejam agrupado em um só ponto, leva a construção do
dendrograma, onde, no eixo horizontal são colocadas as amostras e, no eixo vertical, o
índice de similaridade, sij, entre os pontos i e j, calculado segundo a seguinte expressão:
onde dij é a distância entre os pontos i e j e dmáx é a distância máxima entre qualquer par
de pontos. Os dendrogramas, portanto, consistem em diagramas que representam a
similaridade entre pares de amostras (ou grupos de amostras) numa escala que vai de
um (identidade) a zero (nenhuma similaridade).
Finalmente, importante se faz ressaltar o procedimento hierárquico se divide
basicamente em dois tipos: Métodos Aglomerativos e Métodos Divisivos. Importante
evidenciarmos que em nosso estudo fizemos a utilização dos Métodos Aglomerativos.
2.1.2.2. Métodos Aglomerativos
No Método Aglomerativo, cada objeto ou observação começa como seu próprio
agrupamento. Em passos seguintes, os dois agrupamentos (observações ou indivíduos)
mais próximos são combinados em um novo agregado, reduzindo assim o número de
agrupamentos em uma unidade em cada passo.
Em alguns casos, um terceiro indivíduo, ou mais, se une aos dois primeiros em
um agrupamento. Já em outras situações, dois grupos de indivíduos formados em um
passo anterior podem vir a se juntar em um novo agrupamento.
Eventualmente, todos os indivíduos são reunidos em um grande agregado, por
essa razão, os procedimentos aglomerativos às vezes são chamados de métodos
construtivos.
Na atualidade podemos destacar cinco Métodos de Ligação Aglomerativos que
possuem grande uso, sendo os que seguem: Ligação Individual, Ligação Completa,
Ligação Média, Método Centróide e Método de Ward. Em nosso estudo utilizamos o
Método de Ward.
2.1.2.3. Método de Ward
A alocação de um elemento a um grupo é feita de modo a minimizar uma
medida de homogeneidade interna.
A cada etapa do Método de Ward, busca-se unir objetos que torne cada
agrupamento formado o mais homogêneo possível. A medida de homogeneidade
utilizada baseia-se na partição da soma de quadrados total de uma análise de variância.
O Método de Ward é um método de agrupamento de dados que forma grupos de
maneira a atingir sempre o menor erro interno entre os vetores que compõe cada grupo e
o vetor médio do grupo. Isto equivale a buscar o mínimo desvio padrão entre os dados
de cada grupo. No Método de Ward, os grupos de dados são formados em etapas. No
princípio, têm-se “m” grupos; ou seja, um grupo para cada vetor componente da base de
dados. Neste estágio inicial o erro interno é nulo para todos os grupos, pois cada vetor
que compõe cada grupo é o próprio vetor médio do grupo. Igualmente o desvio padrão
para cada grupo é nulo.
Na etapa subseqüente, cada possibilidade de aglutinação entre os grupos, 2 a 2, é
verificada, e é escolhido o agrupamento que causa o menor aumento no erro interno do
grupo. São “m x m” verificações. Desta forma, para uma base de dados com “m”
elevado, estas verificações exigem um grande esforço computacional caso o método
seja implementado em computador. Nota-se que a cada iteração tem-se “m – i” grupos
(i = número de iterações), no entanto, como o número de elementos pertencentes a cada
grupo aumenta, é maior o número de cálculos para o erro interno de cada grupo.
2.2. ANÁLISE FATORIAL
É uma técnica estatística que tem como objetivo descrever a estrutura de
dependência de um conjunto de variáveis através da criação de fatores, que são
variáveis que, supostamente, medem aspectos comuns.
Historicamente, a origem das técnicas de análise fatorial está ligada a estudos da
área de psicologia. Sua criação data do início do século, quando Spearman (Spearman,
1904) desenvolveu um método para a criação de um índice geral de inteligência (fator
“g”) com base nos resultados de vários testes (escalas) que refletiriam esta aptidão.
Tratava-se de um primeiro método de Análise Fatorial, adequado para a estimação de
um único fator. O desenvolvimento inicial de métodos de Análise Fatorial esteve muito
ligado ao problema da avaliação de escalas cognitivas e foi responsabilidade de uma
série de pesquisadores da área de psicologia (Spearman, 1904, Thurstone, 1935, 1947 e
Burt, 1941, por exemplo). No início, os métodos apresentavam uma característica mais
empírica do que inferencial. Em 1940, com Lawley, surge um primeiro trabalho com
um maior rigor matemático, o que fez com que se aumentasse a aceitação dessas
técnicas, nesse meio (Lawley, 1940).
Uma situação comum em várias áreas do conhecimento é aquela na qual se observa,
para cada elemento amostral, um grande número de variáveis. Essas variáveis podem
ser, por exemplo, características demográficas, um conjunto de itens de uma escala ou
mesmo os resultados obtidos por um indivíduo em diferentes escalas de avaliação.
Diante de um quadro como este, o pesquisador enfrenta dois problemas:
1) Como caracterizar a amostra levando-se em conta um conjunto eventualmente
grande de variáveis.
2) Como descrever a inter-relação existente entre estas variáveis, eventualmente
explicitando uma estrutura de interdependência subjacente aos dados.
A Análise Fatorial vem resolver esses dois problemas. Reis (1997) define a Análise
Fatorial como “um conjunto de técnicas estatísticas cujo objetivo é representar ou
descrever um número de variáveis iniciais a partir de um menor número de variáveis
hipotéticas”. Trata-se de uma técnica estatística multivariada que, a partir da estrutura
de dependência existente entre as variáveis de interesse (em geral representada pelas
correlações ou covariâncias entre essas variáveis), permite a criação de um conjunto
menor de variáveis (variáveis latentes, ou fatores), obtidas a partir das originais. Além
disso, a técnica possibilita saber o quanto cada fator está associado a cada variável e o
quanto o conjunto de fatores explica da variabilidade total dos dados originais.
Importante evidenciarmos a existência de dois tipos distintos de Análise Fatorial, o
primeiro deles, comumente conhecido como Análise Fatorial do Tipo Q se refere a
situações envolvendo casos, e a Análise Fatorial do Tipo R que diz respeito ao
agrupamento de variáveis e é a que utilizaremos em nosso estudo.
2.2.1. Método Fatorial de Variância Total
Após as variáveis do estudo estarem especificadas, devemos decidir o método de
extração de fatores, existe o método baseado na análise de fatores comuns e o método
de análise de componentes, em nosso estudo iremos utilizar o método de análise de
componentes.
Enquanto o método baseado na análise de fatores comuns apenas utiliza a
variância comum, o método de análise de componentes considera além da variância
comum, a variância específica e do erro.
Desta forma, como escolhemos para utilização o método de análise de
componentes, logicamente estamos fazendo uso do método fatorial de variância total, o
qual, como já foi dito anteriormente, considera as seguintes variâncias:
a) Variância Comum.
b) Variância Específica (também conhecida como única).
c) Variância do Erro.
2.2.2. Métodos de Estimação
Como já foi dito no item 2.2.1 iremos utilizar o método da análise de
componentes, o qual também é conhecido como método das componentes principais.
2.2.2.1. Métodos das Componentes Principais
O método das componentes principais considerando a variância total determina
fatores que contêm pequenas proporções de variância única e, em alguns casos,
variância do erro.
O método das componentes principais é apropriado quando a preocupação
principal é a previsão ou o número mínimo de fatores necessários para explicar a parte
máxima da variância representada no conjunto original de variáveis, e quando o
conhecimento anterior sugere que as variâncias específicas e do erro representam uma
proporção relativamente pequena da variância total.
2.2.3. Rotação dos Fatores
Uma ferramenta importante na interpretação de fatores é a rotação fatorial.
Especificamente, os eixos de referência dos fatores são rotacionados em torno da
origem até o que alguma outra posição seja alcançada.
O primeiro fator tende a ser um fator geral com quase toda a variável com carga
significante, e explica a quantia maior de variância. O segundo fator e os seguintes são
então baseados na quantia residual de variância. Cada fator explica porções
sucessivamente menores de variância. O efeito final de rotacionar a matriz fatorial é
redistribuir a variância dos primeiros fatores para os últimos com o objetivo de atingir
um padrão fatorial mais simples e teoricamente mais significativo.
O caso mais simples de é uma rotação ortogonal, na qual os eixos são mantidos a
90 graus.
2.2.3.1. Critério Varimax
O critério Varimax se concentra na simplificação das colunas da matriz fatorial.
Com a abordagem rotacional Varimax, a simplificação máxima possível é conseguida se
apenas 1s e 0s em uma coluna. Ou seja, o método de Varimax maximiza a soma de
variâncias de cargas exigidas da matriz fatorial.
Com a abordagem rotacional Varimax, há uma tendência para algumas cargas
altas, isto é, próximas de -1 e +1, e algumas cargas próximas de 0 em cada coluna da
matriz. A lógica é que a interpretação é mais fácil quando as correlações variável-fator
são próximas de +1 ou -1, indicando assim uma clara associação positiva ou negativa
entre a variável e o fator; ou próximas de 0, apontando para uma clara falta de
associação.
O critério Varimax tem sido muito bem sucedido como uma abordagem analítica
para a obtenção de uma rotação ortogonal de fatores, sendo ainda um dos mais
utilizados na prática e, em modo geral, produz soluções mais simples que outros
métodos. Tal critério também foi o escolhido para o nosso estudo.
2.2.4. Modelo Fatorial Ortogonal
Seja a variável aleatória observável X, com p componentes, X ~ . (µ,Σ). O
modelo fatorial postula que X é linearmente dependente sobre algumas variáveis
aleatórias não observáveis (latentes) F1, F2,..., Fm (m < p) chamadas fatores comuns (m
fatores extraídos de p existentes) e p fontes de variância aditivas ε1, ε2,..., εp, chamadas
erros, ou, algumas vezes, fatores específicos.
X1 - µ1 = l11F1 + l12F2 + ... + l1mFm + ε1
X2 - µ2 = l21F1 + l22F2 + ... + l2mFm + ε2
…
Xi - µ i = li1F1 + li2F2 + ... + limFm + εi
…
Xp - µp = lp1F1 + lp2F2 + ... + lpmFm + εp
Os coeficientes lij (entradas da Matriz L) são chamados de pesos ou
carregamento e, especificamente, lij é o carregamento na i-ésima variável do j-ésimo
fator, tal que a matriz Lpxm é a matriz de carregamentos (pesos) dos fatores. Importante
destacarmos que o fator específico ou erro εi é associado somente com a i-ésima
variável original Xi.
Os desvios X1 - µ1, X2 - µ2,..., Xp - µp são expressos em termos de p+m variáveis
aleatórias: F1, F2,..., Fm, ε1, ε2,..., εp que não são observáveis. Isto distingue o modelo
fatorial do modelo de regressão multivariada, cujas variáveis independentes (que tem
suas posições ocupadas por F) podem ser observadas.
Agora, assumindo que:
a) E(F) = 0mx1, Cov(F) = E(FF’) = Im.
b) E(ε) = 0px1, Cov(ε) = E(εε’) = Ψpxp.
c) F e ε são independentes, assim Cov(ε,F) = E(ε,F’) = 0pxp, com m=p.
Com estas suposições o relacionamento construído em: (X - µ)px1 = lpxmFmx1 +
εpx1, é chamado de modelo fatorial ortogonal e pode ser escrito como Xpx1 = µ px1 +
lpxmFmx1 + εpx1.
2.2.5. Escores Fatoriais
Os escores fatoriais são medidas compostas de cada fator computadas para cada
indivíduo. Conceitualmente, o escore fatorial representa o grau em que cada indivíduo
tem escore elevado no grupo de itens que têm cargas elevadas em um fator. Assim,
valores mais altos nas variáveis com cargas mais elevadas em um fator resultam em um
escore fatorial superior.
O escore fatorial é computado com base nas cargas fatoriais de todas as variáveis
no fator.
2.2.5.1. Método dos Mínimos Quadrados
Quando se utiliza o método das componentes principais para estimar os
carregamentos é costume estimar os escores fatoriais utilizando o método dos mínimos
quadrados. Desta forma, as variâncias específicas Ψi são consideradas como iguais ou
aproximadamente iguais e os escores são:
ƒj = (L’L)-1L’(xj-x), j = 1, 2, 3,...
3. RESULTADOS OBTIDOS 3.1. ESTUDO DESCRITIVO
EM CONSTRUÇÃO
3.2. ANÁLISE DE CLUSTER
Encerrado o breve estudo descritivo dos nossos dados passamos para a Análise
de Cluster a que foram submetidas todas as 207 Seleções de Futebol Profissional
Masculino filiadas à FIFA foram divididas. As variáveis consideradas nesta Análise
foram:
a) Número de Participações em Copas do Mundo.
b) Número de Títulos da Copa do Mundo.
c) Número de Vice-campeonatos da Copa do Mundo.
d) Número de Títulos Continentais.
e) Número de Vice-campeonatos Continentais.
Através da referida Análise de Cluster, e segundo critérios pré-definidos, as 207
Seleções foram divididas em 05 (cinco) agrupamentos, sendo que cada agrupamento
teve o seguinte número de seleções integrantes:
Agrupamento Número de Membros Porcentagem
01 05 2,42 02 18 8,70 03 10 4,83 04 41 19,81 05 133 64,25
Para que pudéssemos realizar o agrupamento das Seleções em estudo, um
importante critério é o centróide, o qual nada mais é que o ponto médio de cada
agrupamento em cada uma das variáveis em estudo, para melhor ilustrarmos as
diferenciações entre os agrupamentos formados, segue logo abaixo uma tabela contendo
nossos 05 (cinco) agrupamentos e os seus respectivos centróides em cada uma de nossas
variáveis.
Agrupamento Participações em Copa do Mundo 1º Lugar em Copa do Mundo 2º Lugar em Copa do Mundo
1 14,80 3,20 2,00 2 8,22 0,11 0,50 3 5,20 0,00 0,00 4 1,75 0,00 0,00 5 0,16 0,00 0,00
Agrupamento 3º Lugar em Copa do Mundo 4º Lugar em Copa do Mundo 1º Lugar em Copa Continental
1 1,20 1,00 7,80 2 0,55 0,66 0,55 3 0,20 0,00 3,60 4 0,00 0,00 0,80 5 0,00 0,00 0,00
Agrupamento 2º Lugar em Copa Continental
1 6,40 2 0,61 3 3,10 4 0,87 5 0,00
Através de nossa Análise de Cluster, utilizando um procedimento hierárquico
com o método aglomerativo chegamos à divisão de nossas Seleções, ressaltando que
através dos pontos centrais de cada um de nossos “clusters” em suas respectivas
variáveis, podemos determinar quais dos “clusters” apresentam resultados mais
elevados em suas variáveis, e quais os “clusters” que apresentam resultados mais baixos
nas variáveis em estudo. Diante desta situação, realizamos uma pré-classificação das
nossas seleções em 05 (cinco) níveis, sendo que as seleções do nível 01 são as que
apresentam os melhores resultados nas variáveis abrangidas pela Análise feita, e assim
sucessivamente, até o nível 05 que contempla as seleções que apresentam os piores
resultados nas variáveis em questão.
a) Primeiro Agrupamento – Seleções do 1º Nível:
Número Seleção Linha
1 Brasil 1 2 Alemanha 4 3 Itália 5 4 Argentina 8 5 Uruguai 21
b) Segundo Agrupamento – Seleções do 2º Nível:
Número Seleção Linha
6 Espanha 2 7 Holanda 3 8 Rússia 6 9 Inglaterra 7 10 França 9 11 Croácia 10 12 Sérvia 14 13 Portugal 17 14 República Tcheca 22 15 Bulgária 23 16 Turquia 28 17 Polônia 40 18 Suécia 41 19 Eslováquia 42 20 Hungria 43 21 República da Coréia 48 22 Bélgica 62 23 Áustria 68
c) Terceiro Agrupamento – Seleções do 3º Nível:
Número Seleção Linha
24 Estados Unidos 12 25 Austrália 16 26 Paraguai 20 27 Chile 26 28 Camarões 29 29 México 30 30 Egito 33 31 Nigéria 34 32 Gana 35 33 Arábia Saudita 64
d) Quarto Agrupamento – Seleções do 4º Nível:
Número Seleção Linha
34 Grécia 11 35 Suíça 13 36 Dinamarca 15 37 Costa do Marfim 18 38 Escócia 24 39 Israel 25 40 Romênia 27 41 Costa Rica 38 42 Japão 39 43 Colômbia 45 44 Honduras 46 45 Argélia 47 46 Tunísia 49 47 Marrocos 55 48 Guiné 57 49 Mali 58 50 Irã 61 51 Bolívia 63 52 África do Sul 72 53 Uganda 75 54 Líbia 76 55 Zâmbia 77 56 Panamá 78 57 El Salvador 81 58 Senegal 84 59 Peru 89 60 Congo 90 61 Sudão 91 62 República do Congo 97 63 Nova Zelândia 99 64 Iraque 100 65 Guatemala 107 66 República da China 108 67 Haiti 115 68 Kuwait 116 69 Emirados Árabes Unidos 124 70 Etiópia 136 71 Birmânia 147 72 Índia 157 73 Ilhas Salomão 162 74 Tahiti 190
e) Quinto Agrupamento – Seleções do 5º Nível:
Número Seleção Linha
75 Ucrânia 19 76 Gabão 31 77 Irlanda do Norte 32 78 Equador 36 79 República da Irlanda 37 80 Bósnia-Herzegovina 44 81 Noruega 50 82 Burkina Fasso 51 83 Finlândia 52 84 Macedônia 53 85 Venezuela 54 86 Letônia 56 87 Lituânia 59 88 Eslovênia 60 89 Bahrein 65 90 Canadá 66 91 País de Gales 67 92 Jamaica 69 93 Trinidad e Tobago 70 94 Togo 71 95 Chipre 73 96 Bielorrússia 74 97 Uzbequistão 79 98 Omã 80 99 Moçambique 82 100 Benin 83 101 Qatar 85 102 Coréia do Norte 86 103 Moldávia 87 104 Cuba 88 105 Islândia 92 106 Tanzânia 93 107 Albânia 94 108 Síria 95 109 Montenegro 96 110 Gâmbia 98 111 Ilhas Fiji 101 112 Angola 102 113 Geórgia 103 114 Namíbia 104 115 Quênia 105 116 Barbados 106 117 Malauí 109 118 Antígua e Barbuda 110 119 Suriname 111
120 Estônia 112 121 Granada 113 122 Ilha de Cabo Verde 114 123 Tailândia 117 124 Ruanda 118 125 Luxemburgo 119 126 Zimbábue 120 127 Guiana 121 128 Jordânia 122 129 Armênia 123 130 Serra Leoa 125 131 Chad 126 132 Cingapura 127 133 Burundi 128 134 Guiné Equatorial 129 135 Cazaquistão 130 136 Botsuana 131 137 Madagascar 132 138 Níger 133 139 Indonésia 134 140 Hong Kong 135 141 Azerbaijão 137 142 Nova Caledônia 138 143 Nicarágua 139 144 Libéria 140 145 Iêmen 141 146 Vanuatu 142 147 Bermudas 143 148 Vietnã 144 149 Turcomenistão 145 150 Malta 146 151 Líbano 148 152 St. Kitts e Nevis 149 153 Liechtenstein 150 154 São Vicente e Granadinas 151 155 Malásia 152 156 Suazilândia 153 157 Maldivas 154 158 Tadjiquistão 155 159 Sri Lanka 156 160 Filipinas 158 161 Eritréia 159 162 Quirquistão 160 163 Mauritânia 161 164 Ilhas Faroé 163 165 Lesoto 164 166 Antilhas Holandesas 165 167 Porto Rico 166
168 Paquistão 167 169 Somália 168 170 Bangladesh 169 171 Ilhas Caimã 170 172 Laos 171 173 Taipe Chinês 172 174 Camboja 173 175 Samoa 174 176 Mongólia 175 177 Nepal 176 178 Palestina 177 179 Belize 178 180 Seychelles 179 181 Bahamas 180 182 Turks e Caicos 181 183 Brunei Durassalam 182 184 Maurício 183 185 Tonga 184 186 República Dominicana 185 187 Guiné-Bissau 186 188 Guam 187 189 Ilhas Cook 188 190 Djibuti 189 191 Santa Lúcia 191 192 Afeganistão 192 193 Ilhas Virgens Britânicas 193 194 Macau 194 195 Andorra 195 196 Butão 196 197 Dominica 197 198 Aruba 198 199 Timor Leste 199 200 Ilhas Virgens dos EUA 200 201 Comores 201 202 República Centro-africana 202 203 San Marino 203 204 Anguila 204 205 Montserrat 205 206 Samoa Americana 206 207 Papua Nova Guiné 207
A partir da definição dos agrupamentos acima descritos, passamos para a
segunda terceira de nossa análise que é a análise fatorial da forma como vem a seguir.
3.3. ANÁLISE FATORIAL
EM CONSTRUÇÃO
4. CONCLUSÕES
EM CONSTRUÇÃO 5. CONSIDERAÇÕES FINAIS
EM CONSTRUÇÃO