89
Cariotipagem Automática Baseada em Visão Computacional e Classificadores Inteligentes Pedro Filipe Rodrigues Ferraz Dissertação para obtenção do Grau de Mestre em Engenharia Mecânica Júri Presidente: Prof. Hélder Carriço Rodrigues Orientador: Prof. José Alberto de Jesus Borges Co-Orientador: Prof. João Rogério Caldas Pinto Vogal: Prof. Mário António da Silva Neves Ramalho Novembro de 2010

Cariotipagem Automática Baseada em Visão Computacional e ... · vi Abstract The objective of this work is to create an intelligent system to support the karyotype construction,

Embed Size (px)

Citation preview

Cariotipagem Automática Baseada em Visão

Computacional e Classificadores Inteligentes

Pedro Filipe Rodrigues Ferraz

Dissertação para obtenção do Grau de Mestre em

Engenharia Mecânica

Júri

Presidente: Prof. Hélder Carriço Rodrigues

Orientador: Prof. José Alberto de Jesus Borges

Co-Orientador: Prof. João Rogério Caldas Pinto

Vogal: Prof. Mário António da Silva Neves Ramalho

Novembro de 2010

Este trabalho reflecte as ideias dos seus

autores que, eventualmente, poderão não

coincidir com as do Instituto Superior Técnico.

iv

Resumo

Este trabalho tem como objectivo criar um sistema inteligente de apoio à construção do

cariótipo através da classificação automática de cromossomas.

A construção do cariótipo ou cariotipagem faz parte de um tipo de análise realizada em

laboratórios a nível genético, sendo que esta parte do processo resulta num consumo de tempo

elevado em operações repetitivas com pessoas especializadas na área de ciências da vida.

Deste modo, este trabalho recorre a algoritmos e técnicas de processamento de imagem e a

sistemas inteligentes de classificação, nomeadamente Redes Neuronais Artificiais e Lógica Fuzzy, de

modo a que se possa implementar um método de automatizar a construção do cariótipo.

Foram desenvolvidas técnicas de processamento de imagem para descrever alguns dos

descritores, nomeadamente a nível da obtenção do eixo médio do cromossoma. Novos descritores

foram testados, obtendo-se resultados sem se recorrer à localização do centrómero. Compara-se a

performance dos dois tipos de sistemas de classificação testados.

Palavras-Chave: Cariotipagem, Classificação, Redes Neuronais Artificiais, Lógica Fuzzy, Clustering,

Processamento de Imagem.

v

vi

Abstract The objective of this work is to create an intelligent system to support the karyotype

construction, classifying automatically chromosomes.

The karyotype construction or karyotyping, is a part of a type of analysis realized in laboratory

at genetic level. This process part, results in real time consuming of repeated operations with persons

specialized in live science.

Thus, this work uses techniques and algorithms of image processing and intelligent systems of

decision (artificial neural networks and fuzzy logic) to implement a method that can build automatically

the karyotype construction.

Image processing techniques were developed to describe some of the descriptors, particularly

in terms of getting the middle axis of the chromosome. Descriptors were tested, getting results without

resorting to the location of the centromere. The performance of the two classification systems was

tested and compared.

Keywords: Karyotyping, Classification, Artificial Neural Networks, Fuzzy Logic, Clustering, Image

Processing.

vii

viii

Agradecimentos

Gostaria de começar por agradecer ao Professor Caldas Pinto e ao Professor José Borges

pela dedicação, apoio, disponibilidade e motivação na orientação deste trabalho.

Agradeço à Dra. Sílvia Serafim do Hospital de Santa Maria - Centro Hospitalar Lisboa Norte,

EPE pela disponibilização da base de dados crucial para o desenvolvimento deste trabalho.

Agradeço à Dra. Vânia Oliveira do Laboratório Hemato-oncologia - Secção de Citogenética do

Instituto Português de Oncologia de Lisboa Francisco Gentil E.P.E. pela dedicação e disponibilização

para uma descrição de todo o procedimento da análise onde se insere a cariotipagem.

Não posso deixar de agradecer a todos os meus colegas que me acompanharam ao longo do

curso e que me permitiram ultrapassar barreiras importantes apoiando-me sempre que necessário,

em especial ao meu ex-colega Cláudio Silva que jamais esquecerei pela grande força e motivação

que me deu desde os primeiros dias no IST até ao final da sua vida.

Agradeço à Wilma pelo apoio moral e carinho disponibilizados.

Um especial agradecimento para os meus pais e para a minha única irmã pela educação e

grande apoio ao longo de toda a vida.

A todos, um muito obrigado.

ix

Índice Resumo ................................................................................................................................................... iv

Abstract.................................................................................................................................................... vi

Agradecimentos ..................................................................................................................................... viii

Índice ....................................................................................................................................................... ix

Índice de Figuras ..................................................................................................................................... xi

Índice de Tabelas .................................................................................................................................. xiv

Acrónimos ............................................................................................................................................. xvii

Capítulo 1 – Introdução ........................................................................................................................... 1

1.1. Cromossomas.......................................................................................................................... 1

1.2. Cariotipagem, procedimento laboratorial ................................................................................ 2

1.3. Motivação ................................................................................................................................ 5

1.4. Estado da arte ......................................................................................................................... 6

1.5. Algoritmo implementado .......................................................................................................... 8

1.6. Contributos da dissertação .................................................................................................... 10

1.7. Estrutura da dissertação ........................................................................................................ 11

Capítulo 2 – Processamento de Imagem .............................................................................................. 13

2.1. Binarização ............................................................................................................................ 13

2.2. Segmentação......................................................................................................................... 14

2.3. Filtragem ................................................................................................................................ 15

2.4. Extracção de descritores para classificação ......................................................................... 16

2.4.1. Área e Perímetro ................................................................................................................... 16

2.4.2. Eixo Médio ............................................................................................................................. 17

2.4.3. Perfil de largura ..................................................................................................................... 24

2.4.4. Perfil de bandeamento .......................................................................................................... 25

Capítulo 3 – Classificação ..................................................................................................................... 27

3.1. Redes Neuronais Artificiais ................................................................................................... 27

3.2. Lógica Fuzzy.......................................................................................................................... 28

3.3. Abordagem seguida .............................................................................................................. 30

3.4. Descritores utilizados ............................................................................................................ 32

3.4.1 Classificação por tamanho .................................................................................................... 32

3.4.2 Classificação por grupos ....................................................................................................... 32

3.4.3 Classificação por Pares ......................................................................................................... 34

3.5. Normalização dos descritores utilizados ............................................................................... 34

3.6. Critérios utilizados na análise de resultados ......................................................................... 34

Capítulo 4 – Resultados experimentais ................................................................................................. 37

x

4.1. Resultados obtidos com redes neuronais artificiais .............................................................. 37

4.1.1. Classificação por tamanho .................................................................................................... 37

4.1.2. Classificação por grupos dos cromossomas grandes ........................................................... 38

4.1.3. Classificação por grupos dos cromossomas pequenos ........................................................ 40

4.1.4. Classificação por pares do grupo A ...................................................................................... 41

4.1.5. Classificação por pares do grupo B ...................................................................................... 43

4.1.6. Classificação por pares do grupo C, X .................................................................................. 44

4.1.7. Classificação por pares do grupo D ...................................................................................... 47

4.1.8. Classificação por pares do grupo E ...................................................................................... 48

4.1.9. Classificação por pares do grupo F ....................................................................................... 49

4.1.10. Classificação por pares do grupo G, Y .................................................................................. 51

4.2. Resultados obtidos com lógica fuzzy .................................................................................... 53

4.2.1 Classificação por tamanho .................................................................................................... 53

4.2.2 Classificação por grupos dos cromossomas grandes ........................................................... 53

4.2.3 Classificação por grupos dos cromossomas pequenos ........................................................ 54

4.2.4 Classificação por pares do grupo A ...................................................................................... 55

4.2.5 Classificação por pares do grupo B ...................................................................................... 55

4.2.6 Classificação por pares do grupo C,X ................................................................................... 56

4.2.7 Classificação por pares do grupo D ...................................................................................... 57

4.2.8 Classificação por pares do grupo E ...................................................................................... 57

4.2.9 Classificação por pares do grupo F ....................................................................................... 58

4.2.10 Classificação por pares do grupo G, Y .................................................................................. 59

4.3. Comparação da performance dos dois sistemas de classificação: redes neuronais artificiais

e lógica fuzzy ......................................................................................................................................... 59

4.4. Comparação com caso de estudo ......................................................................................... 63

Capítulo 5 – Conclusões e Trabalho Futuro.......................................................................................... 65

5.1. Conclusões ............................................................................................................................ 65

5.2. Trabalho Futuro ..................................................................................................................... 66

Referências ........................................................................................................................................... 69

Anexos ................................................................................................................................................... 71

xi

Índice de Figuras Figura 1 – Exemplo de um cariótipo ....................................................................................................... 1

Figura 2 – Cromossoma (a) metacêntrico, (b) submetacêntrico e (c) acrocêntrico com a indicação da

localização dos respectivos centrómeros. ............................................................................................... 2

Figura 3 – (a) imagem obtida ao microscópio; (b) imagem do cariótipo construído. ............................. 4

Figura 4 - Idiograma representando os perfis de bandeamento e tamanhos relativos dos

cromossomas ideais correspondentes a cada par. ................................................................................. 5

Figura 5 – Diagrama do algoritmo implementado (UML 2.0) ................................................................. 8

Figura 6 – Imagem de um cariótipo proveniente da base de dados utilizada neste trabalho. Note-se

os cruzamentos visíveis nos cromossomas nº 3, 7, 8, 10 e 13. ............................................................. 9

Figura 7 – Imagem original de uma metafase. ..................................................................................... 10

Figura 8 – (a) Histograma da imagem original de 4 cromossomas (o eixo das ordenadas representa o

nível de cinza e o eixo das abcissas a quantidade de pixéis nesse nível), onde as setas indicam os

valores de threshold pelo método de Otsu (198) e inserido manualmente (242); (b) Imagem original de

4 cromossomas; (c) Imagem binária com threshold calculado pelo método de Otsu; (d) Imagem

binária com threshold imposto manualmente........................................................................................ 14

Figura 9 – Diagrama da função Segmentacao (UML 2.0) .................................................................... 15

Figura 10 – (a) Imagem do cromossoma original; (b) Imagem binária; (c) Imagem binária com a

aplicação da função imfill; (d) Imagem binária com a aplicação do filtro de mediana. ................... 16

Figura 11 – (a) Imagem binária pré-processada; (b) Imagem binária após aplicação da função

bwmorph(‘remove’). ............................................................................................................................... 17

Figura 12 – Região de 9 pixéis a analisar para o processo de erosão ................................................ 18

Figura 13 - Diagrama da função VarianteEsqueletizacao (UML 2.0) ................................................... 19

Figura 14 – (a) Esqueleto obtido com a função VarianteEsqueletização; (b) Esqueleto obtido

directamente com a função bwmorph(‘skel’) existente na Image ToolBox do MATLAB®. ......... 20

Figura 15 - Diagrama da função CorteRamificacoes (UML 2.0). ......................................................... 20

Figura 16 – (a) Esqueleto com ramificações; (b) Troço do esqueleto sem ramificações. ................... 21

Figura 17 – Diagrama da função Continuidade (UML 2.0). .................................................................. 22

Figura 18 - Diagrama da função Extra (UML 2.0). ............................................................................... 23

Figura 19 – (a) Esqueleto não extrapolado até às pontas e linha que define os limites do

cromossoma; (b) Esqueleto extrapolado até às pontas, constituindo o eixo médio do cromossoma e

respectiva linha que define os limites do cromossoma. ........................................................................ 24

Figura 20 – (a) função que representa o perfil de largura, onde nas abcissas se encontra a

localização da largura ao longo do eixo médio presente no eixo das ordenadas, ambas medidas em

pixéis; (b) Imagem original do cromossoma ao qual corresponde a função; (c) Perímetro e eixo médio

obtidos a partir do cromossoma representado ao centro. ..................................................................... 24

xii

Figura 21 – (a) função que representa o perfil de bandeamento, onde nas abcissas se encontra a

localização do nível de cinza ao longo do eixo médio presente no eixo das ordenadas. A localização

do valor é apresentada em pixéis e o nível de cinza é apresentado pelo seu valor original, entre 0 e

255 (0 corresponde ao tom preto e 255 ao tom branco); (b) Imagem original do cromossoma ao qual

corresponde a função. ........................................................................................................................... 25

Figura 22 – Esquema de um neurónio artificial .................................................................................... 27

Figura 23 – Funções de activação mais frequentemente utilizadas [16]. ............................................ 27

Figura 24 – Exemplos de funções pertença: (a) Triangular; (b) Trapezoidal; (c) Gaussiana; (d) Em

forma de sino [15]. ................................................................................................................................. 29

Figura 25 – Esquema utilizado para classificação por etapas ............................................................. 30

Figura 26 – Esquema das Entradas e Saídas utilizadas no sistema de classificação para a etapa

classificação por tamanho ..................................................................................................................... 32

Figura 27 – (a) Imagem original do cromossoma; (b) Histograma com os 4 valores utilizados; (c)

Localização do centróide da função que representa o perfil de bandeamento. ................................... 33

Figura 28 - Esquema das Entradas e Saídas utilizadas nas RNA para classificação por grupos ....... 33

Figura 29 – Curvas de convergência do erro médio absoluto (ordenadas) dos dados de treino e dos

dados de validação ao longo das épocas (abcissas) para o treino da RNA na classificação por

tamanho. ................................................................................................................................................ 38

Figura 30 – Curvas de convergência do erro médio absoluto (ordenadas) dos dados de treino e dos

dados de validação ao longo das épocas (abcissas) para o treino da RNA na classificação por grupos

dos cromossomas grandes. .................................................................................................................. 39

Figura 31 - Curvas de convergência do erro médio absoluto (ordenadas) dos dados de treino e dos

dados de validação ao longo das épocas (abcissas) para o treino da RNA na classificação por grupos

dos cromossomas pequenos................................................................................................................. 41

Figura 32 - Curvas de convergência do erro médio absoluto (ordenadas) dos dados de treino e dos

dados de validação ao longo das épocas (abcissas) para o treino da RNA na classificação por pares

do grupo A. ............................................................................................................................................ 42

Figura 33 – (a) Cromossoma pertencente ao par 4; (b) Cromossoma pertencente ao par 5. ............. 43

Figura 34 - Curvas de convergência do erro médio absoluto (ordenadas) dos dados de treino e dos

dados de validação ao longo das épocas (abcissas) para o treino da RNA na classificação por pares

do grupo B. ............................................................................................................................................ 44

Figura 35 – Cromossomas pertencentes aos pares do grupo C (6 a 12) e X ...................................... 45

Figura 36 - Curvas de convergência do erro médio absoluto (ordenadas) dos dados de treino e dos

dados de validação ao longo das épocas (abcissas) para o treino da RNA na classificação por pares

do grupo C, X. ....................................................................................................................................... 46

Figura 37 - Curvas de convergência do erro médio absoluto (ordenadas) dos dados de treino e dos

dados de validação ao longo das épocas (abcissas) para o treino da RNA na classificação por pares

do grupo D. ............................................................................................................................................ 48

xiii

Figura 38 - Curvas de convergência do erro médio absoluto (ordenadas) dos dados de treino e dos

dados de validação ao longo das épocas (abcissas) para o treino da RNA na classificação por pares

do grupo E. ............................................................................................................................................ 49

Figura 39 – (a) Cromossoma pertencente ao par 19; (b) Cromossoma pertencente ao par 20. ......... 50

Figura 40 - Curvas de convergência do erro médio absoluto (ordenadas) dos dados de treino e dos

dados de validação ao longo das épocas (abcissas) para o treino da RNA na classificação por pares

do grupo F. ............................................................................................................................................ 51

Figura 41 - (a) Cromossoma pertencente ao par 21; (b) Cromossoma pertencente ao par 22; (c)

Cromossoma do tipo Y. ......................................................................................................................... 51

Figura 42 - Curvas de convergência do erro médio absoluto (ordenadas) dos dados de treino e dos

dados de validação ao longo das épocas (abcissas) para o treino da RNA na classificação por pares

do grupo G, Y. ....................................................................................................................................... 52

Figura 43 – Evolução dos valores médios dos comprimentos dos cromossomas ao longo dos 23

pares em 32 metafases distintas. O eixo das abcissas representa o valor do par e o eixo das

ordenadas o comprimento do cromossoma normalizado para a metafase entre 0 e 1. ....................... 66

Figura 44 – Exemplo de uma imagem da base de dados utilizada como entrada no algoritmo. ........ 71

Figura 45 – Exemplo da imagem da Figura 44 após ser processada pelo algoritmo, onde se verifica o

eixo médio de cada cromossoma a vermelho e os resultados de classificação para RNA. ................. 72

xiv

Índice de Tabelas

Tabela 1 – Propriedades para classificação dos cromossomas por grupos. ......................................... 4

Tabela 2 – Valores atribuídos às diferentes classes para classificação .............................................. 31

Tabela 3 – Exemplo de matriz de confusão .......................................................................................... 34

Tabela 4 – Propriedades utilizadas na classificação por tamanho com RNA e respectivo erro

associado............................................................................................................................................... 37

Tabela 5 – Propriedades utilizadas na classificação por grupos dos cromossomas grandes com RNAe

respectivo erro associado...................................................................................................................... 39

Tabela 6 – Matriz de confusão na classificação por grupos dos cromossomas grandes com RNA .... 39

Tabela 7 – Propriedades utilizadas na classificação por grupos dos cromossomas pequenos com

RNA e respectivo erro associado .......................................................................................................... 40

Tabela 8 – Matriz de confusão na classificação por grupos dos cromossomas pequenos com RNA. 40

Tabela 9 – Propriedades utilizadas na classificação por pares do grupo A com RNA e respectivo erro

associado............................................................................................................................................... 41

Tabela 10 – Matriz de confusão na classificação por pares do grupo A com RNA.............................. 42

Tabela 11 – Propriedades utilizadas na classificação por pares do grupo B com RNA e respectivo

erro associado ....................................................................................................................................... 43

Tabela 12 – Matriz de confusão na classificação por pares do grupo B com RNA.............................. 44

Tabela 13 – Propriedades utilizadas na classificação por Pares do Grupo C, X com RNA e respectivo

erro e entropia associados .................................................................................................................... 45

Tabela 14 – Matriz de confusão na classificação por Pares do Grupo C,X com RNA ......................... 46

Tabela 15 – Propriedades utilizadas na classificação por pares do grupo D com RNA e respectivo

erro associado ....................................................................................................................................... 47

Tabela 16 – Matriz de confusão na classificação por pares do grupo D com RNA ............................. 47

Tabela 17 – Propriedades utilizadas na classificação por pares do grupo E com RNA e respectivo

erro associado ....................................................................................................................................... 48

Tabela 18 – Matriz de confusão na classificação por pares do grupo E com RNA.............................. 49

Tabela 19 – Propriedades utilizadas na classificação por pares do grupo F com RNA e respectivo erro

associado............................................................................................................................................... 50

Tabela 20 – Matriz de confusão na classificação por pares do grupo F com RNA .............................. 50

Tabela 21 – Propriedades utilizadas na classificação por pares do grupo G,Y com RNA e respectivo

erro associado ....................................................................................................................................... 52

Tabela 22 – Matriz de confusão na classificação por pares do grupo G, Y com RNA ......................... 52

Tabela 23 - Propriedades utilizadas na classificação por tamanho com LF e respectivo erro associado

............................................................................................................................................................... 53

Tabela 24 - Propriedades utilizadas na classificação por grupos dos cromossomas grandes com LF e

respectivo erro associado...................................................................................................................... 53

Tabela 25 - Matriz de confusão na classificação por grupos dos cromossomas grandes com LF ...... 54

xv

Tabela 26 - Propriedades utilizadas na classificação por grupos dos cromossomas pequenos com LF

e respectivo erro associado................................................................................................................... 54

Tabela 27 - Matriz de confusão na classificação por grupos dos cromossomas pequenos com LF ... 54

Tabela 28 - Propriedades utilizadas na classificação por pares do grupo A com LF e respectivo erro

associado............................................................................................................................................... 55

Tabela 29 - Matriz de confusão na classificação por pares do grupo A com LF .................................. 55

Tabela 30 - Propriedades utilizadas na classificação por pares do grupo B com LF e respectivo erro

associado............................................................................................................................................... 55

Tabela 31 - Matriz de confusão na classificação por pares do grupo B com LF .................................. 56

Tabela 32 - Propriedades utilizadas na classificação por pares do grupo C,X com LF e respectivo erro

associado............................................................................................................................................... 56

Tabela 33 - Matriz de confusão na classificação por pares do grupo C, X com LF ............................. 56

Tabela 34 - Propriedades utilizadas na classificação por pares do grupo D com LF e respectivo erro

associado............................................................................................................................................... 57

Tabela 35 - Matriz de confusão na classificação por pares do grupo D com LF .................................. 57

Tabela 36 - Propriedades utilizadas na classificação por pares do grupo E com LF e respectivo erro

associado............................................................................................................................................... 57

Tabela 37 - Matriz de confusão na classificação por pares do grupo E com LF .................................. 58

Tabela 38 - Propriedades utilizadas na classificação por pares do grupo F com LF e respectivo erro

associado............................................................................................................................................... 58

Tabela 39 - Matriz de confusão na classificação por pares do grupo F com LF .................................. 58

Tabela 40 - Propriedades utilizadas na classificação por pares do grupo G, Y com LF e respectivo

erro associado ....................................................................................................................................... 59

Tabela 41 - Matriz de confusão na classificação por pares do grupo G, Y com LF ............................. 59

Tabela 42 – Erros relativos de classificação obtidos com RNA e LF na classificação por grupos dos

cromossomas grandes. ......................................................................................................................... 60

Tabela 43 – Erros relativos de classificação obtidos com RNA e LF na classificação por grupos dos

cromossomas pequenos. ...................................................................................................................... 60

Tabela 44 – Erros relativos de classificação obtidos com RNA e LF na classificação por pares

pertencentes ao grupo A. ...................................................................................................................... 60

Tabela 45 – Erros relativos de classificação obtidos com RNA e LF na classificação por pares

pertencentes ao grupo B. ...................................................................................................................... 61

Tabela 46 – Erros relativos de classificação obtidos com RNA e LF na classificação por pares

pertencentes ao grupo C,X.................................................................................................................... 61

Tabela 47 – Erros relativos de classificação obtidos com RNA e LF na classificação por pares

pertencentes ao grupo D. ...................................................................................................................... 62

Tabela 48 – Erros relativos de classificação obtidos com RNA e LF na classificação por pares

pertencentes ao grupo E. ...................................................................................................................... 62

Tabela 49 – Erros relativos de classificação obtidos com RNA e LF na classificação por pares

pertencentes ao grupo F. ...................................................................................................................... 62

xvi

Tabela 50 – Erros relativos de classificação obtidos com RNA e LF na classificação por pares

pertencentes ao grupo G,Y. .................................................................................................................. 62

Tabela 51 – Erros relativos para cada sistema de classificação obtidos com RNA e LF. ................... 63

Tabela 52 – Comparação de resultados com os resultados obtidos pelo artigo de referência[11] ...... 64

xvii

Acrónimos Os seguintes acrónimos foram usados ao longo deste trabalho.

ADN – Ácido Desoxirribonucleico

UML – Unified Modeling Language

RNA – Rede Neuronal Artificial

LF – Lógica Fuzzy

1

Capítulo 1 – Introdução

1.1. Cromossomas

Os cromossomas são pequenas estruturas que se encontram no núcleo de células

eucarióticas, contendo uma vasta quantidade de informação genética (Ácido Desoxirribonucleico)

acerca do indivíduo do qual provém a célula. Estas estruturas são normalmente, no caso humano,

constituídas por 22 pares assexuados acrescidos de um par XX para os indivíduos de sexo feminino,

ou de um par XY para os de sexo masculino. Nunca se deve descartar a hipótese de existirem mais,

ou menos, do que 2 cromossomas por par, dado que existem doenças que geram estes casos pouco

comuns, como é o caso da trissomia 21 (3 cromossomas presentes no par nº 21). Na Figura 1 pode-

se observar o exemplo de um conjunto de cromossomas (cariótipo) de um indivíduo do sexo feminino,

onde é visível a identificação de cada um dos pares assexuados e de um par sexual XX.

Figura 1 – Exemplo de um cariótipo

2

A nível estrutural, os cromossomas são compostos por uma espiral filamentosa de ADN cuja

densidade ao longo do corpo do cromossoma poderá variar, sendo que existe uma zona

especificamente mais concentrada denominada por centrómero. No caso humano, cada cromossoma

possui um único centrómero sendo a localização deste um dos factores que identificam o tipo de

cromossoma. No que respeita à classificação dos cromossomas pelo seu centrómero distinguem-se

da seguinte forma :

• metacêntricos - possuem o centrómero no meio, dividindo o corpo do cromossoma

em duas partes quase idênticas (ver Figura 2.a).;

• submetacêntricos - têm o centrómero afastado do centro, dividindo o cromossoma em

duas partes com distintos tamanhos (ver Figura 2.b).;

• acrocêntricos - possuem o centrómero muito próximo da extremidade (ver Figura 2.c).

Tal como se pode verificar pela Figura 2, os troços do cromossoma que não constituem o

centrómero são identificados como braço-q (q-arm) no caso do troço de maior comprimento e o

braço-p (p-arm) no caso do troço de menor comprimento. Note-se que no caso do cromossoma

metacêntrico tal facto não é tão evidente pelo facto deste ter o p-arm com um comprimento quase

idêntico ao q-arm.

Figura 2 – Cromossoma (a) metacêntrico, (b) submetacêntrico e (c) acrocêntrico com a indicação da

localização dos respectivos centrómeros.

1.2. Cariotipagem, procedimento laboratorial

A cariotipagem integra-se num tipo específico de análises genéticas realizadas em laboratório

que consiste na ordenação dos cromossomas por pares obtidos numa imagem inicial onde estes

surgem naturalmente desordenados. Este tipo de análises é de extrema importância para detectar

alguns tipos de doenças, nomeadamente doenças genéticas, que desta forma podem ser detectadas,

(a) (b) (c)

q-arm

p-arm

p-arm

q-arm

p-arm

q-arm

3

por exemplo, ainda dentro do ventre materno. Numa primeira fase desta análise, é recolhida uma

amostra que pode ser proveniente da medula óssea, tecidos, tumores ou mesmo do líquido amniótico

no caso dos fetos. Numa segunda fase, esta amostra é colocada em ambiente controlado durante 1 a

5 dias, dependendo da origem desta e das condições em que se desenvolve, dado que permanecerá

em crescimento graças não só ao ambiente mas também ao substrato que é deixado na cultura.

Quando esta cultura se encontra em condições, procede-se a um rebentamento celular de forma a

deixar visível unicamente os cromossomas provenientes dos núcleos dos glóbulos brancos, onde

também se tornam notáveis, mediante uso de alguns químicos, umas bandas designadas por Giemsa

Band ou G-bands que indicam a densidade de material genético ao longo do cromossoma e que

auxiliam na construção do cariótipo.

A cariotipagem começa com a obtenção de diversas imagens ao microscópio dos

cromossomas espalhados ao longo da lâmina, sendo o principal objectivo a organização destes

cromossomas de acordo com um padrão normalizado para que futuramente se possam analisar

adequadamente defeitos estruturais ou números anormais de cromossomas que levarão a diversas

conclusões a nível biológico. A organização dos cromossomas é um processo exclusivamente digital,

ou seja, o cromossoma reais presentes na lâmina não são movidos no acto da cariotipagem,

processando-se somente a(s) imagem(ns) obtida(s). O cariótipo deverá estar organizado por grupos

(Denver Groups) como indicado na Tabela 1 nas posições visíveis da Figura 3 [1]. Nesta figura

também é ilustrado um exemplo da imagem obtida inicialmente ao microscópio (Figura 3.a) e da

imagem do cariótipo processado (Figura 3.b), bem como das G-bands presentes nos cromossomas.

Para a classificação por pares (dentro dos grupos), recorre-se ao perfil de bandeamento,

nomeadamente localizações e intensidades das G-bands.

Uma das referências para a realização da cariotipagem, são os idiogramas, que consistem

numa representação ideal dos cromossomas, respeitando não só os tamanhos relativos mas também

o próprio perfil de bandeamento correspondente a cada par [2]. Encontra-se representado na Figura 4

um exemplo de um ideograma.

4

Tabela 1 – Propriedades para classificação dos cromossomas por grupos [3].

Figura 3 – (a) imagem obtida ao microscópio; (b) imagem do cariótipo construído.

(a) (b)

5

Figura 4 - Idiograma representando os perfis de bandeamento e tamanhos relativos dos

cromossomas ideais correspondentes a cada par [4].

1.3. Motivação A citogenética é uma técnica com elevada relevância para o estudo e diagnóstico de doenças

genéticas, tais como a síndrome de Down e a Leucemia [5].

Através da análise do cariótipo, conseguem-se identificar pelas bandas G, defeitos estruturais

e informação genética relevante [6].

A construção do cariótipo é um trabalho repetitivo e moroso que exige técnicos altamente

especializados na área das ciências da vida. Em alguns tipos de análise, exige-se que se analisem 60

cariótipos para um só indivíduo, o que se reflecte em muitas horas de mão-de-obra dispendiosas a

construir cariótipos para serem analisados posteriormente. É fundamental conseguir reduzir a carga

de trabalho repetitivo na fase de análise, sem que sejam impeditivos factores temporais e

económicos. O facto de se poder passar a analisar mais cariótipos por indivíduo, também irá garantir

um maior grau de fiabilidade das análises.

Em suma, ao se contribuir para que este processo possa ser automatizado, poder-se-á

admitir que aumentará, de certa maneira, a qualidade de vida, não só para os biólogos e pessoas

entregues a este trabalho de rotina, mas também para a população em geral, que mais fácil e

rapidamente poderá beneficiar deste tipo de análises com um menor custo associado. Tornando este

tipo de análises mais frequentes, motiva também novas descobertas a nível genético e à detecção de

doenças de uma forma mais precoce, visto que esta análise pode ser realizada a um indivíduo

mesmo ainda no ventre materno.

6

1.4. Estado da arte A cariotipagem é uma área de investigação que tem suscitado um grande interesse na

comunidade científica nas últimas décadas, onde graças ao desenvolvimento constante a nível

informático nomeadamente a nível de sistemas inteligentes usados para classificação, muitos são os

investigadores que procuram uma solução para automatizar o processo de análise.

Recorrendo a uma rede neuronal para classificação, Cho [7] usou como características de

imagem o tamanho relativo, a localização do centrómero e a distribuição de densidades (G-bands).

No que respeita à classificação, recorreu a uma Rede Neuronal Artificial. O autor obteve um erro de

classificação de 6,25% para uma população de 460 cromossomas. Cho indica ainda neste artigo que

as posições dos centrómeros nos cromossomas acrocêntricos foram inseridas manualmente, dada a

dificuldade na obtenção destes de forma automática.

Badawi et al. [1], comparam três métodos distintos para classificação. Numa fase inicial são

extraídos diversos descritores, entre eles, o perfil de bandeamento (G-bands), o comprimento, a área,

a posição do centrómero e diversas relações directas entre estes principais descritores. No artigo são

comparadas metodologias distintas de modelação: RNA, Sistemas Fuzzy e Match Template. Badawi

concluiu que o método de Match Template é o que apresenta melhor desempenho, embora não se

destaque fortemente dos restantes.

Gajendran et al. [8], focam-se num método para obter o número de cromossomas presentes

numa imagem. É efectuada uma análise às ligações mais delicadas entre regiões na imagem, dado

que podem corresponder a uma região de união de dois cromossomas. Os eixos médios encontrados

são analisados recorrendo a um algoritmo desenvolvido por Gajendran para se obter o número de

cromossomas presentes na imagem. Os erros apresentados dependem da base de dados usada

para teste, estando sempre o erro relativo abaixo dos 6%.

Eskiizmirliler et al. [9], recorreram aos seguintes descritores: área, perfil de bandeamento,

comprimento localização do centrómero e média de níveis de cinza. Para o vector do perfil de

bandeamento, aplicaram uma transformada denominada Discrete Wavelet Transformation para tornar

a análise deste vector mais robusta. No que respeita à classificação, estes autores recorreram a uma

RNA com duas camadas escondidas. Eskiizmirliler et al., concluíram que o método utilizado é bom a

detectar anomalias, embora admitam que os resultados não tenham sido muito satisfatórios.

Emary [10] propõe a utilização de um filtro para o processamento das imagens criado

especialmente para o efeito, indicando que os filtros presentes no MATLAB® são projectados para

tipos de ruído muito específicos, onde normalmente se efectua uma filtragem com base apenas nas

dimensões dos objectos presentes. Este novo filtro visa eliminar corpos estranhos presentes na

imagem que não correspondem a cromossomas, mesmo que estes apresentem um tamanho

considerável relativamente a um cromossoma. Neste artigo também é indicado um método bastante

simples para efectuar o corte dos ramos parasitas da esqueletização obtida onde, basicamente, se

considera por entre as diferentes ramificações de cada esqueleto a que corresponde ao maior

caminho de todos os possíveis, identificando assim o eixo principal de cada cromossoma.

7

Moradi et al. [11] analisam especificamente os cromossomas pertencentes ao grupo E (ver

Tabela 1). Na Classificação foram usados 9 descritores (comprimento, posição relativa do

centrómero, densidade média normalizada e vários parâmetros respeitantes a localizações de bandas

típicas) que serviram para treinar uma RNA do tipo FeedForward com 3 neurónios por camada

escondida. Obteve-se um nível de classificação acima de 95%. Neste artigo foi ainda testada a

possibilidade de se considerarem apenas 6 descritores (posição relativa do centrómero, comprimento

e localizações de bandas típicas) onde se obtiveram os melhores resultados com uma eficiência

acima de 98% mas desta vez recorrendo a uma rede com 7 neurónios por camada escondida.

Legrand et al. [12], tiveram em conta o facto dos cromossomas serem corpos flexíveis, o que

os levou a recorrerem a um algoritmo normalmente utilizado para reconhecimento de voz, designado

por Dynamic Time Warping, para manipular o perfil de bandeamento dos cromossomas. O resultado

deste algoritmo consiste num dos descritores extraídos para além do comprimento e posição do

centrómero. Este artigo apresenta resultados bastante distintos consoante o par que se está a

analisar, revelando-se bastante robusto no par número 1 sendo menos robusto noutros casos, como

por exemplo na classificação do cromossoma Y com um erro de classificação superior a 50%.

Legrand et al. concluíram ainda existir uma grande dificuldade em se tentar obter a localização do

centrómero em cromossomas acrocêntricos e que este método de classificação exige menos treino

que outros métodos mais populares neste tipo de análise.

8

Binarização de imagem

Segmentação

Aplicação de funçõesmorfológicas de fecho efiltro de mediana a cada

cromossomaindiv idualizado

Extrai características deimagem e aloca-as num

v ector

Existem maiscromossomas

individualizados?Sim

Normaliza v ector decaracterísticas

Classifica por tamanho

Não

Classifica por gruposgrandes

Classifica por grupospequenos

Cromossoma grande

Cromossoma pequeno

Classifica por pares dogrupo A

Classifica por pares dogrupo B

Classifica por pares dogrupo C e X

Classifica por pares dogrupo D

Classifica por pares dogrupo E

Classifica por pares dogrupo F

Classifica por pares dogrupo G e Y

Apresenta resultado daclassificação

Processamento de imagem

Sistema de classificação

1.5. Algoritmo implementado O algoritmo implementado neste trabalho consiste em duas partes principais, o

processamento de imagem e a classificação. Na primeira parte, começa-se por binarizar a imagem

original, apresentada em tons de cinza (256 níveis distintos), seguido de um processo de

segmentação, filtragem e posteriormente de extracção de descritores. Na classificação, recorrem-se a

sistemas de classificação independentes para se classificarem os cromossomas. Este algoritmo

encontra-se esquematizado na Figura 5.

Figura 5 – Diagrama do algoritmo implementado (UML 2.0)

Entrada:

- Imagem em escala de cinzentos

de uma metafase com os cromossomas na

orientação correcta sem sobreposições.

Saída:

- Imagem de entrada com indicação

do par a que pertence cada um dos

cromossomas.

9

O algoritmo implementado nesta dissertação considera alguns pressupostos: foram

analisadas imagens provenientes de cariótipos já construídos, uma vez que se pretendem recolher

dados para treinar RNA e sistemas de LF, ou seja, pretendem-se recolher dados de entrada

(descritores) e respectivos dados de saída (grupo e par a que pertence). Um exemplo de uma destas

imagens encontra-se representado pela Figura 6.

Figura 6 – Imagem de um cariótipo proveniente da base de dados utilizada neste trabalho. Note-se

os cruzamentos visíveis nos cromossomas nº 3, 7, 8, 10 e 13.

Estas imagens apresentam pouco nível de ruído e um fundo perfeitamente branco, dado que

já foram manipuladas em laboratório. Um exemplo de uma imagem não manipulada proveniente da

mesma base de dados, encontra-se representada pela Figura 7. Note-se que os cruzamentos

existentes entre cromossomas sobrepostos, acabam por estar presentes na imagem do cariótipo

(Figura 6), dada a impossibilidade de os separar fisicamente. Estes cruzamentos irão exigir uma certa

robustez por parte dos sistemas de classificação na identificação do perfil de bandeamento.

10

Figura 7 – Imagem original de uma metafase.

Neste trabalho pressupõe-se ainda que os cromossomas se encontram na posição vertical.

No que respeita à resolução, estas imagens apresentam 1416 por 1040 pixéis, ou seja, cerca

de 1,47 mega pixéis onde um cromossoma apresenta entre 30 a 300 pixéis de comprimento. A título

de exemplo, encontra-se em anexo uma imagem utilizada no algoritmo e o respectivo resultado final

de classificação.

1.6. Contributos da dissertação Nesta dissertação foram desenvolvidas ferramentas originais para descrever o eixo médio de

um cromossoma que resultaram em novos descritores utilizados para classificação. O método de

extracção das características aqui desenvolvido, permitiu melhorar os resultados de classificação

quando comparados com o artigo tomado como referência [13], conseguindo-se obter bons

resultados sem recorrer à localização do centrómero, embora este seja um dos descritores muito

utilizados [7],[1],[9],[11]. Em [12] é referida a dificuldade sentida em se obter de forma automática a

localização do centrómero, nomeadamente em cromossomas acrocêntricos.

O método de classificação proposto que recorre a diferentes etapas (primeiro por tamanho,

depois por grupos e finalmente por pares) permitiu, na maioria dos casos, recorrer a sistemas de

classificação simples e com resultados relativos satisfatórios para cada uma dessas etapas.

Nesta dissertação recorrem-se a LF e a RNA para os mesmos dados, o que permite, à

semelhança de outros artigos [1], comparar de uma forma directa a performance destes dois

métodos.

11

Em suma, esta dissertação contribui para aperfeiçoar e obter conclusões quanto aos passos

mais relevantes na extracção de descritores e identificação dos mesmos na automatização da

cariotipagem.

1.7. Estrutura da dissertação

Este documento encontra-se estruturado em 5 capítulos onde são abordados os seguintes

assuntos por capítulo:

Capítulo 1 – Introdução: Capítulo introdutório, onde é relatado o enquadramento deste

trabalho, assim como a abordagem seguida e respectivas contribuições. É ainda neste capítulo

apresentado um estado da arte onde é relatado grande parte do que se encontra desenvolvido até à

data neste tema.

Capítulo 2 – Processamento de Imagem: Nesta secção encontram-se descritas abordagens e

ferramentas desenvolvidas e utilizadas nesta dissertação no que respeita a processamento de

imagem.

Capítulo 3 – Classificação: Nesta secção encontram-se descritas abordagens e ferramentas

utilizadas nesta dissertação no que respeita a métodos de classificação utilizados e análise de

resultados.

Capítulo 4 – Resultados experimentais: Fazem parte deste capítulo os resultados obtidos

assim como a comparação destes com um artigo de referência.

Capítulo 5 – Conclusões e Trabalho Futuro: Nesta secção estão descritas as conclusões

finais assim como algumas sugestões de trabalho futuro.

12

13

Capítulo 2 – Processamento de Imagem O processamento de imagem é o ponto de partida para extracção dos descritores utilizados

no processo de classificação. Este capítulo, pretende mostrar de que forma foram concebidas e

utilizadas as ferramentas que fazem a ponte entre uma imagem e a quantificação de todos os

descritores relevantes para a classificação dos cromossomas presentes na imagem.

A primeira abordagem para se obterem os descritores necessários para a classificação passa

por processar a imagem. Numa primeira fase, existe a necessidade de binarizar a imagem por de

forma a facilitar a aplicação dos algoritmos seguintes. Tratando-se de um conjunto de cromossomas

que se pretendem analisar de forma individual, aplica-se um processo de segmentação, onde se

individualiza cada região de interesse. Após a segmentação, obtêm-se imagens independentes para

cada cromossoma que agora podem ser mais facilmente tratados mediante operações morfológicas

de fecho e suavização de contornos para que, deste modo se consigam extrair descritores com a

qualidade necessária para o processo de classificação.

2.1. Binarização A binarização das imagens efectuou-se com um threshold imposto de 0,95, assumindo que os

255 níveis presentes numa imagem se distribuem entre 0 e 1. O valor atribuído ao threshold é um

valor obtido empiricamente revelando uma grande robustez na base de dados aqui utilizada, dado

que estas imagens apresentam um fundo bastante claro com uma grande quantidade de pixéis no

seu nível mais elevado. Foi testada a utilização do método de Otsu [14], no entanto, dadas as

propriedades destas imagens e o facto de se basear no histograma, este método fracassou na

obtenção automática do nível a impor como threshold. O método de Otsu apresenta melhores

resultados para uma imagem cujo fundo apresenta uma variância mais significativa em relação à

distribuição de níveis de cinza, o que não é o caso, tal como se pode observar pelo histograma

apresentado na Figura 8. Na Figura 8 é ainda possível observar um exemplo com a aplicação de um

método manual e do método de Otsu na binarização de uma imagem pertencente à base de dados

aqui utilizada.

14

2.2. Segmentação Após a binarização da imagem do cariótipo vai ser necessário reconhecer e localizar os

diferentes cromossomas presentes na imagem e ao mesmo tempo remover objectos candidatos a

cromossomas mas que o não são. Esta operação corresponde à segmentação da imagem binária,

tendo sido, para o efeito, desenvolvida a função "Segmentacao" descrita na Figura 91. Esta função e

as apresentadas a seguir foram desenvolvidas em MATLAB® e modeladas usando a linguagem de

modelação UML versão 2.0.

Como entradas, esta função recebe uma imagem binária do cariótipo e um factor de tolerância (T)

entre 0 e 1 para filtrar o ruído; como saídas, imagens binárias em separado de cada cromossoma e

respectivas coordenadas na imagem original. Embora seja uma entrada da função, o factor de

tolerância T é um parâmetro constante obtido empiricamente, onde todas as regiões analisadas que

contenham uma área inferior ao valor T admitido são consideradas ruído. 1 A função bwlabel presente no MATLAB® identifica regiões não ligadas entre si numa imagem do tipo binário, atribuindo distintos valores aos pixéis de distintas regiões presentes na imagem.

Figura 8 – (a) Histograma da imagem original de 4 cromossomas (o eixo das ordenadas representa o nível

de cinza e o eixo das abcissas a quantidade de pixéis nesse nível), onde as setas indicam os valores de

threshold pelo método de Otsu (198) e inserido manualmente (242); (b) Imagem original de 4 cromossomas;

(c) Imagem binária com threshold calculado pelo método de Otsu; (d) Imagem binária com threshold imposto

manualmente.

(b) (c) (d)

(a)

15

Aplica bwlabel para distinguirregiões da imagem

Calcula valor t para essa região

Analiza distintas regiões emseparado

t > T ?

Obtém coordenadas emrelação à imagem original

Guarda a região de interesse num nov o ficheiro

Assume-se que se trata deruído e ignora-se a região

Não

Sim

Função: Segmentacao

O valor t calculado na função segmentacao representa a seguinte relação:

� � Á��� �� ��ã� ����������Á��� ����� �� ����

Após a segmentação, obtém-se uma contagem do número de cromossomas encontrados

mediante a quantidade de regiões consideradas anteriormente.

2.3. Filtragem Analisando os cromossomas segmentados, verifica-se que estes ainda podem apresentar

algumas lacunas originadas pelo processo de binarização. Este problema ocorre devido ao facto de

algumas bandas presentes no cromossoma serem muito claras e deste modo estarem abaixo do

threshold imposto. De forma a contornar este problema, aplica-se um algoritmo de enchimento, onde

se preenchem todas as lacunas interiores deixadas na binarização, ou seja, procuram-se regiões

numa imagem binária que contenham pixéis com valor 1 rodeados de pixéis com valor 0 e, caso se

trate de uma região completamente fechada, é automaticamente atribuído valor 0 aos pixéis da região

em análise que continham valor 1. De forma a se poderem eliminar os entalhes periféricos

provocados pela mesma situação descrita acima, e dado que o algoritmo de enchimento apenas

elimina lacunas interiores a uma região fechada, aplica-se um filtro de mediana que suaviza os

contornos dos cromossomas, evitando que estes apresentem uma grande variação ao longo do seu

perímetro e que desta forma não só são eliminados os entalhes originados por algumas bandas mais

Entradas: - Imagem Binária do cariótipo - Factor de Tolerância T Saídas: - Imagens Binárias correspondentes a cada cromossoma - Localização das imagens resultantes na imagem de entrada.

Figura 9 – Diagrama da função Segmentacao (UML 2.0)

16

claras mas também é obtido um eixo médio2 do cromossoma mais bem definido mediante a aplicação

do algoritmo apresentado nesta dissertação. O valor para o tamanho da vizinhança de pixéis a aplicar

neste filtro foi obtido de forma empírica, tendo sido atribuída uma vizinhança de 16 pixéis tendo em

conta as dimensões das regiões binárias que representam os cromossomas, dado que foi este o valor

que mostrou um bom equilíbrio para se obter um contorno de um cromossoma suavizado sem que

este se desviasse muito do perímetro real. A aplicação das operações anteriormente descritas pode

ser observada na Figura 10.

Figura 10 – (a) Imagem do cromossoma original; (b) Imagem binária; (c) Imagem binária com a

aplicação da função imfill; (d) Imagem binária com a aplicação do filtro de mediana.

2.4. Extracção de descritores para classificação

2.4.1. Área e Perímetro A área aqui considerada é a que corresponde, numa imagem binária, à quantidade de pixéis

presentes numa dada região, ou seja, neste caso concreto, será a quantidade de pixéis presentes na

região que define o cromossoma. O perímetro de uma dada região de uma imagem binária, define-se

como o número de pixéis que se encontram na fronteira dessa mesma região.

Para a obtenção do tamanho do perímetro exterior do cromossoma, recorreu-se à função

bwmorph(‘remove’) presente no MATLAB®. Esta função permite que de uma imagem binária com

regiões definidas pelo valor 0, se obtenha uma imagem apenas com os contornos destas regiões

definidos pelo valor 0 ficando a restante imagem definida por pixéis de valor unitário. Após aplicação

desta função, basta inverter a imagem e efectuar um somatório da matriz resultante para se obter um

valor do tamanho do contorno de um cromossoma isolado numa imagem binária e pré-processado

segundo a descrição anterior.

2 O algoritmo para obtenção do eixo médio encontra-se definido no ponto 2.4.2 deste documento.

(a) (b) (c) (d)

17

Para obtenção da área do cromossoma, efectuou-se um somatório da imagem binária inversa

resultante do threshold após a aplicação do filtro descrito na secção 2.3., onde a região que define o

cromossoma apresenta valor 1 e o fundo valor zero.

Na Figura 11 encontra-se ilustrado um exemplo da extracção do perímetro e da área de um

cromossoma.

Figura 11 – (a) Imagem binária pré-processada; (b) Imagem binária após aplicação da função

bwmorph(‘remove’).

2.4.2. Eixo Médio

O eixo médio é a linha que define o centro do cromossoma ao longo de todo o seu comprimento.

Para a obtenção do eixo médio, recorreu-se à imagem binária que define o cromossoma e aplicou-se

uma função de erosão criada especificamente para o efeito, designada por VarianteEsqueletizacao

(ver Figura 13). Esta função promove uma erosão controlada de forma a deixar apenas uma estrutura

que representa o esqueleto de uma imagem binária. Com este tipo de erosão, evita-se o

aparecimento de grande quantidade de ramificações, preservando o mais possível uma linha central

principal única. Como entrada, esta função recebe uma imagem binária, que neste caso será

composta pela região que define o cromossoma a esqueletizar. Como resultado final, obtém-se uma

imagem também do tipo binário onde consta o esqueleto composto por uma ou mais linhas de pixéis

(no caso de existirem ramificações secundárias) com conectividade 8 assegurada. Pela sua

importância passa-se a descrever a seguir os passos mais importantes deste algoritmo.

(a) (b)

Área = 3338 pixéis

Perímetro = 286 pixéis

18

Assumindo que o pixel a analisar será o pixel com coordenadas i,j da imagem I e que a sua

vizinhança é a que se apresenta na Figura 12, os varrimentos efectuados para identificação dos

pixéis a serem eliminados respeitam as seguintes condições:

i) Por linhas, começando no canto superior esquerdo e terminando no canto inferior direito da

imagem:

1. ��, �� � 1 2. �� � 1, �� � 1 3. �� � 1, �� � 0 4. ��, � � 1� � �� � 1, � � 1� � ��, � � 1� � �� � 1, � � 1� � 0

ii) Por colunas, começando no canto superior direito e terminando no canto inferior esquerdo da imagem:

1. ��, �� � 1 2. ��, � � 1� � 1 3. ��, � � 1� � 0 4. �� � 1, � � 1� � �� � 1, �� � �� � 1, � � 1� � �� � 1, �� � 0

iii) Por linhas no sentido inverso ao de i) 1. ��, �� � 1 2. �� � 1, �� � 1 3. �� � 1, �� � 0 4. �� � 1, � � 1� � ��, � � 1� � �� � 1, � � 1� � ��, � � 1� � 0

iv) Por colunas no sentido inverso ao de ii) 1. ��, �� � 1 2. ��, � � 1� � 1 3. ��, � � 1� � 0 4. �� � 1, �� � �� � 1, � � 1� � �� � 1, �� � �� � 1, � � 1� � 0

i-1, j-1 i-1,j i-1,j+1

i,j-1 i,j i,j+1

i+1,j-1 i+1,j i+1,j+1

Figura 12 – Região de 9 pixéis a analisar para o processo de erosão

19

Efectua 4 v arrimentos em 4direcções diferentes e marca os

píxeis que estão dentro dascondições impostas

Elimina todos os píxeismarcados

Aplica as funções: bridge,clean e skel.

Identifica regiõesseparadas

Foram eliminados píxeisno último passo?

As regiões encontradasrepresentam menos de

15% do total?

Os píxeis desta regiãosão eliminados

Sim

SimNão

Não

Função: VarianteEsqueletizacao

A função bridge presente no MATLAB® e aqui utilizada, permite assegurar continuidade para o

caso de regiões na imagem com pixéis com valor 1 que se encontram separados por um único pixel

de valor 0 na região de 8 pixéis vizinhos. A função clean elimina pixéis de valor 1 completamente

rodeados de pixéis de valor 0, atribuindo valor 0 também ao pixel que se encontra isolado, permitindo

assim, eliminar os pixéis que possivelmente terão ficado isolados resultantes do procedimento

anterior. A função skel, que é a função de esqueletização existente na Image ToolBox do

MATLAB®, garante que todas as regiões de pixéis com valor 1 definem linhas com espessura de um

único pixel, dado que a função bridge poderá, eventualmente deixar algumas regiões sem estas

propriedades. O resultado da aplicação da função varianteesqueletização, encontra-se

ilustrado na Figura 14, assim como o resultado que seria obtido se aplicasse simplesmente a função

skel do MATLAB® à imagem binária da região representativa do cromossoma.

Entrada: - Imagem binária da região do cromossoma. Saída: - Imagem binária com o esqueleto da imagem de entrada.

Figura 13 - Diagrama da função VarianteEsqueletizacao (UML 2.0)

20

Identifica as diferentesregiões com v alor 1

Para cada região, analizapíxel por píxel

Elimina todos ospíxeis da v izinhança

Apaga os troçosmais pequenos naregião analizada

O píxel faz parte deuma zona com 3 ou

mais ligações?

Existem mais regiõespara analizar?

Sim

Não

Não

Sim

Figura 14 – (a) Esqueleto obtido com a função VarianteEsqueletização; (b) Esqueleto obtido

directamente com a função bwmorph(‘skel’) existente na Image ToolBox do MATLAB®.

Como resultado desta erosão controlada, surgem, por vezes algumas ramificações do eixo

principal indesejadas, pelo que para eliminá-las se criou a função CorteRamificacoes (ver Figura

15) para efectuar o corte destas ramificações, deixando somente uma linha principal. Esta função

recebe uma imagem binária correspondente ao esqueleto do cromossoma, devolvendo um esqueleto

sem ramos secundários (imagem binária). A título de exemplo, é apresentado na Figura 16 um

esqueleto com ramificações e um esqueleto processado por esta função.

Função: CorteRamificacoes

Entrada: - Imagem do esqueleto do cromossoma (binária) Saída: - Imagem do esqueleto do cromossoma sem ramos secundários (binária)

(a) (b)

Figura 15 - Diagrama da função CorteRamificacoes (UML 2.0).

21

Figura 16 – (a) Esqueleto com ramificações; (b) Troço do esqueleto sem ramificações.

Por forma a se poder garantir a continuidade da linha obtida, desenvolveu-se a função

Continuidade (ver Figura 17) que permite efectuar ligações intermédias no eixo médio, garantindo

que este não se define por troços separados. Esta função recebe a imagem binária de um esqueleto

fragmentado e devolve como resultado um esqueleto contínuo, onde os fragmentos se ligam

mediante segmentos de recta. Numa primeira abordagem, esta função procura pixéis que estejam

dentro das seguintes condições:

i. �, �� � 1

ii. ∑ ∑ �, �� " 2$%&$'$(&

)%&)')(&

Onde i e j representam as coordenadas do pixel a considerar e x�i,j� representa o valor do

pixel nas coordenadas i, j. Assume-se então, que se um pixel está dentro destas condições se trata

de uma extremidade de uma linha definida numa imagem binária, sendo que nesta fase, dadas as

funções aplicadas anteriormente se pode garantir que não existem nestas imagens, pixéis isolados.

Posto isto, são calculadas todas as distâncias euclidianas entres estes pixéis e são atribuídos valores

de várias ordens de grandeza superiores aos valores das distâncias entre pixéis que façam parte do

mesmo troço, para que mais tarde neste algoritmo estes pontos não sejam candidatos a unirem-se.

De seguida, obtém-se o número de ligações a efectuar, tendo em conta a quantidade de

extremidades localizadas anteriormente, para tal, recorre-se à seguinte expressão:

+� � +�2 � 1

Onde Nl é o número de ligações a efectuar e Ne o número de extremidades encontradas.

Deste modo, obtém-se os parâmetros lineares que unem as duas extremidades cuja distância é

mínima e traça-se na imagem binária um segmento de recta entre estes dois pontos. De seguida,

coloca-se um valor de várias ordens de grandeza superior neste valor da distância para que

futuramente não seja considerado. Repete-se o procedimento até que não existam mais ligações Nl a

efectuar.

(a) (b)

22

Identifica e separa asdiferentes regiões

fragmentadas.Localiza as extremidades

Gera matriz de distânciaseuclideanas entre

extremidades

Coloca v alor de v árias ordens degrandeza superior no v alor da

distância entre as extremidades

As extremidadespertencem ao

mesmofragmento?

Obtém número deligações a efectuar

Encontra extremidades cujadistância é mínima e liga-oscom um segmento de recta.

Coloca v alor de v árias ordensde grandeza superior no v alorda distância das extremidades

anteriormente processadas

Existem maisligações aefectuar?

Sim

Não

Não

Sim

Função: Continuidade

Por fim, e de forma a se obter o eixo médio que abrange todo o corpo do cromossoma,

introduziu-se uma função a que se chamou Extra para extrapolar de forma linear o esqueleto obtido

até às extremidades do cromossoma.

A função Extra recebe como entradas uma imagem binária com o esqueleto anteriormente

obtido e uma imagem binária com o perímetro do cromossoma. Esta última entrada servirá como

referência para definir até onde devem ser consideradas as extrapolações. Como saída, esta função

devolve uma imagem binária com o eixo médio do cromossoma, onde as extremidades são uma

extrapolação linear dos pixéis que definem as extremidades da imagem do esqueleto inicial. Esta

função apresenta-se sob forma de diagrama na Figura 18.

Entrada: - Imagem binária de um esqueleto fragmentado ou não fragmentado. Saída: - Imagem binária de um esqueleto contínuo.

Figura 17 – Diagrama da função Continuidade (UML 2.0).

23

Função: Extra

Figura 18 - Diagrama da função Extra (UML 2.0).

Posto isto, obtém-se então o eixo médio do cromossoma que indicará não só o comprimento do

mesmo, dado pelo somatório dos pixéis que definem o eixo, mas também servirá de suporte para a

extracção da largura média obtida pelo perfil de largura (ver Figura 19).

Conta o numero de pixeis da linha que define o esqueleto

Calcula quantos P pixeiscorrespondem a 50% do total de

pixeis da linha que define oesqueleto

Calcula quantos P pixeiscorrespondem a 10% do total de

pixeis da linha que define oesqueleto

O esqueleto e definido pormais de 20 pixeis?

Obtem coordenadas dos P pixeis a contar apartir das extremidades caminhando em

direccao ao centro do esqueleto.

Obtem parametros resultantes dainterpolacao linear destes conjuntos de

coordenadas.

Traça segmentos de recta entre asextremidades e a intersecçao dessesegmentos de recta com o perimetro.

SimNao

Entradas: - Imagem binária do esqueleto. - Imagem binária do perímetro. Saída: - Imagem binária de um esqueleto extrapolado.

24

Figura 19 – (a) Esqueleto não extrapolado até às pontas e linha que define os limites do

cromossoma; (b) Esqueleto extrapolado até às pontas, constituindo o eixo médio do cromossoma e

respectiva linha que define os limites do cromossoma.

2.4.3. Perfil de largura Para se poder caracterizar o cromossoma quanto à sua largura, é necessário recorrer a uma

metodologia para medir a largura em pixéis ao longo de todo o seu comprimento. Para tal, recorreu-

se ao eixo médio e ao perímetro anteriormente obtidos, onde mediante segmentos de recta

ortogonais ao eixo se consegue medir em pixéis, a distância entre as linhas que definem o perímetro.

Os segmentos de recta ortogonais relativamente ao eixo médio, são obtidos através de rectas

ortogonais provenientes de interpolações lineares de conjuntos de 5 pixéis ao longo do eixo. Na

Figura 20 encontra-se um exemplo de um perfil de largura de um cromossoma.

Figura 20 – (a) função que representa o perfil de largura, onde nas abcissas se encontra a

localização da largura ao longo do eixo médio presente no eixo das ordenadas, ambas medidas em

pixéis; (b) Imagem original do cromossoma ao qual corresponde a função; (c) Perímetro e eixo médio

obtidos a partir do cromossoma representado ao centro.

(a) (b)

Largura Média = 26,3 pixéis

Pixéis do eixo

Larg

ura

em p

ixéi

s

(a)

(b)

(c)

25

2.4.4. Perfil de bandeamento Recorrendo aos segmentos de recta normais ao eixo médio obtidos para o ponto 2.4.3. e

analisando a imagem original em tons de cinza nas localizações destes segmentos de recta, permite

obter-se um perfil onde constam os valores médios dos níveis de cinza dos segmentos ao longo do

eixo médio. Um exemplo de um perfil de bandeamento das G-bands de um cromossoma pode ser

visto na Figura 21, onde as setas indicam a localização das bandas mais escuras no cromossoma

que surgem como mínimos locais no gráfico.

Figura 21 – (a) função que representa o perfil de bandeamento, onde nas abcissas se

encontra a localização do nível de cinza ao longo do eixo médio presente no eixo das

ordenadas. A localização do valor é apresentada em pixéis e o nível de cinza é apresentado

pelo seu valor original, entre 0 e 255 (0 corresponde ao tom preto e 255 ao tom branco); (b)

Imagem original do cromossoma ao qual corresponde a função.

Pixéis do eixo médio

Nív

el d

e ci

nza

0 20 40 60 80 100 120 140

220

200

180

160

140

120

100

80

60

40

(a)

(b)

26

27

Capítulo 3 – Classificação Neste capítulo, apresentam-se as características de imagem utilizadas para classificação

assim como os classificadores usados.

3.1. Redes Neuronais Artificiais As Redes Neuronais Artificiais (RNA) são estruturas matemáticas inspiradas no sistema

biológico neuronal, nomeadamente no que respeita ao processamento de sinais ao longo da rede.

Um neurónio artificial é constituído por entradas ponderadas por pesos, um somatório destas

entradas e uma função de activação, tal como apresentado na Figura 22.

As funções de activação /��� são geralmente funções pouco complexas e limitadas no seu

contradomínio. As funções de activação mais frequentes encontram-se ilustradas na Figura 23.

Uma RNA é constituída por diversas camadas de neurónios artificiais. No que respeita à

constituição de uma RNA, pode-se assumir de uma forma elementar que esta é constituída por três

principais regiões: a camada constituída pelos neurónios que recebem os sinais de entrada, a(s)

camada(s) escondida(s) e a camada de neurónios de saídas da rede.

0 � /��� � � 1 2) · )4

)'&

2&

25

24

5

&

4

0

Figura 22 – Esquema de um neurónio artificial

Figura 23 – Funções de activação mais frequentemente utilizadas [16].

28

Uma RNA torna-se útil e funcional graças à sua capacidade de aprendizagem e adaptação.

Esta adaptação faz-se mediante o ajuste dos pesos ωi que por sua vez são ajustados mediante

algoritmos de optimização para adaptação da rede ao sistema pretendido.

O método de aprendizagem de uma RNA pode ser do tipo supervised ou do tipo

unsupervised. No primeiro caso, a RNA é sujeita a uma quantidade de dados de treino constituídos

por valores de entradas e respectivas saídas esperadas, ou seja, os parâmetros da rede adaptam-se

por forma a minimizar a diferença entre as saídas geradas pela rede e as saídas previamente dadas

para dados de entrada específicos. No segundo caso, a RNA é sujeita apenas a dados de entrada,

gerando saídas que identificam de certa forma, propriedades correspondentes aos dados de entrada.

Nesta dissertação, ir-se-á recorrer ao primeiro método, visto que existem ambos os dados, de entrada

e saída [15].

No treino de uma RNA, pode-se recorrer a 3 tipos de dados distintos, treino, teste e validação.

Os dados de treino, tal como o próprio nome indica, são utilizados para treinar a rede, mediante um

ajuste dos pesos de cada neurónio. Os dados de validação, servem para efectuar um ajuste nos

parâmetros do próprio classificador. Os dados de teste, permitem verificar a performance da RNA, ou

seja, permitem testar a rede com um conjunto de dados de entrada sem alterar os seus parâmetros

para que possam ser comparados com os dados de saída esperados [16].

3.2. Lógica Fuzzy

A Lógica Fuzzy (LF) permite identificar uma situação de uma forma mais vaga, permitindo por

exemplo, adjectivar algo recorrendo a um conjunto de valores. A LF também tem sido utilizada como

ferramenta para classificação, uma vez que as suas propriedades permitem flexibilizar descritores

dados por valores concretos mediante funções de pertença e conjuntos de regras que se podem

ajustar a um determinado conjunto de dados de treino.

Pelo facto de este tipo de lógica recorrer a funções de pertença, pode-se assumir que uma

determinada propriedade pertence apenas a uma pequena percentagem de um determinado

conjunto, não tendo que obrigatoriamente pertencer de todo ou não pertencer, assumindo-se assim

que existe um grau de pertença para essa propriedade, grau este dado pela própria função.

Posto isto, um conjunto clássico é dado por exemplo por:

6 � 7 | � 9:

onde b é um valor. Um conjunto fuzzy vem dado por:

6 � 7 , ;<� �| =:

onde ;<� � representa a função pertença da variável x no conjunto A, apresentado valores

normalizados entre 0 e 1, onde 0 indica que não pertence e 1 indica que pertence na totalidade.

29

As funções pertença mais frequentemente utilizadas são as triangulares, trapezoidais,

gaussianas e em forma de sino, podendo apresentar assimetria. Alguns exemplos destas funções

encontram-se representadas na Figura 24.

Figura 24 – Exemplos de funções pertença: (a) Triangular; (b) Trapezoidal; (c) Gaussiana; (d) Em

forma de sino [17].

Num sistema que usa LF, as funções de pertença correspondentes às entradas

(antecedentes), relacionam-se entre si recorrendo a regras de lógica para gerar os chamados

consequentes que após um processo de agregação e desfuzificação3, originam as saídas do sistema.

Todo este processo é vulgarmente denominado por inferência fuzzy.

A lógica fuzzy é vulgarmente utilizada em processos de classificação, recorrendo-se a

métodos de clustering que permitem ajustar os parâmetros do sistema fuzzy por forma a este se

moldar aos dados de treino. Um dos métodos de clustering utilizados é o de Gustafson Kessel, onde

cada cluster é identificado como um ponto central e uma matriz de covariâncias. Enquanto que o

algoritmo fuzzy c-means parte do princípio que cada cluster tem um formato esférico, o algoritmo de

Gustafson Kessel não está restringido a estes limites, podendo identificar clusters elipsoidais.

Considerando fir como o nível de influência do ponto i no cluster r, o centro do cluster Cr e a matriz

de covariância Ar vêm dados por:

BC � ∑ D)CE )4)'&∑ D)CE4)'&

6C � Fdet �IC�J IC(&

3 O processo de desfuzificação baseia-se na passagem de uma variável linguística para um valor real.

(a) (b)

(d) (c)

30

onde:

IC � 1 D)CE� ) � BC�4

)'&� ) � BC�K

onde m é um parâmetro conhecido como fuzzificador e n a quantidade de pontos [18].

3.3. Abordagem seguida

Neste trabalho, à semelhança de Wang et al. [13], recorreram-se a diversos sistemas de

classificação independentes ligados entre si para proporcionar um método de classificação em

árvore. Este sistema de classificação parte de uma primeira classificação por tamanho, onde apenas

se distinguem os cromossomas do tipo grande dos cromossomas do tipo pequeno, sendo que, no

grupo dos cromossomas grandes fazem parte os subgrupos A, B, C e X e no grupo dos

cromossomas pequenos, os subgrupos D, E, F, G e Y. Recorrendo a dois classificadores de forma

independente, obteve-se uma classificação dos subgrupos (A a G, X e Y), sendo um classificador

para os cromossomas que integram o conjunto dos grandes e um outro classificador para os

cromossomas que figuram no grupo dos pequenos, sendo que nesta fase se integra o subgrupo X no

subgrupo C e o subgrupo Y no G, dada a grande semelhança existente entre os cromossomas destes

subgrupos.

Após estas primeiras duas fases de classificação, recorre-se a uma classificação em

separado para cada subgrupo por forma a distinguir os pares que pertencem a cada um destes

subgrupos, tal como ilustrado na Figura 25.

Metafases

Completas

Grandes

Grupo A

Grupo B

Grupo C,X

Grupo D

Grupo E

Grupo F

Grupo G,Y

1 2 3

4 5

6 7 8 9 10 11 12 X

13 14 15

16 17 18

19 20

21 22 Y

Pequenos

Figura 25 – Esquema utilizado para classificação por etapas

31

Por de forma a se poderem classificar as diferentes classes tendo por base etiquetas

numéricas, atribuíram-se valores às mesmas, tal como mostrado na Tabela 2.

Tabela 2 – Valores atribuídos às diferentes classes para classificação

Classificação por Tamanho Classificação por Subgrupos Classificação por Pares Tamanho Valor Grupo Valor Par Valor

Grandes 1

A 1

1 1

2 2

3 3

B 2 4 4

5 5

C 3

6 6

7 7

8 8

9 9

10 10

11 11

12 12

X X 23

Pequenos 0

D 4

13 13

14 14

15 15

E 5

16 16

17 17

18 18

F 6 19 19

20 20

G 7

21 21

22 22

Y Y 24

32

3.4. Descritores utilizados Os descritores escolhidos para classificação aqui aplicados variam consoante o tipo de

classificação que se pretende, já que se trata de efectuar uma classificação por etapas e com

sistemas de classificação independentes.

3.4.1 Classificação por tamanho Para a classificação por tamanho, recorreu-se a um conjunto de descritores unicamente

relacionadas com a geometria apresentada pelo cromossoma. Encontram-se representadas pela

Figura 26 as entradas e saídas utilizadas no sistema de classificação.

Todos os descritores aqui utilizados, foram inicialmente normalizadas entre zero e um para

cada metafase, usando-se como referência o valor máximo para cada característica em cada

metafase. Deste modo, tenta-se que exista uma relação mais próxima entre as diferentes metafases

utilizadas para treino da rede equilibrando-se também a relação existente entre os diferentes

descritores, que sem esta normalização poderiam apresentar diferenças de várias ordens de

grandeza.

3.4.2 Classificação por grupos

Na classificação por grupos consideraram-se descritores relacionados não só com a estrutura

dos cromossomas, mas também com o perfil de bandeamento. Foi extraído um histograma

proveniente dos níveis de cinza presentes na imagem original do cromossoma que por sua vez se

discretizou dos 255 níveis para apenas 4. A informação relativa ao histograma foi utilizada recorrendo

a 4 entradas na rede neuronal, onde cada uma das 4 simboliza a quantidade de pixéis contida na

respectiva classe do nível. Na classificação por grupos recorreu-se ainda a 15 níveis médios de cinza,

provenientes de 15 regiões distintas do cromossoma definidas como sendo 15 regiões equidistantes

ao longo do seu eixo médio. Respeitando ainda a descritores relacionados com o bandeamento,

Figura 26 – Esquema das Entradas e Saídas utilizadas no sistema de classificação para a

etapa classificação por tamanho

Cla

ssifi

cado

r Tamanho:

1 – Grande

0 – Pequeno

Área

Comprimento

Perímetro

Comprimento/Largura Média

33

recorreu-se ao cálculo da localização do centróide do perfil de bandeamento, ou seja, indica a

localização do ponto em que a área da função que representa o perfil de bandeamento é igual tanto à

sua esquerda como à sua direita (ver Figura 27 (c)). No que respeita às saídas dos classificadores,

são identificadas por número de 1 a 3 para o caso do sistema de classificação para grupos dos

cromossomas anteriormente classificados como sendo grandes e de 4 a 7 para grupos dos

cromossomas anteriormente classificados como sendo pequenos, tal como ilustrado pela Figura 28.

De uma forma esquemática, as entradas e saídas utilizadas neste classificador são apresentadas na

Figura 28.

Figura 28 - Esquema das Entradas e Saídas utilizadas nas RNA para classificação por

grupos

Figura 27 – (a) Imagem original do cromossoma; (b) Histograma com os 4 valores utilizados; (c)

Localização do centróide da função que representa o perfil de bandeamento.

(a) (b) (c)

Comprimento

Largura

Perímetro

Área

Centróide

1º valor do histograma

2º valor do histograma

3º valor do histograma

4º valor do histograma

Nível médio de cinza 1

Nível médio de cinza 2

Nível médio de cinza …

Nível médio de cinza 14

Nível médio de cinza 15

Cla

ssifi

cado

r

Grupo:

1 – A

2 – B

3 – C, X

Ou

Grupo:

4 - D

5 - E

6 - F

7 – G, Y

60

50

40

30

20

10

0

220

200

180

160

140

120

100

80

60

40 1 2 3 4 0 20 40 60 80 100 120 140

34

3.4.3 Classificação por Pares No que respeita à classificação por pares, recorreram-se exactamente aos mesmos

descritores utilizados para a classificação por Subgrupos descritas no ponto 3.4.2.

3.5. Normalização dos descritores utilizados Todos os valores dos descritores são normalizados entre 0 e 1, levando a que o sistema de

classificação impute a mesma importância a cada descritor. Esta normalização é efectuada apenas

no final da extracção de todos os descritores de uma metafase completa. Deste modo, o valor do

descritor é 1 para o cromossoma que maior valor tem atribuído a esse descritor dentro do conjunto

dos cromossomas da metafase, e 0 no caso contrário. Por exemplo, o cromossoma mais comprido

surgirá com um valor de comprimento igual a 1, ao passo que o cromossoma mais curto de toda a

metafase surgirá com valor nulo.

3.6. Critérios utilizados na análise de resultados Para que se pudessem comparar e analisar os resultados de classificação, recorreu-se a

matrizes de confusão.

Nas matrizes de confusão, as linhas representam os valores reais referentes a um conjunto

de descritores injectados no sistema de classificação, ao passo que as colunas representam os

resultados provenientes do sistema de classificação. Com estas matrizes, é possível analisar os

resultados de uma forma qualitativa através da observação da sua diagonal principal e da respectiva

vizinhança. Quanto maior for a quantidade de resultados representados fora da diagonal principal e

quanto maior for a sua distância à mesma, pior será o resultado de classificação.

A título de exemplo, apresenta-se na Tabela 3 uma matriz de confusão. Neste exemplo

podem-se identificar 3 categorias a classificar: A, B e C. Por colunas, encontram-se os resultados

provenientes de um sistema de classificação que se está a testar e por linhas os resultados reais

conhecidos. Na primeira linha testa-se a classificação para A onde 4 As foram correctamente

classificados como sendo A e apenas um A foi classificado como B. Na última linha pode-se ler que 2

Cs foram erradamente classificados como A e nenhum C foi correctamente classificado como tal.

Analisando por colunas, tome-se como exemplo a primeira coluna, onde se verifica que o sistema de

classificação classificou 4 As correctamente e classificou de forma errada 2 Cs como sendo A.

Tabela 3 – Exemplo de matriz de confusão

Classificado como A Classificado como B Classificado como C

A real 4 1 0

B real 0 5 0

C real 2 0 0

35

Na perspectiva de se obter uma análise quantitativa, recorreu-se ao cálculo de valores de erro

relativos, dado que estes permitem efectuar comparações mais directas entre conjuntos de resultados

com dimensões distintas. O erro relativo vem assim dado por:

� � N�� ����� �� O����PP���P ��� O��PPDO���PN�� ����� ����� �� O����PP���P ��P����P

36

37

Capítulo 4 – Resultados experimentais Neste capítulo são apresentados os resultados obtidos neste trabalho assim como uma

comparação com os resultados obtidos por Xingwei Wang et. al. [13] que recorreu a uma metodologia

semelhante de classificação.

4.1. Resultados obtidos com redes neuronais artificiais Os resultados apresentados nos pontos seguintes foram alcançados mediante o treino de

diversas arquitecturas de redes neuronais artificiais para cada caso. Inicialmente, foram obtidos

vários resultados para tipos de redes mais simples, com uma só camada escondida e um único

neurónio, fazendo-se variar a função de activação, os valores dos pesos iniciais (inicializados de

forma aleatória) e as quantidades de dados utilizados para treino, teste e validação. Posteriormente,

foram-se adicionando camadas escondidas e neurónios por camada, até ao ponto em que o erro não

apresentasse uma melhoria significativa.

4.1.1. Classificação por tamanho Na classificação por tamanho, foram obtidos resultados satisfatórios recorrendo-se a uma

arquitectura de rede relativamente simples. Neste caso, são utilizados poucos descritores e o tipo de

classificação incide num resultado binário. Os dados desta rede encontram-se apresentados na

Tabela 4.

Camadas de Neurónios 2

Quantidade de neurónios utilizados na 1ª camada 2 Quantidade de neurónios utilizados na 2ª camada 1

Funções de activação utilizadas na 1ª camada Tansig Funções de activação utilizadas na 2ª camada Purelin

Quantidade de cromossomas utilizados para treino 966 Quantidade de cromossomas utilizados para teste 322

Quantidade de cromossomas utilizados para validação 138

Função de Treino Levenberg-Marquardt Backpropagation

Erro relativo de classificação dos dados de teste (%) 1,2

Apenas se registaram 4 falhas, onde dois cromossomas pertencentes ao par número 15 e

outros dois cromossomas pertencentes ao par número 14 foram classificados como grandes de forma

Tabela 4 – Propriedades utilizadas na classificação por tamanho com RNA e respectivo erro

associado

38

errada. Na Figura 29 é possível analisar as curvas de convergência dos dados de teste e validação

ao longo do treino da RNA.

Figura 29 – Curvas de convergência do erro médio absoluto (ordenadas) dos dados de treino e dos

dados de validação ao longo das épocas (abcissas) para o treino da RNA na classificação por

tamanho.

4.1.2. Classificação por grupos dos cromossomas

grandes

A classificação por grupos dos cromossomas grandes implica classificar os cromossomas

anteriormente classificados como sendo grandes, pelos grupos A, B, C ou X.

A arquitectura da RNA que apresentou melhores resultados para este caso é um pouco mais

complexa quando comparada com as restantes RNA. Analisando a Tabela 5 e a Tabela 6 pode-se

concluir que grande parte dos quase 5% de erro relativo nesta classificação se deve a uma maior

dificuldade em distinguir os cromossomas do grupo B face aos do grupo C e X. Na Figura 30 é

possível observar o ponto em que a curva de convergência dos dados de treino e a curva de

convergência dos dados de validação começam a divergir.

1 2 3 4 5 6 70

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

Épocas de treino

Err

o m

édio

abs

olut

o

Treino

Validação

39

Camadas de Neurónios 3

Quantidade de neurónios utilizados na 1ª camada 10 Quantidade de neurónios utilizados na 2ª camada 10 Quantidade de neurónios utilizados na 3ª camada 1

Funções de activação utilizadas na 1ª camada Tansig Funções de activação utilizadas na 2ª camada Tansig Funções de activação utilizadas na 3ª camada Purelin

Quantidade de cromossomas utilizados para treino 561 Quantidade de cromossomas utilizados para teste 162

Quantidade de cromossomas utilizados para validação 96

Função de Treino Levenberg-Marquardt Backpropagation

Erro relativo de classificação dos dados de teste (%) 4,9

Resultados da Rede Erro(%)

A B C,X

Rea

l

A 40 1 1 4,76

B - 24 - 0,00

C,X 1 5 90 6,25

Figura 30 – Curvas de convergência do erro médio absoluto (ordenadas) dos dados de treino e dos

dados de validação ao longo das épocas (abcissas) para o treino da RNA na classificação por grupos

dos cromossomas grandes.

0 2 4 6 8 10 12 140

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

Tabela 5 – Propriedades utilizadas na classificação por grupos dos cromossomas grandes com RNA

e respectivo erro associado

Tabela 6 – Matriz de confusão na classificação por grupos dos cromossomas grandes com RNA

Épocas de treino

Err

o m

édio

abs

olut

o

Treino

Validação

40

4.1.3. Classificação por grupos dos cromossomas

pequenos

Na classificação por grupos dos cromossomas pequenos, tem-se como objectivo conseguir

distinguir de entre os cromossomas anteriormente classificados como sendo pequenos, os que

pertencem aos grupos D, E, F e G,Y.

A rede que originou melhor resultado foi uma rede com uma arquitectura mais simples que no

caso anterior, tal como mostra a Tabela 7 em comparação com a Tabela 5, onde se verifica a

existência de menos camadas de neurónios e da utilização de menos neurónios por camada. O erro

relativo é mais elevado que no caso do ponto 4.1.2., verificando-se que uma rede mais complexa não

resultou numa melhoria significativa dos resultados que justificasse o seu uso. Através da Tabela 8,

pode-se concluir que o grupo que originou maior erro na classificação foi o F. Na Figura 31 verifica-se

uma rápida convergência no treino da RNA.

Camadas de Neurónios 2

Quantidade de neurónios utilizados na 1ª camada 3 Quantidade de neurónios utilizados na 2ª camada 1

Funções de activação utilizadas na 1ª camada Tansig Funções de activação utilizadas na 2ª camada Purelin

Quantidade de cromossomas utilizados para treino 458 Quantidade de cromossomas utilizados para teste 131

Quantidade de cromossomas utilizados para validação 65

Função de Treino Levenberg-Marquardt Backpropagation

Erro relativo de classificação dos dados de teste (%) 13,7

Resultados da Rede Erro(%)

D E F G,Y

Rea

l

D 36 - - - 0,00

E 1 40 - - 2,44

F - 7 17 4 39,29

G,Y - 2 4 20 23,08

Tabela 7 – Propriedades utilizadas na classificação por grupos dos cromossomas pequenos com

RNA e respectivo erro associado

Tabela 8 – Matriz de confusão na classificação por grupos dos cromossomas pequenos com RNA.

41

Figura 31 - Curvas de convergência do erro médio absoluto (ordenadas) dos dados de treino e dos

dados de validação ao longo das épocas (abcissas) para o treino da RNA na classificação por grupos

dos cromossomas pequenos.

4.1.4. Classificação por pares do grupo A A classificação dos pares do grupo A implica distinguir se um cromossoma pertence ao par 1,

2 ou 3. Embora a rede atribuída neste ponto contenha apenas 2 camadas de neurónios, verifica-se

que a primeira camada apresenta 14 neurónios (ver Tabela 9), o que se traduz nalguma

complexidade face às camadas de neurónios das restantes RNA, existindo apenas um caso onde se

utilizam 16 neurónios por camada (ponto 4.1.6.). Os resultados desta classificação são satisfatórios,

com apenas uma falha nos dados de teste (ver Tabela 10). A Figura 32 apresenta uma convergência

dos dados no final da 6ª época de treino, onde também é notável uma divergência entre os dados de

treino e validação a partir desta época.

Camadas de Neurónios 2

Quantidade de neurónios utilizados na 1ª camada 14 Quantidade de neurónios utilizados na 2ª camada 1

Funções de activação utilizadas na 1ª camada Tansig Funções de activação utilizadas na 2ª camada Purelin

Quantidade de cromossomas utilizados para treino 134 Quantidade de cromossomas utilizados para teste 39

Quantidade de cromossomas utilizados para validação 19

Função de Treino Levenberg-Marquardt Backpropagation

Erro relativo de classificação dos dados de teste (%) 2,6

0 2 4 6 8 10 12 140

1

2

3

4

5

6

Tabela 9 – Propriedades utilizadas na classificação por pares do grupo A com RNA e respectivo erro

associado

Épocas de treino

Err

o m

édio

abs

olut

o

Treino

Validação

42

Resultados da Rede Erro (%)

1 2 3

Rea

l 1 12 - - 0,00

2 - 14 - 0,00

3 - 1 12 7,69

Figura 32 - Curvas de convergência do erro médio absoluto (ordenadas) dos dados de treino e dos

dados de validação ao longo das épocas (abcissas) para o treino da RNA na classificação por pares

do grupo A.

0 2 4 6 8 10 120

0.5

1

1.5

2

2.5

3

Tabela 10 – Matriz de confusão na classificação por pares do grupo A com RNA.

Épocas de treino

Err

o m

édio

abs

olut

o

Treino

Validação

43

4.1.5. Classificação por pares do grupo B Neste ponto, pretende-se apenas distinguir os cromossomas pertencentes ao par 4 do par 5,

pelo que a RNA utilizada, embora apresente 3 camadas de neurónios, apresenta um máximos de 2

neurónios por camada, tal como se pode constatar pela Tabela 11. Tanto a Tabela 11 como a Tabela

12 apresentam um resultado isento de falhas. Na Figura 34 verifica-se uma rápida convergência até à

segunda época de treino, sendo que após este ponto, os dados continuam a convergir lentamente até

que os dados de treino acabam por cruzar os dados de validação na 6ª época. O bom resultado

obtido neste classificador pode ser explicado graças ao facto de não só se estarem a distinguir dois

tipos de cromossomas, mas também pela diferença existente entre estes a nível de perfil de

bandeamento. Relembre-se que dos 24 descritores utilizados para a classificação dos cromossomas

por pares, 20 estão relacionados com o perfil de bandeamento. Na Figura 33 são apresentados dois

cromossomas, um correspondente ao par 4 e outro ao par 5, de onde se podem identificar diferenças

significativas no perfil de bandeamento. Note-se por exemplo que no caso do cromossoma

correspondente ao par 5, apenas são visíveis duas bandas mais escuras perto dos extremos, ao

passo que no cromossoma correspondente ao par 4, estão distribuídas 4 bandas escuras ao longo do

cromossoma.

Figura 33 – (a) Cromossoma pertencente ao par 4; (b) Cromossoma pertencente ao par 5.

Camadas de Neurónios 3

Quantidade de neurónios utilizados na 1ª camada 2 Quantidade de neurónios utilizados na 2ª camada 2 Quantidade de neurónios utilizados na 3ª camada 1

Funções de activação utilizadas na 1ª camada Tansig Funções de activação utilizadas na 2ª camada Tansig Funções de activação utilizadas na 3ª camada Purelin

Quantidade de cromossomas utilizados para treino 90 Quantidade de cromossomas utilizados para teste 25

Quantidade de cromossomas utilizados para validação 13

Função de Treino Levenberg-Marquardt Backpropagation

Erro relativo de classificação dos dados de teste (%) 0,0

Tabela 11 – Propriedades utilizadas na classificação por pares do grupo B com RNA e respectivo erro

associado

(a) (b)

44

Resultados da Rede Erro (%)

4 5

Rea

l 4 12 - 0,00

5 - 13 0,00

Figura 34 - Curvas de convergência do erro médio absoluto (ordenadas) dos dados de treino e dos

dados de validação ao longo das épocas (abcissas) para o treino da RNA na classificação por pares

do grupo B.

4.1.6. Classificação por pares do grupo C, X

A classificação por pares do grupo C e X, pretende distinguir cromossomas que pertençam

aos pares 6, 7, 8, 9, 10, 11 e X. Talvez devido à grande quantidade de classes para classificar, assim

como à semelhança visível existente nos cromossomas pertencentes a estes pares, se tenha obtido

não só um erro de classificação considerável, como para obter tal resultado se tenha recorrido à RNA

mais complexa de todo o sistema de classificação (ver Tabela 13). Analisando a Tabela 14, pode-se

verificar que nenhum cromossoma do tipo X foi bem classificado e que, embora a diagonal principal

0 2 4 6 8 10 120

0.5

1

1.5

2

2.5

3

3.5

4

4.5

5

Tabela 12 – Matriz de confusão na classificação por pares do grupo B com RNA

Épocas de treino

Err

o m

édio

abs

olut

o

Treino

Validação

45

mostre alguns bons resultados, a dispersão desta matriz é considerável. As curvas de convergência

dos dados de treino e validação apresentam uma convergência muito lenta quando comparada com

os restantes casos de classificação presentes neste relatório. Estas curvas são apresentadas na

Figura 36. Na Figura 35, é possível verificar uma amostra de cada par dos cromossomas a classificar

para o grupo C,X.

Figura 35 – Cromossomas pertencentes aos pares do grupo C (6 a 12) e X

Camadas de Neurónios 3

Quantidade de neurónios utilizados na 1ª camada 16 Quantidade de neurónios utilizados na 2ª camada 16 Quantidade de neurónios utilizados na 3ª camada 1

Funções de activação utilizadas na 1ª camada Tansig Funções de activação utilizadas na 2ª camada Tansig Funções de activação utilizadas na 3ª camada Purelin

Quantidade de cromossomas utilizados para treino 350 Quantidade de cromossomas utilizados para teste 75

Quantidade de cromossomas utilizados para validação 73

Função de Treino Levenberg-Marquardt Backpropagation

Erro relativo de classificação dos dados de teste (%) 28,0

Tabela 13 – Propriedades utilizadas na classificação por Pares do Grupo C, X com RNA e respectivo

erro e entropia associados

6 7 8 9 10 11 12 X

46

Resultados da Rede Erro (%)

6 7 8 9 10 11 12 X

Rea

l 6 6 2 1 - - - 1 - 40,00

7 - 9 - 1 - - - - 10,00

8 - 2 4 2 1 - - - 55,56

9 - - - 5 1 1 1 - 37,50

10 - - 1 - 7 1 - - 22,22

11 - - - - - 8 - 2 20,00

12 - - - - - 1 9 - 10,00

X - - 1 - 1 1 - 6 33,33

Figura 36 - Curvas de convergência do erro médio absoluto (ordenadas) dos dados de treino e dos

dados de validação ao longo das épocas (abcissas) para o treino da RNA na classificação por pares

do grupo C, X.

0 100 200 300 400 500 600 700 800 900 10000

2

4

6

8

10

12

Tabela 14 – Matriz de confusão na classificação por Pares do Grupo C,X com RNA

Épocas de treino

Err

o m

édio

abs

olut

o

Treino

Validação

47

4.1.7. Classificação por pares do grupo D Na classificação dos pares pertencentes ao grupo D (pares 13, 14 e 15) pode-se concluir,

analisando a Tabela 15 que mesmo recorrendo a uma RNA com uma estrutura simples se obtiveram

bons resultados. É visível pela Tabela 16 uma matriz de confusão com pouca dispersão em relação à

diagonal. A Figura 37 apresenta uma convergência dos dados de treino e validação rápida e clara, o

que poderá justificar o bom resultado obtido.

Camadas de Neurónios 2

Quantidade de neurónios utilizados na 1ª camada 2 Quantidade de neurónios utilizados na 2ª camada 1

Funções de activação utilizadas na 1ª camada Tansig Funções de activação utilizadas na 2ª camada Purelin

Quantidade de cromossomas utilizados para treino 134 Quantidade de cromossomas utilizados para teste 39

Quantidade de cromossomas utilizados para validação 19

Função de Treino Levenberg-Marquardt Backpropagation

Erro relativo de classificação dos dados de teste (%) 5,1

Resultados da Rede Erro (%)

13 14 15

Rea

l

13 12 - - 0,00

14 - 14 - 0,00

15 2 - 11 15,38

Tabela 15 – Propriedades utilizadas na classificação por pares do grupo D com RNA e respectivo erro

associado

Tabela 16 – Matriz de confusão na classificação por pares do grupo D com RNA

48

Figura 37 - Curvas de convergência do erro médio absoluto (ordenadas) dos dados de treino e dos

dados de validação ao longo das épocas (abcissas) para o treino da RNA na classificação por pares

do grupo D.

4.1.8. Classificação por pares do grupo E

Na classificação por pares do grupo E, tem-se como objectivo distinguir cromossomas

pertencentes aos pares 16, 17 e 18. Pela Tabela 17 e Tabela 18, pode-se verificar que o erro obtido

não foi muito significativo. A Figura 38 apresenta as curvas de convergência dos dados de treino e

validação para este caso.

Camadas de Neurónios 3

Quantidade de neurónios utilizados na 1ª camada 8 Quantidade de neurónios utilizados na 2ª camada 4 Quantidade de neurónios utilizados na 3ª camada 1

Funções de activação utilizadas na 1ª camada Tansig Funções de activação utilizadas na 2ª camada Tansig Funções de activação utilizadas na 3ª camada Purelin

Quantidade de cromossomas utilizados para treino 134 Quantidade de cromossomas utilizados para teste 39

Quantidade de cromossomas utilizados para validação 19

Função de Treino Levenberg-Marquardt Backpropagation

Erro relativo de classificação dos dados de teste (%) 5,1

0 2 4 6 8 10 12 14 160

5

10

15

Tabela 17 – Propriedades utilizadas na classificação por pares do grupo E com RNA e respectivo erro

associado

Épocas de treino

Err

o m

édio

abs

olut

o

Treino

Validação

49

Resultados da Rede Erro (%)

16 17 18

Rea

l

16 12 - - 0,00

17 - 14 - 0,00

18 1 1 11 15,38

Figura 38 - Curvas de convergência do erro médio absoluto (ordenadas) dos dados de treino e dos

dados de validação ao longo das épocas (abcissas) para o treino da RNA na classificação por pares

do grupo E.

4.1.9. Classificação por pares do grupo F

Na classificação por pares do grupo F, onde se pretendem distinguir os cromossomas

pertencentes aos pares 19 e 20, à semelhança da classificação por pares do Grupo G,Y, obteve-se

um erro nulo para os dados de teste. Pela Tabela 19 pode-se verificar que a estrutura da RNA aqui

utilizada é bastante simples, tendo em conta o bom desempenho da RNA. Na Tabela 20 confirma-se

uma dispersão nula, tendo em conta que o erro é nulo também. A Figura 40 apresenta uma

convergência dos dados de treino e validação claramente rápida, o que pode revelar em conjunto

com a quantidade de neurónios e os resultados aqui obtidos numa classificação simples para uma

RNA. Na Figura 39 é visível a diferença existente no perfil de bandeamento entre os cromossomas

0 2 4 6 8 10 12 14 16 180

2

4

6

8

10

12

14

16

Tabela 18 – Matriz de confusão na classificação por pares do grupo E com RNA

Épocas de treino

Err

o m

édio

abs

olut

o

Treino

Validação

50

pertencentes ao par 19 e 20. Embora ambos apresentem uma região mas escura na zona central do

corpo do cromossoma, o cromossoma pertencente ao par 20 apresenta uma maior quantidade de

riscas escuras ao passo que o cromossoma pertencente ao par 19 apenas apresenta a risca central.

Figura 39 – (a) Cromossoma pertencente ao par 19; (b) Cromossoma pertencente ao par 20.

Camadas de Neurónios 2

Quantidade de neurónios utilizados na 1ª camada 1 Quantidade de neurónios utilizados na 2ª camada 1

Funções de activação utilizadas na 1ª camada Tansig Funções de activação utilizadas na 3ª camada Purelin

Quantidade de cromossomas utilizados para treino 60 Quantidade de cromossomas utilizados para teste 15

Quantidade de cromossomas utilizados para validação 5

Função de Treino Levenberg-Marquardt Backpropagation

Erro relativo de classificação dos dados de teste (%) 0,0

Resultados da Rede Erro (%)

19 20

Rea

l 19 8 - 0,00

20 - 7 0,00

Tabela 19 – Propriedades utilizadas na classificação por pares do grupo F com RNA e respectivo erro

associado

Tabela 20 – Matriz de confusão na classificação por pares do grupo F com RNA

(a) (b)

51

Figura 40 - Curvas de convergência do erro médio absoluto (ordenadas) dos dados de treino e dos

dados de validação ao longo das épocas (abcissas) para o treino da RNA na classificação por pares

do grupo F.

4.1.10. Classificação por pares do grupo G, Y Neste ponto pretendem-se distinguir cromossomas pertencentes aos pares 21, 22 e Y. Nos

resultados apresentados pela Tabela 21, verifica-se a ausência de cromossomas mal classificados

(ver Tabela 22). Tal facto se deve ao facto de estes cromossomas apresentarem descritores muito

distintos, nomeadamente a nível do perfil de bandeamento (ver Figura 41). Analogamente ao caso do

ponto 4.1.9., a Figura 42 apresenta uma convergência rápida dos dados de treino e validação para

este caso.

Figura 41 - (a) Cromossoma pertencente ao par 21; (b) Cromossoma pertencente ao par 22; (c)

Cromossoma do tipo Y.

1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 60

5

10

15

20

25

Épocas de treino

Err

o m

édio

abs

olut

o

Treino

Validação

(a) (b) (c)

52

Camadas de Neurónios 2

Quantidade de neurónios utilizados na 1ª camada 4 Quantidade de neurónios utilizados na 2ª camada 1

Funções de activação utilizadas na 1ª camada Tansig Funções de activação utilizadas na 3ª camada Purelin

Quantidade de cromossomas utilizados para treino 65 Quantidade de cromossomas utilizados para teste 15

Quantidade de cromossomas utilizados para validação 10

Função de Treino Levenberg-Marquardt Backpropagation

Erro relativo de classificação dos dados de teste (%) 0,0

Erro relativo de classificação (%) 0

Resultados da Rede Erro (%)

21 22 Y

Rea

l

21 6 - - 0,00

22 - 7 - 0,00

Y - - 2 0,00

Figura 42 - Curvas de convergência do erro médio absoluto (ordenadas) dos dados de treino e dos

dados de validação ao longo das épocas (abcissas) para o treino da RNA na classificação por pares

do grupo G, Y.

0 5 10 15 20 250

5

10

15

20

25

Tabela 21 – Propriedades utilizadas na classificação por pares do grupo G,Y com RNA e respectivo

erro associado

Tabela 22 – Matriz de confusão na classificação por pares do grupo G, Y com RNA

Épocas de treino

Err

o m

édio

abs

olut

o

Treino

Validação

53

4.2. Resultados obtidos com lógica fuzzy Para a obtenção dos resultados apresentados a seguir, recorreu-se à toolbox do Professor

Robert Babuska, [19] onde se implementam técnicas de clustering do algoritmo de Gustafson Kessel

adaptando o sistema fuzzy aos dados de treino. Para cada conjunto de dados a classificar, iniciou-se

um sistema com apenas dois clusters por entrada, aumentando-se a quantidade de clusters até que a

quantidade de cromossomas mal classificados não apresentasse uma melhoria significativa. Em

paralelo, foram-se tentando diferentes valores do parâmetro fuzzificador m, mais especificamente

entre 1 e 5, pelo que como se pode verificar nos pontos seguintes, foi entre 1 e 2 que este parâmetro

permitiu alcançar melhores resultados.

4.2.1 Classificação por tamanho Na classificação por tamanho, a LF permitiu obter um resultado bastante positivo, já que dos

322 cromossomas usados para teste apenas 5 geraram um resultado errado, obtendo-se um erro

relativo de classificação de 0,93, tal como indicado na Tabela 23.

Tabela 23 - Propriedades utilizadas na classificação por tamanho com LF e respectivo erro associado

Quantidade de clusters 5 Factor fuzzificador m 1,2

Quantidade de cromossomas utilizados para treino 966 Quantidade de cromossomas utilizados para teste 322

Erro relativo de classificação dos dados de teste (%) 0,9

4.2.2 Classificação por grupos dos cromossomas

grandes

Na classificação por grupos do subconjunto anteriormente classificado como cromossomas

grandes, obteve-se um erro relativo de 3,09 %. Tal como indicado pela Tabela 24, o valor factor

fuzzificador m que gerou melhores resultados, ao contrário da maioria que foi de 1,2, foi de 1,1.

Analisando a Tabela 25, pode-se verificar que os cromossomas pertencentes ao grupo B dos dados

usados para teste foram todos bem classificados, já o mesmo não se pode afirmar em relação ao

grupo A e C,X.

Tabela 24 - Propriedades utilizadas na classificação por grupos dos cromossomas grandes com LF e

respectivo erro associado

Quantidade de clusters 7 Factor fuzzificador m 1,1

Quantidade de cromossomas utilizados para treino 560 Quantidade de cromossomas utilizados para teste 162

Erro relativo de classificação dos dados de teste (%) 3,1

54

Tabela 25 - Matriz de confusão na classificação por grupos dos cromossomas grandes com LF

Resultados da Rede Erro (%)

A B C,X

Rea

l

A 40 1 1 4,76

B - 24 - 0,00

C,X 1 2 93 3,13

4.2.3 Classificação por grupos dos cromossomas

pequenos

A classificação por grupos dos cromossomas pequenos, implica dividir em 4 subgrupos os

cromossomas anteriormente classificados como pequenos. O erro relativo aqui apresentado pela

Tabela 26 é superior ao apresentado no caso anterior. Embora o número de clusters, seja inferior ao

do caso anterior, verificou-se que para um número superior de clusters os resultados não

apresentavam melhorias. Pela Tabela 27, torna-se visível que foi no grupo G,Y que piores resultados

se obtiveram, com 5 cromossomas num total de 26 mal classificados para este grupo.

Tabela 26 - Propriedades utilizadas na classificação por grupos dos cromossomas pequenos com LF

e respectivo erro associado

Quantidade de clusters 5 Factor fuzzificador m 1,2

Quantidade de cromossomas utilizados para treino 458 Quantidade de cromossomas utilizados para teste 131

Erro relativo de classificação dos dados de teste (%) 7,6

Tabela 27 - Matriz de confusão na classificação por grupos dos cromossomas pequenos com LF

Resultados da Rede Erro (%)

D E F G,Y

Rea

l

D 35 - 1 - 2,78

E 1 40 - - 2,44

F - 2 25 1 10,71

G,Y - - 5 21 19,23

55

4.2.4 Classificação por pares do grupo A

Na classificação dos pares pertencentes ao grupo A, todos os 39 cromossomas utilizados

para teste foram bem classificados, tal como se verifica pela Tabela 28 e Tabela 29. A quantidade de

clusters utilizada foi de apenas 2 para um factor fuzzificador m de 1,2.

Tabela 28 - Propriedades utilizadas na classificação por pares do grupo A com LF e respectivo erro

associado

Quantidade de clusters 2 Factor fuzzificador m 1,2

Quantidade de cromossomas utilizados para treino 134 Quantidade de cromossomas utilizados para teste 39

Erro relativo de classificação dos dados de teste (%) 0,0

Tabela 29 - Matriz de confusão na classificação por pares do grupo A com LF

Resultados da Rede Erro (%)

1 2 3

Rea

l

1 12 - - 0,00

2 - 14 - 0,00

3 - - 13 0,00

4.2.5 Classificação por pares do grupo B

À semelhança da classificação por pares dos cromossomas pertencentes ao grupo A,

também no grupo B todos os cromossomas utilizados para teste foram bem classificados,

apresentando um erro relativo de classificação de 0% para 2 clusters apenas (ver Tabela 30). O

factor fuzzificador m aqui utilizado foi de 2, sendo este o maior valor atribuído nos melhores

resultados de classificação com LF apresentados nesta dissertação. Na Tabela 31 pode-se verificar a

correcta classificação dos 12 cromossomas do par número 4 e dos 13 cromossomas do par número

15.

Tabela 30 - Propriedades utilizadas na classificação por pares do grupo B com LF e respectivo erro

associado

Quantidade de clusters 2 Factor fuzzificador m 2

Quantidade de cromossomas utilizados para treino 90 Quantidade de cromossomas utilizados para teste 25

Erro relativo de classificação dos dados de teste (%) 0,0

56

Tabela 31 - Matriz de confusão na classificação por pares do grupo B com LF

Resultados da Rede Erro (%)

4 5

Rea

l 4 12 - 0,00

5 - 13 0,00

4.2.6 Classificação por pares do grupo C,X

Analogamente ao caso em que se classificam os pares pertencentes ao grupo C,X recorrendo

a uma RNA, também aqui o erro relativo de classificação foi claramente superior aos restantes.

Recorrendo a um factor fuzzificador m de 1,1 e a 5 clusters, obteve-se para os 75 cromossomas

utilizados para teste um erro relativo de classificação de 21,33% (ver Tabela 32). Pela Tabela 33,

verifica-se que para além dos cromossomas pertencentes ao par 10, foram os cromossomas do tipo

X que originaram maiores falhas de classificação, sendo que neste último caso, 4 cromossomas num

total de 7 foram mal classificados, sendo erradamente classificados como pertencendo aos pares 7, 9

e 12.

Tabela 32 - Propriedades utilizadas na classificação por pares do grupo C,X com LF e respectivo erro

associado

Quantidade de clusters 5 Factor fuzzificador m 1,1

Quantidade de cromossomas utilizados para treino 350 Quantidade de cromossomas utilizados para teste 75

Erro relativo de classificação dos dados de teste (%) 20,0

Tabela 33 - Matriz de confusão na classificação por pares do grupo C, X com LF

Resultados da Rede Erro (%)

6 7 8 9 10 11 12 X

Rea

l

6 8 2 - - - - - - 20,00

7 - 10 - - - - - - 0,00

8 - - 8 - 1 - - - 11,11

9 - - 2 6 - - - - 25,00

10 - - 2 1 5 1 - - 44,44

11 - - - - 1 9 - - 10,00

12 - - - - - - 10 - 0,00

X - 1 - 2 - - 2 4 55,56

57

4.2.7 Classificação por pares do grupo D

Na classificação dos cromossomas pertencentes ao grupo D, pode-se concluir que se obteve

um resultado satisfatório, dado que para 3 clusters e um factor fuzzificador m de 1,2, se obteve

apenas 2,56% de falhas (ver Tabela 34). Analisando a Tabela 35, verifica-se que estes 2,56%

representam apenas um cromossoma do par 15 classificado erradamente como pertencendo ao par

14 nos 39 utilizados para teste.

Tabela 34 - Propriedades utilizadas na classificação por pares do grupo D com LF e respectivo erro

associado

Quantidade de clusters 3 Factor fuzzificador m 1,2

Quantidade de cromossomas utilizados para treino 134 Quantidade de cromossomas utilizados para teste 39

Erro relativo de classificação dos dados de teste (%) 2,6

Tabela 35 - Matriz de confusão na classificação por pares do grupo D com LF

Resultados da Rede Erro (%)

13 14 15

Rea

l

13 12 - - 0

14 - 14 - 0

15 - 1 12 7,69

4.2.8 Classificação por pares do grupo E

Para a classificação dos cromossomas pertencentes ao grupo E, recorreu-se exactamente

aos mesmos valores utilizados no caso anterior, sendo que neste caso o erro relativo apresentado é o

dobro (ver Tabela 36). Analisando a Tabela 37, verifica-se que apenas 2 cromossomas pertencentes

ao par 18, foram erradamente classificados como fazendo parte do par 17.

Tabela 36 - Propriedades utilizadas na classificação por pares do grupo E com LF e respectivo erro

associado

Quantidade de clusters 3 Factor fuzzificador m 1,2

Quantidade de cromossomas utilizados para treino 134 Quantidade de cromossomas utilizados para teste 39

Erro relativo de classificação dos dados de teste (%) 5,1

58

Tabela 37 - Matriz de confusão na classificação por pares do grupo E com LF

Resultados da Rede Erro (%)

16 17 18

Rea

l

16 12 - - 0,00

17 - 14 - 0,00

18 - 2 11 15,38

4.2.9 Classificação por pares do grupo F

No caso do grupo F, conseguiu-se que os 15 cromossomas utilizados para teste fossem

todos bem classificados, apresentando um erro nulo (ver Tabela 38). Na Tabela 39 é possível

verificar que tanto os 8 cromossomas pertencentes ao par 19 como os 7 cromossomas pertences ao

par 20 foram correctamente classificados.

Tabela 38 - Propriedades utilizadas na classificação por pares do grupo F com LF e respectivo erro

associado

Quantidade de clusters 3 Factor fuzzificador m 1,2

Quantidade de cromossomas utilizados para treino 60 Quantidade de cromossomas utilizados para teste 15

Erro relativo de classificação dos dados de teste (%) 0,0

Tabela 39 - Matriz de confusão na classificação por pares do grupo F com LF

Resultados da Rede Erro (%)

19 20

Rea

l 19 8 - 0,00

20 - 7 0,00

59

4.2.10 Classificação por pares do grupo G, Y

A Tabela 40 e Tabela 41 apresentam um resultado equivalente ao apresentado no caso

anterior, onde todos os 15 cromossomas utilizados para teste foram correctamente classificados.

Neste caso existe ainda a distinção de se ter que classificar em 3 pares distintos, ao passo que no

caso anterior apenas se tinha que distinguir os cromossomas dos pares 19 e 20.

Tabela 40 - Propriedades utilizadas na classificação por pares do grupo G, Y com LF e respectivo

erro associado

Quantidade de clusters 3 Factor fuzzificador m 1,2

Quantidade de cromossomas utilizados para treino 65 Quantidade de cromossomas utilizados para teste 15

Erro relativo de classificação dos dados de teste (%) 0,0

Tabela 41 - Matriz de confusão na classificação por pares do grupo G, Y com LF

Resultados da Rede Erro (%)

21 22 Y

Rea

l

21 6 - - 0,00

22 - 7 - 0,00

Y - - 2 0,00

4.3. Comparação da performance dos dois sistemas de

classificação: redes neuronais artificiais e lógica fuzzy

Após a obtenção de resultados para a mesma base de dados, recorrendo a dois sistemas

distintos (neste caso redes neuronais artificiais e lógica fuzzy), é possível efectuar uma comparação

directa entre estes.

Na classificação por grupos dos cromossomas grandes, a performance dos dois sistemas é

quase idêntica. Pela Tabela 42 pode-se verificar que apenas no caso da classificação do grupo C,X é

que estes dois sistemas apresentam um resultado distinto, sendo que o sistema que recorre a LF, é o

que apresenta melhores resultados com 3,13% de erro relativo face aos 6,25% obtidos com RNA.

60

Tabela 42 – Erros relativos de classificação obtidos com RNA e LF na classificação por grupos dos

cromossomas grandes.

Erro relativo de classificação dos dados de teste (%)

Grupos dos cromossomas grandes RNA LF A 4,76 4,76 B 0,00 0,00

C,X 6,25 3,13

A Tabela 43 permite comparar o erro de classificação por grupos dos cromossomas

pequenos para ambos os sistemas. No caso da classificação do grupo D, a RNA não apresenta

qualquer falha, já o mesmo não se pode afirmar com LF, tendo-se obtido 2,78% de erro relativo na

classificação deste mesmo grupo. Na classificação do grupo E, ambos os sistemas apresentaram a

mesma quantidade de falhas, representando um erro relativo de 2,44%. Analisando ainda esta

mesma tabela, pode-se verificar que a LF permitiu alcançar melhores resultados não só na

classificação do grupo F, como também no grupo G,Y. Saliente-se que no caso do grupo F, o erro

apresentado pela LF é de praticamente um terço do apresentado pela RNA.

Tabela 43 – Erros relativos de classificação obtidos com RNA e LF na classificação por grupos dos

cromossomas pequenos.

Erro relativo de classificação dos dados de teste (%)

Grupos dos cromossomas pequenos RNA LF D 0,00 2,78 E 2,44 2,44 F 39,29 10,71

G,Y 23,08 19,23

Na classificação por pares do grupo A, verificou-se que apesar de ambos os sistemas

apresentarem isenção de falhas na classificação dos pares 1 e 2, tal não aconteceu para o caso das

RNA na classificação do par 3, apresentando um erro relativo de 7,69%, tal como indicado na Tabela

44.

Tabela 44 – Erros relativos de classificação obtidos com RNA e LF na classificação por pares

pertencentes ao grupo A.

Erro relativo de classificação dos dados de teste (%)

Pares do grupo A RNA LF 1 0,00 0,00 2 0,00 0,00 3 7,69 0,00

Pela Tabela 45, verifica-se que a classificação por pares do grupo B foi idêntica para ambos

os sistema de classificação, não apresentando qualquer falha.

61

Tabela 45 – Erros relativos de classificação obtidos com RNA e LF na classificação por pares

pertencentes ao grupo B.

Erro relativo de classificação dos dados de teste (%)

Pares do grupo B RNA LF 4 0,00 0,00 5 0,00 0,00

A classificação por pares pertencentes ao grupo C,X foi a que claramente apresentou piores

resultados para ambos os sistemas testados nesta dissertação. Ainda assim, verifica-se um resultado

mais positivo com o sistema que recorre a LF. Analisando a Tabela 46, verifica-se que a LF permitiu

obter exactamente metade do valor do erro relativo que o obtido pela RNA no caso da classificação

do par 6. Todos os cromossomas do par 7 foram bem classificados pelo sistema de LF, já para a

RNA é apresentado um erro relativo de 10%. É no par 8 que se verifica a maior diferença em relação

ao erro relativo dos dois sistemas de classificação, visto que no caso das RNA é apresentado um erro

superior a 55% e que no caso da LF é apresentado um erro 5 vezes inferir, com pouco mais de 11%.

Analisando o erro relativo de classificação do par 9, mais uma vez se pode identificar um melhor

resultado por parte do sistema de LF face à RNA. A classificação do par 10 e X são as únicas cuja

tendência é inversa à maioria para este caso, dado que a RNA permitiu obter resultados com menos

falhas, onde no caso do par 10, o valor do erro relativo obtido é cerca de metade com 22,22% face

aos 44,44% da LF. No caso do par 11, verifica-se que a LF permitiu obter metade do valor do erro da

RNA com um erro de 10,00% e no caso da classificação do par 12, verifica-se um resultado idêntico

ao da classificação do par 7, onde a RNA apresenta um erro relativo de 10% face à inexistência de

falhas por parte da LF.

Tabela 46 – Erros relativos de classificação obtidos com RNA e LF na classificação por pares

pertencentes ao grupo C,X.

Erro relativo de classificação dos dados de teste (%)

Pares do grupo C,X RNA LF 6 40,00 20,00 7 10,00 0,00 8 55,56 11,11 9 37,50 25,00

10 22,22 44,44 11 20,00 10,00 12 10,00 0,00 X 33,33 55,56

Na Tabela 47, à semelhança do que verificou para o caso da classificação por pares

pertencentes ao grupo A (ver Tabela 44), também se verifica a inexistência de falhas para os

primeiros dois pares, sendo que neste caso corresponde aos pares 13 e 14, visto esta tabela ser

referente aos resultados obtidos na classificação por pares pertencentes ao grupo D. No caso da

classificação do par 15, a RNA originou pior resultado, com um erro relativo de 15,38%, cerca do

dobro do caso da LF.

62

Tabela 47 – Erros relativos de classificação obtidos com RNA e LF na classificação por pares

pertencentes ao grupo D.

Erro relativo de classificação dos dados de teste (%)

Pares do grupo D RNA LF 13 0,00 0,00 14 0,00 0,00 15 15,38 7,69

Na classificação por pares pertencentes ao grupo E, verifica-se que ambos os sistemas de

classificação testados apresentam a mesma performance, sendo que, como se verifica pela Tabela

48, a classificação dos pares 16 e 17 não apresentaram qualquer falha e que a classificação do par

18 apresentou a mesma quantidade de falhas para os dois sistemas, dando origem a um erro relativo

de 15,38%.

Tabela 48 – Erros relativos de classificação obtidos com RNA e LF na classificação por pares

pertencentes ao grupo E.

Erro relativo de classificação dos dados de teste (%)

Pares do grupo E RNA LF 16 0,00 0,00 17 0,00 0,00 18 15,38 15,38

Na Tabela 49 e na Tabela 50, verifica-se que ambos os sistemas de classificação não

apresentaram qualquer falha para os dados de teste considerados.

Tabela 49 – Erros relativos de classificação obtidos com RNA e LF na classificação por pares

pertencentes ao grupo F.

Erro relativo de classificação dos dados de teste (%)

Pares do grupo F RNA LF 19 0,00 0,00 20 0,00 0,00

Tabela 50 – Erros relativos de classificação obtidos com RNA e LF na classificação por pares

pertencentes ao grupo G,Y.

Erro relativo de classificação dos dados de teste (%)

Pares do grupo G,Y RNA LF 21 0,00 0,00 22 0,00 0,00 Y 0,00 0,00

63

De um modo geral, analisando as RNA face aos sistemas que recorrem à LF, foi possível

concluir que os sistemas que recorrem a LF apresentam sempre resultados melhores. Tal facto

poderá dever-se à técnica de clustering funcionar melhor para os descritores aqui utilizados na

classificação. De uma maneira global, pode-se admitir que os resultados obtidos são satisfatórios,

dado que se conseguiu um bom nível de classificação para a maioria dos casos, recorrendo-se

sempre a sistemas de classificação pouco complexos (com excepção da classificação por pares do

grupo C,X). Na Tabela 51 são apresentados de forma resumida, os resultados obtidos para ambos os

sistemas de classificação e que fundamentaram estas conclusões.

Tabela 51 – Erros relativos para cada sistema de classificação obtidos com RNA e LF.

Erro relativo de classificação dos dados de teste (%) RNA LF

Tamanho 1,2 0,9 Grupos dos cromossomas grandes 4,9 3,1

Grupos dos cromossomas pequenos 13,7 7,6 Pares do grupo A 2,6 0,0 Pares do grupo B 0,0 0,0

Pares do grupo C,X 28,0 20,0 Pares do grupo D 5,1 2,6 Pares do grupo E 5,1 5,1 Pares do grupo F 0,0 0,0

Pares do grupo G,Y 0,0 0,0

4.4. Comparação com caso de estudo

Wang [13] apresenta uma abordagem semelhante à apresentada nesta dissertação, contudo os

autores deste artigo, omitem uma etapa na classificação, abordando a classificação por grupos e logo

de seguida por pares, omitindo a classificação por tamanho.

As RNA utilizadas na referência são todas constituídas por apenas uma camada escondida,

onde tanto a quantidade de neurónios como os descritores utilizados para classificação são geridos

por um algoritmo de optimização (algoritmo genético) de forma independente para cada RNA.

A Tabela 52 apresenta os resultados obtidos pelos autores de [13] e os melhores resultados

obtidos nesta dissertação de entre os dois sistemas de classificação testados, sendo que a última

coluna apresenta a diferença entre ambos, onde uma diferença negativa representa um pior resultado

desta dissertação face à referência considerada e uma diferença positiva o inverso. Saliente-se

contudo, o facto de as bases de dados utilizadas para teste para esta dissertação e para o artigo de

referência serem distintas.

64

Tabela 52 – Comparação de resultados com os resultados obtidos pelo artigo de referência [13]

Classificação

Erro de Classificação anunciado na referência (%)

Erro de Classificação obtido nesta

dissertação para RNA (%)

Erro de Classificação obtido

nesta dissertação para LF (%)

Diferença entre a referência e o

melhor resultado (%)

Pares do Grupo A 1,0 2,6 0,0 +1,0

Pares do Grupo B 6,0 0,0 0,0 +6,0

Pares do Grupo C, X 31,7 28,0 20,0 +11,7

Pares do Grupo D 5,0 5,1 2,6 +2,4

Pares do Grupo E 3,7 5,1 5,1 -1,4

Pares do Grupo F 3,5 0,0 0,0 +3,5

Pares do Grupo G,Y 5,3 0,0 0,0 +5,3

65

Capítulo 5 – Conclusões e Trabalho Futuro Neste capítulo são apresentadas as conclusões referentes aos resultados obtidos. São ainda

sugeridas propostas de trabalho futuro tendo em conta as dificuldades sentidas em alguns aspectos

do trabalho.

5.1. Conclusões Os resultados obtidos nesta dissertação são bons, tendo em conta a comparação efectuada com

um artigo de referência [13].

A larga maioria dos autores, recorrem à localização do centrómero para classificar

cromossomas, dado que este é um indicador habitualmente utilizado para identificar o tipo de

cromossoma. Recorrendo ao conhecimento de peritos na área, sabe-se que na prática estes

conseguem identificar o tipo de cromossoma apenas pelo seu bandeamento, pelo que possivelmente

a localização do centrómero não deverá ser um dado crucial na classificação de cromossomas. A

localização do centrómero não é fácil de obter tanto a nível computacional ( [7] e [12]) como a nível

humano. Com os resultados obtidos nesta dissertação, dado que não se recorreu ao uso da

localização do centrómero, pode-se reforçar a ideia de que o centrómero não é uma característica

crucial na classificação dos cromossomas.

Na classificação por tamanho, conseguiram-se bons resultados graças às entradas utilizadas no

sistema de classificação, uma vez que existe uma relação quase directa entre o tamanho do

cromossoma e o seu comprimento (uma das entradas consideradas). A Figura 43 mostra a evolução

dos comprimentos dos cromossomas médios de 32 metafases completas ao longo dos 23 pares.

Saliente-se que até ao par 12 os cromossomas são classificados como sendo grandes e do par 12

até ao 22 são classificados como sendo pequenos. A Figura 43 ilustra também o valor médio do par

23 (par sexual) que, como seria de esperar, uma vez que este par contem em alguns casos o

cromossoma Y, apresenta uma média abaixo do valor do comprimento médio do cromossoma X.

Os resultados obtidos na classificação por pares dos grupos B, F e G,Y, poderão ser explicados

mediante a diferença significativa que existe entre os cromossomas destes grupos e pelo facto dos

sistemas de classificação utilizados para estes casos terem de identificar dois ou três tipos de

cromossomas apenas. No caso do cromossoma correspondente ao par nº 4, verifica-se que este se

apresenta com uma tonalidade mais escurecida face ao cromossoma pertencente ao par nº 5. O

cromossoma nº 19 diferencia-se pelo seu perfil de bandeamento, dado que este se apresenta com

uma tonalidade clara e homogénea excepto numa banda bem visível ao centro, já o cromossoma nº

20 apresenta uma maior quantidade de bandas escuras. Os cromossomas nº 21 e nº 22 distinguem-

se pela localização da banda mais escura e diferenciam-se bastante bem do cromossoma Y, uma vez

que este não apresenta uma banda com um contraste tão elevado face aos restantes.

66

Figura 43 – Evolução dos valores médios dos comprimentos dos cromossomas ao longo dos 23

pares em 32 metafases distintas. O eixo das abcissas representa o valor do par e o eixo das

ordenadas o comprimento do cromossoma normalizado para a metafase entre 0 e 1.

A classificação por pares do grupo C e X é a que apresenta claramente um pior resultado.

Este grupo, ao contrário dos grupos que apresentam uma boa classificação, apresenta cromossomas

visivelmente semelhantes, pelo que é natural que exista mais dificuldade em distinguir os distintos

pares. No artigo de referência [13], também foi este o grupo que apresentou piores resultados. Este

mau resultado face aos restantes poderá eventualmente ser também explicado pela grande variedade

de cromossomas a classificar, já que neste caso, para o mesmo sistema de classificação, se

classificam 8 cromossomas correspondentes a distintos pares e não apenas 2 ou três como nos

casos de maior sucesso.

5.2. Trabalho Futuro Como trabalho futuro, para complemento do trabalho desenvolvido nesta dissertação,

sugerem-se novos desenvolvimentos tanto a nível de processamento de imagem, como a nível de

classificação.

É muito frequente que numa imagem original obtida ao microscópio, os cromossomas se

apresentem sobrepostos, pelo que este problema tem desafiado alguns autores a encontrar uma

Número do Par

Com

prim

ento

do

crom

osso

ma

norm

aliz

ado

para

cad

a m

etaf

ase

entr

e 0

e 1

67

forma de separar digitalmente não só os cromossomas que se encontram sobrepostos mas também

os que se encontram simplesmente encostados lado a lado ou topo a topo.

Um dos pressupostos impostos na classificação dos cromossomas neste trabalho, é o facto

de os cromossomas já se encontrarem na sua orientação correcta. Sugere-se uma forma de alinhar

os cromossomas, elaborando uma primeira classificação por forma a orientá-los no que respeita à

sua polaridade.

Os problemas em obter um bom resultado de classificação para o grupo C,X, sugerem que

este grupo tenha de ser analisado de uma forma distinta, possivelmente procurando novos

descritores que aqui possam ser aplicados ou mesmo aplicando uma etapa de classificação

intermédia, dividindo em subgrupos mais pequenos.

Sugere-se ainda a aplicação de novos métodos de classificação que eventualmente possam

ser criados e aplicados a este tipo de problema.

68

69

Referências

[1] A. M. Badawi, K. G. Hasan, E.-E. A. Aly, and R. A. Messiha, "Chromosomes classification based

on neural networks, Fuzzy rule based, and template matching classifiers," Micro-

NanoMechatronics and Human Science, vol. 1, pp. 383-387, 2003.

[2] [Online]. http://medical-dictionary.thefreedictionary.com/idiogram, acesso em Agosto de 2010

[3] [Online]. http://www.woodrow.org/teachers/bi/1993/karyoteype.html, acesso em Agosto de 2010

[4] [Online]. http://www.pathology.washington.edu/research/cytopages/idiograms/human/, acesso em

Julho de 2010

[5] A. Khmelinskii, R. Ventura, and S. João, "Automatic Chromosome Pairing Using Mutual

Information," Annual International Conference of the IEEE Engineering in Medicine and Biology

Society. IEEE Engineering in Medicine and Biology Society. Conference, pp. 1918-1921, 2008.

[6] N. Cai, et al., "Image segmentation of G bands of triticum monococcum chromosomes based on

the model-based neural network," Pattern Recognition Letters, vol. 25, pp. 319-329, 2004.

[7] J. M. Cho, "Chromosome Classification Using Backpropagation Neural Networks," Engineering in

Medicine and Biology Magazine, vol. 19, pp. 28-33, Jan. 2000.

[8] V. Gajendran and J. J. Rodriguez, "Chromosome Counting Via Digital Image Analysis," Image

Processing, 2004. ICIP '04. 2004 International Conference on, vol. 5, pp. 2929-2932, 2004.

[9] S. Eskiizmirliler, A. M. Erkmen, F. Basaran, and A. Nur Cakar, "A hybrid intelligent diagnostic

system based on neural networks and image analysis techniques in the field of automated

cytogenetics," Image Processing, 1996. Proceedings., International Conference on, vol. 1, pp.

315-318, 1996.

[10] I. M. M. Emary, "On the Application of Artificial Neural Networks in analyzing and Classifying the

Human Chromosomes," Journal of Computer Science, vol. 1, pp. 72-75, 2006.

70

[11] M. Moradi and S. K. Setarehdan, "New features for automatic classification of human

chromosomes," Pattern Recognition Letters, vol. 27, pp. 19-28, Jan. 2006.

[12] B. Legrand, C. S. Chang, S. H. Ong, S.-Y. Neo, and N. Palanisamy, "Chromosome classification

using dynamic time warping," Pattern Recognition Letters, vol. 29, pp. 215-222, 2008.

[13] X. Wang, et al., "Automated classification of metaphase chromosomes: Optimization of an

adaptive computerized scheme," Journal of Biomedical Informatics, vol. 42, pp. 22-31, 2009.

[14] N. Otsu, "A threshold selection method from gray-level histograms," Systems, Man and

Cybernetics, vol. 9, pp. 62-63, 1979.

[15] S. Gopal. (1998) Artificial Neural Networks for spatial Data Analysis. [Online].

http://www.ncgia.ucsb.edu/giscc/units/u188/u188.html

[16] B. D. Ripley, Pattern Recognition and Neural Networks, 1ªçãth ed. Cambridge: Cambridge

University Press, 1996.

[17] MATLAB. (2007, Jan.) Documentação de ajuda do MATLAB. 1984-2006 The MathWorks, Inc..

[18] R. K. Marie Jeanne Lesot, "Gustafson-Kessel-like clustering algorithm based on typicality

degrees," Uncertainty and Intelligent Information Systems, pp. 117-130, Jul. 2008.

[19] R. Babuska. (1997-98) Fuzzy Modeling and Identification Toolbox. MATLAB.

71

Anexos

Figura 44 – Exemplo de uma imagem da base de dados utilizada como entrada no algoritmo.

72

Figura 45 – Exemplo da imagem da Figura 44 após ser processada pelo algoritmo, onde se verifica o eixo

médio de cada cromossoma a vermelho e os resultados de classificação para RNA.

Resultados de classificação:

Tamanho (P)

Grupo (4)

Par (15)