Extracção e codificação de conteúdo derelatórios de exames anatomo-patológicos
dactilografados.OCR através de momentos invariantes
David Fernandes
UAb
9 de Março de 2013
David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 1 / 40
Orientação
Professora Gracinda Carvalho (UAb)
Dra Cristina Gonçalves (Hospital de Santo António - CHP)
Apoio
Laboratório de Anatomia Patológica Doutores J PereiraGuedes, Silva Caspurro e Manuel Dias
David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 2 / 40
P R O J E C T O
David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 3 / 40
ProjectoAnatomia patológica
especialidade médica
diagnostica doenças
exame macroscópico de peças cirúrgicas
exame microscópico de células (citologia) e tecidos(histologia)
biopsia, raspagem, agulha
produção de relatório
David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 4 / 40
Anatomia patológicaRelatórios de exame
texto livre
identificação do paciente
informação sobre a colheita
imagem microscópica das células/tecidos
descrição das peças/tecidos => observação macroscópica
observação microscópica
diagnóstico
David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 5 / 40
Anatomia patológicaRelatórios de exame
Clinical Data
IRON DEFICIENCY ANEMIA
5747 Hoover Blvd
813.123.4567
813.884.2849
813.890.0143
Tampa, Florida 33634
SAMPLE CLIENT
1234 Test Street
Tampa, Florida 33333
Patient Name
SAMPLE, PATIENTAccession Number
1REL-05-03358
ChartNumber
Collected
3/2/2005
Requesting Physician
SAMPLE PHYSICIAN, M.D.
Referring Physician
Received
3/2/2005
Sex
M
Reported
3/3/2005
Age (DOB)
55 (09/29/1949)
AccountNumber1
Phone:
Fax:
PATHOLOGY REPORT
Electronically signed by SAMPLE PATHOLOGIST, M.D.Pathology report provided by Reliance Pathology Partners, LLCPg 1 of 1
MICROSCOPIC DESCRIPTION
Colonic tissue fragments showing irregularly shaped malignant tumor glandslined by pleomorphic cells with nuclear hyperchromasia. Malignant cellsinfiltrate the submucosa and have an associated desmoplastic andinflammatory response.
SPECIMEN 01 CECUM COLON, BIOPSY
SPECIMEN 01, CECUM COLON, BIOPSY:DIAGNOSIS:Colonic tissue fragments with invasive adenocarcinoma, well to moderately differentiated.
GROSS DESCRIPTION: Received in formalin, labeled with the patient's name and "cecal mass biopsy" are multiple portions oftan-white soft tissue measuring 0.6 x 0.6 x 0.2 cm in aggregate, which are submitted in toto in one cassette labeled 1A. kaf/m
SPECIMEN 02, DESCENDING COLON, BIOPSY:DIAGNOSIS:Tubular adenoma (adenomatous polyp).
GROSS DESCRIPTION: Received in formalin, labeled with the patient's name and "descending colon polyp" is a tan-pink polypmeasuring 0.7 x 0.7 x 0.3 cm. The specimen is bisected and submitted in its entirety in one cassette labeled 2A. kaf/s
MICROSCOPIC DESCRIPTION: Polypoid colonic mucosa with increased number of glands, glandular crowding and mucindepletion in some of the glands. The glands are lined by cells with enlarged and hyperchromatic nuclei.
CASE COMMENTS: Dr. Sample's office has been notified of the findings by telephone on 3/3/05.
David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 6 / 40
Anatomia patológicaRelatórios de exame
Page 1PATIENT INFORMATIONJOHN DOEAge: 84 yearsDate of Birth: 11/09/23
Location/ID: PRIVATE OFFICE
PHYSICIANJOHN SMITH, M.D1234 JOHN WAYHERCULES, CA 94547
SPECIMEN INFORMATION
Accession # WCS0899999
Collected: 02/17/2008Received: 02/18/2008Reported: 02/20/2008
SPECIMEN SITE / COMMENTS1. SPECIMEN SITE PROSTATE, LEFT BASE
2. SPECIMEN SITE PROSTATE, LEFT LATERAL BASE
3. SPECIMEN SITE PROSTATE, RIGHT BASE
GROSS DESCRIPTION1. Left base Two cores measuring from 1.5 to 1.7 cm. Labeled "L21."
2. Left lateral base Two cores measuring from 1.3 to 1.6 cm. Labeled "L2."
3. Right base One core measuring 1.6 cm. Labeled "R1."
MICROSCOPIC DESCRIPTION
The biopsies show a malignant neoplasm composed of small tubular glands which in many areas form single cells and cribriformstructures.
FINAL DIAGNOSIS1. Prostate, left base, needle biopsy ADENOCARCINOMA, GLEASON SCORE OF 4+4. TUMOR OCCUPIES APPROXIMATELY 70% OF THE BIOPSY VOLUME.2. Prostate, left lateral base, needle biopsy ADENOCARCINOMA, GLEASON SCORE OF 4+4. TUMOR OCCUPIES APPROXIMATELY 80% OF THE BIOPSY VOLUME.3. Prostate, right base, needle biopsy ADENOCARCINOMA, GLEASON SCORE OF 3+4. TUMOR OCCUPIES APPROXIMATELY 50% OF THE BIOPSY VOLUME.
John Compagno, M.D.Original Report Reviewed and Verified
712 Alf red Nobel Driv e . Hercules, CA 94547 . toll f ree 800.794.9737 . f ax 510.662.5240 . www.wcpl.com . John Compagno, M.D., Medical Director
PATHOLOGY/CYTOPATHOLOGY CONSULTATION REPORT
David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 7 / 40
Anatomia patológicaRelatórios de exame
Page 1PATIENT INFORMATIONJOHN DOEAge: 45 yearsDate of Birth: 03/22/62
Location/ID: 123456
PHYSICIANJOHN SMITH, M.D1234 JOHN WAYHERCULES, CA 94547
SPECIMEN INFORMATION
Accession # WCC0899999
Collected: 01/11/2008Received: 01/12/2008Reported: 01/13/2008
SPECIMEN SITE / COMMENTS
* SPECIMEN SITE URINE CYTOLOGY
GROSS DESCRIPTION
Received is 150 cc`s of yellow fluid which is used for the preparation of aThinPrep.
MICROSCOPIC DESCRIPTION
The urine cytology shows individual urothelial cells. They show small central nuclei without increased N/C ratios. Papillary clusters arenot seen. There is an increase in the amount of inflammation with numerous clusters of neutrophils.
FINAL DIAGNOSIS
Urine cytology ABUNDANT ACUTE INFLAMMATION. NO MALIGNANT CHANGES SEEN.
Wayne Garrett, D.O. PathologistOriginal Report Reviewed and Verified
David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 8 / 40
Anatomia patológicaRelatórios de exame
David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 9 / 40
Anatomia patológicaRelatórios de exame
David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 10 / 40
ProjectoObjectivo
digitalização dos relatórios (OCR)
extracção de conteúdo (NLP)codificação com SNOMED CT (Systematized NomenclatureOf Medicine Clinical Terms)
conceitos, descrições e relações(Clinical finding/disorder, Procedure/intervention, Observableentity, Body structure, Organism, Substance,Pharmaceutical/biologic product, Specimen, Specialconcept, Physical object, Physical force, Event, Environmentor geographical location, Social context, Staging and scales)
ferramenta de consulta
.. e exploração estatística
David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 11 / 40
E X T R A C Ç Ã OD E
C O N T E Ú D O
David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 12 / 40
Análise de imagemExtracção de conteúdo
aquisição da imagemprocessamento prévio
detecção de orientação (retrato ou paisagem)correcção de inclinaçãosimplificação de cor (escala de cinzentos ou PB)eliminação de ruído positivo e negativoconvoluções (unblur, detectores de fronteira, ...)
David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 13 / 40
Análise de imagemExtracção de características
smooth
threshold
erode
delate
contours
David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 14 / 40
Análise de imagemExtracção de características
segmentação do documento
extracção de caracteres
identificação de características
classificação
David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 15 / 40
Reconhecimento de padrõesOCR - Identificação de características
utilização de descritores de forma
baseado em contornos
baseados em áreas
David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 16 / 40
Reconhecimento de padrõesClassificação
agrupamento das características observadas em classeseficiência dependente da relação
variabilidade da característica dentro de uma classevariabilidade da característica entre classes
David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 17 / 40
Reconhecimento de padrõesClassificadores
rede neuronal (perceptrão multi-layer) (MLP)
k-vizinhos mais próximos (knn)
David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 18 / 40
M O M E N T O SI N V A R I A N T E S
Descritores de forma baseados em controno
David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 19 / 40
Momentos invariantesDefinição
soma das intensidades dos pixeis de uma imagem
escala de cinzentos
RGB - implica o cálculo de momentos por canalimagens binárias (P/B) interesse particular
área, centroide, orientação
David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 20 / 40
Momentos invariantesOrigem
teoria dos invariantes algébricos (séc. XIX)
relações com a física
relações com a estatística
David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 21 / 40
Momentos invariantesEsboço de definição
têm em conta as duas dimensões da imagem (x, y)
possuem graus (ordens) de acordo com o peso(ponderação) que se pretenda dar a cada uma dascomponentes (x, y)
David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 22 / 40
Momentos invariantesExemplo
David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 23 / 40
Momentos invariantesMomentos geométricos
Momento geométrico de ordem(i + j)
mij = ∑x
∑y
x iy j · I(x , y)
I(x , y)→ intensidade do pixel na posição(x , y)
m00 → área ocupada pela imagem; número de pixeis da imagem
x =m10
m00→ ordenada central
y =m01
m00→ abcissa central
David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 24 / 40
Momentos invariantesMomentos centrados
µij = ∑x
∑y(x − x)i(y − y)j · I(x , y)
invariantes a translações e a inversões (! sinal)
x =m10
m00→ ordenada central
y =m01
m00→ abcissa central
David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 25 / 40
Momentos centradosDetecção de orientação
A partir dos momentos centrados de segunda ordem:
µ′20 =µ20
µ00
µ′02 =µ02
µ00
µ′11 =µ11
µ00
Θ =12
atan(2µ′11
µ′20 − µ′02)
David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 26 / 40
Momentos invariantesMomentos normalizados
ηij =µij
µ(1+ i+j
2 )
00
adicionam invariância a escala
David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 27 / 40
Momentos invariantes
David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 28 / 40
Momentos invariantes
David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 29 / 40
Momentos invariantes
David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 30 / 40
Momentos invariantesMomentos de Hu
Sete momentos propostos por M. K. Hu em 1962,calculados apartir de momentos normalizados de segunda e terceira ordens:
I1 = η20 + η02
I2 = (η20 − η02)2 + 4η2
11
· · ·
I7 = (3µ21 − η03)(η30 + η12)[(η30 + η12)2 − 3(η21 + η03)
2]− · · ·
apresentam invariância adicional a rotação
David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 31 / 40
C L A S S I F I C A Ç Ã O
David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 32 / 40
ClassificaçãoRedes neuronais
modelo de neurónio de McCulloch e Pitts (1942)
David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 33 / 40
ClassificaçãoRedes neuronais
Figura: Sigmoide
f (x) = β1− e−αx
1 + e−αx
David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 34 / 40
ClassificaçãoMLP - Multi-layer perceptron
David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 35 / 40
MLP - Multi-layer perceptronTreino
fornecimento de entradas e saídas esperadas
inicialização dos pesos
cálculo das saídas e do erro em relação ao esperado
propagação inversa do erro pelos pesos
recálculo das saídas
...
David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 36 / 40
R E S U L T A D O S
David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 37 / 40
Resultados
.... em curso
David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 38 / 40
C O N C L U S Ã O
David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 39 / 40
Conclusão
muitos, variados e aliciantes pontos de interesse
problemas gráficos
relacionados com IA e ML
NLP
estruturação de informação ... desestruturada
desenvolvimento WEB
etc
David Fernandes (UAb) Extracção e codificação de conteúdo de relatórios de exames anatomo-patológicos dactilografados.9 de Março de 2013 40 / 40