26
Leitura de Documentos Priscila Engiel [email protected]

Leitura de Documentos - WordPress.com · Documento pode conter ... do texto para tornar a informação acessível Classificação automática de textos A grupamento por semelhança

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Leitura de Documentos - WordPress.com · Documento pode conter ... do texto para tornar a informação acessível Classificação automática de textos A grupamento por semelhança

Leitura de Documentos

Priscila Engiel

[email protected]

Page 2: Leitura de Documentos - WordPress.com · Documento pode conter ... do texto para tornar a informação acessível Classificação automática de textos A grupamento por semelhança

Leitura de documentos Leitura de documentos formais que regulam ou

descrevem o sistema ou aspectos que interferem

em sua execução

◦ Quais documentos?

Conhecimento formal e explícito já disponível

sobre o domínio

Requer documentação atualizada

Page 3: Leitura de Documentos - WordPress.com · Documento pode conter ... do texto para tornar a informação acessível Classificação automática de textos A grupamento por semelhança

Leitura de Documentos

Técnica de elicitação de requisitos

Feita pelo engenheiro de requisitos

Possibilita o contato com o vocabulário da

aplicação.

Encontra conceitos do Universo de Informações

Acesso ao conhecimento escrito da organização

Page 4: Leitura de Documentos - WordPress.com · Documento pode conter ... do texto para tornar a informação acessível Classificação automática de textos A grupamento por semelhança

Leitura de documentos

Se o documento já estiver organizado (índice,

sumário) o trabalho de encontrar os conceitos

relevantes será facilitado.

Caso contrario, há que se empregar heurísticas

para encontrarmos os principais fatos (conceitos)

Page 5: Leitura de Documentos - WordPress.com · Documento pode conter ... do texto para tornar a informação acessível Classificação automática de textos A grupamento por semelhança

Coleta de dados

Resumo por capítulos; Evidenciar partes mais importantes;

Utilizar índice por palavra-chave; Entender o vocabulário em

uso; …

Documentos Similares:

Identificar e Relacionar as estruturas existentes; …

Macrosistema (leitura mais cuidadosa)

Sublinhar palavras repetidas;

Destacar os sinônimos;

Anotar termos desconhecidos;

Buscar relacionamentos;

Entender a estrutura dos documentos;

5

Page 6: Leitura de Documentos - WordPress.com · Documento pode conter ... do texto para tornar a informação acessível Classificação automática de textos A grupamento por semelhança

Vantagens

Facilidade de acesso às fontes de informação

Volume de informações extraídas dessas fontes

Page 7: Leitura de Documentos - WordPress.com · Documento pode conter ... do texto para tornar a informação acessível Classificação automática de textos A grupamento por semelhança

Desvantagem

dispersão das informações

volume de trabalho para identificação dos fatos

Atualização das informações

Ferramentas podem ajudar a minorar as

desvantagens

Que tipo de ferramentas?

Page 8: Leitura de Documentos - WordPress.com · Documento pode conter ... do texto para tornar a informação acessível Classificação automática de textos A grupamento por semelhança

Desafios

Conseguir cópias dos documentos

Extrair as informações relevantes

Periodicidade em que o documento é

atualizado

Método para extração das informaçõe

Page 9: Leitura de Documentos - WordPress.com · Documento pode conter ... do texto para tornar a informação acessível Classificação automática de textos A grupamento por semelhança

Mineração de Textos

Informações encontram-se na forma de textos ou

documentos não estruturados ou semi-

estruturados

Semi-estruturado

Não são completamente estruturados

Não são completamente sem estrutura

Documento pode conter

Titulo, autor, data de publicação,

E alguns elementos sem estrutura

Resumo e conteudo

Page 10: Leitura de Documentos - WordPress.com · Documento pode conter ... do texto para tornar a informação acessível Classificação automática de textos A grupamento por semelhança

Mineração de Textos

Extrai informação relevante de uma grande base

de textos, sem precisar lê-los previamente.

Tratar a informação semi-estruturada

Desafio: Linguagem Natural

Page 11: Leitura de Documentos - WordPress.com · Documento pode conter ... do texto para tornar a informação acessível Classificação automática de textos A grupamento por semelhança

Mineração de Textos

Objetivo: Processamento da informação textual,

extraindo índices numéricos significativos a partir

do texto para tornar a informação acessível

Classificação automática de textos

A grupamento por semelhança são outras funcionalidades

comumente utilizadas

Um ponto sempre importante é a frequência de um

determinada frase ou palavra.

Ajuda a encontrar os conceitos repetidos

Ajuda a tratar os conceitos repetidos

Page 12: Leitura de Documentos - WordPress.com · Documento pode conter ... do texto para tornar a informação acessível Classificação automática de textos A grupamento por semelhança

Aplicações:Mineração de

Textos Análise de questões abertas em questionários

Processamento automático de mensagens, emails

Busca de referências em uma coleção de artigos,

motores de busca

Page 13: Leitura de Documentos - WordPress.com · Documento pode conter ... do texto para tornar a informação acessível Classificação automática de textos A grupamento por semelhança

Mineração de textos

Coleta de informações

Pré-processamento

Indexação Mineração Análise de resultados

Page 14: Leitura de Documentos - WordPress.com · Documento pode conter ... do texto para tornar a informação acessível Classificação automática de textos A grupamento por semelhança

Coleta de informações

Escolha das fontes de informações: coleta dos documentos que serão analisados

Identificar em um conjunto de documentos (corpus) quais atendem a necessidade do usuário

Documento decomposto em termos e frequência

Retirada de palavras de ligação (pronomes, artigos, conjunções).

Clustarização ( genero, plural X singular, verbo X substantivo)

Pré-processamento

Page 15: Leitura de Documentos - WordPress.com · Documento pode conter ... do texto para tornar a informação acessível Classificação automática de textos A grupamento por semelhança

Indexação

Organização com objetivo de busca ou acesso

rápido

Recuperação da informação

Cálculos, inferencias, extração de conhecimento

Mineração

Page 16: Leitura de Documentos - WordPress.com · Documento pode conter ... do texto para tornar a informação acessível Classificação automática de textos A grupamento por semelhança

Análise de resultados

Analista de requisitos analisa os resultados obtidos

Ferramenta pode ajudar gerando relatórios,

modelos que facilitem a leitura e interpretação

Exemplos de análises que podem ser realizadas:

Frequência

Um documento contendo esse termo tem boa chance de

ser relevante que não o tem, mas não um forte indicador

de relevância

Page 17: Leitura de Documentos - WordPress.com · Documento pode conter ... do texto para tornar a informação acessível Classificação automática de textos A grupamento por semelhança

Sinonímia e Polissemia

Sinonímia: palavra com vários

sinônimos

◦ Carro, automóvel, veículo

Polissemia: mesma palavra com

diferentes significados dependendo do

contexto

◦ Mineração (textos) X Mineração (carvão)

◦ Exame (teste) X exame ( médico)

◦ Manga (camisa) X Manga (fruta)

Page 18: Leitura de Documentos - WordPress.com · Documento pode conter ... do texto para tornar a informação acessível Classificação automática de textos A grupamento por semelhança

Stop Words: Conjunto de palavras

consideradas irrelevantes

◦ Artigos, preposições, conjunções

Steam: palavras diferentes

compartilham mesmo radical

◦ Necessidade de verificação quais

palavras em uma mesmo grupo são

pequenas variações sintáticas:

Droga, drogas, drogado, drogaria

Stop Words e STEAM

Page 19: Leitura de Documentos - WordPress.com · Documento pode conter ... do texto para tornar a informação acessível Classificação automática de textos A grupamento por semelhança

Ferramentas – Atlas TI

Ferramenta que ajuda a Leitura de Documentos

Realiza a busca pelas palavras com mais

relevância nos documentos

Possibilita a utilização de diversos documentos ao

mesmo tempo

Auxilio de grounded-theory

Realiza mecanismos de clusterização

Page 20: Leitura de Documentos - WordPress.com · Documento pode conter ... do texto para tornar a informação acessível Classificação automática de textos A grupamento por semelhança

Ferramentas – Atlas TI

Page 21: Leitura de Documentos - WordPress.com · Documento pode conter ... do texto para tornar a informação acessível Classificação automática de textos A grupamento por semelhança

Ferramentas – Atlas TI

Page 22: Leitura de Documentos - WordPress.com · Documento pode conter ... do texto para tornar a informação acessível Classificação automática de textos A grupamento por semelhança

Ferramentas – Atlas TI

Page 23: Leitura de Documentos - WordPress.com · Documento pode conter ... do texto para tornar a informação acessível Classificação automática de textos A grupamento por semelhança

Grounded Theory

Teoria indutiva baseada na análise sistemática dos dados,

Sem uma teoria a ser testada

Desejo de entender uma determinada situação

Através de métodos variados de coletas de dados, reune-se um volume de informações sobre o fenômeno observado.

Comparando-as, codificando-as, extraindo as regularidade – MINERAÇÃO.

Pesquisador termina então, nas suas conclusões, com algumas teorias que emergiram desta análise rigorosa e sistemática

Page 24: Leitura de Documentos - WordPress.com · Documento pode conter ... do texto para tornar a informação acessível Classificação automática de textos A grupamento por semelhança

Exemplo

Extração de informações da lei

Documentação: Texto da Lei de

Acesso a Informação

Como foram extraída as informações?

◦ Mineração

◦ Ferramenta: Atlas - TI

Page 25: Leitura de Documentos - WordPress.com · Documento pode conter ... do texto para tornar a informação acessível Classificação automática de textos A grupamento por semelhança

Exemplo

WORDS

Total

Count

information 87

access 70

information 68

law 64

public 53

term 30

entities 25

organs 25

authority 22

classification 21

secrecy 21

entity 20

caput 18

disclosure 18

organ 17

WORDS

Total

Count

information 155

access 71

law 67

public 55

secrecy 48

entities 45

organs 42

term 39

classification 36

authority 32

regulation 23

administration 23

disclosure 20

procedures 19

disposed 17

Page 26: Leitura de Documentos - WordPress.com · Documento pode conter ... do texto para tornar a informação acessível Classificação automática de textos A grupamento por semelhança

Exemplo