Leitura de Documentos - WordPress.com · Documento pode conter ... do texto para tornar a...
Transcript of Leitura de Documentos - WordPress.com · Documento pode conter ... do texto para tornar a...
Leitura de documentos Leitura de documentos formais que regulam ou
descrevem o sistema ou aspectos que interferem
em sua execução
◦ Quais documentos?
Conhecimento formal e explícito já disponível
sobre o domínio
Requer documentação atualizada
Leitura de Documentos
Técnica de elicitação de requisitos
Feita pelo engenheiro de requisitos
Possibilita o contato com o vocabulário da
aplicação.
Encontra conceitos do Universo de Informações
Acesso ao conhecimento escrito da organização
Leitura de documentos
Se o documento já estiver organizado (índice,
sumário) o trabalho de encontrar os conceitos
relevantes será facilitado.
Caso contrario, há que se empregar heurísticas
para encontrarmos os principais fatos (conceitos)
Coleta de dados
Resumo por capítulos; Evidenciar partes mais importantes;
Utilizar índice por palavra-chave; Entender o vocabulário em
uso; …
Documentos Similares:
Identificar e Relacionar as estruturas existentes; …
Macrosistema (leitura mais cuidadosa)
Sublinhar palavras repetidas;
Destacar os sinônimos;
Anotar termos desconhecidos;
Buscar relacionamentos;
Entender a estrutura dos documentos;
5
Vantagens
Facilidade de acesso às fontes de informação
Volume de informações extraídas dessas fontes
Desvantagem
dispersão das informações
volume de trabalho para identificação dos fatos
Atualização das informações
Ferramentas podem ajudar a minorar as
desvantagens
Que tipo de ferramentas?
Desafios
Conseguir cópias dos documentos
Extrair as informações relevantes
Periodicidade em que o documento é
atualizado
Método para extração das informaçõe
Mineração de Textos
Informações encontram-se na forma de textos ou
documentos não estruturados ou semi-
estruturados
Semi-estruturado
Não são completamente estruturados
Não são completamente sem estrutura
Documento pode conter
Titulo, autor, data de publicação,
E alguns elementos sem estrutura
Resumo e conteudo
Mineração de Textos
Extrai informação relevante de uma grande base
de textos, sem precisar lê-los previamente.
Tratar a informação semi-estruturada
Desafio: Linguagem Natural
Mineração de Textos
Objetivo: Processamento da informação textual,
extraindo índices numéricos significativos a partir
do texto para tornar a informação acessível
Classificação automática de textos
A grupamento por semelhança são outras funcionalidades
comumente utilizadas
Um ponto sempre importante é a frequência de um
determinada frase ou palavra.
Ajuda a encontrar os conceitos repetidos
Ajuda a tratar os conceitos repetidos
Aplicações:Mineração de
Textos Análise de questões abertas em questionários
Processamento automático de mensagens, emails
Busca de referências em uma coleção de artigos,
motores de busca
Mineração de textos
Coleta de informações
Pré-processamento
Indexação Mineração Análise de resultados
Coleta de informações
Escolha das fontes de informações: coleta dos documentos que serão analisados
Identificar em um conjunto de documentos (corpus) quais atendem a necessidade do usuário
Documento decomposto em termos e frequência
Retirada de palavras de ligação (pronomes, artigos, conjunções).
Clustarização ( genero, plural X singular, verbo X substantivo)
Pré-processamento
Indexação
Organização com objetivo de busca ou acesso
rápido
Recuperação da informação
Cálculos, inferencias, extração de conhecimento
Mineração
Análise de resultados
Analista de requisitos analisa os resultados obtidos
Ferramenta pode ajudar gerando relatórios,
modelos que facilitem a leitura e interpretação
Exemplos de análises que podem ser realizadas:
Frequência
Um documento contendo esse termo tem boa chance de
ser relevante que não o tem, mas não um forte indicador
de relevância
Sinonímia e Polissemia
Sinonímia: palavra com vários
sinônimos
◦ Carro, automóvel, veículo
Polissemia: mesma palavra com
diferentes significados dependendo do
contexto
◦ Mineração (textos) X Mineração (carvão)
◦ Exame (teste) X exame ( médico)
◦ Manga (camisa) X Manga (fruta)
Stop Words: Conjunto de palavras
consideradas irrelevantes
◦ Artigos, preposições, conjunções
Steam: palavras diferentes
compartilham mesmo radical
◦ Necessidade de verificação quais
palavras em uma mesmo grupo são
pequenas variações sintáticas:
Droga, drogas, drogado, drogaria
Stop Words e STEAM
Ferramentas – Atlas TI
Ferramenta que ajuda a Leitura de Documentos
Realiza a busca pelas palavras com mais
relevância nos documentos
Possibilita a utilização de diversos documentos ao
mesmo tempo
Auxilio de grounded-theory
Realiza mecanismos de clusterização
Ferramentas – Atlas TI
Ferramentas – Atlas TI
Ferramentas – Atlas TI
Grounded Theory
Teoria indutiva baseada na análise sistemática dos dados,
Sem uma teoria a ser testada
Desejo de entender uma determinada situação
Através de métodos variados de coletas de dados, reune-se um volume de informações sobre o fenômeno observado.
Comparando-as, codificando-as, extraindo as regularidade – MINERAÇÃO.
Pesquisador termina então, nas suas conclusões, com algumas teorias que emergiram desta análise rigorosa e sistemática
Exemplo
Extração de informações da lei
Documentação: Texto da Lei de
Acesso a Informação
Como foram extraída as informações?
◦ Mineração
◦ Ferramenta: Atlas - TI
Exemplo
WORDS
Total
Count
information 87
access 70
information 68
law 64
public 53
term 30
entities 25
organs 25
authority 22
classification 21
secrecy 21
entity 20
caput 18
disclosure 18
organ 17
WORDS
Total
Count
information 155
access 71
law 67
public 55
secrecy 48
entities 45
organs 42
term 39
classification 36
authority 32
regulation 23
administration 23
disclosure 20
procedures 19
disposed 17
Exemplo