Aplicaciones del PLN
description
Transcript of Aplicaciones del PLN
PLN Aplicaciones 1
Aplicaciones del PLN
• Traducción Automática• Recuperación de la Información
• Information Retrieval (IR)
• Búsqueda de la • Question Answering (Q&A)
• Resumen automático• Clasificación de documentos
PLN Aplicaciones 2
Traducción Automática 1
• Proceso de pasar un texto en una lengua fuente a uno en una lengua objetivo preservando una serie de propiedades• la principal es el significado
• TA textual vs oral• TA vs Traducción asistida
• MAHT, HAMT
• Historia de la TA
PLN Aplicaciones 3
Traducción Automática 2
• Algunas lecturas introductorias• Generales
• Juan Alberto Alonso (2000) La Traducció automàtica capítulo 4 de Les tecnologies del llenguatge, M.A.Martí (ed) UOC
• Joseba Abaitua (1997)• http://www.uvigo.es/webs/sli/paxinas/abaitua.html
• TA estocástica• Kevin Knight (1999)
• http://www.isi.edu/natural-language/people/knight.html
• Horacio Rodriguez (2001) Técnicas estadísticas para la TA• http://www.lsi.upc.es/~horacio/doctorat/tapln/StochasticMT.zip
• Otras fuentes• http://www.clsp.jhu.edu/ws99/projects/mt/• http://www.iti.upv.es/~fcn/• http://www.iti.upv.es/~prhlt/
PLN Aplicaciones 4
Traducción Automática 3
• Aproximaciones básicas• Sistemas de traducción directa• Sistemas basados en transfer• Sistemas basados en Interlingua• Memorias de traducción
• Sistemas probabilísticos vs simbólicos
PLN Aplicaciones 5
Traducción Automática 4
Interlingua
E. Semántica
E. Sintáctica
E. Léxica
E. Semántica
E. Sintáctica
E. Léxica
Texto fuente Texto objetivo
traducción directa
transfer sintáctico
transfersemántico
PLN Aplicaciones 6
Traducción Automática 5
• Recorrido histórico• 1940's nacimiento (Weaver & Booth, GAT,
CETA, ...)• 1950's investigación activa (Systran, Metal, ...)• 1966 Informe ALPAC• hasta 1975 travesía del desierto• 1975 hasta 1985 resurgencia (Europa y Japón)
• Eurotra, Atlas,
• 1985 recuperación gradual
PLN Aplicaciones 7
Traducción Automática 6
• Razones de la recuperación• Necesidad• Cambio (humilde!!) en las expectativas• Potencia de computación• WWW• Desarrollo de la LC• Sistemas estadísticos e híbridos
PLN Aplicaciones 8
Traducción Automática Estadística Traducción Automática Estadística
Modelo del lenguaje objetivo Modelo de la traducción
• Dado un texto en un lenguaje fuente (f ) deseamos obtener su traducción en un lenguaje objetivo (o) de forma que se maximice la probabilidad de o dado f, P(o|f).
• Dado un texto en un lenguaje fuente (f ) deseamos obtener su traducción en un lenguaje objetivo (o) de forma que se maximice la probabilidad de o dado f, P(o|f).
o)|P(fP(o)argmaxf)|P(oargmaxooo
OPT
PLN Aplicaciones 9
Noisy Channel Model 1Noisy Channel Model 1
eNoisy Channel Decoder
f ê
• Problemas• obtención de los modelos
• P(f|e)
• P(e)
• búsqueda de ê (decoder)
• Problemas• obtención de los modelos
• P(f|e)
• P(e)
• búsqueda de ê (decoder)
PLN Aplicaciones 10
Noisy Channel Model 2Noisy Channel Model 2
• P(f|e)• Asegura una "buena" traducción de las
palabras del texto
• P(e)• Asegura una "buena" gramaticalidad del
texto en la lengua objetivo
• P(f|e)• Asegura una "buena" traducción de las
palabras del texto
• P(e)• Asegura una "buena" gramaticalidad del
texto en la lengua objetivo
PLN Aplicaciones 11
Proceso de TraducciónProceso de Traducción
f'
Transformación
Decoder
f
e
Transformación
e'
Lexicon Model
Alignment Model
Language Model
PLN Aplicaciones 12
Modelos estadísticos del lenguajeModelos estadísticos del lenguaje
• Modelos estadísticos• Modelos del lenguaje (LM)• Vocabulario (V), palabra
• w V
• Lenguaje (L), oración • s L
• L V* normalmente infinito
• s = w1,…wN
• Probabilidad de s• P(s)
• Modelos estadísticos• Modelos del lenguaje (LM)• Vocabulario (V), palabra
• w V
• Lenguaje (L), oración • s L
• L V* normalmente infinito
• s = w1,…wN
• Probabilidad de s• P(s)
PLN Aplicaciones 13
Implementación de LMImplementación de LM
• Implementación intuitiva• Enumerar s L
• Calcular las p(s)
• Parámetros del modelo |L|
• Simplificaciones
• historia• hi = { wi, … wi-1}
• Modelos de Markov
• Implementación intuitiva• Enumerar s L
• Calcular las p(s)
• Parámetros del modelo |L|
• Simplificaciones
• historia• hi = { wi, … wi-1}
• Modelos de Markov
N
1iii
N1 )h|wP()wP(P(s)
PLN Aplicaciones 14
Modelo de traducción 1Modelo de traducción 1
• P(f|e)• fuente: f = f1f2...fm
• objetivo: e = e1e2…el
• alineamiento: a = a1a2…am
• en general• a {1,…,m} {1,…,l}
• se suele tomar• a: {1,…,m} {0,…,l}
• a(j) 0 a fj le corresponde ea(j)
• a(j) = 0 fj no está alineada
• A(f,e) es el conjunto de alineamientos posibles• existen 2lm alineamientos
• P(f|e)• fuente: f = f1f2...fm
• objetivo: e = e1e2…el
• alineamiento: a = a1a2…am
• en general• a {1,…,m} {1,…,l}
• se suele tomar• a: {1,…,m} {0,…,l}
• a(j) 0 a fj le corresponde ea(j)
• a(j) = 0 fj no está alineada
• A(f,e) es el conjunto de alineamientos posibles• existen 2lm alineamientos
PLN Aplicaciones 15
Modelo de traducción 2Modelo de traducción 2
• Lo básico es estimar las probabilidades de los alineamientos, normalmente a partir de corpus alineados, parallel corpora, (a veces a partir de corpus simplemente equivalentes o comparables)
• Modelos clásicos de traducción• IBM 1: sólo probabilidades léxicas
• IBM 2: + posición
• IBM 3: + fertilidad
• ...
• Lo básico es estimar las probabilidades de los alineamientos, normalmente a partir de corpus alineados, parallel corpora, (a veces a partir de corpus simplemente equivalentes o comparables)
• Modelos clásicos de traducción• IBM 1: sólo probabilidades léxicas
• IBM 2: + posición
• IBM 3: + fertilidad
• ...
PLN Aplicaciones 16
Alineamientos 1
and the program has been implemented1 2 3 4 5 6
le programme a été mis en application1 2 3 4 5 6 7
PLN Aplicaciones 17
Alineamientos 2
the balance was the territory of the aboriginal people1 2 3 4 5 6 7 8 9
le reste appartenait aux autochtones1 2 3 4 5
PLN Aplicaciones 18
Alineamientos 3
the poor don't have any money1 2 3 4 5 6
les pauvres sont demunis1 2 3 4
PLN Aplicaciones 19
Alineamientos 4
NULL Mary did not slap the green witch0 1 2 3 4 5 6 7
Mary no dió una bofetada a la bruja verde1 2 3 4 5 6 7 8 9
alineamiento:[1, 3, 4, 4, 4, 0, 5, 7, 6]
PLN Aplicaciones 20
Alineamientos 5
Mary no dió una bofetada a la bruja verde1 2 3 4 5 6 7 8 9
witchgreen
theslapnot did
Mary
xx
xx x x
x
x
PLN Aplicaciones 21
La IR trata de la Representación, Almacenamiento, Organización y acceso a las
Unidades de Información
Textos (documentos)
Hipertextos,Multimedia,...
Recuperación de la Información 1
PLN Aplicaciones 22
Componentes de un SRI (Oard,Dorr,96)
Consulta
representación 2representación 1
Documento
espacio de las consultas: Q espacio de los documentos: D
espacio de representación: R
q d
juicio humano: j
función de comparación: c
{0,1}
{0,1}
PLN Aplicaciones 23
Sistema ideal
c(q(cons), d(doc)) = j(cons, doc)cons Qdoc D
PLN Aplicaciones 24
Proceso de la Recuperación de Información
Interfaz de usuario
Opeaciones textuales
Base detextos
Gestor de BD
texto
texto
consulta
operaciones sobre la consulta
Indexado
Indices
representaciónrealimentación
Búsqueda
consulta
Clasificación
documentosrecuperadosdocumentos
clasificados
PLN Aplicaciones 25
Características de los SRI
• Tipo de información almacenada• Texto, voz, información estructurada
• Lenguaje de consulta• Exacto, ambiguo
• Tipo de emparejamiento• Exacto, aproximado
• Tipo de información deseada• Vaga, precisa
• Relevancia: utilidad de la información para el usuario de acuerdo a su consulta.
PLN Aplicaciones 26
Operaciones sobre los documentos
• Preproceso• análisis léxico, estandarización
• formas no estándard, fechas, números, siglas, locuciones, lexías, ...
• lematización• análisis morfológico, consulta a formarios, reglas léxicas/morfol, alg. Porter
• filtrado• Stopwords (diccionarios negativos)
• Clasificación• manual• automática
• clasificación• clustering
• Compresión
PLN Aplicaciones 27
Indexado
• indexado manual vs automático• indicadores
• objetivos: estructurales• subjetivos: textuales (de contenido)
• indexado pre-coordinado vs post-coordinado• términos simples vs términos en contexto
Modelo más corriente: Bag of simple words
PLN Aplicaciones 28
Representación de los documentos
• Modelos clásicos• texto completo• booleano• vectorial• probabilístico
• Variantes evolucionadas del modelo probabilístico• Bayesiano• Redes de inferencia• Redes de creencia
• paradigmas alternativos• Modelo vectorial generalizado• Modelo booleano extendido• Latent Semantic Indexing• Redes neuronales
PLN Aplicaciones 29
Operaciones de consulta
Modelo booleano simple
Expresiones booleanas sobre términosque aparecen en el documento o palabras clave.
Conectivos: AND, OR, NOT,paréntesis
Extensiones:
restricciones de distancia (nivel párrafo,nivel frase, adyacencia)ventana fija o variable
Modelo booleano extendido:ponderación de términos: frecuencia deltérmino en el documento, en la colección,normalizaciónExpansión de las consultas
uso de F.Conocimiento externas (ej. WN)extensión con sinónimos y/o hiperónimostruncado de términosgeneralización morfológicarelevance feedback
PLN Aplicaciones 30
Medidas de calidad de la recuperación
recuperado
relevante
a
b
c
d
recuperados = a + brelevantes = a + drecall (cobertura) = a / (a + d)precisión = a / (a + b)
recall = están todos los que sonprecisión= son todos los que están
Cuando el resultado es una ordenación de documentos con un índice de relevancia asociado (ranked) yno un booleano, las medidas pueden ser vectores de precisión a (normalmente) 3, 5, 7, 9, 11 puntos decobertura (p.ej. a niveles (0.2, 0.5, 0.8) o medias de estos vectores.
r pβ
rp1)(β F
2
2
PLN Aplicaciones 31
Modelo booleano
t1 t2 t3 ... ti ... tm
d1 0 1 0
d2 1 0 1 0
d3
...
dj
...
dn
atributos: todos los términos (palabras, lemas,multipalabras, ...) que aparecen en la colección(excepto los stopwords)
filas: cada documento representado por un vectorde booleanos (1 si el término aparece en el documento,0 en caso contrario). Hay n documentos
columnas: cada término representado por un vectorde booleanos. Hay m términos
no es posible una respuesta ponderadano se tiene en cuenta ni frecuencia ni orden niimportancia de los términos
PLN Aplicaciones 32
Modelo Vectorial 1
t1 t2 t3 ... ti ... tm
d1
d2
d3
...
dj wij
...
dn
wij peso (relevancia) del término j en el documento i
Forma más corriente de definir la relevancia
tfij frecuencia del término tj en el documento di
dfj # documentos en los que aparece tj
idfj log (N / dfj )
wij = tfij * idfj
PLN Aplicaciones 33
Modelo Vectorial 2
)d,dsim(1)-N(N
1 Q ji
N
1i
N
ij1,j
Otra forma
dvj poder discriminador de un término. Si al seleccionarlo disminuye la similitud entre documentos (la densidad)dvj = Q - Qj
Q densidad sin seleccionar el término tj
N = # documentosQj densidad seleccionando el término tj
relevancia: wij = tfij * dvj
PLN Aplicaciones 34
Modelo Vectorial 3
Otra forma
C = centroide de la colección de documentos Q densidad respecto al centroide C
N
1ii )dsim(C,
N
1 Q
El cálculo de la relevancia es idéntico al caso anterior
En cualquier caso la consulta se representa también vectorialmente y se seleccionan los documentos más próximos de acuerdo a unadistancia
PLN Aplicaciones 35
Medidas de similitud
Medida de similitud
Producto escalar
Coeficiente de Dice
Coseno
Coeficiente de Jaccard
i
m
1ii yx
m
1i
m
1i
2i
2i
i
m
1ii
yx
yx2
m
1i
m
1i
2i
2i
i
m
1ii
yx
yx
m
1i
m
1i
m
1iii
2i
2i
i
m
1ii
yxyx
yx
Modelo booleano Modelo vectorial
YX
YX
YX2
YX
YX
YXYX
YX
PLN Aplicaciones 36
IR y LN
• Recursos de LN• Tareas de PLN
• Indexado• palabras, raices, lemas, acepciones, multitérminos• , frases, …• problemas:
• nombres propios• palabras desconocidas• unidades no estándar• polisemia
• => Sólo levemente mejor que usar monotérminos (formas)
• Recuperación• expansión de las consultas
PLN Aplicaciones 37
CLIR
• Cross Language Information Retrieval• Recuperación de documentos de acuerdo a peticiones
formuladas por una persona sin tener en cuenta la lengua en que los documentos y las consultas han sido expresadas
• Técnicas• Traducir los documentos• Traducir las consultas• Proyectar unos y otras a un espacio de indexado neutral
• Limitaciones• Los textos de las consultas son más cortos que los documentos• El contexto (y la fiabilidad) al traducir la consulta es menor• Los errores de traducción son menos graves en los documentos
PLN Aplicaciones 38
Aproximaciones a CLIR (Oard,97)
CLIR
VocabularioControlado
Texto libre
Basado en Corpus Basado en Conocimiento
Basado en Ontologías
Basado en Diccionarios
Basado en Tesauros
Corpusparalelos
Corpuscomparables
Corpusmonolingües
Alineaciónde documentos
Alineaciónde oraciones
Alineaciónde términos
PLN Aplicaciones 39
Question Answering 1
• Sistemas de Q&A• Un sistema de QA parte de una consulta expresada en
lenguaje natural y debe devolver no un documento que sea relevante (es decir que contenga la respuesta) sino la propia respuesta (normalmente un hecho)
• Si los sistemas de IR convencionales utilizaban técnicas básicamente estadísticas, los sistemas de Q&A utilizan de forma creciente técnicas de TLN
• Sistemas de Q&A• Un sistema de QA parte de una consulta expresada en
lenguaje natural y debe devolver no un documento que sea relevante (es decir que contenga la respuesta) sino la propia respuesta (normalmente un hecho)
• Si los sistemas de IR convencionales utilizaban técnicas básicamente estadísticas, los sistemas de Q&A utilizan de forma creciente técnicas de TLN
PLN Aplicaciones 40
Question Answering 2
• Algunos sistemas de QA accesibles a través de Internet: • START
• http://www.ai.mit.edu/projects/infolab/globe.html
• IO search engine• http://www.ionaut.com:8400/
• Webclopedia• http://www.isi.edu/natural-language/projects/webclopedia/
• AskJeeves• http://www.ask.com
• LCC• http://www.languagecomputer.com/
• Algunos sistemas de QA accesibles a través de Internet: • START
• http://www.ai.mit.edu/projects/infolab/globe.html
• IO search engine• http://www.ionaut.com:8400/
• Webclopedia• http://www.isi.edu/natural-language/projects/webclopedia/
• AskJeeves• http://www.ask.com
• LCC• http://www.languagecomputer.com/
PLN Aplicaciones 41
Question Answering 3
• Aparición en las competeciones del TREC a partir del TREC-8 (1999)
• Disciplinas relacionadas• Recuperación de la información (obviamente) y disciplinas afines (I
routing, filtering, harvesting, ...) • Answer Finding
• Dada una base de preguntas y respuestas (como las habituales FAQ) se trata de localizar la (s) pregunta (s) más próximas a la planteada para devolver su (s) respuesta (s)
• FAQ Finder: http://infolab.cs.uchicago.edu/faqfinder/
• Interfaces en LN a bases de datos• Sistemas de Integración de información (Information Integration, II)• Extracción de la Información (Information Extraction, IE)
PLN Aplicaciones 42
Q&A, Qué leerQ&A, Qué leer
• Horacio Rodriguez (2001)• http://www.lsi.upc.es/~horacio/doctorat/tapln/QA.zip
• Documentos de las conferencias TREC• TREC-8 http://trec.nist.gov/pubs/trec8/t8_proceedings.html
• TREC-9 http://trec.nist.gov/pubs/trec9/t9_proceedings.html
• TREC-10 http://trec.nist.gov/pubs/trec10/t10_proceedings.html
• Horacio Rodriguez (2001)• http://www.lsi.upc.es/~horacio/doctorat/tapln/QA.zip
• Documentos de las conferencias TREC• TREC-8 http://trec.nist.gov/pubs/trec8/t8_proceedings.html
• TREC-9 http://trec.nist.gov/pubs/trec9/t9_proceedings.html
• TREC-10 http://trec.nist.gov/pubs/trec10/t10_proceedings.html
http://www.isi.edu/natural-language/projects/webclopedia/http://www.seas.smu.edu/~sanda/http://www.cs.utexas.edu/users/sanda/http://www.languagecomputer.com/http://www.dlsi.ua.es/~vicedo/http://www.dlsi.ua.es/~antonio/
PLN Aplicaciones 43
Q&A en las evaluaciones del TREC
0
10
20
30
40
50
60
70
U.M
eth
odis
t
U.S
o.C
alif
orn
Mu
ltit
ext
IBM
Haw
th.
IBM
Yor
kt.
Qu
een
s C
oll.
Syr
acu
seC
NL
P
NT
T D
AT
A
U.A
lican
te
Xer
ox
Imp
eria
l Col
l.
Kai
st
U.S
hef
fiel
d
Mic
roso
ft
Un
iv. F
ud
an
U.M
ontr
eal
U.A
lber
ta
LIM
SI
CL
Res
earc
h
U.S
eou
l
U.P
isa
Con
exor
Oy
Mit
re
50-bytes
Evaluación del TREC 9
PLN Aplicaciones 44
Q&A en las evaluaciones del TREC y CLEF
• Participación del grupo Talp (UPC) en• TREC 2003• CLEF 2004• TREC 2004
PLN Aplicaciones 45
Q&A, Arquitectura básica 1
• Uso de técnicas de IR • utilizar las palabras de la pregunta como términos de una
consulta y recuperar los documentos más relevantes de acuerdo a ella.
• Extensiones de tipo heurístico para localizar la respuesta• Más adecuadas en la competición de 250 bytes• Pero ...
• no todas las palabras de la pregunta son relevantes para buscar la respuesta
• recuperar el documento relevante no concluye la tarea, hay que extraer de él la respuesta.
PLN Aplicaciones 46
Q&A, Arquitectura básica 2
La mayoría de los sistemas de QA se organizan en 4 subtareas
Tratamiento de la pregunta
IR de los documentos relevantes
Segmentación en fragmentos, IR de los fragmentos
Extracción de la respuesta.
PLN Aplicaciones 47
Q&A, Arquitectura básica 3
Normalmente las cuatro tareas se abordan en secuencia
IR de los documentos relevantes
Segmentación en fragmentos, IR de los fragmentos
Extracción de la respuesta.
Tratamiento de la pregunta Términos relevantesTipo de preguntaFoco...
Documentos relevantes
fragmentos relevantes
respuesta
PLN Aplicaciones 48
Resumen Automático 1
• A summary is a reductive transformation of a source text into a summary text by extraction or generation• Sparck-Jones, 2001
PLN Aplicaciones 49
Resumen Automático 2
• Localizar las partes de un texto que son relevantes (para las necesidades de un usuario) y producir un resumen de las mismas
• Sum vs IE• IE
• Se define a priori la estructura a extraer• “Sé lo que deseo, búscamelo”
• Sum• No tiene por qué haber una definición previa de criterios de
interés• “Qué hay aquí de interesante”
PLN Aplicaciones 50
Resumen automático, Qué leer
• Tutorial• E.Hovy, D. Marcu (1998)
• Horacio Rodriguez (2001) Summarization• http://www.lsi.upc.es/~horacio/doctorat/tapln/Summarisation.zip
PLN Aplicaciones 51
Características del resumen 1
• Tipo• Indicativo vs informativo
• Extract vs Abstract (vs gist)
• Genérico vs respuesta a una consulta (query based)
• Background vs Novedad (just-the-news)
• un solo documento vs multidocumento
• general vs dependiente del dominio
• textual vs multimedia
• Entrada• dominio, género, forma, tamaño
PLN Aplicaciones 52
Características del resumen 2
• Disciplinas relacionadas• IE, IR, Q&A, Topic identification (TI), Document Classification
(DC), Event (topic) detection and tracking (TDT)
• Evaluación• Aplicaciones
• recensiones biográficas
• resúmenes de historiales médicos
• resúmenes de correo electrónico
• de páginas Web
• de noticias
• extracción de titulares (headlines)
• apoyo a los sistemas de recuperación de información
• resúmenes de reuniones
PLN Aplicaciones 53
Esquema básico
multi-document
single-document
query
Summarizer
extract
abstract
headline
condiciones
PLN Aplicaciones 54
Técnicas empleadas 1
• cadenas léxicas• [Barzilay, 1997]
• cadenas de correferencia• [Baldwin, Morton, 1998]
• [Bagga, Baldwin, 1998]
• técnicas de alineación• [Banko et al, 1999]
• Compresión, reducción o simplificación de oraciones (cut & paste)• [Jing, 2000]
• [Jing, McKeown, 1999]
PLN Aplicaciones 55
Técnicas empleadas 2
• modelos estadísticos• modelos estadísticos de la lengua
• [Berger, 2001], [Berger, Mittal, 2000]
• modelos bayesianos• [Kupiec et al, 1995], [Schlesinger et al, 2001]
• cadenas ocultas de Markov
• Regresión logística• [Conroy et al, 2001]
• Machine Learning• árboles de decisión
• ILP• [Knight, Marcu, 2000], [Tzoukerman et al, 2001]
• medidas de similitud y divergencia• MMR
• [Carbonell, Goldstein, 1998]
PLN Aplicaciones 56
Técnicas empleadas 3
• IE• [Kan, McKeown, 1999]
• Topic Detection• [Hovy, Lin, 1999]
• [Hovy, 2000]
• Topic Signatures• [Lin, Hovy, 2001]
• estructura retórica del documento• [Marcu, 1997]
• Combinación• [Goldstein et al, 1999], [Kraaij et al, 2001],
• [Muresan et al, 2000], [White et al, 2001].
PLN Aplicaciones 57
Multidocument Summarization (MDS) 1
• Contenido de una colección de documentos• Briefing
• concise summary of the factual matter of a set of news articles on the same or related events (SUMMONS, Radev,1999)
• Actualización de información ya conocida• localización de las secciones de una serie de documentos
relevantes para las necesidades de información del usuario
Objetivos
PLN Aplicaciones 58
MDS 2
• Factor de compresión más bajo• Medidas anti-redundancia• dimensión temporal• mayor reto de la correferencia• aplicación a la búsqueda de información
• interfaz de usuario
Diferencias SDS MDS
PLN Aplicaciones 59
MDS 3
• Clustering de documentos y pasajes• cobertura• anti-redundancia• cohesión del resumen• calidad
• legible• relevante• contexto
• inconsistencias de las fuentes• actualizaciones
Requisitos
PLN Aplicaciones 60
MDS 4
• A partir de las secciones comunes a los documentos de la colección • Secciones comunes + secciones únicas• Centroides• Centroides + outliers• Último documento + outliers• Secciones comunes + secciones únicas + factor de ponderación del
tiempo
Tipos
PLN Aplicaciones 61
MDS 5
• Information Fusion (Barzilay et al,1999)• artículos que presentan diferentes descripciones de la misma noticia
• La repetición es buen indicador de relevancia
• automatically generate a concise summary by identifying similarities and differences across a set of related documents.
• Identifying themes
• Information Fusion
• Generation (Reformulation)
• Approaches• Columbia Univ.
• Barzilay et al, 1999, McKeown et al,1999, Hatzivassilogtlou et al,1999
• Barzilay et al, 2001, Elhadad, Mc.Keown, 2001
• CMU• Mittal et al,1999
PLN Aplicaciones 62
MDS 6
Feature Extraction
Feature Synthesis
Rule Induction
Theme Intersection
Sentence Generator
Sentence PlannerThemes
Analysis Component Generation Component
article 1 .... article n Summary
Mc.Keown et al, 1999 MULTIGEN
PLN Aplicaciones 63
Clasificación de documentos 1
• Clasificación vs. Clustering• Asignar cada documento a una clase perteneciente a
un conjunto predefinido de clases• Ejemplos:
• filtrado de mensajes spam
• identificación de la lengua
• documento interesante para un usuario
• asignación del dominio temático• categorías temáticas
PLN Aplicaciones 64
Clasificación de documentos 2
• Variaciones:• Multiclass
• un documento puede ser asignado a más de una clase
• Rank• se asocia a cada documento la probabilidad de pertenencia a cada
una de las clases
• Factores para la categorización• Contenido textual
• Metadatos
PLN Aplicaciones 65
Clasificación de documentos 3
• Aproximaciones• Vectoriales
• Categorizar cada clase como un documento prototípico (Topic Signature, Lexical Profile, ...)
• Representar el documento a clasificar usando el VSM (Vector Space Model)
• Utilizar alguna medida de similitud comparando el vector asociado al documento con los asociados a cada una de las clases
• Elegir la (s) mejor (es) u ordenarlas
• Uso de técnicas de ML• Naive Bayes, Listas de decisión, árboles de decisión, máxima
entropía, SVM, boosting, ...
PLN Aplicaciones 66
Clasificación de documentos 4
• Precision = good messages kept all messages kept
• Recall =good messages kept all good messages
Precision vs. Recall of Good (non-spam) Email
0%
25%
50%
75%
100%
0% 25% 50% 75% 100%
Recall
Pre
cisi
on