Aplicaciones del PLN

PLN Aplicaciones 1

Aplicaciones del PLN

• Traducción Automática• Recuperación de la Información

• Information Retrieval (IR)

• Búsqueda de la • Question Answering (Q&A)

• Resumen automático• Clasificación de documentos

PLN Aplicaciones 2

Traducción Automática 1

• Proceso de pasar un texto en una lengua fuente a uno en una lengua objetivo preservando una serie de propiedades• la principal es el significado

• TA textual vs oral• TA vs Traducción asistida

• MAHT, HAMT

• Historia de la TA

PLN Aplicaciones 3


• Algunas lecturas introductorias• Generales

• Juan Alberto Alonso (2000) La Traducció automàtica capítulo 4 de Les tecnologies del llenguatge, M.A.Martí (ed) UOC

• Joseba Abaitua (1997)• http://www.uvigo.es/webs/sli/paxinas/abaitua.html

• TA estocástica• Kevin Knight (1999)

• http://www.isi.edu/natural-language/people/knight.html

• Horacio Rodriguez (2001) Técnicas estadísticas para la TA• http://www.lsi.upc.es/~horacio/doctorat/tapln/StochasticMT.zip

• Otras fuentes• http://www.clsp.jhu.edu/ws99/projects/mt/• http://www.iti.upv.es/~fcn/• http://www.iti.upv.es/~prhlt/

PLN Aplicaciones 4


• Aproximaciones básicas• Sistemas de traducción directa• Sistemas basados en transfer• Sistemas basados en Interlingua• Memorias de traducción

• Sistemas probabilísticos vs simbólicos

PLN Aplicaciones 5


Interlingua

E. Semántica

E. Sintáctica

E. Léxica

E. Semántica

E. Sintáctica

E. Léxica

Texto fuente Texto objetivo

traducción directa

transfer sintáctico

transfersemántico

PLN Aplicaciones 6


• Recorrido histórico• 1940's nacimiento (Weaver & Booth, GAT,

CETA, ...)• 1950's investigación activa (Systran, Metal, ...)• 1966 Informe ALPAC• hasta 1975 travesía del desierto• 1975 hasta 1985 resurgencia (Europa y Japón)

• Eurotra, Atlas,

• 1985 recuperación gradual

PLN Aplicaciones 7


• Razones de la recuperación• Necesidad• Cambio (humilde!!) en las expectativas• Potencia de computación• WWW• Desarrollo de la LC• Sistemas estadísticos e híbridos

PLN Aplicaciones 8

Traducción Automática Estadística Traducción Automática Estadística

Modelo del lenguaje objetivo Modelo de la traducción

• Dado un texto en un lenguaje fuente (f ) deseamos obtener su traducción en un lenguaje objetivo (o) de forma que se maximice la probabilidad de o dado f, P(o|f).

• Dado un texto en un lenguaje fuente (f ) deseamos obtener su traducción en un lenguaje objetivo (o) de forma que se maximice la probabilidad de o dado f, P(o|f).

o)|P(fP(o)argmaxf)|P(oargmaxooo

OPT

PLN Aplicaciones 9

Noisy Channel Model 1Noisy Channel Model 1

eNoisy Channel Decoder

f ê

• Problemas• obtención de los modelos

• P(f|e)

• P(e)

• búsqueda de ê (decoder)

• Problemas• obtención de los modelos

• P(f|e)

• P(e)

• búsqueda de ê (decoder)

PLN Aplicaciones 10

Noisy Channel Model 2Noisy Channel Model 2

• P(f|e)• Asegura una "buena" traducción de las

palabras del texto

• P(e)• Asegura una "buena" gramaticalidad del

texto en la lengua objetivo

• P(f|e)• Asegura una "buena" traducción de las

palabras del texto

• P(e)• Asegura una "buena" gramaticalidad del

texto en la lengua objetivo

PLN Aplicaciones 11

Proceso de TraducciónProceso de Traducción

f'

Transformación

Decoder

f

e

Transformación

e'

Lexicon Model

Alignment Model

Language Model

PLN Aplicaciones 12

Modelos estadísticos del lenguajeModelos estadísticos del lenguaje

• Modelos estadísticos• Modelos del lenguaje (LM)• Vocabulario (V), palabra

• w V

• Lenguaje (L), oración • s L

• L V* normalmente infinito

• s = w1,…wN

• Probabilidad de s• P(s)

• Modelos estadísticos• Modelos del lenguaje (LM)• Vocabulario (V), palabra

• w V

• Lenguaje (L), oración • s L

• L V* normalmente infinito

• s = w1,…wN

• Probabilidad de s• P(s)

PLN Aplicaciones 13

Implementación de LMImplementación de LM

• Implementación intuitiva• Enumerar s L

• Calcular las p(s)

• Parámetros del modelo |L|

• Simplificaciones

• historia• hi = { wi, … wi-1}

• Modelos de Markov

• Implementación intuitiva• Enumerar s L

• Calcular las p(s)

• Parámetros del modelo |L|

• Simplificaciones

• historia• hi = { wi, … wi-1}

• Modelos de Markov

N

1iii

N1 )h|wP()wP(P(s)

PLN Aplicaciones 14

Modelo de traducción 1Modelo de traducción 1

• P(f|e)• fuente: f = f1f2...fm

• objetivo: e = e1e2…el

• alineamiento: a = a1a2…am

• en general• a {1,…,m} {1,…,l}

• se suele tomar• a: {1,…,m} {0,…,l}

• a(j) 0 a fj le corresponde ea(j)

• a(j) = 0 fj no está alineada

• A(f,e) es el conjunto de alineamientos posibles• existen 2lm alineamientos

• P(f|e)• fuente: f = f1f2...fm

• objetivo: e = e1e2…el

• alineamiento: a = a1a2…am

• en general• a {1,…,m} {1,…,l}

• se suele tomar• a: {1,…,m} {0,…,l}

• a(j) 0 a fj le corresponde ea(j)

• a(j) = 0 fj no está alineada

• A(f,e) es el conjunto de alineamientos posibles• existen 2lm alineamientos

PLN Aplicaciones 15

Modelo de traducción 2Modelo de traducción 2

• Lo básico es estimar las probabilidades de los alineamientos, normalmente a partir de corpus alineados, parallel corpora, (a veces a partir de corpus simplemente equivalentes o comparables)

• Modelos clásicos de traducción• IBM 1: sólo probabilidades léxicas

• IBM 2: + posición

• IBM 3: + fertilidad

• ...

• Lo básico es estimar las probabilidades de los alineamientos, normalmente a partir de corpus alineados, parallel corpora, (a veces a partir de corpus simplemente equivalentes o comparables)

• Modelos clásicos de traducción• IBM 1: sólo probabilidades léxicas

• IBM 2: + posición

• IBM 3: + fertilidad

• ...

PLN Aplicaciones 16

Alineamientos 1

and the program has been implemented1 2 3 4 5 6

le programme a été mis en application1 2 3 4 5 6 7

PLN Aplicaciones 17

Alineamientos 2

the balance was the territory of the aboriginal people1 2 3 4 5 6 7 8 9

le reste appartenait aux autochtones1 2 3 4 5

PLN Aplicaciones 18

Alineamientos 3

the poor don't have any money1 2 3 4 5 6

les pauvres sont demunis1 2 3 4

PLN Aplicaciones 19

Alineamientos 4

NULL Mary did not slap the green witch0 1 2 3 4 5 6 7

Mary no dió una bofetada a la bruja verde1 2 3 4 5 6 7 8 9

alineamiento:[1, 3, 4, 4, 4, 0, 5, 7, 6]

PLN Aplicaciones 20

Alineamientos 5

Mary no dió una bofetada a la bruja verde1 2 3 4 5 6 7 8 9

witchgreen

theslapnot did

Mary

xx

xx x x

x

x

PLN Aplicaciones 21

La IR trata de la Representación, Almacenamiento, Organización y acceso a las

Unidades de Información

Textos (documentos)

Hipertextos,Multimedia,...

Recuperación de la Información 1

PLN Aplicaciones 22

Componentes de un SRI (Oard,Dorr,96)

Consulta

representación 2representación 1

Documento

espacio de las consultas: Q espacio de los documentos: D

espacio de representación: R

q d

juicio humano: j

función de comparación: c

{0,1}

{0,1}

PLN Aplicaciones 23

Sistema ideal

c(q(cons), d(doc)) = j(cons, doc)cons Qdoc D

PLN Aplicaciones 24

Proceso de la Recuperación de Información

Interfaz de usuario

Opeaciones textuales

Base detextos

Gestor de BD

texto

texto

consulta

operaciones sobre la consulta

Indexado

Indices

representaciónrealimentación

Búsqueda

consulta

Clasificación

documentosrecuperadosdocumentos

clasificados

PLN Aplicaciones 25

Características de los SRI

• Tipo de información almacenada• Texto, voz, información estructurada

• Lenguaje de consulta• Exacto, ambiguo

• Tipo de emparejamiento• Exacto, aproximado

• Tipo de información deseada• Vaga, precisa

• Relevancia: utilidad de la información para el usuario de acuerdo a su consulta.

PLN Aplicaciones 26

Operaciones sobre los documentos

• Preproceso• análisis léxico, estandarización

• formas no estándard, fechas, números, siglas, locuciones, lexías, ...

• lematización• análisis morfológico, consulta a formarios, reglas léxicas/morfol, alg. Porter

• filtrado• Stopwords (diccionarios negativos)

• Clasificación• manual• automática

• clasificación• clustering

• Compresión

PLN Aplicaciones 27

Indexado

• indexado manual vs automático• indicadores

• objetivos: estructurales• subjetivos: textuales (de contenido)

• indexado pre-coordinado vs post-coordinado• términos simples vs términos en contexto

Modelo más corriente: Bag of simple words

PLN Aplicaciones 28

Representación de los documentos

• Modelos clásicos• texto completo• booleano• vectorial• probabilístico

• Variantes evolucionadas del modelo probabilístico• Bayesiano• Redes de inferencia• Redes de creencia

• paradigmas alternativos• Modelo vectorial generalizado• Modelo booleano extendido• Latent Semantic Indexing• Redes neuronales

PLN Aplicaciones 29

Operaciones de consulta

Modelo booleano simple

Expresiones booleanas sobre términosque aparecen en el documento o palabras clave.

Conectivos: AND, OR, NOT,paréntesis

Extensiones:

restricciones de distancia (nivel párrafo,nivel frase, adyacencia)ventana fija o variable

Modelo booleano extendido:ponderación de términos: frecuencia deltérmino en el documento, en la colección,normalizaciónExpansión de las consultas

uso de F.Conocimiento externas (ej. WN)extensión con sinónimos y/o hiperónimostruncado de términosgeneralización morfológicarelevance feedback

PLN Aplicaciones 30

Medidas de calidad de la recuperación

recuperado

relevante

a

b

c

d

recuperados = a + brelevantes = a + drecall (cobertura) = a / (a + d)precisión = a / (a + b)

recall = están todos los que sonprecisión= son todos los que están

Cuando el resultado es una ordenación de documentos con un índice de relevancia asociado (ranked) yno un booleano, las medidas pueden ser vectores de precisión a (normalmente) 3, 5, 7, 9, 11 puntos decobertura (p.ej. a niveles (0.2, 0.5, 0.8) o medias de estos vectores.

r pβ

rp1)(β F

2

2

PLN Aplicaciones 31

Modelo booleano

t1 t2 t3 ... ti ... tm

d1 0 1 0

d2 1 0 1 0

d3

...

dj

...

dn

atributos: todos los términos (palabras, lemas,multipalabras, ...) que aparecen en la colección(excepto los stopwords)

filas: cada documento representado por un vectorde booleanos (1 si el término aparece en el documento,0 en caso contrario). Hay n documentos

columnas: cada término representado por un vectorde booleanos. Hay m términos

no es posible una respuesta ponderadano se tiene en cuenta ni frecuencia ni orden niimportancia de los términos

PLN Aplicaciones 32

Modelo Vectorial 1

t1 t2 t3 ... ti ... tm

d1

d2

d3

...

dj wij

...

dn

wij peso (relevancia) del término j en el documento i

Forma más corriente de definir la relevancia

tfij frecuencia del término tj en el documento di

dfj # documentos en los que aparece tj

idfj log (N / dfj )

wij = tfij * idfj

PLN Aplicaciones 33

Modelo Vectorial 2

)d,dsim(1)-N(N

1 Q ji

N

1i

N

ij1,j

Otra forma

dvj poder discriminador de un término. Si al seleccionarlo disminuye la similitud entre documentos (la densidad)dvj = Q - Qj

Q densidad sin seleccionar el término tj

N = # documentosQj densidad seleccionando el término tj

relevancia: wij = tfij * dvj

PLN Aplicaciones 34

Modelo Vectorial 3

Otra forma

C = centroide de la colección de documentos Q densidad respecto al centroide C

N

1ii )dsim(C,

N

1 Q

El cálculo de la relevancia es idéntico al caso anterior

En cualquier caso la consulta se representa también vectorialmente y se seleccionan los documentos más próximos de acuerdo a unadistancia

PLN Aplicaciones 35

Medidas de similitud

Medida de similitud

Producto escalar

Coeficiente de Dice

Coseno

Coeficiente de Jaccard

i

m

1ii yx

m

1i

m

1i

2i

2i

i

m

1ii

yx

yx2

m

1i

m

1i

2i

2i

i

m

1ii

yx

yx

m

1i

m

1i

m

1iii

2i

2i

i

m

1ii

yxyx

yx

Modelo booleano Modelo vectorial

YX

YX

YX2

YX

YX

YXYX

YX

PLN Aplicaciones 36

IR y LN

• Recursos de LN• Tareas de PLN

• Indexado• palabras, raices, lemas, acepciones, multitérminos• , frases, …• problemas:

• nombres propios• palabras desconocidas• unidades no estándar• polisemia

• => Sólo levemente mejor que usar monotérminos (formas)

• Recuperación• expansión de las consultas

PLN Aplicaciones 37

CLIR

• Cross Language Information Retrieval• Recuperación de documentos de acuerdo a peticiones

formuladas por una persona sin tener en cuenta la lengua en que los documentos y las consultas han sido expresadas

• Técnicas• Traducir los documentos• Traducir las consultas• Proyectar unos y otras a un espacio de indexado neutral

• Limitaciones• Los textos de las consultas son más cortos que los documentos• El contexto (y la fiabilidad) al traducir la consulta es menor• Los errores de traducción son menos graves en los documentos

PLN Aplicaciones 38

Aproximaciones a CLIR (Oard,97)

CLIR

VocabularioControlado

Texto libre

Basado en Corpus Basado en Conocimiento

Basado en Ontologías

Basado en Diccionarios

Basado en Tesauros

Corpusparalelos

Corpuscomparables

Corpusmonolingües

Alineaciónde documentos

Alineaciónde oraciones

Alineaciónde términos

PLN Aplicaciones 39

Question Answering 1

• Sistemas de Q&A• Un sistema de QA parte de una consulta expresada en

lenguaje natural y debe devolver no un documento que sea relevante (es decir que contenga la respuesta) sino la propia respuesta (normalmente un hecho)

• Si los sistemas de IR convencionales utilizaban técnicas básicamente estadísticas, los sistemas de Q&A utilizan de forma creciente técnicas de TLN

• Sistemas de Q&A• Un sistema de QA parte de una consulta expresada en

lenguaje natural y debe devolver no un documento que sea relevante (es decir que contenga la respuesta) sino la propia respuesta (normalmente un hecho)

• Si los sistemas de IR convencionales utilizaban técnicas básicamente estadísticas, los sistemas de Q&A utilizan de forma creciente técnicas de TLN

PLN Aplicaciones 40


• Algunos sistemas de QA accesibles a través de Internet: • START

• http://www.ai.mit.edu/projects/infolab/globe.html

• IO search engine• http://www.ionaut.com:8400/

• Webclopedia• http://www.isi.edu/natural-language/projects/webclopedia/

• AskJeeves• http://www.ask.com

• LCC• http://www.languagecomputer.com/

• Algunos sistemas de QA accesibles a través de Internet: • START

• http://www.ai.mit.edu/projects/infolab/globe.html

• IO search engine• http://www.ionaut.com:8400/

• Webclopedia• http://www.isi.edu/natural-language/projects/webclopedia/

• AskJeeves• http://www.ask.com

• LCC• http://www.languagecomputer.com/

PLN Aplicaciones 41


• Aparición en las competeciones del TREC a partir del TREC-8 (1999)

• Disciplinas relacionadas• Recuperación de la información (obviamente) y disciplinas afines (I

routing, filtering, harvesting, ...) • Answer Finding

• Dada una base de preguntas y respuestas (como las habituales FAQ) se trata de localizar la (s) pregunta (s) más próximas a la planteada para devolver su (s) respuesta (s)

• FAQ Finder: http://infolab.cs.uchicago.edu/faqfinder/

• Interfaces en LN a bases de datos• Sistemas de Integración de información (Information Integration, II)• Extracción de la Información (Information Extraction, IE)

PLN Aplicaciones 42

Q&A, Qué leerQ&A, Qué leer

• Horacio Rodriguez (2001)• http://www.lsi.upc.es/~horacio/doctorat/tapln/QA.zip

• Documentos de las conferencias TREC• TREC-8 http://trec.nist.gov/pubs/trec8/t8_proceedings.html

• TREC-9 http://trec.nist.gov/pubs/trec9/t9_proceedings.html


• Horacio Rodriguez (2001)• http://www.lsi.upc.es/~horacio/doctorat/tapln/QA.zip

• Documentos de las conferencias TREC• TREC-8 http://trec.nist.gov/pubs/trec8/t8_proceedings.html



http://www.isi.edu/natural-language/projects/webclopedia/http://www.seas.smu.edu/~sanda/http://www.cs.utexas.edu/users/sanda/http://www.languagecomputer.com/http://www.dlsi.ua.es/~vicedo/http://www.dlsi.ua.es/~antonio/

PLN Aplicaciones 43

Q&A en las evaluaciones del TREC

0

10

20

30

40

50

60

70

U.M

eth

odis

t

U.S

o.C

alif

orn

Mu

ltit

ext

IBM

Haw

th.

IBM

Yor

kt.

Qu

een

s C

oll.

Syr

acu

seC

NL

P

NT

T D

AT

A

U.A

lican

te

Xer

ox

Imp

eria

l Col

l.

Kai

st

U.S

hef

fiel

d

Mic

roso

ft

Un

iv. F

ud

an

U.M

ontr

eal

U.A

lber

ta

LIM

SI

CL

Res

earc

h

U.S

eou

l

U.P

isa

Con

exor

Oy

Mit

re

50-bytes

Evaluación del TREC 9

PLN Aplicaciones 44

Q&A en las evaluaciones del TREC y CLEF

• Participación del grupo Talp (UPC) en• TREC 2003• CLEF 2004• TREC 2004

PLN Aplicaciones 45

Q&A, Arquitectura básica 1

• Uso de técnicas de IR • utilizar las palabras de la pregunta como términos de una

consulta y recuperar los documentos más relevantes de acuerdo a ella.

• Extensiones de tipo heurístico para localizar la respuesta• Más adecuadas en la competición de 250 bytes• Pero ...

• no todas las palabras de la pregunta son relevantes para buscar la respuesta

• recuperar el documento relevante no concluye la tarea, hay que extraer de él la respuesta.

PLN Aplicaciones 46


La mayoría de los sistemas de QA se organizan en 4 subtareas

Tratamiento de la pregunta

IR de los documentos relevantes

Segmentación en fragmentos, IR de los fragmentos

Extracción de la respuesta.

PLN Aplicaciones 47


Normalmente las cuatro tareas se abordan en secuencia

IR de los documentos relevantes

Segmentación en fragmentos, IR de los fragmentos

Extracción de la respuesta.

Tratamiento de la pregunta Términos relevantesTipo de preguntaFoco...

Documentos relevantes

fragmentos relevantes

respuesta

PLN Aplicaciones 48

Resumen Automático 1

• A summary is a reductive transformation of a source text into a summary text by extraction or generation• Sparck-Jones, 2001

PLN Aplicaciones 49

Resumen Automático 2

• Localizar las partes de un texto que son relevantes (para las necesidades de un usuario) y producir un resumen de las mismas

• Sum vs IE• IE

• Se define a priori la estructura a extraer• “Sé lo que deseo, búscamelo”

• Sum• No tiene por qué haber una definición previa de criterios de

interés• “Qué hay aquí de interesante”

PLN Aplicaciones 50

Resumen automático, Qué leer

• Tutorial• E.Hovy, D. Marcu (1998)

• Horacio Rodriguez (2001) Summarization• http://www.lsi.upc.es/~horacio/doctorat/tapln/Summarisation.zip

PLN Aplicaciones 51

Características del resumen 1

• Tipo• Indicativo vs informativo

• Extract vs Abstract (vs gist)

• Genérico vs respuesta a una consulta (query based)

• Background vs Novedad (just-the-news)

• un solo documento vs multidocumento

• general vs dependiente del dominio

• textual vs multimedia

• Entrada• dominio, género, forma, tamaño

PLN Aplicaciones 52

Características del resumen 2

• Disciplinas relacionadas• IE, IR, Q&A, Topic identification (TI), Document Classification

(DC), Event (topic) detection and tracking (TDT)

• Evaluación• Aplicaciones

• recensiones biográficas

• resúmenes de historiales médicos

• resúmenes de correo electrónico

• de páginas Web

• de noticias

• extracción de titulares (headlines)

• apoyo a los sistemas de recuperación de información

• resúmenes de reuniones

PLN Aplicaciones 53

Esquema básico

multi-document

single-document

query

Summarizer

extract

abstract

headline

condiciones

PLN Aplicaciones 54

Técnicas empleadas 1

• cadenas léxicas• [Barzilay, 1997]

• cadenas de correferencia• [Baldwin, Morton, 1998]

• [Bagga, Baldwin, 1998]

• técnicas de alineación• [Banko et al, 1999]

• Compresión, reducción o simplificación de oraciones (cut & paste)• [Jing, 2000]

• [Jing, McKeown, 1999]

PLN Aplicaciones 55


• modelos estadísticos• modelos estadísticos de la lengua

• [Berger, 2001], [Berger, Mittal, 2000]

• modelos bayesianos• [Kupiec et al, 1995], [Schlesinger et al, 2001]

• cadenas ocultas de Markov

• Regresión logística• [Conroy et al, 2001]

• Machine Learning• árboles de decisión

• ILP• [Knight, Marcu, 2000], [Tzoukerman et al, 2001]

• medidas de similitud y divergencia• MMR

• [Carbonell, Goldstein, 1998]

PLN Aplicaciones 56


• IE• [Kan, McKeown, 1999]

• Topic Detection• [Hovy, Lin, 1999]

• [Hovy, 2000]

• Topic Signatures• [Lin, Hovy, 2001]

• estructura retórica del documento• [Marcu, 1997]

• Combinación• [Goldstein et al, 1999], [Kraaij et al, 2001],

• [Muresan et al, 2000], [White et al, 2001].

PLN Aplicaciones 57

Multidocument Summarization (MDS) 1

• Contenido de una colección de documentos• Briefing

• concise summary of the factual matter of a set of news articles on the same or related events (SUMMONS, Radev,1999)

• Actualización de información ya conocida• localización de las secciones de una serie de documentos

relevantes para las necesidades de información del usuario

Objetivos

PLN Aplicaciones 58

MDS 2

• Factor de compresión más bajo• Medidas anti-redundancia• dimensión temporal• mayor reto de la correferencia• aplicación a la búsqueda de información

• interfaz de usuario

Diferencias SDS MDS

PLN Aplicaciones 59

MDS 3

• Clustering de documentos y pasajes• cobertura• anti-redundancia• cohesión del resumen• calidad

• legible• relevante• contexto

• inconsistencias de las fuentes• actualizaciones

Requisitos

PLN Aplicaciones 60

MDS 4

• A partir de las secciones comunes a los documentos de la colección • Secciones comunes + secciones únicas• Centroides• Centroides + outliers• Último documento + outliers• Secciones comunes + secciones únicas + factor de ponderación del

tiempo

Tipos

PLN Aplicaciones 61

MDS 5

• Information Fusion (Barzilay et al,1999)• artículos que presentan diferentes descripciones de la misma noticia

• La repetición es buen indicador de relevancia

• automatically generate a concise summary by identifying similarities and differences across a set of related documents.

• Identifying themes

• Information Fusion

• Generation (Reformulation)

• Approaches• Columbia Univ.

• Barzilay et al, 1999, McKeown et al,1999, Hatzivassilogtlou et al,1999

• Barzilay et al, 2001, Elhadad, Mc.Keown, 2001

• CMU• Mittal et al,1999

PLN Aplicaciones 62

MDS 6

Feature Extraction

Feature Synthesis

Rule Induction

Theme Intersection

Sentence Generator

Sentence PlannerThemes

Analysis Component Generation Component

article 1 .... article n Summary

Mc.Keown et al, 1999 MULTIGEN

PLN Aplicaciones 63

Clasificación de documentos 1

• Clasificación vs. Clustering• Asignar cada documento a una clase perteneciente a

un conjunto predefinido de clases• Ejemplos:

• filtrado de mensajes spam

• identificación de la lengua

• documento interesante para un usuario

• asignación del dominio temático• categorías temáticas

PLN Aplicaciones 64


• Variaciones:• Multiclass

• un documento puede ser asignado a más de una clase

• Rank• se asocia a cada documento la probabilidad de pertenencia a cada

una de las clases

• Factores para la categorización• Contenido textual

• Metadatos

PLN Aplicaciones 65


• Aproximaciones• Vectoriales

• Categorizar cada clase como un documento prototípico (Topic Signature, Lexical Profile, ...)

• Representar el documento a clasificar usando el VSM (Vector Space Model)

• Utilizar alguna medida de similitud comparando el vector asociado al documento con los asociados a cada una de las clases

• Elegir la (s) mejor (es) u ordenarlas

• Uso de técnicas de ML• Naive Bayes, Listas de decisión, árboles de decisión, máxima

entropía, SVM, boosting, ...

PLN Aplicaciones 66


• Precision = good messages kept all messages kept

• Recall =good messages kept all good messages

Precision vs. Recall of Good (non-spam) Email

0%

25%

50%

75%

100%

0% 25% 50% 75% 100%

Recall

Pre

cisi

on

Aplicaciones del PLN

Documents

Transcript of Aplicaciones del PLN