Anar a: Buscar
FIB > Els estudis > Pàgines de les assignatures > Departament LSI > PLN Castellano | English
RI
P1
LI
ALG
A
IA
BD
COM
DABD
SIO
GSI
ASAI
PESBD
SGBDO
CL
PGPSI
VIG
DSBW
VA
ER
AIA
ES2
IL
TC
ES1
ALCC
PCD
ADA
PRAP
PROP
PS
LP
PLN
PRED
SGI



Processament del Llenguatge Natural ( PLN )

Crèdits: Departament: Tipus: Requisits:
7.5 LSI
  • Optativa per l'EI
  • IA - Pre-requisit per l' EI

    Professors

    Responsable:  Horacio Rodríguez Hontoria (horaciolsi.upc.edu).
    Altres:(Informació no introduïda)

    Objectius Generals

    Presentar un panorama dels problemes que presenta el processament de la llengua (llenguatge natural o llenguatge humà), les tècniques que es fan servir per abordar-los i els fonaments teòrics en que es basen aquestes tècniques.

    La base de l'assignatura es l'estudi de l'Enginyeria Lingüística en les seves tres vessants:

    1.  mètodes i eines
    2.  recursos i formes d'adquirir-los
    3.  aplicacions.

    L'enfocament de l'assignatura serà bàsicament pràctic. Es tractaran les dues grans àrees d'aplicació: els sistemes basats en diàlegs persona/màquina i els sistemes de processament de grans volums d'informació textual.

    El temari de l'assignatura pretén cobrir les dues aproximacions que normalment es fan servir en les tasques de processament del llenguatge natural: l'aproximació basada en el coneixement (bàsicament lingüístic) i l'aproximació basada en mètodes empírics (bàsicament de tipus estadístic o d'Aprenentatge Automàtic).

    Objectius Específics

    Coneixements

    1. Abast i necessitat de les tècniques de Processament del Llenguatge Natural.
    2. Conceptes bàsics sobre les aplicacions més habituals de Processament del Llenguatge Natural. Sistemes basats en diàlegs, sistemes de traducció automàtica, sistemes de cerca de la resposta, sistemes de resum automàtic, sistemes de recuperació i extracció de l' informació textual i altres.
    3. Tècniques bàsiques que es fan servir en les tasques de Processament del Llenguatge Natural. Anàlisi morfològic i sintàctic, interpretació semàntica, desambiguació semàntica, i altres.
    4. Fonaments bàsics d'aquestes tècniques.
    5. Coneixement bàsic dels llenguatges que es fan servir a les aplicacions de Processament del Llenguatge Natural.
    6. Coneixement dels recursos necessaris pel tractament de la llengua: diccionaris, gramàtiques, lexicons, ontologies i altres

    Habilitats

    1. Analitzar un problema, identificar les possibilitats i avantatges d'aplicar tècniques de Processament del Llenguatge Natural per abordar-lo.
    2. Elecció de les tècniques més adequades per cada tasca de PLN.
    3. Extreure i representar el coneixement necessari per construir una aplicació de Processament del Llenguatge Natural. Selecció i avaluació dels recursos necessaris i del recursos disponibles.
    4. Capacitat d'integrar components ja existents de PLN (tant recursos lingüístics com eines de tractament) en aplicacions reals .
    5. Capacitat per dissenyar i construir components software que resolguin problemes bàsics de PLN (analitzadors, desambiguadors, traductors, etc.).
    6. Capacitat per dissenyar i dur a terme experiments necessaris per l'aplicació dels mètodes empírics de PLN, i d'analitzar-ne els resultats.

    Competències

    1. Capacitat de resoldre problemes aplicant els mètodes de la ciència i l'enginyeria
    2. Capacitat per crear i utilitzar models de la realitat.
    3. Capacitat per dissenyar sistemes, components o processos que s'ajustin a unes necessitats, utilitzant els mètodes, tècniques i eines més adients en cada cas.
    4. Capacitat per dissenyar i dur a terme experiments, i d'analitzar-ne els resultats.

    Continguts

    Hores estimades de:

    T P L Alt L Ext. Est A Ext.
    Teoria Problemes Laboratori Altres activitats Laboratori extern Estudi Altres hores fora d'horari fixat

    1. Introducció al Processament del Llenguatge Natural
      T     P     L    Alt  L Ext  Est  A Ext Total
     3,0   0   0   0   0   2,0   0   5,0 
    Introducció. Enginyeria Lingüística, Lingüística Computacional i Processament del Llenguatge Natural. Historia, motivació i aplicacions del PLN.
    Problemes que el PLN planteja.
    Descripció de les tasques bàsiques del PLN. Nivells de descripció lingüística.

    2. Nivells bàsics del Processament Lingüístic
      T     P     L    Alt  L Ext  Est  A Ext Total
     5,0   5,0   8,0   0   10,0   10,0   0   38,0 
    Tractaments textual, lèxic i morfològic.
    Tasques de processament textual. Segmentació del text. Identificació de la llengua.
    Tasques de processament lèxic. Identificació d'unitats lèxiques. El concepte de paraula. Lexicons, diccionaris. Ontologies lèxiques i semàntiques.
    Corpus.
    Formes d'adquisició de l'informació lèxica.
    Tasques de processament morfològic. Analitzadors morfològics. Eines basades en tècniques d'estats finits (autòmats i transductors d'estats finits).
    Tècniques d' Aprenentatge Automàtic aplicades a la morfologia. Inducció de la morfologia.
    Desambiguació morfo-sintàctica (POS tagging) i semàntica (WSD).

    3. Tractament sintàctic
      T     P     L    Alt  L Ext  Est  A Ext Total
     12,0   7,0   8,0   0   15,0   15,0   0   57,0 
    Formalismes sintàctics.
    Conceptes bàsics de llenguatges formals. Gramàtiques. Tipus de gramàtiques.
    Gramàtiques sintagmàtiques. Gramàtiques incontextuals ampliades.
    Gramàtiques lògiques.
    Formalismes sintàctics recents: GPSG, HPSG.Gramàtiques de trets amb i sense tipus (PATR II, ALE, CUF, etc.).
    Tècniques bàsiques d' Anàlisi Sintàctica.
    Analitzadors guiats per Gramàtiques incontextuals. Gramàtiques incontextuals esteses: ATN, CHART, CKY, Earley, LR, Tomita.
    Analitzadors guiats per gramàtiques lògiques. Problemes que planteja la gestió de l' unificació.
    Analitzadors estadístics, superficials i fragmentals. Chunkers.
    Comparació entre les aproximacions simbòlica i empírica.
    Formes d'adquisició de l'informació sintàctica.
    Inducció gramatical.

    4. Tractament semàntic i pragmàtic
      T     P     L    Alt  L Ext  Est  A Ext Total
     4,0   2,0   4,0   0   5,0   5,0   0   20,0 
    Formes de representació semàntica. Diccionaris semàntics. Ontologies semàntiques.
    Semàntica lèxica. Desambiguació semàntica (WSD).
    Interpretació semàntica.
    Col·laboració entre sintaxi i semàntica.
    Semàntica discursiva. Diàlegs. Gramàtiques del diàleg. Pragmàtica.

    5. Generació
      T     P     L    Alt  L Ext  Est  A Ext Total
     2,0   0   0   0   0   2,0   0   4,0 
    Generació del Llenguatge Natural.
    Generació tàctica i estratègica.
    Mètodes simbòlics i estadístics.

    6. Aplicacions
      T     P     L    Alt  L Ext  Est  A Ext Total
     2,0   0   8,0   0   9,0   4,0   0   23,0 
    Aplicacions basades en diàlegs.
    Interfícies en LN.
    Interfícies multimodals.
    Traducció automàtica.
    Recuperació de l' informació.
    Extracció de l' informació.
    Resum automàtic.
    Cerca de la resposta.
    Sistemes multilingües.


    - Total per tipus
      T     P     L    Alt  L Ext  Est  A Ext Total
     28,0   14,0   28,0   0   39,0   38,0   0   147,0 
    - Hores addicionals dedicades a l'avaluació:
    3,0
    - Total hores de treball per l'estudiant
    150,0

    Metodologia docent

    Les classes estan dividides en sessions de teoria, problemes i laboratori. A les sessions de teoria es desenvoluparan els coneixements de l'assignatura. Les classes de problemes permetran aprofundir en les tècniques i algorismes explicats a les sessions de teoría.

    A les classes de laboratori es desenvoluparan petites pràctiques utilitzant eines i llenguatges adequats al PLN (bàsicament fent servir Python, Prolog i NLTK) que permetran practicar i reforçar els coneixements de les classes de teoria.

    Les ultimes sessions de laboratori es dedicaran a l'integració de les unitats de software desenvolupades al llarg del curs en una aplicació final.

    Mètode d'avaluació

    L'avaluació es basarà en un examen parcial, un examen final i una nota de laboratori.

    L'examen parcial no serà alliberatori i es farà a hores de classe. Les persones que no aprovin o no facin l'examen parcial seran avaluades només amb la nota de l'examen final.

    La nota de laboratori provindrà dels informes que es faran de les practiques realitzades a les classes de laboratori.

    El càlcul de la nota final es farà de la següent manera:

    Nota Final = max (Nota examen parcial * 0.15 + Nota examen final * 0.45, Nota examen final * 0.6) + Nota laboratori * 0.4

    Bibliografía bàsica

    • R. Dale, H. Moisl, H.Somers, ed. Handbook of natural Language Processing, Marcel Dekker, New York, 2000.
    • D. Jurafsky, James H. Martin Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, Prentice Hall, Upper Saddle River, N.J. , 2000.
    • C. Manning, H. Schütze Foundations of statistical Natural Language Processing, MIT Press Cambridge, Mass., 1999.
    • R. Mitkov (editor) The Oxford handbook of Computational Linguistics, Oxford University Press, 2003.

    Bibliografía complementària

    • Allen, J. Natural Language Understanding, Benjamin/CummingsPublishing Company , 1995.
    • H. Rodríguez, M.A. Martí, I. Castellón Formalismes lògics per al tractament del llenguatge natural, Edicions UPC. Temes d' I.A, 1995.
    • M.A. Martí (editora) Les tecnologies del llenguatge, Edicions de la Universitat Oberta de Catalunya, Manuals, Nu. 53, 2001.

    Enllaços web

    1. Obrir nova finestra http://nltk.sourceforge.net/
      NLTK, Natural Language Toolkit


    Capacitats prèvies

    Els estudiants haurien de tenir coneixements de:

    Representació del coneixement
    Tècniques de resolució de problemes
    Conceptes bàsics de Processament del Llenguatge Natural
    Conceptes de llenguatges formals (concretament autòmats finits,
    llenguatges regulars i incontextuals)

    Per això, les assignatures Intel·ligència Artificial i Teoria de la Computació
    haurien de ser prerequisits d'aquesta.

    Com a suggeriment addicional es recomana haver cursat l'assignatura de Compiladors.



    versió per imprimir