Pagina documente » Informatica, Matematica » Adnotarea coreferintelor si a unitatilor de discurs

Despre lucrare

lucrare-licenta-adnotarea-coreferintelor-si-a-unitatilor-de-discurs
Aceasta lucrare poate fi descarcata doar daca ai statut PREMIUM si are scop consultativ. Pentru a descarca aceasta lucrare trebuie sa fii utilizator inregistrat.
lucrare-licenta-adnotarea-coreferintelor-si-a-unitatilor-de-discurs


Cuprins

CUPRINS
1. INTRODUCERE
2. TEORII DE MODELARE A DISCURSULUI
2.1 DIRECTII ACTUALE iN MODELAREA DISCURSULUI
2.1.1 GROSZ & SIDNER
2.1.2 MODELUL CACHE
2.1.3 TEORIA STRUCTURII RETORICE
2.2 TEORIA CENTRELOR
2.2.1 DESCRIERE
2.2.2 VARIATII LA TEORIA CENTRELOR
2.3 TEORIA NERVURILOR - UN MODEL AL ORGANIZARII IERARHICE A DISCURSULUI
2.3.1 Definitii
2.3.2 Conjecturi
3. FENOMENE ANAFORICE iN DISCURS
3.1 DEFINITII
3.2 TIPURI DE REFERINTE
1.1.1 Referinte pronominale
3.2.2 Nume proprii
3.2.3 Expresii indefinite
3.2.4 Expresii definite
3.2.5 Anafore evenimentiale
3.2.6 Anafore functionale
3.3 REZOLVAREA FENOMENELOR ANAFORICE
3.3.1 Introducere
1.1.2 Surse de cunoastere in depistarea anaforelor
3.3.3 Idei pentru un algoritm de rezolvare a referintelor
4. UN ALGORITM DE REZOLUTIE A ANAFORELOR
4.1 PRIVIRE GENERALA
4.2 REPREZENTAREA CENTRELOR
4.3 ADNOTAREA TEXTULUI
4.3.1 Generalitati
4.3.2 Ce secvente de text se adnoteaza
4.3.3 Ce categorii morfologice se adnoteaza
4.3.4 Exemplu de text adnotat
4.4 MARCAREA REZULTATELOR
4.4.1 Marcarea coreferintelor
4.4.2 Marcarea relatiilor functionale
4.5 DESCRIEREA ALGORITMULUI
4.5.1 Principii de functionare a algoritmului
4.5.2 Rezultate aditionale
4.5.3 incadrarea aplicatiei intr-un parser de discurs
4.5.4 Detalii de implementare
5. CONCLUZII
6. REFERINTE BIBLIOGRAFICE
ANEXA 1 Descrierea ierarhiei de clase folosite in implementarea algoritmului de rezolutie a anaforelor
ANEXA 2 Text adnotat SGML rezultat in urma aplicarii procesului de rezolvare a referintelor
Cuprins

EXTRAS DIN DOCUMENT

?Introducere?1. INTRODUCERE

Lucrarea are drept scop analiza fenomenelor anaforice si identificarea mijloacelor prin care se poate face rezolvarea referintelor in discurs. Algoritmul propus realizeaza o tratare uniforma a tuturor tipurilor de referinte si se bazeaza pe integrarea mai multor surse de cunoastere care colaboreaza la dezambiguizarea textului. Aplicatia este parte integranta a unui parser de discurs, constituind un modul care pe baza unui proces de rezolvare a referintelor calculeaza un scor al arborelui de discurs, dar poate fi privita si ca o aplicatie independenta, care realizeaza depistarea legaturilor referentiale si marcarea acestora prin adnotarea textului de intrare in maniera SGML. Procesul functioneaza incremental, in sensul procesarii textului unit cu unit, pentru a satisface cerintele de proiectare a parserului de discurs, dar in cazul rularii independente a aplicatiei textul este preluat integral, deoarece se considera ca aceasta maniera de prelucrare ofera informatii suplimentare fata de prelucrarea incrementala.

Un rezultat aditional al aplicatiei il constituie validarea Teoriei Nervurilor, in sensul realizarii unor statistici privind corectitudinea predictiilor sale.

O caracteristica a aplicatiei o constituie posibilitatea ca aceasta sa functioneze chiar in lipsa unora din informatiile folosite de modulele programului; fireste, efectul este diminuarea preciziei rezultatelor. Prin modul de proiectare a aplicatiei este posibila adaptarea acesteia in sensul adaugarii altor surse de cunoastere la cele existente in prezent fara a fi necesara reevaluarea strategiei de lucru. Introducerea unor noi module are ca efect rafinarea procesului de rezolutie a anaforelor si ameliorarea rezultatelor.

Capitolul I prezinta directiile principale in modelarea discursului, si anume modelul starilor atentionale Grosz&Sidner, teoria structurii retorice, modelul cache si Teoria Centrelor, cu variatiile sale. Se insista asupra Teoriei Nervurilor, deoarece aceasta constituie un punct important in economia algoritmului.

Capitolul II sintetizeaza caracteristicile fenomenelor anaforice in discurs, precum si modalitatile de abordare a rezolutiei anaforelor. Sunt prezentate diverse surse de cunoastere si posibilitatile de integrare a lor intr-un astfel de proces; se fac referiri la cateva abordari cunoscute ale problemei rezolutiei anaforelor.

Capitolul III prezinta un algoritm de rezolutie a anaforelor bazat pe integrarea mai multor surse de cunoastere, dintre care un rol important il are Teoria nervurilor. Sunt prezentate principiile generale de lucru ale algoritmului, scopul sau si rezultatele obtinute.

În anexe se prezinta ierarhia de clase care au fost folosite pentru implementarea algoritmului si un exemplu de text adnotat SGML in care au fost marcate coreferintele, asa cum au rezultat in urma rularii programului.

2. TEORII DE MODELARE A DISCURSULUI

2.1 DIRECTII ACTUALE ÎN MODELAREA DISCURSULUI

2.1.1 GROSZ & SIDNER

Teoria structurii discursului elaborata de Grosz si Sidner [Grosz, Sidner-1986] distinge trei componente ale discursului:

* structura lingvistica, care se refera la impartirea discursului in segmente de discurs, legate intre ele prin relatii de dominare sau precedenta;

* structura intentionala, care presupune intentii si realizarea lor; fiecare segment are atasat un scop (SS), toate aceste scopuri concurand la realizarea scopului discursului (SD); fiecare segment de discurs prezinta atat coerenta locala (coerenta intre unitatile care alcatuiesc un segment) cat si globala (coerenta cu celelalte segmente ale discursului);

* structura atentionala, care modeleaza focus-ul atentiei participantilor la discurs; componenta globala a starii atentionale este reprezentata printr-o stiva. Operatiile de incarcare si extragere de spatii ale atentiei din stiva depind de relatiile intentionale;

Rezolvarea referintelor se face dupa principiul: antecedentul unui referent aflat in spatiul focal din capul stivei se poate gasi numai in spatiile focale aflate la un moment dat in stiva.

Modelul Grosz&Sidner a constituit baza unor cercetari asupra discursului din care s-au dezvoltat teorii mai aprofundate cum ar fi Teoria Centrelor sau modelul memoriei cache.

2.1.2 MODELUL CACHE

Aceasta teorie este mai curand o varianta a teoriei Grosz&Sidner. Walker [Walker-1993] si porneste de la ideea ca un model al starii atentionale in discurs trebuie sa reflecte capacitatea limitata de memorare si procesare a creierului uman. Notiunea centrala a teoriei este memoria cache, reprezentind o memorie de dimensiuni reduse (aproximativ 7 unitati de discurs), cu acces rapid si de scurta durata. În contrast, avem memoria principala, memorie pe termen lung. Procesarea discursului se bazeaza numai pe elementele care se gasesc la un moment dat in cache. Operatiile care se aplica celor doua tipuri de memorii sunt:

* retinere in cache

* transfer din memoria principala in cache

* eliminare din cache

Problema principala ar fi cea de a doua operatie, identificarea elementelor transferabile la un moment dat din memoria principala in cache. Autoarea afirma ca aceasta operatie se poate face cu mare acuratete pe baza unor informatii de suprafata: cuvinte cheie, acord morfologic.

2.1.3 TEORIA STRUCTURII RETORICE

O caracteristica evidenta a discursului este aceea ca prezinta o structura interna. Indiferent de modul in care se face stabilirea celei mai mici unitati de discurs (morfo-fonemic, fraza, propozitie, paragraf sau chiar intreg discursul), acestea se grupeaza in diferite moduri pentru a forma structuri mai largi, astfel incat un discurs coerent poate fi reprezentat ca un arbore care are ca noduri terminale unitati de discurs si ca noduri interioare relatii.

Asa cum o fraza poate fi analizata din punct de vedere sintactic, semantic, tematic, al focalizarii, un discurs poate fi analizat in mai multe moduri. Structura discursului a fost studiata in mod intens, pentru toate dimensiunile de unit si la toate nivelurile:

* analiza sabloanelelor intonationale in cazul discursurilor conversationale (delimitarea segmentelor de discurs pe baze prozodice a fost studiata de [Hirschberg & Litman 87, Pierrehumbert & Hirschberg 87])

* analize subclauzale (de exemplu, tranzitii de timpuri si moduri verbale, delimitarea segmentelor pe criterii de pronominalizare [Marslen­Wilson et al. 82], [Bjorklund & Virtanen 89, Passoneau 91, Levy 84])

* analiza gruparii la nivel de propozitii (adeseori coordonata de cuvinte si expresii cheie), care ghideaza inferentele necesare cititorului pentru a intelege textul prin furnizarea unor indicii despre modul in care se interrelationeaza fragmentele de discurs ([Grimes 75, Mann & Thompson 88, Dahlgren 88]).

* construirea unui schelet structural de discurs (macrostructures [Kintsch & Van Dijk 75], story grammars [Rumelhart 72], Generic Structure Potential [Hasan 78], or schemas [McKeown 85]).

Teoria structurii retorice ofera un model de reprezentare a discursului in care textele sunt tratate ca si grupuri ierarhic organizate de afirmatii (sau propozitii). Grupurile in care afirmatiile sunt aranjate sunt reprezentate de structuri constand dintr-o portiune centrala si o portiune adiacenta, numite nucleu si satelit. Nucleul realizeaza scopurile principale ale vorbitorului, iar satelitul furnizeaza informatii suplimentare pentru materialele din nucleu. Nu toate structurile au aceasta organizare interna. Exista unele care consista numai din nuclee (de exemplu, structura de lista), si altele una care contin un nucleu si mai multi adjuncti.

Fiecare unitate este realizata fie de un nod terminal fie de o alta structura. Deci structurile se construiesc una pe baza alteia pentru a forma intregul text.

Avem deci structuri simple, cu toate componentele lor (nuclee si sateliti) si structuri complexe, care au macar unul din sloturi realizat de o structura incastrata.

Imaginea de ansamblu a discursului este aceea a unui arbore care are ca noduri terminale unitati de discurs si ca noduri interioare relatii retorice.

2.2 TEORIA CENTRELOR

2.2.1 DESCRIERE

Lucrarea “Centering: a Framework for Modeling the Local Coherence of Discourse” (Grosz, Joshi, Weinstein 1995) prezinta o teorie care leaga focus-ul atentiei, alegerea expresiilor referentiale si coerenta expresiilor din cadrul unui segment de discurs. În fapt, aceasta teorie rafineaza conceptul de stare atentionala, concentrindu-se asupra coerentei locale. Ideea teoriei este ca, intr-o unitate de discurs, unele entitati sunt mai importante decat altele, in sensul ca focalizeaza atentia cititorului. Focalizarea, fie globala sau locala, este vazuta ca un filtru ce limiteaza inferentele necesare intelegerii discursului.

2.2.1.1 CADRU GENERAL

Modelul centrelor propus de Grosz, Joshi si Weinstein se bazeaza pe urmatoarele presupuneri: un segment de discurs este alcatuit dintr-o secventa de expresii U1,…Um Fiecarei expresii Un ii este asociata o lista de centre (forward-looking centers ), notata Cf(Un), reprezentand acele entitati de discurs care sunt realizate, direct sau indirect, de expresii lingvistice din expresia Ui. Elementele din Cf sunt partial ordonate astfel incat pozitia unei entitati in aceasta lista sa reflecte probabilitatea ca ea sa focalizeze atentia in expresia urmatoare. Prima entitate din Cf este numita centru preferat, notatie: Cp(Un). O singura entitate din Cf(Un) focalizeaza atentia in expresia Un, aceasta entitate fiind numita centrul expresiei (backward-looking center), Cb(Un). Centrul unei expresii este o confirmare a unei expresii introduse anterior in discurs, mai precis, el trebuie sa fie realizat in expresia imediat precedenta, Un-1. Cu cat o entitate este mai bine situata in Cf(Un-1), cu atat este mai probabil ca ea sa fie centrul lui Un. Deci Cb(Un) poate fi calculat ca fiind cel mai bine situat element din Un-1 care este realizat in Un. Deoarece lista Cf este numai partial ordonata, este posibil ca unele elemente din Cf(Un-1) sa fie cu aceeasi probabilitate Cb(Un). În acest caz, informatii suplimentare sunt necesare pentru a decide care entitate sa fie considerata Cb.

Exista mai multe tipuri de tranzitii posibile intre doua expresii, factorii care guverneaza tipologia tranzitiilor fiind: daca centrul atentiei, Cb, este acelasi in Un si in Un+1; daca Cb(Un+1) coincide cu centrul preferat al lui Un, Cp(Un).

Grosz, Joshi si Weinstein identifica trei tipuri de tranzitii, definite dupa cum urmeaza:

* Continuare , daca Cb(Un+1)=Cb(Un) si Cb(Un+1)=Cp(Un+1)

Aceasta tranzitie sugereaza faptul ca este posibil ca Cb(Un+1), care a fost centru si pentru Un, sa indeplineasca acelasi rol in Un+2.

* Retinere , daca Cb(Un+1)=Cb(Un) dar Cb(Un+1) ?Cp(Un+1)

În acest caz, Cb(Un+1) nu este candidatul preferat pentru rolul de Cb(Un+2), desi a fost centru atat pentru Un cat si pentru Un+1.

* Shift , daca Cb(Un+1) ?Cb(Un)

Brennan, Friedman si Pollard [BFP1987] rafineaza ultimul tip de tranzitie in doua tranzitii distincte, pe baza faptului ca exista mai multe grade de incoerenta induse de tranzitii de tip shift. Ei identifica: