Processament informàtic del llenguatge natural: un sistema d'anàlisi morfològica per ordinador

Author

Martí Antonin, M. Antònia

Director

Cabré, M. Teresa (Maria Teresa), 1947-

Date of defense

1988-06-20

ISBN

9788469337011

Legal Deposit

B.29712-2010



Department/Institute

Universitat de Barcelona. Departament de Filologia Romànica

Abstract

L'objectiu d'aquesta tesi ha estat Ia construcció d'un analitzador morfològic automatitzat de la llengua catalana.<br/><br/>L'interès de l'anàlisi morfològica computacional recolza en el fet que en qualsevol de les aplicacions de la lingüística computacional cal un tractament del text en aquest sentit que redueixi el volum del diccionari i les tasques de manteniment, especialment quan es tracta de Ilengües altament flexives.<br/><br/>La finalitat de l'analitzador morfològic és la segmentación dels textos en unitats rellevants per al seu posterior tractament sintàctic o semàntic i l'associació d'informació a aquestes unitats.<br/><br/>L'analitzador que ens ocupa té una arquitectura modular i està basat en un autòmat d'estats finits omplint amb condicions. La modularitat del sistema garanteix la independència de les dades entre elles i de les dades respecte del procés.<br/><br/>La pertinència d'un autòmat per realitzar el procès d'anàlisi recolza en la seva adeqüació per al reconeixement dels mots en el sentit esquerra-dreta i en el fet que en els mots podem definir uns components, arrels, sufixos i elements flexius, que presenten un comportament distribucional i combinatori regular.<br/><br/>El disseny de l'analitzador consisteix en la definició de l'estratègia de segmentació dels mots, en l'agrupament dels segments resultants en models segons les seves característiques morfològiques i en la definición de regles que determinen lo combinatòria correcta dels mòduls. Les condicions de les regles permeten controlar la capacitat d'anàlisi.<br/><br/>Les arrels, els sufixos i els elements flexius es troben emmagatzemats en diccionaris específics. Cada un d'aquests elements duu associat un model i els atributs morfològics corresponents.<br/><br/>Els models representen un nivell superior d'organització del material lingüístic que permet representar el comportament homogeni en la flexió i en la derivació: totes Ies arrels amb un mateix comportament flexiu estan agrupades en un únic model i els sufixos i els elements de flexió que combinen amb un mateix model d'arrels es troben igualment agrupats en un únic model. L'autòmat concatena models, de manera que les combinacions de les arrels amb els sufixos flexius i derivatius no s'han d'especificar individualment sinò al model al qual pertanyen.<br/><br/>La informació morfològica es pot assignar als models i/o als elements dels diccionaris, segons es vulgui generalitzar o particularitzar.<br/><br/>L'estructura de l'autòmat ha estat definida tenint en compte tant les característiques de la llengua com la funcionalitat del disseny. L'esquema de l'analitzador es fonamenta en la definició dels estats. Així, s'han definit tres estats reconeixedors d'arrels verbals, corresponents o la primera, segona i tercera conjugació, i un estat reconeixedor de les arrels nominals i adjectives. D'aquests estats surten els models corresponents a la flexió com els models de sufixos derivatius. De l'estat que reconeix els sufixos derivatius surten també els models de la flexió.<br/><br/>Es tracta d'un disseny general, en el sentit que s'ha realitzat sense tenir en compte cap aplicació en concret. Aquest fet ha permès definir criteris metodològics de validesa general així com avaluar les diferents opcions en Ia segmentació de les formes, en la definició de models i en la construcción de l'autòmat. Com a resultat d'aquesta investigación actualment es disposa d'un analitzador de la llengua catalana que, per cada mot, dóna la seva categoria morfològica, les subcategories associades i l'arrel a partir de la qual s'ha analitzat.<br/><br/>L'analitzador permet l'anàlisi de qualsevol forma de la llengua catalana sempre que correspongui a un dels models de flexió definits. L'anàlisi d'una nova forma només requereix donar d'alta Ia seva arrel aI diccionari i assignar-li el model de flexió que li correspon. Les formes derivades es resolen habitualment amb atributs a l'arrel, encara que alguns derivats, pel seu elevat rendiment, es validen aIs models i per tant es generalitzen per a totes les seves entrades.<br/><br/>Les aportacions d'aquest analitzador respecte d'altres sistemes d'anàlisi morfològica automatitzada són: a) La possibilitat de resoldre tant les formes flexives com les derivades, fet que permet reduir en gran manera el volum de les dades enmagatzemades als diccionaris; b) La doble possibilitat d'anàlisi i generació. A més d'analitzar els textos, el sistema permet generar totes les formes flexives i derivades a partir d'una determinada arrel; c) La possibilitat de definir metaregles que permeten l'anàlisi de seqüències de sufixos o bé de grups de sufixos; d) La capacitat d'associar informació lèxica i morfològica a les unitats de l'anàlisi; i e) La simultaneïtat del procés d'anàlisi i de filtratge dels resultats.<br/><br/>Resten obertes línies d'investigació que en el present estudi han quedat només esbossades. En primer lloc, seria interessant fer més exhaustiu l'ús de metarregles, fet que requereix un estudi acurat de les seqüències així com de Ia comparació de sufixos. Segonament, seria interessant definir amb detall quin tipus d' información lèxica es pot associar als mots, en general o per a una determinada aplicació. Finalment caldria tractar la resolució de les formes compostes dels verbs i del perfet perifràstic.<br/><br/>L'analitzador està escrit en FORTRAN i està implementat en un VAX-750.


<i>The aim of this research has been the design and implementation of an automatic morphological analyzer of Catalan. The morphological analysis by computers is necessary in most applications of Computational Linguistics, especially when they deal with very non-flexive languages like Catalan, Spanish, French, Italian, etc.<br/><br/>The purpose of this analyzer is segmentation of texts in units that can be useful in a further syntactic or semantic processing and morphological and logical information attachment. <br/> <br/>Modularity, both in data structures and programs, is one of its more important features. The analyzer is based on a finite states automaton augmented by conditions. The design of that analyzer requires deciding a strategy to segment the words, the definition of patterns of morphological behaviour, the attachment of a pattern to each segment and the definition of rules that determines the correct combinations of these patterns.<br/><br/>The contributions of this morphological analyzer in front of other systems are: a) The treatment of derivation and inflexion that permits to reduce in a very important way the size of the dictionaries; b) The system allows both analysis and generation; c) The possibility to define meta-rules that make possible the analysis of sequences and groups of suffixes; d) The ability to put together morphological and lexical information.<br/><br/>As a result of this research, now we have available a morphological analyzer or Catalan that gives, in the analysis of each word, its morphological category, its associated subcategories and its root.<br/><br/>The system has been written in FORTRAN and is implemented in a VAX-750. </i>

Keywords

Processament de dades; Llenguatge (LIengües)

Subjects

81 - Linguistics and languages

Knowledge Area

Ciències Humanes i Socials

Documents

01.MAMA_1de4.pdf

9.715Mb

02.MAMA_2de4.pdf

9.460Mb

03.MAMA_3de4.pdf

9.708Mb

04.MAMA_4de4.pdf

10.22Mb

 

Rights

ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

This item appears in the following Collection(s)