Lexikalische Analyse und Stoplisten

Ein Vortrag von Frank Kleine
im Rahmen des Proseminars "Information Retrieval"
WS 1999/2000, Otto-von-Guericke-Universität Magdeburg
Dienstag, 16. November 1999

 

 Sie befinden sich hier: >Vortrag >2.4.1 Möglichkeiten zur Implementation

 

 2.4.1 Möglichkeiten zur Implementation:

Die lexikalische Analyse für IR-Systeme ist das gleiche wie bei Textverarbeitungssystemen oder aber auch bei Compilern. Unterschiede bestehen lediglich in der Festlegung, was ein Term darstellt, Überlegungen dazu haben wir schon weiter oben angestellt.

Es gibt drei Möglichkeiten zur Implementation:

  1. Mensch benutzt einen Generator zur automatischen Erzeugung, z.B. das UNIX-Tool lex,
  2. das Schreiben von Hand aus dem Stand heraus sowie
  3. das Schreiben von Hand anhand eines endlichen Automaten.

Die erste Möglichkeit eignet sich am besten, wenn das System für die lexikalische Analyse sehr kompliziert und komplex ist. Ein wesentlicher Vorteil besteht darin, dass die besten bekannten Algorithmen zum Pattern-Matching eingesetzt werden können. Dadurch ist mensch in der Lage, effiziente Systeme zu erzeugen, ohne dass vom Benutzer besondere Kenntnisse über Pattern-Matching-Techniken verlangt werden. Da uns aber beim letzten Mal von Jörg sehr schöne Techniken nahegebracht wurden, möchte ich an dieser Stelle darauf verzichten.

Die zweite Alternative ist gleichzeitig die schlechteste. Sie kann raffinierte Fehler enthalten, die zu identifizieren sehr schwer ist. Auch sind diese Algorithmen oftmals nicht sehr effizient, wogegen es aber wie schon erwähnt gerade hier auf Effizienz ankommt. Deshalb können wir diese Version gleich unter den Tisch fallen lassen.

Die einfachste Möglichkeit, einen System zur lexikalischen Analyse zu implementieren, geschieht mit Hilfe sogenannter endlicher Automaten.

 

Zurück. Home. Vorwärts.

 

Letzte Änderung am 16. November 1999. Nach oben fk@sirmikey.de © 1999 Frank Kleine