Lexikalische Analyse und Stoplisten

Ein Vortrag von Frank Kleine
im Rahmen des Proseminars "Information Retrieval"
WS 1999/2000, Otto-von-Guericke-Universität Magdeburg
Dienstag, 16. November 1999

 

 Sie befinden sich hier: >Vortrag >3. Stoplisten >3.2 Implementation

 

 3.2 Implementation:

Zur Implementation von Stoplisten gibt es zwei Möglichkeiten:

  1. Überprüfung der Ausgabe des LA-Systemes mit Löschen von Stopwörtern
  2. Das Löschen von Stopwörtern als Teil der lexikalischen Analyse

Der erste Vorschlag degradiert das Stoplistenproblem zu einem einfachen Standardlistensuchproblem: Jedes Wort muss in der Stopliste nachgeschaut und gelöscht werden, falls es dort aufgefunden wird. Dazu gibt es die üblichen Möglichkeiten, wie Binärbäume, Binärsuche im Array und natürlich Hashing. Von diesen ist unzweifelbar Hashing die schnellste Methode. Aber uns sind natürlich auch die ganzen damit verbunden Probleme bekannt, über die ich mich an dieser Stelle nicht weiter auslassen möchte.

Die beste Implementation ist deshalb der zweite Vorschlag. Weil die lexikalische Analyse in jedem Fall durchgeführt werden muss, und das Erkennen selbst in grossen Stoplisten ohne grössere Extrakosten während des Vorganges der lexikalischen Analyse erledigt werden kann, ist dies sehr effizient. Desweiteren können Systeme zur lexikalischen Analyse mit Stoplistenfiltern automatisch generiert werden, was deutlich einfacher und weniger fehleranfällig ist als das Schreiben von Hand.

 

Zurück. Home. Vorwärts.

 

Letzte Änderung am 16. November 1999. Nach oben fk@sirmikey.de © 1999 Frank Kleine