Lexikalische Analyse und Stoplisten

Ein Vortrag von Frank Kleine
im Rahmen des Proseminars "Information Retrieval"
WS 1999/2000, Otto-von-Guericke-Universität Magdeburg
Dienstag, 16. November 1999

 

 Sie befinden sich hier: >Vortrag >2.4.3 Lexikalische Fehler

 

 2.4.3 Lexikalische Fehler:

Ein Dokument, welches untersucht wird, kann Fehler aller Art enthalten. Dies können Rechtschreibfehler, grammatikalische Fehler und Satzzeichenfehler sein. Während letztere für uns keine Rolle spielen und auch grammatikalische Fehler nur wenig interessant sind, soll den Rechtschreibfehlern unser Interesse gelten. Jedes Dokument kann Fehler dieser Art enthalten und damit zu einem falschen und nutzlosen Eintrag führen, da wir davon ausgehen, dass vom Nutzer mit hoher Sicherheit ein korrekter Term eingegeben wird. Auf Grund der bekannten Methode zur Auffindung von Strings wissen wir bisher, dass nur völlig gleiche Strings gefunden werden. Also muss es irgendwo eine Möglichkeit geben, diese Fehler während des Indexierungsvorganges zu beseitigen.

Doch leider sind nur wenige Fehler eindeutig identifzierbar, da der Erkenner eine beschränkte Sicht auf den Quelltext besitzt. Es sind Situationen denkbar, in denen der Erkenner unfähig ist, weiterzuarbeiten, weil die Eingabe keinem bekannten Muster entspricht. Hier wäre also eine Art Krisenmanagement erforderlich. Dies kann mit sogenannten Recovery-Aktionen geschehen:

Ein Beispiel für diese Recovery-Aktionen ist das Panic Mode Recovery. Bei dieser Art der Fehlerbeseitigung werden so lange aufeinanderfolgende Zeichen gelöscht, bis ein bekanntes Muster gefunden wurde. Andere mögliche Operationen sind das Löschen eines überzähligen Zeichens, das Einfügen eines fehlenden Zeichens, das Ersetzen eines falschen Zeichens durch ein korrektes sowie das Vertauschen zweier benachbarter Zeichen.

Fehlertransformationen dieser Art können zur Korrektur der Eingabe verwendet werden. Doch leider hat diese an sich sehr schöne Sache einen grossen Haken: ihre Implementation ist zu kostspielig, weshalb sie kaum in der Praxis eingesetzt werden, meistens höchstens zu experimentellen Zwecken. Schade eigentlich.

 

Zurück. Home. Vorwärts.

 

Letzte Änderung am 16. November 1999. Nach oben fk@sirmikey.de © 1999 Frank Kleine