Lexikalische Analyse und Stoplisten

Ein Vortrag von Frank Kleine
im Rahmen des Proseminars "Information Retrieval"
WS 1999/2000, Otto-von-Guericke-Universität Magdeburg
Dienstag, 16. November 1999

 

 Sie befinden sich hier: >Vortrag >3. Stoplisten >3.1 Allgemeines

 

 3.1 Allgemeines:

Viele der häufiger in einer Sprache auftauchenden Wörter sind als Indexterme nutzlos. Dies trifft auf Artikel, Füllwörter und Konjunktionen zu. Eine Suche mit Wörtern dieser Typarten würde alle möglichen Dokumente als Ergebnis ausgeben, unabhängig von ihrer Relevanz. Das Eliminieren dieser Wörter vor dem Indexierungsvorgang beschleunigt die Verarbeitung und spart Platz. Ausserdem beeinflusst es nicht die Auffindungseffektivität. Listen von Wörtern, die während der automatischen Indexierung herausgefiltert werden, werden Stoplisten oder auch Negatives Wörterbuch genannt. Eine Stopliste ist also nichts weiter als eine Liste von Wörtern, die keinen Sinn für die Indexierung ergeben, und wird benutzt, um ebendiese Wörter herauszufiltern. Jeder potentielle Indexterm wird anhand dieser Stopliste überprüft und eliminiert, falls er dort drin aufgefunden wird.

Normalerweise enthalten Stoplisten die am häufigsten auftauchenden Wörter einer Sprache. Trotzdem sind einige dieser Wörter zu bedeutend, als dass sie einfach gestrichen werden könnten. Beispielsweise sind "time", "war" und "water" im englischen Sprachschatz sehr häufig genutzte Wörter, die auch in Indexlisten zu gebrauchen sind. Andererseits benötigen spezielle IR-Systeme gerade in diesem Spezialgebiet nicht alle häufig auftauchenden Wörter. Eine Computerliteraturdatenbank benötigt beispielsweise wahrscheinlich nicht die Wörter "Computer", "Programm", oder "Programmiersprache". Was lernen wir daraus? Wie auch bei der lexikalischen Analyse kommt es hier auf das Einsatzgebiet des IR-Systemes und auf die Bedürfnisse der Nutzer in spé an.

 

Zurück. Home. Vorwärts.

 

Letzte Änderung am 16. November 1999. Nach oben fk@sirmikey.de © 1999 Frank Kleine