OPUS 4 | Search

1 search hit

1 to 1

Ein neuer Ansatz im Information-Retrieval : Entwicklung, Implementierung und Test eines neuen Algorithmus in der medizinischen Suchmaschine ; Dr. Antonius 3.0 (2003)

Bantel, Winfried

Die vorliegende Arbeit beschäftigt sich mit medizinischem Information-Retrieval in Volltext-Datenbanken und im World-Wide-Web. Information-Retrieval unterscheidet sich von Daten- oder Text-Retrieval dadurch, dass nicht nach Wörtern gesucht wird, die einem exakten Patternmatch folgend (Zeichen für Zeichen identisch) gefunden werden. Stattdessen wird eine vage Suchanfrage gestellt, bei der vielerlei Faktoren die Suchergebnisse beeinflussen können. So existieren von vielen Wörtern Schreibweisen-Variationen, wie etwa Cervix-Zervix. Auch kommen in medizinischen Texten, die im Routinebetrieb entstanden sind und die nicht korrekturgelesen wurden, viele Orthografie- bzw. Tipp-Fehler vor. Zusätzlich entstanden durch die Rechtschreibreform der deutschen Sprache weitere Schreibweisenvariationen (Elektrokardiograf-Elektrokardiograph). In der Medizin wird das Problem des Information-Retrieval noch dadurch vergrößert, dass eine Fach- und eine Umgangssprache existieren. So recherchiert ein Arzt als Kenner der Fachsprache nach “Tachykardie“, während ein Patient nach dem umgangssprachlichen “Herzrasen“ sucht. Für Information-Retrieval im World-Wide-Web ist die Nutzung von Suchmaschinen von elementarer Bedeutung. Auch Meta-Suchmaschinen haben sich etabliert. Darauf aufbauend wird das Modell einer thesaurus- und indexbasierten Meta-Suchmaschine entwickelt und implementiert. Dieses Modell bietet - im Vergleich zu klassischen Volltext- und Meta-Suchmaschinen - einige Vorteile. So entsteht z.B. nur sehr geringer Speicherplatzbedarf, es ergeben sich schnelle Zugriffszeiten, trotzdem wird kein eigener Crawler benötigt. Zur Lösung der Probleme werden Thesauri und die Fuzzy-Set-Theorie eingesetzt: * Die Theorie der unscharfen Mengenlehre (Fuzzy-Set-Theorie) wird genutzt, um Differenzen in der Schreibweise zu eliminieren. Dazu wird ein neuer Algorithmus entwickelt, der - basierend auf einem klassischen, etablierten Algorithmus - bessere Retrieval-Ergebnisse bei gleichzeitig geringerer Laufzeit ergibt. Er basiert auf Buchstabengruppen (sog. n-Gramme) und wurde am Beispiel der Größe n = 3 (Trigramme) implementiert und getestet. * Thesauri sind Datenbanken, die W¨orter und Relationen zwischen Wörtern enthalten. Sie werden in der vorliegenden Arbeit extensiv f¨ur Crawling, Ranking, Information-Retrieval und Meta-Suche eingesetzt. Fuzzy-Set-Theorie und Thesauri dienen zusammen der Modellierung des ungenauen Wissens für das Information-Retrieval. Test und Evaluation finden anhand von drei verschiedenen Textmengen statt. Die Suchmöglichkeiten für das Information-Retrieval werden komplex gestaltet. Es wird sowohl eine Operatorpriorität als auch Setzung von Prioritätsklammern ermöglicht. Dazu werden Techniken der formalen Sprachen und des Compilerbaus eingesetzt. Für die Ausgabe der Seiten werden spezifische Verfahren entwickelt, die Seite bezüglich der Relevanz zu bewerten, das sog. Ranking. Insgesamt werden drei verschiedene Ranking-Verfahren vorgestellt und implementiert. Die Realisierung erfolgt komplett XML-basiert mit einem Schwerpunkt auf XSLT. Als Ausgabeformate stehen XML, HTML und PDF zur Verfügung.

1 to 1

Open Access

Refine

Author

Year of publication

Document Type

Language

Has Fulltext

Is part of the Bibliography

Keywords

Institute

1 search hit