Ein neuer Ansatz im Information-Retrieval : Entwicklung, Implementierung und Test eines neuen Algorithmus in der medizinischen Suchmaschine ; Dr. Antonius 3.0

  • Die vorliegende Arbeit beschäftigt sich mit medizinischem Information-Retrieval in Volltext-Datenbanken und im World-Wide-Web. Information-Retrieval unterscheidet sich von Daten- oder Text-Retrieval dadurch, dass nicht nach Wörtern gesucht wird, die einem exakten Patternmatch folgend (Zeichen für Zeichen identisch) gefunden werden. Stattdessen wird eine vage Suchanfrage gestellt, bei der vielerlei Faktoren die Suchergebnisse beeinflussen können. So existieren von vielen Wörtern Schreibweisen-Variationen, wie etwa Cervix-Zervix. Auch kommen in medizinischen Texten, die im Routinebetrieb entstanden sind und die nicht korrekturgelesen wurden, viele Orthografie- bzw. Tipp-Fehler vor. Zusätzlich entstanden durch die Rechtschreibreform der deutschen Sprache weitere Schreibweisenvariationen (Elektrokardiograf-Elektrokardiograph). In der Medizin wird das Problem des Information-Retrieval noch dadurch vergrößert, dass eine Fach- und eine Umgangssprache existieren. So recherchiert ein Arzt als Kenner der Fachsprache nach “Tachykardie“, während ein Patient nach dem umgangssprachlichen “Herzrasen“ sucht. Für Information-Retrieval im World-Wide-Web ist die Nutzung von Suchmaschinen von elementarer Bedeutung. Auch Meta-Suchmaschinen haben sich etabliert. Darauf aufbauend wird das Modell einer thesaurus- und indexbasierten Meta-Suchmaschine entwickelt und implementiert. Dieses Modell bietet - im Vergleich zu klassischen Volltext- und Meta-Suchmaschinen - einige Vorteile. So entsteht z.B. nur sehr geringer Speicherplatzbedarf, es ergeben sich schnelle Zugriffszeiten, trotzdem wird kein eigener Crawler benötigt. Zur Lösung der Probleme werden Thesauri und die Fuzzy-Set-Theorie eingesetzt: * Die Theorie der unscharfen Mengenlehre (Fuzzy-Set-Theorie) wird genutzt, um Differenzen in der Schreibweise zu eliminieren. Dazu wird ein neuer Algorithmus entwickelt, der - basierend auf einem klassischen, etablierten Algorithmus - bessere Retrieval-Ergebnisse bei gleichzeitig geringerer Laufzeit ergibt. Er basiert auf Buchstabengruppen (sog. n-Gramme) und wurde am Beispiel der Größe n = 3 (Trigramme) implementiert und getestet. * Thesauri sind Datenbanken, die W¨orter und Relationen zwischen Wörtern enthalten. Sie werden in der vorliegenden Arbeit extensiv f¨ur Crawling, Ranking, Information-Retrieval und Meta-Suche eingesetzt. Fuzzy-Set-Theorie und Thesauri dienen zusammen der Modellierung des ungenauen Wissens für das Information-Retrieval. Test und Evaluation finden anhand von drei verschiedenen Textmengen statt. Die Suchmöglichkeiten für das Information-Retrieval werden komplex gestaltet. Es wird sowohl eine Operatorpriorität als auch Setzung von Prioritätsklammern ermöglicht. Dazu werden Techniken der formalen Sprachen und des Compilerbaus eingesetzt. Für die Ausgabe der Seiten werden spezifische Verfahren entwickelt, die Seite bezüglich der Relevanz zu bewerten, das sog. Ranking. Insgesamt werden drei verschiedene Ranking-Verfahren vorgestellt und implementiert. Die Realisierung erfolgt komplett XML-basiert mit einem Schwerpunkt auf XSLT. Als Ausgabeformate stehen XML, HTML und PDF zur Verfügung.
  • The present thesis deals with medical information retrieval in fulltext data base systems and the World Wide Web. Information retrieval differs from data- or text-retrieval by the fact that words are not searched matching an accurate patternmatch (character by character identically). Instead a vague retrieval query is raised with which various factors can affect the search results. For many words variations in spelling exist as for instance Cervix-Zervix. Also medical texts which were developed in routine-work and which were not correctionread contain a lot of spelling errors. Furthermore the spelling reform of the German language allows further spelling varieties (Elektrokardiograf-Elektrokardiograph). In medicine the problem of information retrieval is being enforced by the fact that a technical and a colloquial language exist. Thus a physician as an expert speaker - knowing the technical language - would ask a query for instance for “tachycardia“, whereas a patient searches for the colloquial term “heart race“. For information retrieval in the World Wide Web the use of search-engines is of elementary importance. Also meta-search-engines have been established. Based on this the model of a thesaurus- and index-based meta-search-engine is developed and implemented. This model offers - compared with classical fulltext- and metasearch-engines - several advantages. Thus e.g. only very small harddisk-space is needed, fast access times are reached, and no own crawler is needed. For the solution of the problems thesauruses and the fuzzy-set-theory are used: * The fuzzy-set-theory is used to eliminate differences in the way of spelling. In addition a new algorithm was developed which - based on a classical, established algorithm - results in better retrieval results and - at the same time - smaller running time. The algorithm is based on groups of letters (so-called n-grams) and was implemented and tested by the example of the quantity n = 3 (trigrams). * Thesauruses are data bases which contain words and relations between words. They are used extensively for crawling, ranking, information retrieval and meta-search. Fuzzy-set-theory and thesauruses serve together the modelling of the inaccurate knowledge for the information retrieval. Test and evaluation take place on the basis of three different text quantities. The search possibilities for the information retrieval are arranged complex. Both an operator priority and parenthesis setting are made possible. Therefore techniques of the formal languages and compiler construction are used. For the output of the hits specific procedures are developed to evaluate the hits concerning the relevance. This is called ranking. Altogether three different ranking procedures are presented and implemented. The realization takes place completely xml-based with an emphasis on XSLT. As output formats are available XML, HTML and PDF.

Download full text files

  • DR_ANTONIUS_3.pdf
    deu

    Diese Dissertation steht leider (aus urheberrechtlichen Gründen) nicht im Volltext im WWW zur Verfügung, die CD-ROM kann (auch über Fernleihe) bei der UB Frankfurt am Main ausgeliehen werden.

Export metadata

Additional Services

Share in Twitter Search Google Scholar
Metadaten
Author:Winfried Bantel
URN:urn:nbn:de:hebis:30-38549
Publisher:Univ.-Bibliothek
Place of publication:Frankfurt am Main
Referee:Wolfgang Giere, Roland Inglis
Advisor:Wolfgang Giere
Document Type:Doctoral Thesis
Language:German
Date of Publication (online):2007/03/02
Year of first Publication:2003
Publishing Institution:Universitätsbibliothek Johann Christian Senckenberg
Granting Institution:Johann Wolfgang Goethe-Universität
Date of final exam:2005/06/01
Release Date:2007/03/02
GND Keyword:Medizin ; Information Retrieval ; World Wide Web ; Medizin ; Metasuchmaschine
Page Number:129
First Page:1
Last Page:117
Note:
Diese Dissertation steht leider (aus urheberrechtlichen Gründen) nicht im Volltext im WWW zur Verfügung, die CD-ROM kann (auch über Fernleihe) bei der UB Frankfurt am Main ausgeliehen werden.
HeBIS-PPN:347766315
Institutes:Medizin / Medizin
Dewey Decimal Classification:0 Informatik, Informationswissenschaft, allgemeine Werke / 02 Bibliotheks- und Informationswissenschaften / 020 Bibliotheks- und Informationswissenschaften
Licence (German):License LogoArchivex. zur Lesesaalplatznutzung § 52b UrhG