020 Bibliotheks- und Informationswissenschaften
Refine
Document Type
- Doctoral Thesis (3) (remove)
Language
- German (3)
Has Fulltext
- yes (3)
Is part of the Bibliography
- no (3)
Keywords
Institute
- Informatik (1)
- Medizin (1)
- Philosophie (1)
Die vorliegende Arbeit lässt sich in den Bereich Data Science einordnen. Data Science verwendet Verfahren aus dem Bereich Computer Science, Algorithmen aus der Mathematik und Statistik sowie Domänenwissen, um große Datenmengen zu analysieren und neue Erkenntnisse zu gewinnen. In dieser Arbeit werden verschiedene Forschungsbereiche aus diesen verwendet. Diese umfassen die Datenanalyse im Bereich von Big Data (soziale Netzwerke, Kurznachrichten von Twitter), Opinion Mining (Analyse von Meinungen auf Basis eines Lexikons mit meinungstragenden Phrasen) sowie Topic Detection (Themenerkennung)....
Ergebnis 1: Sentiment Phrase List (SePL)
Im Forschungsbereich Opinion Mining spielen Listen meinungstragender Wörter eine wesentliche Rolle bei der Analyse von Meinungsäußerungen. Das im Rahmen dieser Arbeit entwickelte Vorgehen zur automatisierten Generierung einer solchen Liste leistet einen wichtigen Forschungsbeitrag in diesem Gebiet. Der neuartige Ansatz ermöglicht es einerseits, dass auch Phrasen aus mehreren Wörtern (inkl. Negationen, Verstärkungs- und Abschwächungspartikeln) sowie Redewendungen enthalten sind, andererseits werden die Meinungswerte aller Phrasen auf Basis eines entsprechenden Korpus automatisiert berechnet. Die Sentiment Phrase List sowie das Vorgehen wurden veröffentlicht und können von der Forschungsgemeinde genutzt werden [121, 123]. Die Erstellung basiert auf einer textuellen sowie zusätzlich numerischen Bewertung, welche typischerweise in Kundenrezensionen verwendet werden (beispielsweise der Titel und die Sternebewertung bei Amazon Kundenrezensionen). Es können weitere Datenquellen verwendet werden, die eine derartige Bewertung aufweisen. Auf Basis von ca. 1,5 Millionen deutschen Kundenrezensionen wurden verschiedene Versionen der SePL erstellt und veröffentlicht [120].
Ergebnis 2: Algorithmus auf Basis der SePL
Mit Hilfe der SePL und den darin enthaltenen meinungstragenden Phrasen ergeben sich Verbesserungen für lexikonbasierte Verfahren bei der Analyse von Meinungsäußerungen. Phrasen werden im Text häufig durch andere Wörter getrennt, wodurch eine Identifizierung der Phrasen erforderlich ist. Der Algorithmus für eine lexikonbasierte Meinungsanalyse wurde veröffentlicht [176]. Er basiert auf meinungstragenden Phrasen bestehend aus einem oder mehreren Wörtern. Da für einzelne Phrasen unterschiedliche Meinungswerte vorliegen, ist eine genauere Bewertung als mit bisherigen Ansätzen möglich. Dies ermöglicht, dass meinungstragende Phrasen aus dem Text extrahiert und anhand der in der SePL enthaltenen Einträge differenziert bewertet werden können. Bisherige Ansätze nutzen häufig einzelne meinungstragende Wörter. Der Meinungswert für beispielsweise eine Verneinung muss nicht anhand eines generellen Vorgehens erfolgen. In aktuellen Verfahren wird der Wert eines meinungstragenden Wortes bei Vorhandensein einer Verneinung bisher meist invertiert, was häufig falsche Ergebnisse liefert. Die Liste enthält im besten Fall sowohl einen Meinungswert für das einzelne Wort und seine Verneinung (z.B. „schön“ und „nicht schön“).
1.3 übersicht der hauptergebnisse 5
Ergebnis 3: Evaluierung der Anwendung der SePL
Der Algorithmus aus Ergebnis 2 wurde mit Rezensionen der Bewertungsplattform CiaoausdemBereichderAutomobilversicherunge valuiert.Dabei wurden wesentliche Fehlerquellen aufgezeigt [176], die entsprechende Verbesserungen ermöglichen. Weiterhin wurde mit der SePL eine Evaluation anhand eines Maschinenlernverfahrens auf Basis einer Support Vector Machine durchgeführt. Hierbei wurden verschiedene bestehende lexikalische Ressourcen mit der SePL verglichen sowie deren Einsatz in verschiedenen Domänen untersucht. Die Ergebnisse wurden in [115] veröffentlicht.
Ergebnis 4: Forschungsprojekt PoliTwi - Themenerkennung politischer Top-Themen
Mit dem Forschungsprojekt PoliTwi wurden einerseits die erforderlichen Daten von Twitter gesammelt. Andererseits werden der breiten Öffentlichkeit fortlaufend aktuelle politische Top-Themen über verschiedene Kanäle zur Verfügung gestellt. Für die Evaluation der angestrebten Verbesserungen im Bereich der Themenerkennung in Verbindung mit einer Meinungsanalyse liegen die erforderlichen Daten über einen Zeitraum von bisher drei Jahren aus der Domäne Politik vor. Auf Basis dieser Daten konnte die Themenerkennung durchgeführt werden. Die berechneten Themen wurden mit anderen Systemen wie Google Trends oder Tagesschau Meta verglichen (siehe Kapitel 5.3). Es konnte gezeigt werden, dass die Meinungsanalyse die Themenerkennung verbessern kann. Die Ergebnisse des Projekts wurden in [124] veröffentlicht. Der Öffentlichkeit und insbesondere Journalisten und Politikern wird zudem ein Service (u.a. anhand des Twitter-Kanals unter https://twitter.com/politwi) zur Verfügung gestellt, anhand dessen sie über aktuelle Top-Themen informiert werden. Nachrichtenportale wie FOCUS Online nutzten diesen Service bei ihrer Berichterstattung (siehe Kapitel 4.3.6.1). Die Top-Themen werden seit Mitte 2013 ermittelt und können zudem auf der Projektwebseite [119] abgerufen werden.
Ergebnis 5: Erweiterung lexikalischer Ressourcen auf Konzeptebene
Das noch junge Forschungsgebiet des Concept-level Sentiment Analysis versucht bisherige Ansätze der Meinungsanalyse dadurch zu verbessern, dass Meinungsäußerungen auf Konzeptebene analysiert werden. Eine Voraussetzung sind Listen meinungstragender Wörter, welche differenzierte Betrachtungen anhand unterschiedlicher Kontexte ermöglichen. Anhand der Top-Themen und deren Kontext wurde ein Vorgehen entwickelt, welches die Erstellung bzw. Ergänzung dieser Listen ermöglicht. Es wurde gezeigt, wie Meinungen in unterschiedlichen Kontexten differenziert bewertet werden und diese Information in lexikalischen Ressourcen aufgenommen werden können, was im Bereich der Concept-level Sentiment Analysis genutzt werden kann. Das Vorgehen wurde in [124] veröffentlicht.
Die vorliegende Arbeit beschäftigt sich mit medizinischem Information-Retrieval in Volltext-Datenbanken und im World-Wide-Web. Information-Retrieval unterscheidet sich von Daten- oder Text-Retrieval dadurch, dass nicht nach Wörtern gesucht wird, die einem exakten Patternmatch folgend (Zeichen für Zeichen identisch) gefunden werden. Stattdessen wird eine vage Suchanfrage gestellt, bei der vielerlei Faktoren die Suchergebnisse beeinflussen können. So existieren von vielen Wörtern Schreibweisen-Variationen, wie etwa Cervix-Zervix. Auch kommen in medizinischen Texten, die im Routinebetrieb entstanden sind und die nicht korrekturgelesen wurden, viele Orthografie- bzw. Tipp-Fehler vor. Zusätzlich entstanden durch die Rechtschreibreform der deutschen Sprache weitere Schreibweisenvariationen (Elektrokardiograf-Elektrokardiograph). In der Medizin wird das Problem des Information-Retrieval noch dadurch vergrößert, dass eine Fach- und eine Umgangssprache existieren. So recherchiert ein Arzt als Kenner der Fachsprache nach “Tachykardie“, während ein Patient nach dem umgangssprachlichen “Herzrasen“ sucht. Für Information-Retrieval im World-Wide-Web ist die Nutzung von Suchmaschinen von elementarer Bedeutung. Auch Meta-Suchmaschinen haben sich etabliert. Darauf aufbauend wird das Modell einer thesaurus- und indexbasierten Meta-Suchmaschine entwickelt und implementiert. Dieses Modell bietet - im Vergleich zu klassischen Volltext- und Meta-Suchmaschinen - einige Vorteile. So entsteht z.B. nur sehr geringer Speicherplatzbedarf, es ergeben sich schnelle Zugriffszeiten, trotzdem wird kein eigener Crawler benötigt. Zur Lösung der Probleme werden Thesauri und die Fuzzy-Set-Theorie eingesetzt: * Die Theorie der unscharfen Mengenlehre (Fuzzy-Set-Theorie) wird genutzt, um Differenzen in der Schreibweise zu eliminieren. Dazu wird ein neuer Algorithmus entwickelt, der - basierend auf einem klassischen, etablierten Algorithmus - bessere Retrieval-Ergebnisse bei gleichzeitig geringerer Laufzeit ergibt. Er basiert auf Buchstabengruppen (sog. n-Gramme) und wurde am Beispiel der Größe n = 3 (Trigramme) implementiert und getestet. * Thesauri sind Datenbanken, die W¨orter und Relationen zwischen Wörtern enthalten. Sie werden in der vorliegenden Arbeit extensiv f¨ur Crawling, Ranking, Information-Retrieval und Meta-Suche eingesetzt. Fuzzy-Set-Theorie und Thesauri dienen zusammen der Modellierung des ungenauen Wissens für das Information-Retrieval. Test und Evaluation finden anhand von drei verschiedenen Textmengen statt. Die Suchmöglichkeiten für das Information-Retrieval werden komplex gestaltet. Es wird sowohl eine Operatorpriorität als auch Setzung von Prioritätsklammern ermöglicht. Dazu werden Techniken der formalen Sprachen und des Compilerbaus eingesetzt. Für die Ausgabe der Seiten werden spezifische Verfahren entwickelt, die Seite bezüglich der Relevanz zu bewerten, das sog. Ranking. Insgesamt werden drei verschiedene Ranking-Verfahren vorgestellt und implementiert. Die Realisierung erfolgt komplett XML-basiert mit einem Schwerpunkt auf XSLT. Als Ausgabeformate stehen XML, HTML und PDF zur Verfügung.
Gerade bei Rechten auf Freiheit stellt sich die Frage, ob und wie sie sich begründen lassen. Ein naheliegender Zugang sind liberale Theorien der Gerechtigkeit. Sie rechtfertigen individuelle Anrechte auf ein Maß an Freiheit. Begründungsbedürftig ist die Annahme subjektiver Rechte auf Freiheit schon deshalb, da sie eine fundamentale Weichenstellung für jede politische Theorie darstellt, die sie beinhaltet. Für diesen Bereich der Freiheit ist die Begründungslast umgekehrt; eine Einschränkung der Freiheit muß begründet werden, nicht das Verlangen danach, frei zu sein. Der "Zweck" einer liberalen Theorie der Gerechtigkeit ist die wertneutrale Entscheidung auch antagonistischer Konflikte. Es sind Situationen, in denen zwei Parteien handeln wollen, die Handlungen sich aber gegenseitig ausschließen und die Parteien sich über die Bewertung der Handlungsziele uneinig sind. In der hier erörterten Theorie Hillel Steiners werden die fraglichen Entscheidungen aufgrund subjektiver Rechte gefällt. Gerechtigkeit begründet subjektive Rechte auf ein Maß an Freiheit, durch die selbst antagonistische Konflikte neutral entschieden werden können. Im folgenden wird im Kontext dieser Art liberaler Gerechtigkeitstheorie argumentiert. ...