Refine
Year of publication
- 2012 (1) (remove)
Document Type
- Bachelor Thesis (1)
Language
- German (1)
Has Fulltext
- yes (1)
Is part of the Bibliography
- no (1)
Institute
- Informatik (1)
Spam detection in wikis
(2012)
Wikis haben durch ihre kollaborativen Eigenschaften maßgeblich an der Entstehung des Web 2.0 beigetragen: Durch die Zusammenarbeit vieler Benutzer ist es möglich geworden, große Mengen an Daten aufzubereiten und strukturiert zusammenzustellen. So ist ein Datenschatz angewachsen, der wertvoll für die maschinelle Verarbeitung von Text ist: Mittels der Techniken des TextMining lassen sich aus Wikis viele Informationen extrahieren. Dazu ist es zunächst sinnvoll, deren Inhalte herunterzuladen und lokal zu speichern.
Zum Editieren von Seiten existieren häufig keine Zugangsbeschränkungen. So wird die genannte Akkumulation von Informationen ermöglicht, da sich viele Benutzer beteiligen können. Jedoch birgt dies die Gefahr, dass Wikis durch Spam verunreinigt werden: Zur Verwendung als Wissensbasis ist dies hinderlich.
Gängige Anti-Spam-Maßnahmen finden online statt und setzen unter anderem auf die Überwachung durch die Nutzer oder den Einsatz von Blacklists für Weblinks. Im Gegensatz dazu wird im Rahmen dieser Arbeit folgender Ansatz gewählt: Ein lokal gespeichertes Wiki wird einer Bestandsaufnahme unterzogen und in seiner Gesamtheit untersucht. Es werden ausschließlich die Inhalte der Seiten berücksichtigt. Die Spam-Erkennung beruht auf einer Kombination von Entscheidungsregeln sowie der Berücksichtigung von Wortwahrscheinlichkeiten. Dadurch konnten gute Ergebnisse erzielt werden.