Spam detection in wikis

  • Wikis haben durch ihre kollaborativen Eigenschaften maßgeblich an der Entstehung des Web 2.0 beigetragen: Durch die Zusammenarbeit vieler Benutzer ist es möglich geworden, große Mengen an Daten aufzubereiten und strukturiert zusammenzustellen. So ist ein Datenschatz angewachsen, der wertvoll für die maschinelle Verarbeitung von Text ist: Mittels der Techniken des TextMining lassen sich aus Wikis viele Informationen extrahieren. Dazu ist es zunächst sinnvoll, deren Inhalte herunterzuladen und lokal zu speichern. Zum Editieren von Seiten existieren häufig keine Zugangsbeschränkungen. So wird die genannte Akkumulation von Informationen ermöglicht, da sich viele Benutzer beteiligen können. Jedoch birgt dies die Gefahr, dass Wikis durch Spam verunreinigt werden: Zur Verwendung als Wissensbasis ist dies hinderlich. Gängige Anti-Spam-Maßnahmen finden online statt und setzen unter anderem auf die Überwachung durch die Nutzer oder den Einsatz von Blacklists für Weblinks. Im Gegensatz dazu wird im Rahmen dieser Arbeit folgender Ansatz gewählt: Ein lokal gespeichertes Wiki wird einer Bestandsaufnahme unterzogen und in seiner Gesamtheit untersucht. Es werden ausschließlich die Inhalte der Seiten berücksichtigt. Die Spam-Erkennung beruht auf einer Kombination von Entscheidungsregeln sowie der Berücksichtigung von Wortwahrscheinlichkeiten. Dadurch konnten gute Ergebnisse erzielt werden.

Download full text files

  • balossafinalprint.pdf
    deu

Export metadata

Additional Services

Share in Twitter Search Google Scholar
Metadaten
Author:Roman Lossa
URN:urn:nbn:de:hebis:30:3-422111
URL:https://hucompute.org/files/teaching/balossafinalprint.pdf
Referee:Alexander MehlerORCiDGND
Advisor:Alexander Mehler, Rüdiger Gleim
Document Type:Bachelor Thesis
Language:German
Date of Publication (online):2016/11/23
Year of first Publication:2012
Publishing Institution:Universitätsbibliothek Johann Christian Senckenberg
Granting Institution:Johann Wolfgang Goethe-Universität
Date of final exam:2012/08/22
Release Date:2017/09/11
Page Number:45
Note:
Diese Arbeit dürfen wir leider (aus urheberrechtlichen Gründen) nicht außerhalb der UB anbieten, benutzen Sie ersatzweise die o.g. URL.
HeBIS-PPN:419479546
Institutes:Informatik und Mathematik / Informatik
Dewey Decimal Classification:0 Informatik, Informationswissenschaft, allgemeine Werke / 00 Informatik, Wissen, Systeme / 004 Datenverarbeitung; Informatik
Sammlungen:Universitätspublikationen
Licence (German):License LogoArchivex. zur Lesesaalplatznutzung § 52b UrhG