Sentiment Analyse

Mehrsprachige Analyse dank Smileys

Die in diesem Projekt verwendete Sentiment Analyse basiert auf einer Idee von Patrick De Boer und verwendet einen Datensatz aus ca. 150 Millionen Tweets, welche positive oder negative Smileys beinhalten. Basierend auf dieser Menge von Tweets wurden zunächst die Tweets der gewünschten Sprache ausgesucht und in einzelne Worte aufgeteilt. Eine Häufigkeitsanalyse gibt dann an, welche Worte wie oft in Kombination mit positiven und wie oft in Kombination mit negativen Smileys erscheint. Aus diesen Informationen lässt sich dann ein Modell bilden um zu bestimmen, welche Wörter eher in einem positiven und welche eher in negativem Kontext verwendet werden.

Beispiel: Das Wort "wunderbar" trat 109 Mal in Kombination mit einem positiven / lachenden Smiley auf, aber gerade mal 19 Mal mit einem negativen / traurigen. Daraus lässt sich ableiten, dass dieses Wort in der betrachteten Sprache (Deutsch) ein Indikator für einen positiven Text sein kann.

n|w Fachhochschule Nordwestschweiz