Die Produktion aller IMB Twitter Wordclouds in R war nicht besonders schwierig. Ich habe mir dazu einige Beispiele im Netz angesehen und das für mich am besten geeignete Programm als Musterbeispiel (sog. Advanced Organizer) her genommen. Meine Wahl fiel dabei auf die Twitter Cloud aus dem Weblog Walking Randomly. Viele der anderen Beispiele und Tutorials im Netz sind schon recht alt und verwenden alte, nicht mehr funktionsfähige Programmpakete von R.
Meine Kenntnisse in R sind bereits soweit fortgeschritten, dass ich keine Mühe hatte das Programm zu verstehen und meine Änderungen vorzunehmen. Den Zugang zur API von Twitter hatte ich mir bereits früher – im Zuge des MOOCs zu Data Science den ich besucht habe – zugelegt.
Wordclouds in deutscher Sprache
Bei meinen Eingriffen in das Muster-Programm handelte sich überwiegend um Adaptionen, die sich aus den Besonderheiten der deutschen Sprache (Umlaute und deutsche Stop-Wörter) ergaben. Die meisten Beispiele im Internet funktionieren nur mit englischer Sprache. Weil wir am Department sowohl in Deutsch als auch Englisch twittern, habe ich englische als auch deutsche Stoppwörter verwendet.
Die meiste Zeit hat mir eigentlich das "Tuning" der Parameter und der Farbpaletten gekostet. Das beinhaltete Experimente mit:
- Wie groß soll die Cloud sein?
- Ab welcher Wiederholung sollen Wörter angezeigt werden?
- Wie viele Wörter soll die Cloud maximal anzeigen?
- Wie viele Wörter sollen um 90 Grad gedreht werden?
- Welche Farbskala soll verwendet werden?
Wordclouds für Tweets von 1000 - 10.000 optimiert
Die hier gezeigten Beispiele sind zwischen 1.000 und 10.000 Tweets recht hübsch. Sowohl darunter als auch darüber sollte an den obigen Parametern "gedreht" werden. Ich werde dies in einem späteren Blogbeitrag genauer beschreiben und dabei auch das (dokumentierte) Programm in einem Repositorium auf meinem GitHub-Account zur Verfügung stellen.