R Data Science Exkursion – nach 4 Monaten wieder aufgetaucht

Der Beitrag beschreibt persönlichen Gründe für meine Beschäftigung mit R & Data Science. Ich erwähne Eckpunkte dieser Exkursion und berichte über Erfolge und Misserfolge meiner Aktivitäten. Außerdem mache ich den Zusammenhang meiner Data Science Aktivitäten mit meinem weiterhin stark didaktisch geprägten Forschungsrahmen deutlich.

Seit geschlagenen vier Monaten hat sich hier auf meinem Weblog nichts mehr getan. Dabei war ich produktiv wie noch nie! Der Grund für meine lange Blog-Absenz war, dass ich in die Tiefen von Data Science – insbesondere in die Modellierung von Datensätzen mit Hilfe von R – abgetaucht bin.

Taucher beim Auftauchen: Das bin zwar nicht ich, soll aber mein thematisches „Abtauchen“ und „Auftauchen“ illustrieren.

Zugegeben! Im normalen Berufsleben wäre solch ein „Treibenlassen“ meiner Interessen nicht möglich gewesen. Aber in der Zwischenzeit habe ich einen Vorteil der Pensionierung nützen gelernt: Durch Wegfall organisatorischer Zwänge ist der Außendruck sich gemäß einer definierten Rolle zu verhalten, zwar nicht ganz weggefallen, aber doch deutlich kleiner geworden. Dabei ist das „Fremdgehen“ mit Data Science kein Zufall gewesen und durchaus mit meinem Spezialthema der Didaktik bzw. Technology Enhanced Learning kompatibel. Aber langsam, alles der Reihe nach…

Von H5P zur Statistik-Didaktik

Eigentlich sollte es heißen: Von didaktischen Nutzungsszenarien mit H5P zur Didaktik der Statistik. Ausgangspunkt war nämlich mein Interesse an H5P, dessen inhaltliche Nutzung ich vor allem am Bereich der Statistik anwendungsorientiert erforschen wollte. Dieses Interesse zeigt sich sowohl in meinen vielen Blogartikeln zu H5P, aber auch zu bisher noch eher versteckt gehaltenen Arbeiten zur Nutzung von H5P in der Statistik.

Ein gewisses Interesse zu Statistik/Data Science hatte ich schon immer: So schrieb ich schon Ende der ’70er-Jahre meine soziologische Dissertation1 zu methodischen Problemen bei der Erfassung der sich imm weiter öffnenden Schere zwischen Bevölkerungsernährung und Bevölkerungswachstum2. Mein Erstbetreuer war der damalige Direktor des österreichischen statistischen Zentralamts. Und gerade in letzter Zeit vor der Pensionierung war ich in Deutschland mehrmals als Gutachter und Beirat für die Förderung von Data Science als Querschnittsdisziplin für alle Studienrichtungen – eine, wie ich meine, hochschuldidaktische Innovation – tätig.

Wie aus einem meiner Blog-Beiträge hervorgeht, habe ich etwa Anfang 2016 begonnen mich mit R ernsthaft auseinander zu setzen. Dabei war aber mein praktisches Interesse vor allem auf die Nutzung von R Zusatzpaketen für das wissenschaftliche Schreiben ausgerichtet: Beispiele sind Blogs, die statistische Auswertungen übernehmen und visualisieren können , wie z.B. Educational Patterns (aufgegeben) und Thought Splinters. Andere Nutzungsmuster sind über das Schlagwort der „Cross-Media-Publishing“ charakterisiert (siehe dazu meine CMP-Artikelserie).

Mit H5P in der Statistik-Ausbildung allerdings hatte ich dann aber auch verstärkt einen didaktischen Zugang gewonnen.

R-Tutorials mit learnr

In der Zwischenzeit sind mit learnr und gradethis (noch nicht offiziell als Paket auf CRAN veröffentlicht) auch innerhalb der R Community verstärkt didaktisch motivierte Pakete entstanden. Das Ziel ist es, R selbst für R-Tutorials zu benutzen und damit statistische Auswertungen, Visualisierungen etc. mit einem Werkzeug zu lernen, das selbst in der R Umgebung wirkt und wo Lernergebnisse gleich direkt mittels R dargestellt werden können.

Nun ist learnr aber in seinen didaktischen Möglichkeiten beschränkt. Neben der extrem wertvollen Simulationsumgebung zum Erlernen von R, gibt es nur noch eine Quizfunktion, die aber H5P Multiple Choice bei weitem nicht das Wasser reichen kann. Dieses Manko von learnr wird innerhalb der R Community – soweit dort überhaupt H5P bekannt ist – durchaus gesehen (siehe mein Feature Request auf GitHub). Ein Update zur Verbesserung dieses (kleinen) Teils von learnr ist aber derzeit nicht geplant.

So lag es daher für mich nahe eine Verknüpfung von H5P und learnr zu versuchen. Ideal wäre es – so meine naive Vorstellung – wenn H5P und learnr gleichzeitig in einem Tutorial genutzt werden könnte. H5P wäre dabei für alle didaktische Interaktionen zuständig, die keine R Simulation benötigen. learnr hingegen spielt seine Stärken in der Simulation und Auswertung von interaktivem Programmcode aus.

Leider ist dies aber – von beiden Seiten her gesehen – sehr schwierig (oder unmöglich?). Mir fehlen die technischen Kenntnisse, um das Problem exakt und detailliert zu beschreiben, soweit ich aber verstehe, gibt es die folgenden Einschränkungen:

H5P: Sei es auch mit einem Plugin über eine Hosting-Software (z.B. WordPress, Drupal oder Moodle), so H5P braucht eine auf php rekurrierende Serverinstallation.

learnr hingegen braucht als Laufzeit-Umgebung den sehr speziellen Shiny-Server.

Es bleibt also nur die Einbindung von H5P über iframes. Zwar wäre eine lokale Nutzung von Shiny-Programmen über den kostenlosen RStudio Editor möglich, fatalerweise wird bei dieser Option aber ein Zugang über iframes aus Sicherheitsgründen untersagt.

Allerdings gibt es mit learnitdown einen aktuellen – jedoch bisher wenig bekannten Versuch – „R markdown and bookdown for e-learning with h5p & Shiny/learnr apps“ zu integrieren. Diese Bemühungen sind frei zugänglich, mir fehlen aber die Kenntnisse zu verstehen, was hier genau geschieht – und die Dokumentation ist (noch) sehr lückenhaft. Mein Kontaktnahme mit dem Entwickler Philippe Grosjean (Professor of Marine Ecology and Data Sciences) ist bisher leider unbeantwortet geblieben.

tidyverse und tidymodels

Im Zuge des Auslotens der didaktischen Möglichkeiten von learnr (und gradethis) habe ich als praktische Übungsmöglichkeit begonnen an R Tutorials für Statistik-Lehrbücher mitzuarbeiten (siehe die Danksagung für Introduction into Modern Statistics).

"Introduction to Modern Statistics" macht deutlich, dass selbst einführende Statistik-Lehrbücher in wesentlichen Teile Data Science Ansätze integrieren.
Eine meiner praktischen Lehr- und Lernaktivitäten zu Data Science ist die Mitarbeit über Pull Requests am begleitenden interaktiven Tutorial von „Introduction to Modern Statistics“.

Dieses Engagement aber hat wiederum dazu geführt, dass ich mich nun auch zu den letzten Entwicklungen zur R Infrastruktur (sprich zu den neuesten Paketen) schlau machen musste. Das betraf einerseits die inhaltliche Vertiefung zu den mir bereits als tidyverse bekannten Sammlung von R Paketen, andererseits aber auch die Einbeziehung der mir bis dato noch völlig unbekannten Entwicklung des tidymodels Ansatzes.

Ohne ins Detail zu gehen nur soviel: tidymodels ist so neu, dass noch kein Statistik-Lehrbuch darauf Bezug nimmt. Selbst das einführende geplante erste Buch zu Tidymodels with R, ist zwar in der online-Version bereits einsehbar, aber immer noch in laufender Überarbeitung. tidymodels hat das Ziel für die verschiedensten Ansätze der statistischen Modellierung und der Machine-Learning Methoden eine einheitliche Benutzeroberfläche zu entwickeln. Damit sollen dann die unterschiedlichen Modellierungsansätze gemeinsam verwaltet werden können.

Im Prinzip handelt es sich hier bereits um eine dritte Ebene in der R Programmentwicklung:

  1. R Core verwendet die häufig umständliche und vor allem wenig intuitive R Base Syntax bzw. insbesondere bei Modellierungen auch die Formelsyntax.
  2. tidyverse räumt mit vielen Inkonsistenzen im R Core auf und stellt einen einheitlichen, leichter verständlichen Umgang mit Daten bei der Analyse, Visualisierung und Auswertung in den Mittelpunkt. (=Metaebene).
  3. tidymodels nutzt tidyverse und strebt ein einheitliches Interface für die Nutzung der unterschiedlichen Modellierungs-Funktionen an (= Meta-Metaebene).

Das ist eine extrem vereinfachte Einteilung, weil tidyverse ja nur einen Teil von R Base abdeckt. Die Frage „R Core oder tidyverse“ ist daher falsch, weil unsinnig. Es geht vielmehr darum, ob dort wo es Überlappung gibt (z.B. Datamanipulation, Visualisierungsfunktionen) gleich die tidyverse Funktionen gelehrt/gelernt werden, also z.B. bei der Visualisierung gleich mit ggplot() statt mit plot() begonnen wird.

Nun stellt sich natürlich die Frage ob es notwendig ist, dass ich da versuche ganz vorne mitzuspielen. Für meine Nutzung von learnr wären Kenntnisse zur Nutzung von tidyverse zumindest für einführende Statistiklehrbücher derzeit durchaus ausreichend.

Cutting Edge-Forschung und Didaktik

Hinter dieser Selbstgenügsamkeit steht ein didaktisches Stufenmodell: Zuerst einmal die (früher) erforschten grundlegenden Kenntnisse vermitteln, später dann mit den neuesten Erkenntnisses modifizieren und anreichern. So gab es z.b. bis vor kurzem eine Diskussion in der R community ob zuerst einmal R Base unterrichtet werden soll um dann in einem späteren fortgeschrittenem Stadium mit tidyverse fortzusetzen. Dahinter stand die Vermutung, dass die neueren Anätze schwieriger zu erlernen sind.

Das stimmt – aber nur zum Teil. Sie sind für die Protagonist:innen der älteren Ansätze schwieriger zu erlernen, weil sie eingeübte Prozesse nun Umlernen sollen bzw. müssen!! Die neueren Ansätze setzen sich ja gerade deshalb durch, weil sie weniger Inkonsistenzen aufweisen und für eine größere Anzahl von Problemen eine Lösung aufweisen. Deshalb ist dieser Streit in der R Community (seit kurzem) entschieden. Es ist durchaus sinnvoll und didaktisch zweckmäßig sofort mit dem Funktionen aus dem ggplot2 Paket Visualisierungen zu lehren, statt auf die kryptischen Abkürzungen der par() Funktion für Graphical Parameters von R Base zurückzugreifen. Von daher ist es wohl bereits jetzt abzusehen, dass in etwa zwei-drei, vielleicht fünf Jahren ein modernes Statistiklehrbuch tidymodels als Grundlage für die Vermittlung des Workflows bei Modellierungen verwendet.

Trotzdem ist es aber so, dass ich selbst nicht in der Lage bin solche Einführungen selbst zu entwickeln. Es macht – so denke ich – für mich persönlich auch keinen Sinn mir diese spezifischen Kenntnisse einer anderern Fachdisziplin anzueigenen. Für aussichtsreicher halte ich hier eine Kooperation, so wie ich es jetzt auch schon mache: Statistik/Data Science Forscher:innen entwickeln die Inhalte, die ich dann gemeinsam mit ihnen didaktisch aufbereite.

Fazit: Bevor ich mich also vom Hundersten ins Tausendste verliere und in den vielen Machine Learning Modellen „untergehe“ ist es Zeit wieder an die Oberfläche zu kommen.

Erdung durch eine Dissertation

Ich werde zu einem späteren Zeitpunkt auf etliche Bücher, die ich in dieser Exkursion gelesen habe, noch näher eingehen. Auch über die vielen Erkenntnisse möchte ich noch berichten: Allerdings passen Artikel dieser Thematik wohl eher in mein englischen Blog.

Meine „Erdung“, d.h. Rückkehr zum Ausgangspunkt, wurde durch ein aktuelles Promotionsverfahren angestoßen. Im Rahmen einer Dissertation, die mit qualitativen Erhebungmethoden die Lernerfahrungen von Repair-Café-Beteiligten (Organisator:innen, Reparatur-Coaches und Besucher:innen) untersuchte, bin ich auf umfangreiche Datensätze gestoßen. Die Auswertung dieser Daten ist bisher erst rudimentär erfolgt und die Daten selbst sind für R noch nicht aufbereitet worden.

Ich darf über die (interessanten) Ergebnisse des Dissertation derzeit noch nicht berichten, da das Promotionsverfahren noch nicht abgeschlossen ist. Die Datensätze selbst werden darin aber nicht erwähnt und sind auch sonst in keiner Weise Bestandteil des Promotionsverfahrens. Ich sehe darin eine gute Gelegenheit meine bisherigen Erkenntnisse für diese spannende Thematik nutzbar zu machen. Gleichzeitig will ich meinen eigenen Lernprozess nicht ständig am Material (Bücher, Artikel, Website) anderer Leute auszurichten. Das wäre ohnehin durch die enorme Vielfalt und der ständig aktuellen Entwicklungen eine (Irr-)fahrt ohne Ende gewesen.

Mir schwebt eine tidyverse geprägte Einführung in die Explorative Daten Analyse (EDA) in R vor, die vielleicht später experimentell auch tidymodels Pakete für statistische Modellierungen nutzt.

Daraus möchte ich dann versuchen mit Hilfe von H5P, learnr und gradethis ein Tutorial zu R aber thematisch bezogen auf Inhalte der „Repair Culture“ zu entwickeln. Inwieweit ich dabei H5P mit learnr Übungen verknüpfen kann, ist eine noch völlig offene Frage. Im „schlimmsten“ Fall muss ich für beide Tutorials unterschiedliche Zugänge und Material generieren, weil sich eine Integration nicht realisieren lässt.

Mein Plan ist es, dass ich über ein didaktisch motiviertes Forschungstagebuch alle Schritte ausführlich und auch öffentlich mit Blogbeiträgen dokumentiere. Die Quintessenz für mich dabei wäre, dass ich mich an Hand einer praktischen eigenständigen Fragestellung selbst in alle Themen schrittweise einarbeite (R, tidyverse, tidymodels, H5P und Repair Culture), aber gleichzeitig auch über meine didaktische Erfahrung dieser spezifischen Art selbstbestimmten Lernens reflektiere und berichte.

Nachtrag

Ein erster erfolgreicher Schritt ist bereits gelungen! Mein Paket, das die Reparatur-Daten für die R Community aufbereitet, ist heute (2021-10-21) von CRAN akezptiert worden!! Es ist damit nicht nur auf meiner – zum GitHub Repository gehörenden Website –, sondern auch als repairData über CRAN (Comprehensive R Archive Network) selbst erhältlich.

Meine Freude ist noch aus einem anderen – historischen – Grund besonder groß: Ich bin nämlich bereits einmal mit einem anderen Paket an einer CRAN Veröffentlichung gescheitert. bib2academic ist ein R Programm, das Bibliografie-Einträge im bibtex Format für das populäre Academic Theme konvertiert und immerhin 16 Stars bekommen hat. Inzwischen ist es obsolet geworden, weil der Entwickler dieses Service in sein Theme integriert hat. Nach mehrmaliger Ablehnung wegen verschiedener Formfehler habe ich schließlich damals von einer Veröffentlichung über CRAN abgesehen. Umso mehr freut es mich, dass es nun gleich nach dem zweiten Anlauf geklappt hat. – Ich werde über diese Erfahrung demnächst noch gesondert berichten.

Fußnoten

  1. Baumgartner, P. (1980). Entwicklung der Erdbevölkerung. Methodische Probleme einer demographischen Analyse (Dissertation). Universität Wien.
  2. Apropos „Schere“: Die Diss, die mir gerade beim Zusammenräumen (und Ausmisten!) beim Pensionsantritt mal wieder unter gekommen ist, hatte ich noch mit Schreibmaschine, Uhu-Stick und Schere geschrieben! Das erscheint heute nicht nur anachronistisch, sondern wie eine Szene aus einer anderen Welt.

Von Peter Baumgartner

Seit mehr als 30 Jahren treiben mich die Themen eLearning/Blended Learning und (Hochschul)-Didaktik um. Als Universitätsprofessor hat sich dieses Interesse in 13 Bücher, knapp über 200 Artikel und 20 betreuten Dissertationen niedergeschlagen. Jetzt in der Pension beschäftige ich mich zunehmend auch mit Open Science und Data Science Education.

Schreiben Sie einen Kommentar

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

Captcha loading...