R Programmierer werden - Eine kurze Einführung in die R Programmierung
Veröffentlicht am
Wenn Sie diesen Artikel lesen, haben Sie wahrscheinlich schon von der Programmiersprache R gehört, meiden sie aber vielleicht. R ist eine Programmiersprache für statistische Berechnungen und Grafiken, mit der Sie Ihre Daten bereinigen, analysieren und grafisch darstellen können. Sie wird häufig von Forschern verschiedener Fachrichtungen zur Schätzung und Darstellung von Ergebnissen sowie von Lehrern für Statistik und Forschungsmethoden verwendet. Es ist kostenlos, was es zu einer attraktiven Option macht, aber es beruht auf Programmiercode - anstelle von Dropdown-Menüs oder Schaltflächen - um die Arbeit zu erledigen. Programmiersprachen können einschüchternd sein. Vielleicht mögen Sie den Komfort und die Vertrautheit des Statistikprogramms, mit dem Sie bisher gearbeitet haben. Vielleicht haben Sie nicht die Zeit, eine neue Fähigkeit zu erlernen. Vielleicht wissen Sie einfach nicht, wo Sie anfangen sollen. Das sind alles triftige Gründe, um den Einsatz von R zu verschieben. Aber wir verwenden R in der Forschung und in der Lehre, und wir glauben, dass die Vorteile den Zeit- und Arbeitsaufwand für den Einstieg bei weitem überwiegen. Wir sind nicht nur hier, um Sie davon zu überzeugen, R zu verwenden, sondern auch, um Ihnen einige Ressourcen zur Verfügung zu stellen, um dies zu tun.
Gründe für die Verwendung von R
Eine der stärksten Eigenschaften von R ist, dass es quelloffen ist, d. h. jeder kann auf den zugrunde liegenden Code zugreifen, der zur Ausführung des Programms verwendet wird, und seinen eigenen Code kostenlos hinzufügen. Das bedeutet, dass R:
Wenn Sie diesen Artikel lesen, haben Sie wahrscheinlich schon von der Programmiersprache R gehört, meiden sie aber vielleicht. R ist eine Programmiersprache für statistische Berechnungen und Grafiken, mit der Sie Ihre Daten bereinigen, analysieren und grafisch darstellen können. Sie wird häufig von Forschern verschiedener Fachrichtungen zur Schätzung und Darstellung von Ergebnissen sowie von Lehrern für Statistik und Forschungsmethoden verwendet. Es ist kostenlos, was es zu einer attraktiven Option macht, aber es beruht auf Programmiercode - anstelle von Dropdown-Menüs oder Schaltflächen - um die Arbeit zu erledigen. Programmiersprachen können einschüchternd sein. Vielleicht möchten Sie den Komfort und die Vertrautheit des Statistikprogramms, mit dem Sie bisher gearbeitet haben. Vielleicht haben Sie nicht die Zeit, eine neue Fähigkeit zu erlernen. Vielleicht wissen Sie einfach nicht, wo Sie anfangen sollen. Das sind alles triftige Gründe, um den Einsatz von R zu verschieben. Aber wir verwenden R in der Forschung und in der Lehre, und wir glauben, dass die Vorteile den Zeit- und Arbeitsaufwand für den Einstieg bei weitem überwiegen. Wir sind nicht nur hier, um Sie davon zu überzeugen, R zu verwenden, sondern auch, um Ihnen einige Ressourcen zur Verfügung zu stellen, um dies zu tun.
- wird immer in der Lage sein, die neuesten statistischen Analysen durchzuführen, sobald sie jemandem einfallen;
- wird seine Fehler schnell und transparent beheben;
- und hat eine Gemeinschaft von Programmier- und Statistik-Nerds (auch bekannt als useRs) zusammengebracht, an die Sie sich wenden können, wenn Sie Hilfe benötigen.
Jeder kann seinen eigenen R-Code schreiben, was bedeutet, dass jeder die riesige Liste der R-Werkzeuge ergänzen kann. Programmierer übermitteln ihren Code an R in Form von "Paketen". Einige Pakete sind auf bestimmte Arten von Analysen spezialisiert, während andere Pakete viel breiter angelegt sind. Das Paket "pwr" von Stephane Champely ist beispielsweise auf die Durchführung von Leistungsanalysen spezialisiert. Im Gegensatz dazu kann das "psych"-Paket von APS Fellow William R. Revelle alles von deskriptiver Statistik über Item-Response-Theorie bis hin zu Mediationsanalysen durchführen. Zu Beginn des Jahres 2017 sind knapp 10.000 Pakete verfügbar. Und sobald ein neuer statistischer Ansatz entwickelt wird, erstellt jemand ein neues Paket oder fügt neue Werkzeuge zu einem bestehenden Paket hinzu.
Außerdem kann jeder den in einem Paket verwendeten Code einsehen. Und es gibt viele Benutzer, die wissen, was sie tun, und Programmierfehler erkennen können, wenn sie auftreten. Paketautoren werden Ihnen sagen, dass ihre E-Mail-Postfächer mit E-Mails von R-Kollegen überschwemmt werden, die auf Fehler in ihrem Code gestoßen sind. Das bedeutet, dass Fehler schnell gefunden und schnell behoben werden. Als Benutzer von R müssen Sie nicht ein Jahr auf die Veröffentlichung einer neuen Version eines Pakets warten; neue Aktualisierungen sind verfügbar, sobald die Autoren Änderungen an ihren Paketen vornehmen. Und diese Aktualisierungen werden veröffentlicht, wodurch der gesamte Prozess transparent wird.
R Programmierung - Quelle: coursera.org
Diese Dynamik zwischen typischen R-Nutzern, die Daten untersuchen wollen, und Paketautoren, die neue Techniken zur Verfügung stellen wollen, ist unglaublich kollaborativ - so sehr, dass R-Nutzer sich in einer Gemeinschaft von Forschern und Programmierern wiederfinden. Für einige beschränkt sich diese Interaktion darauf, um Hilfe zu bitten (oft ist es so einfach wie das Googeln einer Frage). Für diejenigen, die glauben, dass ihr Seelenverwandter ein anderer R-Nutzer ist (davon gibt es viele), gibt es im ganzen Land Meetup-Gruppen und ganze Konferenzen, die rund um R organisiert sind.
Nun bleibt die Frage: Wofür sollte man R verwenden? Für alles. Nein, im Ernst, alles. Schmeißen Sie SPSS, SAS und STATA weg, denn R kann alle deskriptiven Analysen, Regressionsgleichungen, (M)AN(C)OVA und hierarchische lineare Modellierung, die Sie wollen, durchführen. Sie brauchen MPlus nicht zu kaufen, weil R die Modellierung von Strukturgleichungen beherrscht. Sparen Sie sich das Öffnen von Excel, denn das Zusammenführen von Datensätzen, das Bereinigen von Daten, das Identifizieren wichtiger Zeilen oder Spalten und sogar das Aktualisieren Ihres Notenspiegels können Sie in R erledigen. Sparen Sie Geld für Buntstifte, denn R erstellt jede Art von Diagramm oder Grafik, die Sie sich vorstellen können, selbst wenn sie dreidimensional oder interaktiv oder beides ist. R kann mit Textverarbeitungsprogrammen wie LaTeX verwendet werden, so dass Sie Ihre Ergebnisse direkt in das Manuskript selbst integrieren können. Sie arbeiten mit Microsoft Word, weil Ihre Mitarbeiter gerne Änderungen nachverfolgen? R erstellt APA-formatierte Tabellen, komplett mit Signifikanzsternen und horizontalen Linien, und exportiert sie als .doc-Dateien, damit Sie es bequem haben. R kann sowohl frequentistische als auch Bayes'sche Statistiken durchführen. R kann Ihren Multi-Core-Prozessor nutzen und Analysen parallel ausführen. Suchen Sie nach "ein bisschen Spaß mit R" und lernen Sie, wie man einen zwinkernden Elefanten macht. R kann Bootstraps durchführen, simulieren, randomisieren, resampeln, multiplizieren, imputieren und Ihr Auto einparken. Nun, R kann Ihr Auto nicht einparken - noch nicht.
Auf globaler Ebene kann R viele der Herausforderungen bei der Durchführung reproduzierbarer Forschung bewältigen. Eine bestimmte Studie kann aus verschiedenen Gründen nicht reproduzierbar sein, aber einer der einfachsten ist, dass wir oft vergessen, was genau wir mit unseren Daten gemacht haben, um unsere Ergebnisse zu erhalten. Wie haben Sie aus Ihren Items Werte gebildet - durch Mittelwertbildung, Summierung, umgekehrte Bewertung oder Item-Response-Theorie? Haben Sie Variable zwei zentriert? Welche Teilnehmer haben Sie ausgeschlossen und nach welchen Kriterien? Oft kommen wir auf unsere eigenen Daten zurück und fragen uns: "Moment mal, was habe ich hier gemacht?" R kann diese Probleme lösen, weil Sie Skripting zur Durchführung Ihrer Analysen verwenden. Skripting bedeutet, dass Sie Code schreiben, der später ausgeführt wird, um Daten zu manipulieren, Analysen durchzuführen und Grafiken zu erstellen. Mit anderen Worten: Bei der Verwendung von R schreiben Sie ein Dokument, das alles enthält, was Sie bei der Analyse Ihrer Daten getan haben, und zwar in der Reihenfolge, in der Sie es getan haben. Theoretisch können Sie Ihren Code und Ihre Daten buchstäblich jedem auf der Welt zur Verfügung stellen, und dieser kann den Code und die Daten verwenden, um Ihre Ergebnisse, Statistiken und Diagramme zu reproduzieren, ohne dass er sich zusätzliche Arbeit machen oder Gedanken machen muss. Diese Möglichkeit, Ihre Analysen weiterzugeben, wurde durch Online-Datenbanken wie das Open Science Framework erweitert, in denen Sie Ihre Analyseskripte und Daten aus Ihren Forschungsprojekten öffentlich zugänglich machen können.
Ein letzter Grund, warum Sie useR werden sollten, ist, dass R zunehmend als Industriestandard im Bereich der Datenanalyse, auch bekannt als "Data Science", verwendet wird. Viele Unternehmen (z. B. Facebook, Merck, Pfizer), die Psychologie-Doktoranden einstellen, stellen Kandidaten ein, die sowohl über solide Statistik- als auch Programmierkenntnisse verfügen. Das Erlernen von R macht Sie zu einem attraktiveren Kandidaten, wenn Sie sich für nicht-akademische Stellen bewerben, und das Unterrichten von R eröffnet Ihren Studenten mehr Karriereoptionen.
Wie man tatsächlich ein useR wird
Vielleicht denken Sie jetzt: "R hört sich toll an, aber ich habe absolut keine Programmiererfahrung. Wie kann ich überhaupt mit R anfangen?" Keine Angst! Hier finden Sie einige konkrete Anhaltspunkte, die Sie auf dem Weg zu einem UseR-Experten unterstützen:
Installieren Sie R und RStudio. Der erste Schritt, um ein useR zu werden, ist die Installation der richtigen Software auf Ihrem Computer. In den alten Tagen (technisch gesehen vor 2012) war die Lernkurve für R unglaublich steil, weil das einzige grafische Fenster, mit dem Sie arbeiten konnten, eine große leere weiße Konsole war - die Art von leerer Tafel, die das Herz eines jeden Psychologen mit Angst erfüllt. Einige wirklich großartige Ingenieure beschlossen, dass dies furchtbar ineffizient war, und entwickelten eine grafische Benutzeroberfläche (GUI) namens RStudio. Damit wurde R auch für Personen ohne Programmierkenntnisse benutzerfreundlicher. Wir empfehlen Ihnen dringend, RStudio zusätzlich zu R zu installieren, da es Ihr Leben exponentiell einfacher machen wird.
Lernen Sie die Grundlagen. Es gibt einige großartige Tutorien, die frei im Internet verfügbar sind und sich hervorragend für den Einstieg in die Beherrschung von R eignen. Wir haben weit und breit (im gesamten Internet) gesucht und eine Handvoll nützlicher Ressourcen gefunden, z. B. "Learning Statistics with R" von Dan Navarro und "YaRrr: A Pirate's Guide to R" von Nathaniel D. Phillips (vollständiger Artikel siehe S. 22). Sie können R sogar mit begleitenden Katzen-GIFs lernen. Alle diese Tutorien finden Sie in unserer umfangreichen Liste von R-Ressourcen, die online verfügbar ist.
Erforschen Sie die fortgeschrittenen Techniken. An diesem Punkt hängt der Einsatz von R von Ihrem Forschungsprogramm und Ihren eigenen Lehrbedürfnissen ab. In unserer Ressourcenliste haben wir auf einige Pakete hingewiesen, die wir regelmäßig verwenden, und wir haben einige Pakete aufgenommen, die für fortgeschrittene statistische und grafische Techniken nützlich sind. Beginnen Sie mit der Erkundung dieser Pakete und stürzen Sie sich in Themen und Werkzeuge, die für Sie interessant klingen. Nach einer Weile werden Sie von selbst auf neue Pakete stoßen. Behalten Sie die Website R-Bloggers.com im Auge, um über neue Trends auf dem Laufenden zu bleiben (z. B. das neue Paket fivethirtyeight von Andrew Flowers, dem quantitativen Herausgeber von FiveThirtyEight.com). Je mehr Sie R verwenden, desto mehr werden Sie davon haben. Wenn Sie sich mit der Sprache R gut genug auskennen, können Sie sogar Ihre eigenen Funktionen und Pakete schreiben und sie der Öffentlichkeit zur allgemeinen Nutzung zur Verfügung stellen.
Wir hoffen, dass diese kurze Einführung Ihnen die Werkzeuge und den Schwung gegeben hat, um mit der Verwendung von R für Ihre Analysen zu beginnen. R ist ein unglaublich flexibles und komplexes Forschungswerkzeug, aber wenn Sie es einmal beherrschen, können Sie (fast) alles machen.