Die immer beliebter werdende kostenfreie Open-Source-Software
R ist eine universelle Programmier-Umgebung, die ihren Schwerpunkt auf statistische Auswertungen und grafische Darstellungen legt, darauf aber nicht beschränkt ist.
Immer, wenn bei größeren Auswertungen von Daten die Programmierung in traditionellen Sprachen schnell zu aufwendigen Programmier-Monstern führt, die ebenfalls sehr beliebten Spreadsheets aber an ihre Grenzen stoßen, ist eine gute Zeit, über den Einsatz von R nachzudenken, ggf. auch im Zusammenspiel.
Auch der direkte Zugriff auf Datenbanken oder Bilder (sowohl zur Nutzung als auch zur internen Bearbeitung auf Pixel-Ebene) ist kein Problem.
R ist eine Programmier-Umgebung - es wird also in aller Regel eine Aufgabe programmier-sprachlich ausformuliert. Verschiedene GUI's sollen diese Arbeit erleichtern, aber es ist nicht als Klicki-Bunti-Alles-Könner ausgelegt. Darin besteht gleichzeitig seine sehr hohe Flexibilität als auch eine Zugangs-Hürde für Nicht-Programmierer.
Nahezu alle gängigen statistischen Verfahren, aber auch vieles Andere mehr, sind in weit über 1.000 Paketen (findet man auf jedem beliebigen
CRAN-Mirror [Comprehensive R Archive Network]) bereits vorgedacht, wobei man sich von der oft sehr einfachen Schnittstelle zu den Paketen auf gar keinen Fall über den sehr tiefliegenden statistischen Gehalt der ausgeführten Implementationen hinwegtäuschen lassen sollte, von denen einige so speziell sind, daß sie ohne das Lesen der statistischen Literatur zu der Methode nicht mal sinnvoll angeworfen werden können. Bereits in den standardmäßig installierten Paketen in der Grundausstattung kommt Einiges an statistischer Power auf den User zu, die wie alle Statistik neben der Faszination über vermeintlich "hochkluge" Grafiken auch gesunden Menschen-Verstand bei der Auswahl der Verfahren und der Bewertung der Resultate erfordert.
Ich selber bin weder Statistiker noch R-Guru, sondern ein Nutzer von beidem für meine Auswertungs-Zwecke. Auch auf die Gefahr hin, jetzt versierte R-Programmierer zu Schreikrämpfen zu bringen (und das ist für Techniker eigentlich das Schlimsmte, was sie erleben können, denn bis zum "Herunterlassen der Hosen" halten sich typische Techniker persönlichkeitstyp-bedingt völlig unabhängig von fremden Meinungen eher für die heimlichen "Meister des Universums") hänge ich mal einen Quell-Code ran, mit dem ich neulig die
Bildchen von Kays Hebel erzeugt habe. Wenn jemand zu große Kritik äußert, rede ich mich gleich mal vorab raus, daß sie nur eine ad-hoc-Skript-Lösung für den Privat-Gebrauch waren, etc. Der Sinn ist keine R-Muster-Programmier-Lehr-Stunde, sondern nur ein oberflächlicher Einblick, wie so etwas (möglicherweise sogar arg gestümpert) aussehen kann, was aber immer noch besser ist, als aus lauter Vorsicht gleich mal gar nichts zu zeigen, womit leider auch niemand was davon hat.
Interessant ist in dem Zusammenhang übrigens der Wandel im Handbuch des römischen Soldaten, was in der Niedergangs-Phase des Reiches schrieb: Lieber gar nichts tun als das Falsch tun. Es ist sonnenklar, daß das Reich mit dieser Devise nicht groß geworden wäre und mit der eigenen Niedergangs-Phase sollte sich ein halbwegs geistig gesunder Mensch nicht zu frühzeitig arrangieren.
Ansonsten war der Sinn dieses Posts, auch R in diesem Forum eine Anlaufstelle zu geben, nachdem wir nun mindestens eine R-Fachfrau unter uns haben und hoffentlich bald viele Andere, die sich von den vielen Möglichkeiten und den (wie bei jedem System vorhandenen) Merkwürdigkeiten nicht vorab erschlagen lassen.
Allen Nutzern aus ihrem Studium bekannter anderer Statistik-Softare sei gesagt, daß auch dort bei jeder nicht-trivialen Aufgabe die Programmierung viel früher beginnt, als man meistens hören möchte und die Auswahl der allereinfachsten Software durch einen Professor für die Zwecke seines Lehrganges keine gleichzeitige Begründung der World-Top-Position ist. Die sollte man eher bei R vermuten, wenngleich es mit
SAGE (
bei Wikipedia) nun auch ein Open-Source-Projekt gibt, daß gleich die gesamte Mathematik in eine Software legt. SAGE enthält R übrigens auch als eine Komponente. SAGE ist so komplex, daß es gleich mal als ganze virtuelle Maschine ausgeliefert wird.
Der bisher ungeschlagene Marktführer unter den Mathematik-Systemen
Mathematica (
bei Wikipedia) ist übrigens seit einiger Zeit in einer nicht abgespeckten preiswerten Home-Edition verfügbar und auch eine interessante Software.
Auf den engeren Bereich der Statistik bezogen, kann R dank der vielen Pakete mehr, wenngleich Mathematica durch seine hohe Integration besticht. Durch die doch recht üppig gepreisten Zusatz-Pakete, die sich an den Budgets von Forschungs-Einrichtungen und einem eher eingeschränktem Benutzerkreis jenseits der Massen orientierten, wird Mathematica (als einer der vielen Folgen durch Kapitalismus fehlgesteurter Ressourcen-Allokation) trotz seiner tollen Möglichkeiten leider in vielen Fällen nicht das Tools der Wahl sein können.
SAGE befindet sich momentan eher in der Phase der Early Entrepreneurs, während R durchaus schon seit einigen Jahren Mainstream ist.