Cover Heft 22

Heft 22, November 2015

Buchbesprechung

Data Science at the Command Line Jeroen Janssens Data Science at the Command Line Facing the Future with Time-Tested Tools O'Reilly & Associates, Sebastopol 2014 210 Seiten
ISBN 978-1-491-94785-2 $ 39.99

Die bedarfsgerechte Analyse von großen Datenmengen unterschiedlicher Struktur steht im Bestreben nach Wettbewerbsfähigkeit aktuell ganz oben auf der Liste vieler CEOs. Trotz dieses hehren Ziels macht sich auf dem Weg dahin immer wieder Ernüchterung breit. Denn oft liefern die bestehenden Mechanismen zur Analyse von Daten nicht immer die gewünschten Ergebnisse oder sie lassen sich nur schwer für die Zwecke der Digitalisierung einsetzen. Zudem haben nicht selten ausufernde Beratungshonorare, Lizenzkosten und Hardwareausgaben ihre Spuren hinterlassen. Alternative Wege mit vertrauten Mitteln, aber dennoch neuen Ideen werden im Buch "Data Science at the Command Line" vorgestellt. Jeroen Janssens hat darin eine erstklassige Command-Line-basierte Werkzeugsammlung zur Datenanalyse zusammengestellt und beschrieben.

Das Buch startet mit einfachen, grundlegenden Strukturen und Phasen einer Datenanalyse und beschreibt detailliert jeden Schritt. Begleitend dazu kann der Leser direkt Übungsbeispiele absolvieren und somit seine neu erworbenen Kenntnisse festigen. Im Verlauf des Buchs führt der Autor den Leser Schritt für Schritt zu komplexeren Analysen und Visualisierungen.

Besonders herausstechend dürfte die bereitstehende virtuelle Umgebung sein. Diese kann auf der Website des Autors heruntergeladen werden. Sie beinhaltet bereits eine vollständige Datenanalyseumgebung (!), läuft auf Virtualbox (Open Source) und enthält u.a. die begleitenden Übungen. Die Sandbox ließ sich mit wenigen Klicks herunterladen und war sofort einsatzfähig.

Das Buch zeigt die individuellen Eigenschaften von Systembefehlen wie ls, curl, head. So wird die Kombinationsfähigkeit dieser Befehle mit anderen Programmen (wie z.B. jq) hin zu wirksamen, skalierbaren Werkzeugen beschrieben. Dadurch entsteht schnell ein kompakter Überblick, um Daten mit diesen einfachen, aber bewährten Mitteln und eigenen punktgenauen Tools zu analysieren. Ein weiteres Plus sind die Grundlagen der Shell-Programmierung.

Zur Visualisierung der Daten diskutiert der Autor Gnuplot und feedgnuplot. Diese Programme sind frei verfügbar. Darstellungen und Graphen müssen allerdings mittels Konfiguration und Scripting selbst erarbeitet werden. Lediglich die Interpretation der gewonnenen Erkenntnisse ist Sache des Analysten. Aber auch hier wird wertvolles Praxiswissen vermittelt.

Der Autor kombiniert in einzigartiger Weise die Stärken und manchmal auch Schwächen von Commands im Sinne der Datenanalyse. Besonders beeindruckend sind die zwar einfachen, aber wirksamen und vor allem kostenlosen Tools. Für Unternehmen, die einen neuen kostengünstigen, agilen und wirksamen Weg zur Datenanalyse beschreiten wollen, ist die von Jeroen Janssens beschriebene Toolbox wie geschaffen.

Fazit: Datenanalyse in Zeiten der Digitalisierung muss nicht immer mit High-End-Tools beginnen. Das Buch zeigt Alternativen auf, die

  • verschiedenartige Daten und Strukturen mit einfachen Mitteln unter einen Hut bringen,
  • sich schnell bzw. agil implementieren lassen und
  • zunächst keine Investitionen in Software vorsehen.

Das Buch ist in englischer Sprache geschrieben und liest sich sehr flüssig. Den einzelnen Kapiteln folgen jeweils Übungen und weiterführende Literaturhinweise. Wer zunächst ein wenig mit den teils kryptischen Befehlskombinationen hadert, der wird dank der Analyseergebnisse schnell seine Vorbehalte ablegen. Die auf Scripting basierenden Visualisierungen mit Gnuplot und feedgnuplot sind allerdings etwas für Feinschmecker. Hier fehlt zudem die Interaktivität mit den produzierten Darstellungen. Durch die sich ständig ändernden Anforderungen an Datenanalyse und die weithin "starren" ETL-Prozesse sind die Ausführungen zur Datenaufbereitung und zum Streaming der Daten besonders interessant.

Die virtuelle Maschine gibt es gratis zum Buch. Sie funktioniert ohne Einschränkungen und beinhaltet bereits eine vollständige Analyseumgebung. Im Unternehmensnetzwerk sollte sie aber nicht ohne vorherige Prüfung installiert werden.

Alles in allem bietet das Buch - auf Basis frei verfügbarer Werkzeuge - einen fundierten Schnelleinstieg in die bedarfsgerechte Datenanalyse.

Dipl.-Kfm. Marc Weber
CISA, CRISC, CGEIT

mw [at] MarcWeberDE [dot] com

Zur vorherigen Buchbesprechung in diesem Heft

Zum Inhaltsverzeichnis