Hadoop erschließt kostengünstig polsystrukturierte Daten

Viele Unternehmen entdecken momentan den Wert ihrer unstrukturierten Daten. Deren Nutzung ist schwierig, weil klassische Datenbanken damit überfordert sind. Hadoop bietet eine Alternative.

Ausgabe 12/2012

BIG DATA bezeichnet Carsten Bange, Geschäftsführer des Business Application Research Center (BARC) als eines der großen Trendthemen dieses Jahres. Das große Datenvolumen sei dabei lediglich ein Teilaspekt, darüber hinaus gehe es um das Erschließen weiterer, teilweise unstrukturierter Datenquellen jenseits der klassischen Transaktionssysteme. Bewegungsdaten aus den Webshops gehören beispielsweise dazu, ebenso Informationen aus den sozialen Netzwerken oder Maschinendaten aus der Produktion. Gemeinsam sei all diesen Daten, dass sie sich in klassischen relationalen Datenbanken nicht kosteneffizient speichern lassen.
Eine mögliche Alternative für unstrukturierte Daten stellt Hadoop dar: „Hadoop ist ein Framework, in dessen Kern ein Filesystem steht, das Daten in unterschiedlichster Struktur speichert und damit die Basis für Suche und Verarbeitung bietet“, erläutert Bange. „Programmierer können auf dem Hadoop-System Applikationen parallelisiert zum Ablauf bringen.“ Der Clou dabei sei der Map-Reduce-Ansatz, den Google populär gemacht hat: Die Methode zerlegt eine Aufgabe in kleinste Teile, verteilt diese zur parallelen Verarbeitung auf möglichst viele Rechenknoten (mapping) und führt anschließend das Ergebnis zusammen (reduce). „Mit Daten in Hadoop lassen sich Berechnungen anstellen und es kommt für die Vorverarbeitung und Aggregation von Daten zum Einsatz“, erläutert Carsten Bange. „Für unstrukturierte Daten lässt sich mit Hadoop beispielsweise ein Volltextindex erstellen.“

Kostenvorteile, aber ein sehr knappes Know-how
Als Vorteile von Hadoop gegenüber proprietären Herstellerlösungen gelten vor allem die Kosten: „Hadoop ist Open Source und läuft auf Standard-Servern“, erläutert Bange. „Lizenzkosten fallen weg und die Hardwarekosten sinken deutlich.“ Auf der anderen Seite sei der Betrieb eines Hadoop-Systems aufwändiger als der einer Standard-Datenbank: „Bei der Effizienz und der Auslas­tung gibt es noch viel Overhead. Außerdem fehlt ein ausgereiftes Ökosystem an Administrationswerkzeugen.“ Dennoch würden im Vergleich zu Standardlösungen bei Hadoop in Summe die Kosten häufig niedriger ausfallen.
Als Hauptnachteil von Hadoop wertet der BARC-Geschäftsführer das Thema Know-how-Aufbau: „Auf dem Markt sind momentan nur wenige Hadoop-Experten verfügbar. Unternehmen müssen daher intern Know-how aufbauen.“ Erschwerend komme hinzu, dass Hadoop keine agile Plattform darstelle, sondern ein sehr stark entwicklungsgetriebenes Werkzeug sei: „Hadoop ist eine Plattform, um Applikationen umzusetzen. Jede Änderung erfordert eine Anpassung der Applikation durch Programmierer. Fachanwender sind damit deutlich überfordert.“ Keinen Nachteil, aber ein Charakteristikum von Hadoop stellt der Einsatzzweck dieser Technologie dar: „Hadoop ist kein interaktives Transaktionssystem“, erklärt Bange. „Es eignet sich nicht für Realtime-Analysen, bei denen Anwender direkt Daten abfragen. Solche Möglichkeiten entstehen gerade erst.“

Ein Code-Generator erleichtert die Datenübertragung
Eine Möglichkeit, die Administration und den Betrieb eines Hadoop-Systems zu erleichtern, bietet der Datenintegrationsanbieter Talend mit einem speziellen Code-Generator. Dieses Tool erzeugt Java-Code, der auf allen Hadoop-Knoten parallel läuft. „Unser Code-Generator ermöglicht es, Daten in ein Hadoop-System zu übertragen“, erläutert Martin Lange, Global Leader Open Source Integration bei Talend. „Darüber hinaus spricht der Code die Map-Reduce-Funktion in Hadoop an.“ Die von Talend genutzte Skriptsprache PIG Latin stelle im Vergleich zur händischen Programmierung eine deutliche Erleichterung dar.
Die Frage, ob Hadoop eines Tages ein klassisches Data Warehouse ersetzen werde, verneint Bange: „Hadoop kann allenfalls Teile eines Data Warehouse ersetzen. Wenn es beispielsweise um die Sammlung von unterschiedlich strukturierten Daten und um die Indizierung von unstrukturierten Daten geht, dann eignet sich Hadoop gut.“ Ein Beispiel dafür seien Logdaten aus dem Webshop, die das Verhalten der Kunden beschreiben. In einem hohen Detaillierungsgrad ließen sich diese in einem klassischen Date Warehouse nicht kosteneffizient verwalten. „Unternehmen können diese Daten in einen Hadoop-Cluster einspielen, dort auf Wochen-, Tages- oder Stundenebene aggregieren und dieses Ergebnis dann ins Data Warehouse einspielen.“ Neben der Voraggregation von Daten ließen sich Hadoop-Cluster zur Berechnung aufwändiger Data-Mining-Modelle nutzen.

Alle großen BI-Anbieter unterstützen Hadoop
Träger des Hadoop-Projekts ist die Apache-Foundation, und wie bei Suse Linux ist eine Reihe von Distributoren aktiv. Zu den bekanntesten gehören Cloudera und Hortonworks. Sämtliche großen BI-Anbieter nutzen entweder eine Distribution oder bauen Hadoop-Komponenten in ihre Lösung ein. Oracle beispielsweise nutzt in seiner Big Data Appliance eine Cloudera-Distribution, EMC verbaut in der Big Data Appliance EMC Greenplum eine eigene Hadoop-Variante. Teradata kooperiert mit Hortonworks. SAP hat einen Konnektor zu Sybase IQ geschaffen, der die Vorverarbeitung polystrukturierter Daten adressiert. Microsoft bietet Hadoop in der Azure Cloud an.
Mit Oracle arbeitet der erste Datenbankhersteller daran, Hadoop-ähnliche Funktionen in einer Standard-Datenbank einzubauen, wie Bange berichtet: „Die Integration der Map-Reduce-Funktion findet sich auf der Roadmap von Oracle. Ich gehe davon aus, dass über die nächsten zwei bis drei Jahre entsprechende Funktionen in die Datenbanken integriert werden.“
Sehr häufig kommt Hadoop in Verbindung mit der Methodenbibliothek R zum Einsatz, wie Bange berichtet: „Die Analytik polystrukturierter Daten wird stark durch Modellbildung getrieben. Hier finden die Open-Source-Bibliothek R ebenso wie andere Data-Mining-Werkzeuge großen Anklang.“ Hadoop funktioniere in diesem Szenario als preisgünstige Variante, große Mengen von Detaildaten abzulegen, die in einem Data Warehouse so nicht gebraucht würden und die sich dort auch nicht verarbeitungseffizient speichern ließen.

NoSQL-Datenbanken arbeiten ähnlich wie Hadoop
Bei der Frage nach Alternativen zu Hadoop in Sachen Big Data und unstrukturierte Daten richtet sich der Blick in erster Linie auf die sogenannten NoSQL-Datenbanken (Not only SQL). Es handelt sich dabei um Datenbanken, die einen nicht-relationalen Ansatz verfolgen und ohne festgelegte Tabellenschemata arbeiten. Beispiele sind Cassandra, CouchDB oder MongoDB, bekannte Implementierungen sind die Hochleistungsdatenbank Google Big Table und Amazon Dynamo, eine verteilte Hashtabelle, die der Online-Händler intern nutzt. „NoSQL-Datenbanken sind vom Einsatzbereich her eingeschränkt und größtenteils für bestimmte Einsatzzwecke optimiert“, berichtet Bange. Gehe es um den Aufbau einer Volltextsuche, dann sei eine NoSQL-Datenbank allerdings durchaus mit Hadoop vergleichbar. Da NoSQL-Datenbanken sehr ähnliche Verarbeitungsfunktionen wie Hadoop nutzten, sei die Unterscheidung zwischen beiden Technologien nicht trennscharf: „NoSQL ist ein Sammelbegriff für alle möglichen Technologieformen. In diesem Sinn ist auch Hadoop eine NoSQL-Technologie.“

SAP HANA & Co in anderer Liga
Die auf BigData zielenden Datenbanken SAP HANA, IBM Netezza und Oracle Exalytics spielen im Technologievergleich laut Bange in einer völlig anderen Liga als Hadoop: „SAP HANA stellt eine Datenbank mit direkter Applikationsunterstützung dar, Hadoop hingegen ein Filesystem mit Programmier­framework. Hadoop kommt typischerweise in der Vorverarbeitung von Daten zum Einsatz, das Ergebnis dieser Verarbeitung würde dann beispielsweise in SAP HANA abgelegt.“ Oracle Exalytics wiederum enthalte eine multidimensionale und eine relationale In-Memory-Datenbank. Diese Datamart-Appliance eigne sich ebenso wie IBM Netezza gut für strukturierte Daten. Hadoop hingegen habe seine Stärke klar im Bereich der polytrukturierten Daten. jf

Die Experten:
Dr. Carsten Bange, BARC-Geschäftsführer und
Martin Lange, Global Leader Open Source Integration bei Talend

Kommentare sind deaktiviert