
Sie sind hier:
Startseite
Business Intelligence (BI)

Data Warehouses
stehen vor großen Herausforderungen: Das Datenvolumen wächst schneller als die Leistung der traditionellen Datenbanken. Detailanalysen sind oft kaum noch möglich, weil sie zu lange dauern. Laut Gartner dürften derzeit rund 70 Prozent aller Data Warehouses mit Performance-Problemen zu kämpfen haben. „Gefragt sind heute zunehmend Realtime-Analysen, und dafür taugt ein klassisches Data Warehouse prinzipbedingt nicht“, berichtet Wolfgang Martin, Business-Intelligence-Analyst im Team Wolfgang Martin. „Das Data Warehouse bleibt ein wichtiger Lieferant für Vergangenheitsdaten, ist aber längst nicht mehr der Nabel der Welt.“
Ein Beispiel für den Bedarf an Realtime-Analysen liefert der britische Handelskonzern Tesco: In einer südkoreanischen U-Bahn-Station hat dieser einen Laden ohne Ware geschaffen. Er besteht aus einem mannshohen Plakat, auf dem Fotos von Produkten inklusive Barcodes abgebildet sind. Die Kunden fotografieren mit ihren Handys und bestellen damit die Ware, die Tesco ihnen nach Hause liefert.
„Nötig für einen solchen Shop ist eine leistungsfähige analytische Datenbank, die alle eingehenden Informationen in der Geschwindigkeit des Amazon Online-Shops bewerten kann und dem Kunden sofort Zusatzprodukte vorschlägt“, erklärt Martin. Bei Tesco in Korea läuft die Datenbank SAP HANA, welche die Analyse über die In-Memory-Verarbeitung beschleunigt. Laut Aussage von SAP lassen sich damit mehrere Millionen Datensätze in Sekundenschnelle abfragen. SAP HANA nutzt die Spaltenorientierung. Im Vergleich zu den zeilenorientierten Datenbanken reduziert sich der Zeitbedarf für das Lesen drastisch, weil man durch das Vertauschen von Zeilen und Spalten nur noch höchstens so viele Datensätze wie Attribute hat. „Die bei zeilenorientierten Datenbanken zur Beschleunigung nötigen Indizes und Aggregate entfallen, das macht die Datenbank schlanker, was wiederum das Lesen beschleunigt“, erklärt Martin.
In-Memory-Datenbanken haben allerdings einen Nachteil, wie Cars-ten Bange, geschäftsführender Gesellschafter des Business Application Research Center (BARC) erklärt: „Blade-Server fassen heute maximal zwei Terabyte Hauptspeicher. Data Warehouses im höheren zweistelligen Terabyte-Bereich passen hier selbst bei maximaler Kompression nicht rein und sind daher weiterhin auf relationale Datenbanken auf Festplatten angewiesen.“
Die Beschleunigungstechnologie für relationale Datenbanken nennt sich In-Database-Processing. Hierbei laufen Auswertungsschritte direkt in der Datenbank ab. In klassischen relationalen Systemen müssen die Informationen vor der Analyse zeitaufwändig aus der Datenbank heraus bewegt und nach der Analyse wieder dort hingeschrieben werden. „In-Database-Processing spart diesen Transportweg ein“, erklärt Bange. „Diesen Weg favorisieren nicht nur Datenbankanbieter wie Oracle und IBM, sondern auch der Analyse-Spezialist SAS Institute.“
Eine weitere Technologie zur Beschleunigung relationaler Datenbanken ist der optimierte Mix aus der Speicherung auf Festplatte, Solid State Drive und Hauptspeicher. So werden beispielsweise beim Multi Temperature Data Warehouse von Teradata über ein automatisiertes Information Lifecycle Management die am häufigsten gebrauchten Daten auf die schnellsten Speicher verschoben, während die historischen Daten auf die großen, aber relativ langsamen Festplatten wandern. „Rein technisch könnte man häufig sehr viele Informationen auf Solid State Drives und im Hauptspeicher ablegen“, erklärt Bange. „Bei sehr großen Data Warehouses passiert das aber nicht, weil die Kosten für die schnellen Speicher deutlich höher ausfallen als bei Festplatten.“
Einen völlig anderen Weg der Beschleunigung geht Jedox beim Palo OLAP Accelerator. Dort steigt die Performance über das Ausnutzen der Rechenleistung von High-End-Grafikkarten mit bis zu 250 parallel arbeitenden Rechenkernen um den Faktor 50 bis 400. „Der Vorteil dieser Technologie ist der sehr hohe Grad der Parallelisierung und der günstige Preis“, erklärt Bange. „Allerdings arbeiten die Grafikkarten mit einem eingeschränkten Befehlssatz und in Ergänzung zur CPU. Diese Technologie hat daher momentan eine Nischenfunktion als Zusatzbeschleuniger, bis passende Anwendungen entwickelt werden, welche die Möglichkeiten vollständig ausnutzen.“ Analyst Martin sieht die Standalone-Variante wegen des dahinter stehenden OLAP-Prinzips (Online Analytical Processing) eher kritisch: „OLAP-Technologien sind heute weniger interessant, weil man derartige Abfragen auch auf analytischen Datenbanken ausführen kann, ohne dass OLAP-Strukturen darunter liegen.“ Zukunft habe die Jedox-Technologie laut Martin allerdings dann, wenn das Unternehmen daraus Branchenlösungen erstellt: „In Planungsanwendungen wird künftig eine hohe Performance erforderlich sein. Dafür braucht man eine schnelle OLAP-Datenbank. Das wäre daher eine gute Marktnische für die Jedox-Technologie.“
Eine weitere Beschleunigungstechnologie, die beispielsweise in der Hadoop-Datenbank genutzt wird, ist die Parallelisierung. Hierbei werden Recheneinheiten zu Clustern zusammengeschlossen und es erfolgt ein gleichzeitiges Abarbeiten der verschiedenen Einheiten. Daten werden dabei automatisch und gleichmäßig über alle Server eines Clusters verteilt, so dass für Abfragen alle Hardware-Ressourcen optimal ausgenutzt werden. Der für konventionelle Systeme notwendige Tuning-Aufwand entfällt. Die Datenbanklösung legt automatisch Indizes an, komprimiert die Daten und verteilt sie optimal über die Knoten. Neben der durch Parallelisierung erhöhten Performance eignet sich Hadoop laut Martin sehr gut für die Analyse unstrukturierter Daten: „In Hadoop lassen sich unstrukturierte Daten in polymorphen Strukturen abbilden. Dabei sinkt die Zugriffszeit und die Performance steigt.“
In Sachen Benutzerfreundlichkeit hinkt Hadoop bislang allerdings stark hinterher, wie Analyst Bange erklärt: „Es handelt sich im Kern um ein Filesystem mit einem dazugehörigen Programmierframework. Für flexible interaktive Analysen eignet sich diese Technologie kaum, weil für jede Änderung der Abfrage ein Programmierer Anpassungen im Programm vornehmen muss.“ Heute sei Hadoop im Wesentlichen eine Entwicklerunterstützung für die Datenintegration und werde für die Sammlung und Analyse polystrukturierter Daten genutzt.
Wieder eine andere Beschleunigungstechnologie, die beispielsweise bei Oracle Exadata zum Einsatz kommt, optimiert die Kombination zwischen Server und Storage: „Oracle hat die Kommunikation an drei Stellen verbessert“, berichtet Martin. Erstens findet der Datenaustausch nicht mehr single threaded, sondern multi threaded statt, zweitens wurde die Bandbreite der Kommunikation in den Kanälen erhöht und drittens wurden bei der Storage kleine, aber schnelle mit großen, aber langsamen Speichern kombiniert. Load-Balancing-Algorithmen optimieren die Speicherung, so dass die Kommunikationszeit weiter sinkt.“
Im Vergleich der Beschleunigungstechnologien gibt es keinen Sieger, weil jede der beschriebenen Varianten spezifische Vor- und Nachteile hat. „Keine analytische Datenbanktechnologie gewinnt in allen Problemstellungen“, erklärt Martin. Den Durchbruch bringe stets die Kombination verschiedener Verfahren. Bei SAP HANA sei das die Kombination aus In-Memory-Technologie und Spaltenorientierung, bei Oracle Exadata die Verbindung aus Clustering und Datenkomprimierung mit der Optimierung der Server-Storage-Kommunikation.
Trotz aller Vorteile sind analytische Datenbanken nicht die Lösung aller Data-Warehouse-Probleme, wie Martin erklärt: „Eine analytische Datenbank macht zwar physisches Datenbankdesign und Tuning weitgehend obsolet, aber sie ersetzt keineswegs das logische und fachliche Design der Datenbank. Information Management bleibt daher weiterhin unverzichtbar.“ Außerdem ersetzen analytische Datenbanken nicht die herkömmlichen Datenbanken für die Transaktionsverarbeitung. Unternehmen werden daher wohl noch lange relationale und analytische Datenbanken parallel betreiben. So setzt Tesco für das U-Bahn-Shopping in Korea SAP HANA ein, nutzt aber zur Optimierung von Preisgestaltung ein Data Warehouse von Teradata. jf
Big Data braucht ein strategisches Datenmanagement
Unternehmen mit einer stringenten Strategie für Datenmanagement ziehen einen signifikant größeren Nutzen aus ihren Informationsbeständen. Laut der Studie „Big Data: Harnessing a game changing asset“ des Marktforschungsunternehmens Economist Intelligence Unit im Auftrag des Business-Intelligence-Anbieters SAS Institute verfolgen allerdings lediglich 18 Prozent der befragten Unternehmen eine derartige Strategie. Von diesen wiederum nutzen 64 Prozent nahezu alle verfügbaren Datenquellen. 53 Prozent aus dieser Gruppe erzielen bessere Finanzergebnisse als der Wettbewerb. Bei Unternehmen ohne Datenmanagement-Strategie sind dies lediglich 36 Prozent.
Wie die Studie zeigt, betrachten Unternehmen ihre Daten zunehmend als strategischen Unternehmenswert: Bei rund der Hälfte der Befragten wird das Datenmanagement vom CEO oder zumindest vom Topmanagement unterstützt. 23 Prozent der Unternehmen mit einer Datenmanagement-Strategie berichten außerdem, dass die Auswertung der Informationsbestände ihren Geschäftsbetrieb in den vergangenen fünf Jahren durchgreifend verändert hat.
Obwohl das Bewusstsein des strategischen Werts von Informationen in vielen Unternehmen vorhanden ist, fühlen sich viele Unternehmen von den wachsenden Datenmengen überfordert: 45 Prozent der Befragten bezeichnen die Datenvolumina angesichts der verfügbaren Auswertungsressourcen als Problem. Mit einer Datenmanagement-Strategie lässt sich laut Business Intelligence Unit die Datenflut beherrschen, analysieren und die Ergebnisse für bessere Unternehmensentscheidungen nutzen.jf
Anzeige
is report BARC-Guide Business Intelligence 2011-2012
Die 9. Auflage des is report BARC-Guide Business Intelligence - die Standardreferenz für den deutschsprachigen Business-Intelligence-Markt - ist Mitte Oktober erschienen. Bestellen können Sie den
Guide unter: www.isreport.de im Menüpunkt Bestellung. Telefonisch bei Frau Elke Antritter unter: 089/ 90 48 62 10. Per E-Mail: eantritter@isreport.de