Microsoft Azure

Sie sind hier:Startseite IT-Strategie 

Data Warehousing

Appliance-Konzept verspricht ein kostengünstigeres Data Warehouse

Bündelangebote aus Hardware und Software sollen ein Data Warehouse vereinfachen und verbilligen. Mangels offizieller Benchmarks empfehlen Analysten die Struktur der zu analysierenden Daten als Auswahlkriterium.

„Die Integration

von Storage und Datenbank stellt den nächsten logischen Evolutionsschritt in der Data-Warehouse-Entwicklung dar", wirbt Günther Stürner, Vice President Sales and Consulting bei Oracle Deutschland, für sein Konzept der Data Warehouse Appliance. „Das zentrale Architekturmerkmal dieser Appliances besteht darin, dass wir den Storage-Layer in die Datenbank mit einbezogen haben", erläutert Stürner. „Damit haben wir einen Teil der Datenbank-Funktionen in die Storage verlagert."

Exadata verlagert Funktionen der Datenbank in die Storage-Ebene

Der Storage-Server übernimmt in der Exadata-Architektur Funktionen, die im klassischen Konzept vom Datenbank-Kernel auf dem Server erledigt werden. Beispiele hierfür sind die Vorselektion oder die Verschlüsselung von Daten. „Bei einer Datenbankselektion mit Exadata laden wir nur diejenigen Sätze über das Netzwerk zum Server, die dem jeweiligen Suchkriterium entsprechen", erklärt Stürner. „Sucht man beispielsweise alle Namen mit F, werden schon auf der Storage-Ebene alle Namen aussortiert, die nicht mit F anfangen." Das Ergebnis der Vorselektion ist eine Entlastung des Datenbank-Servers: „Mit Exadata erzielen wir im Vergleich zu unseren klassischen Systemen eine Performance-Steigerung von bis zu 1000 Prozent." Mit der Auslastung des Datenbank-Servers sinken auch die Kosten für dessen Betrieb. „Wenn Sie eine ähnliche Performance erzielen wollen, brauchen sie die leistungsfähigsten Server, Storage-Systeme und Netzwerk-Anbindungen. Im Vergleich dazu sparen Sie mit einem Exadata-System rund die Hälfte des Preises."

Produktseitig hat Oracle 2009 in Sachen Exadata zunächst den HP Oracle Exadata Storage Server und die HP Oracle Database Machine und in der zweiten Version die Exadata Database Machine Version 2 vorgestellt, die Hardware von Sun verwendet. „Beide Versionen basieren auf der gleichen Architektur, es wurde lediglich die Hardware gewechselt", berichtet Stürner. „Wir haben neuere CPUs eingebaut, einen Flash Cache, der transaktionsorientierte Systeme beschleunigt und über eine 40 Gigabit-Infiniband-Anbindung den Netzwerkdurchsatz erhöht. Ein weiteres Feature in der Exadata-Datenbank nennt sich Hybrid Column Compression. Mit dieser Kompressionstechnologie erzielt Oracle nach Aussage von Stürner Kompressionsfaktoren von 10 bis maximal 40. Das komme einem indirekten Kostenvorteil für den Datenbankserver gleich.

Die Version 1 mit der HP Hardware ist nicht mehr im Handel erhältlich. „HP ist weiterhin ein wichtiger Hardware-Partner von uns, aber im Bereich Appliance und Datenbankmaschine werden wir nicht mehr zusammenarbeiten." Während die Exadata Version 1 ausschließlich auf das Data Warehouse fokussiert war, stellt die Version 2 eine Datenbank-Appliance inklusive Data Warehouse dar. Als Einsatzgebiet sieht Stürner sowohl ein unternehmensweites Data Warehouse als auch ein Data Mart für besondere Anwendungsfälle. Über die Granulierung – eine viertel, halbe oder ganze Maschine – lasse sich der Ausbau sehr einfach bewerkstelligen: „Vorstellbar sind beispielsweise ein oder zwei volle Maschinen als unternehmensweites Data Warehouse und jeweils eine viertel Maschine für ein Data Mart, welches einen Geschäftsbereich mit zusätzlichen Informationen bedient", beschreibt Stürner eine typische Konfiguration.

Wilfried Hoge, Senior IT-Architekt bei IBM, bezweifelt, dass Oracles Exadata-Konzept schneller arbeitet als der konkurrierende Ansatz von IBM. „Ein Data Warehouse kann nur dann eine hohe Performance erzielen, wenn der I/O-Durchsatz für Ein- und Ausgabe passend zur CPU-Leistung zur Verfügung steht." Die Leistung der Prozessoren steige wesentlich stärker als der Durchsatz der Speichersubsysteme. „Um extrem hohe Leistung zu erzielen, müssen die Komponenten in den Systemen passend zueinander konfiguriert werden", erläutert Hoge.

Shared-Nothing-Konzept verknüpft Speicher, CPU und Memory

Die Performance-Steigerung erzielen die IBM-Systeme zunächst über ihre sogenannte Shared-Nothing-Architektur: „Bei der DB2-Datenbank wird der Datenbestand aufgeteilt", erklärt Hoge. „Jede einzelne Partition hat einen eigenen Speicher, eine eigene CPU und ein eigenes Memory. „Die Integration von Storage und Datenbank ist daher bei DB2 bereits immer vorhanden. Der zweite Kniff zur Leistungssteigerung nennt sich Function Shipping: „Wir bewegen nicht die Daten, sondern die Analysefunktionen zu den Recheneinheiten", erläutert Hoge. Wenn ich in einer Tabelle eine Selektion durchführe, werden nicht alle Daten an einen zentralen Ort kopiert und dort durchsucht." Vielmehr werde die Suchanfrage gleichzeitig an alle Module geschickt, die parallel das Ergebnis berechnen. „Oracle verschiebt Teile der Selektion in den Storage-Layer, damit nicht so viele Daten übertragen werden müssen", vergleicht Hoge die Architekturansätze. „DB2 verringert das Kopiervolumen über das Shared-Nothing-Konzept und Function Shipping."

Unter dem Produktnamen Smart Analytic System liefert IBM eine komplette Data-Warehouse-Lösung, die aus vorkonfigurieren Komponenten besteht: ein Infosphere Warehouse, eine Business-Intelligence-Software, Cubing-Software, Textanalyse und Data Mining von Cognos sowie ein Intel- oder Power-Server samt Workload-Management-Software und ein Storage-System. Eine Besonderheit der IBM-Systeme ist laut Hoge die lineare Skalierbarkeit: „Wenn ein Unternehmen die Datenbank verdoppelt, kann es bei DB2 die Anzahl der CPUs und Speichereinheiten dazu passend vergrößern. So bleibt die Antwortzeit immer gleich schnell.

Ein direkter Kosten- und Leistungsvergleich zwischen einem Exadata- und einem Smart-Analytic-System lässt sich laut Hoge nur schwer ziehen: „Es gibt keinen offiziellen Benchmark, anhand dessen man die beiden Architekturen vergleichen kann" Ohne einen direkten Leistungsvergleich sei auch kein direkter Kostenvergleich möglich. Im Hintertreffen fühlt sich der IBM-Architekt keineswegs: Ich kann jede beliebige Leistung von Oracle mit unserem System abbilden. Allerdings vergleichen wir uns nicht mit Exadata, sondern stellen unsere Systeme individuell anhand des Kundenbedarfs zusammen. So setzen wir die Investitionen zielgerichtet ein und kommen auch kostenseitig gut weg."

Datenstruktur und Flexibilität als Auswahlkriterien

Was den Leistungs- und Kostenvergleich betrifft, stimmt IDC-Analyst Rüdiger Spies der IBM-Argumentation zu. Da ein Vergleich über Benchmarks nicht möglich sei, empfehle sich die Struktur der zu analysierenden Daten als Auswahlkriterium: „Oracles Exadata weist nach meiner Einschätzung dann Vorteile auf, wenn viele Daten linear durchsucht werden sollen. Dann kann alles in den Hauptspeicher geladen werden, und die Analyse läuft sehr schnell." Die Vorteile der IBM-Architektur lägen hingegen in ihrer höheren Parallelität. „Liegen bei einer Analyse die Daten über mehrere Partitionen verteilt, hat Function Shipping die Nase vorne."

Als weiteres Unterscheidungsmerkmal wertet Spies die Unternehmensgröße sowie die Bereitschaft, sich auf eine vom Hersteller vorkonfigurierte Maschine mit einem vordefinierten Einsatzbereich einzulassen: „Appliances passen gut für mittelständische Unternehmen und eigenständig agierende Marketing-Abteilungen, weil sie fast ohne Anpassungen sofort einsatzbereit sind. Größere Unternehmen hingegen wollen ihre Daten meist sehr individuell strukturieren und sind oft auch interessiert, ihr Data Warehouse in Bezug auf zukünftige Anforderungen so flexibel wie möglich zu gestalten. Bei solchen Anforderungen passt die klassische Data-Warehouse-Architektur meist besser." Eine weitere Besonderheit größerer Unternehmen liege darin, dass ein Data Warehouse oft eng in die Transaktionssysteme eingebunden werde, um für die nächsten Geschäftsjahre eine übergreifende Planung und Simulation fahren zu können. Auch dieses Szenario lasse sich mit einer klassischen Data-Warehouse-Architektur aufgrund der größeren Flexibilität einfacher abdecken. jf