Big-Data-Plattform entlastet Data Warehouse

Das Unternehmen Runtastic implementiert eine neue Big-Data-Plattform auf Basis von Apache Hadoop ein. Durch die skalierbare Cluster-Lösung soll vor allem das vorhandene Data Warehouse entlastet werden.

Die Consol Consulting & Solutions Software führt beim Mobile-Health- und Fitness-Unternehmen Runtastic eine neue Big-Data-Plattform ein. Die Plattform basiere auf Apache Hadoop in einem Cluster aus acht Nodes mit insgesamt bis zu 200 Terabyte nutzbarem Storage. Zum Einsatz kommt Cloudera Enterprise 5.5. Geplant sei der Ausbau der Plattform als „Data Lake“, auf dessen Basis die Data Scientists von Runtastic künftig arbeiten sollen. Durch die skalierbare Cluster-Lösung werde vor allem das vorhandene MS SQL Server basierte Data Warehouse (DWH) entlastet.

Täglich fallen rund 10 GB an Rohdaten an

Runtastic bietet Produkte und Dienstleistungen rund um die Erfassung und Verwaltung von Sportdaten an. Die Daten werden auf Runtastic.com geladen, wo sich die Nutzer ihr Trainingstagebuch ansehen können, Zugang zu Analysen haben und sich mit der Community beispielsweise via Facebook-Synchronisierung austauschen können. Bei weltweit rund 80 Millionen registrierten Nutzern enstünden dabei täglich rund 10 GB an Rohdaten.

Hadoop Cluster schützt Data-Warehouse-Investition

Die von Runtastic generierten Daten wurden laut den Angaben bislang in einem MS SQL Server basierten Data Warehouse (DWH) abgelegt und analysiert. Mit steigender Nutzerzahl und dem rasanten Wachstum der Datenmenge sei diese Lösung jedoch an ihre Grenzen gestoßen. Anstatt die vorhandene DWH-Lösung auszubauen, habe sich Runtastic entschieden, Teile der Funktionalität des DWH in einem Hadoop-Cluster zu realisieren. Dieser speichere die Rohdaten und bereitee sie so auf, dass sie weiterverarbeitet werden können. Auf diese Weise könne das bestehende DWH-System weiter genutzt werden. Eine teure Erweiterung oder Neu-Installation werde so vermieden.

Rohdaten, die vor allem aus Sportdaten der Nutzer sowie Event-Daten bestehen, werden den Angaben zufolge sofort im Cluster gespeichert. Runtastic lade bereits bestehende Daten aus dem DWH sowie aus Micorosft Azure in das Cluster. Liegen dort alle Daten im Rohformat vor, sei es einfach, Analysen zu fahren und zukünftig neue Funktionalitäten auf dem Hadoop-Cluster zu implementieren, wie komplexe Algorithmen, etwa um Sportprofile einzelner Nutzergruppen erstellen zu können.

„Drei Dinge bei diesem Projekt waren uns wichtig“, erläutert Christoph Reininger, Head of Business Intelligence bei Runtastic. „Erstens, dass wir die steigenden Datenmengen unserer Nutzer besser und auch kostengünstig speichern können. Zweitens, dass wir dazu unser bestehendes Data Warehouse weiterhin benutzen und somit unsere Investition schützen können. Und Drittens, dass wir zukünftig sehr schnell auch komplexe Analysen parallel fahren können. Alle drei Kriterien erfüllt das Konzept von Consol. Wir sind bei der Dienstleisterauswahl einer Empfehlung von Cloudera gefolgt und überzeugt, mit Consol den richtigen Partner gefunden zu haben.“

Bei dem Big-Data-Projekt habe Consol sowohl bei der Software-Architektur als auch dem Design beraten und unterstütze bei der Implementierung, dem Deployment sowie dem Betrieb. Projektstart war im November 2015, der Go-Live soll sukzessive im ersten Halbjahr 2016 erfolgen. hei

Anzeige

Titel_BI_Guide_2015

Business Intelligence neuester Stand: Die Marktübersicht der BI-Lösungsanbieter und Dienstleister 2015 von isi  Medien ist verfügbar. Zum E-Paper hier klicken.

Über Beteiligungsmöglichkeiten für 2016 informieren Sie Frau Fellermeier unter 089/ 90 48 62 23, cfellermeier@isreport.de  und Herr Raupach unter 089/ 90 48 62 30.

Kommentare sind deaktiviert