Sie sind hier:
Startseite
Business Intelligence (BI)

Peter Neckel ist Analyst beim Beraterhaus Mayato. Er leitete die Data-Mining-Studie 2010.
Die flexible
Auswertung großer Datenbestände stellt in vielen Unternehmen eine Schlüsselaufgabe dar. Data-Mining-Tools versprechen, dieses Wissen hoch automatisiert aus Rohdaten zu extrahieren. In welcher Qualität das gelingt und welches Werkzeug sich für welche Analyse am besten eignet, klärt die Data-Mining-Studie 2010 des Analysten- und Beraterhauses Mayato.
Der Schwerpunkt der Studie liegt auf der Datenanalyse im Vertriebsumfeld am Beispiel der Ermittlung von Cross- und Upselling-Potenzialen. Deren Bedeutung hat in letzter Zeit enorm zugenommen. Insbesondere im (Web-)Versandhandel gehören Empfehlungen nach dem Muster „Kunden, die dieses Produkt gekauft haben, interessieren sich auch für folgende Artikel" zum Tagesgeschäft. Die Erfolgsquote derartiger Empfehlungen lässt sich durch Data-Mining stark verbessern. Finanzdienstleister und Versicherungen, nutzen dieses Wissen, um Direktmarketingaktionen zielgenauer umzusetzen.
Fünf Data-Mining-Tools und -Suiten mussten in der Studie ein umfangreiches Testszenario absolvieren:
• SAS Enterprise Miner 6.1
• StatSoft STATISTICA Data Miner 9
• KNIME 2.0.3
• KXEN Analytic Framework 5.1.1
• SAP NetWeaver 7.0 Data Mining Workbench.
Anhand einer Fallstudie und einem Datensatz mit 1,8 Millionen Zeilen durchliefen die Produkte das Testszenario. Bewertet wurden unter anderem Bedienung, Stabilität, Systemverhalten bei großen Datenmengen, die Dokumentation und die Gesamteffizienz des Analyseprozesses sowie die Ausführungsgeschwindigkeit.
Die betrieblichen Datenbestände sind in den letzten Jahren derart rasant gewachsen, dass eine manuelle Auswertung über Berichtssysteme nicht mehr umfassend möglich ist. Nötig sind hierzu spezialisierte Data-Mining-Tools, deren Funktionalitäten, Bedienkonzepte und Algorithmen sich erheblich unterscheiden. Bereits die Grundtypen an Analysewerkzeugen sind vielfältig und deren jeweilige Vertreter nicht für jedes Einsatzgebiet passend. Die klassischen Data-Mining-Suiten beispielsweise von SAS, SPSS oder StatSoft mit ihrem umfassenden Angebot an Datenvorverarbeitungsfunktionen und Data-Mining-Verfahren werden seit einiger Zeit auch als Open-Source-Variante angeboten.
Daneben gibt es schlankere Data-Mining-Werkzeuge mit reduzierter Funktionalität. Sie sind meist auf bestimmte Anwendungsgebiete wie Marketing und Vertrieb oder Prognose- und Klassifizierungsaufgaben spezialisiert. Eine Sonderstellung in dieser Kategorie nimmt das Self-Acting Data Mining ein – ein hoch automatisierter Ansatz, der weitgehend ohne manuelle Datenvorverarbeitung und Parametrisierung auskommt und sich daher insbesondere für Einsteiger empfiehlt. Weiterhin haben inzwischen zahlreiche Datenbank- und Business-Intelligence-Anbieter wie SAP, Oracle oder Microsoft Data-Mining-Funktionen in ihre Produkte integriert, für die oft keine zusätzlichen Lizenzgebühren anfallen.
Da beispielsweise Verbundkaufanalysen besondere Prognosemodelle im Marketing erfordern, ist es sinnvoll, sich vor der Auswahlentscheidung die konkreten Einsatzmöglichkeiten von Data Mining vor Augen zu führen. Es lohnt sich, die Produktentscheidung gut zu überdenken. Je nach Funktionsumfang und Nutzerzahl liegt eine Client/Server-Lizenz typischerweise im mittleren sechsstelligen Eurobereich, zum Teil auch deutlich darüber.
Es geht aber auch günstiger: Selbst mächtige Data-Mining-Suiten können im Falle des STATISTICA Data Miner für 20 000 Euro je lokaler Einzelplatzlizenz erworben werden – bei vollem Funktionsumfang. Spezialisierte Data-Mining-Werkzeuge sind vielfach noch günstiger. Weiterhin besteht bei vielen Anbietern die Möglichkeit, nur die tatsächlich benötigten Komponenten separat zu lizenzieren, was den Preis nochmals reduziert. Für Open-Source-Lösungen entfällt zwar der Anschaffungspreis, dafür entstehen hier meist jährliche Supportgebühren etwa im vierstelligen Eurobereich.
Der Funktionsumfang und die Laufzeit der Verfahren boten im Praxistest die größten Überraschungen. Zahlreiche, mitunter gravierende Einschränkungen in der Funktionalität sind aus den Produktbeschreibungen oft gar nicht herauszulesen. SAP Business Warehouse (BW) und KNIME stellen beispielsweise keine Sequenzanalyse zur Verfügung. Auch die Unterschiede in der Laufzeit können ein entscheidender Faktor sein, weil für das Cross-Selling typischerweise mehrere Millionen Transaktionen in kurzer Zeit analysiert werden müssen.
Die Bedienung geht dank grafischer Benutzeroberflächen bei allen Testkandidaten leicht von der Hand. Dennoch erfordern insbesondere die großen Data-Mining-Suiten einen erhöhten Einarbeitungsaufwand sowie fundiertes Hintergrundwissen. StatSoft und KXEN kommen dem Gelegenheitsanwender entgegen, indem sie Assistenten anbieten, die eine feste Abfolge an Analyseschritten vorgeben und die erforderlichen Eingaben dazu systematisch abfragen.
Die kommerziellen Data-Mining-Suiten verfügen bei der grafischen Darstellung über einen deutlichen Vorsprung vor spezialisierten Tools und Open-Source-Suites. SAP BW und KNIME bieten hier nur eine rudimentäre Unterstützung – Anwender sind bei großen Datenmengen mit der Interpretation nicht sortierbarer Standardlisten überfordert. Positiv anzumerken ist bei SAP BW der souveräne Umgang mit großen Datenmengen sowie die Systemstabilität.
Dass es auch komfortabler geht, zeigen der SAS Enterprise Miner und der STATISTICA Data Miner. Die von beiden Tools gebotenen Optionen zur grafischen Aufbereitung und Exploration der Ergebnisse sind eine Klasse für sich. Hier kann KXEN nicht ganz mithalten, überzeugt aber insgesamt mit einem durchgängig einsteigerfreundlichen Bedienkonzept und der schnellen Ausführungsgeschwindigkeit.
„The fruits of knowledge growing on the tree of data are not easy to pick" – diese Einschätzung des Data-Mining-Experten William Frawley aus dem Jahr 1991 stimmt im Kern noch heute. Deutlich spürbar sind allerdings die gesunkenen Einstiegshürden, vor allem für Anwender aus den Fachabteilungen. Durchdachte Bedienkonzepte, übersichtliche Visualisierungen und neue Ansätze wie Self-Acting Data Mining ermöglichen heute die einfache Nutzung für nahezu jede Analyseaufgabe. Gerade Cross-Selling-Analysen eignen sich aufgrund der geringen Datenanforderungen und der vielfältigen Anwendungsmöglichkeiten besonders gut als Einstieg in Data Mining.