Nachdem im vorherigen Artikel der Blogserie das Business Understanding behandelt wurde – also die Definition von Geschäftsanforderungen, die Identifikation von Zielgruppen und die Bestimmung relevanter KPIs – widmen wir uns nun der nächsten Phase: Data Understanding.
Die Qualität und Verfügbarkeit der zugrunde liegenden Daten sind in nahezu allen Branchen ein wesentlicher Schlüsselfaktor für den Erfolg von KI-Projekten. Ohne eine solide Datenbasis bleiben selbst fortschrittlichste Modelle wirkungslos. In diesem Artikel zeigen wir, warum eine gründliche Analyse der verfügbaren Datenquellen und deren Beschaffenheit die Grundlage für den späteren Projekterfolg bildet und wie eine systematische Vorgehensweise im Data Understanding dabei hilft, wertvolle Erkenntnisse und Optimierungspotenziale zu entdecken.
Warum Data Understanding so wichtig ist
Der Prozessschritt Data Understanding gewinnt besondere Bedeutung, wenn unterschiedliche und oft sehr heterogene Datenquellen zum Einsatz kommen. Dazu können beispielsweise Sensordaten gehören, die in kurzen Intervallen Messwerte erfassen, aber auch Protokolle oder Berichte, die in längeren Abständen oder manuell gepflegt werden. Häufig entstehen an verschiedenen Stellen im Unternehmen Datensilos oder es kommen unterschiedliche Speicherformate zum Einsatz, was die Zusammenführung der Informationen erschwert.
Um ein möglichst vollständiges Bild zu erhalten, sollten frühzeitig sämtliche vorhandenen Datenquellen gesichtet werden. Dabei geht es keineswegs nur um die technische Machbarkeit – also die Frage, in welchem Format oder in welcher Auflösung Daten vorliegen. Genauso relevant ist die strategische Überlegung, welche dieser Daten für das angestrebte KI-Projekt tatsächlich einen Mehrwert versprechen und wo sich eventuelle Lücken oder Qualitätsdefizite befinden.
In diesem Zusammenhang spielen auch rechtliche und organisatorische Fragen eine zentrale Rolle. Unternehmensinterne Abteilungen müssen wissen, welche Daten sie untereinander austauschen dürfen, um Betriebsgeheimnisse zu schützen oder Datenschutzvorgaben einzuhalten. Darüber hinaus kann es passieren, dass bestimmte externe Datensätze lizenzpflichtig oder vertraulich sind und daher nicht ohne Weiteres in ein KI-Projekt einfließen dürfen.
Ein ausschlaggebender Faktor für den Projekterfolg ist die Qualität der vorliegenden Daten. Sensorfehler, fehlende Werte oder fehlerhafte Einträge können die Güte eines KI-Modells erheblich beeinträchtigen. Wer also in der Phase Data Understanding systematisch nach Anomalien, Ausreißern oder Lücken sucht, spart sich in der nachfolgenden Modellierungsphase oft viel Zeit und reduziert das Risiko, dass das Modell später ungenaue oder verzerrte Ergebnisse liefert.
Gleichzeitig bietet eine große Datenvielfalt auch Chancen: Wenn beispielsweise Daten aus verschiedenen Kontexten oder zeitlichen Auflösungen zusammengeführt werden, lassen sich oft komplexe Zusammenhänge erkennen, die in isolierten Datensätzen verborgen bleiben würden. Ein Unternehmen, das neben Echtzeit-Sensordaten auch Wartungs- und Serviceprotokolle analysiert, kann möglicherweise Korrelationen zwischen Produktionsleistung und anstehenden Wartungsintervallen aufdecken. Diese Erkenntnisse führen dann in der weiteren Projektarbeit zu besseren Prognosen oder zu effektiv angepassten Servicekonzepten.
Explorative Datenanalyse (EDA) als Schlüssel zum Verständnis
Ein wesentlicher Bestandteil von Data Understanding ist die sogenannte Explorative Datenanalyse (EDA). Hier geht es darum, anhand statistischer und visueller Methoden herauszufinden, wie die Daten strukturiert sind und welche Muster sich in ihnen verbergen. Wer zunächst auf Kennzahlen wie Mittelwert, Median oder Standardabweichung schaut, bekommt schnell ein Gefühl dafür, ob sich die Daten erwartungsgemäß verhalten oder ob es Bereiche gibt, in denen Werte auffällig aus der Reihe tanzen.
Visualisierungen wie Histogramme oder Boxplots helfen dabei, Verteilungen oder Ausreißer zu entdecken. Streudiagramme und Korrelationstabellen zeigen auf, ob zwischen den untersuchten Merkmalen Beziehungen bestehen, die im weiteren Projektverlauf relevant sein können. Gerade bei zeitbasierten Daten können Liniendiagramme oder Heatmaps saisonale Muster oder wiederkehrende Peaks sichtbar machen. All das liefert wertvolle Anhaltspunkte, um frühzeitig herauszufinden, welche Daten in der Modellierung tatsächlich relevant sein werden und welche eher nicht.
Ableitung neuer Merkmale und Dokumentation
Obwohl das eigentliche Feature Engineering in die nächste CRISP-DM-Phase, Data Preparation, fällt, lassen sich bereits während der explorativen Datenanalyse viele Ideen für neue oder abgeleitete Merkmale gewinnen. So kann es sinnvoll sein, aus Zeitstempeln beispielsweise Wochentage oder Schichtzuordnungen abzuleiten, um genauere Vorhersagen über Leistungs- oder Qualitätskennzahlen zu ermöglichen. Auch aggregierte Werte wie stündliche Durchschnittstemperaturen statt einzelner Sekundendaten können das zukünftige Modell bereinigen und robuster machen.
Wichtig ist dabei eine sorgfältige Dokumentation. Wer jeden Schritt festhält – von der Bereinigung fehlender Werte bis zur Definition neu geschaffener Variablen – stellt sicher, dass die Analysen und Modelle jederzeit nachvollziehbar bleiben. Diese Transparenz verringert nicht nur die Komplexität des Projekts, sondern erleichtert auch spätere Wartungs- oder Optimierungsschritte.
Ausblick: Von Data Understanding zur Data Preparation
Die in der Data-Understanding-Phase gewonnenen Einblicke legen das Fundament für alle folgenden Arbeitsschritte. Insbesondere die Data Preparation baut direkt darauf auf und setzt die Erkenntnisse aus der explorativen Analyse in konkrete Maßnahmen wie Datenbereinigung, Standardisierung und das Anreichern wichtiger Merkmale um.
Wer bereits im Data Understanding gewissenhaft vorgeht, wird in der nächsten Phase umso zügiger vorankommen und von präziseren Modellen profitieren. Im kommenden Artikel werfen wir daher einen genaueren Blick auf die Techniken der Datenaufbereitung und geben praktische Hinweise, wie Sie fehlende Werte und Ausreißer sinnvoll behandeln, Daten normalisieren und zusätzliche Merkmale generieren können.