Edit Content

Ist ihr Unternehmen bereit für künstliche Intelligenz ?

Finden Sie es kostenlos heraus!

Menü

Support

6 Schritte zum erfolgreichen KI-Projekt: 2. Datenverständnis entwickeln

03.02.2025
KI by Rausch, KI in Unternehmen

Nachdem im vorherigen Artikel der Blogserie das Business Understanding behandelt wurde – also die Definition von Geschäftsanforderungen, die Identifikation von Zielgruppen und die Bestimmung relevanter KPIs – widmen wir uns nun der nächsten Phase: Data Understanding.

Die Qualität und Verfügbarkeit der zugrunde liegenden Daten sind in nahezu allen Branchen ein wesentlicher Schlüsselfaktor für den Erfolg von KI-Projekten. Ohne eine solide Datenbasis bleiben selbst fortschrittlichste Modelle wirkungslos. In diesem Artikel zeigen wir, warum eine gründliche Analyse der verfügbaren Datenquellen und deren Beschaffenheit die Grundlage für den späteren Projekterfolg bildet und wie eine systematische Vorgehensweise im Data Understanding dabei hilft, wertvolle Erkenntnisse und Optimierungspotenziale zu entdecken.

Warum Data Understanding so wichtig ist

Der Prozessschritt Data Understanding gewinnt besondere Bedeutung, wenn unterschiedliche und oft sehr heterogene Datenquellen zum Einsatz kommen. Dazu können beispielsweise Sensordaten gehören, die in kurzen Intervallen Messwerte erfassen, aber auch Protokolle oder Berichte, die in längeren Abständen oder manuell gepflegt werden. Häufig entstehen an verschiedenen Stellen im Unternehmen Datensilos oder es kommen unterschiedliche Speicherformate zum Einsatz, was die Zusammenführung der Informationen erschwert.

Um ein möglichst vollständiges Bild zu erhalten, sollten frühzeitig sämtliche vorhandenen Datenquellen gesichtet werden. Dabei geht es keineswegs nur um die technische Machbarkeit – also die Frage, in welchem Format oder in welcher Auflösung Daten vorliegen. Genauso relevant ist die strategische Überlegung, welche dieser Daten für das angestrebte KI-Projekt tatsächlich einen Mehrwert versprechen und wo sich eventuelle Lücken oder Qualitätsdefizite befinden.

In diesem Zusammenhang spielen auch rechtliche und organisatorische Fragen eine zentrale Rolle. Unternehmensinterne Abteilungen müssen wissen, welche Daten sie untereinander austauschen dürfen, um Betriebsgeheimnisse zu schützen oder Datenschutzvorgaben einzuhalten. Darüber hinaus kann es passieren, dass bestimmte externe Datensätze lizenzpflichtig oder vertraulich sind und daher nicht ohne Weiteres in ein KI-Projekt einfließen dürfen.

Ein ausschlaggebender Faktor für den Projekterfolg ist die Qualität der vorliegenden Daten. Sensorfehler, fehlende Werte oder fehlerhafte Einträge können die Güte eines KI-Modells erheblich beeinträchtigen. Wer also in der Phase Data Understanding systematisch nach Anomalien, Ausreißern oder Lücken sucht, spart sich in der nachfolgenden Modellierungsphase oft viel Zeit und reduziert das Risiko, dass das Modell später ungenaue oder verzerrte Ergebnisse liefert.

Gleichzeitig bietet eine große Datenvielfalt auch Chancen: Wenn beispielsweise Daten aus verschiedenen Kontexten oder zeitlichen Auflösungen zusammengeführt werden, lassen sich oft komplexe Zusammenhänge erkennen, die in isolierten Datensätzen verborgen bleiben würden. Ein Unternehmen, das neben Echtzeit-Sensordaten auch Wartungs- und Serviceprotokolle analysiert, kann möglicherweise Korrelationen zwischen Produktionsleistung und anstehenden Wartungsintervallen aufdecken. Diese Erkenntnisse führen dann in der weiteren Projektarbeit zu besseren Prognosen oder zu effektiv angepassten Servicekonzepten.

Explorative Datenanalyse (EDA) als Schlüssel zum Verständnis

Ein wesentlicher Bestandteil von Data Understanding ist die sogenannte Explorative Datenanalyse (EDA). Hier geht es darum, anhand statistischer und visueller Methoden herauszufinden, wie die Daten strukturiert sind und welche Muster sich in ihnen verbergen. Wer zunächst auf Kennzahlen wie Mittelwert, Median oder Standardabweichung schaut, bekommt schnell ein Gefühl dafür, ob sich die Daten erwartungsgemäß verhalten oder ob es Bereiche gibt, in denen Werte auffällig aus der Reihe tanzen.

Visualisierungen wie Histogramme oder Boxplots helfen dabei, Verteilungen oder Ausreißer zu entdecken. Streudiagramme und Korrelationstabellen zeigen auf, ob zwischen den untersuchten Merkmalen Beziehungen bestehen, die im weiteren Projektverlauf relevant sein können. Gerade bei zeitbasierten Daten können Liniendiagramme oder Heatmaps saisonale Muster oder wiederkehrende Peaks sichtbar machen. All das liefert wertvolle Anhaltspunkte, um frühzeitig herauszufinden, welche Daten in der Modellierung tatsächlich relevant sein werden und welche eher nicht.

Praxisbeispiel: Ein Unternehmen zeichnet über mehrere Monate hinweg Schwingungsdaten an einer Fertigungsmaschine auf. Die Zeitreihenanalyse macht schnell deutlich, dass die Vibrationen an bestimmten Tagen deutlich ausgeprägter sind. Dabei stellt sich heraus, dass nach jedem Wochenende ein „Kaltstart“ stattfindet, der zu spezifischen Schwingungsmustern führt. Mithilfe dieser Erkenntnis können Produktionspläne angepasst oder zusätzliche Wartungschecks eingeplant werden, um langfristig eine höhere Verfügbarkeit der Maschine zu gewährleisten.

Ableitung neuer Merkmale und Dokumentation

Obwohl das eigentliche Feature Engineering in die nächste CRISP-DM-Phase, Data Preparation, fällt, lassen sich bereits während der explorativen Datenanalyse viele Ideen für neue oder abgeleitete Merkmale gewinnen. So kann es sinnvoll sein, aus Zeitstempeln beispielsweise Wochentage oder Schichtzuordnungen abzuleiten, um genauere Vorhersagen über Leistungs- oder Qualitätskennzahlen zu ermöglichen. Auch aggregierte Werte wie stündliche Durchschnittstemperaturen statt einzelner Sekundendaten können das zukünftige Modell bereinigen und robuster machen.

Wichtig ist dabei eine sorgfältige Dokumentation. Wer jeden Schritt festhält – von der Bereinigung fehlender Werte bis zur Definition neu geschaffener Variablen – stellt sicher, dass die Analysen und Modelle jederzeit nachvollziehbar bleiben. Diese Transparenz verringert nicht nur die Komplexität des Projekts, sondern erleichtert auch spätere Wartungs- oder Optimierungsschritte.

Experten-Tipp: Automatisieren Sie, wo immer möglich, die Datenbereinigung und das Generieren neuer Merkmale. Skripte oder ETL-Pipelines (Extract, Transform, Load) lassen sich versionieren und bewahren sämtliche Transformationen. So bleiben Ihre Ergebnisse konsistent und nachvollziehbar.

Ausblick: Von Data Understanding zur Data Preparation

Die in der Data-Understanding-Phase gewonnenen Einblicke legen das Fundament für alle folgenden Arbeitsschritte. Insbesondere die Data Preparation baut direkt darauf auf und setzt die Erkenntnisse aus der explorativen Analyse in konkrete Maßnahmen wie Datenbereinigung, Standardisierung und das Anreichern wichtiger Merkmale um.

Wer bereits im Data Understanding gewissenhaft vorgeht, wird in der nächsten Phase umso zügiger vorankommen und von präziseren Modellen profitieren. Im kommenden Artikel werfen wir daher einen genaueren Blick auf die Techniken der Datenaufbereitung und geben praktische Hinweise, wie Sie fehlende Werte und Ausreißer sinnvoll behandeln, Daten normalisieren und zusätzliche Merkmale generieren können.

Sven Rausch ist nicht nur das Gesicht hinter RAUSCH Technology, sondern maßgeblicher Treiber für innovative Ansätze im Bereich der künstlichen Intelligenz. Er promoviert im Bereich der Neurosymbolik an der Universität Würzburg und ist seit 20 Jahren erfolgreicher Unternehmer im Technologiebereich.

KI READINESS

Ist ihr Unternehmen bereit für künstliche Intellgienz?

Finden Sie es kostenlos heraus!

RAUSCH Blogposts

KI Referenz

Sven Rausch

KI in Fernwärmenetzen – Unser Projekt mit der Deutschen Energie-Agentur (dena)

In jedem KI Projekt ist das Verständnis der zu nutzenden Daten ein wichtiger Schritt zu ...

Sven Rausch
14.02.2025

KI Referenz

Lisa Grummet

Intelligente Heizungsoptimierung – Unser Beitrag zur Vodafone-Plattform GK4.0

In jedem KI Projekt ist das Verständnis der zu nutzenden Daten ein wichtiger Schritt zu ...

Lisa Grummet
08.02.2025

KI Technisch

Daniel Wilhelm

Effiziente KI-Entwicklung mit Weights & Biases (WandB)

Das Vorverarbeiten von Daten ist mit der wichtigste Schritt im Prozess des Trainings eines Machine-Learning-Modells. ...

Daniel Wilhelm
06.02.2025

Intelligente Beratung & Software

Tauchen Sie ein in die Zukunft mit unseren innovativen Produkten, die Intelligenz und Effizienz neu definieren! Ob durch unsere maßgeschneiderten Beratungsprodukte oder unsere bahnbrechenden Softwarelösungen – wir bieten Ihnen die Werkzeuge, um in der digitalen Ära zu glänzen. Mit unserer künstlichen Intelligenz Software ENER-IQ verwandeln wir herkömmliche Heizungsanlagen in smarte Systeme, die durch umfassende Datenanalyse ihre Effizienz maximieren. Lassen Sie sich von uns auf die Überholspur bringen, indem wir Ihnen helfen, Wettbewerbsvorteile zu sichern und Kosten zu reduzieren.

Erleben Sie, wie unsere Produkte Ihr Unternehmen in die Zukunft katapultieren!