Wir alle erzeugen Unmengen von digitalen Daten – jeden Tag. Ob durch Soziale Netzwerke, Apps, Suchmaschinen, Ortungs- und Kartenservices, beim Schießen von Fotos oder beim Aufnehmen von Sprachnachrichten und Videos. Im Jahr 2017 hat jeder Mensch im Durchschnitt täglich über 600 MB Daten erzeugt.
Inzwischen sind es mehr als ein Gigabyte pro Tag. Hinzu kommen unzählige digitale Daten, die rund um die Uhr von Unternehmen produziert werden. Viele Unternehmen scheitern jedoch daran, die Daten, die sie selbst erheben, für sich nutzbar zu machen. Data Mining ist der systematisierte Versuch, dies zu tun.
Data Mining: Definition
Beim Data Mining geht es um die Erfassung von Mustern, Zusammenhängen und Trends in sehr großen Datensätzen, die aufgrund ihrer Größe nur mit statistischen und computergestützten Methoden ausgewertet werden können und nicht mehr manuell zu bewältigen sind. D.h. es kommen hierbei Algorithmen aus der Mathematik, der Statistik und der Informatik zum Einsatz.
Ich möchte dieser ersten Definition von Data Mining folgende Aspekte hinzufügen, die ich bei Herrn Prof. Dr. Galliat in der Vorlesung „Data Mining“ an der Technischen Hochschule Köln gelernt habe:
Beim Data Mining geht es vor allem darum, implizites, d.h. schwer zugängliches, verborgenes, bisher unbekanntes und potenziell nützliches Wissen zu erschließen. Ganz praktisch gesagt: Wenn ich durch Data Mining herausfinde, das 100 % aller schwangeren Menschen Frauen sind, ist das wenig hilfreich. Oder das im Sommer mehr Klimaanlagen verkauft werden, als im Winter.
Data Mining soll eben solche Zusammenhänge und Muster herausfinden, mit denen man nicht gerechnet hat und die man anhand der bloßen Datensätze nicht sehen kann. Es geht daher beim Data Mining auch darum, Datensätzen aus unterschiedlichen Quellen zu integrieren und sie so zu strukturieren, dass diese in einer gemeinsamen Analyse betrachtet werden können.
Hier klingen gleich zwei wichtige Aspekte von Data Mining an:
1. Es geht um sehr große Datensätze, d.h. Datensätze, die mit dem bloßen Auge nicht mehr zu überblicken sind und die daher statistischer und computergestützer Methoden bedürfen, um sie auswerten zu können. Das bedeutet auch: Ich muss Methoden und Programme kennen, mit denen ich meinen Datensatz untersuchen kann, um herauszufinden, ob mit ihm alles in Ordnung ist. Ich muss Wissen, wie ich damit umgehe, wenn Werte fehlen oder Werte eingetragen sind, die eigentlich nicht sein können oder ähnliches. Bei so großen Datensätzen ist es in der Regel der Fall, das ich zunächst eine Datenbereinigung vornehmen muss, bevor ich mit dem Datensatz arbeiten kann, denn sonst sind meine Ergebnisse unter Umständen verfälscht.
2. Es geht um eine vernetzte Auswertung von Daten aus verschiedenen Quellen (Data Warehouse).
Denn erst durch eine vernetzte Auswertung dieser Daten entsteht nützliches, zweckbezogenes Wissen, das hilft, Entscheidungen zu treffen oder anderweitig genutzt werden kann. Es geht dabei darum, Fakten zu beschreiben, Zusammenhänge zu erklären und zukünftige Entwicklungen vorherzusagen.
Was ist das Ziel von Data Mining?
Data Mining hat zum Ziel:
- Interessantes und nützliches Wissen aus großen Datenmengen zu extrahieren
- Regeln, Muster und Trends, aber vor allem auch Unregelmäßigkeiten zu finden,
- um die richtigen Entscheidungen in Unternehmen und Organisationen zu treffen,
- Forschung zu betreiben oder
- Zusammenhänge zu verstehen.
Typische Fragestellungen im Data Mining
Im folgenden erfährst du typische Fragestellungen und Anwendungsfälle von Data Mining.
- Vorhersagen: Data Mining ermöglicht die Vorhersage zukünftiger Ereignisse oder Trends. Durch die Analyse vergangener Daten können Modelle erstellt werden, die Prognosen für zukünftige Ereignisse liefern, wie zum Beispiel Verkaufsprognosen, Kundenverhalten oder Marktentwicklungen. Eine typische Fragestellungen dazu ist: Welche Faktoren erhöhen die Kundentreue? Aber auch Risikoeinschätzungen gehören dazu, etwa die Frage, wie kreditwürdig eine Person XY ist oder wie Hoch die Wahrscheinlickheit des Eintretens eines Versicherungsfalls.
- Klassifizierungen: Data Mining kann Daten in verschiedene Kategorien oder Klassen einteilen. Dies ist nützlich, um beispielsweise Kunden in verschiedene Segmenten zu unterteilen oder Spam-E-Mails von legitimen E-Mails zu unterscheiden. S
- Clusteranalyse: Diese Fragestellung bezieht sich auf das Identifizieren von Gruppen oder Clustern von ähnlichen Datenobjekten. Es kann helfen, Kunden oder Produkte mit ähnlichen Merkmalen zu identifizieren, um gezielte Marketingstrategien zu entwickeln.
- Anomalieerkennung: Hier geht es darum, ungewöhnliche oder abweichende Muster in den Daten zu finden. Anomalieerkennung kann dazu beitragen, betrügerische Transaktionen, Netzwerkangriffe oder technische Störungen zu identifizieren.
- Assoziationsregeln: Data Mining kann Assoziationen oder Beziehungen zwischen verschiedenen Ereignissen oder Produkten in den Daten aufdecken. Durch Assoziationsregeln lässt sich beispielsweise rausfinden, welche Produkte oft zusammengekauft werden. Dadurch lassen sich Cross-Selling-Möglichkeiten identifizieren und Empfehlungssysteme verbessern.
- Zeitreihenanalysen: Diese Fragestellung bezieht sich auf die Untersuchung von Daten, die im Laufe der Zeit gesammelt wurden, um Trends, Muster oder saisonale Effekte zu identifizieren. Zeitreihenanalyse ist wichtig, um beispielsweise den Verlauf von Aktienkursen, Wettervorhersagen oder Verkaufstrends zu verstehen.
- Text Mining: Data Mining kann auch auf unstrukturierte Textdaten angewendet werden, um Informationen aus großen Textmengen zu extrahieren. Das ist hilfreich, um beispielsweise Meinungen in Kundenrezensionen zu analysieren oder wichtige Themen in Textdokumenten zu identifizieren.
Typische Anwendungsbeispiele im Zusammenhang mit Geschäfts- und Unternehmensentscheidungen sind außerdem:
- die Warenkorbanalyse,
- Preisanalysen,
- Wettbewerbsanalysen.
Ich hoffe, das der Nutzen von Data Mining anhand der Beispiele deutlich geworden ist. Im Prinzip geht es beim Data Mining darum, Erkenntnisse und Muster aus großen Datenmengen zu gewinnen. Durch die Analyse ihrer Daten können Unternehmen bessere Entscheidungen treffen, neue Möglichkeiten identifizieren, ihre Effizienz steigern und Kosten senken. Data Mining kann aber auch bei der Erkennung von Betrug, der Verbesserung der Kundenbeziehungen und der Optimierung von Geschäftsprozessen helfen.
Häufige Fragen / FAQ zum Thema „Data Mining“
Was ist die Definition von Data Mining?
„Data Mining ist ein analytischer Prozess, der anhand von computergestützten Methoden eine möglichst autonome und effiziente Identifizierung von interessanten Datenmustern innerhalb großer Datensätze ermöglicht. Die eingesetzten Algorithmen kommen aus der Statistik, künstlichen Intelligenz oder dem maschinellen Lernen“ so gefunden bei Datasolut. Quelle: Datasolut
Was sind Data Mining Fragestellungen und Anwendungsgebiete?
Typische Anwendunggebiete und Fragestellungen von Data Mining sind Warenkorbanalysen, Clusteranalysen, Vorhersagen, Text Mining, Zeitreihenanalysen, Anomalieerkennung uvm.