Wir alle erzeugen Unmengen von digitalen Daten – jeden Tag. Ob durch Soziale Netzwerke, Apps, Suchmaschinen, Ortungs- und Kartenservices, beim Schießen von Fotos oder beim Aufnehmen von Sprachnachrichten und Videos. Im Jahr 2017 hat jeder Mensch im Durchschnitt täglich über 600 MB Daten erzeugt.
Inzwischen sind es mehr als ein Gigabyte pro Tag. Hinzu kommen unzählige digitale Daten, die rund um die Uhr von Unternehmen produziert werden. Viele Unternehmen scheitern jedoch daran, die Daten, die sie selbst erheben, für sich nutzbar zu machen. Data Mining ist der systematisierte Versuch, dies zu tun.
Data Mining: Definition
Beim Data Mining geht es um die Erfassung von Mustern, Zusammenhängen und Trends in sehr großen Datensätzen, die aufgrund ihrer Größe nur mit statistischen und computergestützten Methoden ausgewertet werden können und nicht mehr manuell zu bewältigen sind. D.h. es kommen hierbei Algorithmen aus der Mathematik, der Statistik und der Informatik zum Einsatz.
Ich möchte dieser ersten Definition von Data Mining folgende Aspekte hinzufügen, die ich bei Herrn Prof. Dr. Galliat in der Vorlesung „Data Mining“ an der Technischen Hochschule Köln gelernt habe:
Beim Data Mining geht es vor allem darum, implizites, d.h. schwer zugängliches, verborgenes, bisher unbekanntes und potenziell nützliches Wissen zu erschließen. Ganz praktisch gesagt: Wenn ich durch Data Mining herausfinde, das 100 % aller schwangeren Menschen Frauen sind, ist das wenig hilfreich. Oder das im Sommer mehr Klimaanlagen verkauft werden, als im Winter.
Data Mining soll eben solche Zusammenhänge und Muster herausfinden, mit denen man nicht gerechnet hat und die man anhand der bloßen Datensätze nicht sehen kann. Es geht daher beim Data Mining auch darum, Datensätzen aus unterschiedlichen Quellen zu integrieren und sie so zu strukturieren, dass diese in einer gemeinsamen Analyse betrachtet werden können.
Hier klingen gleich zwei wichtige Aspekte von Data Mining an:
1. Es geht um sehr große Datensätze, d.h. Datensätze, die mit dem bloßen Auge nicht mehr zu überblicken sind und die daher statistischer und computergestützer Methoden bedürfen, um sie auswerten zu können. Das bedeutet auch: Ich muss Methoden und Programme kennen, mit denen ich meinen Datensatz untersuchen kann, um herauszufinden, ob mit ihm alles in Ordnung ist. Ich muss Wissen, wie ich damit umgehe, wenn Werte fehlen oder Werte eingetragen sind, die eigentlich nicht sein können oder ähnliches. Bei so großen Datensätzen ist es in der Regel der Fall, das ich zunächst eine Datenbereinigung vornehmen muss, bevor ich mit dem Datensatz arbeiten kann, denn sonst sind meine Ergebnisse unter Umständen verfälscht.
2. Es geht um eine vernetzte Auswertung von Daten aus verschiedenen Quellen (Data Warehouse).
Denn erst durch eine vernetzte Auswertung dieser Daten entsteht nützliches, zweckbezogenes Wissen, das hilft, Entscheidungen zu treffen oder anderweitig genutzt werden kann. Es geht dabei darum, Fakten zu beschreiben, Zusammenhänge zu erklären und zukünftige Entwicklungen vorherzusagen.
Was ist das Ziel von Data Mining?
Data Mining hat zum Ziel:
- Interessantes und nützliches Wissen aus großen Datenmengen zu extrahieren
- Regeln, Muster und Trends, aber vor allem auch Unregelmäßigkeiten zu finden,
- um die richtigen Entscheidungen in Unternehmen und Organisationen zu treffen,
- Forschung zu betreiben oder
- Zusammenhänge zu verstehen.
Typische Fragestellungen im Data Mining
Im folgenden erfährst du typische Fragestellungen und Anwendungsfälle von Data Mining.
- Vorhersagen: Data Mining ermöglicht die Vorhersage zukünftiger Ereignisse oder Trends. Durch die Analyse vergangener Daten können Modelle erstellt werden, die Prognosen für zukünftige Ereignisse liefern, wie zum Beispiel Verkaufsprognosen, Kundenverhalten oder Marktentwicklungen. Eine typische Fragestellungen dazu ist: Welche Faktoren erhöhen die Kundentreue? Aber auch Risikoeinschätzungen gehören dazu, etwa die Frage, wie kreditwürdig eine Person XY ist oder wie Hoch die Wahrscheinlickheit des Eintretens eines Versicherungsfalls.
- Klassifizierungen: Data Mining kann Daten in verschiedene Kategorien oder Klassen einteilen. Dies ist nützlich, um beispielsweise Kunden in verschiedene Segmenten zu unterteilen oder Spam-E-Mails von legitimen E-Mails zu unterscheiden.
- Clusteranalyse: Diese Fragestellung bezieht sich auf das Identifizieren von Gruppen oder Clustern von ähnlichen Datenobjekten. Es kann helfen, Kunden oder Produkte mit ähnlichen Merkmalen zu identifizieren, um gezielte Marketingstrategien zu entwickeln.
- Anomalieerkennung: Hier geht es darum, ungewöhnliche oder abweichende Muster in den Daten zu finden. Anomalieerkennung kann dazu beitragen, betrügerische Transaktionen, Netzwerkangriffe oder technische Störungen zu identifizieren.
- Assoziationsregeln: Data Mining kann Assoziationen oder Beziehungen zwischen verschiedenen Ereignissen oder Produkten in den Daten aufdecken. Durch Assoziationsregeln lässt sich beispielsweise rausfinden, welche Produkte oft zusammengekauft werden. Dadurch lassen sich Cross-Selling-Möglichkeiten identifizieren und Empfehlungssysteme verbessern.
- Zeitreihenanalysen: Diese Fragestellung bezieht sich auf die Untersuchung von Daten, die im Laufe der Zeit gesammelt wurden, um Trends, Muster oder saisonale Effekte zu identifizieren. Zeitreihenanalyse ist wichtig, um beispielsweise den Verlauf von Aktienkursen, Wettervorhersagen oder Verkaufstrends zu verstehen.
- Text Mining: Data Mining kann auch auf unstrukturierte Textdaten angewendet werden, um Informationen aus großen Textmengen zu extrahieren. Das ist hilfreich, um beispielsweise Meinungen in Kundenrezensionen zu analysieren oder wichtige Themen in Textdokumenten zu identifizieren.
Typische Anwendungsbeispiele im Zusammenhang mit Geschäfts- und Unternehmensentscheidungen sind außerdem:
- die Warenkorbanalyse,
- Preisanalysen,
- Wettbewerbsanalysen.
Ich hoffe, das der Nutzen von Data Mining anhand der Beispiele deutlich geworden ist. Im Prinzip geht es beim Data Mining darum, Erkenntnisse und Muster aus großen Datenmengen zu gewinnen. Durch die Analyse ihrer Daten können Unternehmen bessere Entscheidungen treffen, neue Möglichkeiten identifizieren, ihre Effizienz steigern und Kosten senken. Data Mining kann aber auch bei der Erkennung von Betrug, der Verbesserung der Kundenbeziehungen und der Optimierung von Geschäftsprozessen helfen.
Seit wann gibt es Data Mining?
Das zugrundeliegende Konzept besteht bereits seit über einem Jahrhundert, rückte aber in den 1930er-Jahren stärker in den Fokus der Öffentlichkeit. Eines der ersten Beispiele für Data Mining stammt aus dem Jahr 1936: Der britische Wissenschaftler Alan Turing präsentierte die Idee von einer universellen Maschine, die ähnliche Berechnungen wie moderne Computer durchführen konnte.
Die Entwicklung des Data Mining verlief in mehreren Phasen:
- 1960er Jahre: Erste statistische Methoden und Datenbanken wurden entwickelt. Zu dieser Zeit ging es hauptsächlich darum, Daten effizient zu speichern und abzurufen.
- 1970er Jahre: Die Entwicklung relationaler Datenbanken und erste Versuche, Muster in großen Datenmengen zu erkennen, kamen auf. Diese Zeit legte den Grundstein für Data Mining.
- 1980er Jahre: Fortschritte in der Künstlichen Intelligenz und maschinellen Lernverfahren führten zu einer stärkeren Nutzung von Algorithmen zur Analyse von Daten.
- 1990er Jahre: Der Begriff Data Mining wurde populär. Mit der Verfügbarkeit großer Mengen an Daten (insbesondere durch das Internet) und leistungsfähigerer Computertechnologie wurden fortschrittliche Algorithmen entwickelt, um verborgene Muster und Zusammenhänge in Daten aufzudecken.
Data Mining Algorithmen
Data Mining bietet verschiedene Verfahren und Algorithmen, um aus Daten wertvolle Muster zu erkennen. Ich habe Ihnen häufig verwendete Data Mining Algorithmen aufgelistet:
- Lineare Regression
- Logistische Regression
- Entscheidungsbäume
- ID3
- C4.5
- CART (Klassifikation und Regressions Entscheidungsbäume)
- CHAID (Chi-square)
- MARS
- Support Vector Machine (SVM)
- K-Nearest Neighbor
- Clustering Algorithmen
- K-Means
- DB-Scan
- Self Organizing Maps
- Hierarchisches Clustering
- Random Forest
- Gradient Boosted Trees:
- XGboost
- LightGBM
- CatBoost
- künstliche Neuronale Netze
- Feed forward neural networks
- Recurrent Neural Networks (RNN)
- viele weitere
- Recommernder Systeme
- Item Based Collaborative Filtering
- Content Based Collaborative Filtering
- Hybrid Collaborative Filtering
- ALS
- Assoziations Analysen
- Apriori Algorithmus
- FPgrowth
Häufige Fragen / FAQ zum Thema „Data Mining“
Was ist die Definition von Data Mining?
„Data Mining ist ein analytischer Prozess, der anhand von computergestützten Methoden eine möglichst autonome und effiziente Identifizierung von interessanten Datenmustern innerhalb großer Datensätze ermöglicht. Die eingesetzten Algorithmen kommen aus der Statistik, künstlichen Intelligenz oder dem maschinellen Lernen“ so gefunden bei Datasolut. Quelle: Datasolut
Was sind Data Mining Fragestellungen und Anwendungsgebiete?
Typische Anwendunggebiete und Fragestellungen von Data Mining sind Warenkorbanalysen, Clusteranalysen, Vorhersagen, Text Mining, Zeitreihenanalysen, Anomalieerkennung uvm.