Wenn ihr euch schon länger mit Datenanalyse beschäftigt, habt ihr vielleicht schon von ihm gehört: David Kriesel. David ist Informatiker und Datenanalyst und außerdem ein sehr guter Redner. Durch den YouTube-Algorithmus wurde sein Vortrag „BahnMining – Pünktlichkeit ist eine Zier“ eines Tages bei mir angespült. Darin zeigt er auf humorvolle Art und Weise, was man mit großen Datensätzen alles machen kann. Weil David ein super Redner ist, möchte ich euch diesen Beitrag empfehlen. Neben Bahnmining gibt es noch seinen Vortrag „Spiegel-Mining“, der auch sehr empfehlenswert ist.
Worum geht’s bei BahnMining?
Grund für das Projekt war eine Meldung der Deutschen Bahn Anfang 2019 in der es hieß, in 2018 wären rund 75 % der Züge der Deutschen Bahn im Fernverkehr pünktlich gewesen. Pünktlich bedeutet dabei laut Definition der Bahn: Weniger als 6 Minuten zu spät¹. Die 75 Prozent machten David etwas stutzig, denn sie passten so gar nicht zu seinen persönlichen Erfahrungen mit der Deutschen Bahn. Auch die Gleichung pünktlich = weniger als 6 Minuten zu spät kann man sicher hinterfragen. Genau das hat David getan.
Im Kern geht es bei „BahnMining“ deshalb um die Fragestellung, wie bei der Deutschen Bahn mit Verspätungen umgegangen wird. Ab wann zählt eine Verspätung als Verspätung? Gibt es Unterschiede zwischen Regional- und Fernverkehr? Welches sind die Bahnhöfe mit den meisten pünktlichen Zügen? Und welche die, mit den größten Verspätungen?
Der Vortrag ist auch deswegen so großartig, weil David euch mitnimmt durch den Prozess: Von der Sammlung der Datensätze, über mögliche Pannen und wie man mit ihnen umgeht, bis zur Auswertung. Ein ganzes Jahr lang hat er für „BahnMining“ Daten von der Deutschen Bahn gesammelt und anschließend ausgewertet. Übrigens alles mit Genehmigung der Deutschen Bahn. Ein Muss für jeden, der sich für Data Mining und Data Science interessiert!
Den gesamten Vortrag könnt ihr euch hier anschauen:
Quellen:
1: https://www.deutschebahn.com/de/konzern/konzernprofil/zahlen_fakten/puenktlichkeitswerte-6878476