Auswertung aller Call-A-Bike Fahrten seit 2014

von Stefan Opitz, 19. Juni 2016

Letze Woche hat DB Rent auf dem Open Data Portal der Deutschen Bahn sämtliche Buchungsdaten von Call-A-Bike und Flinkster im Zeitraum 1.1.2014 bis 9.6.2016 veröffentlicht. Seitdem habe ich mich vor allem mit den Buchungsdaten der Fahrräder beschäftigt — 12,1 Millionen Datenzeilen mit knapp 4 GB sowie ergänzend ein paar weitere Daten zu den Rädern und Stationen. Die enthaltenen Darmstädter Werte (knapp 270.000 Fahrten) sind zwar nur ein Ausschnitt des Radverkehrs in Darmstadt, aber ein sehr spannender.

Zufällig wurde ich vor wenigen Wochen auf Microsofts Power BI aufmerksam, eine kostenlose Software für BI (Business Intelligence) und Visualisierungs-Gehversuche. Ein Bekannter scheiterte daran, diese Menge Daten in LibreOffice zu laden; in PBI dauert es seine Zeit, aber es geht. Vor einigen Wochen wusste ich nicht, wofür ich die Software nutzen sollte (obwohl sie auf dem LeanCamp Frankfurt nochmal empfohlen wurde), nun war ich angefixt. Und so nahm ich sozusagen remote und undercover am DB Hackathon in Berlin teil.

Nun aber zu all den Auswertungen.

Anmerkungen zur Methodik

Ich lerne noch das Tool, sodass es sein kann, dass noch Fehler in den Auswertungen drin sind. Meistens sind die Screenshots der Auswertungen auf 2016 bezogen, um gerade in Darmstadt den aktuellen Ausbaustand abzubilden.

Grundsätzlich habe ich nur Kundenbuchungen ausgewählt, und alle mit max. 3 Minuten Länge ausgeschlossen, da diese in großer Mehrheit Fehlerfälle sein dürften (Rad entliehen, aber nicht aufgeschlossen bzw direkt wieder zurückgegeben).

Dadurch, dass 2016 kein vollständiger Datensatz ist, ist der jahresübergreifende Vergleich häufig schwer, besonders da in Darmstadt erst ab Mitte 2014 das System aufgebaut wurde.

Deutschlandweiter Vergleich

Rangliste der Städte

Hier gleich die erste Überraschung: Dass Hamburg SO deutlich führt, hat mich dann doch sehr überrascht. Genau wie der deutliche Rückstand von Wiesbaden und Rüsselsheim bei den Städten mit der Grundfinanzierung durch Studierende. Darmstadt in 2016 vor Kassel, Köln und Stuttgart — juhu.

Call A Bike: Vergleich der Städte

Call A Bike: Vergleich der Städte

Ausleihen pro 1000 Einwohner

Mein bisher schwerstes Thema, da ich mich hierfür in die Auswertungssprache DAX einlesen musste. Von daher würde ich noch keine Garantie auf Korrektheit abgeben — faszinierend finde ich, wie gut Marburg und Darmstadt dastehen und der sich andeutende Absturz bei Köln und München. Bitte wieder beachten, dass in 2014 etliche Städte erst den Ausbau angefangen haben und 2016 nur bis 9.6. enthalten ist.

Call A Bike: Vergleich der Städte, Buchungen pro 1000 EinwohnerInnen

Call A Bike: Vergleich der Städte, Buchungen pro 1000 EinwohnerInnen

Der Import der Datenquelle für die Einwohner geht in Power BI super einfach von der Hand – blöd ist allerdings, wenn Städte einmal „Rüsselsheim“ und einmal „Rüsselsheim am Main“ heißen.

Vergleich der Ausleihdauern pro Stadt

DB Rent hat in den Daten bereits die Ausleihdauern geclustert (man kann aber auch die einzelnen Werte auswerten). Wie verteilt sich also die Ausleihdauer pro Stadt:

Call-A--Bike: Ausleihdauer pro Stadt in 2016Call-A–Bike: Ausleihdauer pro Stadt in 2016

Auch hier haben mich einige Dinge überrascht. In Hamburg und Berlin fallen wohl touristische Tagesmieten auf, während vor allem in Berlin die wenigsten Kurzstrecken gefahren werden (Rüsselsheim hingegen verleitet nur zu Kurzstrecken ;-) ).

Vergleich der Stationen pro Stadt

Call A Bike: Vergleich der Stationen pro Stadt

Call A Bike: Vergleich der Stationen pro Stadt

Hier sieht man das Wachstum der Abdeckung. Hier zeigte sich allerdings einiges an Datenfehlern in den Grundlagen — da werde ich nächste Woche mal mit einem Kollegen telefonieren, damit ggf. die Datenlage verbessert wird.

Blick nach Darmstadt

Genug des Städtevergleichs, schauen wir nach Darmstadt.

Zeitliche Verteilung der Buchungen

CAB Darmstadt: Zeitliche Verteilung

CAB Darmstadt: Zeitliche Verteilung

Erstmal wenig Überraschungen für 2016: Der Sonntag ist der schlechteste Tag der Woche, der Donnerstag der stärkste. Die meisten Fahrten sind 0 3-15 Minuten lang, mich hat die Menge bei 30-60 aber etwas überrascht.

Schauen wir uns die Verteilung über den Tag an, in 10 Minuten Scheiben; ergänzt um die durchschnittliche Buchungslänge:

Call-A-Bike in Darmstadt: Buchungen über den Tag in 10er-Minuten-Scheiben

Call-A-Bike in Darmstadt: Buchungen über den Tag in 10er-Minuten-Scheiben

 

Hier überrascht mich die Sprunghaftigkeit zwischen 23 und 3 Uhr, sowie die teilweisen Unterschiede der Buchungszeit, die wohl ganz stark von der jeweiligen 10 Minuten Scheibe abhängt — vielleicht fallen hier bestimmte regelmäßige Nutzer auf. Das Tageshoch liegt bei 13:10-13:19 (2014 war es noch 9:30-9:39 Uhr). Während des „Bürotages“ liegt das Tief bei 10:40 Uhr, das absolute bei 6:10 Uhr.

In der Gesamtentwicklung der Buchungen pro Tag sieht man deutlich die Jahreszeiten, die Ausbaustufen und einen allgemein steigenden Trend.

Call-A-Bike in Darmstadt: Entwicklung der Tagessummen

Call-A-Bike in Darmstadt: Entwicklung der Tagessummen

Übrigens: Der bisher (knapp) stärkste Tag war Heinerfestmontag 2015. Durch das allgemeine Wachstum sind dieses Jahr aber schon einige Tage in dem Bereich.

Von wo nach wo

Eine der mächtigsten Auswertungen in Power BI und als Screenshot nur bedingt tauglich — muss man interaktiv bedienen.

Die Treemap-Ansicht ist pro Block nochmal unterteilt in die geclusterte Ausleihzeit. Durch An- bzw. Abwahl diverser Stationen kann man nun sehen, von wo nach wo gefahren wird. Es fällt beispielsweise auf: Viel mehr Leute fahren vom Hbf weg, als wieder ankommen. An der Mensa Lichtwiese fuhren 2195 ab, es kamen aber nur 1748 an — ein Phänomen, was Leihfahrradsysteme oft bei entsprechender Topografie zeigen (zeigt sich auch bspw. am Ostbahnhof und Böllenfalltor, das Hochschulstadion ist aber recht ausgeglichen).

Sehr viele Fahrten (7114) werden keiner Zielstation zugeordnet. Da lohnt es reinzuschauen, ob es ein Datenproblem ist, oder tatsächlich so viele Räder wild abgestellt werden, was ein Hinweis auf sinnvolle neue Stationen sein kann.

Call-A-Bike in Darmstadt: Verbindung von Start- und Ende-Stationen

Call-A-Bike in Darmstadt: Verbindung von Start- und Ende-Stationen

Dann noch die Detailansicht für den Luisenplatz:

Call-A-Bike in Darmstadt: Ziel-Stationen vom Luisenplatz aus in 2016

Call-A-Bike in Darmstadt: Ziel-Stationen vom Luisenplatz aus in 2016

 

Hier tauchen nun die ersten Überraschungen für mich auf: Landwehrstraße, Riegerplatz, Heidelberger Straße, Friedrich-Ebert-Platz sind starke Ziele. Und mit Hochschulstraße und Audimaxx 2 Ultrakurzstrecken — da kam es wohl auf dem Weg zur Vorlesung auf jede Minute an ;-)

Weitere Details zur Nutzung der Stationen

Zuerst versuchte ich mich an einer grafischen Übersicht — auch diese ist interaktiv besser zu nutzen anstatt nur als Screenshot. Die Position musste ich mir selbst erzeugen (inzwischen im Datenexport auch hinterlegt). Die Größe der Kreise gibt die Menge an Ausleihen an, die Farben die jeweilige Zielstation.

Call-A-Bike in Darmstadt: Grafische Darstellung der Stationen im Jahr 2016

Call-A-Bike in Darmstadt: Grafische Darstellung der Stationen im Jahr 2016

Spannend wäre nun Verbindungslinien zwischen den Stationen mit der Dicke nach Nutzungsstärke. Aber hier enden momentan meine Kenntnisse…

Also nehme ich als nächstes doch wieder ein Balkendiagramm und sortiere die Stationen nach Beliebtheit. Auch hier sind die unterschiedlichen Farben die jeweiligen Zielstationen. Auffällig sind die vielen hellgrauen ohne eindeutige Zielstation.

Call-A-Bike in Darmstadt: Beliebteste Start-Stationen 2016 (und das jeweilige Ziel)

Call-A-Bike in Darmstadt: Beliebteste Start-Stationen 2016 (und das jeweilige Ziel)

Hier sind nun richtig viele Überraschungen drin:

  • Die recht neue Station Darmstadium hat sich sehr weit hoch gearbeitet
  • Landwehrstraße / Kasinostraße hätte ich nicht so hoch erwartet
  • Riegerplatz und Friedrich-Ebert-Platz auch nicht
  • Die EFH ist unerwartet schwach
  • Südbahnhof als neueste Station sollte man noch nicht beachten
  • Unter den schwachen Stationen sind viele im Umfeld Arheilgen / Merck / Nordbahnhof, die bei einer Detailbetrachtung viel Verkehr untereinander zeigen

Insgesamt ist auch hier die interaktive Auswertung noch viel spannender als der Screenshot.

Stationsnutzung pro Stunde

Darauf aufbauend habe ich die Grenzen des darstellbaren endgültig ausgelotet (hat jemand mal einen 30 Zoll Monitor für mich?), indem ich pro Stunde des Tages die Start-Stationen und Ziel-Stationen (mit ihrem jeweiligen Gegenstück in der Detaillierung) dargestellt habe:

Call-A-Bike in Darmstadt: Verteilung der Start-Stationen und der jeweiligen Ziele nach Stunde

Call-A-Bike in Darmstadt: Verteilung der Start-Stationen und der jeweiligen Ziele nach Stunde

Call-A-Bike in Darmstadt: Verteilung der Ziel-Stationen und der jeweiligen Starts nach Stunde

Call-A-Bike in Darmstadt: Verteilung der Ziel-Stationen und der jeweiligen Starts nach Stunde

Sonstiges

In Darmstadt nutzen 55% der Nutzer die Android App und nur 29,7% die iPhone-App. Die anderen Buchungswege verstehe ich noch nicht. Das aktivste Fahrrad wurde in 2016 bereits 315 mal ausgeliehen. Der aktivste Nutzer (nicht weiter identifizierbar) hat 221 Fahrten unternommen.

Ausblick

Während der letzten Tage habe ich meine Fortschritte immer wieder getwittert, um näher bei den KollegInnen beim Hackathon zu sein. Das hat dazu geführt, dass ich in Abwesenheit einen Preis gewonnen habe: https://twitter.com/DBHackathon/status/744242842198020101 :-)

Jetzt werde ich natürlich noch weiter Power BI lernen und bald meine Auswertungsdatei veröffentlichen — es gibt noch reichlich weitere Rohdarten zum Zerlegen. Weiterhin stelle ich sie gerne interessierten Personen vor und nehme die Auswertung mit in die politischen Überlegungen zum gewünschten Ausbau des Leihfahrradnetzes in Darmstadt.

Darüber hinaus ist das für mich eine wunderbare Werbung dafür, warum wir das Ziel des Koalitionsvertrages nach einem Open Data Portal für Darmstadt verfolgen müssen: Wenn man die Daten nun noch mit statistischen Daten o.ä. kombinieren könnte, entstehen ganz spannende Ideen.

3 comments

Echt voll cool!
wie gesagt Wetterdaten noch dazu.
Und Gratulation für den Preis – was immer der auch bedeutet :P
Sabine

by Sabine Crook on 19. Juni 2016 at 17:06. #

Hallo Stefan,

vielen Dank für Deinen Input rund um
unsere Daten. Wir sind begeistert und haben dies aus Berlin vom Hackathon verfolgt und den Preis hast Du Dir mehr als verdient. Wir melden uns in Kürze.

Weiter so und viele Grüße
Michael Barillère-Scholz

by Michael Barillère-Scholz on 19. Juni 2016 at 17:15. #

Danke Stefan für diese tolle Auswertung und Darstellung –
da steckt eine Menge Arbeit & knowhow drin, Respekt!

by Patrick Voos on 20. Juni 2016 at 12:21. #