Warum Shuttle-Piloten in Woche 6 scheitern

Ein Vorstadtstandort mit 1.400 Mitarbeitenden fährt einen Mitarbeiter-Shuttle-Pilot. Die Fahrgastzahl in Woche 1 landet bei 38 % der Prognose, Woche 2 bei 41 %, Woche 3 bei 39 %. Management-Review in Woche 4: „Entwickelt sich gut, auf den Hochlauf achten." Dann sackt Woche 5 ab. Woche 6 bricht ein. Das Komitee erklärt den Pilot zur Lernerfahrung und kehrt zur Parkplatzerweiterung zurück. Dieser Einbruch ist so verbreitet, dass er einen Namen haben sollte. Er ist außerdem in den meisten Fällen eine Fehldiagnose. Die Anmelde-Begeisterung in den Wochen 1–2 wird von Neuheit, Management-Druck und einer Launch-Kommunikationskadenz getrieben – drei Variablen, die binnen 10–14 Tagen verfallen. Die Bindung läuft über etwas anderes: Routenpassung, Pünktlichkeit, die Feedback-Schleife. Diese brauchen weit länger, bis sie greifen. Lally et al. beziffern die mittlere Gewohnheitsbildung auf 66 Tage. Sechs Wochen sind 42. Der Pilot wird beendet, bevor irgendeine neue Pendelgewohnheit Automatizität erreicht hat.

Was Anmeldungen in Woche 1 tatsächlich messen

Eine hohe Zahl in Woche 1 misst die Reichweite der Launch-Kommunikation, nicht, ob das Shuttle-Programm im Dauerbetrieb funktioniert.

Drei Kräfte treiben die frühe Kurve, und keine davon ist operativ. Die Neuheit ist die erste: Eine kostenlose Fahrt zur Arbeit, die der Mitarbeitende noch nicht ausprobiert hat, ist interessant, und Menschen probieren Interessantes aus. Der Management-Druck ist die zweite: Wenn ein Operations-VP eine All-Hands-E-Mail verschickt und ein Direktor im Teammeeting nachlegt, steigen die Anmeldungen für etwa zwei Wochen, bevor das Signal im allgemeinen Posteingang-Rauschen verschwindet. Die Kommunikationskadenz ist die dritte: Plakate in der Lobby, Erwähnungen im Wochen-Newsletter, ein kurzes Video im Intranet. All das läuft in den ersten zwei Wochen mit hohem Volumen und fährt dann herunter, weil niemand eine sechsmonatige interne Kommunikationskampagne für einen Shuttle-Pilot plant.

Eine Studie aus dem Jahr 2024 zum Gewohnheitsverfall bei Alltagsverhalten fand, dass sich der Verfall im Schnitt in unter zwei Wochen stabilisiert, mit einer Spanne von 1 bis 65 Tagen. Die Kurve der Anmelde-Begeisterung ist faktisch eine Verfallskurve gegenüber der bisherigen Ausgangslage „Ich fahre mit dem Auto". Sobald das Launch-Rauschen aufhört, flacht diese Kurve schnell ab. Wenn sich die neue Pendelgewohnheit nicht auf derselben Zeitachse zu bilden beginnt, fällt die Fahrgastzahl.

Diese Diskrepanz ist das gesamte Problem.

Warum Woche 6 der sichtbare Wendepunkt ist – nicht die Ursache

Gewohnheitsbildung läuft nicht nach einem Kalender, der Sechs-Wochen-Piloten schmeichelt.

Phillippa Lallys UCL-Team führte 2009 die kanonische Studie durch: 96 Freiwillige, ein einziges neues tägliches Verhalten ihrer Wahl, zwölf Wochen Selbstauskunftsdaten. Die mittlere Zeit bis zum Erreichen von 95 % des Automatizitäts-Asymptoten lag bei 66 Tagen, mit einer Spanne von 18 bis 254 Tagen. Die Kurve ist asymptotisch: Frühe Wiederholungen bringen größere Automatizitätsgewinne als spätere, und die Gewinne kommen über Monate weiter an. Wer an Tag 42 liest, sitzt auf einer teilweise gebildeten Gewohnheit, nicht auf einer fertigen.

Di Maio und Kollegen übertrugen diesen Rahmen direkt auf Wechsel des Pendelverkehrsmittels. Ihre Arbeit von 2025 in Applied Psychology: Health and Well-Being verfolgte 42 Teilnehmende durch ein 14-wöchiges Programm zur Gewohnheitssubstitution hin zu aktivem Pendeln. Die Automatizität der neuen Pendelgewohnheit stieg in frühen Wochen stark und verlangsamte sich dann (linear b = 2,14, p < .001; quadratisch b = -1,01, p = .012). Die Automatizität der alten Pendelgewohnheit verfiel über das Nachinterventionsfenster linear (b = -0,59, p = .013). Die beiden Kurven kreuzten sich spät, nicht früh. Als die Teilnehmenden das substituierte Regime erreichten, lag die wöchentliche Einhaltung bei 86 %.

Diese Asymmetrie ist der Kern des Woche-6-Problems. Alte Gewohnheiten verfallen in Wochen. Neue Gewohnheiten bauen sich in Monaten auf. Der Zwischenzeitraum, der sich operativ wie ein Kollaps anfühlt, ist die Phase, in der der Fahrgast das Bequeme aufgegeben, das Neue aber noch nicht automatisiert hat. Er entscheidet jeden Morgen, ob er fährt oder das eigene Auto nimmt. Dienstag ist ein Ja. Mittwoch ist ein Ja. Freitag hat er einen 7-Uhr-Call und nimmt das Auto. Das Operations-Dashboard sieht das als No-Show. Der Fahrgast erlebt es als vorübergehende Ausnahme. Die beiden Lesarten widersprechen sich, und in Woche 6 liest der Betreiber das Dashboard.

Drei Signale, die wie ein Kollaps aussehen – und es nicht sind

Drei operative Kennzahlen sacken um Woche 5–7 ab, selbst in Piloten, die letztlich erfolgreich sind. Der Woche-6-Prüfer, der diese Einbrüche als Kollaps liest, ist der teuerste Leser, den das Programm hat.

Beginnen Sie mit der No-Show-Drift. Ein gebuchter Fahrgast, der nicht erscheint, ist das deutlichste Fehlersignal, das ein Shuttle-Disponent hat, und zugleich das kontextärmste. In den Wochen 1–3 sind Fahrgäste gewissenhaft, weil das Programm neu ist. Bis Woche 5 haben sie herausgefunden, dass die Folgen einer verpassten Buchung gering sind, und sie stornieren seltener, als sie sollten. Die No-Show-Rate steigt. Das ist kein Bindungsproblem. Das ist ein Problem der Buchungsdisziplin, und es wird mit einem sanften Reibungs-Nudge gelöst – einer einzeiligen WhatsApp-Bestätigung, einem kurzen Stornofenster – nicht mit Routen-Operationen.

Dann ist da die Routen-Änderungs-Fluktuation. Um Woche 4 beginnen Fahrgäste, Haltestellenänderungen zu erbitten: „Können wir eine Haltestelle am Bahnhof ergänzen", „Können wir die 7:25 auf 7:35 verschieben". Ein Programm mit einer gesunden Feedback-Schleife begrüßt das als Beleg, dass die Fahrgäste engagiert genug sind, um zu verhandeln. Ein Programm, das diese Änderungen als Instabilität liest, zieht die Zügel an, friert Routen ein und sagt den Fahrgästen, sie sollen es nehmen oder lassen. Zwei Wochen später nehmen dieselben Fahrgäste es. Dann lassen sie es.

Die NPS-Aufweichung vervollständigt das Trio. Die erste Umfrage, in Woche 2 durchgeführt, erfasst den Neuheits-Aufschlag und liegt in den +40ern. Die zweite Umfrage, in Woche 6, fällt in die +10er. Das ist kein Kollaps – es ist die Umfrage, die nun Fahrgäste in der Gewohnheitsphase erfasst statt in der Honeymoon-Phase, und jeder Benchmark aus Woche 2 wird im Vergleich furchtbar aussehen. Ein Programm, das seine Lesart an der Woche-2-NPS verankert, wird weiter enttäuscht.

Zwei Muster, die tatsächlich einen toten Pilot vorhersagen

Manche Woche-6-Kollapse sind echt, und zwei operative Muster zeigen sie an. Beide liegen den Fahrgastdaten vorgelagert, das heißt, das Dashboard liest ein nachgelagertes Symptom einer vermeidbaren Designentscheidung.

Überangepasste Pilotrouten führen die Liste an. Die Falle besteht darin, die Anmeldeadressen aus Woche 1 zu nehmen, die perfekte Linie durch sie zu ziehen und diese Linie sechs Wochen lang zu fahren. Anmeldedaten erfassen, wer auf die Launch-Kommunikation reagiert hat; sie erfassen nicht, wer im Dauerbetrieb fahren würde. Bis Woche 4 fahren die Menschen, die sich angemeldet haben, weil die Route zufällig an ihrem Haus vorbeiführte. Die Menschen, deren tatsächlicher Arbeitsweg zwei Haltestellen neben der Linie liegt, fahren nicht – und sie standen nicht auf der Anmeldeliste, weil sie annahmen, das Programm sei „nichts für sie". Eine auf die Geometrie von Woche 1 festgelegte Route ist gegenüber der späteren Nachfrage strukturell unterdimensioniert. Die Lösung besteht darin, die Pilotroute als Hypothese zu entwerfen, nicht als Ziel – flexibel genug, um in den ersten acht Wochen drei bis fünf Haltestellenänderungen aufzunehmen, ohne den Vertrag neu zu verhandeln.

Unterbesetzte Fahrerpools liegen daneben. Piloten laufen typischerweise mit einem Fahrer pro Route plus einem einzigen Springer über das Programm. Wenn ein Fahrer das erste Mal an einem Dienstag krank wird, setzt die Disposition den Springer ein. Beim zweiten Mal deckt der Springer bereits ab. Beim dritten Mal fährt eine Route zu spät oder fällt aus. Fahrgäste, die zwei pünktliche Wochen und dann eine schlechte Woche erlebt haben, geben dem Programm keine vier weiteren Wochen zur Erholung; sie kehren zum Auto zurück. Charter-Bustarife liegen 2024 im Schnitt bei 135–285 $ pro Fahrzeugstunde, und ein Sechs-Routen-Pilot hat nur bescheidenen finanziellen Spielraum für redundante Kapazität, aber der Pilot, der nicht mindestens 1,5 Fahrer pro Route einplant, kauft ein Fahrgastrisiko, das er nicht bepreisen kann.

Was es wirklich kostet, einen 6-Wochen-Pilot zu beenden

Der Microsoft Connector, das am besten dokumentierte private Pendel-Shuttle-Programm in Nordamerika, fuhr beim Start 2007 mit 13 Bussen und erreichte bis 2016 22 Routen und rund 80 Busse. Microsofts eigener Fünf-Jahres-Bericht legte offen, dass 60 % der Fahrgäste zuvor allein fuhren und dass das Programm in diesem Zeitraum 40,5 Millionen gefahrene Meilen eliminierte. Der Stanford Research Park, in Zusammenarbeit mit dem Betreiber WeDriveU, sah seinen Anteil an Alleinfahrenden von 73 % im Jahr 2016 auf 63 % im Jahr 2019 fallen, wobei Fahrgemeinschaften und Nahverkehr über drei Jahre jeweils von 8 % auf 13 % des Verkehrsmittel-Mix stiegen. Bis 2025 waren 38 Vanpools im Park unterwegs.

Keine dieser Zahlen tauchte in Woche 6 auf. Sie tauchten in Jahr drei auf.

Ein vernünftiger Skeptiker, der dieses Argument betrachtet, könnte sagen: Piloten sollen scheitern. Das ist der ganze Sinn, einen zu fahren. Jüngste Presseberichterstattung zum NANDA-Projekt des MIT bezifferte die Misserfolgsquote von Enterprise-KI-Piloten auf 95 %, und die Implikation ist, dass ein in Woche 6 zusammenbrechender Pilot das System zeigt, wie es entworfen wurde. Das stimmt, soweit es reicht. Aber die meisten Shuttle-Piloten scheitern nicht, weil das zugrunde liegende Programm im Dauerbetrieb nicht funktionieren würde. Sie scheitern aus operativen Gründen (Routenfixierung, Unterbesetzung des Fahrerpools, keine Fahrgast-Feedback-Schleife), die der Pilot selbst erzeugt hat. Diese Programme in Woche 6 zu beenden, wirft das Signal mit dem Rauschen weg. Die Erwartungswert-Rechnung ist asymmetrisch: Ein echter Misserfolg, in Woche 6 erkannt, spart drei Monate Betriebskosten; ein fehldiagnostizierter Misserfolg verwirkt ein mehrjähriges Verkehrsmittel-Wechselprogramm der Art, die der Stanford Research Park über drei Jahre und eine 10-Punkte-Senkung des Alleinfahrens dokumentierte. Betreiber wie Ryde haben Fahrgast-Feedback-Schleifen über den WhatsApp-Kanal und die Policy Engine genau dafür gebaut, dieses Signal vom Rauschen trennbar zu halten – das Ziel ist nicht, das Woche-6-Review zu gewinnen, sondern das Woche-6-Review lesbar zu machen.

Die Möser-Bamberg-Metaanalyse zu Programmen freiwilliger Verkehrsverhaltensänderung bezifferte die durchschnittliche Reduktion der Autonutzung auf etwa 7 %, mit über zwei Replikationswellen konsistenten Effektstärken. So sieht echter Verkehrsmittelwechsel aus – nicht eine 50-%-Umstellung in Woche 1. Ein Pilot-Dashboard, das eine 50-%-Zahl erwartet, wird 7 % als Misserfolg lesen, selbst wenn 7 % die beste publizierte, evidenzbasierte Zahl ist, die je jemand für diese Art Programm produziert hat.

Das ist es, was ein Minimum von zwölf Wochen erkauft. Es erkauft die Zeit, die die Neue-Gewohnheit-Kurve braucht, um die Alte-Gewohnheit-Kurve zu kreuzen. Es erkauft zwei Zyklen der Routenanpassung, nicht einen. Es erkauft zwei NPS-Messungen, die beide Fahrgäste in der Gewohnheitsphase erfassen, sodass der Vergleich aussagekräftig ist. Jeder Operations-VP, der derzeit in einem Woche-6-Review mit einer „Beenden oder Fortsetzen"-Frage auf der Tagesordnung sitzt, sollte zuerst eine vorgelagerte Frage stellen: Lesen wir ein Urteil, oder lesen wir die Lücke zwischen zwei Kurven, die sich noch nicht gekreuzt haben? Der Zwölf-Wochen-Pilot ist der kürzeste Pilot, der eine Antwort liefert, die die Daten tatsächlich stützen können – kein längerer Pilot, sondern ein richtig terminierter. Für Arbeitgeber, die diese nächste Runde abstecken, legt die Kostenrechnung Mitarbeiter-Shuttle vs. Parken dar, wie der Vergleich über einen 30-Jahres-Horizont aussieht, und das Kontaktformular ist der richtige Ort zum Start, wenn Sie ein Parallel-Pilot-Design wollen, das das Signal nicht im Rauschen versenkt.

Quellen

How are habits formed: Modelling habit formation in the real world — Lally, P., van Jaarsveld, C. H. M., Potts, H. W. W., & Wardle, J., European Journal of Social Psychology, 2010. Abgerufen am 2026-05-09.
Habit substitution toward more active commuting — Di Maio, S. et al., Applied Psychology: Health and Well-Being, 2025. Abgerufen am 2026-05-09.
The temporal trajectories of habit decay in daily life — PsyCh Journal / PMC, 2024. Abgerufen am 2026-05-09.
Voluntary Travel Behavior Change — Policy Brief — California Air Resources Board, zitiert Möser & Bamberg (2008). Abgerufen am 2026-05-09.
Microsoft Connector: 19 routes, 53 buses later — Seattle Times. Abgerufen am 2026-05-09.
Reducing Microsoft’s Commuting Footprint — Five Years of The Connector — Microsoft Green Blog. Abgerufen am 2026-05-09.
Stanford Research Park gains traction in effort to shift workers’ commute habits — Palo Alto Online. Abgerufen am 2026-05-09.
Why enterprise AI pilots fail — CIO Dive (zu MIT NANDA, 2025). Abgerufen am 2026-05-09.
Commuter Benefit Monthly Limit Increase, 2024 to 2025 — Commuter Services / IRS Section 132(f). Abgerufen am 2026-05-09.

Warum Mitarbeiter-Shuttle-Piloten in Woche 6 scheitern