PECOTA, ZiPS, Steamer & Co. – was taugen Vorhersagen?

Die meisten Statistiken, mit denen man sich im Baseball beschäftigt, beziehen sich auf die Vergangenheit. Über die Aussagekraft der jeweiligen Maße – seien es Pitcher-Wins, Earned Runs, Runs created oder was auch immer – kann man trefflich streiten. Aber zumindest beruhen all diese Werte auf Fakten, auf nachprüfbar erfolgten Ereignissen. Schwieriger wird es, wenn man etwas über Ereignisse wissen will, die noch nicht passiert sind. Dann braucht man Vorhersagen und wie sagt man so schön? Prognosen sind schwierig, besonders wenn sie die Zukunft betreffen…

Wofür braucht man überhaupt Vorhersagen?
Vorhersagen braucht man zum Beispiel, um sich eine fundierte Meinung zu bilden, welchen Spieler man gerne mit einem langen Vertrag ausgestattet bzw. überhaupt im eigenen Team sehen möchte. Natürlich hilft da schon der Blick auf die in der Vergangenheit produzierten Zahlen; aber meistens verändern die sich von einem Jahr zum anderen und selbst wenn man davon ausgeht, dass ein Spieler seine Leistungen von einem Jahr aufs andere nahtlos fortsetzt, dann hat man damit bereits eine Vorhersage getroffen. Prognosen helfen auch ungemein beim Fantasy Baseball und anderen Spielen, in denen man auf Ergebnisse wettet.

Vorhersagen beruhen in erster Linie auf Vergleichen: auf Vergleichen mit ähnlichen Spielern und auf Vergleichen mit der eigenen Vergangenheit. Eine gute Vorhersage sollte daher möglichst viele Informationen über die Vergangenheit des betreffenden Spielers sammeln und berücksichtigen: angefangen beim Alter über seine Leistungen im College und den Minors bis hin zu denen in der MLB, über Neigungen zu Stabilität oder Schwankung, über Verletzungsgeschichten und Vieles mehr. Wenn ich zum Beispiel weiß, dass ich einen .250-Karriere-Batter vor mir habe, dann kann ich daraus ableiten, dass eine einzelne .320-Saison wahrscheinlich ein statistischer Ausreißer ist und der Spieler sich im nächsten Jahr vermutlich wieder in Richtung der .250 bewegen wird. Zudem sollte die Vorhersage möglichst viele Informationen über die Karriereverläufe anderer Spieler berücksichtigen. Wenn ich weiß, dass die meisten Shortstops mit 35 Jahren nicht mehr die gleiche Leistung bringen wie mit 28, dann kann ich dies als Annahme in meine Prognose darüber einfließen lassen, in welche Richtung sich die Leistung des 30-jährigen Shortstops X in den kommenden fünf Jahren entwickeln wird.

Welche Vorhersagesysteme gibt es?
Für die MLB gibt es unzählige Vorhersagesysteme. Jede Statistikseite, jede Fantasy-Baseball-Engine, jeder Wettanbieter hat ein eigenes System und arbeitet ständig daran, dieses in Konkurrenz mit den anderen zu verbessern. Ich greife vier dieser Systeme aus dem Informationsdschungel heraus, um sie als Beispiele vorzustellen: PECOTA, ZiPS, Steamer und Marcel. Ich wähle diese vier, weil ich zu ihnen auf eine gute Vergleichsanalyse gestoßen bin – und auch, weil zumindest die drei erstgenannten Systeme die bekanntesten und verbreitetesten sein dürften.

Marcel oder ausführlich: „Marcel The Monkey Forecasting System“ ist ein sehr simples, aufs Wesentliche beschränktes Vorhersagesystem, das von Tom Tango entwickelt wurde. Im Gegensatz zu den anderen hier vorgestellten Systemen liegen die verwendeten Formeln komplett offen und werden nicht weiterentwickelt. Das Ziel von Marcel ist ausdrücklich nicht, besser als andere Vorhersagen zu sein; sein Sinn besteht vielmehr darin, eine Vergleichsgröße für andere Systeme zu bieten. Nach dem Motto: Wenn das andere System irgendetwas taugt, dann muss es zumindest bessere Ergebnisse erzielen als dieses hier, welches so einfach ist, dass Marcel der Affe (aus der Fernsehserie „Friends“) es durchführen könnte.
Marcel prognostiziert eine beliebige Statistikkategorie auf Basis der vom jeweiligen Spieler in den letzten drei Jahren erzielten Werte. Dabei werden die neueren Jahre etwas stärker gewichtet als die älteren Jahre. Als zusätzlicher Faktor wird der Ligadurchschnitt der letzten drei Jahre herangezogen unter der Annahme, dass die Leistung des betrachteten Spielers sich in Richtung dieses Durchschnitts bewegt. Der dritte Schritt ist eine Anpassung an das Alter des Spielers in der Annahme, dass die Leistungen bis zum Alter von 29 Jahren ansteigen und danach nachlassen. Da Marcel nur Werte einbezieht, die in den letzten drei Jahren in der MLB erzeugt wurden, entspricht seine Prognose für Rookies und andere Spieler, die keine MLB-Ergebnisse vorzuweisen haben, automatisch dem Ligadurchschnitt.

PECOTA ist das Vorhersagesystem von Baseball Prospectus und wurde ursprünglich von Nate Silver entwickelt. Der Name steht für „Player Empirical Comparison and Optimization Test Algorithm“ und ist gleichzeitig eine Anspielung auf den ehemaligen Infielder Bill Pecota. PECOTA geht vom selben Ausgangspunkt aus wie Marcel, also einer Prognose aufgrund der gewichteten Leistungen aus den letzten Jahren. Das Besondere an diesem System sind die anschließenden Anpassungen, die nicht vom Ligadurchschnitt ausgehen sondern von konkreten Vergleichsspielern. Anhand von Daten wie Spielstatistiken, Alter, Körperbau und Feldposition werden aktuelle oder frühere Spieler identifiziert, die dem betrachteten Spieler ähneln. Je größer die ermittelte Ähnlichkeit, umso stärker fließt der Karriereverlauf des Vergleichsspielers in die Prognose für die Entwicklung des betrachteten Spielers ein. Das Ergebnis der Analyse sind nicht nur prognostizierte Werte für die Leistung in der kommenden Saison, sondern auch Wahrscheinlichkeitsaussagen wie „Spieler X wird mit 12% Wahrscheinlichkeit ein Breakout-Jahr haben und zu 45% eine leichte Verbesserung aufweisen“.

ZiPS nennt sich das Vorhersagesystem von Dan Szymborski, nach dem es – in etwas eigenwilliger Weise – auch benannt ist: sZymborski Projection System. ZiPs wird (neben anderen Systemen) von Fangraphs verwendet. Ähnlich wie die beiden vorgenannten Systeme beginnt auch ZiPS mit den Leistungen des betreffenden Spielers aus den (drei bis vier) Vorjahren, gewichtet nach Aktualität. Und ähnlich wie PECOTA wird bei der Zukunftsprognose die Entwicklung vergleichbarer Spieler berücksichtigt, wobei die Ähnlichkeitskriterien deutlich weiter gefasst sind als bei PECOTA. Auf die Art entsteht ein größerer Pool von Vergleichsspielern und das Gewicht der einzelnen Vergleichsspieler fällt entsprechend geringer aus. Für Pitcher weist ZiPS die Besonderheit auf, dass es stark zwischen defense-unabhängigen und defense-abhängigen Statistiken unterscheidet; dadurch schlägt es stärker als bei anderen System auf die Prognose eines Pitchers durch, wenn dieser das Team wechselt und künftig von einer besseren oder schlechteren Defense oder einem anderen Ballpark umgeben ist.

Steamer ist aus einem High-School-Projekt hervor gegangen und wird hauptsächlich von Fangraphs und Razzball verwendet. Seinen Namen hat es vom Baseballteam der High School, den Saint Ann’s Steamers. Steamer ist methodisch relativ nah an Marcel in dem Sinne, dass es von der Leistung in vorangegangenen Spielzeiten ausgeht und diese nach typischen Altersentwicklungen und nach angenommener Regression zum Ligadurchschnitt anpasst. Diese Anpassungen werden jedoch in ausgefeilterer Weise vorgenommen, indem zum Beispiel die Gewichtung der einzelnen Jahre sowie das Ausmaß der Regression zum Durchschnitt sich an vorhandenen Entwicklungsdaten früherer Spieler ausrichten.

Und welche Vorhersage ist die beste?
Die ehrlichste Antwort auf die Frage nach dem besten Vorhersagesystem ist: Kommt drauf an. Jedes der vorgestellten Systeme hat seine Eigenheiten und damit auch seine Stärken und Schwächen. Aber natürlich hat es auch einen Reiz, einfach mal eine handvoll Statistiken zu nehmen, für die jedes der vorgestellten Systeme eine Prognose erzeugt hat, und diese Prognosen nach Abschluss der Saison nebeneinander zu legen. Henry Druschel hat dies für einen Artikel auf Bexond The Box Score getan und ist zu interessanten Resultaten gekommen. Ich gebe sie hier nur in aller Kürze wieder, für tiefergehende Infos schaut einfach direkt in Druschels lesenswerten Artikel rein.

Druschel hat die Merkmale Walk Rate (BB%), Strikeout Rate (K%), weighted On-Base-Average (wOBA), On-Base Percentage (OBP) und Slugging (SLG) ausgewählt und für alle Spieler, die in jedem der Systeme berücksichtigt wurden, die Abweichungen zwischen den von jedem einzelnen System prognostizierten Werten für 2016 und den tatsächlichen Leistungen des Jahres 2016 ermittelt. Diese Werte hat er verglichen, um zu sehen, welche Vorhersage der Wirklichkeit im Durchschnitt am nächsten kam.

Die kompliziertesten Verfahren sind offensichtlich nicht immer die besten, denn der Realität am nächsten kam mit Steamer das einfachste der drei etablierten Systeme. PECOTA landete knapp dahinter, während ZiPS nicht nur durchweg schlechtere Ergebnisse als die beiden anderen lieferte sondern in vier von fünf Kategorien noch hinter Marcel dem Affen landete. OBP sagte Marcel sogar von allen System am besten voraus. Interessant finde ich auch die Erkenntnis, dass wenn man von allen vier Systemen den Durchschnitt bildet, dieser fast durchweg eine bessere Prognose darstellt als jedes System für sich.

Neben der Betrachtung der Liga insgesamt hat Druschel seine Analyse auch speziell für Rookies sowie für Elite-Spieler (defniert als Top-20 in OPS in mindestens einem der Vorhersagesyteme) durchgeführt. Das überraschendste Ergebnis war für mich, dass Marcel bei den Rookies die besten Ergebnisse in den Kategorien OBP und SLG erzielt. (Zur Erinnerung: Die Methode von Marcel besteht für Rookies darin, dass schlichtweg der Ligadurchschnitt der Vorjahre angenommen wird!) Auch für die Top-Spieler stellt Marcel in diesen beiden Kategorien und zusätzlich noch in wOBA die beste Prognose dar. Während Gesamtsieger Steamer bei der Prognose für junge Spieler deutliche Schwächen zeigt, bringt ZiPS hier deutlich bessere Resultate hervor als bei der Betrachtung der Top-Spieler und der Liga insgesamt.

Als Fazit lässt sich festhalten, dass die aufwändigen Prognosesysteme sich im Vergleich mit der nach Marcel dem Affen benannten simplen Metohode erstaunlich schwach schlagen. Dies gilt insbesondere für ZiPS. Natürlich sollte man eine solche Analyse nicht überbewerten. Zum einen ist der betrachtete Zeitraum recht kurz, selbst wenn man berücksichtigt, dass die Ergebnisse für 2016 eine ähnliche Analyse für 2015 weitgehend bestätigen. Zum anderen zeigt zum Beispiel die unterschiedliche Performance bei der Prognose für Rookies, dass keines der betrachteten Systeme durchweg besser oder schlechter ist als die anderen.

Februar 18th, 2017 by