Februar 11th, 2018 by Silversurger

Mit dem Start in die Saisonvorbereitung der MLB ist auch die Zeit der Vorhersagen  angebrochen. Während der Spring-Training-Spiele werde ich mir selbst wieder jedes Team einzeln vornehmen, heute schaue ich aber erst mal durch die bekannteste Baseball-Glaskugel: die PECOTA-Projektionen von Baseball Prospectus. Diese werden auf Ebene der Einzelspieler ermittelt, sagen in der Gesamtschau aber auch komplette Tabellenstände voraus. (Wenn ihr wissen wollt, wie PECOTA und andere Vorhersagesysteme funktionieren, schaut doch mal in meinen Artikel vom letzten Jahr).

PECOTA sieht für diese Saison eine klare Dominanz von vier Teams voraus: Den Los Angeles Dodgers (99 Siege), den Houston Astros (99), den Cleveland Indians (97) und den New York Yankees (96) werden jeweils fast 100 Wins zugetraut, alle anderen Teams landen in der prognostizierten Endabrechnung bei unter 90 Siegen. Ich schätze allerdings, dass sich das für die Chicago Cubs (89) noch ändern wird, sobald die letzte Nacht getätigte Verpflichtung von Top-Free-Agent Yu Darvish in die Zahlen eingearbeitet ist.

Neben den fünf genannten Teams komplettieren die Washington Nationals (89) die Riege der vorhergesagten Divisionssieger. Die aussichtsreichsten Kandidaten für die Wild Cards sind die Diamondbacks (86), die Cardinals (84) und die Giants (84) in der NL sowie die Red Sox (87) und die Rays (84) in der AL. Düstere Zeiten prognostiziert PECOTA hingegen den Miami Marlins (66), den Kansas City Royals (66), den Detroit Tigers (68) und den Baltimore Orioles (69) mit jeweils unter 70 Siegen.

Im Großen und Ganzen ähnelt das von PECOTA für 2018 gezeichnete Bild den tatsächlichen Verhältnissen aus der letzten Saison. Die größte Veränderung wird den San Francisco Giants zugetraut, denen nach dem enttäuschenden Jahr 2017 eine Steigerung um glatte 20 Siege vorhergesagt wird.  Auf der anderen Seite wird den Kansas City Royals ohne Eric Hosmer, Mike Moustakas, Lorenzo Cain und Jason Vargas ein Absturz um 14 Siege prophezeit. Keine großen Sprünge erwartete die Projektion von den Los Angeles Angels (80) und den Milwaukee Brewers (83). Beide Teams haben zwar während der Offseason deutlich aufgerüstet, konnten PECOTA aber offenbar nicht überzeugen, dass von ihnen mehr zu erwarten ist als im letzten Jahr.

Auf Ebene der Einzelakteure ist es keine spektakuläre Weissagung, Angels-Outfielder Mike Trout mit 7.1 WARP als besten Spieler der MLB einzuschätzen. Auf den weiteren Plätzen der Positionsspieler finden sich aber doch ein paar Überraschungen: Giants-Catcher Buster Posey (5.6 WARP) hätte ich nicht auf Rang zwei erwartet und Nationals-Shortstop Trea Turner (5.3) erst recht nicht auf Platz drei. Ich bin gespannt, ob PECOTA Recht behält und Posey und Turner wirklich mehr produzieren werden als beispielsweise Bryce Harper (4.2), Jose Altuve (3.9) oder Giancarlo Stanton (3.9). Bei den Pitchern fallen die Vorhersagen etwas erwartbarer aus: Chris Sale (6.0 WARP), Clayton Kershaw (4.9), Corey Kluber (4.5) und Max Scherzer (4.1) hätte ich aus dem Bauch heraus auch auf den ersten vier Plätzen gesehen, wenngleich nicht zwangsläufig in dieser Reihenfolge.

Was ist eigentlich mit Shohei Ohtani, dem am stärksten umworbenen Newcomer aller Zeiten? PECOTA traut ihm einen erfolgreichen MLB-Karrierestart zu: Mit 2.8 WARP als Pitcher würde er die Rotation der Angels anführen und ligaweit auf Rang 19 landen. Zudem werden ihm weitere 0.7 WARP als Batter zugerechnet – mehr als doppelt soviel wie Albert Pujols trotz deutlich weniger prognostizierter At Bats.

Posted in MLB Tagged with: , , , , , , , , , , , , , ,

Februar 18th, 2017 by Silversurger

Die meisten Statistiken, mit denen man sich im Baseball beschäftigt, beziehen sich auf die Vergangenheit. Über die Aussagekraft der jeweiligen Maße – seien es Pitcher-Wins, Earned Runs, Runs created oder was auch immer – kann man trefflich streiten. Aber zumindest beruhen all diese Werte auf Fakten, auf nachprüfbar erfolgten Ereignissen. Schwieriger wird es, wenn man etwas über Ereignisse wissen will, die noch nicht passiert sind. Dann braucht man Vorhersagen und wie sagt man so schön? Prognosen sind schwierig, besonders wenn sie die Zukunft betreffen…

Wofür braucht man überhaupt Vorhersagen?
Vorhersagen braucht man zum Beispiel, um sich eine fundierte Meinung zu bilden, welchen Spieler man gerne mit einem langen Vertrag ausgestattet bzw. überhaupt im eigenen Team sehen möchte. Natürlich hilft da schon der Blick auf die in der Vergangenheit produzierten Zahlen; aber meistens verändern die sich von einem Jahr zum anderen und selbst wenn man davon ausgeht, dass ein Spieler seine Leistungen von einem Jahr aufs andere nahtlos fortsetzt, dann hat man damit bereits eine Vorhersage getroffen. Prognosen helfen auch ungemein beim Fantasy Baseball und anderen Spielen, in denen man auf Ergebnisse wettet.

Vorhersagen beruhen in erster Linie auf Vergleichen: auf Vergleichen mit ähnlichen Spielern und auf Vergleichen mit der eigenen Vergangenheit. Eine gute Vorhersage sollte daher möglichst viele Informationen über die Vergangenheit des betreffenden Spielers sammeln und berücksichtigen: angefangen beim Alter über seine Leistungen im College und den Minors bis hin zu denen in der MLB, über Neigungen zu Stabilität oder Schwankung, über Verletzungsgeschichten und Vieles mehr. Wenn ich zum Beispiel weiß, dass ich einen .250-Karriere-Batter vor mir habe, dann kann ich daraus ableiten, dass eine einzelne .320-Saison wahrscheinlich ein statistischer Ausreißer ist und der Spieler sich im nächsten Jahr vermutlich wieder in Richtung der .250 bewegen wird. Zudem sollte die Vorhersage möglichst viele Informationen über die Karriereverläufe anderer Spieler berücksichtigen. Wenn ich weiß, dass die meisten Shortstops mit 35 Jahren nicht mehr die gleiche Leistung bringen wie mit 28, dann kann ich dies als Annahme in meine Prognose darüber einfließen lassen, in welche Richtung sich die Leistung des 30-jährigen Shortstops X in den kommenden fünf Jahren entwickeln wird.

Welche Vorhersagesysteme gibt es?
Für die MLB gibt es unzählige Vorhersagesysteme. Jede Statistikseite, jede Fantasy-Baseball-Engine, jeder Wettanbieter hat ein eigenes System und arbeitet ständig daran, dieses in Konkurrenz mit den anderen zu verbessern. Ich greife vier dieser Systeme aus dem Informationsdschungel heraus, um sie als Beispiele vorzustellen: PECOTA, ZiPS, Steamer und Marcel. Ich wähle diese vier, weil ich zu ihnen auf eine gute Vergleichsanalyse gestoßen bin – und auch, weil zumindest die drei erstgenannten Systeme die bekanntesten und verbreitetesten sein dürften.

Marcel oder ausführlich: „Marcel The Monkey Forecasting System“ ist ein sehr simples, aufs Wesentliche beschränktes Vorhersagesystem, das von Tom Tango entwickelt wurde. Im Gegensatz zu den anderen hier vorgestellten Systemen liegen die verwendeten Formeln komplett offen und werden nicht weiterentwickelt. Das Ziel von Marcel ist ausdrücklich nicht, besser als andere Vorhersagen zu sein; sein Sinn besteht vielmehr darin, eine Vergleichsgröße für andere Systeme zu bieten. Nach dem Motto: Wenn das andere System irgendetwas taugt, dann muss es zumindest bessere Ergebnisse erzielen als dieses hier, welches so einfach ist, dass Marcel der Affe (aus der Fernsehserie „Friends“) es durchführen könnte.
Marcel prognostiziert eine beliebige Statistikkategorie auf Basis der vom jeweiligen Spieler in den letzten drei Jahren erzielten Werte. Dabei werden die neueren Jahre etwas stärker gewichtet als die älteren Jahre. Als zusätzlicher Faktor wird der Ligadurchschnitt der letzten drei Jahre herangezogen unter der Annahme, dass die Leistung des betrachteten Spielers sich in Richtung dieses Durchschnitts bewegt. Der dritte Schritt ist eine Anpassung an das Alter des Spielers in der Annahme, dass die Leistungen bis zum Alter von 29 Jahren ansteigen und danach nachlassen. Da Marcel nur Werte einbezieht, die in den letzten drei Jahren in der MLB erzeugt wurden, entspricht seine Prognose für Rookies und andere Spieler, die keine MLB-Ergebnisse vorzuweisen haben, automatisch dem Ligadurchschnitt.

PECOTA ist das Vorhersagesystem von Baseball Prospectus und wurde ursprünglich von Nate Silver entwickelt. Der Name steht für „Player Empirical Comparison and Optimization Test Algorithm“ und ist gleichzeitig eine Anspielung auf den ehemaligen Infielder Bill Pecota. PECOTA geht vom selben Ausgangspunkt aus wie Marcel, also einer Prognose aufgrund der gewichteten Leistungen aus den letzten Jahren. Das Besondere an diesem System sind die anschließenden Anpassungen, die nicht vom Ligadurchschnitt ausgehen sondern von konkreten Vergleichsspielern. Anhand von Daten wie Spielstatistiken, Alter, Körperbau und Feldposition werden aktuelle oder frühere Spieler identifiziert, die dem betrachteten Spieler ähneln. Je größer die ermittelte Ähnlichkeit, umso stärker fließt der Karriereverlauf des Vergleichsspielers in die Prognose für die Entwicklung des betrachteten Spielers ein. Das Ergebnis der Analyse sind nicht nur prognostizierte Werte für die Leistung in der kommenden Saison, sondern auch Wahrscheinlichkeitsaussagen wie „Spieler X wird mit 12% Wahrscheinlichkeit ein Breakout-Jahr haben und zu 45% eine leichte Verbesserung aufweisen“.

ZiPS nennt sich das Vorhersagesystem von Dan Szymborski, nach dem es – in etwas eigenwilliger Weise – auch benannt ist: sZymborski Projection System. ZiPs wird (neben anderen Systemen) von Fangraphs verwendet. Ähnlich wie die beiden vorgenannten Systeme beginnt auch ZiPS mit den Leistungen des betreffenden Spielers aus den (drei bis vier) Vorjahren, gewichtet nach Aktualität. Und ähnlich wie PECOTA wird bei der Zukunftsprognose die Entwicklung vergleichbarer Spieler berücksichtigt, wobei die Ähnlichkeitskriterien deutlich weiter gefasst sind als bei PECOTA. Auf die Art entsteht ein größerer Pool von Vergleichsspielern und das Gewicht der einzelnen Vergleichsspieler fällt entsprechend geringer aus. Für Pitcher weist ZiPS die Besonderheit auf, dass es stark zwischen defense-unabhängigen und defense-abhängigen Statistiken unterscheidet; dadurch schlägt es stärker als bei anderen System auf die Prognose eines Pitchers durch, wenn dieser das Team wechselt und künftig von einer besseren oder schlechteren Defense oder einem anderen Ballpark umgeben ist.

Steamer ist aus einem High-School-Projekt hervor gegangen und wird hauptsächlich von Fangraphs und Razzball verwendet. Seinen Namen hat es vom Baseballteam der High School, den Saint Ann’s Steamers. Steamer ist methodisch relativ nah an Marcel in dem Sinne, dass es von der Leistung in vorangegangenen Spielzeiten ausgeht und diese nach typischen Altersentwicklungen und nach angenommener Regression zum Ligadurchschnitt anpasst. Diese Anpassungen werden jedoch in ausgefeilterer Weise vorgenommen, indem zum Beispiel die Gewichtung der einzelnen Jahre sowie das Ausmaß der Regression zum Durchschnitt sich an vorhandenen Entwicklungsdaten früherer Spieler ausrichten.

Und welche Vorhersage ist die beste?
Die ehrlichste Antwort auf die Frage nach dem besten Vorhersagesystem ist: Kommt drauf an. Jedes der vorgestellten Systeme hat seine Eigenheiten und damit auch seine Stärken und Schwächen. Aber natürlich hat es auch einen Reiz, einfach mal eine handvoll Statistiken zu nehmen, für die jedes der vorgestellten Systeme eine Prognose erzeugt hat, und diese Prognosen nach Abschluss der Saison nebeneinander zu legen. Henry Druschel hat dies für einen Artikel auf Bexond The Box Score getan und ist zu interessanten Resultaten gekommen. Ich gebe sie hier nur in aller Kürze wieder, für tiefergehende Infos schaut einfach direkt in Druschels lesenswerten Artikel rein.

Druschel hat die Merkmale Walk Rate (BB%), Strikeout Rate (K%), weighted On-Base-Average (wOBA), On-Base Percentage (OBP) und Slugging (SLG) ausgewählt und für alle Spieler, die in jedem der Systeme berücksichtigt wurden, die Abweichungen zwischen den von jedem einzelnen System prognostizierten Werten für 2016 und den tatsächlichen Leistungen des Jahres 2016 ermittelt. Diese Werte hat er verglichen, um zu sehen, welche Vorhersage der Wirklichkeit im Durchschnitt am nächsten kam.

Die kompliziertesten Verfahren sind offensichtlich nicht immer die besten, denn der Realität am nächsten kam mit Steamer das einfachste der drei etablierten Systeme. PECOTA landete knapp dahinter, während ZiPS nicht nur durchweg schlechtere Ergebnisse als die beiden anderen lieferte sondern in vier von fünf Kategorien noch hinter Marcel dem Affen landete. OBP sagte Marcel sogar von allen System am besten voraus. Interessant finde ich auch die Erkenntnis, dass wenn man von allen vier Systemen den Durchschnitt bildet, dieser fast durchweg eine bessere Prognose darstellt als jedes System für sich.

Neben der Betrachtung der Liga insgesamt hat Druschel seine Analyse auch speziell für Rookies sowie für Elite-Spieler (defniert als Top-20 in OPS in mindestens einem der Vorhersagesyteme) durchgeführt. Das überraschendste Ergebnis war für mich, dass Marcel bei den Rookies die besten Ergebnisse in den Kategorien OBP und SLG erzielt. (Zur Erinnerung: Die Methode von Marcel besteht für Rookies darin, dass schlichtweg der Ligadurchschnitt der Vorjahre angenommen wird!) Auch für die Top-Spieler stellt Marcel in diesen beiden Kategorien und zusätzlich noch in wOBA die beste Prognose dar. Während Gesamtsieger Steamer bei der Prognose für junge Spieler deutliche Schwächen zeigt, bringt ZiPS hier deutlich bessere Resultate hervor als bei der Betrachtung der Top-Spieler und der Liga insgesamt.

Als Fazit lässt sich festhalten, dass die aufwändigen Prognosesysteme sich im Vergleich mit der nach Marcel dem Affen benannten simplen Metohode erstaunlich schwach schlagen. Dies gilt insbesondere für ZiPS. Natürlich sollte man eine solche Analyse nicht überbewerten. Zum einen ist der betrachtete Zeitraum recht kurz, selbst wenn man berücksichtigt, dass die Ergebnisse für 2016 eine ähnliche Analyse für 2015 weitgehend bestätigen. Zum anderen zeigt zum Beispiel die unterschiedliche Performance bei der Prognose für Rookies, dass keines der betrachteten Systeme durchweg besser oder schlechter ist als die anderen.

Posted in Grundwissen, MLB, Statistik Tagged with: , , , , ,

Juli 15th, 2016 by Silversurger

Zugegeben, die Überschrift ist etwas reißerisch – aber nicht gelogen und eine gute Veranschaulichung des Themas, über das ich heute ein paar Zeilen schreiben möchte. Wir haben gut die Hälfte der MLB-Saison hinter uns und für einige Teams ist der Playoff-Zug unübsersehbar abgefahren. Für alle anderen rückt jedoch jeden Tag ein bisschen mehr die Frage in den Mittelpunkt, wie die Chancen auf einen Einzug in die Postseason und auf ein Weiterkommen bis hin zum ultimativen Ziel, dem Gewinn der World Series, stehen.

Der einfachste und zugleich härteste Indikator dafür sind natürlich die aktuellen Tabellenstände , die ich regelmäßig im Grand Slam am Donnerstag diskutiere. Wer zum All-Star-Break in seiner Division vorne steht, der geht auch als Favorit in den zweiten Teil der Saison und alles andere als die Playoff-Teilnahme wird am Ende eine Enttäuschung sein. Das aktuelle Tabellenbild ist aber nur eine Momentaufnahme, in die neben der tatsächlichen Stärke der Teams immer auch andere Faktoren einfließen: Glück und Pech in engen Spielen, Verletzungen, die Zusammenstellung des Spielplans usw. Diese Faktoren treten in einer ganzen Saison genauso auf wie in einer halben. Aber da es sich um mehr oder weniger zufällig verteilte Ereignisse handelt, kann man nicht davon ausgehen, dass sie in der zweiten Saisonhälfte die gleichen Teams auf die gleiche Weise treffen wie in der ersten. Deswegen kann man nicht einfach den Halbzeitstand verdoppeln und das als Progonose für den Endstand verkaufen – besser gesagt man kann, aber es gibt statistische Verfahren, die zu weitaus besseren Vorhersagen führen.

Besonders hilfreich, übersichtlich und obendrein transparent erklärt finde ich die Playoff Odds von Fangraphs, die ich deswegen in diesem Artikel vorstellen möchte. Natürlich lohnt es sich auch, bei dem einen oder dem anderen Anbieter ähnlicher Berechnungen rein zu schauen und zu vergleichen.

Das Verfahren von Fangraphs besteht darin, den Ausgang jedes einzelnen verbleibenden Spiels der MLB-Saison mit einer Wahrscheinlichkeit zu versehen. Diese Wahrscheinlichkeit orientiert sich daran, über welche Spieler die jeweiligen Teams verfügen und welche Einsatzzeiten und zählbaren Leistungen für diese Spieler prognostiziert werden. Wer die Verwendung erwarteter Spielerleistungen zu schwammig findet, kann übrigens mit einem Klick den Modus auf „Season to Date“ umschalten, dann wird mit den im bisherigen Jahr tatsächlich erbrachten Spielerleistungen gerechnet. Anhand der Wahrscheinlichkeiten für die einzelnen Spielausgänge wird im nächsten Schritt der Rest der Saison einschließlich Playoffs simuliert und zwar 10.000-mal. Aus den 10.000 simulierten Saisonausgängen werden schlussendlich die Chancen der einzelnen Teams auf den Divisionssieg, einen Wild-Card-Platz usw. bis hin zum Erreichen und Gewinn der World Series abgeleitet. Wenn also Team X in den 10.000 Simulationen 5.000-mal in die Playoffs kommt und davon 300-mal World-Series-Sieger wird, dann hat es eine Playoff-Chance von 50% und eine World-Series-Chance von 3%.

Beim Blick auf die aktuellen Zahlen sieht Vieles so aus, wie man es anhand der aktuellen Tabellen erwarten würde: Fünf der sechs Teams, die in ihrer Division auf Platz eins stehen, weisen eine Wahrscheinlichkeit von deutlich über 50% auf, diesen Platz auch am Ende der Saison zu belegen. Nur in der AL East ergibt sich ein anderes Bild, hier gelten die Red Sox mit 48,5% als Favorit auf den Divisionssieg und sogar den aktuell nur drittplatzierten Blue Jays werden mit 28,4% höhere Chancen auf den Divisionssieg zugetraut als den momentan führenden Orioles (21,8%).

Generell ist in der AL mehr Spannung zu erwarten als in der NL; während in der NL allen derzeitigen Divisionsführern eine Playoff-Wahrscheinlichkeit (Divisionssieg oder Wild Card) von über 96% zugerechnet wird, sind in der AL die Indians mit 91,4% das einzige Team, das sich zu über 90% sicher fühlen darf, die Playoffs zu erreichen.

Favorit auf den Gewinn der World Series sind die Chicago Cubs, die in 17,4% der simulierten Restsaisons als Sieger hervorgegangen sind. Den San Francisco Giants traut das Modell, obwohl sie zur All-Star-Break den besten Record der MLB aufweisen, nur zu 9,1% den nächsten großen Wurf nach den Meisterschaften 2012 und 2014 zu. Damit liegen die Giants hinter den Cubs, den Nationals (12,6%), den Red Sox (12,1%) und den Indians (11,8%) nur auf Platz fünf der Favoritenliste. Die Kansas City Royals dürfen sich unterdessen kaum noch Hoffnung auf eine erfolgreiche Titelverteidigung machen: Nur 6,2% betragen derzeit ihre Chancen, überhaupt in die Playoffs einzuziehen, und nur 0,2% die Wahrscheinlichkeit auf den erneuten Gewinn der World Series.

Posted in MLB, Statistik Tagged with: , , , , , ,