상세 컨텐츠

본문 제목

5. 실제 결과와의 비교 - UPDATE

야구-칼럼/KBO 포스트시즌 진출 확률

by 야구고물상 2023. 6. 18. 22:41

본문

반응형

이 글은 PS Odds 계산 과정에서 5. 실제 결과와의 비교를 업데이트하여 쓰는 글입니다. 그 글과 비교하면서 읽으시면 이해가 더 쉬울 겁니다.

새로 시뮬레이션한 PS Odds와 실제 포스트시즌 진출 확률간의 관계.

 

홈/원정 경기 승률 조정을 업데이트했으니 그 결과가 실제와 잘 일치하는지도 확인해 봐야 합니다. 이는 이전과 했던 것과 동일합니다. 다만 2022 시즌까지 모든 결과가 있기 때문에 그래프를 업데이트했습니다. 2022 시즌까지의 결과가 위의 그래프입니다. 다시 한번 시뮬레이션 결과가 꽤 잘 맞는다는 걸 확인할 수 있습니다. 좀 더 구간을 나눠 보자면

1) 여전히 35~65% 사이로 시뮬레이션 된 팀들에 대해서는 과소평가가 있습니다. 이 부근의 팀들의 시뮬레이션된 포스트시즌 진출 확률은 47.8% 이지만, 실제 진출 확률은 49.8%였습니다.

2) 65~100% 사이로 시뮬레이션 된 팀들은 과대평가되는 결과가 있습니다. 이 팀들에 대해서는 시뮬레이션된 결과가 91.7% 이지만, 실제 진출 확률은 89.8%였습니다.

결과만 놓고 보자면 딱히 그 전보다 낫다고 할 수는 없는 결과입니다. 2022 시즌까지의 결과라 전에 썼던 글에서의 자료가 다르지만(2021시즌까지가 자료였습니다.) 자료를 2021 시즌으로 줄여 봐도 그 결과가 그전보다 딱히 낫다고 할 수는 없었습니다. (차례로 47.9%, 49.8%/91.4%, 89.7%)

하지만 그럼에도 저는 이 시뮬레이션 방법을 계속 고수할 방침입니다. 계산 과정에서의 억지스러움이 줄어들었기 때문에 이 방법이 더 옳은 방법이라고 생각하기 때문입니다. 그리고 그 정확도가 전과 큰 차이가 있는 것도 아니고요. 사실상 없다고 봐도 괜찮지 않을까 싶습니다. 그 경향성이나 여러 부분은 사실상 거의 같거든요.

 

Coin Flip 버전과의 비교

 

팬그래프에서 제공하는 Playoff odds는 프로젝션을 이용하여 시뮬레이션 합니다. 그러니, 제가 하는 시뮬레이션과는 기반 자체가 다릅니다. 저는 이전에 말했듯이 프로젝션을 사용하는 것보다는 좀 더 이론적인 포스트시즌 진출 확률을 계산하고 싶다고 했습니다. 하지만 제가 좀 더 이론적이라고만 했지, 완전히 이론적인 계산을 하고 싶었던 건 아닙니다. 그렇다면 피타고리안 승률 이용 자체를 배제하는 것 말고는 방법이 없거든요. 만약 피타고리안 승률마저 고려하지 않는다면, 팀별 상대 승률은 사실상 0.500일 겁니다. 동전 던지기나 다름없는 것이죠. 그래서 이런 Playoff odds를 Coin Flip Odds라고도 합니다. 팬그래프에서는 이런 Coin Flip 버전과 Season-to-Date 버전(이 버전의 경우 전 시즌 팀 성적을 참고하여 계산한 걸로 보입니다.), 그리고 현재 팬그래프에서 시뮬레이션 하는 총 세 가지 버전이 얼마나 실제 플레이오프 진출 확률을 잘 예측하는지 MAE(Mean Absolute Error, 평균 절대 오차)를 이용해 비교했습니다. 여기에서 MAE를 이용하는 건 당연한 것이 팬들의 체감상으로도, 그리고 실제적으로도 플레이오프 실제 진출 확률이 100%인 팀을 20%로 예상하나 0%인 팀을 80%로 예상하나 그 차이는 없을 것이기 때문입니다. 그 결과, Playoff Odds > Season-to-Date Odds > Coin Flip Odds 순으로 잘 예측하는 것으로 나타났습니다. 각각의 시즌 평균 MAE는 0.223, 0.245, 0.275로 팬그래프는 자사 Playoff Odds의 우수성을 입증(?) 했습니다.

그래서 저도 비슷한 걸 해 볼까 합니다. PS Odds 결과와 Coin Flip 버전의 MAE를 비교해 보는 겁니다.(Coin Flip 버전은 앞으로의 팀별 기대 승률을 0.500로 놓고 시뮬레이션한 결과를 의미합니다.) 아래는 월별과 시즌 전체 MAE의 평균을 현재 PS Odds 식과 Coin Flip 버전을 비교해 본 겁니다.

  PS Odds Coin Flip
3,4월 0.435 0.447
5월 0.333 0.361
6월 0.258 0.284
7월 0.211 0.226
8월 0.151 0.160
9월 이후 0.069 0.072
시즌 전체 0.234 0.249

어떻게 보면 당연한 결과로 생각합니다. PS Odds에서 사용하는 모델의 경우, 이전까지 진행한 경기 결과로 이후 경기의 결과를 예상할 때 평균으로의 회귀를 적용하다 보니 시즌 초반과 시즌 후반의 경우 시뮬레이션에 들어가는 팀별 기대승률이 Coin Flip 버전과 큰 차이를 가지지는 않습니다. (물론 완전히 똑같이 적용되진 않지만, 시즌 중반에 비하면 확실히 그 차이가 훨씬 줄어듭니다. 4편 평균으로의 회귀 적용을 참고해 보세요.) 하지만 시즌 중반에는 이미 얻어낸 결과가 이후의 결과를 꽤 높은 부분을 설명할 수 있기 때문에 Coin Flip 버전에 비해 MAE가 시즌 초/후에 비해 더 작은 걸 알 수 있습니다. 하지만 확실히 팬그래프의 시뮬레이션에 비하면 MAE 차이가 크지 않습니다. 특히 Season-to-Date 버전의 차이도 PS Odds와 Coin Flip 간의 차이보다도 큰데, 이는 시즌 전의 결과를 시뮬레이션에 적용하는가, 아닌가에 따른 차이라고 생각합니다. 그렇기에 PS Odds의 시즌 초 MAE가 상대적으로 클 수밖에 없습니다. 하지만 그래도 Coin Flip보다 PS Odds의 예측력이 더 좋다는 것은 확인할 수 있는 자료라고 생각합니다. 참고로 이전 시즌들의 성적을 통해 다음 시즌의 성적 간의 관계를 회귀식을 이용해 예측하는 걸 초기 승률 값으로 넣는 걸 고려해 보기도 했지만, 아직 실제로 이를 시뮬레이션 식에 넣기에는 아직 더 많은 고민이 필요해 보입니다. (세 시즌 성적, 두 시즌 성적의 합 같은 기록보다 전 시즌 성적만을 가지고 예측력을 조사했을 때가 가장 피어슨 $r$ 값이 높았는데, 그 값이 0.45 정도였습니다.)

 

MLB에 비해 빠르게 포스트시즌 진출팀 윤곽이 드러나는 KBO

 

하지만 여기에서 한 가지 의문점이 들었습니다. 팬그래프의 Coin Flip Odds의 경우 시전 평균이 0.275로 상당히 큰 편이었는데, KBO의 경우는 그 값이 0.249로 MLB에 비해 상대적으로 작은 값이었습니다.  특히나 시즌 중반부 이후(6월부터)는 KBO가 MLB보다 훨씬 더 좋은 예측력을 보입니다. (그 좋다는 팬그래프 Playoff odds의 9월 이후 평균 MAE는 0.121인 반면 KBO는 Coin Flip에서도 그 값이 0.072로 훨씬 작습니다.) 저는 상대적으로 많은 KBO의 포스트시즌 진출 팀 비율 때문이 아닐까 의심하고, 이 값을 줄였을 때 MAE 값이 어떻게 변하는지 조사해 봤습니다. 여기에서 대상은 각각 포스트시즌 진출을 마지막 시드로 한 팀들을 줄이는 것으로 비율을 조정했습니다. 팬그래프에서 조사한 2014~2020 시즌의 플레이오프 진출 팀들은 210 팀들 중 76 팀으로 36.2%인데, KBO 리그도 매년 마지막 시드로 포스트시즌을 진출한 팀을 탈락한 팀으로 가정하면 38.1%(74/194)로 비슷해지기 때문입니다. 아래 표는 그렇게 조건을 다르게 했을 때 MAE 값입니다.

  PS Odds Coin Flip
3,4월 0.408 0.420
5월 0.305 0.333
6월 0.231 0.259
7월 0.187 0.205
8월 0.127 0.138
9월 이후 0.059 0.063
시즌 전체 0.211 0.227

이 표에서 보듯이 오히려 MAE 값은 더 줄어들었다는 걸 알 수 있습니다. 시즌 초반은 당연한 것이, 시즌 시작 전 평균적으로 팀들의 포스트시즌 진출 확률이 49.5%로 조정되어 있던 것이 38.1%로 조정되기 때문에 MAE가 줄어들 수 밖에 없습니다. 하지만 시즌이 진행된 후의 그 MAE가 그전보다도 줄어들었다는 건 이 시즌 초반 포스트시즌 진출 팀의 조정이 이후 결과에도 영향을 주었다고 해석할 수 있습니다. 그리고 이를 통해 포스트시즌 진출 팀의 비율이 KBO와 MLB의 포스트시즌 진출 팀 예측에 영향을 주었다는 건 사실이 아니라는 것도 알 수 있습니다. 그렇다면 다른 걸 생각해 볼 수 있습니다. 과연 시즌 별 팀 간 승률의 표준 편차가 시즌 평균 MAE에 어떤 영향을 주는지 말입니다.

시즌별 팀 승률 표준 편차와 Coin Flip 포스트시즌 진출 확률의 MAE 분포. 분명 표준 편차가 커지면 MAE가 작아지는 경향은 있지만 2002시즌처럼 표준 편차가 크면서 MAE가 큰 시즌($\sigma\sim0.111, MAE\sim0.256$)도 분명 있음을 일 수 있습니다.

 

그래서 KBO 리그의 연도별 팀간 승률 표준 편차와 시즌 평균 MAE 간의 관계를 그려 보았습니다. 위가 그 그림인데, 표준 편차가 커질수록 MAE가 작아지는 경향을 보인다는 걸 알 수는 있지만 그게 절대적이진 않다는 걸 알 수 있습니다. 덧붙여 겨우 샘플이 22개이기 때문에 그 관계성을 알기도 쉽지 않고요. ($r \sim 0.587$, $p-value \sim 0.04$로 측정되었습니다.) 그래서 이를 좀 범위를 넓혀서, 일정한 표준편차 범위 내의 평균 MAE는 어떻게 변하는지를 조사했습니다. 예를 들어 표준 편차 0.05~0.06 사이의 평균 MAE, 표준편차 0.06~0.07 사이의 평균 MAE... 등을 말입니다. 아래는 그 결과입니다. 샘플은 각 표준편차 범위 내에서 샘플을 두 개 이상 모을 수 있을 경우로 한정했습니다. (그 때문에 2002 시즌이 조사에서 제외 됐습니다.)

시즌 팀 승률 표준편차 0.01 간격으로 평균을 내 본 Coin Flip 포스트시즌 진출 확률 MAE. 2개 이상의 샘플이 있는 경우를 대상으로 조사했습니다. 검은 점선은 2001~2022 평균 KBO 팀 승률 표준편차를, 파란 점선은 MLB 팀 승률 표준편차를 의미합니다. (전체 194개 팀의 표준 편차가 아니라, 2001~2022 시즌 표준 편차'들'의 평균입니다.) 이 결과는 KBO의 포스트시즌 진출에 대한 값이기에 MLB 포스트시즌 허들에 비해 허들이 낮은 편이고, 그만큼 MAE가 높음을 감안한다면 확실히 KBO의 MAE는 MLB에 비해 낮은 편입니다. 다른 말로, KBO는 MLB에 비해 시즌이 진행될 수록 뻔해진다는 이야기입니다.

그래프에서 확인할 수 있듯이, 어느 정도 선형의 관계를 보인다는 걸 약하게나마 알 수는 있습니다. 물론 샘플의 수가 너무 적기 때문에 믿거나 말거나이지만, 경향성 정도는 파악할 수 있다고 판단했습니다. 그래프의 검은 점선은 KBO의 시즌 평균 팀간 승률 표준편차를(2001~2022 시즌 모든 팀들의 표준 편차가 아닌 시즌들의 표준'편차'들), 그리고 파란 점선은 MLB의 팀 간 승률 표준편차 평균을 뜻합니다. 그리고 위 결과를 커브 피팅한 결과에 MLB 평균 표준편차 값을 대입해 본다면 Coin Flip 평균 MAE는 0.259가 나옵니다. 이는 여전히 MLB의 실제 결과인 0.275보다 낮습니다. 그리고 한 가지 더, 위 결과는 사실상 50%가 포스트시즌에 진출하는 KBO의 넓은 포스트시즌 진출팀 범위가 만들어 낸 MAE 예측값이라 실제 MLB 수준의 포스트시즌 진출팀 비율을 고려해 보면 이 값은 훨씬 작아질 것이 분명합니다. 더 넓게 들어가서 포스트시즌 진출 팀을 줄여 봤을 때는 (22년간 74팀) 이 영향을 '표준편차가 커지면 MAE가 작아진다'는 관계성을 겨우 찾을 수 있을 정도로 작아질 정도였습니다. 하지만 이 경우 실제 포스트시즌 진출 경쟁과는 다른 결과이기 때문에 그 관계성 조사를 이 글에 쓰지는 않겠습니다. 이런 여러 가지 경우를 따져 봐서 판단하건대,  KBO는 MLB에 비해 훨씬 더 포스트시즌 진출 팀의 윤곽이 더 빨리 드러나는 편임을 부정할 수 없다고 생각합니다.

왜 이런 결과가 나오는 걸까요? 팀 수가 영향이 있는지 조사해 보기 위해 2001~2012 시즌과 2015~2022 시즌 결과들을 나눠서 조사해 봤는데(각각 KBO 가입팀이 8팀, 10팀인 시즌들입니다.) 그 사이의 변화는 딱히 없어 보였습니다. (2001~2012 평균 $\sigma \sim 0.081$, $MAE \sim 0.248$/ 2015~2022 평균 $\sigma \sim 0.080$, $MAE \sim 0.249$) 그리고 팀 수의 차이도 두 팀 밖에 없다 보니 그 차이점을 명확히 알기도 힘들었습니다. 제 추측은 아마 MLB의 리그 분할과 디비전 같은 상대적으로 복잡한 리그 구도가 포스트시즌 진출 팀을 구별할 때 복잡성을 증대시키는 게 아닐까 하는 생각입니다. 상대적으로 낮은 편차도 가능성은 있겠지만, 그 차이가 KBO의 그것과 큰 차이까지는 아니기 때문에 영향이 있더라도 아주 제한적으로나마 있을 가능성이 있습니다. 또한 KBO의 팀 수가 MLB에 비해 훨씬 적기 때문에 표준 편차 계산의 모수가 훨씬 더 적어지고 (30-1과 10-1은 같은 1을 빼는 것이더라도 그 변화량의 체감은 10에서 체감이 훨씬 더 큰 법입니다.) 표준 편차가 MAE에 주는 영향이 절대적이지 않다는 점을 보면 더 그럴 겁니다.

반응형

관련글 더보기

댓글 영역