상세 컨텐츠

본문 제목

3. 홈/원정 경기 승률 조정

야구-칼럼/KBO 포스트시즌 진출 확률

by 야구고물상 2022. 2. 13. 00:06

본문

반응형

어떤 리그든 홈경기와 원정 경기는 같은 비율로 경기를 진행하려고 합니다. 가끔 아닌 경우가 있긴 한데 대부분이 그렇죠. 하지만 시즌은 (나름) 깁니다. 6개월가량을 진행하면서 시즌 진행 상황에 따라 홈경기를 더 많이 한 팀들도 있고, 원정 경기를 더 많이 한 팀들도 있죠. 홈경기 어드밴티지는 야구뿐만 아니라 다른 많은 종목에서도 관찰되는 현상이기도 합니다. 이 때문에 시즌 진행 중에는 현재 측정되는 팀의 피타고리안 기대 승률로 팀의 수준을 평가하게 된다면 그 팀의 퍼포먼스 수준을 과대/과소평가되게 됩니다. 그렇기 때문에 홈/원정 경기 승률 조정이 필요하게 됩니다.

일반적으로 홈경기에서는 약 3푼~4푼 정도의 승률 이득이 있다고 알려져 있습니다. 그러니까 A라는 팀의 승률이 0.550이 기대된다면 홈에서는 0.580~0.590, 원정에서는 0.510~0.520 정도의 승률이 기대된다는 겁니다. 그렇다면 그냥 더하고, 빼기를 통해서 계산하는 쉬운 방법이 있을 겁니다. 이렇게 계산을 하는 건 분명 간편하고, 일반적으로 해가 될 이유도 없습니다. 하지만 살짝 마음에 안 드는 게 있습니다. 만약 승률이 너무 낮거나 너무 높은 경우 위의 식을 그대로 적용할 수 없다는 겁니다. 극단적으로 생각하면 승률이 1.000 이면 홈이든 원정이든 1.000을 기록할 거고, 승률이 0.000이면 홈이든 원정이든 0.000을 기록할 거니까요. 그래서 저는 다른 방식으로 홈/원정 경기 승률을 조정하고 싶었습니다.

제약 조건(Constraints)과 모델 적용

저의 목표는 승률이 1.000인 팀은 홈 승률도 1.000로, 승률이 0.000인 팀은 홈 승률도 0.000이지만 승률이 0.000과 1.000이 아닌 사이의 값이면 홈 승률이 원래 승률보다 높은 승률 식을 찾고 싶은 겁니다. 그래서 생각해 낸 것이 지수 함수 모델입니다. 어떤 함수에 넣어도 $0^{c} = 0$이고 $1^{c}=1$입니다. 그 외에는 여러 변주가 생기겠지만 적어도 두 값은 지키게 되겠죠. 저는 그래서 지수 함수 모델을 사용하기로 했습니다. 결과는 아래와 같습니다.

Figure 1. 1982시즌~2020시즌 사이 팀 승률과 홈 승률간의 상관관계, 그리고 지수 함수 모델의 적용. 잠실 구장의 특수성으로 인해 1985~2020시즌 사이의 두산(OB), LG(MBC)의 결과는 조사에서 제외했습니다. 지수가 0.914일 때 $r^{2} \sim 0.796$으로 가장 좋은 피팅이 가능했습니다.

위 사진에서 보이듯이 0.914의 지수를 사용하여 홈경기 승률을 조정하기로 하였습니다. 여기에서 지수가 1보다 작은 것은 승률도 1.000보다 작거나 같기 때문입니다. 제가 지수 함수 모델을 사용하기 때문에 만약 승률이 1.000이면 조정해도 승률은 1.000, 만약 승률이 0.000이라면 조정해도 승률은 0.000입니다.

문제점, 그리고 우회하기

사실 위 식에는 한 가지 문제가 있습니다. 예를 들어서 설명해 보겠습니다. 한 팀이 0.600을 기록한다면 다른 팀은 0.400을 기록할 겁니다. 그렇다면 각각의 팀이 홈에서 기록할 승률은 위 식을 적용하면 0.627, 0.433입니다. 그렇다면 원정 경기에서는? $2W_{Tm}-W_{H}$일 테니 0.573, 0.367이 될 겁니다. 그런데 좀 이상합니다. 종합해서 각각의 상대 승률은 0.600, 0.400이어야 할 두 팀인데 각각의 구장에서 거둘 승률 합이 1이 아니라면 잘못된 계산이겠죠. 그렇다면 이를 어떻게 조정할 수 있을지 고심해 봐야 합니다.

저는 이 문제를 제가 생각할 수 있는 가장 간단한 방법으로 우회하기로 했습니다. 0.500을 중심으로 0.500을 넘으면 원래 사용하기로 했던 $W_{H}=W_{Tm}^{0.914}$ 식을 이용하고 0.500이 안 되면 위 식의 역을 생각한다는 식으로 말이죠. 앞의 예시에서 0.600 팀은 그대로 홈경기에서 승률이 0.627이고 원정에서는 0.573입니다. 그렇다면 B 팀의 홈/원정 경기 승률은 0.427, 0.373이 되게 하는 겁니다. 이를 수식으로 계산하면 아래와 같습니다.

$W_{Tm}>=0.5: W_{H} = W_{Tm}^{0.914}$

$W_{Tm}<0.5: W_{H} = 1-2*(1-W_{Tm})+(1-W_{Tm})^{0.914}=2*W_{Tm}+(1-W_{Tm})^{0.914}-1$

$W_{A} = 2*W_{Tm}-W_{H}$

이를 원래 식과 비교해 보면 승률이 약 0.156 정도일 때 0.015 정도의 차이가 나는데 이 값은 원래 식인 $W_{H}=W_{Tm}^{0.914}$의 약 8% 정도 차이가 나는 값입니다.(Wolfram 신에게 감사를!) 생각보다 큰 차이입니다만, 저에게도 변명이 있습니다. 먼저 이 정도 승률은 보기 쉬운 게 아닙니다. KBO 리그 역사상 가장 낮은 승률이 1982 시즌 삼미 슈퍼스타즈의 0.185였고 이 기록은 앞으로도 사실상 안 깨질 기록으로 평가받을 정도의 기록이죠. 그리고 두 식 간의 차이는 점점 줄어들다가 0.500부터는 원래 식으로 계산할 수 있게 됩니다. 그리고 지수 함수 모델의 약점이 있기 때문이기도 합니다. 지수 함수 식은 승률이 0.500일 때 원래 승률과 홈 승률과의 괴리가 가장 크지 않은 식이기 때문입니다. 어떤 면에서 보면 제가 위에서 말한 문제점에 대한 이야기이기도 합니다. 제가 사용한 0.914를 지수로 사용하는 경우 약 0.351 정도에서 0.033 정도로 홈 승률과 팀 승률이 가장 큰 차이를 보여주며, 이를 일반적으로 보자면 지수 C가 1이 아닐 경우 $\exp(\frac {\ln {C}}{1-C})$를 가지게 됩니다. 홈과 원정 팀의 승률 합이 1이 나오기 위해서는 사실 홈/원정 보정에서 홈 승률과 팀 전체 승률의 차이가 0.5를 중심으로 대칭적이어야 가능합니다. 하지만 지수 함수 모델로는 그것을 정확히 적용하기는 쉽지 않죠. 그렇기 때문에 원래 식보다는 새 식으로 보정하는 게 더 맞다는 게 제 생각입니다.

잠실, 잠실, 잠실!

KBO 리그에는 특이한 사실이 하나 있죠. 바로 잠실을 두 팀이 다 홈으로 사용한다는 겁니다. 두산과 LG는 잠실야구장을 홈으로 사용하며, 상대 경기가 있을 때는 8 경기는 두산 홈, 8 경기는 LG 홈으로 나눠서 경기를 합니다. 그렇다면 과연 잠실에서도 홈/원정 승률 조정이 필요할지에 대한 물음이 있을 수 있습니다. 그래서 간단한 조사를 했습니다.

시즌 홈 승률
2016 0.438 (7승 9패)
2017 0.200 (3승 1무 12패)
2018 0.438 (7승 9패)
2019 0.625 (10승 6패)
2020 0.400 (6승 1무 9패)
2016-2020 종합 0.423 (33승 2무 45패)

위 표는 2016~2020 시즌 간 상대 홈경기에서의 승률입니다. 각자 상대 승률을 합친 결과들이기 때문에 두 팀의 총승률은 결국 0.500일 겁니다. 표에서 보시듯이 홈팀의 승률이 원정팀 승률보다 낮았음을 알 수 있습니다. 그렇다면 다른 시즌들을 다 합하면 어떻게 될까요? 1982~2020 시즌까지 기록을 살펴봤을 때 홈 팀은 약 0.005 정도 승률 이득이 있었는데, 지난 5년간의 데이터 등 여러 가지를 따져 봤을 때 홈 승률과 상대 승률 간 어떤 특징을 찾기는 힘들다는 생각입니다. 아주 미세한 승률 이득이 있을 수는 있어 보이는데 해마다 이 효과가 너무 다르게 나타나고, 리그 성향 등에 의해 차이가 날 수 있기에 사실상 중립으로 봐도 무방할 것이라 생각합니다. 그렇기에 잠실 두 팀이 경기를 하는 경우는 홈/원정 승률 조정을 하지 않기로 했습니다.

다음 글은 4. 평균으로의 회귀 적용 (Regression toward the mean)입니다.

KBO PS Odds 바로가기

반응형

관련글 더보기

댓글 영역