모든 기록은 STATIZ에서 얻었습니다.


어제 KBO 올스타전이 열렸습니다.



KBO리그 전반기가 끝나고 올스타 주간입니다. 전반기가 끝났으니 전반기 결산을 한 번 해 봐야겠죠. 보통 결산은 팀의 성적을 중심으로 팀이 좋았던 점과 나빴던 점을 제시하면서 글을 진행할 겁니다. 제가 하고 싶은 건 좀 다릅니다. 역시나, 숫자를 보여주는 게 전 좋아요. 그래서 준비했습니다. 조금 이른 감이 있지만, 원래 섣부른 판단이 재밌는 법입니다.(... 흑역사 창조!!) 전반기가 끝난 시점에서 KBO 각 팀들이 포스트시즌에 올라갈 확률을 계산해 봅시다.

 

우리의 목표?

 

다시 한 번 되새겨봅시다. 우리가 원하는 것은 KBO 각 팀들이 포스트시즌에 올라갈 확률을 계산하고 결과를 얻는 것입니다. 우리 모두가 알듯이 KBO리그는 한 시즌에 네 번 시리즈를 진행합니다. 4위와 5위는 와일드카드를, 3위는 준플레이오프를, 2위는 플레이오프, 그리고 1위는 한국시리즈에 직행하게 되죠. 제 목표는 현 시점에서 예상되는 각각 시리즈 직행 확률을 계산해 보는 겁니다. 계산 결과는 각각 1) 포스트시즌 진출 확률, 2) 준플레이오프 직행 이상 확률, 3) 플레이오프 직행 이상 확률, 4) 한국시리즈 직행 확률로 나눠 보여드리기로 계획했습니다.

 

계산 방법

 

사실 이 글은 제가 예전에 썼던 글과 꽤 비슷합니다. 다른 점이라면 이 글을 썼을 때는 4위 예상 확률이라는 좀 더 좁은 목표가 있었을 뿐이죠. 하지만 그 때 쓴 은 계산에서 좀 실수가 있었습니다. 각 확률을 더한 값이 1이 안 됐었죠. 그래서 이번에는 방법을 조금 바꿨습니다. 아주 조금요...

 

Log5 시스템

 

우선 Log5 확률을 계산합니다. 리그 평균승률은 역시 0.500입니다. 전에는 A라는 팀이 0.600 승률을 기록했으면 0.500인 팀을 상대로 한 것으로 계산하였습니다. 하지만, 리그에 0.600인 팀이 있으면 필연적으로 나머지 상대팀 승률 평균은 0.500이 안 됩니다. 그러니, Log5로 계산되는 Talent0.5할이 아닌 나머지 팀들의 승률 평균에 해당하는 팀과 대결한 경우를 가정하고 계산하는 것이 좀 더 옳은 방향으로 보입니다. 그러니 팀의 Talent는 나머지 팀 승률을 통해 역으로 계산하기로 합시다.

 

예를 들어서 보여드리겠습니다. 승률이 0.500인 팀을 상대로 했을 때의 Log5 계산은 이 글을 참조해 주세요. 4팀이 한 리그를 이룬다고 가정합시다. A라는 팀은 0.600을 기록한다고 가정한다면, 나머지 C,D,E 팀 평균 승률은 모든 팀이 같은 경기를 소화하고 무승부가 없다고 가정할 때 1.4/3=0.467이 됩니다. 그렇다면 A팀에서 계산되는 상대팀 Talent0.5*0.467/(1-0.467)=0.438이 됩니다. 그러면 A팀의 Talent0.438*0.6/0.4=0.656이 되는 겁니다. 만약 팀들이 늘어난다면, 0.600인 팀이 가지는 Talent는 더 높아지게 되고, 상대팀은 거의 0.500에 가까워지게 되겠죠.


승률 보정과 기대승률 계산

 

이제 보정이 필요합니다. 전반기에 각 팀들이 상대로 경기 한 횟수는 일률적이지 않습니다. 예를 들어 두산은 NC12경기를 했지만 LG와는 5경기만 했습니다. 진행한 경기가 균일하지 않았다는 겁니다. 그러니 계산이 조금 달라지겠죠. 그래서 상대팀 승률을 각 팀별 경기수*각 팀별 승률을 더한 값에 진행경기로 나눠서 계산하기로 했습니다. 이 때, 앞으로 각 팀들이 기록할 승률은 피타고리안 승률을 따를 것이라고 가정하여 피타고리안 승률을 이용하기로 하였습니다.[각주:1] 이제 각 팀의 Talent 값을 계산할 수 있습니다.

 

Talent를 계산했으니 팀별 상대승률을 계산할 수 있게 되겠죠. 간단히 A팀의 Talenta, B팀의 그것을 b로 한다면 Pa=a/(a+b)로 계산할 수 있습니다. 그러면 이 값을 토대로 남은 경기에서 계산되는 기대승수를 계산할 수 있습니다. 남은 경기에서 기대되는 승률은 다음과 같이 계산되었습니다.

 

승률의 분포

 

기대승률을 계산하긴 했지만 아직 결과를 얻기는 이릅니다. 왜냐하면 앞으로 기대되는 승률은 일정한 분포를 따를 것이기 때문입니다. 그러니 기대승률을 이용해 기대승률의 분포를 계산할 필요성이 생기게 되죠.

 

분포는 간단하게 계산할 수 있습니다. 만약 기대승률이 0.600이고 앞으로 남은 경기가 60경기라면, 30경기를 이길 확률은



이 되겠죠. 40경기를 이길 확률은 



이 되고요. 이렇게 각 팀마다 승률의 분포를 계산할 수 있습니다. 아래 그래프는 그렇게 계산해서 얻은 승률의 분포를 보여주는 그래프입니다.


승률 분포


 

순위 계산

 

이제 단순 노동의 시간입니다. 이제 우리는 앞으로 기대되는 승률의 분포를 얻어냈기 때문에 기대순위를 계산할 수 있겠죠. 여기에서 필요한 건 두 가지입니다. 다른 팀들이 해당 승률을 넘기지 못할 확률과 넘길 확률이 필요한 겁니다. 예를 들자면 아래의 표와 같은 것이 필요합니다.


각 해당승률당 각 팀들이 해당승률을 넘을 수 없는 확률 관련 표


 

이제 모든 순위에 대하여 확률을 계산합니다. 1위를 할 확률은 모든 팀이 해당승률보다 낮은 경우를 의미합니다. 10위를 할 확률은 모든 팀들이 해당 승률보다 높은 경우를 의미합니다. 1위와 10위의 확률을 계산할 때는 경우의 수가 1이기 때문에 해당승률을 기록할 확률과 각 팀들이 기록할 해당 확률을 다 곱한 후 더하면 전체 확률을 구할 수 있습니다. 2위를 할 경우의 수는 9가지 경우의 수가 생깁니다. 3위를 할 경우의 수는 36가지가, 4위는 84가지, 5위는 126가지가 필요합니다. 이렇게 2~9위를 할 경우는 각 순위를 할 경우에 해당하는 확률을 다 더함으로써 해당 순위를 할 확률을 최종적으로 구할 수 있습니다.

 

계산결과


계산을 했으니 결과가 나오겠죠. 이번에는 제대로 계산을 했는지 각 팀들이 1위부터 10위까지 할 확률을 더하면 1이 나오고 각 순위마다 각 팀들의 확률 합 또한 1이 나왔습니다. 다행입니다.,,,

 

포스트시즌 진출 확률

 

먼저 아래 표는 각 팀들이 포스트시즌에 진출할 확률입니다.



 

준플레이오프 직행 이상 확률

 

이번 표는 각 팀들이 준플레이오프 직행 이상을 할 확률입니다. , 3위거나 3위보다 더 좋은 순위를 기록할 확률을 뜻합니다.



 

플레이오프 직행 이상 확률

 

이번 표는 각 팀들이 플레이오프 직행 이상을 할 확률입니다. , 2위거나 2위보다 더 좋은 순위를 기록할 확률을 뜻합니다.



 

한국시리즈 직행 확률

 

이번 표는 각 팀들이 한국시리즈에 직행할 확률입니다.



 

역시 좋은 전반기를 보낸 두산과 NC가 눈에 띄는 결과입니다. 넥센 또한 굉장히 눈에 띄네요.

 

결론

 

결과적으로, 역시나 순위가 높은 팀들일수록 포스트시즌에 올라갈 확률은 주로 높습니다. KIA 같은 경우는 좋은 득실차를 기록하고 있기 때문에 현재 순위보다 좋은 결과가 기대됩니다. 물론 그렇게 되지 않을 가능성도 무시할 수는 없습니다. 덧붙여 위 결과는 숫자적 예측이기 때문에 절대적이지 않다는 것 또한 다 아실 것이라 믿습니다. 또한 계산할 때 몇 가지 가정이 부정확할 수 있기 때문에 플레이오프에 갈 확률들은 명확한 값으로 이해하기보다는 어떤 특정한 범위를 중심으로 이해하는 것이 훨씬 더 좋은 해석법이라고 할 수 있습니다.

 

이제 대략 60% 정도 일정이 소화했습니다. 그 말인즉슨, 아직도 많은 경기가 남아있다는 뜻이죠. 10팀 모두 남은 일정 부상 없이 열심히 소화해 최선의 결과를 얻어낼 수 있으면 좋겠습니다.

 

 

  1. c=(RS/G+RA/G)^0.287, W%=RS^C/(RS^c+RA^c) [본문으로]
Posted by 야구고물상

댓글을 달아 주세요




강정호는 현재 KBO의 새로운 신화를 쓰고 있습니다.



이번 시즌 KBO를 보는 팬들에게 가장 핫한 이슈 중 하나(?)라면 강정호의 해외진출 건이라고 할 수 있겠습니다. 이 건은 스탯으로 다루기가 굉장히 재밌으면서도 다루기 위험한 이슈인데, 먼저 KBO 타자가 MLB로 직행한 것이 없다는 점, 그리고 만약에 NPB로 진출하고 MLB로 단계적으로 진출했다고 생각할 경우 NPB로 진출한 KBO 타자들이 매우 적다는 것을 들 수 있습니다. 저는 위에 쓴 KBO->NPB->MLB로 단계적으로 스탯변화폭을 사용하여 강정호의 해외리그에서 기록할 것으로 보이는 스탯의 예상치를 계산하기로 하겠습니다. (완전 도박이자 잘못된 접근방법일 수도 있습니다.) 사실 AA->AAA->MLBAA->MLB의 차이를 비교하여 KBO->MLB 보정도 같이 하고 싶었지만 선수들이 굉장히 많을 것이기 때문에 저 혼자서 하는 것은 불가라고 판단(...) 저의 원대한 꿈은 작아지고 말았습니다.(....) 지금까지는 사족이었고 여튼 불완전하지만 KBO->NPB 변화폭과 NPB->MLB 변화폭을 이용하여 NPB 예상스탯과 MLB 예상스탯을 계산하는 방법을 사용하기로 하였습니다.

 

1. 예상의 방법

 

KBO->NPB

 

1. KBO에서 NPB로 진출한 타자 다섯 명(이승엽, 이병규, 김태균, 이범호, 이대호)들의 스탯 변화량을 이용한다

*이 때 이종범이 명단에서 빠진 이유는 스탯의 기준으로 본 Baseball-Reference에서 1999시즌 이전의 리그 기록을 찾을 수 없었기 때문입니다. 또한 1998시즌 NPB로 진출하였기 때문에 시대적으로 약간 다를 수 있다고 생각해서 명단에서 빼도 괜찮다는 생각이 들었기 때문입니다.

2. KBO에서의 마지막 시즌, KBO에서의 마지막 두 시즌, KBO에서의 마지막 세 시즌의 기록과 NB에서의 첫 시즌 기록을 이용하여 기록의 변화량을 계산한다. 이 때 기록은 모두 리그 기록에 대한 조정기록에 대하여 변화량을 계산하여 기록하기로 한다. 예를 들자면, 선수의 K%20%이고 리그의 K%16%이면 1.25로 변환한 후 변화량을 계산하는 것이다. 이 때 선수들이 NPB에서 기록한 타석수의 전체에 대하여 그 선수가 기록한 타석수를 변화량이 기록되는 확률(P)로 계산하여 평균적인 변화량을 계산한다.



위의 과정에서 표준편차도 같이 계산한다.



3. 위에서 말한 마지막 1, 2. 3년에 대한 기록들과 변화된 양의 표를 각각 BABIP+, K%+, BB%+, HR%+에 대하여 계산한 후 각각에 대하여 무엇이 가장 실제 NPB 기록과 차이가 적은지를 계산하여 마지막 몇 년의 기록을 이용할지 결정한다. 계산 결과 KBO에서의 마지막 2년의 기록을 이용하기로 한다.

4. 선수의 KBO 기록과 변화율, 그리고 변화율의 표준편차를 이용하여 상중하의 결과를 PLNL에 대하여 계산한다.

5. 마지막으로 주관을 적용하여 예상성적을 대략적으로 계산한다. 또한 이 때 대략적인 wRC+WAR을 계산한다.

 *KBO의 파크팩터에 대해서는 2007~2011시즌 기록으로 계산한 값을 이용하였습니다. (이 때 목동의 홈런팩터가 1보다 작게 나오는데, 개인적으로는 지금의 목동의 홈런 팩터는 박병호 등에 의해 과대평가(?) 되었다고 생각하기 때문에 그대로 사용하기로 하였습니다.) 또한 NPB 팩터는 홈런 팩터만 사용하였고, A에서 찾았다. 이 때 홈런 팩터라고 되어 있는 값에 (1+HRPF)/2로 계산한다.

 

NPB->MLB

 

1. 다음의 선수들에 대하여 변화량을 계산한다.

스즈키 이치로, 신조 츠요시, 마쓰이 히데키, 마쓰이 가즈오, 이구치 타다히토, 조지마 켄지, 이와무라 아키노리, 후쿠도메 고스케, 니시오카 츠요시, 아오키 노리치키, 가와사키 무네노리

이외에도 몇 명의 선수가 MLB로 진출하긴 했지만(대표적으로 다구치 소) MLB에서의 첫 시즌에서 100타석 이하로 나왔기 때문에 계산에서 제외하기로 한다.

2. NPB에서의 마지막 시즌과 MLB에서의 첫 번째 시즌에 대하여 성적의 변화량과 표준편차에 대하여 계산하고 그 이외의 방법은 위와 동일하게 계산한다.

3. 마지막으로 강정호의 MLB 예상 기록을 NPB에서의 성적에 대하여 MLB 성적 변화량을 이용하여 계산한다.

 

2. 계산

 

KBO->NPB

 

아래는 변화량 표입니다.


크게 보기


이 때 다른 기록들은 표준편차를 1시그마만 이용하여 HIGHLOW를 계산하였지만 BABIP의 경우 표준편차가 굉장히 작기 때문에 5시그마로 계산하기로 하였습니다.


크게 보기

 

이 표를 이용하여 강정호를 PL, CL에 대하여 LOW, MEAN, HIGH로 계산한 표는 아래와 같습니다. 기록 기준은 2014시즌 기준입니다.


크게 보기 


WAR을 계산할 때 수비에 대해서는 HIGH에서의 타석일 때 모든 이닝을 다 나온다고 가정하여 비율로 계산하였고 UZR0을 기록하는 것으로 가정하여 계산하였습니다.

다음은 제 주관을 이용하여 강정호가 어느 정도 기록을 할 수 있을지에 대하여 계산한 표입니다. 제 생각에 이대호에서 볼 수 있듯이 강정호가 MEAN의 기록보다는 높게 나올 수 있다고 생각하기 때문에 조금 높은 기준에서 주로 잡아서 계산하였습니다.


크게 보기

 

NPB->MLB

 

아래는 변화량 표입니다.


크게 보기


이 때 다른 기록들은 표준편차를 1시그마만 이용하여 HIGHLOW를 계산하였지만 위에서와 같이 BABIP의 경우 표준편차가 굉장히 작기 때문에 5시그마로 계산하기로 하였습니다.


크게 보기


 이 표를 이용하여 강정호를 NL, AL에 대하여 LOW, MEAN, HIGH로 계산한 표는 아래와 같습니다.

 

크게 보기


수비에 대하여도 위와 같이 계산하였습니다. 기록은 2014시즌 기준입니다.

다음은 제 주관을 이용하여 강정호가 어느 정도 기록을 할 수 있을지에 대하여 계산한 표입니다. MLB에서 생각보다 괜찮은 기록을 할 수 있는 생각은 드는데, 그렇다고 그리 크게 차이가 나기는 힘들다고 생각하므로 거의 MEAN값과 비슷한 정도로 예상했습니다.


크게 보기


3. 결론

 

결론적으로, NPB로 진출한다면 타율은 생각보다 낮을지 몰라도 굉장한 파워를 가진 유격수가 가능하다는 생각이고(wRC+130정도는 적어도 하지 않을까 생각) WAR5가 넘는 정도의 활약이 가능하다는 생각입니다. 그리고 MLB로 간다면, 준수한 파워의 공갈포(...) 유격수, 최대 삼진 많은 헨리 라미레즈급의 공격력을 가진 괜찮은 유격수가 될 수 있다는 생각입니다. (대략적으로 WAR 2~4정도) , 물론 MLB의 경우 강정호가 MLB의 풀시즌을 뛸 만한 좋은 체력을 가지고 있다면 말이죠. 기록을 통해 보면, 모두가 그렇게 생각하겠지만 삼진비율이 가장 큰 문제가 될 수 있다는 생각입니다. 현재도 리그에서 평균보다 1.2배정도의 삼진을 당하는 선수이므로 NPBMLB로 간다면 아마 엄청나게 많은 삼진을 잡힐 것이라는 것이 그 이유입니다. 그리고 MLBNPB의 경우 BABIPKBO에 비해 낮기 때문에(KBOBABIP...) 그 때문에 생각보다 낮은 타율을 기록할 가능성도 있다고 생각합니다. 덧붙여, MLB 예상 성적은 이번 시즌의 이언 데스몬드(워싱턴 내셔널스)의 슬래쉬라인과 굉장히 비슷합니다.


크게 보기


만약 삼진 비율을 줄일 수 있다면, 2012~2013시즌의 데스몬드처럼 SS급의 유격수가 될 수도 있습니다. (툴로가 없다면 말이죠.)

 

4. 후기

 

이번 시즌의 강정호는 정말 어메이징 합니다. 아마 이보다 더 대단할 수는 없을 겁니다. (더 대단하면 강정호가 아니라 베이브 루스죠...아 유격수니까 호너스 와그너??) 그런 면에서 위의 예상성적은 그에 비해 살짝 부족해 보일 수 있습니다. 그리고 그 이면에는 굉장히 높은 삼진율이 자리하고 있습니다. 그래서 생각보다 낮은 타율을 마크할 가능성이 있다고 생각합니다. , 그래도 상위리그에서 굉장히 준수한 공격력을 보여줄 수 있는 선수라는 것이 결론입니다. (NPB에서 wRC+ 140 이상, MLB에서도 유격수로 wRC+ 100정도 하는 유격수 찾기는 꽤 어렵습니다.) 하지만, 위에서 이야기 했듯이 KBO에서 MLB로 직행한 야수가 없는 점, 그 외에도 샘플이 적다는 점 등이 이 예상의 한계라는 것을 생각한다면 강정호가 위의 기록보다 좋은 성적을 마크할 수도 있다고 생각합니다. (그렇다고 위에서 계산된 HIGH만큼은 아닐 겁니다.) 


기록은 KBO 홈페이지, Baseball-reference, Fangraphs에서 참고하였습니다.

KBO 파크팩터는 야구도락 블로그에서, NPB WAR 계산에 대한 정보는 네이버 블로그에서, NPB 홈런팩터는 이 사이트에서 얻었습니다.

부분적으로 KBREPORT.COM에서 아이디어를 얻었습니다.

Posted by 야구고물상

댓글을 달아 주세요

  1. 토아일당 2015.02.24 10:04 신고  댓글주소  수정/삭제  댓글쓰기

    http://baseball-in-play.com/89
    전에 썼던 글인데, 리그를 옮긴 선수의 예상성적 예측과 관련된 내용입니다.
    혹시 흥미있어하실지도 모르겠다 싶어서... ^^

    • 야구고물상 2015.02.24 22:49 신고  댓글주소  수정/삭제

      감사합니다. 역시 Projection의 세계는 무궁무진합니다.ㅎㅎ
      강정호 예상은 한 번 더 해 보려고요. 이번에는 나이에 대한 것들도 좀 고려해 볼 생각입니다..

  2. 친절한민수씨 2015.02.26 12:32 신고  댓글주소  수정/삭제  댓글쓰기

    우와 저도 세이버매트릭스 공부해보고 싶은데..대단하네요.

    강정호 선수 대단하죠.
    작년 기록만 보면 56홈런 칠때 이승엽과 둘중 택하라면 강정호를 대부분택할거라 봅니다.

    그런데 작년이 워낙 극 타고투저 시즌이라 성적자체가 의문이 가기도 해요
    원래 강정호는 2할후반에서 3할언저리에 20홈런정도 (유격수로 대단한 기록)치는 선수였는데...
    작년이 과연 기량이 늘은것인지 , 타고투저의 작품인지가 의문이에요.

    과연 얼마나 할지 저도 너무 궁금합니다.
    개인적으로 주전이 우선이고 주전일시에 .250에 홈런 10개정도면 만족이라 봅니다.


저는 두산이 4위를 하기 원합니다...


8월 들어 프로야구 팬들에게 가장 큰 화두는 단연 4위 싸움에서 누가 과연 이길 것인가 하는 문제일 것입니다. 2014시즌 827일 기준 성적으로 보자면, 삼성이 승률 0.670으로 1, 그리고 넥센과 NC2,3위권을 공고히 하고 있으며 4LG부터 9위 한화의 승차는 5.5게임입니다. 그나마 최근 LG가 좋은 페이스를 보이며 4위와 9위까지의 승차가 벌어졌네요. 하지만 5위부터 9위는 1.5게임차가 나는 상황이고 약 25게임 정도가 남은 상황이라 LG가 승차를 벌렸다고 해도 안심할 수는 없는 상황이라고 생각합니다. 그런 의미에서, 한 번 이 뜨거운 감자에 손을 대 볼 생각입니다.

 

1. 상대팀별 승률 예상

 

위의 제목에서 통계적 방법이라고 했듯이, 먼저 팀의 기대 승률을 알아보기 위해 가끔씩 사용되는 Log5 System을 사용할 예정입니다. 물론 Log5 System은 승률이 A이고 B인 팀이 맞붙었을 때의 승률 계산에 이용되므로 약간 핀트가 다르다고 볼 수 있는데, 저는 팀의 기대 승률, 기대 승수를 알기 위해서 각 팀의 상대 전적과 남은 경기를 이용할 것이기에 Log5 System을 이용하는 것이 무리는 아니라고 생각합니다. 그러기 위해서 먼저 피타고리안 승률을 계산할 필요가 있겠군요. 다만 한 가지 걸리는 것은 이번 시즌의 경우 워낙에 점수가 많이 나다 보니 가끔가다가 24:5 같은 경기가 벌어져서 피타고리안 승률의 예측력이 조금 떨어질 가능성이 있다는 것입니다...하지만 이 부분의 경우 투고타저라도 2012시즌의 볼티모어(9369, 득실 마진 +7...)같은 문제도 있고 해서 큰 문제는 아니라고 생각하고 계산할 때 그냥 때려 박을 생각입니다.(...) 원래는 홈과 원정을 나눠서 해 보려고 했는데(의외로 이 작업은 이틀만에 다 했습니다...) 그게 홈 원정 승률 차이가 큰 차이도 없고 해서 그냥 통합해서 하기로 하였습니다. (집에서 다른 거 더 할 걸...) 보통은 피타고리안 승률 적용시 상수를 2, 혹은 1.85 정도로 놓는데 저는 (경기별 득점+실점)^0.287로 하여 상수를 계산하고 피타고리안 승률을 계산하였습니다. 결과는 아래 표와 같습니다.


 팀

피타고리안 승률 

 삼성

0.645 

 넥센

0.566 

 NC

0.610 

LG

0.499 

 롯데

0.500 

 두산

0.459 

SK

0.451 

KIA 

0.420 

 한화

0.352 


이를 통해 Log5 System을 계산할 예정입니다. 먼저, Log5 System 계산을 위해 각 팀의 능력(?)을 계산합니다. 왜냐 하면 Log5 System의 계산에서는 각 팀의 능력에 대하여 a팀을 A, b팀을 B라고 할 때 a팀은 A/(A+B)의 승률을, b팀은 B/(A+B)의 승률을 기록할 것으로 예상하기 때문입니다. 이 때 승률 0.5인 팀은 능력도 0.5로 계산되며, 이에 맞춰서 능력을 계산하시면 됩니다. (예를 들자면 승률이 a이고 능력이 A인 경우 A=a/(2(1-a)).) 그리고 이 능력을 계산했으면, 위에서 말한 식대로 각 팀간의 상대승률을 계산합니다. 그 승률은 아래의 표와 같습니다. (읽는 법은 한국야구위원회에 나오는 팀간 승패표 보는 것과 같습니다.)

 


2. 기대승률과 기대순위 예상

 

다음은 남은 경기들과 위의 상대승률을 이용하여 예상되는 승수를 계산하는 것입니다. 여기에서 저는 앞으로 무승부는 없는 것으로 가정했습니다. 원래는 무승부도 계산에 넣어야 하겠지만, 그 경우 계산이 복잡해지고 또한 무승부의 빈도가 적기 때문에 계산하지 않기로 하였습니다. 이 때 팀의 승은 소수점으로 나타날 수 없기 때문에 반올림한 후 승과 패를 계산하기로 하였습니다. 그 결과 각 팀의 예상 승, , 패는 다음과 같습니다.

 



3. 4위 확률 계산

 

이제 4위 확률을 계산해야겠는데요, 이 때 원래는 남은 경기와 승률의 모든 경우를 계산해야겠지만 그 작업은 혼자 하기에는 너무 많은 작업이 필요하므로 여기에서 푸아송 분포를 도입하기로 하였습니다. 승패의 모든 경우에 대하여 분포를 계산하면 되므로(=이산확률로 계산될 것이기 때문에) 푸아송 분포를 따를 것이라고 생각했기 때문입니다. 위에서 남은 경기의 승패를 계산한 후 푸아송 분포로 각 팀의 각각의 승률의 분포를 계산하기로 한 것입니다. 그리고 그 그래프는 아래와 같습니다.

 

각 팀별 승률 분포 그래프 <그래프별 색깔은 제가 지정하는 방법을 몰라서 색깔이 비슷비슷합니다. 죄송합니다.>


이제 4강 확률을 계산할 차례입니다. 삼성이 사실상 4위를 할 확률은 거의 없고(남은 모든 게임을 다 져도 0.532....) 넥센과 NC는 아주 약간씩 있기는 한데 그게 계산에 큰 변화를 줄 만큼 크지는 않기 때문에 이 경우도 4위를 할 확률은 없다고 가정하고 계산하기로 하였습니다. 그 과정은....사실 아래와 같은 노가다로 일일이 계산했습니다.

 


위와 같이 다른 팀들이 그 팀의 승률보다 낮을 확률에 대한 경우를 일일이 계산하고 각 확률들을 곱한 후 팀의 각 승률마다 4위가 될 확률들을 더하여 전체의 4위 확률을 더하는 겁니다.

그 결과는 아래의 표와 같습니다. 이게 약간의 오차가 생겨서 값을 더해보니 확률이 1이 안 나와서(아마 위의 세 팀이 4위를 할 확률 등등일 겁니다.) 확률의 합이 1이 되도록 조정을 했습니다.

 

4. 결과

 

아래의 표를 확인하시길 바랍니다.


 팀

4위 확률 

 LG

38.3% 

 롯데

22.2% 

 두산

21.6% 

 SK

8.0% 

 KIA

8.0% 

 한화

1.9% 

 

위에서 보듯이 LG4위를 할 확률이 현재로는 가장 높다고 생각됩니다. 4위 확률 순위는 지금의 순위와 같네요. (;;당연한가요..) 하지만 아직 3팀이나 20% 이상이 4위 확률이기 때문에 3팀 다 어느 정도 가능한 수준이라고 볼 수밖에 없을 듯 합니다. 무엇보다 위의 과정상의 허접함으로(...) 오차가 있을 수 밖에 없음을 가정하면 LG가 약 30~40% 정도, 롯데 두산이 약 15~25% 정도로 생각할 수 있을 듯 합니다. 그리고 SK, KIA, 한화는 10% 미만으로 계산되기는 하였지만 아직 희망의 끈을 놓을 때는 아닌 것으로 보입니다. 


5. 결론


2001시즌 이후 최고의 4위 싸움(...이라고 말은 하지만 사실은....)으로 꽤나 재밌는 상황이 연출되고 있습니다. 어떻게 돼든 4위는 포스트시즌의 막차를 타는 것이므로 지금 이 상황에서는 4위 이하의 팀들이 모두 4위를 원할 수 밖에 없는 상황입니다. 각 팀의 팬들 힘내시길 바라며 각 팀은 재밌는 4위 싸움을 해 줬으면 좋겠습니다.


+두산은 제발 후회 없이 좋은 경기 좀 했으면 좋겠습니다....제발..


모든 기록은 한국야구위원회서 참조하였습니다.

Posted by 야구고물상

댓글을 달아 주세요

  1. 삼팬 2015.09.13 17:20  댓글주소  수정/삭제  댓글쓰기

    안녕하세요. 글 잘 보고 있습니다. 근데 푸아송 분포에서 어떤 값을 넣으셨나요? 제가 이와 비슷하게 글을 써보려고 하는데 거기서 막혔네요...

    • 야구고물상 2015.09.13 23:25 신고  댓글주소  수정/삭제

      요새 따로 할 일이 많아서 글을 못 쓰고 있는데도 읽어 주셨다니 감사합니다!!

      푸아송 분포 적용의 경우, 위키피디아에 나오는 식을 중심으로 쓰자면 lambda의 경우 평균적으로 기대되는 승수, 그리고 k의 경우 k번 이길 경우를 생각하고 계산했습니다. 그러니까, 만약에 20경기에서 10승이 평균적으로 기대된다면 lambda에 10을 넣고, 거기에서 15승을 하는 경우의 확률을 계산하고 싶다면 k에 15를 넣는 식으로 말입니다.
      만약 패배를 중심으로 하고 싶으면 위에서 승리를 패배로 바꿔서 계산하면 됩니다.

  2. 2015.11.20 01:05  댓글주소  수정/삭제  댓글쓰기

    비밀댓글입니다

  3. 2015.11.20 01:19  댓글주소  수정/삭제  댓글쓰기

    비밀댓글입니다

  4. 경숙 2016.11.08 11:59  댓글주소  수정/삭제  댓글쓰기

    3번 포아송그래프에서 y축이 무엇인가요?

LUCK의 소계는 다음을 보시기 바랍니다.

1st Ver.

2nd Ver.


2번째 버전 완성한 기념으로 뜬금없이(!) 작년 시즌 선발투수 기록을 계산해보기로 했습니다. 이왕 이렇게 된 거 자체적으로 윤석민상도 한 번 뽑아보도록 하죠.(아..정말 뜬금없다..)

KBO의 경우 기록 관련 사이트가 너무나도 안 좋은 관계로 선발투수와 불펜투수 스플릿은 그냥 제가 직접 KBO 홈페이지를 찾아가서 직접 더하면서 구하였습니다. 그래서 계산에 착오가 있을 수도 있습니다. 그리고 파크펙터(BPF)의 경우 각 구장에서의 결과를 알기 전에는 계산할 수 없기 때문에 그냥 일괄적으로 1로 생각하고 계산하기로 하였습니다. FIP 계산의 경우 KBO의 런밸류를 알지 못하기 때문에 그냥 MLB와 같이 13,2,2로 적용하여 계산했습니다. FIP는 팬그래프 방식입니다.


험험..사진 재활용(..)

순위를 매기기 위해서 저는 선발 100이닝 이상 던진 선수들의 선발 스플릿 성적에 대해서만 생각하기로 하였습니다.


그러면 먼저 FIP를 기반으로 볼 때 LUCK 순위를 매겨보기로 합시다.


WAR의 경우는 어떻게 계산했나면...2nd Ver.에서 나오는 ExTmWPCT에서 0.380을 뺀 걸 가지고 계산한 겁니다...이런 식으로 계산하면 상위권의 선발투수들은 팬그래프 방식이랑 꽤나 비슷하지만 하위권의 선수들은 조금 더 높은 경향성을 보이게 됩니다. 그건 그렇고...

계산 결과 이브랜드가 영광(?)의 1위를 차지했습니다. FIP가 계산 결과 3.72로 FIP-가 86이나 나오더군요. 그 결과 fWAR도 3.1이나 될 정도로 높습니다. ExW은 11.3승에 ExL 8.9패, ExWPCT 0.560으로 계산됐네요. 하지만 실제로 나타난 결과는 ERA가 5.54에 6승 14패...하하하 LUCK은 -10.4점이네요. 2위는 4승 11패의 에릭 해커...LUCK은 -8.6으로 계산되었습니다. 그 외에 리즈, 밴덴헐크, 레이예스 등이 FIP를 기준으로 볼 때 불운한 선발투수로 계산되었습니다.


다음은 ERA를 기반으로 한 계산의 결과입니다.



에릭, 리즈가 거의 비슷하네요. 에릭은 LUCK -10.2점, 리즈는 -9.9점..ㄷㄷㄷ 그 외 찰리, 밴덴헐크, 이브랜드 등이 불운한 선발투수로 계산되었습니다. 이브랜드는 ERA가 엄청 높음에도 불운하다고 계산되는군요.


결과적으로 FIP로 본다면 이브랜드가, 그리고 ERA로 본다면 에릭이 가장 불운한 선발투수였다고 계산되네요. 올해 제가 생각했던 거랑 그렇게 크게 다르게는 나오지 않은 결과였습니다. 


FIP LUCK -10.4점으로 자체적으로 뽑은 윤석민상의 영광(...)을 안은 이브랜드(..)



마지막으로 자체적으로 윤석민상 뽑는 게 남아 있는데... 저는 개인적으로 운을 계산하는 것에서는 ERA보다 FIP가 더 낫다고 생각하기 때문에 FIP LUCK 기준으로 생각하기로 하였습니다. 그러므로, 저는 2013년 KBO에서 가장 불운했던 선발투수로 이브랜드를 뽑겠습니다.

Posted by 야구고물상

댓글을 달아 주세요