상세 컨텐츠

본문 제목

통계적 방법으로 2014 프로야구 4위 예상해 보기

야구-칼럼/KBO

by 야구고물상 2014. 8. 28. 22:55

본문

반응형


저는 두산이 4위를 하기 원합니다...


8월 들어 프로야구 팬들에게 가장 큰 화두는 단연 4위 싸움에서 누가 과연 이길 것인가 하는 문제일 것입니다. 2014시즌 827일 기준 성적으로 보자면, 삼성이 승률 0.670으로 1, 그리고 넥센과 NC2,3위권을 공고히 하고 있으며 4LG부터 9위 한화의 승차는 5.5게임입니다. 그나마 최근 LG가 좋은 페이스를 보이며 4위와 9위까지의 승차가 벌어졌네요. 하지만 5위부터 9위는 1.5게임차가 나는 상황이고 약 25게임 정도가 남은 상황이라 LG가 승차를 벌렸다고 해도 안심할 수는 없는 상황이라고 생각합니다. 그런 의미에서, 한 번 이 뜨거운 감자에 손을 대 볼 생각입니다.

 

1. 상대팀별 승률 예상

 

위의 제목에서 통계적 방법이라고 했듯이, 먼저 팀의 기대 승률을 알아보기 위해 가끔씩 사용되는 Log5 System을 사용할 예정입니다. 물론 Log5 System은 승률이 A이고 B인 팀이 맞붙었을 때의 승률 계산에 이용되므로 약간 핀트가 다르다고 볼 수 있는데, 저는 팀의 기대 승률, 기대 승수를 알기 위해서 각 팀의 상대 전적과 남은 경기를 이용할 것이기에 Log5 System을 이용하는 것이 무리는 아니라고 생각합니다. 그러기 위해서 먼저 피타고리안 승률을 계산할 필요가 있겠군요. 다만 한 가지 걸리는 것은 이번 시즌의 경우 워낙에 점수가 많이 나다 보니 가끔가다가 24:5 같은 경기가 벌어져서 피타고리안 승률의 예측력이 조금 떨어질 가능성이 있다는 것입니다...하지만 이 부분의 경우 투고타저라도 2012시즌의 볼티모어(9369, 득실 마진 +7...)같은 문제도 있고 해서 큰 문제는 아니라고 생각하고 계산할 때 그냥 때려 박을 생각입니다.(...) 원래는 홈과 원정을 나눠서 해 보려고 했는데(의외로 이 작업은 이틀만에 다 했습니다...) 그게 홈 원정 승률 차이가 큰 차이도 없고 해서 그냥 통합해서 하기로 하였습니다. (집에서 다른 거 더 할 걸...) 보통은 피타고리안 승률 적용시 상수를 2, 혹은 1.85 정도로 놓는데 저는 (경기별 득점+실점)^0.287로 하여 상수를 계산하고 피타고리안 승률을 계산하였습니다. 결과는 아래 표와 같습니다.


 팀

피타고리안 승률 

 삼성

0.645 

 넥센

0.566 

 NC

0.610 

LG

0.499 

 롯데

0.500 

 두산

0.459 

SK

0.451 

KIA 

0.420 

 한화

0.352 


이를 통해 Log5 System을 계산할 예정입니다. 먼저, Log5 System 계산을 위해 각 팀의 능력(?)을 계산합니다. 왜냐 하면 Log5 System의 계산에서는 각 팀의 능력에 대하여 a팀을 A, b팀을 B라고 할 때 a팀은 A/(A+B)의 승률을, b팀은 B/(A+B)의 승률을 기록할 것으로 예상하기 때문입니다. 이 때 승률 0.5인 팀은 능력도 0.5로 계산되며, 이에 맞춰서 능력을 계산하시면 됩니다. (예를 들자면 승률이 a이고 능력이 A인 경우 A=a/(2(1-a)).) 그리고 이 능력을 계산했으면, 위에서 말한 식대로 각 팀간의 상대승률을 계산합니다. 그 승률은 아래의 표와 같습니다. (읽는 법은 한국야구위원회에 나오는 팀간 승패표 보는 것과 같습니다.)

 


2. 기대승률과 기대순위 예상

 

다음은 남은 경기들과 위의 상대승률을 이용하여 예상되는 승수를 계산하는 것입니다. 여기에서 저는 앞으로 무승부는 없는 것으로 가정했습니다. 원래는 무승부도 계산에 넣어야 하겠지만, 그 경우 계산이 복잡해지고 또한 무승부의 빈도가 적기 때문에 계산하지 않기로 하였습니다. 이 때 팀의 승은 소수점으로 나타날 수 없기 때문에 반올림한 후 승과 패를 계산하기로 하였습니다. 그 결과 각 팀의 예상 승, , 패는 다음과 같습니다.

 



3. 4위 확률 계산

 

이제 4위 확률을 계산해야겠는데요, 이 때 원래는 남은 경기와 승률의 모든 경우를 계산해야겠지만 그 작업은 혼자 하기에는 너무 많은 작업이 필요하므로 여기에서 푸아송 분포를 도입하기로 하였습니다. 승패의 모든 경우에 대하여 분포를 계산하면 되므로(=이산확률로 계산될 것이기 때문에) 푸아송 분포를 따를 것이라고 생각했기 때문입니다. 위에서 남은 경기의 승패를 계산한 후 푸아송 분포로 각 팀의 각각의 승률의 분포를 계산하기로 한 것입니다. 그리고 그 그래프는 아래와 같습니다.

 

각 팀별 승률 분포 그래프 <그래프별 색깔은 제가 지정하는 방법을 몰라서 색깔이 비슷비슷합니다. 죄송합니다.>


이제 4강 확률을 계산할 차례입니다. 삼성이 사실상 4위를 할 확률은 거의 없고(남은 모든 게임을 다 져도 0.532....) 넥센과 NC는 아주 약간씩 있기는 한데 그게 계산에 큰 변화를 줄 만큼 크지는 않기 때문에 이 경우도 4위를 할 확률은 없다고 가정하고 계산하기로 하였습니다. 그 과정은....사실 아래와 같은 노가다로 일일이 계산했습니다.

 


위와 같이 다른 팀들이 그 팀의 승률보다 낮을 확률에 대한 경우를 일일이 계산하고 각 확률들을 곱한 후 팀의 각 승률마다 4위가 될 확률들을 더하여 전체의 4위 확률을 더하는 겁니다.

그 결과는 아래의 표와 같습니다. 이게 약간의 오차가 생겨서 값을 더해보니 확률이 1이 안 나와서(아마 위의 세 팀이 4위를 할 확률 등등일 겁니다.) 확률의 합이 1이 되도록 조정을 했습니다.

 

4. 결과

 

아래의 표를 확인하시길 바랍니다.


 팀

4위 확률 

 LG

38.3% 

 롯데

22.2% 

 두산

21.6% 

 SK

8.0% 

 KIA

8.0% 

 한화

1.9% 

 

위에서 보듯이 LG4위를 할 확률이 현재로는 가장 높다고 생각됩니다. 4위 확률 순위는 지금의 순위와 같네요. (;;당연한가요..) 하지만 아직 3팀이나 20% 이상이 4위 확률이기 때문에 3팀 다 어느 정도 가능한 수준이라고 볼 수밖에 없을 듯 합니다. 무엇보다 위의 과정상의 허접함으로(...) 오차가 있을 수 밖에 없음을 가정하면 LG가 약 30~40% 정도, 롯데 두산이 약 15~25% 정도로 생각할 수 있을 듯 합니다. 그리고 SK, KIA, 한화는 10% 미만으로 계산되기는 하였지만 아직 희망의 끈을 놓을 때는 아닌 것으로 보입니다. 


5. 결론


2001시즌 이후 최고의 4위 싸움(...이라고 말은 하지만 사실은....)으로 꽤나 재밌는 상황이 연출되고 있습니다. 어떻게 돼든 4위는 포스트시즌의 막차를 타는 것이므로 지금 이 상황에서는 4위 이하의 팀들이 모두 4위를 원할 수 밖에 없는 상황입니다. 각 팀의 팬들 힘내시길 바라며 각 팀은 재밌는 4위 싸움을 해 줬으면 좋겠습니다.


+두산은 제발 후회 없이 좋은 경기 좀 했으면 좋겠습니다....제발..


모든 기록은 한국야구위원회서 참조하였습니다.

반응형

관련글 더보기

댓글 영역