모든 기록은 STATIZ에서 얻었습니다.


어제 KBO 올스타전이 열렸습니다.



KBO리그 전반기가 끝나고 올스타 주간입니다. 전반기가 끝났으니 전반기 결산을 한 번 해 봐야겠죠. 보통 결산은 팀의 성적을 중심으로 팀이 좋았던 점과 나빴던 점을 제시하면서 글을 진행할 겁니다. 제가 하고 싶은 건 좀 다릅니다. 역시나, 숫자를 보여주는 게 전 좋아요. 그래서 준비했습니다. 조금 이른 감이 있지만, 원래 섣부른 판단이 재밌는 법입니다.(... 흑역사 창조!!) 전반기가 끝난 시점에서 KBO 각 팀들이 포스트시즌에 올라갈 확률을 계산해 봅시다.

 

우리의 목표?

 

다시 한 번 되새겨봅시다. 우리가 원하는 것은 KBO 각 팀들이 포스트시즌에 올라갈 확률을 계산하고 결과를 얻는 것입니다. 우리 모두가 알듯이 KBO리그는 한 시즌에 네 번 시리즈를 진행합니다. 4위와 5위는 와일드카드를, 3위는 준플레이오프를, 2위는 플레이오프, 그리고 1위는 한국시리즈에 직행하게 되죠. 제 목표는 현 시점에서 예상되는 각각 시리즈 직행 확률을 계산해 보는 겁니다. 계산 결과는 각각 1) 포스트시즌 진출 확률, 2) 준플레이오프 직행 이상 확률, 3) 플레이오프 직행 이상 확률, 4) 한국시리즈 직행 확률로 나눠 보여드리기로 계획했습니다.

 

계산 방법

 

사실 이 글은 제가 예전에 썼던 글과 꽤 비슷합니다. 다른 점이라면 이 글을 썼을 때는 4위 예상 확률이라는 좀 더 좁은 목표가 있었을 뿐이죠. 하지만 그 때 쓴 은 계산에서 좀 실수가 있었습니다. 각 확률을 더한 값이 1이 안 됐었죠. 그래서 이번에는 방법을 조금 바꿨습니다. 아주 조금요...

 

Log5 시스템

 

우선 Log5 확률을 계산합니다. 리그 평균승률은 역시 0.500입니다. 전에는 A라는 팀이 0.600 승률을 기록했으면 0.500인 팀을 상대로 한 것으로 계산하였습니다. 하지만, 리그에 0.600인 팀이 있으면 필연적으로 나머지 상대팀 승률 평균은 0.500이 안 됩니다. 그러니, Log5로 계산되는 Talent0.5할이 아닌 나머지 팀들의 승률 평균에 해당하는 팀과 대결한 경우를 가정하고 계산하는 것이 좀 더 옳은 방향으로 보입니다. 그러니 팀의 Talent는 나머지 팀 승률을 통해 역으로 계산하기로 합시다.

 

예를 들어서 보여드리겠습니다. 승률이 0.500인 팀을 상대로 했을 때의 Log5 계산은 이 글을 참조해 주세요. 4팀이 한 리그를 이룬다고 가정합시다. A라는 팀은 0.600을 기록한다고 가정한다면, 나머지 C,D,E 팀 평균 승률은 모든 팀이 같은 경기를 소화하고 무승부가 없다고 가정할 때 1.4/3=0.467이 됩니다. 그렇다면 A팀에서 계산되는 상대팀 Talent0.5*0.467/(1-0.467)=0.438이 됩니다. 그러면 A팀의 Talent0.438*0.6/0.4=0.656이 되는 겁니다. 만약 팀들이 늘어난다면, 0.600인 팀이 가지는 Talent는 더 높아지게 되고, 상대팀은 거의 0.500에 가까워지게 되겠죠.


승률 보정과 기대승률 계산

 

이제 보정이 필요합니다. 전반기에 각 팀들이 상대로 경기 한 횟수는 일률적이지 않습니다. 예를 들어 두산은 NC12경기를 했지만 LG와는 5경기만 했습니다. 진행한 경기가 균일하지 않았다는 겁니다. 그러니 계산이 조금 달라지겠죠. 그래서 상대팀 승률을 각 팀별 경기수*각 팀별 승률을 더한 값에 진행경기로 나눠서 계산하기로 했습니다. 이 때, 앞으로 각 팀들이 기록할 승률은 피타고리안 승률을 따를 것이라고 가정하여 피타고리안 승률을 이용하기로 하였습니다.[각주:1] 이제 각 팀의 Talent 값을 계산할 수 있습니다.

 

Talent를 계산했으니 팀별 상대승률을 계산할 수 있게 되겠죠. 간단히 A팀의 Talenta, B팀의 그것을 b로 한다면 Pa=a/(a+b)로 계산할 수 있습니다. 그러면 이 값을 토대로 남은 경기에서 계산되는 기대승수를 계산할 수 있습니다. 남은 경기에서 기대되는 승률은 다음과 같이 계산되었습니다.

 

승률의 분포

 

기대승률을 계산하긴 했지만 아직 결과를 얻기는 이릅니다. 왜냐하면 앞으로 기대되는 승률은 일정한 분포를 따를 것이기 때문입니다. 그러니 기대승률을 이용해 기대승률의 분포를 계산할 필요성이 생기게 되죠.

 

분포는 간단하게 계산할 수 있습니다. 만약 기대승률이 0.600이고 앞으로 남은 경기가 60경기라면, 30경기를 이길 확률은



이 되겠죠. 40경기를 이길 확률은 



이 되고요. 이렇게 각 팀마다 승률의 분포를 계산할 수 있습니다. 아래 그래프는 그렇게 계산해서 얻은 승률의 분포를 보여주는 그래프입니다.


승률 분포


 

순위 계산

 

이제 단순 노동의 시간입니다. 이제 우리는 앞으로 기대되는 승률의 분포를 얻어냈기 때문에 기대순위를 계산할 수 있겠죠. 여기에서 필요한 건 두 가지입니다. 다른 팀들이 해당 승률을 넘기지 못할 확률과 넘길 확률이 필요한 겁니다. 예를 들자면 아래의 표와 같은 것이 필요합니다.


각 해당승률당 각 팀들이 해당승률을 넘을 수 없는 확률 관련 표


 

이제 모든 순위에 대하여 확률을 계산합니다. 1위를 할 확률은 모든 팀이 해당승률보다 낮은 경우를 의미합니다. 10위를 할 확률은 모든 팀들이 해당 승률보다 높은 경우를 의미합니다. 1위와 10위의 확률을 계산할 때는 경우의 수가 1이기 때문에 해당승률을 기록할 확률과 각 팀들이 기록할 해당 확률을 다 곱한 후 더하면 전체 확률을 구할 수 있습니다. 2위를 할 경우의 수는 9가지 경우의 수가 생깁니다. 3위를 할 경우의 수는 36가지가, 4위는 84가지, 5위는 126가지가 필요합니다. 이렇게 2~9위를 할 경우는 각 순위를 할 경우에 해당하는 확률을 다 더함으로써 해당 순위를 할 확률을 최종적으로 구할 수 있습니다.

 

계산결과


계산을 했으니 결과가 나오겠죠. 이번에는 제대로 계산을 했는지 각 팀들이 1위부터 10위까지 할 확률을 더하면 1이 나오고 각 순위마다 각 팀들의 확률 합 또한 1이 나왔습니다. 다행입니다.,,,

 

포스트시즌 진출 확률

 

먼저 아래 표는 각 팀들이 포스트시즌에 진출할 확률입니다.



 

준플레이오프 직행 이상 확률

 

이번 표는 각 팀들이 준플레이오프 직행 이상을 할 확률입니다. , 3위거나 3위보다 더 좋은 순위를 기록할 확률을 뜻합니다.



 

플레이오프 직행 이상 확률

 

이번 표는 각 팀들이 플레이오프 직행 이상을 할 확률입니다. , 2위거나 2위보다 더 좋은 순위를 기록할 확률을 뜻합니다.



 

한국시리즈 직행 확률

 

이번 표는 각 팀들이 한국시리즈에 직행할 확률입니다.



 

역시 좋은 전반기를 보낸 두산과 NC가 눈에 띄는 결과입니다. 넥센 또한 굉장히 눈에 띄네요.

 

결론

 

결과적으로, 역시나 순위가 높은 팀들일수록 포스트시즌에 올라갈 확률은 주로 높습니다. KIA 같은 경우는 좋은 득실차를 기록하고 있기 때문에 현재 순위보다 좋은 결과가 기대됩니다. 물론 그렇게 되지 않을 가능성도 무시할 수는 없습니다. 덧붙여 위 결과는 숫자적 예측이기 때문에 절대적이지 않다는 것 또한 다 아실 것이라 믿습니다. 또한 계산할 때 몇 가지 가정이 부정확할 수 있기 때문에 플레이오프에 갈 확률들은 명확한 값으로 이해하기보다는 어떤 특정한 범위를 중심으로 이해하는 것이 훨씬 더 좋은 해석법이라고 할 수 있습니다.

 

이제 대략 60% 정도 일정이 소화했습니다. 그 말인즉슨, 아직도 많은 경기가 남아있다는 뜻이죠. 10팀 모두 남은 일정 부상 없이 열심히 소화해 최선의 결과를 얻어낼 수 있으면 좋겠습니다.

 

 

  1. c=(RS/G+RA/G)^0.287, W%=RS^C/(RS^c+RA^c) [본문으로]
Posted by 야구고물상

댓글을 달아 주세요


오랜만입니다. 그동안 시험 준비한다는 핑계로 블로그에 소홀했었습니다. 이제 남는 시간이 좀 생겨서 몇 달 동안은 열심히 블로그 포스팅 가능할 것 같습니다. 물론 제가 글 쓰는 주제나 글 쓰는 성향 때문에 자주 쓸 수 있을 것 같지는 않지만요. 그래서 먼저 간단한 글 하나 씁니다.


모든 스탯은 팬그래프에서 얻었습니다.

 

요즘 야구팬이라면 WAR이란 소리를 지겹게 들으셨을 겁니다. Wins above Replacement, WAR에 대한 이야기는 복잡하기도 하거니와 저 말고 설명해 주실 분들이 많기 때문에 설명이 필요할 것 같지는 않습니다. 다만, 우리가 계산하는 팬그래프 방식 WAR은 득점을 이용하는 방식이기 때문에 득점을 승수 스케일로 바꾸는 무언가가 필요하다는 것은 확실합니다. 그것이 오늘 이야기할 R/W(Runs Per Wins)입니다. 근데 왜 이 얘기를 뜬금없이 하느냐? 하신다면 WAR 계산에 도움이 좀 될 수 있겠다 싶어서입니다. 정확히는 WAR 계산할 때 팬그래프 따라하기 위해 알아야 할 팁에 관한 글입니다. 몇 년간 팬그래프에서 계산하는 수준의 R/W을 계산하는 것은 저를 괴롭혔습니다.(그 시간에 공부를 더 해야 했다는 것은...) 근데 불현 듯 제 머리를 스친 것이 있었습니다. 정확히 말하자면, 인식의 전환입니다. 이제 이 방법으로 R/W을 계산하신다면 팬그래프와 가까운 방식으로 WAR 계산이 가능해질 겁니다.(진짜로, 진짜로 말입니다.)


득점을 승수 스케일로 환산하자

 

보통 WAR을 소개할 때 R/W10으로 놓거나, 혹은 10 부근이라고만 알려줍니다. 더 나아가서, 피타고리안 승률을 이용하면 R/W을 구할 수 있을 거라는 힌트 정도를 줍니다. 알쏭달쏭합니다. 그렇다면 먼저 R/W이 왜 필요한지에 대한 설명이 필요할 것 같군요.


국내에 널리 알려진 WAR을 구하는 방법이라면 단연 팬그래프 방식이라고 할 수 있습니다. 팬그래프에서 WAR을 구할 때 시작은 공헌도를 득점 스케일로 환산하는 것에서 시작합니다. 그러니 wRAA가 필요하고, UZR이 필요하고, 포지션 보정점수 등등이 필요한 겁니다. 모두가 다 득점(R)’ 스케일이죠. 하지만, 우리가 원하는 것은 Replacement보다 얼마나 더 많은 승수를 쌓게 해 주었느냐 입니다. 득점은 승수가 아니기에, 이제 득점을 승수로 환산하는 과정이 필요하게 됩니다. 그래서 Runs Per Wins라는 개념이 생기게 된 겁니다. 역시나 알기 쉽게 돌직구적 작명입니다. 마음에 드는군요.(...제 마음에 들어서 뭐 하겠습니까만...)


그렇다면 먼저 과연 R/W으로 10점이 괜찮을지에 대해서 생각해 봅시다. 아주 간단한 모델을 살펴봅시다. 매 시즌 득점수준은 달라지긴 하겠지만, 모든 시즌들을 다 더해서 계산해보면 대략 4.5점 정도니 4.5점인 리그 상황을 상상해 보기로 해 봅시다. 메이저리그에서 한 팀이 치루는 한 시즌은 162경기이니까 729점입니다. 딱 평균적인 상황인 0.500의 팀이라면 득점과 실점의 수준이 같을 것이고, 그러니 득점도 729점이고 실점도 729점일 겁니다. 이 때 승수는 81승입니다. 이제, 1승을 더 하는 팀을 생각할 때입니다. 그러니까, 82승 팀입니다. 승률은 0.506173..정도입니다. 이제, 우리의 목표는 간단해집니다. 득점을 몇 점을 더 하거나, 실점을 몇 점 덜 하는 것이 82승과 비슷할지에 대해서 맞추는 문제인 겁니다.


만약 10점이 R/W이라면 739득점 729실점 팀이 0.506일 것이고, 729득점 719실점 팀이 0.506일 것입니다. 먼저 전자, 0.506411..정도입니다. 후자? 0.506474..정도입니다. , 10점이면 대략 R/W에 부합하겠군요. 간단한 계산이 보여주는 10점의 마법입니다.


득점을 승수 스케일로 사진출처-위키피디아


 

근데 매 시즌 득점수준이 달라지잖아?

 

그렇습니다. 득점 수준은 매 시즌마다 계속 변동됩니다. 높아지거나, 낮아지기도 합니다. 어느 정도 경향성이 있지만 그 안에서도 요동이 있습니다. 아놔, 그러면 R/W도 조금씩 변하겠네요? 아주 간단히 얘기해서, 평균득점이 3점인 리그에서는 10득점을 더 하면 0.50854팀이 됩니다. 평균득점이 10점인 리그에서면, 10득점을 더 해 봤자 0.503638..정도입니다. 그래서 득점 수준이 높아지면 R/W이 높아지고, 득점이 적어지면 R/W이 낮아지게 됩니다.

 

그럼 우리는 팬그래프가 떠먹여주는 것만 먹어야 하나요?

 

역시 덕후들의 성지인 팬그래프는 우리의 기대를 배반하지 않고 매년마다 R/W을 계산해서 제공해주고 있습니다. , R/W을 계산하는 방법은 여러 가지가 있습니다. 가장 좋은 방법은 역시나 피타고리안 계산입니다. 근데, 좀 이상합니다. 수비로 세이브 해 주는 득점수준, 그리고 득점으로 기여하는 부분에 대해서 어떻게 점수를 적용해야 할지, 또한 계산했다고 해도 그 점수들을 그냥 더해야할지 등등 여러 가지 정의 문제가 산재해 있습니다. 그것도 그렇지만, 피타고리안으로 점수 수준을 알아내는 것 자체가 쉬운 문제가 아닙니다. 아래 식을 봅시다. 이 때는 R/W을 득점 관점에서만 바라본 상황입니다. 편의상 R/Wx로 보고, 승률을 W로 생각합시다. 득점과 실점이 같아야 승률이 0.500인 팀이니까 득점=실점=R로 봅시다.



만약 여기에서 c2라면 계산하기 훨씬 수월할 겁니다.(평균 4.5점인 리그에서 대략 9.506점이 나오네요.) 다만, 요새 세이버매트리션들이 좋아하는 c=(경기당 득점+실점)^0.287이라면 문제가 달라집니다. 아래가 그걸 풀려고 할 때 우리가 맞딱뜨리는 어려움입니다. 원래 상황이 c=(2RPG)^0.287이니, 그냥 쉽게 쓰기 위해 c=(2RPG)^y라고 하고 y는 고정되어 있다고 생각합시다. 이 때, 달라진 상황에 의해 c=(2RPG+x)^y이 됩니다.(y=0.287)



이제 이 방정식을 풀면 됩니다. (어때요, 참 쉽죠?...)이 상태로는 풀기가 어렵기 때문에 이제 테일러 전개를 시켜보겠습니다. 이 때, x는 대략 10점 정도로 가정해 봅시다.



이게 1차항까지 계산한 겁니다. 보통 상황이라면 x10에 가깝다고 생각하고 이차항까지만 계산해도 무방할 가능성이 있습니다만, 어떤 분들에게는 심기가 불편할 수도 있습니다. 더욱이, x10과 너무나 차이가 나는 경우는 그냥 실패입니다.

..그러니까 차라리 R/W을 계산하기 위해 수치해석 책 1장 붙들고 열심히 프로그래밍 하는 게 나을 수 있다는 얘기입니다. 하하하...이젠 아예 팬들에게 세이버매트릭스 개념 계산하려면 공대나 수학과 가라는 얘기가 나오겠습니다. (물리학과 나와도 할 수 있습니다! 많이 안 쓰면 까먹겠지만..) 세이버매트릭스는 누구에게나 열려 있어야 하기 때문에(라기 보다는 제가 그렇게 생각하기 때문에), 좀 더 쉬울 필요성이 있습니다. 그러니 방정식 풀이라니, 당치도 않습니다. 그 때 제 뇌리에 언뜻 스친 게 있습니다.

투수 계산할 때!”

 

태초에 투수와 타자가 다 있었으니

 

탱고느님은 이미 이런 말씀을 하신 적이 있습니다.

투수 WAR을 계산할 경우 R/W((리그 득점*(18-투수가 던진 평균 이닝)+실점*투수가 던진 평균 이닝)/18+2)*1.5로 계산하라

이 때 득점수준은 9이닝당으로 계산하는 겁니다. , 이게 맞느냐고 물어보실 수 있겠지만 목표는 팬그래프 따라하기니까, 무시하기로 합시다.(여러분은 저와 같이 단순하게 생각하지 않기를 바랍니다..)

이걸 타자로 적용해보기로 합시다. 타자는 투수에 비해서 한 경기에 끼칠 수 있는 영향력이 적습니다. 그러니 모든 타자의 R/W을 같다고 가정해봅시다. 그러면, 위에 쓴 투수 R/W 모델에서 투수가 던진 평균 이닝은 9가 될 것입니다. 실점은 결국 리그 득점이 될 것입니다. 그렇다면, 4.5점인 리그에서는 아래와 같이 계산할 수 있을 것입니다.

R/W=((4.5+4.5)/2+2)*1.5=9.75

그러니까, (RPG+2)*1.5로 계산하라는 겁니다. 그렇다면 이렇게 계산하면 팬그래프와 같게 R/W을 계산했는지 맞춰보면, 우리의 팬그래프 따라하기는 성공적인 겁니다.

아래 파일은 그 계산 파일입니다.

 

WAR_FANGRAPHS_RunsPerWins.xlsx


, 거의 똑같습니다. 그러니까 위와 같이 열심히 방정식을 풀거나 수치해석 안 해도 계산할 수 있다는 것입니다. 오차들이 조금 있는데, 0.001점 차이는 아무래도 팬그래프에서 반올림을 하지 않았을까 하는 생각입니다. 그리고 0.009점 차이가 나는 시즌(1998)이 있는데, 이 오차에 대해서는 생각해 보았지만 잘 모르겠습니다.(만약 다른 방법이 생각이 나신다면 덧글로 알려주세요.)

사실상 단 한 시즌만이 오차가 나는 것으로 보이며, 그렇다면 아마도 팬그래프도 위와 같이 R/W=(RPG+2)*1.5로 계산하지 않을까 하는 것이 제 추측입니다. 그러니, 이제 우리도 좀 더 팬그래프와 비슷하게 계산해 보자구요! 그리고 지금까지 이런 단순한 사실도 깨닫지 못했던 제 굳은 돌머리에 대해서 반성하기로 합니다...

 

+덧붙여서

하하, 저는 우리나라에 이와 관련된 포스팅을 찾지 못해서 제 블로그에 올립니다만, 이미 이전에 누군가가 했을 수도 있겠다는 생각이 듭니다. 무엇보다, 이전에 이미 제가 봤던 어떤 블로그 페이지에서 톰 탱고R/W=(RPG+2)* 1.5로 근사했다는 사실을 명시해 놓았더군요. 왜 그 페이지에서 Tangotiger를 안 찾아봤는지 모르겠습니다.(...) 여튼 팬그래프는 꽤나 톰 탱고의 연구에서 영향을 받은 사이트라서 아마도 R/W=(RPG+2)*1.5일 거라는 제 예상은 거의 맞지 않을까 생각합니다.

Posted by 야구고물상

댓글을 달아 주세요

킹 펠릭스도 Opponent Batting Stat으로 계산한 경우 wRC보다 기록한 실점이 대체적으로 많은 대표적인 투수입니다.


모든 스탯은 Baseball-ReferenceFangraphs에서 얻었습니다.


1. 도입

 

제가 이전에 쓴 글에서 볼 수 있듯이, 리그의 득점 환경이 동일하다는 점에서 저는 투수의 타자들과의 상대성적을 통해 투수가 기록한 wOBA를 이용하면 투수가 기록한 실점을 대략적으로 예상 가능하다는 생각을 했다고 썼습니다. 하지만 그 작업을 하기 위해서는 wOBA를 득점 스케일로 변환하는 작업이 필요합니다. 지금까지 알려진 그 스탯은 wRC, 어쩌면 wOBA에서 나오는 아주 당연한 귀결일 수도 있는 스탯이기도 합니다..

 

2. wRC

 

보통은 wOBA를 설명할 때 wRAA를 같이 설명합니다. wRCwRAA나 사실상 거의 같은 의미인데, 다른 것이라면 wRAA+의 득점을 의미한다면, wRC는 득점 그 자체를 의미한다고 설명할 수 있겠습니다. 전의 글에서 보시면 아시겠지만, Run ValueWeight는 각각 wOBA SCALE만큼의 차이(곱입니다. !!)를 가집니다. 그렇기 때문에 wOBA에서 wRAA를 만들기 위해서는, 즉 득점 스케일로 환산하기 위해서는 wOBAwOBA SCALE로 나누는 과정이 필요하다는 것을 단박에 알 수 있을 겁니다. 다만, 이는 득점 스케일로 환산하기 위한 것으로 만약 선수의 wOBA 자체를 wOBA Scale로 나눌 경우 R/PA와는 다를 수 있기 때문에 타자의 wOBA에서 리그 wOBA를 뺀 값을 wOBA Scale로 나누면 됩니다. 그리고 이 값은 1타석당 값이 될 것이므로, 이 값에 타석을 곱하면 정확한 득점 스케일로 환산할 수 있을 겁니다. 그리고 wRCwRAA에서 LgR/PA값을 더하면 바로 나옵니다. 식은 아래와 같겠군요.

 

 


3. wRC 조정의 당위성

 

wRC 식만 봐도 다음과 같은 사실을 알 수 있을 겁니다.

 

1. 만약 선수의 wOBA가 리그 wOBA와 정확히 같다면 그 선수가 가지는 득점적 가치는 리그 평균과 같은 것다.

2. wRC는 선형적인 식이다.

3. 득점의 양 끝값이 고정되어 있지 않다.

 

3번은 말이 좀 애매한데, 풀어서 쓰자면 wRC값이 음수값이 나올 수도 있다는 것입니다. 2014시즌을 예로 들자면, 가장 낮은 wRC값은 R/PA 스케일로 대략 0.13점이 나옵니다. A라는 선수로만 이루어진 팀이 있는데, 이 선수는 생산적인 타구를 만들어내지 못하는 타자라고 가정해 봅시다. (wOBA0이라는 이야기입니다.) 그렇다면 wRC/PA0.13 정도 되니까 27타석 나오면 3.5점 정도...?? 뭔가 이상한 걸 눈치 채셨을 겁니다. 득점이 음수라니요. wOBA0인 팀이라도 득점이 음수일 수는 없지 않습니까? 우선 wRC를 타자에게 적용한다면 그것이 문제는 아닙니다. 분명 Run Value가 음수인 이벤트들이 있거든요. 그러니까, 타자의 경우 팀에 대해 음수의 득점 기여도를 가질 수 있다고 정의할 수 있습니다.

근데 이게 투수한테 적용하면 좀 골치가 아파집니다. 그럼 안 하면 되지 않느냐? 하고 반문하실 수도 있습니다. 근데 그게 좀 짜증나서요.(너무 개인적인 이유인가요?) 분명 득점 환경은 똑같은데 타자한테는 되고 투수의 타자 상대 기록에는 적용할 수 없다니! 이게 무슨 개뼈다귀같은 소리랍니까!

그래서 투수에게, 혹은 팀기록은 wRC를 조금 다르게 적용하자는 겁니다. 적어도, 그 기록에서는 음수가 나올 수 없을 테니까요.

 

4. 식을 만들기 전 정리하기

 

우리가 원하는 것은 끝점이 고정되는 것입니다. 그러니까, wOBA0일 때는 타석당 기대득점이 0으로, wOBAwHR과 같을 때는 타석당 기대득점이 1로 말입니다. wOBAwHR과 같을 경우가 가장 큰 값인 이유는 가장 큰 득점을 가지는 이벤트가 홈런이니 모든 타석에서 홈런을 친 경우의 wOBA가 가장 높을 수밖에 없다는 이유에서입니다. 그 경우 wOBAwHR과 같아집니다. 홈런을 쳤을 때 1점보다 더 많이 득점할 수 있지 않느냐고 물으실 겁니다물론 그렇습니다홈런의 Run Value 또한 1.4점이고요. 근데 그건 다른 모든 경우들과 합해서일 때입니다. 그러니까, 그 전 타석에 누군가가 루상에 출루했기 때문에 홈런 타석에서 1점보다 많이 딸 수 있는 것입니다. 만약 첫 타자가 안타, 두 번째 타자가 삼진, 세 번째 타자가 홈런을 쳤다면 그 때의 타석당 득점은 2/3으로 정의하기로 합니다. 만약 세 타자가 홈런을 쳤다면? 그건 그거대로 1입니다. 세 타석에서 세 점이니까요. 그리고, 이런 경우 최대 득점은 타석당 1점인 것이죠. (다분히 타자에게 적용할 때와는 다른 정의입니다.) 끝점이 선형식보다 높거나 낮게 고정되는 식이기 때문에, 우리는 투수에게 적용될 wRC/PA의 식이 선형이 아닌 아래와 같은 커브일 것이라고 예상할 수 있습니다. 


예시 그래프


이제 커브를 만들 차례입니다. 제가 쓰기로 사용한 것은 자연상수 e를 밑으로 한 지수함수입니다. 왜냐구요? 우선 먼저 이미 우리가 알고 있는 wRC식과의 연계성도 고려해 wOBALgwOBA보다 높을 때와 낮을 때를 나눠서 식을 만들어야 할 필요성이 있습니다. LgwOBA인 지점에서의 기대득점 기울기는 wRC의 기울기와 같아야 하거든요. 그리고 그 두 경우를 나눠서 생각해보면 곡선이 대충 2, 3, 등등등의 지수를 가진 다항식으로 표현될 것이고 이는 결과적으로는 자연함수가 밑인 지수함수로 표현될 것이거든요.[각주:1]

그리고 다른 이유는, 지금까지의 경험으로 봐서는 자연이 자연로그를 좋아하기 때문입니다... 또한 계산하기 편하다는 장점도 있습니다.

무엇보다 이 글에서 보듯이, wOBA가 그 자체로도 어느정도의 exponential 함수와 같은 모습을 보여주기 때문에 자연상수를 밑으로 한 함수로 만드는 것은 꽤 괜찮은 아이디어로 보입니다.

 

그렇다면 한 번 우리가 원하는 것들을 정리해 봅시다.(가정)

 

(1) wOBA=0일 때의 wRC/PA=0이 될 것이다.

(2) wOBA=wHR일 때의 wRC/PA=1이 될 것이다.

(3) wOBA=LgwOBA일 때의 wRC/PA=LgR/PA이다.

(4) wRC/PA의 기울기는 LgwOBA인 지점에서 1/(wOBA Scale)이다.

(5) LgwOBA를 중심으로 wOBA식을 나눠서 계산한다.

(6) 두 식 모두 밑이 자연상수 e인 함수식이다.

(7) wRC/PA는 연속이며, 그 식의 미분도 연속이다.

 

5. 조정식 만들기


(1) wOBA가 LgwOBA보다 작은 경우


밑이 자연상수인 식을 원하므로 로 정의하고 계산하기로 합니다. 이 때 우리에게 필요한 상수는 입니다.

그렇다면 우리가 원하는 식은 아래와 같은 식일 겁니다.



이제부터 LgwOBA, 1/(wOBA Scale), LgR/PA는 계속 쓰기 귀찮기 때문에 아래에서는 각각을 m,s,r로 표기하도록 하겠습니다.

다음에는 위에서 가정한 wRC/PA식과 가정 (1), (3), (4)를 이용하면 다음의 식을 유도할 수 있습니다.



이 식들은 다음과 같이 풀 수 있습니다.


a의 경우 로그식으로 풀 수도 있고, 또한 을 대입할 수도 있지만 위의 식이 더 깔끔한 것 같아서 위와 같이 쓰기로 하겠습니다.


(2) wOBA가 LgwOBA보다 큰 경우


이 때는 식의 기본형이 조금 다른데, 왜냐하면 wHR에서의 wRC/PA가 특정되며 wOBA가 작은 경우와는 기울기의 모양이 다를 것이기 때문입니다. 우리가 원하는 기울기를 가진 지수함수는 의 모양인 것을 같이 생각해 본다면 아래와 같은 식도 괜찮을 것 같습니다. 



오케이, 위와 같은 식을 기본형으로 가진 식을 wRC/PA로 쓰기로 합시다.

우리에게 필요한 상수는 입니다. 


wHR/PA의 기본형도 정했으니 우리에게 필요한 식은 다음과 같습니다. wHR의 경우 h로 표기하도록 하겠습니다.



앞에서와 같이 m,r,s를 사용할 것이며 가정 (2), (3), (4)를 이용하면 아래의 식을 도출할 수 있습니다.



이 식들은 다음과 같이 풀 수 있습니다.



6. 정리


위의 식들을 정리하면 wRC를 다음과 같이 정의할 수 있습니다.



(1) wOBA가 LgwOBA보다 작거나 같은 경우



로 상수를 구한 후



와 같이 계산할 수 있다.



(2) wOBA가 LgwOBA보다 큰 경우



로 상수를 구한 후



와 같이 계산할 수 있다.

 


이 식을 원래의 wRC/PA식과 비교하면 아래와 같은 그래프를 얻을 수 있습니다. (2014시즌 기준)


이전 wRC/PA식과 조정된 wRC/PA 그래프


원래의 wRC와 조정된 wRC 그래프같의 오차율이 5% 이내인 경우에만 함수값을 1로 넣을 경우 아래와 같은 Step Function 모양의 그래프가 그려지며, 그 구간은 대략 wOBA 0.260~0.620 정도의 구간입니다. 즉, 보통의 타자들이나 팀들이 속해 있는 구간입니다. 그러므로, 조정식은 나쁘지 않은 선택이라고 생각됩니다.


두 wRC/PA식같의 오차율이 5% 이내인 구간의 함수값이 1인 그래프-일명 오차율 계단



7. 적용


먼저 2010~2014시즌까지의 투수들을(각각 시즌 나눠서, 모두!!) 대상으로 한 wRC의 원래 버전과 조정 버전 계산 파일이며, 그 위의 그래프는 2014시즌의 Correlation 그래프입니다.


실제 득점(이 경우 실점)과 계산된 원래의 wRC의 상관관계



실제 득점(이 경우 실점)과 계산된 조정 wRC의 상관관계



2010~2014 Pitchers.xlsx


위의 파일과 그래프에서 알 수 있듯이 조정된 wRC 그래프의 상관관계가 조금 더 높음을 알 수 있습니다. 또한, RMSE[각주:2]값도 작다는 것을 파일을 통해서 확인하실 수 있습니다.


다음은 2010시즌부터 모든 팀들의 팀득점과 wRC, 조정된 wRC를 계산한 파일입니다.


Teams Runs.xlsx


이 경우 상관관계는 조정된 wRC에서 조금 더 낮게 나왔습니다. 그에 비해 RMSE는 정말 아주 미세하게 작음을 확인하실 수 있을 겁니다. 팀득점의 경우 wOBA가 리그 평균에 수렴하는 팀들이 많을 것이기 때문에 조정된 wRC로 계산하는 것이나 원래 wRC로 계산한 것이나 큰 차이가 없어서 그런 것으로 생각됩니다. 또한 5년간의 기록이래봤자 150팀뿐이기 때문에 조사기간을 더 전으로 확대해 보면 더 차이가 없을 것이라고 생각됩니다.


8. 결론


결과적으로, 생각보다는 괜찮은 wRC의 조정이 가능하지 않았나 생각이 듭니다. 무엇보다 극단적인 상황까지를 고정한 값으로 정의하였기 때문에 이제부터는 wRC를 조정하여 투수들의 Opponent Batting Stat에 적용하여 계산할 수 있을 것이고, 여기에서 더 나아가 기대되는 LOB%를 계산하는 등의 활동이 가능하게 될 것이라고 생각합니다. 물론, 아직은 좀 더 해야할 일이 남아 있겠지만 말입니다. 나중에 기회와 시간이 있다면, 투수들의 BABIP과 관련해서도 조금의 조정식을 거친 후 (xBABIP이 있기는 하지만 그리 마음에 들지 않습니다. 특히나 투수들에게 타자의 BABIP식을 쓸 수 있을 거라고 생각하지는 않거든요.) 어느 정도 FIP를 대체하는 새로운 ERA System을 만들어 볼 생각입니다.(물론 기회와 시간이 있다면!!말입니다.) 마지막으로 끝까지 이 글을 읽어주셔서 감사합니다.

  1. 테일러 전개에 의해 e^x 함수는 x에 대한 다항식으로 표현할 수 있습니다. [본문으로]
  2. Root Mean Square Error. 만약 n개의 샘플이 있고 예상된 값을 y', 실제값을 y라고 할 경우 모든 (y'-y)^2을 더하고 n으로 나눈 값을 Mean Square Error(MSE)라고 하고 RMSE는 MSE에 제곱근을 씌워서 계산한다. 첨부파일에서 계산된 RMSE는 전부 평균에 대비한 RMSE의 값이다. [본문으로]
Posted by 야구고물상

댓글을 달아 주세요

  1. 토아일당 2015.03.18 20:58 신고  댓글주소  수정/삭제  댓글쓰기

    앞의 글에서 말씀하신 커쇼의 경우를 잘 이해 못했습니다. 저는 wRAA와 wRC 를 투수입장 스탯으로 사용할 수 있다고 생각하는데,
    특히 앞의 글에서,
    "이를 다른 상황으로 적용해 보자면, 커쇼가 기록한 피wOBA와 같은 wOBA를 기록한 타자가 모든 타석에 다 나왔다고 상상을 해 볼 때, 우리가 아는 wRC를 이용하여 계산한 예상되는 득점이 커쇼가 실제로 기록한 실점보다 꾸준하게 더 적다는 굉장히 괴랄한 상황이 발생하게 됩니다"
    라고 하셨는데, 이런 상황이 잘 그려지지 않네요.

    단순히, 피woba가 아주 낮은 투수의 경우, 피woba가 실제 실점억제능력에 비해 과대평가된다 (실제실점 >> wOBA기준 기대실점) 라는 뜻입니까? 하지만 RC 같은것과 달리 woba는 선형식이라 그런식의 문제가 잘 생길것 같지는 않을것 같아서 말입니다.

    http://baseball-in-play.com/101 <-- 이 글은 wOBA는 아니지만 마찬가지로 투수입장XR로 투수의 zero-run을 대체레벨로 하는 피칭런을 사용해서 썼던 글입니다.

    그런데, 저 방법을 사용하면서 왠지 뭔가 잘못된게 있거나 제가 빠트린게 있나 좀 고심을 했었습니다.

    혹시 제가 뭔가 빠트린걸까요?

    • 야구고물상 2015.03.18 21:06 신고  댓글주소  수정/삭제

      맨 처음 생각한 거랑 지금 나온 버전은 조금 다른 건데요 이게 처음 wOBA 글을 쓸 때는 타자까지 다 바꿔야 하지 않을까 하는 생각이었는데(...) 생각해 보니 타자 입장에서는 팀을 중심으로 봐서 음의 득점기여가 가능하다는 생각이 들더라고요. 요지는 제 실수라는 거죠..
      그 때의 생각으로 다시 돌아가 본다면, 커쇼가 기록한 wOBA와 같은 wOBA를 기록한 타자가 9명인 팀이 기록할 득점이 커쇼보다 적다는 것은 커쇼의 실점이 wRC로 측정되는 것보다 많다는 것이고, 만약 wRC가 맞다면 커쇼가 타자를 상대하는 위력에 비해 실점률이 많다는 이상한 해석이 가능하다는 뜻이었습니다... 글을 쓰다가 글이 꼬였나 봅니다. 그리 크게 생각하실 건 없어요.

      아 댓글에 달린 거로 쓰자면 피wOBA가 아주 낮은 투수의 경우 피 wOBA의 예상보다 실점이 많을 거란 얘기입니다. 정확하게 캐치하셨네요.

      사실 이거 만든 것도 wOBA에 대한 사랑 때문에 나온 거라서요. 회귀식보다는 실제 상황을 분석해서 나온 Run Value라는 것에서 파생된 피 wOBA가 좀 더 명확하지 않냐는 생각에서 말이죠.

    • 야구고물상 2015.03.18 21:53 신고  댓글주소  수정/삭제

      사실 진짜 보정을 가하자면 wOBA 자체를 보정하는 게 더 맞는 방법이라고 생각합니다. wOBA는 선형식이지만, 득점 창출의 과정 자체는 완벽하게 선형이라고 생각하지는 않거든요. 실제로 위에 링크된 하드볼 기사에서는 wOBA가 분석하려고 드는 득점의 창출의 경우 exponential함수의 형식을 가지는 게 좀 더 좋다고 말하고 있고요. 근데 처음 생각한 거 자체가 wRC를 어떻게 조정해 보자는 거였고, wOBA식을 조금 다르게 하는 걸 생각하기에는 생각보다 시간이 없을 것 같아서 우선 미봉책으로나마 wRC 조정을 가한 겁니다.
      그리고 피칭런 글에서 빠진 건 없어 보입니다.ㅎㅎ

뭐, 이 글을 나 때문에 썼다고?


모든 스탯은 Fangraphs에서 얻었습니다.


1. 득점 창출


wOBA를 소개하기 이전에 세이버매트릭스의 전체적인 흐름 정도는 소개할 필요가 있을 것 같습니다. 세이버매트릭스가 태동한 이후 많은 세이버매트리션들은 득점이 어떻게 만들어지는지에 대하여 여러 연구를 수행하였습니다. 물론 만들어지는 과정 자체는 여러 루트가 있겠지만, 많이 루상에 나가고(출루율), 많은 장타를 쳐 내면(장타율) 많은 득점을 창출할 수 있다는 사실을 우리는 많은 경기를 보아온 바 알고 있습니다. 그런 이유에서 탄생한 것이 바로 세이버매트릭스계의 기본이자 혁명이라고 할 수 있는 OPS(On Base Plus Slugging)입니다. 하지만, 우리가 알고 있듯이 단타를 친 후 창출되는 득점이 꼭 2루타를 친 후 창출되는 득점의 1/2는 아닙니다. 볼넷을 얻어내서 창출되는 득점이 단타에 의해서 창출되는 득점과 같은 것은 아니지요. 그래서 빌 제임스는 RC(Runs Created)와 같은 스탯을 만들었고, 짐 푸르타도는 XR(Extrapolated Runs)곽 같은 스탯을 만들어냈습니다. 그래도, 뭔가가 부족했습니다. 그래서 누군가는 생각해 냈죠. 해당하는 이벤트가 만들어내는 득점을 PBP(Play by Play) 데이터를 이용해 계산해 보기로 하자! 그리고 그 결과를 이용해 계수를 구한 후 득점력을 설명해 보자! 그런 생각에서 세상에 나온 개념이 Run Value입니다.


2. Run Value를 구하기 전에 잠시...


먼저 runValue를 구하기 위해서는 RE(Runs Expectancy, 기대득점)를 구해야 합니다. 왜냐구요? 모든 득점이 같은 상황에서 똑같은 방식으로 나오지는 않기 때문에 각 아웃 카운트에 해당하는 상황마다 평균적으로 기대되는 득점을 구해야만 각 이벤트가 가지는 순수한득점의 가치를 구할 수 있기 때문일 것이기 때문입니다.

먼저 RE를 구하기 위해서는 모든 아웃 카운트에 해당하는 상황을 생각해 보아야 합니다. 먼저 아웃카운트를 생각해 봅시다. 우리가 야구경기를 보면서 볼 수 있는 아웃 카운트는 0,1,2가 있습니다. 3아웃 체인지 아니냐고 묻는다면, ‘3아웃이면 이닝이 끝나기 때문에 우리가 상관할 바가 아니다라고 할 수 있겠습니다. 다음에 우리가 생각할 수 있는 상황은 루상에 주자가 있느냐, 아니냐입니다. , 주자 있음과 주자 없음에 대한 각각의 상황이 1, 2, 3루에 다 존재합니다. , 주자가 루상에 채워져 있는 상황은 2^3=8가지 상황이 있는 것입니다. 그러므로, 아웃 카운트까지 생각해 타자가 겪을 수 있는 상황은 3*8=24가지입니다.

우리가 원하는 것은 기대되는 득점의 값이므로, A라는 상황(예를 들자면 무사 1루 상황 같은 어느 특정한 상황)의 수를 그 해당하는 상황이 일어난 해당 이닝이 끝날 때까지 득점한 득점의 수를 나눈 값이 각 해당 상황(Event)RE가 되는 겁니다. 1999~2002시즌의 RE는 아래 링크를 들어가 보시면 보실 수 있습니다.

1999~2002시즌 기록으로 계산한 RE

 

3. Run Value 구하기


먼저 몇 가지 생각을 해 봅시다. 위의 링크에 나온 표를 참조하시면 이해가 더 빠르실 겁니다.

어떤 선수가 나와서 무사 주자 없는 상황에서 홈런을 첬다고 생각해 봅시다. 원래의 무사 마루 상황에서 기대되는 득점은 0.555점입니다. 이 때 홈런을 쳤다면 이는 솔로 홈런이고, 이후의 상황은 무사에 주자가 없으므로 더 기대되는 점수는 0.555점이므로 기대득점은 1.555점이 됩니다. 그리고 이 홈런의 득점가치는 기대득점 1.555점에서 원래 기대되는 득점 0.555점을 빼서 1점이 됩니다.

이에 비해 2사 만루 상황에서 만루홈런을 쳤다고 가정해 봅시다. 홈런을 쳤기 때문에 홈런을 친 후 상황은 2사 주자 없음이 되므로 그 때 기대되는 득점은 0.117점이고 얻어낸 득점은 4점이기 때문에 기대득점은 4.117점입니다. 그리고 원래 2사 만루 상황에서 기대되던 득점은 0.815점이기 때문에 2사 만루 상황에서의 만루홈런의 순수한득점가치는 0.117+4-0.815=3.302점입니다. 그리고 이런 방식으로 모든 상황에 상응하는 홈런에 대한 순수한 득점가치를 구한 후 그 가중평균을 계산하면, 그것은 곧 홈런의 runValue가 됩니다. 만약 시즌의 홈런이 1000개 나왔고(가정입니다...) 솔로홈런이 그 중 400, 만루홈런이 600개가 나왔다면(다시 한 번 말하지만 가정입니다....) 홈런의 runValue는 runValue=(1*400+3.302*600)/1000=2.381점이 됩니다. 이런 방식으로 실제 리그 기록을 이용하여 각 이벤트에 대한 runValue를 구하면 됩니다.

참고로 실제 리그 기록을 가지고 홈런의 runValue를 구해 보면 대략 1.4점 정도로 계산됩니다.


4. wOBA


이제 runValue를 어떻게 구하는지 알아보았으니 wOBA에 대해 설명할 차례입니다.(헉헉..힘들어 죽겠습니다..) wOBAWeighted On Base Average를 뜻합니다. 가중출루율 정도로 해석할 수 있을 듯 하군요. 이름에서 몇 가지 사실을 유추해 낼 수 있습니다. Weight에서 어떤 가중치가 있다는 것을 생각해 볼 수 있고, On Base Average라는 것에서 출루율 스케일로 만들어낼 것이라는 것이죠.

우리가 원하는 것은 공격적인 요소들과 runValue를 이용하여 출루율 스케일의 스탯을 만들어내는 것입니다. 우리가 원하는 것은 runValue를 이용하여 weight를 구하고, 그를 이용하여 출루율 스케일의 스탯을 구하는 것입니다. 이 때 weight을 로 정의해 봅시다. 이 때 i는 그냥 첨자를 의미합니다. 즉, 는 wBB 등을 다 포함하는 개념입니다.

우리가 위에 말한 방식대로라면 아마 식은 이런 방식이 될 것 같군요.



이 때 IBB는 투수가 일부러 상대타자를 피한 경우이기 때문에 계산에서 제외하는 것입니다.

그리고 출루율 스케일이어야 하므로, LgwOBA=LgOBP여야 합니다. 이 때 wOBA의 분모와 OBP의 분모도 같기 때문에



의 식이 성립함을 알 수 있습니다. 결과적으로 아래와 같이 쓸 수 있을 겁니다.

 (각 i는 득점을 하기 위해 필요한 타격 요소들을 의미합니다.)

또한 분모를 두 부분으로 나눠봅시다.

AB+BB-IBB+HBP+SF=X라고 할 때 X=M+P로 정의하고 M=AB-H+SF, P=H+BB-IBB+HBP로 정의하기로 합니다. 위의 정의를 보면 아시겠지만, M은 아웃을, P는 진루를 시키는 모든 요소를 더한 것임을 알 수 있을 겁니다. 위에서 저는 득점을 하기 위해 필요한 타격 요소들을 로 정의하였는데, 이는 위에서 정의한 P와 같습니다. 그러므로, 우리는 아래의 식을 풀어야 함을 알 수 있습니다.



이 때 는 Run Value들을 의미합니다. 여기서 갑자기 Run Value가 튀어나온 이유는 분모에서 득점에 실이 되는 것과 득이 되는 요소들이 각각 P,M이고 각각의 득이 되는 이벤트들(단타, 2루타 등등)은 아웃에 의한 득점가치에 대한 득점가치들을 더한 값을 이용하여 weight를 계산해내야 할 것이기 때문에 아웃에 의한 득점가치, 아웃이 아닌 것에 대한 득점가치가 필요하여 나오게 되는 것입니다. 또한 위에서 제가 쓴 아래첨자 I,j는 dummy variable로 사실상의 큰 의미는 없고 딱 계산을 잘 하기 위해 필요한 첨자 정도로만 의미가 있다고 보시면 됩니다여튼 이를 다시 풀어보면



의 식을 얻어낼 수 있습니다.

이 때 제가 정의한 rPLUS와 rMINUS, 그리고 각각의 weight는 아래의 식과 같습니다.



또, 편의상 wOBA SCALE을 아래와 같이 정의합니다.



그러므로 wOBA의 계수는 아래와 같이 구하면 됩니다.(BB의 경우)



이 때 rPLUS는 아웃이 아닌 타격에 의한 득점 가치를, rMINUS는 아웃에 의한 득점 가치를 의미합니다.

 

5. Fangraphs 방식으로 wOBA 구하기


사실 runValue를 구하기 위해서는 모든 PBP 데이터가 필요합니다. 근데, 우리의 영원한 아이돌이신 Tom Tango는 조금 다른 방식으로 runValue의 근사치를 구해내는 방법을 고안했습니다.

먼저 Runs Per Out을 구해봅시다. 이는 다른 게 아니라 을 뜻합니다. 아래에서는 이를 줄여서 RpOUT으로 쓰도록 하겠습니다.


다음에는 딱 아래와 같이 구하면 됩니다.


runBB=RpOUT+0,14

runHBP=runBB+0.025

run1B=runHBP+0.13

run2B=run1B+0.3

run3B=run2B+0.27

runHR=1.4


이는 Tom Tango의 버전과는 조금 다른데, Fangraphs는 위와 같이 RunValues를 구하는 것 같더군요.

다음 wOBA의 계수를 구하는 과정은 우리가 4번에거 구한 과정을 이용하여 구하면 됩니다.

예를 들어서 2014시즌의 wOBA 계수를 구해보면 아래와 같은 결과가 나옵니다.


 RpOUT

runBB 

runHBP 

run1B 

run2B 

run3B 

runHR 

 0.151

0.291 

0.316 

0.446 

0.746

1.016 

1.400 


rMINUS=-0.238

rPLUS=0.529

wOBA SCALE=1.304


 wBB

wHBP

w1B 

w2B 

w3B 

wHR 

 0.689

0.722 

0.892 

1.283 

1.635 

 2.135


위의 계수를 Fangraphs의 Glossary 코너에서 확인해 보면 정확히 계산되었다는 사실을 알 수 있을 것입니다.


아래는 제가 구한 Fangraphs 방식의 runValuewOBA 계수 엑셀 파일입니다.

 

runValues,wOBA Coefficients.xlsx


6. 후기


우리 같은 보통 야구팬들이 모두가 PBP 데이터를 가지고 계산하기에는 여간 힘든 게 아닙니다. 이런 건 보통 데이터베이스 프로그램을 이용하여 계산해야 하는데, 모든 사람들이 다 그 방법을 아는 건 아니거든요. 그래서 5번과 같은 방식이 있다는 것은 분명 우리 같은 일반 팬에게는 혁명과도 같은 발전이라고 할 수 있겠습니다. 5번의 방식이 정말 원래의 runValue와 비슷한지 궁금하실 수 있으실 텐데, 제가 개인적으로 데이터를 다운받아 계산해 본 바에 의하면 정말 거의 비슷합니다. 그러므로 적어도 5번의 방식을 이용하여 wOBA를 계산하는 것이 큰 무리는 없다고 생각합니다.

지금까지 잘 설명해 놓고 제가 이런 말을 하면 굉장히 이상하겠지만, 사실 제가 이 글을 쓴 이유는 단순하게 wOBA를 계산하는 방식과 그 식이 어떻게 나왔는지를 설명하기 위해서 쓴 것은 아닙니다.(..아니 조금은 있습니다...) 저는 언제나 투수의 스탯에 관심이 많습니다. 그래서 투수의 Opponent Batting Stat을 통해 wRC를 계산하면 대략적으로 투수가 기록할 실점을 계산할 수 있지 않을까?’ 하는 생각에서 계산을 하곤 했습니다. 실제로 투수가 실점을 하나 상대팀이 득점을 하나 득점 환경은 똑같기 때문에 전혀 다르게 생각할 필요는 없다고 생각한 것입니다. 하지만, 저의 생각과 다른 구간이 있더군요. 바로 평균적인 wOBA에 비해 wOBA가 굉장히 낮은 경우입니다. 대략 wOBA가 0.250정도이거나 그보다 작을 때 정도입니다. 대표적인 선수가 클레이튼 커쇼입니다. 클레이튼 커쇼는 언제나 굉장히 낮은 피wOBA를 기록합니다. 하지만 그에 상응하는 wRC는 커쇼가 기록하는 실점보다 훨씬 적었습니다. 커쇼가 실점 억제를 못하는 선수일 리는 지금까지의 경험으로는 전혀 없습니다. 커쇼의 LOB%는 통산 78.3%입니다. MLB에서는 아무리 높아도 리그평균이 75%를 넘지 못합니다. , 커쇼는 적어도 실점 억제력이 나쁜 선수는 아닙니다. 이를 다른 상황으로 적용해 보자면, 커쇼가 기록한 피wOBA와 같은 wOBA를 기록한 타자가 모든 타석에 다 나왔다고 상상을 해 볼 때, 우리가 아는 wRC를 이용하여 계산한 예상되는 득점이 커쇼가 실제로 기록한 실점보다 꾸준하게 더 적다는 굉장히 괴랄한 상황이 발생하게 됩니다.(!) 그러므로, wOBA가 굉장히 작은 경우 조금 다른 식이 필요하지 않을까 하는 생각을 하게 된 겁니다. 그러니까 정리해 보자면, 제가 이 글을 쓴 이유는 제가 만든 새로운 wRC의 근사식을 소개하기 위한 추진력을 얻기 위해 쓴 것이라고 할 수 있습니다.(...) 

그러니, 만약 이 글을 보셨다면, 다음 글도 기대해 주시길 바랍니다.(...)

마지막으로 끝까지 읽어 주셔서 감사합니다.

Posted by 야구고물상

댓글을 달아 주세요




강정호는 현재 KBO의 새로운 신화를 쓰고 있습니다.



이번 시즌 KBO를 보는 팬들에게 가장 핫한 이슈 중 하나(?)라면 강정호의 해외진출 건이라고 할 수 있겠습니다. 이 건은 스탯으로 다루기가 굉장히 재밌으면서도 다루기 위험한 이슈인데, 먼저 KBO 타자가 MLB로 직행한 것이 없다는 점, 그리고 만약에 NPB로 진출하고 MLB로 단계적으로 진출했다고 생각할 경우 NPB로 진출한 KBO 타자들이 매우 적다는 것을 들 수 있습니다. 저는 위에 쓴 KBO->NPB->MLB로 단계적으로 스탯변화폭을 사용하여 강정호의 해외리그에서 기록할 것으로 보이는 스탯의 예상치를 계산하기로 하겠습니다. (완전 도박이자 잘못된 접근방법일 수도 있습니다.) 사실 AA->AAA->MLBAA->MLB의 차이를 비교하여 KBO->MLB 보정도 같이 하고 싶었지만 선수들이 굉장히 많을 것이기 때문에 저 혼자서 하는 것은 불가라고 판단(...) 저의 원대한 꿈은 작아지고 말았습니다.(....) 지금까지는 사족이었고 여튼 불완전하지만 KBO->NPB 변화폭과 NPB->MLB 변화폭을 이용하여 NPB 예상스탯과 MLB 예상스탯을 계산하는 방법을 사용하기로 하였습니다.

 

1. 예상의 방법

 

KBO->NPB

 

1. KBO에서 NPB로 진출한 타자 다섯 명(이승엽, 이병규, 김태균, 이범호, 이대호)들의 스탯 변화량을 이용한다

*이 때 이종범이 명단에서 빠진 이유는 스탯의 기준으로 본 Baseball-Reference에서 1999시즌 이전의 리그 기록을 찾을 수 없었기 때문입니다. 또한 1998시즌 NPB로 진출하였기 때문에 시대적으로 약간 다를 수 있다고 생각해서 명단에서 빼도 괜찮다는 생각이 들었기 때문입니다.

2. KBO에서의 마지막 시즌, KBO에서의 마지막 두 시즌, KBO에서의 마지막 세 시즌의 기록과 NB에서의 첫 시즌 기록을 이용하여 기록의 변화량을 계산한다. 이 때 기록은 모두 리그 기록에 대한 조정기록에 대하여 변화량을 계산하여 기록하기로 한다. 예를 들자면, 선수의 K%20%이고 리그의 K%16%이면 1.25로 변환한 후 변화량을 계산하는 것이다. 이 때 선수들이 NPB에서 기록한 타석수의 전체에 대하여 그 선수가 기록한 타석수를 변화량이 기록되는 확률(P)로 계산하여 평균적인 변화량을 계산한다.



위의 과정에서 표준편차도 같이 계산한다.



3. 위에서 말한 마지막 1, 2. 3년에 대한 기록들과 변화된 양의 표를 각각 BABIP+, K%+, BB%+, HR%+에 대하여 계산한 후 각각에 대하여 무엇이 가장 실제 NPB 기록과 차이가 적은지를 계산하여 마지막 몇 년의 기록을 이용할지 결정한다. 계산 결과 KBO에서의 마지막 2년의 기록을 이용하기로 한다.

4. 선수의 KBO 기록과 변화율, 그리고 변화율의 표준편차를 이용하여 상중하의 결과를 PLNL에 대하여 계산한다.

5. 마지막으로 주관을 적용하여 예상성적을 대략적으로 계산한다. 또한 이 때 대략적인 wRC+WAR을 계산한다.

 *KBO의 파크팩터에 대해서는 2007~2011시즌 기록으로 계산한 값을 이용하였습니다. (이 때 목동의 홈런팩터가 1보다 작게 나오는데, 개인적으로는 지금의 목동의 홈런 팩터는 박병호 등에 의해 과대평가(?) 되었다고 생각하기 때문에 그대로 사용하기로 하였습니다.) 또한 NPB 팩터는 홈런 팩터만 사용하였고, A에서 찾았다. 이 때 홈런 팩터라고 되어 있는 값에 (1+HRPF)/2로 계산한다.

 

NPB->MLB

 

1. 다음의 선수들에 대하여 변화량을 계산한다.

스즈키 이치로, 신조 츠요시, 마쓰이 히데키, 마쓰이 가즈오, 이구치 타다히토, 조지마 켄지, 이와무라 아키노리, 후쿠도메 고스케, 니시오카 츠요시, 아오키 노리치키, 가와사키 무네노리

이외에도 몇 명의 선수가 MLB로 진출하긴 했지만(대표적으로 다구치 소) MLB에서의 첫 시즌에서 100타석 이하로 나왔기 때문에 계산에서 제외하기로 한다.

2. NPB에서의 마지막 시즌과 MLB에서의 첫 번째 시즌에 대하여 성적의 변화량과 표준편차에 대하여 계산하고 그 이외의 방법은 위와 동일하게 계산한다.

3. 마지막으로 강정호의 MLB 예상 기록을 NPB에서의 성적에 대하여 MLB 성적 변화량을 이용하여 계산한다.

 

2. 계산

 

KBO->NPB

 

아래는 변화량 표입니다.


크게 보기


이 때 다른 기록들은 표준편차를 1시그마만 이용하여 HIGHLOW를 계산하였지만 BABIP의 경우 표준편차가 굉장히 작기 때문에 5시그마로 계산하기로 하였습니다.


크게 보기

 

이 표를 이용하여 강정호를 PL, CL에 대하여 LOW, MEAN, HIGH로 계산한 표는 아래와 같습니다. 기록 기준은 2014시즌 기준입니다.


크게 보기 


WAR을 계산할 때 수비에 대해서는 HIGH에서의 타석일 때 모든 이닝을 다 나온다고 가정하여 비율로 계산하였고 UZR0을 기록하는 것으로 가정하여 계산하였습니다.

다음은 제 주관을 이용하여 강정호가 어느 정도 기록을 할 수 있을지에 대하여 계산한 표입니다. 제 생각에 이대호에서 볼 수 있듯이 강정호가 MEAN의 기록보다는 높게 나올 수 있다고 생각하기 때문에 조금 높은 기준에서 주로 잡아서 계산하였습니다.


크게 보기

 

NPB->MLB

 

아래는 변화량 표입니다.


크게 보기


이 때 다른 기록들은 표준편차를 1시그마만 이용하여 HIGHLOW를 계산하였지만 위에서와 같이 BABIP의 경우 표준편차가 굉장히 작기 때문에 5시그마로 계산하기로 하였습니다.


크게 보기


 이 표를 이용하여 강정호를 NL, AL에 대하여 LOW, MEAN, HIGH로 계산한 표는 아래와 같습니다.

 

크게 보기


수비에 대하여도 위와 같이 계산하였습니다. 기록은 2014시즌 기준입니다.

다음은 제 주관을 이용하여 강정호가 어느 정도 기록을 할 수 있을지에 대하여 계산한 표입니다. MLB에서 생각보다 괜찮은 기록을 할 수 있는 생각은 드는데, 그렇다고 그리 크게 차이가 나기는 힘들다고 생각하므로 거의 MEAN값과 비슷한 정도로 예상했습니다.


크게 보기


3. 결론

 

결론적으로, NPB로 진출한다면 타율은 생각보다 낮을지 몰라도 굉장한 파워를 가진 유격수가 가능하다는 생각이고(wRC+130정도는 적어도 하지 않을까 생각) WAR5가 넘는 정도의 활약이 가능하다는 생각입니다. 그리고 MLB로 간다면, 준수한 파워의 공갈포(...) 유격수, 최대 삼진 많은 헨리 라미레즈급의 공격력을 가진 괜찮은 유격수가 될 수 있다는 생각입니다. (대략적으로 WAR 2~4정도) , 물론 MLB의 경우 강정호가 MLB의 풀시즌을 뛸 만한 좋은 체력을 가지고 있다면 말이죠. 기록을 통해 보면, 모두가 그렇게 생각하겠지만 삼진비율이 가장 큰 문제가 될 수 있다는 생각입니다. 현재도 리그에서 평균보다 1.2배정도의 삼진을 당하는 선수이므로 NPBMLB로 간다면 아마 엄청나게 많은 삼진을 잡힐 것이라는 것이 그 이유입니다. 그리고 MLBNPB의 경우 BABIPKBO에 비해 낮기 때문에(KBOBABIP...) 그 때문에 생각보다 낮은 타율을 기록할 가능성도 있다고 생각합니다. 덧붙여, MLB 예상 성적은 이번 시즌의 이언 데스몬드(워싱턴 내셔널스)의 슬래쉬라인과 굉장히 비슷합니다.


크게 보기


만약 삼진 비율을 줄일 수 있다면, 2012~2013시즌의 데스몬드처럼 SS급의 유격수가 될 수도 있습니다. (툴로가 없다면 말이죠.)

 

4. 후기

 

이번 시즌의 강정호는 정말 어메이징 합니다. 아마 이보다 더 대단할 수는 없을 겁니다. (더 대단하면 강정호가 아니라 베이브 루스죠...아 유격수니까 호너스 와그너??) 그런 면에서 위의 예상성적은 그에 비해 살짝 부족해 보일 수 있습니다. 그리고 그 이면에는 굉장히 높은 삼진율이 자리하고 있습니다. 그래서 생각보다 낮은 타율을 마크할 가능성이 있다고 생각합니다. , 그래도 상위리그에서 굉장히 준수한 공격력을 보여줄 수 있는 선수라는 것이 결론입니다. (NPB에서 wRC+ 140 이상, MLB에서도 유격수로 wRC+ 100정도 하는 유격수 찾기는 꽤 어렵습니다.) 하지만, 위에서 이야기 했듯이 KBO에서 MLB로 직행한 야수가 없는 점, 그 외에도 샘플이 적다는 점 등이 이 예상의 한계라는 것을 생각한다면 강정호가 위의 기록보다 좋은 성적을 마크할 수도 있다고 생각합니다. (그렇다고 위에서 계산된 HIGH만큼은 아닐 겁니다.) 


기록은 KBO 홈페이지, Baseball-reference, Fangraphs에서 참고하였습니다.

KBO 파크팩터는 야구도락 블로그에서, NPB WAR 계산에 대한 정보는 네이버 블로그에서, NPB 홈런팩터는 이 사이트에서 얻었습니다.

부분적으로 KBREPORT.COM에서 아이디어를 얻었습니다.

Posted by 야구고물상

댓글을 달아 주세요

  1. 토아일당 2015.02.24 10:04 신고  댓글주소  수정/삭제  댓글쓰기

    http://baseball-in-play.com/89
    전에 썼던 글인데, 리그를 옮긴 선수의 예상성적 예측과 관련된 내용입니다.
    혹시 흥미있어하실지도 모르겠다 싶어서... ^^

    • 야구고물상 2015.02.24 22:49 신고  댓글주소  수정/삭제

      감사합니다. 역시 Projection의 세계는 무궁무진합니다.ㅎㅎ
      강정호 예상은 한 번 더 해 보려고요. 이번에는 나이에 대한 것들도 좀 고려해 볼 생각입니다..

  2. 친절한민수씨 2015.02.26 12:32 신고  댓글주소  수정/삭제  댓글쓰기

    우와 저도 세이버매트릭스 공부해보고 싶은데..대단하네요.

    강정호 선수 대단하죠.
    작년 기록만 보면 56홈런 칠때 이승엽과 둘중 택하라면 강정호를 대부분택할거라 봅니다.

    그런데 작년이 워낙 극 타고투저 시즌이라 성적자체가 의문이 가기도 해요
    원래 강정호는 2할후반에서 3할언저리에 20홈런정도 (유격수로 대단한 기록)치는 선수였는데...
    작년이 과연 기량이 늘은것인지 , 타고투저의 작품인지가 의문이에요.

    과연 얼마나 할지 저도 너무 궁금합니다.
    개인적으로 주전이 우선이고 주전일시에 .250에 홈런 10개정도면 만족이라 봅니다.


저는 두산이 4위를 하기 원합니다...


8월 들어 프로야구 팬들에게 가장 큰 화두는 단연 4위 싸움에서 누가 과연 이길 것인가 하는 문제일 것입니다. 2014시즌 827일 기준 성적으로 보자면, 삼성이 승률 0.670으로 1, 그리고 넥센과 NC2,3위권을 공고히 하고 있으며 4LG부터 9위 한화의 승차는 5.5게임입니다. 그나마 최근 LG가 좋은 페이스를 보이며 4위와 9위까지의 승차가 벌어졌네요. 하지만 5위부터 9위는 1.5게임차가 나는 상황이고 약 25게임 정도가 남은 상황이라 LG가 승차를 벌렸다고 해도 안심할 수는 없는 상황이라고 생각합니다. 그런 의미에서, 한 번 이 뜨거운 감자에 손을 대 볼 생각입니다.

 

1. 상대팀별 승률 예상

 

위의 제목에서 통계적 방법이라고 했듯이, 먼저 팀의 기대 승률을 알아보기 위해 가끔씩 사용되는 Log5 System을 사용할 예정입니다. 물론 Log5 System은 승률이 A이고 B인 팀이 맞붙었을 때의 승률 계산에 이용되므로 약간 핀트가 다르다고 볼 수 있는데, 저는 팀의 기대 승률, 기대 승수를 알기 위해서 각 팀의 상대 전적과 남은 경기를 이용할 것이기에 Log5 System을 이용하는 것이 무리는 아니라고 생각합니다. 그러기 위해서 먼저 피타고리안 승률을 계산할 필요가 있겠군요. 다만 한 가지 걸리는 것은 이번 시즌의 경우 워낙에 점수가 많이 나다 보니 가끔가다가 24:5 같은 경기가 벌어져서 피타고리안 승률의 예측력이 조금 떨어질 가능성이 있다는 것입니다...하지만 이 부분의 경우 투고타저라도 2012시즌의 볼티모어(9369, 득실 마진 +7...)같은 문제도 있고 해서 큰 문제는 아니라고 생각하고 계산할 때 그냥 때려 박을 생각입니다.(...) 원래는 홈과 원정을 나눠서 해 보려고 했는데(의외로 이 작업은 이틀만에 다 했습니다...) 그게 홈 원정 승률 차이가 큰 차이도 없고 해서 그냥 통합해서 하기로 하였습니다. (집에서 다른 거 더 할 걸...) 보통은 피타고리안 승률 적용시 상수를 2, 혹은 1.85 정도로 놓는데 저는 (경기별 득점+실점)^0.287로 하여 상수를 계산하고 피타고리안 승률을 계산하였습니다. 결과는 아래 표와 같습니다.


 팀

피타고리안 승률 

 삼성

0.645 

 넥센

0.566 

 NC

0.610 

LG

0.499 

 롯데

0.500 

 두산

0.459 

SK

0.451 

KIA 

0.420 

 한화

0.352 


이를 통해 Log5 System을 계산할 예정입니다. 먼저, Log5 System 계산을 위해 각 팀의 능력(?)을 계산합니다. 왜냐 하면 Log5 System의 계산에서는 각 팀의 능력에 대하여 a팀을 A, b팀을 B라고 할 때 a팀은 A/(A+B)의 승률을, b팀은 B/(A+B)의 승률을 기록할 것으로 예상하기 때문입니다. 이 때 승률 0.5인 팀은 능력도 0.5로 계산되며, 이에 맞춰서 능력을 계산하시면 됩니다. (예를 들자면 승률이 a이고 능력이 A인 경우 A=a/(2(1-a)).) 그리고 이 능력을 계산했으면, 위에서 말한 식대로 각 팀간의 상대승률을 계산합니다. 그 승률은 아래의 표와 같습니다. (읽는 법은 한국야구위원회에 나오는 팀간 승패표 보는 것과 같습니다.)

 


2. 기대승률과 기대순위 예상

 

다음은 남은 경기들과 위의 상대승률을 이용하여 예상되는 승수를 계산하는 것입니다. 여기에서 저는 앞으로 무승부는 없는 것으로 가정했습니다. 원래는 무승부도 계산에 넣어야 하겠지만, 그 경우 계산이 복잡해지고 또한 무승부의 빈도가 적기 때문에 계산하지 않기로 하였습니다. 이 때 팀의 승은 소수점으로 나타날 수 없기 때문에 반올림한 후 승과 패를 계산하기로 하였습니다. 그 결과 각 팀의 예상 승, , 패는 다음과 같습니다.

 



3. 4위 확률 계산

 

이제 4위 확률을 계산해야겠는데요, 이 때 원래는 남은 경기와 승률의 모든 경우를 계산해야겠지만 그 작업은 혼자 하기에는 너무 많은 작업이 필요하므로 여기에서 푸아송 분포를 도입하기로 하였습니다. 승패의 모든 경우에 대하여 분포를 계산하면 되므로(=이산확률로 계산될 것이기 때문에) 푸아송 분포를 따를 것이라고 생각했기 때문입니다. 위에서 남은 경기의 승패를 계산한 후 푸아송 분포로 각 팀의 각각의 승률의 분포를 계산하기로 한 것입니다. 그리고 그 그래프는 아래와 같습니다.

 

각 팀별 승률 분포 그래프 <그래프별 색깔은 제가 지정하는 방법을 몰라서 색깔이 비슷비슷합니다. 죄송합니다.>


이제 4강 확률을 계산할 차례입니다. 삼성이 사실상 4위를 할 확률은 거의 없고(남은 모든 게임을 다 져도 0.532....) 넥센과 NC는 아주 약간씩 있기는 한데 그게 계산에 큰 변화를 줄 만큼 크지는 않기 때문에 이 경우도 4위를 할 확률은 없다고 가정하고 계산하기로 하였습니다. 그 과정은....사실 아래와 같은 노가다로 일일이 계산했습니다.

 


위와 같이 다른 팀들이 그 팀의 승률보다 낮을 확률에 대한 경우를 일일이 계산하고 각 확률들을 곱한 후 팀의 각 승률마다 4위가 될 확률들을 더하여 전체의 4위 확률을 더하는 겁니다.

그 결과는 아래의 표와 같습니다. 이게 약간의 오차가 생겨서 값을 더해보니 확률이 1이 안 나와서(아마 위의 세 팀이 4위를 할 확률 등등일 겁니다.) 확률의 합이 1이 되도록 조정을 했습니다.

 

4. 결과

 

아래의 표를 확인하시길 바랍니다.


 팀

4위 확률 

 LG

38.3% 

 롯데

22.2% 

 두산

21.6% 

 SK

8.0% 

 KIA

8.0% 

 한화

1.9% 

 

위에서 보듯이 LG4위를 할 확률이 현재로는 가장 높다고 생각됩니다. 4위 확률 순위는 지금의 순위와 같네요. (;;당연한가요..) 하지만 아직 3팀이나 20% 이상이 4위 확률이기 때문에 3팀 다 어느 정도 가능한 수준이라고 볼 수밖에 없을 듯 합니다. 무엇보다 위의 과정상의 허접함으로(...) 오차가 있을 수 밖에 없음을 가정하면 LG가 약 30~40% 정도, 롯데 두산이 약 15~25% 정도로 생각할 수 있을 듯 합니다. 그리고 SK, KIA, 한화는 10% 미만으로 계산되기는 하였지만 아직 희망의 끈을 놓을 때는 아닌 것으로 보입니다. 


5. 결론


2001시즌 이후 최고의 4위 싸움(...이라고 말은 하지만 사실은....)으로 꽤나 재밌는 상황이 연출되고 있습니다. 어떻게 돼든 4위는 포스트시즌의 막차를 타는 것이므로 지금 이 상황에서는 4위 이하의 팀들이 모두 4위를 원할 수 밖에 없는 상황입니다. 각 팀의 팬들 힘내시길 바라며 각 팀은 재밌는 4위 싸움을 해 줬으면 좋겠습니다.


+두산은 제발 후회 없이 좋은 경기 좀 했으면 좋겠습니다....제발..


모든 기록은 한국야구위원회서 참조하였습니다.

Posted by 야구고물상

댓글을 달아 주세요

  1. 삼팬 2015.09.13 17:20  댓글주소  수정/삭제  댓글쓰기

    안녕하세요. 글 잘 보고 있습니다. 근데 푸아송 분포에서 어떤 값을 넣으셨나요? 제가 이와 비슷하게 글을 써보려고 하는데 거기서 막혔네요...

    • 야구고물상 2015.09.13 23:25 신고  댓글주소  수정/삭제

      요새 따로 할 일이 많아서 글을 못 쓰고 있는데도 읽어 주셨다니 감사합니다!!

      푸아송 분포 적용의 경우, 위키피디아에 나오는 식을 중심으로 쓰자면 lambda의 경우 평균적으로 기대되는 승수, 그리고 k의 경우 k번 이길 경우를 생각하고 계산했습니다. 그러니까, 만약에 20경기에서 10승이 평균적으로 기대된다면 lambda에 10을 넣고, 거기에서 15승을 하는 경우의 확률을 계산하고 싶다면 k에 15를 넣는 식으로 말입니다.
      만약 패배를 중심으로 하고 싶으면 위에서 승리를 패배로 바꿔서 계산하면 됩니다.

  2. 2015.11.20 01:05  댓글주소  수정/삭제  댓글쓰기

    비밀댓글입니다

  3. 2015.11.20 01:19  댓글주소  수정/삭제  댓글쓰기

    비밀댓글입니다

  4. 경숙 2016.11.08 11:59  댓글주소  수정/삭제  댓글쓰기

    3번 포아송그래프에서 y축이 무엇인가요?


2013시즌 공포의 출루 듀오.. 안타깝게도 이번 시즌은 둘다 부진하네요,



오랜만에 돌아왔습니다. (3개월 이상 들어오지 않았다고 휴면계정이었다네요.ㅋㅋ) 하하;;근데 하필 돌아오니까 정말 필요 없는 거 하나 만드네요...

 

이 포스팅에서 다룰 것은 제가 만든 APD, Adjusted Plate Discipline으로 조정된 선구안이라는 개념으로 만든 겁니다. (근데 사실 선구안을 보고 싶으면 팬그래프에서 Plate Discipline란을 보는 게 나을 겁니다..)

 

1. 개념

 

말 그대로 Plate Discipline의 조정으로 한국말로 하자면 조정 선구안(...)쯤 되는 개념으로 만들었습니다. 저는 선구안을 주로 보고 싶기 때문에 고의4구를 제외한 4구를 취급할 것입니다. 그리고 사구의 경우 선구안이라기보다는 타석에서의 approach와 관련된 것이라고 생각하여 사구를 제외한 타석에 대하여 LIBB%를 구한 후 이것을 투수 이외의 선수들 평균에 대하여 계산할 것입니다. 이 때 타격이 좋은 선수들은 원래 선구안이 좋은 것도 있겠지만 타격이 좋기 때문에 투수들이 선수들을 피할 것이기 때문에 이에 대하여도 조정을 가할 것입니다.

 

2. 타격 조정

 

타격에 대하여 조정을 가하는 이유는 배리 본즈와 같이 홈런을 칠 수 있는 슈퍼스타들을 상대하는 투수들은 최대한 홈런을 맞지 않기 위해 피하는 방식의 피칭을 하여 많은 고의4, 혹은 그에 준하는 4구를 기록할 것이지만 에디 요스트(통산 0.254/0.394/0.371, 1614볼넷으로 별명이 Walking Man이었음) 같은 타자들은 투수들이 최대한 출루를 시키지 않기 위한 피칭을 할 것이므로 4구가 파워히터에 비해 적을 것이기 때문입니다. 즉 순수한 능력의 선구안 이상의 볼넷 기록을 배리 본즈 같은 유형의 타자들은 얻을 것이고, 그에 비해 에디 요스트 유형의 타자들은 그와는 반대의 상황에 직면할 것이므로 타격에 대하여 조정을 해야 한다는 것이 저의 생각입니다.

 

-약간의 연구(?)

다음과 같은 스탯들에 대하여 LIBB%와의 상관관계를 조사할 것입니다. 이 때 타자마다 선구능력이 다르기 때문에 약한 상관관계를 찾을 것입니다. (r=0.3~0.5,R^2=0.09~0.25) 아래는 제가 조사한 스탯들에 대한 목록입니다. 모든 리그 스탯은 투수들을 제외한 스탯이며, 조사할 때는 AL, NL을 분리하여 계산하였습니다. 샘플은 AL에서 지명타자 제도를 도입한 1973시즌부터 40시즌간의(1973~2012) 정규타석을 채운 선수들에 대하여 모았습니다.

 

LIBB%: (4-고의4)/(타석-고의4-사구)

BA+: 타율/리그 타율

SLG+: 장타율/리그 장타율

ISOP+: 순수장타율/리그 순수장타율

ISOPHR+: 홈런에 대한 경우를 제외한 순수장타율/리그 순수장타율(홈런 제외)

AXBH%+: (순수장타율/장타율)/(리그 순수장타율/리그 장타율)

HR%+: (홈런/타수)/(리그 홈런/리그 타수)

LIBB%+: LIBB%/리그 LIBB%

 

저는 위의 스탯들에서 BA+,SLG+,ISOP+,ISOPHR+,AXBH%+,HR%+에 대해 LIBB%가 가지는 상관관계를 엑셀의 추세선 툴을 통해 알아냈고 그로 인해 ISOP+,HR%+LIBB%에 대해 약한 상관관계를(각각 r^2=0.0927,0.1043) 가짐을 알 수 있었습니다. 하지만 저는 타격조정을 할 때 ISOP+에 대하여는 조정하지 않기로 하였습니다. 왜냐 하면, ISOP의 경우 HR이 같이 계산되는 스탯이며 만약 ISOP에서 HR을 제외하여 LIBB%와의 상관관계를 조사할 경우(ISOPHR+) r^2=0.0004로 사실상 없다는 결론이 나기 때문입니다. 그러니까 사실상 HR의 비율이 LIBB%와의 약한 상관관계를 가지며, 그러므로 HR%에 대하여 4구비율의 조정을 가하기로 하였습니다. 아래는 이와 관련된 엑셀 파일입니다.


APD.xlsx

 

다음에는 각각의 HR%+에 대하여 평균 LIBB%+를 계산하고 그 그래프의 추세선을 통해 타격조정식을 만드는 것을 조사할 것입니다. 이 때 HR%+의 경우 round함수를 이용하여(안 그러면 0.01차이로 끊어서 그래프를 만들기가 제 실력으로는 힘들기 때문입니다..;;) 그에 대응하는 타자들의 LIBB%+의 평균을 계산하고 그걸로 그래프를 그린 후 추세선을 찾아서 타격조정식을 만들 것입니다.

 

그 결과 타자의 ExLIBB%+로 계산하는 것으로 하였습니다.

이 때 앞의 상수를 

으로 한 이유는 HR%+가 1인 경우 ExLIBB%+도 1이 되어야 하기 때문입니다.

 

3. 계산식

 

ExLIBB%+:

APD: LIBB%+/ExLIBB%+

이 때 리그는 AL, NL을 따로 계산하는 것으로 하였습니다. 또한 HR%+를 계산하는 경우 홈런 파크펙터를 사용하여 계산하는 것으로 합니다.

 

4. 적용

 

우선 아주 가볍게 AL, NL 구별하지 않고 계산하여 APD의 분포 그래프를 그려 보았습니다. 예상대로 평균적인 정규분포곡선을 따르는 것으로 보입니다.



 

다음으로 최근 5년간 리그 1위 리스트입니다.


 Season

 AL

NL 

 2009

Chone Figgins 

185 

Nick Johnson 

211 

 2010

Daric Barton 

207 

Jason Heyward 

172 

 2011

Bobby Abreu 

177 

Carlos Pena 

172 

 2012

Carlos Santana 

185 

Dan Uggla 

180 

 2013

Carlos Santana 

170 

Joey Votto 

209 

 

참고로 2013시즌 추신수는 204를 기록하였습니다. (리그 2위) 작년 추신수, 보토가 정말 엄청나게 볼을 골랐음을 이 허접한 스탯으로도 알 수 있습니다.


다음은 2014시즌 기록 엑셀 파일입니다. 스탯은 한국시간으로 2014826일 기준입니다.

 

2014 APD.xlsx


다음은 몇몇의 전·현역 선수들의 기록입니다. 참고로 조 모건/마이크 슈미트/리키 헨더슨/배리 본즈/블라디미르 게레로/스즈키 이치로/알버트 푸홀스/추신수/조이 보토에 대하여 계산하였습니다. (사실 에디 요스트, 베이브 루스, 테드 윌리엄스에 대해서도 계산해보고 싶었습니다만 각각 IBB가 기록되지 않는 시즌이 있었기 때문에 계산을 하지 않았습니다.) 계산 결과 각각 통산 197/135/195/145/60/57/95/145/155로 계산되었습니다. 현역 선수의 경우 위와 같은 시간 기준가지 스탯을 계산하였습니다. (참고로 홈런 파크펙터는 팬그래프에서 1974시즌부터 참고되므로 조 모건과 마이크 슈미트의 초기 스탯의 경우 휴스턴의 홈런 파크펙터는 85, 필라델피아는 105로 고정하여 계산하였습니다.) 예상 외로 푸홀스가 100이 안 되었으며 추신수와 배리 본즈가 비슷한 수준의 선구안을 가진 것으로 계산되는 군요;; 그리고 조 모건과 리키 헨더슨은 정말 엄청난 수준의 선구능력을 보여준 것으로 계산되네요.


Batters.xlsx

 

다음으로 KBO에 적용할 경우입니다. 파크펙터는 적용하지 않았습니다. 각각 시즌 출루율 1위 선수들과 이외 제가 관심이 가던 선수들을 위주로 계산하였습니다. 물론 MLB 기준으로 만든 툴로 KBO에 정확히 똑같이 적용하기는 힘들기는 하지만 한 번 해 볼만하다고 생각했기에 적용해 보았습니다. 그리고 2006시즌 100볼넷을 넘긴 양준혁은 대단하군요..(195)

 

KBO 타자들(2004~2013).xlsx


위의 계산들을 보면 정규타석을 기록한 선수들 중 약 120정도의 APD를 기록하는 경우 수준급의 선구안을 가진 것으로 생각할 수 있다고 생각할 수 있겠고(대략적으로 한 팀당 1~1.5명 정도 수준입니다.), 160 이상이면 대략적으로 시즌 1위급 정도로 생각됩니다.

 

5. 끝마치며


이상으로 이 허접한 선구 능력 스탯 글을 끝마치도록 하겠습니다. 한 가지 아쉬운 점은 위의 파일에서 확인할 수 있듯이 푸홀스나 배리 본즈 같은 경우를 보면 이 툴이 강타자들에 한해서는 APD가 실제보다 낮게 측정될 가능성도 있다고 생각된다는 점입니다. 다만 제 생각에는 exponential 식을 쓰는 게 맞다고 생각되므로(...) 저의 직관이 틀렸을 수도 있다는 생각이 듭니다.

 

 

 

MLB 스탯은 Fangraphs를 참고하였고 KBO 스탯은 Baseball-Reference한국야구위원회에서 참고하였습니다.

Posted by 야구고물상

댓글을 달아 주세요

  1. 토아일당 2015.03.18 20:40 신고  댓글주소  수정/삭제  댓글쓰기

    블로그에 재미있는 글이 많네요. 감탄했습니다.
    이런 생각은 한번도 못해봤는데요. 볼넷의 갯수로는, 장타자들에 대한 상대 투수의 도망가는 피칭으로 인한 영향이 뒤섞여서, 볼넷의 갯수 또는 타율과 출루율의 갭. 같은 걸로는, 선구안(=공을 골라서 출루하는 능력 또는 성향)을 측정할 수 없다고만 생각했는데,,, 이런 방법이 있었네요.

    그런데, LIBB%를 구할때,(4구-고의4구)/(타석-고의4구-사구) 가 아니라
    타격하지 않은 타석에서의 볼넷출루 SIBB = (4구-고의사구) / (타석 - 안타 - 볼넷 - HBP - 고의사구) 로 하는게 더 낫진 않을까요?

    선구안이라는 개념이 좀더 어울리려면, 가운데 들어오는 공을 친 경우 거꾸로 LIBB%가 낮아지는 부분이 약간 안어울린다는 느낌입니다.

    직관적으로는, 투수의 고의적이지 않은 고의사구 (거포들에 대한 피칭전략때문에 생기는 볼넷)에 가장 크게 영향을 주는 요인은, 홈런의 갯수보다는, 약간 조정된 SLG+ 일거 같은데요.

    ISOP의 경우는 타율이 낮은 선풍기형 타자들이 노이즈를 만들것 같고,
    SLG의 경우는 고타율의 똑딱이들이 노이즈를 만들테니,
    회귀식을, SIBB에 대한 (BA+ 곱하기 ISOP+) 로 할 경우 혹시 높은 R^2 를 얻을 수도 있지 않을까 하는 생각도 해봤습니다. 필요하다면 BA+ * ISOP+ 중에서 ISOP 쪽에 좀더 가중치를 주거나 아니면 승수를 주거나 라든가의 조작을 포함해서요.

    글에 쓰신 exLIBB% 라는게 굉장히 재미있는 아이디어인데, HR%에 대한 R^2가 좀 낮은거 같아 아쉽습니다.

    • 야구고물상 2015.03.18 21:12 신고  댓글주소  수정/삭제

      와, 그게 훨씬 더 맞는 방법이겠네요. 사실 이건 만들어 놓고 나중에 '아 이건 좀 아닌 것 같다' 하고 버려논 자식 같은 스탯이라서요..사실 진짜 선구안을 알려고 한다면 관련 스탯들을 다 요모조모 따져 보는 게 훨씬 좋다는 생각입니다. 근데 그렇게 하기에는 직관적으로 받아들이기 힘들 때도 있으니까, 하나로 통합하자면 조금 더 직관적으로 생각이 가능하지 않을까 하는 생각에서 출발한 거라서요.

      그리고 상관관계와 같은 경우에는, 사실 이 스탯이 낮은 건 맞는데 낮을 수밖에 없다고 생각한 게 선구안이란 것도 차이가 있으니까 r=0.3만 넘게 된다면(r^2=0.09) 괜찮을 거라는 생각을 한 겁니다. 사회과학을 하는 분들은 r=0.3을 기준으로 한다는 얘기를 들은 적이 있어어요.


풋내기 샌프란시스코 자이언츠 팬으로써, 내가 가장 해보고 싶었던 것 중 하나가 샌프란시스코 자이언츠의 역사를 정리하는 것이었다. 하지만 내 내공이 부족한 관계로 내가 샌프란시스코 구단 역사를 정리해봤자 위키피디아를 벗어나지 못할 것 같다는 생각이 들었다. 그래서 블로그를 개설하고도 이 작업은 꿈에도 꾸지 말자고 생각했다. 그러던 중 다른 많은 블로거들이 썼던 레전드들에 관한 글들이 생각났다. 그래서 기획했다. 그 이름도 거창한 레전드로 살펴본 샌프란시스코 자이언츠사’.


사진 출처: 위키피디아

 


이 시리즈는 다음과 같은 순서로 진행될 것이다.

 

(1) 19세기 뉴욕 고담스의 시작과 자이언츠로의 개명

    벅 유잉(1883~1889,1891~1892)

    몬테 워드(1883~1889,1893~1894)

    미키 웰치(1883~1892)

    로저 코너(1883~1889,1891)

    팀 키프(1885~1889,1891)

    짐 오루크(1885~1889,1891~1892,1904)

(2) 1890년대

    에이머스 루지(1890~1898)

    조지 데이비스(1893~1901,1903)

(3) 20세기의 시작

    로저 브러즈너한(1902~1908)

    조 맥기니티(1902~1908)

(4) 크리스티 매튜슨(1900~1916), MLB 최초의 슈퍼스타

(5) 첫 번째 전성기(1903~1924)

    루브 마쿼드(1908~1915)

    조지 켈리(1915~1917,1919~1926)

    로스 영(1917~1926)

    데이브 밴크로프트(1921~1923,1930)

(6) 프랭키 프리시(1919~1926)

(7) 트레비스 잭슨(1922~1936)

(8) 빌 테리(1923~1936)

(9) 애매한 시절(1925~1932)

    프레디 린드스트럼(1924~1932)

    로저스 혼스비(1927)

(10) 멜 오트(1926~1947)

(11) 칼 허벨(1928~1943)

(12) 1940/1950년대

    조니 마이즈(1942,1946~1949)

    몬테 어빈(1949~1955)

    호이트 윌헬름(1952~1956)

(13) 1951시즌, ‘The Shot Heard ’round the World’

    바비 톰슨(1946~1953,1957)

(14) 샌프란시스코로 간 거인군단(1958)

    마이크 맥코믹(1956~1962,1967~1970)

    스튜 밀러(1957~1962) 올렌도 세페다(1958~1966)

(15) ‘The Say hey Kid‘, 윌리 메이스(1951~1952,1954~1972)

(16) 윌리 맥코비(1959~1973)

(17) 후안 마리셜(1960~1973)

(18) 게일로드 페리(1962~1971)

(19) 1970/1980년대

    바비 본즈(1968~1974)

    개리 라빌리(1974~1984)

     클락(1975~1984)

    조 모건(1981~1982)

(20) 윌 클락(1986~1993)과 케빈 미첼(1987~1991)의 자이언츠

(21) 배리 본즈(1993~2007)

(22) 배리 본즈의 시대(1993~2007)

-1.맷 윌리엄스(1987~1996)

    로드 벡(1991~1997)

-2.제프 켄트(1997~2002)

    롭 넨(1998~2002)

    제이슨 슈미트(2001~2006)

(23) 투수 왕국의 건설과 새로운 자이언츠 왕조(2008~)

    맷 케인(2005~)

    팀 린스컴(2007~)

    파블로 산도발(2009~)

    버스터 포지(2008~)


# 이 섹션만큼은 위의 글투를 유지할 것입니다. 원래 제가 쓰는 글투이기도 하고, 역사에 관련된 글에서는 위와 같은 글투가 더 어울린다고 생각하기 때문입니다.

# 샌프란시스코 구단 레전드는 임의로 선정하였습니다.

# 순서는 쓰다가 조금씩 변할 수 있습니다.

'야구 > 레전드로 살펴보는 샌프란시스코 자이언츠사' 카테고리의 다른 글

(0) 소개  (0) 2014.02.14
Posted by 야구고물상

댓글을 달아 주세요

모든 기본 기록은 Fangraphs.com(MLB 기록)와 http://lcom.sakura.ne.jp/NulData/index.html(NPB 기록)에서 얻었습니다. 파크펙터는 이전버전과 같이 http://subjspeak.blogspot.kr/2012/12/npb-park-factors-for-2006-2012.html에서얻었습니다. 그리고 2013년 파크펙터는 (홈런 포함) JapaneseBaseball.com에서 얻었습니다.


다나카의 양키스 진출이 결정된지 한참 지났습니다.(...) 개인적으로 다나카가 다저스로 가지 않아서 참 다행이라고 생각합니다.(팬 입장에서는 우리팀에 올 거 아니면 다른 리그에 가는 게 더 좋죠.ㅎㅎ) 이전에도 다나카의 메이저리그 예상성적에 관해 쓴 이 있지만 그 글을 쓸 때는 다나카의 메이저리그행이 결정되지 않았기 때문에 모든 조건이 평균적인 상황에서의 성적을 예상하였습니다. 그에 반해 이제 다나카는 진출팀이 정해졌고(뉴욕 양키스) 그렇기 때문에 좀 더 예상하기가 수월해졌다고 할 수 있습니다. 그런고로 다나카의 양키스 성적을 스탯으로 예상해 보기로 합시다. 그리고 모두가 다 아시겠지만, 다시 한 번 스탯으로 하는 예상은 한계가 있을 수밖에 없음을(예를 들면 부상과 관련된 사항은 예상할 수 없습니다.) 밝힙니다.


과연 다나카는 이가와와 다른 케이스일 것인가? <참고로 다나카한테 감정 있어서 이러는 거 아닙니다.;;>


방법은 이전 글에서 썼던 것과 기본적으로 동일합니다. 마쓰자카 이후 진출한 선수들의 일본리그 마지막 누적 3년간의 기록으로 예상을 진행할 것입니다. 그리고 이닝, 볼넷, 홈런 등의 리그평균에 대한 기록의 변화량을 예상에 이용할 것입니다. 원래 버전에서 바뀐 것은 이닝 예상을 투구수로 예상하기로 한 점과 LOB%(잔루율에 해당합니다. 물론 진짜 잔루율은 아닙니다.)를 계산한 점입니다. 결국 투수는 공을 던지는 것이기 때문에 던진 이닝수는 이닝수 자체보다는 투구수와 더 연관성이 크다고 생각했기 때문이고, ERA도 한 번 예상해 보고 싶었기 때문입니다. 이닝수의 예상은 P/GS를 P/TBF로 나눠  전체 TBF를 예상하고 BABIP를 이용하여 예상하기로 하였습니다. 홈런도 홈런에 대한 파크팩터 수치를 구한 관계(위의 JapaneseBaseball.com 참고)로 계산이 변화되었습니다. 그리고 이전 버전에서는 약간의 계산 실수가 있었기 때문에 이전 버전과 약간의 수치가 달라졌을 수도 있습니다. 기록예상의 경우 2013시즌 AL기록을 이용하여 예상하였습니다. 마지막으로 예상기록의 WAR기록은 제가 LUCK을 계산할 때 사용하는 ExTmWPCT를 이용하여 계산하기로 하였습니다.(그렇게 계산하면 잘 하는 선수들의 경우 WAR이 비슷한 수치로 계산되기 때문입니다.)

여기서 한 가지 양해를 구해야 할 것은 투구수와 관련된 기록의 경우 리그 평균에 대한 기록을 찾기 힘든 관계로(제가 찾은 방법으로는 일일이 다 계산을 해야 하는데 2006시즌부터 해야 합니다..) 그냥 기본 기록의 변화량으로만 계산하였습니다.

 

먼저 변화량 표입니다.



STDEV는 표준편차입니다. 모든 부분에서 선발투수로써의 퍼포먼스가 평균적으로 감소하였음을 알 수 있습니다.


그렇다면, 이제 대략적인 예상을 해봐야겠죠.

먼저 모든 기록들을 평균에서 표준편차만큼의 퍼포먼스 차이가 나는 범위를 설정하여 최악에서 최고로 좋은 상황을 예상하기로 하였습니다.(물론 통계적 아웃라이어가 존재할 가능성도 있습니다...) 평균에서 +-표준편차만큼의 차이에 해당하는 부분은 68.2%정도입니다. 그리고 적용하는 기록이 6가지이기 때문에 대략적으로 이 성적 내에 있을 확률이 95%는 넘어갈 것으로 생각됩니다.(하지만 중요한 건 표본이 적기 때문에 굉장히 헛점이 많음을 아실 겁니다.) 승패기록의 경우 FIP가 아닌 RA를 이용하였고 ExRS에 해당하는 부분은 작년 뉴욕양키스의 평균득점(4.01점...)을 이용하였습니다.


크게 보기


대략적으로 4에서 9 사이의 fWAR을 기록할 수 있을 것 같습니다. 하지만 사실상 9정도의 WAR을 기록할 수 있을 것 같지는 않습니다. 그러므로 제가 예상하기로는 최저 4정도에서 최대 7정도를 기록하지 않을까 싶습니다.


여기에서 한 번 주관을 넣어 기록예상을 해 보기로 합시다. 이번에 다나카가 양키스로 가기 때문에 기록변화는 평균적인 기록변화에 비해 더 클 수 있다고 생각합니다. 무엇보다 피홈런이 많이 늘어날 것이고 그렇기 때문에 피홈런은 LOW에 대한 값을 이용하기로 하였습니다. 그리고 볼넷의 경우 이전버전에서는 제구력이 좋다는 이유로 평균적인 변화율을 이용하였지만 다나카의 구위도 영향을 끼쳤을 거라고 판단, LOW에 대한 값을 이용하여 계산하였습니다. LOB%의 경우 그런 의미에서 LOW와 MEDIUM의 평균값을 사용하였습니다. 그 결과는 다음과 같습니다.


크게 보기


그래도 좋은 성적입니다...물론 12승 9패정도로 예상되긴 하지만 그건 뉴욕양키스의 타선 이유가 크고(...) 굉장히 좋은 성적입니다.(이 부분은 스탯으로 한 예상이기에 어쩔 수가 없는 부분입니다.) 


내년 MLB의 또다른 관전 포인트...?


결론을 내자면, 스탯으로 보면 다나카는 좋은 성적이 예상된다고 밖에는 할 말이 없습니다. 아무리 팀이 뉴욕 양키스라고 해도 말입니다.(이가와와는 다르단 말이다!!) 적어도 4 이상의 fWAR을 기록할 수 있지 않을까 생각됩니다. 어떤 말이 있든간에 기대가 되긴 하네요.

이것으로 다나카 관련 포스팅은 당분간 끝입니다. (하하하...너무 다나카만 팠어...) 지금까지 읽어 주셔서 감사합니다.

Posted by 야구고물상

댓글을 달아 주세요

  1. pms 2014.02.04 22:05  댓글주소  수정/삭제  댓글쓰기

    대단한 연구..... 더 좋은 이야기 기대합니다.

LUCK의 소계는 다음을 보시기 바랍니다.

1st Ver.

2nd Ver.


2번째 버전 완성한 기념으로 뜬금없이(!) 작년 시즌 선발투수 기록을 계산해보기로 했습니다. 이왕 이렇게 된 거 자체적으로 윤석민상도 한 번 뽑아보도록 하죠.(아..정말 뜬금없다..)

KBO의 경우 기록 관련 사이트가 너무나도 안 좋은 관계로 선발투수와 불펜투수 스플릿은 그냥 제가 직접 KBO 홈페이지를 찾아가서 직접 더하면서 구하였습니다. 그래서 계산에 착오가 있을 수도 있습니다. 그리고 파크펙터(BPF)의 경우 각 구장에서의 결과를 알기 전에는 계산할 수 없기 때문에 그냥 일괄적으로 1로 생각하고 계산하기로 하였습니다. FIP 계산의 경우 KBO의 런밸류를 알지 못하기 때문에 그냥 MLB와 같이 13,2,2로 적용하여 계산했습니다. FIP는 팬그래프 방식입니다.


험험..사진 재활용(..)

순위를 매기기 위해서 저는 선발 100이닝 이상 던진 선수들의 선발 스플릿 성적에 대해서만 생각하기로 하였습니다.


그러면 먼저 FIP를 기반으로 볼 때 LUCK 순위를 매겨보기로 합시다.


WAR의 경우는 어떻게 계산했나면...2nd Ver.에서 나오는 ExTmWPCT에서 0.380을 뺀 걸 가지고 계산한 겁니다...이런 식으로 계산하면 상위권의 선발투수들은 팬그래프 방식이랑 꽤나 비슷하지만 하위권의 선수들은 조금 더 높은 경향성을 보이게 됩니다. 그건 그렇고...

계산 결과 이브랜드가 영광(?)의 1위를 차지했습니다. FIP가 계산 결과 3.72로 FIP-가 86이나 나오더군요. 그 결과 fWAR도 3.1이나 될 정도로 높습니다. ExW은 11.3승에 ExL 8.9패, ExWPCT 0.560으로 계산됐네요. 하지만 실제로 나타난 결과는 ERA가 5.54에 6승 14패...하하하 LUCK은 -10.4점이네요. 2위는 4승 11패의 에릭 해커...LUCK은 -8.6으로 계산되었습니다. 그 외에 리즈, 밴덴헐크, 레이예스 등이 FIP를 기준으로 볼 때 불운한 선발투수로 계산되었습니다.


다음은 ERA를 기반으로 한 계산의 결과입니다.



에릭, 리즈가 거의 비슷하네요. 에릭은 LUCK -10.2점, 리즈는 -9.9점..ㄷㄷㄷ 그 외 찰리, 밴덴헐크, 이브랜드 등이 불운한 선발투수로 계산되었습니다. 이브랜드는 ERA가 엄청 높음에도 불운하다고 계산되는군요.


결과적으로 FIP로 본다면 이브랜드가, 그리고 ERA로 본다면 에릭이 가장 불운한 선발투수였다고 계산되네요. 올해 제가 생각했던 거랑 그렇게 크게 다르게는 나오지 않은 결과였습니다. 


FIP LUCK -10.4점으로 자체적으로 뽑은 윤석민상의 영광(...)을 안은 이브랜드(..)



마지막으로 자체적으로 윤석민상 뽑는 게 남아 있는데... 저는 개인적으로 운을 계산하는 것에서는 ERA보다 FIP가 더 낫다고 생각하기 때문에 FIP LUCK 기준으로 생각하기로 하였습니다. 그러므로, 저는 2013년 KBO에서 가장 불운했던 선발투수로 이브랜드를 뽑겠습니다.

Posted by 야구고물상

댓글을 달아 주세요