모든 기록은 STATIZ에서 얻었습니다.


어제 KBO 올스타전이 열렸습니다.



KBO리그 전반기가 끝나고 올스타 주간입니다. 전반기가 끝났으니 전반기 결산을 한 번 해 봐야겠죠. 보통 결산은 팀의 성적을 중심으로 팀이 좋았던 점과 나빴던 점을 제시하면서 글을 진행할 겁니다. 제가 하고 싶은 건 좀 다릅니다. 역시나, 숫자를 보여주는 게 전 좋아요. 그래서 준비했습니다. 조금 이른 감이 있지만, 원래 섣부른 판단이 재밌는 법입니다.(... 흑역사 창조!!) 전반기가 끝난 시점에서 KBO 각 팀들이 포스트시즌에 올라갈 확률을 계산해 봅시다.

 

우리의 목표?

 

다시 한 번 되새겨봅시다. 우리가 원하는 것은 KBO 각 팀들이 포스트시즌에 올라갈 확률을 계산하고 결과를 얻는 것입니다. 우리 모두가 알듯이 KBO리그는 한 시즌에 네 번 시리즈를 진행합니다. 4위와 5위는 와일드카드를, 3위는 준플레이오프를, 2위는 플레이오프, 그리고 1위는 한국시리즈에 직행하게 되죠. 제 목표는 현 시점에서 예상되는 각각 시리즈 직행 확률을 계산해 보는 겁니다. 계산 결과는 각각 1) 포스트시즌 진출 확률, 2) 준플레이오프 직행 이상 확률, 3) 플레이오프 직행 이상 확률, 4) 한국시리즈 직행 확률로 나눠 보여드리기로 계획했습니다.

 

계산 방법

 

사실 이 글은 제가 예전에 썼던 글과 꽤 비슷합니다. 다른 점이라면 이 글을 썼을 때는 4위 예상 확률이라는 좀 더 좁은 목표가 있었을 뿐이죠. 하지만 그 때 쓴 은 계산에서 좀 실수가 있었습니다. 각 확률을 더한 값이 1이 안 됐었죠. 그래서 이번에는 방법을 조금 바꿨습니다. 아주 조금요...

 

Log5 시스템

 

우선 Log5 확률을 계산합니다. 리그 평균승률은 역시 0.500입니다. 전에는 A라는 팀이 0.600 승률을 기록했으면 0.500인 팀을 상대로 한 것으로 계산하였습니다. 하지만, 리그에 0.600인 팀이 있으면 필연적으로 나머지 상대팀 승률 평균은 0.500이 안 됩니다. 그러니, Log5로 계산되는 Talent0.5할이 아닌 나머지 팀들의 승률 평균에 해당하는 팀과 대결한 경우를 가정하고 계산하는 것이 좀 더 옳은 방향으로 보입니다. 그러니 팀의 Talent는 나머지 팀 승률을 통해 역으로 계산하기로 합시다.

 

예를 들어서 보여드리겠습니다. 승률이 0.500인 팀을 상대로 했을 때의 Log5 계산은 이 글을 참조해 주세요. 4팀이 한 리그를 이룬다고 가정합시다. A라는 팀은 0.600을 기록한다고 가정한다면, 나머지 C,D,E 팀 평균 승률은 모든 팀이 같은 경기를 소화하고 무승부가 없다고 가정할 때 1.4/3=0.467이 됩니다. 그렇다면 A팀에서 계산되는 상대팀 Talent0.5*0.467/(1-0.467)=0.438이 됩니다. 그러면 A팀의 Talent0.438*0.6/0.4=0.656이 되는 겁니다. 만약 팀들이 늘어난다면, 0.600인 팀이 가지는 Talent는 더 높아지게 되고, 상대팀은 거의 0.500에 가까워지게 되겠죠.


승률 보정과 기대승률 계산

 

이제 보정이 필요합니다. 전반기에 각 팀들이 상대로 경기 한 횟수는 일률적이지 않습니다. 예를 들어 두산은 NC12경기를 했지만 LG와는 5경기만 했습니다. 진행한 경기가 균일하지 않았다는 겁니다. 그러니 계산이 조금 달라지겠죠. 그래서 상대팀 승률을 각 팀별 경기수*각 팀별 승률을 더한 값에 진행경기로 나눠서 계산하기로 했습니다. 이 때, 앞으로 각 팀들이 기록할 승률은 피타고리안 승률을 따를 것이라고 가정하여 피타고리안 승률을 이용하기로 하였습니다.[각주:1] 이제 각 팀의 Talent 값을 계산할 수 있습니다.

 

Talent를 계산했으니 팀별 상대승률을 계산할 수 있게 되겠죠. 간단히 A팀의 Talenta, B팀의 그것을 b로 한다면 Pa=a/(a+b)로 계산할 수 있습니다. 그러면 이 값을 토대로 남은 경기에서 계산되는 기대승수를 계산할 수 있습니다. 남은 경기에서 기대되는 승률은 다음과 같이 계산되었습니다.

 

승률의 분포

 

기대승률을 계산하긴 했지만 아직 결과를 얻기는 이릅니다. 왜냐하면 앞으로 기대되는 승률은 일정한 분포를 따를 것이기 때문입니다. 그러니 기대승률을 이용해 기대승률의 분포를 계산할 필요성이 생기게 되죠.

 

분포는 간단하게 계산할 수 있습니다. 만약 기대승률이 0.600이고 앞으로 남은 경기가 60경기라면, 30경기를 이길 확률은



이 되겠죠. 40경기를 이길 확률은 



이 되고요. 이렇게 각 팀마다 승률의 분포를 계산할 수 있습니다. 아래 그래프는 그렇게 계산해서 얻은 승률의 분포를 보여주는 그래프입니다.


승률 분포


 

순위 계산

 

이제 단순 노동의 시간입니다. 이제 우리는 앞으로 기대되는 승률의 분포를 얻어냈기 때문에 기대순위를 계산할 수 있겠죠. 여기에서 필요한 건 두 가지입니다. 다른 팀들이 해당 승률을 넘기지 못할 확률과 넘길 확률이 필요한 겁니다. 예를 들자면 아래의 표와 같은 것이 필요합니다.


각 해당승률당 각 팀들이 해당승률을 넘을 수 없는 확률 관련 표


 

이제 모든 순위에 대하여 확률을 계산합니다. 1위를 할 확률은 모든 팀이 해당승률보다 낮은 경우를 의미합니다. 10위를 할 확률은 모든 팀들이 해당 승률보다 높은 경우를 의미합니다. 1위와 10위의 확률을 계산할 때는 경우의 수가 1이기 때문에 해당승률을 기록할 확률과 각 팀들이 기록할 해당 확률을 다 곱한 후 더하면 전체 확률을 구할 수 있습니다. 2위를 할 경우의 수는 9가지 경우의 수가 생깁니다. 3위를 할 경우의 수는 36가지가, 4위는 84가지, 5위는 126가지가 필요합니다. 이렇게 2~9위를 할 경우는 각 순위를 할 경우에 해당하는 확률을 다 더함으로써 해당 순위를 할 확률을 최종적으로 구할 수 있습니다.

 

계산결과


계산을 했으니 결과가 나오겠죠. 이번에는 제대로 계산을 했는지 각 팀들이 1위부터 10위까지 할 확률을 더하면 1이 나오고 각 순위마다 각 팀들의 확률 합 또한 1이 나왔습니다. 다행입니다.,,,

 

포스트시즌 진출 확률

 

먼저 아래 표는 각 팀들이 포스트시즌에 진출할 확률입니다.



 

준플레이오프 직행 이상 확률

 

이번 표는 각 팀들이 준플레이오프 직행 이상을 할 확률입니다. , 3위거나 3위보다 더 좋은 순위를 기록할 확률을 뜻합니다.



 

플레이오프 직행 이상 확률

 

이번 표는 각 팀들이 플레이오프 직행 이상을 할 확률입니다. , 2위거나 2위보다 더 좋은 순위를 기록할 확률을 뜻합니다.



 

한국시리즈 직행 확률

 

이번 표는 각 팀들이 한국시리즈에 직행할 확률입니다.



 

역시 좋은 전반기를 보낸 두산과 NC가 눈에 띄는 결과입니다. 넥센 또한 굉장히 눈에 띄네요.

 

결론

 

결과적으로, 역시나 순위가 높은 팀들일수록 포스트시즌에 올라갈 확률은 주로 높습니다. KIA 같은 경우는 좋은 득실차를 기록하고 있기 때문에 현재 순위보다 좋은 결과가 기대됩니다. 물론 그렇게 되지 않을 가능성도 무시할 수는 없습니다. 덧붙여 위 결과는 숫자적 예측이기 때문에 절대적이지 않다는 것 또한 다 아실 것이라 믿습니다. 또한 계산할 때 몇 가지 가정이 부정확할 수 있기 때문에 플레이오프에 갈 확률들은 명확한 값으로 이해하기보다는 어떤 특정한 범위를 중심으로 이해하는 것이 훨씬 더 좋은 해석법이라고 할 수 있습니다.

 

이제 대략 60% 정도 일정이 소화했습니다. 그 말인즉슨, 아직도 많은 경기가 남아있다는 뜻이죠. 10팀 모두 남은 일정 부상 없이 열심히 소화해 최선의 결과를 얻어낼 수 있으면 좋겠습니다.

 

 

  1. c=(RS/G+RA/G)^0.287, W%=RS^C/(RS^c+RA^c) [본문으로]
Posted by 야구고물상

댓글을 달아 주세요


오랜만입니다. 그동안 시험 준비한다는 핑계로 블로그에 소홀했었습니다. 이제 남는 시간이 좀 생겨서 몇 달 동안은 열심히 블로그 포스팅 가능할 것 같습니다. 물론 제가 글 쓰는 주제나 글 쓰는 성향 때문에 자주 쓸 수 있을 것 같지는 않지만요. 그래서 먼저 간단한 글 하나 씁니다.


모든 스탯은 팬그래프에서 얻었습니다.

 

요즘 야구팬이라면 WAR이란 소리를 지겹게 들으셨을 겁니다. Wins above Replacement, WAR에 대한 이야기는 복잡하기도 하거니와 저 말고 설명해 주실 분들이 많기 때문에 설명이 필요할 것 같지는 않습니다. 다만, 우리가 계산하는 팬그래프 방식 WAR은 득점을 이용하는 방식이기 때문에 득점을 승수 스케일로 바꾸는 무언가가 필요하다는 것은 확실합니다. 그것이 오늘 이야기할 R/W(Runs Per Wins)입니다. 근데 왜 이 얘기를 뜬금없이 하느냐? 하신다면 WAR 계산에 도움이 좀 될 수 있겠다 싶어서입니다. 정확히는 WAR 계산할 때 팬그래프 따라하기 위해 알아야 할 팁에 관한 글입니다. 몇 년간 팬그래프에서 계산하는 수준의 R/W을 계산하는 것은 저를 괴롭혔습니다.(그 시간에 공부를 더 해야 했다는 것은...) 근데 불현 듯 제 머리를 스친 것이 있었습니다. 정확히 말하자면, 인식의 전환입니다. 이제 이 방법으로 R/W을 계산하신다면 팬그래프와 가까운 방식으로 WAR 계산이 가능해질 겁니다.(진짜로, 진짜로 말입니다.)


득점을 승수 스케일로 환산하자

 

보통 WAR을 소개할 때 R/W10으로 놓거나, 혹은 10 부근이라고만 알려줍니다. 더 나아가서, 피타고리안 승률을 이용하면 R/W을 구할 수 있을 거라는 힌트 정도를 줍니다. 알쏭달쏭합니다. 그렇다면 먼저 R/W이 왜 필요한지에 대한 설명이 필요할 것 같군요.


국내에 널리 알려진 WAR을 구하는 방법이라면 단연 팬그래프 방식이라고 할 수 있습니다. 팬그래프에서 WAR을 구할 때 시작은 공헌도를 득점 스케일로 환산하는 것에서 시작합니다. 그러니 wRAA가 필요하고, UZR이 필요하고, 포지션 보정점수 등등이 필요한 겁니다. 모두가 다 득점(R)’ 스케일이죠. 하지만, 우리가 원하는 것은 Replacement보다 얼마나 더 많은 승수를 쌓게 해 주었느냐 입니다. 득점은 승수가 아니기에, 이제 득점을 승수로 환산하는 과정이 필요하게 됩니다. 그래서 Runs Per Wins라는 개념이 생기게 된 겁니다. 역시나 알기 쉽게 돌직구적 작명입니다. 마음에 드는군요.(...제 마음에 들어서 뭐 하겠습니까만...)


그렇다면 먼저 과연 R/W으로 10점이 괜찮을지에 대해서 생각해 봅시다. 아주 간단한 모델을 살펴봅시다. 매 시즌 득점수준은 달라지긴 하겠지만, 모든 시즌들을 다 더해서 계산해보면 대략 4.5점 정도니 4.5점인 리그 상황을 상상해 보기로 해 봅시다. 메이저리그에서 한 팀이 치루는 한 시즌은 162경기이니까 729점입니다. 딱 평균적인 상황인 0.500의 팀이라면 득점과 실점의 수준이 같을 것이고, 그러니 득점도 729점이고 실점도 729점일 겁니다. 이 때 승수는 81승입니다. 이제, 1승을 더 하는 팀을 생각할 때입니다. 그러니까, 82승 팀입니다. 승률은 0.506173..정도입니다. 이제, 우리의 목표는 간단해집니다. 득점을 몇 점을 더 하거나, 실점을 몇 점 덜 하는 것이 82승과 비슷할지에 대해서 맞추는 문제인 겁니다.


만약 10점이 R/W이라면 739득점 729실점 팀이 0.506일 것이고, 729득점 719실점 팀이 0.506일 것입니다. 먼저 전자, 0.506411..정도입니다. 후자? 0.506474..정도입니다. , 10점이면 대략 R/W에 부합하겠군요. 간단한 계산이 보여주는 10점의 마법입니다.


득점을 승수 스케일로 사진출처-위키피디아


 

근데 매 시즌 득점수준이 달라지잖아?

 

그렇습니다. 득점 수준은 매 시즌마다 계속 변동됩니다. 높아지거나, 낮아지기도 합니다. 어느 정도 경향성이 있지만 그 안에서도 요동이 있습니다. 아놔, 그러면 R/W도 조금씩 변하겠네요? 아주 간단히 얘기해서, 평균득점이 3점인 리그에서는 10득점을 더 하면 0.50854팀이 됩니다. 평균득점이 10점인 리그에서면, 10득점을 더 해 봤자 0.503638..정도입니다. 그래서 득점 수준이 높아지면 R/W이 높아지고, 득점이 적어지면 R/W이 낮아지게 됩니다.

 

그럼 우리는 팬그래프가 떠먹여주는 것만 먹어야 하나요?

 

역시 덕후들의 성지인 팬그래프는 우리의 기대를 배반하지 않고 매년마다 R/W을 계산해서 제공해주고 있습니다. , R/W을 계산하는 방법은 여러 가지가 있습니다. 가장 좋은 방법은 역시나 피타고리안 계산입니다. 근데, 좀 이상합니다. 수비로 세이브 해 주는 득점수준, 그리고 득점으로 기여하는 부분에 대해서 어떻게 점수를 적용해야 할지, 또한 계산했다고 해도 그 점수들을 그냥 더해야할지 등등 여러 가지 정의 문제가 산재해 있습니다. 그것도 그렇지만, 피타고리안으로 점수 수준을 알아내는 것 자체가 쉬운 문제가 아닙니다. 아래 식을 봅시다. 이 때는 R/W을 득점 관점에서만 바라본 상황입니다. 편의상 R/Wx로 보고, 승률을 W로 생각합시다. 득점과 실점이 같아야 승률이 0.500인 팀이니까 득점=실점=R로 봅시다.



만약 여기에서 c2라면 계산하기 훨씬 수월할 겁니다.(평균 4.5점인 리그에서 대략 9.506점이 나오네요.) 다만, 요새 세이버매트리션들이 좋아하는 c=(경기당 득점+실점)^0.287이라면 문제가 달라집니다. 아래가 그걸 풀려고 할 때 우리가 맞딱뜨리는 어려움입니다. 원래 상황이 c=(2RPG)^0.287이니, 그냥 쉽게 쓰기 위해 c=(2RPG)^y라고 하고 y는 고정되어 있다고 생각합시다. 이 때, 달라진 상황에 의해 c=(2RPG+x)^y이 됩니다.(y=0.287)



이제 이 방정식을 풀면 됩니다. (어때요, 참 쉽죠?...)이 상태로는 풀기가 어렵기 때문에 이제 테일러 전개를 시켜보겠습니다. 이 때, x는 대략 10점 정도로 가정해 봅시다.



이게 1차항까지 계산한 겁니다. 보통 상황이라면 x10에 가깝다고 생각하고 이차항까지만 계산해도 무방할 가능성이 있습니다만, 어떤 분들에게는 심기가 불편할 수도 있습니다. 더욱이, x10과 너무나 차이가 나는 경우는 그냥 실패입니다.

..그러니까 차라리 R/W을 계산하기 위해 수치해석 책 1장 붙들고 열심히 프로그래밍 하는 게 나을 수 있다는 얘기입니다. 하하하...이젠 아예 팬들에게 세이버매트릭스 개념 계산하려면 공대나 수학과 가라는 얘기가 나오겠습니다. (물리학과 나와도 할 수 있습니다! 많이 안 쓰면 까먹겠지만..) 세이버매트릭스는 누구에게나 열려 있어야 하기 때문에(라기 보다는 제가 그렇게 생각하기 때문에), 좀 더 쉬울 필요성이 있습니다. 그러니 방정식 풀이라니, 당치도 않습니다. 그 때 제 뇌리에 언뜻 스친 게 있습니다.

투수 계산할 때!”

 

태초에 투수와 타자가 다 있었으니

 

탱고느님은 이미 이런 말씀을 하신 적이 있습니다.

투수 WAR을 계산할 경우 R/W((리그 득점*(18-투수가 던진 평균 이닝)+실점*투수가 던진 평균 이닝)/18+2)*1.5로 계산하라

이 때 득점수준은 9이닝당으로 계산하는 겁니다. , 이게 맞느냐고 물어보실 수 있겠지만 목표는 팬그래프 따라하기니까, 무시하기로 합시다.(여러분은 저와 같이 단순하게 생각하지 않기를 바랍니다..)

이걸 타자로 적용해보기로 합시다. 타자는 투수에 비해서 한 경기에 끼칠 수 있는 영향력이 적습니다. 그러니 모든 타자의 R/W을 같다고 가정해봅시다. 그러면, 위에 쓴 투수 R/W 모델에서 투수가 던진 평균 이닝은 9가 될 것입니다. 실점은 결국 리그 득점이 될 것입니다. 그렇다면, 4.5점인 리그에서는 아래와 같이 계산할 수 있을 것입니다.

R/W=((4.5+4.5)/2+2)*1.5=9.75

그러니까, (RPG+2)*1.5로 계산하라는 겁니다. 그렇다면 이렇게 계산하면 팬그래프와 같게 R/W을 계산했는지 맞춰보면, 우리의 팬그래프 따라하기는 성공적인 겁니다.

아래 파일은 그 계산 파일입니다.

 

WAR_FANGRAPHS_RunsPerWins.xlsx


, 거의 똑같습니다. 그러니까 위와 같이 열심히 방정식을 풀거나 수치해석 안 해도 계산할 수 있다는 것입니다. 오차들이 조금 있는데, 0.001점 차이는 아무래도 팬그래프에서 반올림을 하지 않았을까 하는 생각입니다. 그리고 0.009점 차이가 나는 시즌(1998)이 있는데, 이 오차에 대해서는 생각해 보았지만 잘 모르겠습니다.(만약 다른 방법이 생각이 나신다면 덧글로 알려주세요.)

사실상 단 한 시즌만이 오차가 나는 것으로 보이며, 그렇다면 아마도 팬그래프도 위와 같이 R/W=(RPG+2)*1.5로 계산하지 않을까 하는 것이 제 추측입니다. 그러니, 이제 우리도 좀 더 팬그래프와 비슷하게 계산해 보자구요! 그리고 지금까지 이런 단순한 사실도 깨닫지 못했던 제 굳은 돌머리에 대해서 반성하기로 합니다...

 

+덧붙여서

하하, 저는 우리나라에 이와 관련된 포스팅을 찾지 못해서 제 블로그에 올립니다만, 이미 이전에 누군가가 했을 수도 있겠다는 생각이 듭니다. 무엇보다, 이전에 이미 제가 봤던 어떤 블로그 페이지에서 톰 탱고R/W=(RPG+2)* 1.5로 근사했다는 사실을 명시해 놓았더군요. 왜 그 페이지에서 Tangotiger를 안 찾아봤는지 모르겠습니다.(...) 여튼 팬그래프는 꽤나 톰 탱고의 연구에서 영향을 받은 사이트라서 아마도 R/W=(RPG+2)*1.5일 거라는 제 예상은 거의 맞지 않을까 생각합니다.

Posted by 야구고물상

댓글을 달아 주세요

킹 펠릭스도 Opponent Batting Stat으로 계산한 경우 wRC보다 기록한 실점이 대체적으로 많은 대표적인 투수입니다.


모든 스탯은 Baseball-ReferenceFangraphs에서 얻었습니다.


1. 도입

 

제가 이전에 쓴 글에서 볼 수 있듯이, 리그의 득점 환경이 동일하다는 점에서 저는 투수의 타자들과의 상대성적을 통해 투수가 기록한 wOBA를 이용하면 투수가 기록한 실점을 대략적으로 예상 가능하다는 생각을 했다고 썼습니다. 하지만 그 작업을 하기 위해서는 wOBA를 득점 스케일로 변환하는 작업이 필요합니다. 지금까지 알려진 그 스탯은 wRC, 어쩌면 wOBA에서 나오는 아주 당연한 귀결일 수도 있는 스탯이기도 합니다..

 

2. wRC

 

보통은 wOBA를 설명할 때 wRAA를 같이 설명합니다. wRCwRAA나 사실상 거의 같은 의미인데, 다른 것이라면 wRAA+의 득점을 의미한다면, wRC는 득점 그 자체를 의미한다고 설명할 수 있겠습니다. 전의 글에서 보시면 아시겠지만, Run ValueWeight는 각각 wOBA SCALE만큼의 차이(곱입니다. !!)를 가집니다. 그렇기 때문에 wOBA에서 wRAA를 만들기 위해서는, 즉 득점 스케일로 환산하기 위해서는 wOBAwOBA SCALE로 나누는 과정이 필요하다는 것을 단박에 알 수 있을 겁니다. 다만, 이는 득점 스케일로 환산하기 위한 것으로 만약 선수의 wOBA 자체를 wOBA Scale로 나눌 경우 R/PA와는 다를 수 있기 때문에 타자의 wOBA에서 리그 wOBA를 뺀 값을 wOBA Scale로 나누면 됩니다. 그리고 이 값은 1타석당 값이 될 것이므로, 이 값에 타석을 곱하면 정확한 득점 스케일로 환산할 수 있을 겁니다. 그리고 wRCwRAA에서 LgR/PA값을 더하면 바로 나옵니다. 식은 아래와 같겠군요.

 

 


3. wRC 조정의 당위성

 

wRC 식만 봐도 다음과 같은 사실을 알 수 있을 겁니다.

 

1. 만약 선수의 wOBA가 리그 wOBA와 정확히 같다면 그 선수가 가지는 득점적 가치는 리그 평균과 같은 것다.

2. wRC는 선형적인 식이다.

3. 득점의 양 끝값이 고정되어 있지 않다.

 

3번은 말이 좀 애매한데, 풀어서 쓰자면 wRC값이 음수값이 나올 수도 있다는 것입니다. 2014시즌을 예로 들자면, 가장 낮은 wRC값은 R/PA 스케일로 대략 0.13점이 나옵니다. A라는 선수로만 이루어진 팀이 있는데, 이 선수는 생산적인 타구를 만들어내지 못하는 타자라고 가정해 봅시다. (wOBA0이라는 이야기입니다.) 그렇다면 wRC/PA0.13 정도 되니까 27타석 나오면 3.5점 정도...?? 뭔가 이상한 걸 눈치 채셨을 겁니다. 득점이 음수라니요. wOBA0인 팀이라도 득점이 음수일 수는 없지 않습니까? 우선 wRC를 타자에게 적용한다면 그것이 문제는 아닙니다. 분명 Run Value가 음수인 이벤트들이 있거든요. 그러니까, 타자의 경우 팀에 대해 음수의 득점 기여도를 가질 수 있다고 정의할 수 있습니다.

근데 이게 투수한테 적용하면 좀 골치가 아파집니다. 그럼 안 하면 되지 않느냐? 하고 반문하실 수도 있습니다. 근데 그게 좀 짜증나서요.(너무 개인적인 이유인가요?) 분명 득점 환경은 똑같은데 타자한테는 되고 투수의 타자 상대 기록에는 적용할 수 없다니! 이게 무슨 개뼈다귀같은 소리랍니까!

그래서 투수에게, 혹은 팀기록은 wRC를 조금 다르게 적용하자는 겁니다. 적어도, 그 기록에서는 음수가 나올 수 없을 테니까요.

 

4. 식을 만들기 전 정리하기

 

우리가 원하는 것은 끝점이 고정되는 것입니다. 그러니까, wOBA0일 때는 타석당 기대득점이 0으로, wOBAwHR과 같을 때는 타석당 기대득점이 1로 말입니다. wOBAwHR과 같을 경우가 가장 큰 값인 이유는 가장 큰 득점을 가지는 이벤트가 홈런이니 모든 타석에서 홈런을 친 경우의 wOBA가 가장 높을 수밖에 없다는 이유에서입니다. 그 경우 wOBAwHR과 같아집니다. 홈런을 쳤을 때 1점보다 더 많이 득점할 수 있지 않느냐고 물으실 겁니다물론 그렇습니다홈런의 Run Value 또한 1.4점이고요. 근데 그건 다른 모든 경우들과 합해서일 때입니다. 그러니까, 그 전 타석에 누군가가 루상에 출루했기 때문에 홈런 타석에서 1점보다 많이 딸 수 있는 것입니다. 만약 첫 타자가 안타, 두 번째 타자가 삼진, 세 번째 타자가 홈런을 쳤다면 그 때의 타석당 득점은 2/3으로 정의하기로 합니다. 만약 세 타자가 홈런을 쳤다면? 그건 그거대로 1입니다. 세 타석에서 세 점이니까요. 그리고, 이런 경우 최대 득점은 타석당 1점인 것이죠. (다분히 타자에게 적용할 때와는 다른 정의입니다.) 끝점이 선형식보다 높거나 낮게 고정되는 식이기 때문에, 우리는 투수에게 적용될 wRC/PA의 식이 선형이 아닌 아래와 같은 커브일 것이라고 예상할 수 있습니다. 


예시 그래프


이제 커브를 만들 차례입니다. 제가 쓰기로 사용한 것은 자연상수 e를 밑으로 한 지수함수입니다. 왜냐구요? 우선 먼저 이미 우리가 알고 있는 wRC식과의 연계성도 고려해 wOBALgwOBA보다 높을 때와 낮을 때를 나눠서 식을 만들어야 할 필요성이 있습니다. LgwOBA인 지점에서의 기대득점 기울기는 wRC의 기울기와 같아야 하거든요. 그리고 그 두 경우를 나눠서 생각해보면 곡선이 대충 2, 3, 등등등의 지수를 가진 다항식으로 표현될 것이고 이는 결과적으로는 자연함수가 밑인 지수함수로 표현될 것이거든요.[각주:1]

그리고 다른 이유는, 지금까지의 경험으로 봐서는 자연이 자연로그를 좋아하기 때문입니다... 또한 계산하기 편하다는 장점도 있습니다.

무엇보다 이 글에서 보듯이, wOBA가 그 자체로도 어느정도의 exponential 함수와 같은 모습을 보여주기 때문에 자연상수를 밑으로 한 함수로 만드는 것은 꽤 괜찮은 아이디어로 보입니다.

 

그렇다면 한 번 우리가 원하는 것들을 정리해 봅시다.(가정)

 

(1) wOBA=0일 때의 wRC/PA=0이 될 것이다.

(2) wOBA=wHR일 때의 wRC/PA=1이 될 것이다.

(3) wOBA=LgwOBA일 때의 wRC/PA=LgR/PA이다.

(4) wRC/PA의 기울기는 LgwOBA인 지점에서 1/(wOBA Scale)이다.

(5) LgwOBA를 중심으로 wOBA식을 나눠서 계산한다.

(6) 두 식 모두 밑이 자연상수 e인 함수식이다.

(7) wRC/PA는 연속이며, 그 식의 미분도 연속이다.

 

5. 조정식 만들기


(1) wOBA가 LgwOBA보다 작은 경우


밑이 자연상수인 식을 원하므로 로 정의하고 계산하기로 합니다. 이 때 우리에게 필요한 상수는 입니다.

그렇다면 우리가 원하는 식은 아래와 같은 식일 겁니다.



이제부터 LgwOBA, 1/(wOBA Scale), LgR/PA는 계속 쓰기 귀찮기 때문에 아래에서는 각각을 m,s,r로 표기하도록 하겠습니다.

다음에는 위에서 가정한 wRC/PA식과 가정 (1), (3), (4)를 이용하면 다음의 식을 유도할 수 있습니다.



이 식들은 다음과 같이 풀 수 있습니다.


a의 경우 로그식으로 풀 수도 있고, 또한 을 대입할 수도 있지만 위의 식이 더 깔끔한 것 같아서 위와 같이 쓰기로 하겠습니다.


(2) wOBA가 LgwOBA보다 큰 경우


이 때는 식의 기본형이 조금 다른데, 왜냐하면 wHR에서의 wRC/PA가 특정되며 wOBA가 작은 경우와는 기울기의 모양이 다를 것이기 때문입니다. 우리가 원하는 기울기를 가진 지수함수는 의 모양인 것을 같이 생각해 본다면 아래와 같은 식도 괜찮을 것 같습니다. 



오케이, 위와 같은 식을 기본형으로 가진 식을 wRC/PA로 쓰기로 합시다.

우리에게 필요한 상수는 입니다. 


wHR/PA의 기본형도 정했으니 우리에게 필요한 식은 다음과 같습니다. wHR의 경우 h로 표기하도록 하겠습니다.



앞에서와 같이 m,r,s를 사용할 것이며 가정 (2), (3), (4)를 이용하면 아래의 식을 도출할 수 있습니다.



이 식들은 다음과 같이 풀 수 있습니다.



6. 정리


위의 식들을 정리하면 wRC를 다음과 같이 정의할 수 있습니다.



(1) wOBA가 LgwOBA보다 작거나 같은 경우



로 상수를 구한 후



와 같이 계산할 수 있다.



(2) wOBA가 LgwOBA보다 큰 경우



로 상수를 구한 후



와 같이 계산할 수 있다.

 


이 식을 원래의 wRC/PA식과 비교하면 아래와 같은 그래프를 얻을 수 있습니다. (2014시즌 기준)


이전 wRC/PA식과 조정된 wRC/PA 그래프


원래의 wRC와 조정된 wRC 그래프같의 오차율이 5% 이내인 경우에만 함수값을 1로 넣을 경우 아래와 같은 Step Function 모양의 그래프가 그려지며, 그 구간은 대략 wOBA 0.260~0.620 정도의 구간입니다. 즉, 보통의 타자들이나 팀들이 속해 있는 구간입니다. 그러므로, 조정식은 나쁘지 않은 선택이라고 생각됩니다.


두 wRC/PA식같의 오차율이 5% 이내인 구간의 함수값이 1인 그래프-일명 오차율 계단



7. 적용


먼저 2010~2014시즌까지의 투수들을(각각 시즌 나눠서, 모두!!) 대상으로 한 wRC의 원래 버전과 조정 버전 계산 파일이며, 그 위의 그래프는 2014시즌의 Correlation 그래프입니다.


실제 득점(이 경우 실점)과 계산된 원래의 wRC의 상관관계



실제 득점(이 경우 실점)과 계산된 조정 wRC의 상관관계



2010~2014 Pitchers.xlsx


위의 파일과 그래프에서 알 수 있듯이 조정된 wRC 그래프의 상관관계가 조금 더 높음을 알 수 있습니다. 또한, RMSE[각주:2]값도 작다는 것을 파일을 통해서 확인하실 수 있습니다.


다음은 2010시즌부터 모든 팀들의 팀득점과 wRC, 조정된 wRC를 계산한 파일입니다.


Teams Runs.xlsx


이 경우 상관관계는 조정된 wRC에서 조금 더 낮게 나왔습니다. 그에 비해 RMSE는 정말 아주 미세하게 작음을 확인하실 수 있을 겁니다. 팀득점의 경우 wOBA가 리그 평균에 수렴하는 팀들이 많을 것이기 때문에 조정된 wRC로 계산하는 것이나 원래 wRC로 계산한 것이나 큰 차이가 없어서 그런 것으로 생각됩니다. 또한 5년간의 기록이래봤자 150팀뿐이기 때문에 조사기간을 더 전으로 확대해 보면 더 차이가 없을 것이라고 생각됩니다.


8. 결론


결과적으로, 생각보다는 괜찮은 wRC의 조정이 가능하지 않았나 생각이 듭니다. 무엇보다 극단적인 상황까지를 고정한 값으로 정의하였기 때문에 이제부터는 wRC를 조정하여 투수들의 Opponent Batting Stat에 적용하여 계산할 수 있을 것이고, 여기에서 더 나아가 기대되는 LOB%를 계산하는 등의 활동이 가능하게 될 것이라고 생각합니다. 물론, 아직은 좀 더 해야할 일이 남아 있겠지만 말입니다. 나중에 기회와 시간이 있다면, 투수들의 BABIP과 관련해서도 조금의 조정식을 거친 후 (xBABIP이 있기는 하지만 그리 마음에 들지 않습니다. 특히나 투수들에게 타자의 BABIP식을 쓸 수 있을 거라고 생각하지는 않거든요.) 어느 정도 FIP를 대체하는 새로운 ERA System을 만들어 볼 생각입니다.(물론 기회와 시간이 있다면!!말입니다.) 마지막으로 끝까지 이 글을 읽어주셔서 감사합니다.

  1. 테일러 전개에 의해 e^x 함수는 x에 대한 다항식으로 표현할 수 있습니다. [본문으로]
  2. Root Mean Square Error. 만약 n개의 샘플이 있고 예상된 값을 y', 실제값을 y라고 할 경우 모든 (y'-y)^2을 더하고 n으로 나눈 값을 Mean Square Error(MSE)라고 하고 RMSE는 MSE에 제곱근을 씌워서 계산한다. 첨부파일에서 계산된 RMSE는 전부 평균에 대비한 RMSE의 값이다. [본문으로]
Posted by 야구고물상

댓글을 달아 주세요

  1. 토아일당 2015.03.18 20:58 신고  댓글주소  수정/삭제  댓글쓰기

    앞의 글에서 말씀하신 커쇼의 경우를 잘 이해 못했습니다. 저는 wRAA와 wRC 를 투수입장 스탯으로 사용할 수 있다고 생각하는데,
    특히 앞의 글에서,
    "이를 다른 상황으로 적용해 보자면, 커쇼가 기록한 피wOBA와 같은 wOBA를 기록한 타자가 모든 타석에 다 나왔다고 상상을 해 볼 때, 우리가 아는 wRC를 이용하여 계산한 예상되는 득점이 커쇼가 실제로 기록한 실점보다 꾸준하게 더 적다는 굉장히 괴랄한 상황이 발생하게 됩니다"
    라고 하셨는데, 이런 상황이 잘 그려지지 않네요.

    단순히, 피woba가 아주 낮은 투수의 경우, 피woba가 실제 실점억제능력에 비해 과대평가된다 (실제실점 >> wOBA기준 기대실점) 라는 뜻입니까? 하지만 RC 같은것과 달리 woba는 선형식이라 그런식의 문제가 잘 생길것 같지는 않을것 같아서 말입니다.

    http://baseball-in-play.com/101 <-- 이 글은 wOBA는 아니지만 마찬가지로 투수입장XR로 투수의 zero-run을 대체레벨로 하는 피칭런을 사용해서 썼던 글입니다.

    그런데, 저 방법을 사용하면서 왠지 뭔가 잘못된게 있거나 제가 빠트린게 있나 좀 고심을 했었습니다.

    혹시 제가 뭔가 빠트린걸까요?

    • 야구고물상 2015.03.18 21:06 신고  댓글주소  수정/삭제

      맨 처음 생각한 거랑 지금 나온 버전은 조금 다른 건데요 이게 처음 wOBA 글을 쓸 때는 타자까지 다 바꿔야 하지 않을까 하는 생각이었는데(...) 생각해 보니 타자 입장에서는 팀을 중심으로 봐서 음의 득점기여가 가능하다는 생각이 들더라고요. 요지는 제 실수라는 거죠..
      그 때의 생각으로 다시 돌아가 본다면, 커쇼가 기록한 wOBA와 같은 wOBA를 기록한 타자가 9명인 팀이 기록할 득점이 커쇼보다 적다는 것은 커쇼의 실점이 wRC로 측정되는 것보다 많다는 것이고, 만약 wRC가 맞다면 커쇼가 타자를 상대하는 위력에 비해 실점률이 많다는 이상한 해석이 가능하다는 뜻이었습니다... 글을 쓰다가 글이 꼬였나 봅니다. 그리 크게 생각하실 건 없어요.

      아 댓글에 달린 거로 쓰자면 피wOBA가 아주 낮은 투수의 경우 피 wOBA의 예상보다 실점이 많을 거란 얘기입니다. 정확하게 캐치하셨네요.

      사실 이거 만든 것도 wOBA에 대한 사랑 때문에 나온 거라서요. 회귀식보다는 실제 상황을 분석해서 나온 Run Value라는 것에서 파생된 피 wOBA가 좀 더 명확하지 않냐는 생각에서 말이죠.

    • 야구고물상 2015.03.18 21:53 신고  댓글주소  수정/삭제

      사실 진짜 보정을 가하자면 wOBA 자체를 보정하는 게 더 맞는 방법이라고 생각합니다. wOBA는 선형식이지만, 득점 창출의 과정 자체는 완벽하게 선형이라고 생각하지는 않거든요. 실제로 위에 링크된 하드볼 기사에서는 wOBA가 분석하려고 드는 득점의 창출의 경우 exponential함수의 형식을 가지는 게 좀 더 좋다고 말하고 있고요. 근데 처음 생각한 거 자체가 wRC를 어떻게 조정해 보자는 거였고, wOBA식을 조금 다르게 하는 걸 생각하기에는 생각보다 시간이 없을 것 같아서 우선 미봉책으로나마 wRC 조정을 가한 겁니다.
      그리고 피칭런 글에서 빠진 건 없어 보입니다.ㅎㅎ




강정호는 현재 KBO의 새로운 신화를 쓰고 있습니다.



이번 시즌 KBO를 보는 팬들에게 가장 핫한 이슈 중 하나(?)라면 강정호의 해외진출 건이라고 할 수 있겠습니다. 이 건은 스탯으로 다루기가 굉장히 재밌으면서도 다루기 위험한 이슈인데, 먼저 KBO 타자가 MLB로 직행한 것이 없다는 점, 그리고 만약에 NPB로 진출하고 MLB로 단계적으로 진출했다고 생각할 경우 NPB로 진출한 KBO 타자들이 매우 적다는 것을 들 수 있습니다. 저는 위에 쓴 KBO->NPB->MLB로 단계적으로 스탯변화폭을 사용하여 강정호의 해외리그에서 기록할 것으로 보이는 스탯의 예상치를 계산하기로 하겠습니다. (완전 도박이자 잘못된 접근방법일 수도 있습니다.) 사실 AA->AAA->MLBAA->MLB의 차이를 비교하여 KBO->MLB 보정도 같이 하고 싶었지만 선수들이 굉장히 많을 것이기 때문에 저 혼자서 하는 것은 불가라고 판단(...) 저의 원대한 꿈은 작아지고 말았습니다.(....) 지금까지는 사족이었고 여튼 불완전하지만 KBO->NPB 변화폭과 NPB->MLB 변화폭을 이용하여 NPB 예상스탯과 MLB 예상스탯을 계산하는 방법을 사용하기로 하였습니다.

 

1. 예상의 방법

 

KBO->NPB

 

1. KBO에서 NPB로 진출한 타자 다섯 명(이승엽, 이병규, 김태균, 이범호, 이대호)들의 스탯 변화량을 이용한다

*이 때 이종범이 명단에서 빠진 이유는 스탯의 기준으로 본 Baseball-Reference에서 1999시즌 이전의 리그 기록을 찾을 수 없었기 때문입니다. 또한 1998시즌 NPB로 진출하였기 때문에 시대적으로 약간 다를 수 있다고 생각해서 명단에서 빼도 괜찮다는 생각이 들었기 때문입니다.

2. KBO에서의 마지막 시즌, KBO에서의 마지막 두 시즌, KBO에서의 마지막 세 시즌의 기록과 NB에서의 첫 시즌 기록을 이용하여 기록의 변화량을 계산한다. 이 때 기록은 모두 리그 기록에 대한 조정기록에 대하여 변화량을 계산하여 기록하기로 한다. 예를 들자면, 선수의 K%20%이고 리그의 K%16%이면 1.25로 변환한 후 변화량을 계산하는 것이다. 이 때 선수들이 NPB에서 기록한 타석수의 전체에 대하여 그 선수가 기록한 타석수를 변화량이 기록되는 확률(P)로 계산하여 평균적인 변화량을 계산한다.



위의 과정에서 표준편차도 같이 계산한다.



3. 위에서 말한 마지막 1, 2. 3년에 대한 기록들과 변화된 양의 표를 각각 BABIP+, K%+, BB%+, HR%+에 대하여 계산한 후 각각에 대하여 무엇이 가장 실제 NPB 기록과 차이가 적은지를 계산하여 마지막 몇 년의 기록을 이용할지 결정한다. 계산 결과 KBO에서의 마지막 2년의 기록을 이용하기로 한다.

4. 선수의 KBO 기록과 변화율, 그리고 변화율의 표준편차를 이용하여 상중하의 결과를 PLNL에 대하여 계산한다.

5. 마지막으로 주관을 적용하여 예상성적을 대략적으로 계산한다. 또한 이 때 대략적인 wRC+WAR을 계산한다.

 *KBO의 파크팩터에 대해서는 2007~2011시즌 기록으로 계산한 값을 이용하였습니다. (이 때 목동의 홈런팩터가 1보다 작게 나오는데, 개인적으로는 지금의 목동의 홈런 팩터는 박병호 등에 의해 과대평가(?) 되었다고 생각하기 때문에 그대로 사용하기로 하였습니다.) 또한 NPB 팩터는 홈런 팩터만 사용하였고, A에서 찾았다. 이 때 홈런 팩터라고 되어 있는 값에 (1+HRPF)/2로 계산한다.

 

NPB->MLB

 

1. 다음의 선수들에 대하여 변화량을 계산한다.

스즈키 이치로, 신조 츠요시, 마쓰이 히데키, 마쓰이 가즈오, 이구치 타다히토, 조지마 켄지, 이와무라 아키노리, 후쿠도메 고스케, 니시오카 츠요시, 아오키 노리치키, 가와사키 무네노리

이외에도 몇 명의 선수가 MLB로 진출하긴 했지만(대표적으로 다구치 소) MLB에서의 첫 시즌에서 100타석 이하로 나왔기 때문에 계산에서 제외하기로 한다.

2. NPB에서의 마지막 시즌과 MLB에서의 첫 번째 시즌에 대하여 성적의 변화량과 표준편차에 대하여 계산하고 그 이외의 방법은 위와 동일하게 계산한다.

3. 마지막으로 강정호의 MLB 예상 기록을 NPB에서의 성적에 대하여 MLB 성적 변화량을 이용하여 계산한다.

 

2. 계산

 

KBO->NPB

 

아래는 변화량 표입니다.


크게 보기


이 때 다른 기록들은 표준편차를 1시그마만 이용하여 HIGHLOW를 계산하였지만 BABIP의 경우 표준편차가 굉장히 작기 때문에 5시그마로 계산하기로 하였습니다.


크게 보기

 

이 표를 이용하여 강정호를 PL, CL에 대하여 LOW, MEAN, HIGH로 계산한 표는 아래와 같습니다. 기록 기준은 2014시즌 기준입니다.


크게 보기 


WAR을 계산할 때 수비에 대해서는 HIGH에서의 타석일 때 모든 이닝을 다 나온다고 가정하여 비율로 계산하였고 UZR0을 기록하는 것으로 가정하여 계산하였습니다.

다음은 제 주관을 이용하여 강정호가 어느 정도 기록을 할 수 있을지에 대하여 계산한 표입니다. 제 생각에 이대호에서 볼 수 있듯이 강정호가 MEAN의 기록보다는 높게 나올 수 있다고 생각하기 때문에 조금 높은 기준에서 주로 잡아서 계산하였습니다.


크게 보기

 

NPB->MLB

 

아래는 변화량 표입니다.


크게 보기


이 때 다른 기록들은 표준편차를 1시그마만 이용하여 HIGHLOW를 계산하였지만 위에서와 같이 BABIP의 경우 표준편차가 굉장히 작기 때문에 5시그마로 계산하기로 하였습니다.


크게 보기


 이 표를 이용하여 강정호를 NL, AL에 대하여 LOW, MEAN, HIGH로 계산한 표는 아래와 같습니다.

 

크게 보기


수비에 대하여도 위와 같이 계산하였습니다. 기록은 2014시즌 기준입니다.

다음은 제 주관을 이용하여 강정호가 어느 정도 기록을 할 수 있을지에 대하여 계산한 표입니다. MLB에서 생각보다 괜찮은 기록을 할 수 있는 생각은 드는데, 그렇다고 그리 크게 차이가 나기는 힘들다고 생각하므로 거의 MEAN값과 비슷한 정도로 예상했습니다.


크게 보기


3. 결론

 

결론적으로, NPB로 진출한다면 타율은 생각보다 낮을지 몰라도 굉장한 파워를 가진 유격수가 가능하다는 생각이고(wRC+130정도는 적어도 하지 않을까 생각) WAR5가 넘는 정도의 활약이 가능하다는 생각입니다. 그리고 MLB로 간다면, 준수한 파워의 공갈포(...) 유격수, 최대 삼진 많은 헨리 라미레즈급의 공격력을 가진 괜찮은 유격수가 될 수 있다는 생각입니다. (대략적으로 WAR 2~4정도) , 물론 MLB의 경우 강정호가 MLB의 풀시즌을 뛸 만한 좋은 체력을 가지고 있다면 말이죠. 기록을 통해 보면, 모두가 그렇게 생각하겠지만 삼진비율이 가장 큰 문제가 될 수 있다는 생각입니다. 현재도 리그에서 평균보다 1.2배정도의 삼진을 당하는 선수이므로 NPBMLB로 간다면 아마 엄청나게 많은 삼진을 잡힐 것이라는 것이 그 이유입니다. 그리고 MLBNPB의 경우 BABIPKBO에 비해 낮기 때문에(KBOBABIP...) 그 때문에 생각보다 낮은 타율을 기록할 가능성도 있다고 생각합니다. 덧붙여, MLB 예상 성적은 이번 시즌의 이언 데스몬드(워싱턴 내셔널스)의 슬래쉬라인과 굉장히 비슷합니다.


크게 보기


만약 삼진 비율을 줄일 수 있다면, 2012~2013시즌의 데스몬드처럼 SS급의 유격수가 될 수도 있습니다. (툴로가 없다면 말이죠.)

 

4. 후기

 

이번 시즌의 강정호는 정말 어메이징 합니다. 아마 이보다 더 대단할 수는 없을 겁니다. (더 대단하면 강정호가 아니라 베이브 루스죠...아 유격수니까 호너스 와그너??) 그런 면에서 위의 예상성적은 그에 비해 살짝 부족해 보일 수 있습니다. 그리고 그 이면에는 굉장히 높은 삼진율이 자리하고 있습니다. 그래서 생각보다 낮은 타율을 마크할 가능성이 있다고 생각합니다. , 그래도 상위리그에서 굉장히 준수한 공격력을 보여줄 수 있는 선수라는 것이 결론입니다. (NPB에서 wRC+ 140 이상, MLB에서도 유격수로 wRC+ 100정도 하는 유격수 찾기는 꽤 어렵습니다.) 하지만, 위에서 이야기 했듯이 KBO에서 MLB로 직행한 야수가 없는 점, 그 외에도 샘플이 적다는 점 등이 이 예상의 한계라는 것을 생각한다면 강정호가 위의 기록보다 좋은 성적을 마크할 수도 있다고 생각합니다. (그렇다고 위에서 계산된 HIGH만큼은 아닐 겁니다.) 


기록은 KBO 홈페이지, Baseball-reference, Fangraphs에서 참고하였습니다.

KBO 파크팩터는 야구도락 블로그에서, NPB WAR 계산에 대한 정보는 네이버 블로그에서, NPB 홈런팩터는 이 사이트에서 얻었습니다.

부분적으로 KBREPORT.COM에서 아이디어를 얻었습니다.

Posted by 야구고물상

댓글을 달아 주세요

  1. 토아일당 2015.02.24 10:04 신고  댓글주소  수정/삭제  댓글쓰기

    http://baseball-in-play.com/89
    전에 썼던 글인데, 리그를 옮긴 선수의 예상성적 예측과 관련된 내용입니다.
    혹시 흥미있어하실지도 모르겠다 싶어서... ^^

    • 야구고물상 2015.02.24 22:49 신고  댓글주소  수정/삭제

      감사합니다. 역시 Projection의 세계는 무궁무진합니다.ㅎㅎ
      강정호 예상은 한 번 더 해 보려고요. 이번에는 나이에 대한 것들도 좀 고려해 볼 생각입니다..

  2. 친절한민수씨 2015.02.26 12:32 신고  댓글주소  수정/삭제  댓글쓰기

    우와 저도 세이버매트릭스 공부해보고 싶은데..대단하네요.

    강정호 선수 대단하죠.
    작년 기록만 보면 56홈런 칠때 이승엽과 둘중 택하라면 강정호를 대부분택할거라 봅니다.

    그런데 작년이 워낙 극 타고투저 시즌이라 성적자체가 의문이 가기도 해요
    원래 강정호는 2할후반에서 3할언저리에 20홈런정도 (유격수로 대단한 기록)치는 선수였는데...
    작년이 과연 기량이 늘은것인지 , 타고투저의 작품인지가 의문이에요.

    과연 얼마나 할지 저도 너무 궁금합니다.
    개인적으로 주전이 우선이고 주전일시에 .250에 홈런 10개정도면 만족이라 봅니다.

저는 과연 혹사가 무엇이라고 정의할 수 있는지에 대해서 잘 모릅니다. 아니, 아마 저는 할 수 없을 겁니다. 첫째는 혹사를 정의하기에 제 능력은 너무나 부족하고 둘째는 혹사라는 것 자체의 기준이 명확하지 않기 때문입니다. 가네다 마사이치처럼 300이닝을 밥 먹듯이 던지면서 20년의 현역생활을 유지하는 선수도 있고, 사이토 가즈미처럼 굉장히 좋은 능력을 가지고도 풀타임 4년만 뛰고 은퇴한 선수도 있습니다. 이런 상황에서 무엇이 혹사라고 하기에는 힘든 게 사실입니다. 다만, 가네다 마사이치만큼 뛰어난 선수를 찾기란 힘들 것이란 것, 그리고 어릴수록 혹사에 대한 기준은 더 낮아져야 한다는 것은 확실합니다. 그래서 저는 버두치 이펙트를 신뢰하고 MLB에서 (일반적으로)바라보는 혹사에 대한 관점을 신뢰합니다. 이 글도 그러한 기준에서 작성했습니다.


이번 시즌이 끝나고 다나카의 MLB 진출에 대한 말은 끊임없이 나오고 있습니다. 확실히 스탯으로 보나, 구위로 보나 다나카는 어디 가서 꿀릴 선수는 아닙니다. 아니, MLB에서도 탑에 들 수 있는 재능을 가진 선수라고 평가하는 게 좀 더 정확할 듯 합니다. 다만 미국에서나, 한국에서나 이런 얘기는 많이 나오더군요. '다나카는 어린 나이에 너무 혹사를 당했다.' 이유는 당연합니다. 다나카는 25세 이전에 이미 1300이닝(1315이닝, 연평균 대략 187 2/3이닝)을 넘게 던졌고, 이전에 건너온 마쓰자카(1216 1/3이닝)나 다르빗슈 유(1268 1/3)에 비해서도 많다는 게 주요 골자죠. 너무나 당연한 얘기입니다. 그런데 오늘 네이버에 굉장히 흥미로운 기사가 올라왔더군요. 지금까지의 편견과는 다르게, 다나카는 꽤나 혹사와 거리가 있는 투수였다는 결론이었습니다. 저의 생각과 다른 결론이 나오니 한 번 다나카의 혹사가 어느 정도인지 살펴보면 재밌겠다는 생각이 들더군요. 그리고 만약 혹사에 대해 기술하는 툴을 사용하면 다나카는 혹사인지 아닌지 판단할 수 있을 것이라는 생각이 들었고, 이 글을 기획하게 된 겁니다.


PAP라는 툴이 있습니다. (사실 알 사람들은 다 알 겁니다.) 주로 Baseball Prospectus에서 제공하는 툴인데, Pitcher Abuse Points의 약자입니다. 현재 주로 계산되는 방식은 Keith Woolner의 방식으로 간단합니다. 만약 선발경기에서 100구 이상 던지면 (투구수-100)^3을 더하고 그렇지 않다면 0점을 더하는 방식입니다. PAP라는 툴의 한계는 명확합니다. 선발 투수의 선발 등판 주기에 대해서 고려하지 않는다는 점, 그리고 (이건 모든 혹사에 대한 논란에 해당하지만)모든 선수들에게 혹사의 기준은 다르게 적용될 수 있다는 것입니다. 하지만 혹사에서 가장 중요한 쟁점이 투구수라는 점에서 의미 있는 툴이라고 할 수 있습니다. 저는 이 PAP를 가지고 다나카의 혹사에 대해서 생각해 볼 것입니다. (아래에 나온 PAP 수치는 제가 일일이 계산한 것이라서 약간의 오차가 발생할 수 있습니다.)


그렇다면 먼저 지금까지 다나카의 커리어에 대해서 살펴보겠습니다.



PAP 항목에서 20만점이 넘으면 강조표시 했습니다. 이 기간 동안(7년) 다나카는 172경기를 선발등판했으며, 평균 113.4구를 던지고 120구 이상 경기가 72회 있었습니다.(1315이닝) 120구 이상을 던진 경기는 전체 선발경기의 41.9%에 해당하는 수치입니다. 이 표를 보면 다나카는 PAP에서 2010시즌을 빼면 꾸준히 20만점을 넘었다는 사실을 알 수 있습니다. (2010시즌은 부상으로 몇 경기 나오지 못하였죠.) 이는 정확히 말하기는 어렵긴 하지만, MLB에서 보기 굉장히 힘든 경향입니다. 2007년부터 2013년까지 7년동안 MLB에서 PAP 20만점을 넘었던 경우는 딱 두 번 있었습니다. 2009시즌, 2011시즌 저스틴 벌렌더입니다. 그마저도 최고는 2011년 223627점으로 다나카는 그보다 더 높은 PAP를 기록한 경우가 커리어 7년 중 4번이나 됩니다. 벌렌더가 정말 예외의 경우임을 생각해본다면, 다나카에 대해서는 다음 두 가지로 생각해볼 수 있을 것 같습니다. 다나카가 벌렌더만큼 엄청난 내구성을 지녀서 이 정도는 혹사가 아닌 선수이거나, 아니면 단순히 엄청난 혹사를 견뎌내는 것이라는 두 가지 가능성 말이죠.


그렇다면 이번에는 혹사로 유명한(그것이 혹사로 판명되든 아니든) 네 사례와 비교해보기로 했습니다.



랜디 존슨의 경우, 사실 제 생각에는 2001년보다는 1999년이 훨씬 대단했다고(=혹사당했다고) 생각하기는 하지만, 2000년대에는 보기 힘든 혹사였다는 점에서 2001 시즌을 선정했습니다.(제가 알기로는 2000년 이후 선발경기당 최다 투구수를 기록한 해로 알고 있습니다. 만약 그렇지 않다면, 댓글 달아주세요.) 지금은 상상할 수도 없는 40만점이 넘는 PAP 수치를 보였군요. 이번 시즌 1위가 팀 린스컴인데(린스컴은 2008시즌에도 17만점이 넘으면서 MLB 1위를 차지한 적이 있습니다.) 13만점 부근이라는 걸 생각하면 어마어마한 수치입니다. 하지만, 다나카는 이미 2008 시즌 24경기만에 50만점을 달성한 경력이 있습니다. 2007 시즌도 41만점이었고요. 다음은 유명한 컵스의 2003시즌 혹사듀오입니다. 정말 유명한 사례인데, 당시 26세이던 케리 우드는 32경기에서 평균 111구를 던졌고 22세인 마크 프라이어는 평균 113구를 넘게 던졌습니다. 그리고 PAP는 각각 26만점, 23만점 정도네요. 근데 다나카는 지금까지 30만점이 넘었던 적이 네 번 있습니다. 다음은 2010년대를 대표하는 혹사의 아이콘, 벌렌더의 2011시즌입니다.(MVP시즌) 위에서도 말했지만 22만점을 조금 더 넘네요. 참고로 이 시즌 벌렌더는 34경기 모두 적어도 104구를 던졌습니다. 다나카의 이번 시즌과 비슷한 점수네요.


단 네 번의 사례이긴 하지만, 다나카가 혹사가 아니라고 하기에는 약간 모순이 있지 않나 하는 생각이 슬슬 들기 시작했습니다. 그렇다면 이번에는 2000년대 중반 이후 어린 나이에 데뷔하여 25세 이전에 다나카와 같이 리그를 대표하는 에이스가 된 두 투수의 사례와 비교해보기로 합시다.



킹 펠릭스의 기록입니다. 이 기간 동안(6년) 킹은 172경기에서 선발등판하여 평균 103.7구를 던지고 120구 이상 경기는 5회 기록하였습니다.(1154 2/3이닝) 킹이 관리를 받았다는 생각은 들지 않는데, 다나카와 비교해보면 너무나도 관리를 받았다고 생각이 드네요. 특히, 2010시즌의 경우 거의 평균 110구로 2013시즌의 다나카와 비슷함에도 120구 이상 던진 경기는 겨우 3경기이며 PAP는 10만점이 조금 넘을 뿐(!)입니다.  



다저스 부동의 에이스 커쇼입니다. 이 기간 동안(5년) 커쇼는 149경기 선발등판하여 평균 101.8구를 던지고 120구 이상 경기는 3회 기록하였습니다.(944이닝) 커쇼는 정말 굉장히 어린 나이에 리그를 대표하는 에이스가 되면서 많은 이닝을 던지기 시작했는데, 그럼에도 PAP가 10만점이 넘는 시즌은 없었습니다. 관리받았다고 생각하기 힘든 두 에이스도 다나카의 최저 PAP를 넘은 적은 없었군요.


그 외 세 번의 다른 유명한 24세 시즌과 비교해보았습니다. 세 사례 모두 30경기 이상 선발 등판하였고, 200이닝 이상을 투구하였습니다.



혹사의 아이콘 벌렌더도 2007시즌은 56771점일 뿐입니다. 하지만 그 벌렌더도 다음 시즌 구속이 하락하는 데드암 증세를 보이면서 17패를 기록하였습니다.(ERA 4.84) 그리고 팀 린스컴의 경우 24살임에도 불구하고 평균 109구를 던지고 17만점이 넘는 PAP 수치를 기록하였습니다. 실제로 2008시즌 PAP 1위는 린스컴이었습니다. 린스컴은 이후에도 좋은 시즌들을 보냈지만, 결국 구속을 잃어버리고 2012시즌부터는...(눈물이 앞을 가립니다.) 다음은 2010시즌 프라이스입니다. 저 같은 겨우 탬파베이에 대해 세이버구단이라는 인식이 있는데 의외로 프라이스도 저스틴 벌렌더와 비슷한 PAP 수치를 기록하였었군요.(경기당 평균 투구수도 거의 108개나 되네요.) 그리고 확실히, 위의 세 번의 사례 모두 다나카의 커리어 최저 PAP를 넘지 못했습니다.


위의 여러 사례를 볼 때, 다나카의 25세 이전은 NPB 기준에서는 모르겠지만 MLB 기준으로 확실히 혹사를 당했다고 볼 수 밖에 없을 듯합니다. 제 생각 뿐이긴 하지만, 다나카 정도의 혹사 정도를 찾기 위해서는 랜디 존슨이나 로저 클레멘스의 80,90년대를 찾아보는 게 가장 빠를 것 같습니다. 


감독님, 저한테 왜 그랬어요? 한 번만 말해봐요...(?)


결국 제 생각은 확고해졌습니다. 다나카의 일본 시절은 혹사가 아니라고 하기에는, 그 강도가 너무 심하다...고 말이죠. 특히나 다나카의 경우 2006 고시엔 결승에서의 혈투로 기억되듯, 고등학교 시절부터 엄청난 혹사를 견뎌온 선수입니다. 그런 면에서 메이저리그 관계자들이 다나카의 경력에서 혹사에 대한 의문을 제기하는 건 당연한 것이라고 생각됩니다. 다나카가 그런 혹사를 견딜 수 있는 투수일 수도 있습니다. 하지만, 현재로써는 그걸 판단할 근거가 없습니다. 우리는 마쓰자카도 그런 선수인 줄로만 알았습니다. 하지만 그렇지 않았죠. 다나카의 미래 예측과 관련하여 이 부분(혹사논쟁)도 꽤나 흥미로운 관점이 될 수 있을 것 같습니다.


#모든 기록은 http://lcom.sakura.ne.jp/NulData/index.html 사이트와 Baseball-Reference에서 얻었습니다.

'야구 > NPB' 카테고리의 다른 글

PAP(Pitcher Abuse Points)로 본 다나카의 혹사  (0) 2014.01.04
Posted by 야구고물상

댓글을 달아 주세요

올해 명예의 전당 투표결과는 꽤나 기대되는 이벤트 중 하나입니다. 그 어느 해보다도 엄청난 선수들이 많이 나오는 해이기 때문이죠. 올해부터 후보가 된 그렉 매덕스, 프랭크 토머스, 마이크 무시나, 톰 글래빈 등등 뿐만 아니라 배리 본즈나 로저 클레멘스, 라파엘 팔메이로, 마이크 피아자 등등의 이미 후보였던 슈퍼 스타 등등이 포함된 36명의 선수들이 명예의 전당 투표 후보에 올라와 있습니다.


올해 명예의 전당 투표 결과는 후보가 후보인 만큼 정말 기대됩니다.


저는 그 결과가 정말로 궁금합니다. 이번에는 특히나 베테랑 위원회 투표로 바비 콕스, 토니 라 루사, 조 토레 세 명의 명감독을 명예의 전당에 입성하게 되면서 이번 시즌 명예의 전당에 입성할 전설들에 대해 더 기대하게 만들었습니다. 그래서, 저는 이 글을 기획하게 되었습니다. 만약 나에게 명예의 전당 투표권이 있다면, 나는 누구를 뽑을 것인가?로 말이죠.


명예의 전당은 투표방식은 한 기자당 최대 10명을 뽑을 수 있으므로, 저도 10명을 뽑아 보았습니다. 사실, 10명을 안 뽑아도 되지만 이번에는 워낙에 명단이 좋아서 10명을 안 뽑으면 안 되겠더군요.ㄷㄷ

만약 저에게 투표권이 있다면, 다음과 같이 뽑을 것입니다.

참고로 아래에 나온 WAR고 wRC+는 팬그래프에서 얻었고 ERA+는 레퍼런스에서 얻었습니다.

아래 성적 정렬에서 투수의 경우 WAR은 fWAR(RA-9 WAR)방식으로 썼습니다.


Craig Biggio(2B)-2년차 68.2%


3000안타란 불멸의 기록을 세운 비지오

 

통산 2850경기 출장(20시즌)

3060안타 291홈런 1175타점 414도루(77.0%) 0.281/0.363/0.433 WAR 65.3 wRC+ 115

AS 7, GG 4, SS 5/2007 로베르토 클레멘테상 수상

Black Ink 17/Gray Ink 104/Monitor 169/Standards 57

통산 2루수(분류) WAR 순위: 10

 

Killer B의 일원이었던 크레이그 비지오는 작년이 참 안타까웠던 케이스죠.(388득표, 득표율 68.2%) 2007년 커리어 마지막 해에 3000안타를 기록해냈으며 휴스턴에서만 20년을 뛴 프랜차이즈 스타입니다. 현재까지는 마지막 3000안타 클럽 가입자(?)라고나 할 수 있습니다. 비지오보다 더 많은 안타를 친 2루수는 데드볼 시대의 전설적인 두 명(냅 라조이, 에디 콜린스) 뿐입니다. 심지어 그 엄청난 로저스 혼스비도 3000안타를 치진 못했습니다. 무엇보다 비지오는 데뷔 시즌인 1988년 이후에는 매년마다 100안타 이상은 기록할 정도로 꾸준하기도 했습니다. 사실 명예의 전당에 못 올라갈 이유가 없는 선수죠. 통산 WAR60이 넘고, 안타도 3000안타를 치면서 엄청난 활약을 보여준 선수가(심지어 스타 플레이어 찾기가 힘든 2루수이기도 합니다! 초창기에는 포수로 뛰기도 했고요.) 명예의 전당에 올라가지 못하는 건 말도 안 된다고 생각합니다. 휴스턴에서만 뛰었다는 사실도 가산점을 주기에 충분하고요. 몇 년 전 2번째 투표에서 90%가 넘는 득표율로 명예의 전당에 올라간 로비 알로마보다도 통산 WAR이 높다는 점도 생각해 볼 필요가 있습니다.(물론 로비 알로마의 출전경기수가 적기 때문에 더 좋은 선수였다고 볼 수는 있습니다...) 비지오가 비록 웬만큼 잘 알려진 호퍼들만큼이나 화려하지도, 번뜩이는 천재성을 보여준 건 아니지만 비지오도 명예의 전당에 입성될 만큼의 충분한 커리어를 보여주었다고 생각합니다.

 

Jeff Bagwell(1B)-4년차 59.6%

 

참 폼 하나는...

 

통산 2150경기 출장(15시즌)

2314안타 449홈런 1529타점 202도루(72.1%) 0.297/0.408/0.540 WAR 80.3 wRC+ 149

ROY(1991), MVP 1(1994), AS 4, GG 1, SS 3

Black Ink 24/Gray Ink 157/Monitor 150/Standards 59

통산 1루수(분류) WAR 순위: 7

 

역시나 Killer B의 일원이었던 제프 배그웰(백웰이라고 해야할지 배그웰이라 해야할지)은 아무래도 커리어가 15년밖에 되지 않았다는 점, 알게 모르게 약물 사용자로 의심하는 사람들이 있다는 점 때문에 투표에서 높은 득표율을 얻지 못하지 않았나 생각합니다. 작년 득표율은 59.6%인 걸 보면 어쩌면 4년차인 올해도 힘들지도 모르겠네요. 하지만 저는 확실히 약물 사용자라고 확인된 점이 없고(배리 본즈, 라파엘 팔메이로, 로저 클레멘스, 마이크 피아자와의 차이점이죠.) 15년만 활약했음에도 449개나 친 그 엄청난 파워에 저 아름다운 타격 라인에 주목할 필요가 있다고 생각니다.(0.297/0.408/0.540) 커리어 타율도 거의 3할에 가까우며 통산 출루율은 아예 4할이 넘습니다. 배그웰 최고의 시즌은 1994시즌으로(하하...제가 태어난 해네요.) 110경기에 출전(메이저리그 선수협의 파업 때문입니다. 그 때문에 1994시즌에는 1904년 이후 처음으로 월드 시리즈도 열리지 않았었죠.) 0.368/0.451/0.750/104득점 114타점을 기록하였습니다.(WAR 7.8) wRC+는 무려 205였군요.(ㄷㄷ) 그 시즌 NL 득점, 타점, 장타율, OPS, WAR 등등이 1위였습니다.(WAR의 경우 매덕스가 RA-9 기준으로 9.8을 기록했으니까, 정확히는 야수 중 1위입니다.) 이런 선수에게 명예의 전당행 티켓을 주지 않으면 그건 예의가 아니라고 생각합니다.

그나저나 Killer B는 정말 사기였군요.

 

Tim Raines(LF)-7년차 55.2%

 

정말로 잘 뛰었던 팀 레인스

 

통산 2502경기 출장(23시즌) 우승 2(1996,1998)

2605안타 170홈런 980타점 808도루(84.7%) 0.294/0.385/0.425 WAR 66.4 wRC+ 125

AS 7, SS 1/1987 ASG MVP

Black Ink 20/Gray Ink 114/Monitor 90/Standards 47

통산 좌익수(분류) WAR 순위: 14

 

몬트리올의 전설 팀 레인스입니다. 사실 래리 워커와 정말 고민했는데, 래리 워커는 이제 고작 4년차라(?) 팀 레인스를 찍기로 했습니다. 팀 레인스는 도루로 유명하죠. 커리어 808개이고 162경기를 출장한다고 가정하면 평균 50개의 도루일 정도로 엄청난 개수입니다. 팀 레인스보다 많은 도루를 기록한 선수는 고작 네 명으로, 리키 헨더슨(1406!)과 루 브록(938), 빌리 해밀턴(914), 그리고 타이 콥(897)으로 위의 네 명은 모두 호퍼들입니다. 빈스 콜맨(752), 에디 콜린스(741), 호너스 와그너(723) 등의 대도로 이름 높은 선수들도 팀 레인스보다는 적은 도루를 기록했습니다. 팀 레인스는 1981시즌~1984시즌 연속으로 NL 도루왕을 차지했으며, 1980년대에만 583개의 도루를 기록하였습니다. 그 외에도 1986시즌 타격 1(0.334) 등의 타이틀을 따내는 등 1980년대를 대표하는 리드오프이며 커리어 WAR 또한 66.3이나 될만큼 HOF에 들어가기에 부족함이 없는 커리어를 보낸 선수입니다. 우승을 두 번 하던 시기는 전성기가 아니었고 각각 240타석, 382타석만 나왔을 뿐이지만 두 번의 반지를 선수 말년에 얻으면서 행복한 선수생활을 보내기도 했다고 할 수 있겠네요.


Curt Schilling(P)-2년차 38.8%

 

제 기억 속의 커트 실링은 이랬습니다...

 

통산 569경기 출장 436선발(20시즌) 우승 3(2001,2004,2007)

21614683완투 20완봉 22세이브 3261이닝 3.46 3116삼진/WAR 83.5(81.0) 127ERA+

AS 6/1993 NLCS MVP/2001 WS MVP/2001 로베르토 클레멘테상 수상

Black Ink 42/Gray Ink 205/Monitor 171/Standards 46

통산 WAR 순위(fWAR 기준): 18

 

핵이빨 그 분이십니다.(...) 커리어 정말 화려하면서 별 거 없는(?) 분이기도 하죠.(무지 도발적인 발언이고 저도 사실 별 거 없는 거 아니라는 거 압니다만 216승만 보면 엥? 하게 되죠.) 하지만 커리어 RA-9 WAR로 보나 fWAR로 보나 둘 다 80이 넘는 엄청난 선수였음을 생각해 볼 필요가 있습니다. fWAR 기준으로 그보다 더 낮은 WAR을 기록한 호퍼를 대충 살펴보면 워렌 스판(363, 80.9), 필 니크로(318, 80.4), 로빈 로버츠(286, 78.4), 밥 펠러(262, 69.9), 짐 팔머(268, 52.0) 등등에 RA-9 WAR로는 화이티 포드(236, 80.8), 후안 마리샬(243, 74.9), 모데카이 브라운(239, 71.3)에 그 외 대부분의 19세기 300승 투수들(사이 영은 제외지 말입니다?)등등 화려합니다.(함정은 RA-9 WAR이 낮은 투수들이 왠만하면 fWAR도 다 더 낮을 거라는 거..) 사실 커트 실링은 약팀의 에이스로 자신의 커리어의 반 이상을 보냈다고 할 수 있을 정도로 운이 없는 선수였다고 생각할 수도 있습니다. 그리고 실링의 또 다른 특기할 점은 커리어 112패에 2.23을 기록할 정도로 강했던 포스트시즌을 들 수 있습니다. 그 덕분에(?) 후반 몇 년간 반지 세 개를 쓸어담았습니다.(...물론 1993년에는 못했습니다. 조 카터가 없었더라면?..같은 가정은 무의미하겠죠.) 이 정도의 커리어를 가진 선수가 호프집에 가지 못한다면...할 말이 없어집니다.

 

Edgar Martinez(DH)-5년차 35.9%

 

아..

 

통산 2055경기 출장(18시즌)

2247안타 309홈런 1261타점 49도루(62.0%) 0.312/0.418/0.515 WAR 65.6 wRC+ 147

AS 7, SS 5/2004 로베르토 클레멘테상 수상

Black Ink 20/Gray Ink 107/Monitor 132/Standards 50

통산 DH(분류) WAR 순위: 4(...사실상 1)

 

사상 최고의 DH라고 생각되는 에드가 마르티네즈입니다. 하지만 그 최고의 DH라는 것이 마르티네즈의 한계점이기도 하죠. 사실, 저는 올해도 마르티네즈는 헌액되기 힘들다고 생각합니다. 사실, 40% 좀 넘을 거라고 생각합니다. 하지만, 제 기준으로는, 에드가 마르티네즈도 헌액되어야 한다고 생각합니다. 시애틀의 전성기를 상징하는 한 축인 마르티네즈이고 DH를 상징한다는 점에서, 그리고 DH라는 한계에도 불구하고 WAR60을 넘었다는 점(더불어 경기수는 2000경기밖에 안 되죠.)DH로 커리어의 대부분을 활약했으면서 타격 누적이 적다는 약점을 상쇄해줄 수 있다고 생각합니다. 무엇보다 DH순위 1,2,3위의 경우 사실상 순수한 DH가 아니었다는 점을 생각해보면 순수 DH로서는 최고의 선수였다고 생각할 수 있죠. 이 정도면, 사실 명예의 전당에 헌액되어야 한다고 생각합니다. 지금 헌액된다고 하면 아무리 그것이 최악이라고 해도 적어도 래빗 마란빌(Rabbit Maranville, 통산 0.25828홈런을 치고 14번째 투표에 헌액된 1910~1930년대 NL의 대표 유격수)의 투표헌액보다는 나은 결정일 것이라고 생각합니다.

 

Alan Trammell(SS)-13년차 33.6%

 

참 전형적인 구도의 사진.. 유니폼에서 80년대의 향기가 팍팍 풍기네요..

 

통산 2293경기 출장(20시즌) 우승 1(1984)

2365안타 185홈런 1003타점 236도루(68.4%) 0.285/0.352/0.415 WAR 63.7 wRC+ 111

AS 6, GG 4, SS 3/1984 WS MVP

Gray Ink 48/Monitor 118/Standards 40

통산 SS(분류) WAR 순위: 14

 

33.6%밖에 안 되는지 이해가 안 되는 선수입니다. 이 정도로 화려한 유격수 찾기는 힘들지 않은가 하는 생각이 드는데 말이죠. 위에서 말한 래빗 마란빌보다 훨신 나은데 말입니다.(참고로 마란빌의 커리어 WAR42.5입니다...)심지어 앞으로 몇 년 간의 명단이 워낙에 좋다보니 이리 치이고 저리 치이다 BBWAA의 투표로는 가지 못할 확률이 높아 보입니다. 물론 블랙 잉크가 0점인 걸 보면 화려하다고 보기 힘들 수도 있지만 몇 년 전 헌액된 배리 라킨도 블랙 잉크는 0점이었습니다. 트라멜과 배리 라킨은 굉장히 흡사한 커리어를 보냈는데(우승 1, 유격수에 한 팀에서만 뛴 프랜차이즈 스타 등등. 실제로 Similarity Score914점입니다.) 이런 점을 상기해보면 트라멜의 득표율은 이해가 안 됩니다...만 제가 이해 안 돼봤자 득표율은 저의 이해를 필요로 하지 않죠(-_-). 여튼 저라면 트라멜을 뽑을 겁니다. 우승도 해 봤고(그 때 WS MVP이기도 했고) 동시대 최고의 유격수였으니까요.

 

Greg Maddux(P)-1년차

 

아..교수님!!!

 

통산 744경기 출장 740선발(23시즌) 우승 1(1995)

355227109완투 35완봉 5008 1/3이닝 3.16 3371삼진/WAR 114.3(122,8) 132ERA+

CYA 4(1992~1995) AS 8GG 18

Black Ink 87/Gray Ink 336/Monitor 254/Standards 70

통산 WAR 순위(fWAR 기준): 4

 

더 이상 자세한 설명은 생략한다....하면 아마 맞아 죽겠..... 하하.;;;;;;

사이영 4회에 최다 골드글러브 수상횟수인 18, 올스타 8회만 봐도 미친 기록이란 걸 느낄 수 있지만 355승에 5008 1/3이닝은 정말 엄청난 기록입니다. WAR도 무지막지하게 100이 넘죠. 1994, 1995시즌 연속 1점대 평균자책점(1.56/1.63), 5년 연속 이닝 1(1991~1995) 등등에 1990년대 176882394 2/3 2.54의 기록을 볼 수 있듯이 1990년대 최고의 투수, 아니 최고의 선수였습니다. 1990년대만 따져도 fWAR69.9RA-9 WAR77.9입니다.(1990년대 WAR 1위 배리본즈 81.3) 사실, 그렉 매덕스는 헌액되느냐 마느냐의 문제가 아니라 톰 시버를 넘을 수 있느냐 마느냐가 관건인 선수이니 이런 글 쓰는 것도 사족이 되는군요. 흠흠

Frank Thomas(DH,1B)-1년차


이 크신 분이 수트를 입으니..뭔가 느낌이..ㄷㄷ

 

통산 2322경기 출장(19시즌)

2468안타 521홈런 1704타점 32도루(58.2%) 0.301/0.419/0.555 WAR 72.4 wRC+ 154

MVP 2(1993,1994), AS 5, SS 4

Black Ink 21/Gray Ink 200/Monitor 194/Standards 60

통산 DH(분류) WAR 순위: 1

 

90년대를 대표하는 타자입니다. 1990년대 배리 본즈를 제외하면 최고의 타자였죠.(1990년대 wRC+는 본즈가 172, 토머스가 166입니다. 수비와 주루의 차이로 WAR은 좀 차이가 나지만요. 참고로 켄 그리피 주니어가 147, 배그웰이 158) 무엇보다 약물을 하지 않은 깨끗한 이미지가 +요인이 될 가능성이 크다고 생각합니다.(몇 년 후에 나올 주니어도 마찬가지입니다.) 토머스는 최고의 스타트를 한 선수로도 평가받는데, 데뷔하고 1990~1997시즌까지의 토머스의 기록은 1076경기 출장에 0.330/0.452/0.600 1261안타 257홈런 WAR 48.7wRC+ 177을 기록하였습니다. 수비 때문에 WAR은 다소 낮지만(하하...낮은 거였군요 하하) wRC+를 보면 본즈보다 높고, 켄 그리피는 압도하는 성적입니다. 이후에는 초반만큼의 커리어를 보내지는 못하였지만 그래도 500홈런을 넘기고(521홈런은 테드 윌리엄스와 동률입니다.) 3/4/5의 슬래쉬 라인을 지키고 은퇴하였습니다. 수비 때문에 WAR이 낮다고 하여도 70을 넘는 좋은 기록입니다. 전혀 명예의 전당에 부족함이 없는 성적입니다.

 

Mike Mussina(P)-1년차

 

나..나의 무시나는 이렇지 않아!!

 

통산 537경기 출장 536선발(18시즌)

27015357완투 23완봉 3562 2/3이닝 3.68 2813삼진/WAR 82.5(82.8) 123ERA+

AS 5GG 7

Black Ink 15/Gray Ink 250/Monitor 121/Standards 54

통산 WAR 순위(fWAR 기준): 19

 

볼티모어와 양키스의 에이스, 무시나입니다. 상 못 받기로 유명하고(사이영을 한 번도 받지 못했죠.) 20승을 하고 은퇴한 것으로 유명하기도 합니다. (그리고 잘생긴 엄친아이기도 합니다.) 2008시즌이 끝나고 은퇴할 당시 명전 보증수표라고 불리는 300승을 채우지 않고 자의로 은퇴하는 것에 대해 안타까워하던 팬들도 많았었죠. 하지만 270승 정도면 명예의 전당에 가기에 충분한 승수이기도 하고, WAR80점이 넘을 정도로 엄청나기도 합니다. 무시나 최고의 시즌은 2001시즌이라고 할 수 있는데, 양키스 소속으로 첫 해에 17114완투 3완봉 228 2/3이닝 3.15(FIP 2.92) 214삼진에 fWAR 6.9(RA-9 WAR 6.4)를 기록하였습니다. 비록 사이영상 투표는 같은 팀의 로저 클레멘스에게 밀리고(2033.51 213삼진. 근데 사실 무시나의 투표순위는 5;;) 우승하려고 간 양키스는 WS에서 애리조나에게 졌습니다.(;;) 그 정도로 상복과 우승복이 없는 울적한 선수생활을(근데 270승씩이나 했는데 울적하진 않을 것 같은데...?)보냈습니다만, 무시나가 엄청난 선수였고 명예의 전당에 전혀 모자람이 없는 선수였다는 점은 분명합니다.

 

Tom Glavine(P)-1년차

응?

 

통산 682경기 출장 682선발(22시즌) 우승 1(1995)

30520356완투 25완봉 4413 1/3이닝 3.54 2607삼진/WAR 64.3(88.0) 118ERA+

CYA 2(1991,1998), AS 10, SS 4/1995 WS MVP

Black Ink 29/Gray Ink 202/Monitor 176/Standards 52

통산 WAR 순위(fWAR 기준): 41

 

FIPERA의 괴리가 큰 선수로 아마도 가장 유명한 선수일 톰 글래빈도 분명 명예의 전당에 들어가기 모자람이 없는 선수입니다.(하지만 사실 짐 팔머가 더 ERA-FIP 괴리가 큽니다. ERA2.86이지만 FIP3.50으로 차이는 0.64로 차이가 0.41인 톰 글래빈보다 훨씬 큽니다.) 전 시즌 꼴찌끼리 대결한 WS가 열렸던 1991시즌부터 사이영상을 받으면서 두각을 나타냈고(시즌 20112.55 192삼진) 이후 20승만 4번을 더 하면서 승 콜렉터로 두각을 나타냈고(-_-) 1998시즌에도 호프먼과 케빈 브라운이 표를 나눠가지면서 사이영상을 받는 등(시즌 2062.47 157삼진) 화려한 선수생활을 보냈습니다. 팀메이트였던 존 스몰츠에 비해 큰경기에 약하다는 이미지가 있지만 정작 애틀랜타가 우승할 때 WS MVP는 톰 글래빈이기도 했습니다.(1995 WS 214이닝 1.29 11삼진) 물론 FIPERA의 괴리 때문에 꽤나 팬들의 논쟁에 오르내리는 선수이기도 하지만, 아마 톰 글래빈이 명예의 전당에 어울리지 않는다고 할 팬들은 없을 것입니다.


이렇게 10명을 뽑았습니다. 사실 몇 명을 더 뽑을 수 있다면 래리 워커도 뽑고 싶습니다. 다만, 아직까지 배리 본즈와 로저 클레멘스를 뽑고 싶지는 않습니다. 확실히, 저는 둘 다 야구사에 10손가락 안에 들어갈 천재라고 생각합니다만, 약의 이미지 때문에 2년차밖에 안 되는 저 둘을 뽑기는 힘드네요. 한 10년차 정도 되면 뽑을 듯합니다.(근데 나한테는 투표권이 없는데 어떻게 뽑는다는 거지??)


이것으로 이 뻘 포스팅을 마치겠습니다. 원래는 WAR과 득표율의 상관관계나 성적 요소와 득표율의 상관관계 등을 통해서 이번에는 누가 될 확률이 몇 %다 하는 방식으로 기획했었는데 그건 해야할 일이 너무 많아서 패스(...)해서 이 글을 쓰게 됐습니다. 그나저나 이런 글 하나 쓰는데도 시간 많이 걸리네요.ㄷㄷ

Posted by 야구고물상

댓글을 달아 주세요

<이 글은 MLBNATION의 제드라우리님의 글인 'NPB->MLB 선발투수 성적 변화량에 따른 다나카의 예상 성적치'를 보고 계획하게 되었습니다.>

<모든 메이저리그 관련 스탯은 팬그래프에서 얻었으며 일본리그 기록은 베이스볼레퍼런스에서 얻었고, 2006년 이후 일본리그 선발 스플릿 자료는 http://lcom.sakura.ne.jp/NulData/index.html에서 얻었습니다. 마지막으로 일본리그 파크팩터 자료는 http://subjspeak.blogspot.kr/2012/12/npb-park-factors-for-2006-2012.html에서 얻었으며 2006년 이전의 파크펙터를 알 수 없었으므로 파크팩터의 적용에서 어느 정도 저의 주관이 개입되었음을 밝힙니다.>


1. 도입

이번 시즌 일본 프로야구리그에서는 두 가지 엄청난 기록이 세워졌습니다. 하나는 발렌틴이 일본프로야구 시즌 홈런 기록을 새로 갈아치운 것, 그리고 다른 하나는 다나카가 작년부터 28연승을 기록하면서 세계기록을 작성한 것+시즌 24승 0패 승률 100%를 기록한 일입니다. 그리고 특기할 만한 사실이 더 있습니다. 바로 다나카는 포스팅 대상이 될 수 있는 프로 7년차 선수라는 것입니다. 즉, 이번 시즌이 끝나고 다나카는 메이저리그에 진출할 가능성이 굉장히 높습니다. 저는 이러한 점에 주목하여 다나카가 과연 메이저리그에 진출한다면 어느 정도의 성적을 기록할 수 있을지에 대하여 예상해보기로 하였습니다.

엄청난 스탯을 찍은 다나카는 이번 시즌이 끝나고 메이저리그에 진출할 확률이 높습니다.

 
2. 예상의 방법

저는 다나카가 메이저리그에 진출했을 경우 기대할 수 있는 성적을 다음과 같은 방법을 이용해 예측할 것입니다.

1. 일본에서 마지막 3년간 선발로 뛴 경험이 있으며, 메이저리그 첫 시즌에도 5경기 이상의 선발기회를 가졌던 선수의 일본리그 선발성적과 메이저 1년차 선발성적의 스탯변화량을 이용한다. 이용하는 스탯은 평균이닝, 리그 평균에 대비한 K%,BB%,HBP%,HR%를 이용한다.

투수들의 명단은 다음과 같다.

<노모 히데오, 하세가와 시게토시, 이라부 히데키, 요시이 마사토, 이시이 가즈히사, 마쓰자카 다이스케, 이가와 게이, 구로다 히로키, 가와카미 켄신, 우에하라 코지, 다카하시 히사노리, 다르빗슈 유, 이와쿠마 히사시, 첸 웨이인>

2. 무엇이 더 실제와 가까울지에 대해서는 알기 힘들기 때문에 일본에서의 마지막 3년과 마지막 1년의 스탯변화량에 대하여 알아볼 것이며, 전체 선수에 대한 변화량과 마쓰자카 이후 진출한 선수들에 대한 변화량을 각각 나눠서(즉 4회에 걸쳐서) 스탯변화량을 조사하고, 그것의 평균변화율을 다르빗슈 유, 이와쿠마 히사시, 첸 웨이인에게 적용하여 무엇을 사용하는 것이 가장 가까울지 조사한다. 피안타는 각 리그의 BABIP에 정확히 일치할 것이라고 가정하며, 예상되는 TBF에 대한 식은 다음과 같이 예상한다.

http://i.imgur.com/9WYos1u.jpg













WAR을 비교할 때는 직접 계산한 WAR을 이용한다.
(팬그래프 수치와 조금씩 차이를 보이기 때문입니다.)

3. 평균을 구할 때는 각 선수들의 일본에서의 이닝을 이닝의 합으로 나눠서 확률밀도 P_i를 구한 후 P_i에 각 선수의 변화량을 곱한 후 더하여 평균변화율을 구하고, 변화량의 제곱에 P_I를 곱하여 더한 후 평균변화율의 제곱을 뺀 값을 제곱근을 씌워서 표준편차를 구한다. 성적예상값의 확률은 표준정규분포함수를 따르는 것으로 가정한다.

식으로 표현하자면 다음과 같다.

http://i.imgur.com/qubqAlq.jpg







(여기에서 표준편차를 구하는 이유는, 다나카 성적 예상에서 범위에 대한 설정을 하기 위해서입니다. 우리는 위에서 성적예상값이 표준정규분포함수를 따를 것이라고 가정하였기 때문에 예상되는 평균에서 +-표준편차만큼의 값의 범위에 해당할 확률은 약 68.2%에 해당합니다. 저는 이 범위를 다나카 성적의 예상범위로 가정하였습니다.)

4. 2013시즌의 AL리그 성적과 NL리그 성적에 대하여 다나카의 예상성적을 좋은 성적, 평균적으로 기대되는 성적, 나쁜 성적으로 나눠서 예상해본다. 마지막으로 주관을 개입하여 가장 가까울  것 같은 예상성적을 찾아본다. FIP는 팬그래프 방식으로 계산한다. 

5. 기록 예상은 파크펙터가 1인 구장에 대하여 예상하도록 한다. 승패의 예측의 경우 LUCK을 구할 때 사용하는 ExW과 ExL를 이용한다.(참고)


3. 예상 과정

우선 각 스탯의 변화량의 결과는 다음과 같았습니다.
아래에서 Avg는 평균, Stdev는 표준편차이며 표준편차는 변화량에 대한 표준편차이므로 %로 생각해도 됩니다(즉 첫번째 표 IP의 Stdev는 7%정도라고 생각해도 된다는 얘기입니다.)

모든 진출선수들의 일본리그 마지막 3년에 대한 변화량표

http://i.imgur.com/ACAwhkz.jpg

마쓰자카 이후 진출선수들의 일본리그 마지막 3년에 대한 변화량표

http://i.imgur.com/NFHsOSn.jpg

모든 진출선수들의 일본리그 마지막 시즌에 대한 변화량표
 
http://i.imgur.com/ULSraiH.jpg

마쓰자카 이후 진출선수들의 일본리그 마지막 시즌에 대한 변화량표

http://i.imgur.com/BTH7bHV.jpg

다음에는 위의 각 결과를 각각 2012년의 다르빗슈 유, 이와쿠마 히사시, 첸 웨이인에게 적용하여 어떤 것을 이용하는 게 가장 우리가 원하는 것과 비슷할지에 대하여 조사해보았습니다.

다르빗슈 유 예상성적(위에서 순서대로 AL에서의 모든 진출선수들의 마지막 3년 기록/모든 진출선수들의 마지막 시즌 기록/마쓰자카 이후 친출선수들의 3년기록/마쓰자카 이후 진출선수들의 마지막 시즌기록)


이와쿠마 히사시 예상성적

첸 웨이인 예상성적


실제기록은 저의 계산에 의한 첫 시즌 WAR은 다르빗슈 유/이와쿠마 히사시/첸 웨이인이 각각 5.1/1.1/2.1로 계산되었으므로 마쓰자카 이후 진출선수들의 3년기록의 변화율을 이용하여 계산한 WAR과 가장 비슷하였습니다.
그러므로 저는 예상성적에서의 변화율을 계산하기 위하여 마쓰자카 이후의 기록으로 계산하기로 하였습니다. 즉, 위에서 세 번째 변화량표를 이용하였습니다.

이를 이용하여 다나카의 성적예상의 범위를 대략적으로 예측할 수 있었습니다.


LOW가 가장 나쁘다고 생각될 수 있는 예상값, MEAN이 평균적인 값을 이용한 예상값, HIGH가 가장 좋다고 생각될 수 있는 예상값을 뜻한다고 생각하시면 됩니다. 
여기에서 BB%나 HBP%도 사실은 다 적용하여야 했지만 가장 좋은 값을 적용할 때 -에 해당하는 값이 나오는 문제점이 있었습니다. 그래서 저는 다나카의 제구력은 굉장히 좋은 수준으로 판단하였고 때문에 BB%와 HBP%의 모든 경우에 대해서 평균값을 사용하기로 하였습니다.
이를 이용하면, 우리는 대략적으로 다나카가 WAR 4에서 8사이의 어떤 값을 기록할 거라고 예측가능합니다.(물론 가장 좋은 값은 저의 가정이 불완전하기 때문에 저렇게 높게 나온 것이라고 생각합니다.)


4. 성적 예상 결과

예상결과는 제가 생각하기에 다나카가 기록할 것 같은 가장 가까운 성적을 계산하기로 하였습니다. 저는 다나카의 스타일상 제구가 좋은 스타일로 BB%나 HBP%는 평균적인 변화율을 사용해도 좋을 것이라고 생각하였습니다. 홈런에 관하여는 메이저리그에서 꽤나 많이 늘어날 것으로 예상하였기 때문에 LOW에 해당하는 예상값을 이용하였습니다. K%는 다르빗슈 유나 이와쿠마 히사시나 첸 웨이인이나 평균예상치에서 벗어나지 않는 것으로 판단하여 평균변화율을 적용하였고, 이닝수치도 평균변화율을 적용하였습니다. 결과는 아래의 표와 같았습니다.


5.결론

우선 스탯을 정리하다 생각한 내용은 다나카 마사히로가 제가 생각해왔던 것 이상으로 좋은 선수라는 것이었습니다. 일본에서의 마지막 3년간의 성적은 그 엄청나다는 다르빗슈에 전혀 뒤지지 않으며(오히려 앞선다고 볼 수도 있습니다.) 그 결과로 예상성적도 굉장히 좋은 성적이 기대됩니다. 제가 예상한 위의 결과에 따르면 다나카가 30경기를 선발로 나온다고 가정할 때 대략적으로 4~6사이의 WAR을 기록할 것으로 예상됩니다. 즉, 다나카는 굉장한 수준의 성적을 기록할 것으로 예측됩니다. 제 사견이지만, 다나카에게 투자하는 팀은 다르빗슈 유 급의 엄청난 성공을 거둘 수도 있을 것 같습니다.


Posted by 야구고물상

댓글을 달아 주세요

#참고: 과거 MLBNATION에 썼던 글로 다나카글을 올린 겸 같이 올립니다.


재미로 한 번 해 본 겁니다. 저는 이 글에서의 수학적 엄밀성을 보장할 수 없습니다. 재미로 봐 주시면 감사하겠습니다.

모든 데이터는 팬그래프(fangraphs.com)에서 얻은 것입니다.

한 때 윤석민상이라는 게 유행했던 적이 있습니다. 2007년 윤석민은 162이닝을 던지면서 2완투 1완봉 3.78의 평균자책점을 기록했습니다. 기록 자체는 아주 솔리드하다고 볼 수 없었지만, 이닝을 보면 준수한 2선발급의 활약은 하였다고 볼 수 있는 성적이었죠. 하지만 윤석민의 성적에는 심각한 문제가 있었습니다. 디시전이 7승 18패였던 것이죠. 이 7승 18패라는 성적에 고무된(!) 네티즌들은 그 때부터 윤석민상이라는 걸 만들어서 시상하기 시작했습니다. 최근에는 열기가 많이 식어서 그런 상이 있는지 모르는 분들이 더 많겠지만, 그 때 한국 프로야구를 봤던 분들이라면 윤석민의 불운을 기억하고 있을 겁니다. 제가 하고 싶은 계산은 바로 그 '불운'을 계산해보는 겁니다.

한 때 정말 불운했던 윤석민. 함정이라면 이 사진은 2008시즌 평균자책점 1위한 시즌의 사진이라는 것;; 실제로 이 시즌은 14승 5패로 전혀 불운하지 않았습니다.

사실 운을 계산하는 툴은 이미 나와 있습니다. 바로 베이스볼 프로스펙터스에서 개발한 툴로 2009 시즌이 끝나고 김형준 기자가 칼럼을 통해 소개한 적이 있습니다. 하지만 저와 같이 스탯 계산에 취미를 가진 사람들에게 그 툴은 중대한 문제점이 있었습니다. 너무 어렵다는 점이었죠. 영어의 압박도 압박이지만 이해하기 위해서는 처음부터 그 많은 사례들을 일일이 체크해가면서 이해해야 하는 어려움이 있었습니다. 다른 할 일이 많은 상황에서, 그리고 알고 있는 배경 지식이 적다는 점에서 매우 힘든 일이었죠. 그래서 더 쉬운 툴을 개발하기로 결심하였습니다. 오래 전에, 아마 고등학교 입학할 즈음에. 하지만 완성본은 그로부터 3년도 더 지난 오늘에서야 만들었습니다.;;(단언컨대 게으름은 인간의 가장 큰 적입니다..)


이 툴을 개발하기에 앞서 우선 이 툴을 계산할 때 사용할 데이터에 대하여 정리할 필요성이 있습니다. 먼저 이 툴은 선발투수만을 대상으로 한정한 계산법입니다. 불펜투수는 그 이닝수 자체가 적기 때문에 불운을 판단할 근거가 미약하다고 판단하였기 때문이죠. 이 툴은 운을 계산하기 위해 투수의 승패, 혹은 디시전이라 불리는 것을 사용할 것입니다. 이유는 간단합니다. 윤석민의 불운을 판단한 근거는 '나쁘지 않은 평균자책점+7승 18패라는 최악의 디시전'이었고, 작년의 류현진도, 그리고 그 류현진을 비웃고 계시는 리선생님의 불운도 그 디시전 때문에 판단된 것이라고 생각했기 때문입니다. 그리고 사용할 계산 방법으로는 피타고리안 승률을 이용하기로 하였습니다. 우선 저는 피타고리안 승률을 사랑하며(저는 가끔 피타고리안 승률로 WAR을 계산하곤 합니다. 그 방식으로 계산하면 상위권 성적의 피처들은 fWAR과 비슷한 값이 도출되는데, 하위권 성적의 피처들은 그에  비해 더 높은 WAR이 도출되곤합니다.) 팀의 성적도 피타고리안 승률로 예측할 수 있다면 선발의 디시전도 피타고리안 승률로 예측할 수 있지 않을까라는 막연한 질문에서 시작하였죠. 그래서 저는 RS^C/(RS^C+RA^C)=WPCT라는 식을 이용하기로 하였습니다.(과연 이 식으로 신뢰할 수 있는 선형적 관계를 유도할 수 있느냐의 문제가 남았습니다만, 그 과정은 아래에 설명하겠습니다.) 앞에서 말한 피타고리안 승률식에서 RS는 선발투수의 득점지원률을, RA는 선발투수의 실점률을 의미합니다. 왜냐고요? 투수의 디시전을 생각할 것이므로 경기 자체의 득점과 실점으로 승률을 예측하는 건 어렵다고 판단했기 때문입니다.(그러면 구원이 얼마나 선발의 승리와 패배를 날려먹는지에 대한 연구가 동시에 수반되어야 하죠..그러면 PBP 데이터도 얻어야 하고 여튼 복잡합니다.;;) 그리고 ERA에 해당하는 계산은 FIP로 대체하였습니다. 말 그대로 불운을 판단하기 위해서죠.(물론 FIP도 완전한 스탯은 아닙니다만, ERA에 비해서 노이즈가 적은 스탯이라는 판단 하에 사용하였습니다. xFIP를 사용할 수도 있지만 과연 모든 투수의 홈런 허용률이 리그 평균으로 고정할 수 있는지에 대해서는 좀 회의감이 들고, 무엇보다 타구에 대한 계산이 수반되어야 하므로 FIP를 사용하기로 한 겁니다.)


이 작업을 위해 가장 중요한 과정은 RS/9와 RA/9를 이용하여 피타고리안 승률의 계산식을 얻어내는 것입니다. 저는 이 작업을 수행하기 위하여 2002~2012년 규정이닝 이상 투구한 선발투수(선발경기 한정)의 피칭 데이터를 사용하였습니다. 우선 피타고리안 승률을 계산하기 위한 C가 필요합니다. 각각 경우에 대한 C의 계산은 다음과 같습니다.


 


이를 통해 각 선수별 C값을 구할 수 있었습니다. RS/RA=1인 경우 자연로그값이 0이 나오기 때문에 이런 경우 C는 0으로 처리해야 했습니다. 이번에는 그 C값의 평균을 구할 차례입니다. 평균은 각 값에 확률밀도 P(continuous한 함수가 아니라 discrete한 밸류)를 곱한 값을 더함으로써 계산할 수 있습니다. P는 각 투수의 이닝을 투수들의 이닝을 합한 총이닝으로 나눈 값을 이용하였습니다. 평균은 두 가지를 이용하였습니다. 1. 그냥 원래 평균과 2. 절대값들의 평균. 원래는 2번에 RMS(Root Mean Square)로 하려고 했지만 계산을 계속 이상하게 해서 미봉책으로 사용한 계산입니다. 그리고 아래에 왜 그랬는지를 설명하겠지만 사용한 값은 1과 2의 평균값으로 사용하였습니다.


그렇다면 왜 1과 2의 평균을 사용하였는지 설명하겠습니다. 저는 위와 같은 방식의 계산으로 으로 1.C=2.06, 2.C=2.97의 결과를 얻었습니다. 그 C를 이용하여 기대승률을 예측한 후, x축에는 실제 승률을, y축에는 기대승률을 플로팅하여 그래프를 그려보았습니다. 이 그래프를 통해 제가 원하는 것은 '1.R^2>0.5일 정도의 신뢰도를 가진 추세선을 가질 것과 2. 그 추세선의 기울기가 1과 유사해야 할 것'입니다.
1번의 경우


http://i.imgur.com/Ly0k31f.jpg

와 같은 그래프를 얻을 수 있었습니다. R^2=0.7317로 충분한 신뢰도를 확보하였습니다.(즉, 피타고리안 승률로 예상해도 어느 정도 괜찮은 것 같다는 결론에 도달하였습니다.) 하지만 그 식이 y=0.8625x+0.0985로 기울기가 1에서 저 멀리 떨어져 있었기 때문에 문제가 생겼습니다. 
2번의 경우

http://i.imgur.com/bTxYyvi.jpg



와 같은 그래프를 얻을 수 있었습니다. 이번에도 R^2=0.7293으로 충분한 신뢰도를 확보하였습니다만, 식이 y=1.1593x-0.0388로 기울기가 1과 저 멀리 떨어져버린 문제가 생겨버렸습니다.
그래서 평균을 구해서 C=2.51을 사용하기로 하였죠.
그 결과


http://i.imgur.com/SN1waNP.jpg

만세입니다! R^2=0.731이면서도 기울기가 1에 매우 근접한 식(y=1.0184x+0,0263)을 얻을 수 있었습니다. 그래서 C=2.51로 사용하기로 결정하였습니다. 즉, WPCT=RS^2.51/(RS^2.51+RA^2.51)입니다.


다음은 IP/DEC(줄여서 IPDEC으로 표기하겠습니다.)의 관계를 살펴볼 차례입니다만..1974~2012년 50이닝 이상의 선발투구를 펼쳤던 모든 투수의 데이터를 이용하니 다음과 같은 이상한 그래프를 얻게 되었습니다;;(x축: 선발경기당 평균이닝 y축: 디시전 당 평균이닝)


http://i.imgur.com/MvP3hbO.jpg

FAIL입니다.ㅠㅠ R^2이 무려 0.0766의 대단한 그래프를 얻어낼 수 있었죠ㅠㅠ. 이는 규정이닝 이상 선발투구로 조건을 바꿔도 마찬가지였습니다. 그래서 IPDEC은 그냥 그 해 리그평균을 일괄적으로 적용하기로 결정하였습니다.
결과적으로 식은 다음과 같아졌습니다.(sta: 선발의 약자 rel: 구원의 약자)

 


마지막으로 우리가 원했던 운(LUCK으로 표기하도록 합시다.)은 다음과 같이 계산됩니다.



이제 식을 완성했습니다. 그 식의 적용만 남았군요. 적용은 간단합니다. 2010~2012년간 어떤 투수가 운이 좋았고, 어떤 투수가 운이 나빳는지를 LUCK으로 판별하는 작업을 하기로 한 거죠. 그 결과는 다음과 같았습니다.(규정이닝 이상 선발투구 투수 순위,*는 그 시즌 사이영상 수상자)

 

2010 AL LUCK 상위 TOP3

Rank 

 Name

 ERA

 FIP

 W

 L

 ExW

 ExL

 LUCK

 1

 Trever Cahil

2.97

4.19

18 

8

11.6

12.2

+10.6

 2

Earvin Santana

3.92

4.28

17

10

12.5

14.4

+8.8

 3

Phil Hughes

4.23

4.30 

17

8

10.7

10.4

+8.7


2010 AL LUCK 하위 TOP3

Rank 

 Name

 ERA

 FIP

 W

 L

 ExW

 ExL

 LUCK

 1

 Zack Greinke 

 4.17

3.34

10 

14

17.2 

9.8

-11.9

 2

Cliff Lee

 3.18

2.58

12

9

19.8

5.8

-11.0

 3

Doug Fister 

 4.11

3.65 

6

14 

11.5

9.1 

-10.4

 *

Felix Hernandez

2.27

3.04

13

12

19.8

10.5

-8.5


2010 NL LUCK 상위 TOP3 

Rank 

 Name

 ERA

 FIP

 W

 L

 ExW

 ExL

 LUCK

 1

Bronson Arroyo

3.88

4.61

18 

10

11.1 

14.7 

+10.6

 2

Tim Hudson

2.83

4.09

17

9

13.4

13.9

+8.4

 3

 Jon Garland 

3.47

4.41 

14

12 

9.4

14.4

+7.0 

Roy Halladay 

2.44 

3.01 

21 

10 

20.2 

9.7 

+0.5 


2010 NL LUCK 하위 TOP3

Rank 

 Name

 ERA

 FIP

 W

 L

 ExW

 ExL

 LUCK

 1

 Randy Wells

 4.26

3.93

14

12.5

10.7

-7.7

 2

Josh Johnson

 2.30

2.41

11

6

17.3

4.6

-7.7

 3

Tommy Hanson

3.33

3.31 

10

11 

15.1

9.1 

-7.1

 

2011 AL LUCK 상위 TOP3

Rank 

 Name

 ERA

 FIP

 W

 L

 ExW

 ExL

 LUCK

 1

 Ivan Nova

 3.66

4.01

16 

3

10.6

8.9

+11.3

 2

Derek Holland

 3.95

3.94

16

5

13.6

10.0

+7.4

 3*

Justin Verlander

2.40

2.99 

24

21.0

8.9 

+6.9


2011 AL LUCK 하위 TOP3

Rank 

 Name

 ERA

 FIP

 W

 L

 ExW

 ExL

 LUCK

 1

Doug Fister

 2.87

3.03

10 

13

17.2

8.2

-12.0

 2

Jeff Francis

4.82

4.10

6

16

11.4

10.4

-11.0

 3

Brandon McCarthy

3.32

2.86 

9

14.3

6.0 

-8.3


2011 NL LUCK 상위 TOP3

Rank 

 Name

 ERA

 FIP

 W

 L

 ExW

 ExL

 LUCK

 1

 Aaron Harang

3.64

4.17

14 

7

8.2

11.7

+10.5

 2

Ian Kennedy

2.88

3.22

21

4

16.7

9.1

+9.4

 3

Bronson Arroyo

5.07

5.71 

9

12

6.7

16.4 

+6.7

 *

Clayton Kershaw

2.28

2.47

21

5

18.8

7.2

+3.4


2011 NL LUCK 하위 TOP3

Rank 

 Name

 ERA

 FIP

 W

 L

 ExW

 ExL

 LUCK

 1

Derek Lowe

5.05

3.70

17

11.6

10.2

-9.4

 2

Madison Bumgarner

3.21

2.67

13

13

16.5

7.3

-9.2

 3

Matt Latos

3.47

3.16 

9

14 

13.1

9.5 

-8.7

 

2012 AL LUCK 상위 TOP3

Rank 

 Name

 ERA

 FIP

 W

 L

 ExW

 ExL

 LUCK

 1

Jered Weaver

2.81

3.75

20

5

13.3

10.3

+12.1

 2

Jason Vargas

3.85

4.69

14

11

11.0

16.2

+8.2

 3

Derek Holland

4.72

4.75 

12

10.2

11.3

+7.1

4 *

David Price

2.56

3.05

20

5

17.7

8.7

+6.0


2012 AL LUCK 하위 TOP3

Rank 

 Name

 ERA

 FIP

 W

 L

 ExW

 ExL

 LUCK

 1

Jon Lester

4.82

4.11

9

14

14.4

11.3

-8.1

 2

Felix Hernandez

3.37

3.73

11

12

16.5

10.8

-6.7

 3

Jake Peavy

3.37

3.73 

11

12 

16.5

10.8 

-6.7


2012 NL LUCK 상위 TOP3

Rank 

 Name

 ERA

 FIP

 W

 L

 ExW

 ExL

 LUCK

 1

Barry Zito

4.15

4.47

15

8

8.9

13.5

+11.6

 2

Kyle Lohse

2.86

3.51

16

3

14.5

11.1

+9.6

 3

Lance Lynn

3.67

3.47 

17

11.8

8.7 

+8.9

5*

R.A. Dickey

2.67

3.22

20

6

17.2

11.0

+7.8


2012 NL LUCK 하위 TOP3

Rank 

 Name

 ERA

 FIP

 W

 L

 ExW

 ExL

 LUCK

 1

Josh Johnson

3.81

3.40

8

14

14.0

9.2

-10.9

 2

Cliff Lee

3.16

3.13

6

9

16.6

9.0

-10.7

 3

Jeff Samardzija

3.94

3.55 

9

13

12.6

8.6 

-8.1



아...아니..내가 2012시즌 최고의 불운남이 아니라니..(by 클리프 리)

결과를 대략적으로 살펴보면 의외의 선수들도 가끔 포함되어 있고(예를 들어 2010년 헛슨이나 2011년 데릭 로) 우리가 너무나도 당연히 알고 있던 선수들도 포함되어 있습니다.(클리프 리, 킹 펠릭스 등등) 특히 킹의 경우 LUCK이 최근 3년간 -8.5(2010 AL 하위 6위), -7.5(2011 AL 하위 4위), -7.6(2012 AL 하위 2위)의 극심한 불운에 시달리는 중입니다. 클리프 리도 2번이나 하위 3위 안쪽에 이름을 올렸고요. 그리고 2012년의 지토는....역시 법력 대마왕이었습니다.(지그니토!) 그리고 사이영상 수상선수들은 대체적으로 +를 기록하였군요.(킹 지못미ㅠ)

마지막으로 이 툴의 단점들을 소개해야겠습니다.

1. 아직 커리어를 대상으로 적용해본 사례가 없기 때문에 커리어의 경우 운의 요소가 많이 줄어드는지를 확인해본 적이 없다.
2. RS,RA가 독립변수로써 투수의 디시전 결과 예측에서도 통계적 유의미성을 지녔는지에 대한 증명이 생략되어 그 근거가 미약하다.
3. 실제 전체 선발투수의 승률은 0.500보다 약간 낮게 나타나지만 이 툴을 이용하면 0.500 부근으로 형성될 것이다.
4. 1999년 페드로 마르티네즈와 같이 엄청난 FIP를 기록한 경우 페드로가 나온 경기에서 팀이 이길 수 있다고 계산되는 승수보다 페드로가 기록할 것이라고 생각되는 기대승수가 더 크게 나오는 문제점을 가지고 있다.(이는 후에 다시 한 번 생각해볼 문제입니다.)


+덧붙여서

이 글은 순전히 재미를 위한 글입니다. 잘 아시겠지만 이 툴로는 절대로 투수를 평가할 수 없음을 잘 아실 겁니다.(즉, 참고용으로도 의미는 그리 크지 않다는 뜻입니다. 뭐, 윤석민상처럼 MLB에 블라일레븐상 같은 걸 만들어서 수여할 게 아니라면 말이죠...) 만약 이 툴을 계산하실 때 FIP를 이용하는 게 싫으시다면 FIP를 사용하는 부분에서 ERA, SIERA, xFIP등등의 스탯들을 이용하셔도 됩니다.


Posted by 야구고물상

댓글을 달아 주세요

언제나 확실하지 않은 예상은 재미있는 법입니다.ㅎ 

내일 한국시간 9시 7분에 시작하는 ALWC를 예상해보기로 해봅시다.

내일 경기는 클리블랜드 홈에서 진행되며, 저는 내일의 결과 예상을 위하여 Log5 System을 이용할 것입니다. 그리고 Log5 System을 이용하기 위해 피타고리안 승률을 이용할 것입니다. 저의 감각으로 하는 예상은 제가 싸구려 아마추어인 관계로(;;) 틀리는 경우가 무지하게 많아 그렇게 하는 것임을 양해바랍니다.

피칭: 우선 내일 선발은 CLE: Danny Salazar, TBR: Alex Cobb입니다.

Salazar는 홈에서 4경기 23이닝 ERA 3.13 FIP 3.09를 기록하고 있습니다. Cobb은 원정에서 9경기 60이닝 ERA 2.70에 FIP 4.05를 기록하고 있습니다. 피타고리안 승률을 계산하기 위해서 9이닝당 평균적인 실점률을 계산해야 하고, 불펜의 피칭까지 커버해야할 필요성이 있습니다. 불펜의 평균은 계산의 편의성을 위해 팀의 평균 FIP를 이용하였습니다. 식은 다음과 같습니다.

(FIPR_sta: 선발투수의 FIP*R/ER, IP_sta: 선발투수의 평균이닝수, IPG: 팀의 경기당 평균이닝, FIPR_rel: 팀 FIP*R/ER, IP_rel: IPG-IP_sta)

ExRA=(FIPR_sta/9*IP_sta+ IP_rel*FIPR_rel/9)/IPG*9(9이닝당 평균실점으로 환산)

필딩: 우리가 관심을 가지는 건 득점이기 때문에 시즌 전체의 UZR을 9이닝당 수비로 인한 점수의 변동폭을 이용하였습니다.(원래는 홈과 어웨이 성적을 비교하고 싶었지만 할 수가 없었습니다.ㅠㅠ) 그 결과 클리블랜드는 9이닝당 평균적으로 0.03점의 실점이 수비로 인하여 늘어났고 탬파베이는 9이닝당 평균 0.03점의 실점을 수비로 줄였습니다.

배팅: 기대득점을 계산하기 위해 RC/27을 사용하기로 하였습니다. RC는 위키피디아에 나와있는 2002 버전을 이용하였습니다. 다만 RC와 전체 득점의 차이가 날 수 있으므로 조정을 가하기 위해 RC/27에 R/RC의 팩터를 곱하여 사용하기로 하였고, 비교를 하기 위하여 평균적인 구장에서 하는 상황을 고려하기로 하였습니다.(사실상 계산편의를 위해서입니다.) 클리블랜드는 홈에서 358점의 득점, RC 357.86, RC/27은 4.63점이고 조정된 RC/27은 4.53점이었습니다. 이를 평균적인 가상의 구장으로 환산한 경우 4.71의 평균득점이 나왔습니다. 탬파베이의 원정의 경우는 원정에서의 구장상황 자체가 사실상 평균구장과 비슷할 것이기 때문에 조정 RC/27을 사용하였고, 그 결과  4.38점이 나왔습니다.

예상하기: 아래의 표를 참조하십시오.

ExRS는 평균적인 득점을, ExRA는 평균적인 실점을, PitC는 피타고리안 승률을 계산하기 위한 상수((RS_avg+RA_avg)^0.287로 계산하였습니다.)이고 ExWPCT는 계산된 피타고리안 승률, ExAbil은 Log5 System을 계산하기 위한 내일 예상팀의 능력치와 같다고 보면 됩니다.(Log5 System은 추후에 포스팅 해보도록 하겠습니다.) ExRslt는 내일경기의 기대승률이라고 보시면 됩니다.(ExRslt_a=ExAbil_a/(ExAbil_a+ExAbil_b)로 계산합니다.) 그 결과 현재의 예상으로는 내일 경기는 클리블랜드가 승리할 확률이 62.7%, 탬파베이가 승리할 확률은 37.3%로 계산되었습니다.

결과 예상: 저는 계산결과를 따라가기로 하였습니다. 즉, 내일 클리블랜드가 승리할 거라고 예상됩니다.

Posted by 야구고물상

댓글을 달아 주세요

MLBNATION회원들이라면 아시겠지만, 예전에 제가 쓴 글에 '간단히 해보는 선발투수 운(Luck)의 계량'이라는 글이 있었습니다. 이 포스팅은 그 분들, 그리고 그 외에도 윤석민 어워드에 관심이 많으신 분들을 위한 많은 야구팬을 위한 것으로, 제가 지금까지 독점해왔던(흠...허접하기 때문에 별 의미는 없긴 하지만서도ㅎㅎ) LUCK 지수 계산을 위한 엑셀 파일을 공유하기 위한 포스팅입니다. 아래 엑셀파일 링크를 참조하시길 바랍니다.

LUCK_공유용.xlsx


우선 간단히 어떤 식으로 사용하면 되는지 설명해드리겠습니다. 우선 위의 파일은 2013년 LUCK지수 계산을 위해 사용한 파일의 재활용(;;)입니다. 뭐 AL과 NL에 특별히 할 언급은 없고요 IP_FAN이라는 항목은 팬그래프 기록을 사용한 흔적이라고 보시면 됩니다.(팬그래프는 이닝항목이 0.1씩 나와서 엑셀로 계산하면 ERA와 FIP에 오차가 생기게 되죠.) 그리고 League 항목은 간단히 필요한 리그에 대한 기초적인 자료(다만 필요없는 것도 있기는 합니다만 저것도 팬그래프 걸 그대로 사용하다보니 그렇게 됐습니다. 그리고 맨 위의 FIP의 경우 FIPC입니다.)를 위한 시트고요, BPF는 2013년 득점 파크팩터에 대한 시트입니다. 지금까지 저는 모든 자료를 팬그래프 것을 중심으로 하였기 때문에 모든 자료는 팬그래프의 정렬방식을 따랐습니다만, 계산하실 때 너무 불필요한 것이 많다고 생각되시면 필요한 것만 취하시면 됩니다. 그리고 FIP 기반이 아니라 ERA 기반으로 계산을 진행하고 싶으시다면  ExRA의 수식에서 Z열에 해당하는 부분을 E열로 바꾸시면 됩니다. 물론 RS도 리그 RS가 아니라 리그 FIP_RS로 사용하고 싶으시다면' League!$P$()/League!$G$()'(괄호 안은 번호)에 해당하는 부분을 ;League!$Y$()*League!$P$()/League!$Q$()'로 하시면 됩니다.

그럼 이상으로 LUCK 엑셀자료 공유에 대한 설명을 마치겠습니다. 궁금하신 것이 있다면 아래에 댓글에 문의해주세요. 감사합니다.

Posted by 야구고물상

댓글을 달아 주세요

  1. Bench Wannabe 2013.09.30 20:28 신고  댓글주소  수정/삭제  댓글쓰기

    수능 끝나고 역대로 해서 노트북 한 번 터뜨려 볼까 합니다