뭐, 이 글을 나 때문에 썼다고?


모든 스탯은 Fangraphs에서 얻었습니다.


1. 득점 창출


wOBA를 소개하기 이전에 세이버매트릭스의 전체적인 흐름 정도는 소개할 필요가 있을 것 같습니다. 세이버매트릭스가 태동한 이후 많은 세이버매트리션들은 득점이 어떻게 만들어지는지에 대하여 여러 연구를 수행하였습니다. 물론 만들어지는 과정 자체는 여러 루트가 있겠지만, 많이 루상에 나가고(출루율), 많은 장타를 쳐 내면(장타율) 많은 득점을 창출할 수 있다는 사실을 우리는 많은 경기를 보아온 바 알고 있습니다. 그런 이유에서 탄생한 것이 바로 세이버매트릭스계의 기본이자 혁명이라고 할 수 있는 OPS(On Base Plus Slugging)입니다. 하지만, 우리가 알고 있듯이 단타를 친 후 창출되는 득점이 꼭 2루타를 친 후 창출되는 득점의 1/2는 아닙니다. 볼넷을 얻어내서 창출되는 득점이 단타에 의해서 창출되는 득점과 같은 것은 아니지요. 그래서 빌 제임스는 RC(Runs Created)와 같은 스탯을 만들었고, 짐 푸르타도는 XR(Extrapolated Runs)곽 같은 스탯을 만들어냈습니다. 그래도, 뭔가가 부족했습니다. 그래서 누군가는 생각해 냈죠. 해당하는 이벤트가 만들어내는 득점을 PBP(Play by Play) 데이터를 이용해 계산해 보기로 하자! 그리고 그 결과를 이용해 계수를 구한 후 득점력을 설명해 보자! 그런 생각에서 세상에 나온 개념이 Run Value입니다.


2. Run Value를 구하기 전에 잠시...


먼저 runValue를 구하기 위해서는 RE(Runs Expectancy, 기대득점)를 구해야 합니다. 왜냐구요? 모든 득점이 같은 상황에서 똑같은 방식으로 나오지는 않기 때문에 각 아웃 카운트에 해당하는 상황마다 평균적으로 기대되는 득점을 구해야만 각 이벤트가 가지는 순수한득점의 가치를 구할 수 있기 때문일 것이기 때문입니다.

먼저 RE를 구하기 위해서는 모든 아웃 카운트에 해당하는 상황을 생각해 보아야 합니다. 먼저 아웃카운트를 생각해 봅시다. 우리가 야구경기를 보면서 볼 수 있는 아웃 카운트는 0,1,2가 있습니다. 3아웃 체인지 아니냐고 묻는다면, ‘3아웃이면 이닝이 끝나기 때문에 우리가 상관할 바가 아니다라고 할 수 있겠습니다. 다음에 우리가 생각할 수 있는 상황은 루상에 주자가 있느냐, 아니냐입니다. , 주자 있음과 주자 없음에 대한 각각의 상황이 1, 2, 3루에 다 존재합니다. , 주자가 루상에 채워져 있는 상황은 2^3=8가지 상황이 있는 것입니다. 그러므로, 아웃 카운트까지 생각해 타자가 겪을 수 있는 상황은 3*8=24가지입니다.

우리가 원하는 것은 기대되는 득점의 값이므로, A라는 상황(예를 들자면 무사 1루 상황 같은 어느 특정한 상황)의 수를 그 해당하는 상황이 일어난 해당 이닝이 끝날 때까지 득점한 득점의 수를 나눈 값이 각 해당 상황(Event)RE가 되는 겁니다. 1999~2002시즌의 RE는 아래 링크를 들어가 보시면 보실 수 있습니다.

1999~2002시즌 기록으로 계산한 RE

 

3. Run Value 구하기


먼저 몇 가지 생각을 해 봅시다. 위의 링크에 나온 표를 참조하시면 이해가 더 빠르실 겁니다.

어떤 선수가 나와서 무사 주자 없는 상황에서 홈런을 첬다고 생각해 봅시다. 원래의 무사 마루 상황에서 기대되는 득점은 0.555점입니다. 이 때 홈런을 쳤다면 이는 솔로 홈런이고, 이후의 상황은 무사에 주자가 없으므로 더 기대되는 점수는 0.555점이므로 기대득점은 1.555점이 됩니다. 그리고 이 홈런의 득점가치는 기대득점 1.555점에서 원래 기대되는 득점 0.555점을 빼서 1점이 됩니다.

이에 비해 2사 만루 상황에서 만루홈런을 쳤다고 가정해 봅시다. 홈런을 쳤기 때문에 홈런을 친 후 상황은 2사 주자 없음이 되므로 그 때 기대되는 득점은 0.117점이고 얻어낸 득점은 4점이기 때문에 기대득점은 4.117점입니다. 그리고 원래 2사 만루 상황에서 기대되던 득점은 0.815점이기 때문에 2사 만루 상황에서의 만루홈런의 순수한득점가치는 0.117+4-0.815=3.302점입니다. 그리고 이런 방식으로 모든 상황에 상응하는 홈런에 대한 순수한 득점가치를 구한 후 그 가중평균을 계산하면, 그것은 곧 홈런의 runValue가 됩니다. 만약 시즌의 홈런이 1000개 나왔고(가정입니다...) 솔로홈런이 그 중 400, 만루홈런이 600개가 나왔다면(다시 한 번 말하지만 가정입니다....) 홈런의 runValue는 runValue=(1*400+3.302*600)/1000=2.381점이 됩니다. 이런 방식으로 실제 리그 기록을 이용하여 각 이벤트에 대한 runValue를 구하면 됩니다.

참고로 실제 리그 기록을 가지고 홈런의 runValue를 구해 보면 대략 1.4점 정도로 계산됩니다.


4. wOBA


이제 runValue를 어떻게 구하는지 알아보았으니 wOBA에 대해 설명할 차례입니다.(헉헉..힘들어 죽겠습니다..) wOBAWeighted On Base Average를 뜻합니다. 가중출루율 정도로 해석할 수 있을 듯 하군요. 이름에서 몇 가지 사실을 유추해 낼 수 있습니다. Weight에서 어떤 가중치가 있다는 것을 생각해 볼 수 있고, On Base Average라는 것에서 출루율 스케일로 만들어낼 것이라는 것이죠.

우리가 원하는 것은 공격적인 요소들과 runValue를 이용하여 출루율 스케일의 스탯을 만들어내는 것입니다. 우리가 원하는 것은 runValue를 이용하여 weight를 구하고, 그를 이용하여 출루율 스케일의 스탯을 구하는 것입니다. 이 때 weight을 로 정의해 봅시다. 이 때 i는 그냥 첨자를 의미합니다. 즉, 는 wBB 등을 다 포함하는 개념입니다.

우리가 위에 말한 방식대로라면 아마 식은 이런 방식이 될 것 같군요.



이 때 IBB는 투수가 일부러 상대타자를 피한 경우이기 때문에 계산에서 제외하는 것입니다.

그리고 출루율 스케일이어야 하므로, LgwOBA=LgOBP여야 합니다. 이 때 wOBA의 분모와 OBP의 분모도 같기 때문에



의 식이 성립함을 알 수 있습니다. 결과적으로 아래와 같이 쓸 수 있을 겁니다.

 (각 i는 득점을 하기 위해 필요한 타격 요소들을 의미합니다.)

또한 분모를 두 부분으로 나눠봅시다.

AB+BB-IBB+HBP+SF=X라고 할 때 X=M+P로 정의하고 M=AB-H+SF, P=H+BB-IBB+HBP로 정의하기로 합니다. 위의 정의를 보면 아시겠지만, M은 아웃을, P는 진루를 시키는 모든 요소를 더한 것임을 알 수 있을 겁니다. 위에서 저는 득점을 하기 위해 필요한 타격 요소들을 로 정의하였는데, 이는 위에서 정의한 P와 같습니다. 그러므로, 우리는 아래의 식을 풀어야 함을 알 수 있습니다.



이 때 는 Run Value들을 의미합니다. 여기서 갑자기 Run Value가 튀어나온 이유는 분모에서 득점에 실이 되는 것과 득이 되는 요소들이 각각 P,M이고 각각의 득이 되는 이벤트들(단타, 2루타 등등)은 아웃에 의한 득점가치에 대한 득점가치들을 더한 값을 이용하여 weight를 계산해내야 할 것이기 때문에 아웃에 의한 득점가치, 아웃이 아닌 것에 대한 득점가치가 필요하여 나오게 되는 것입니다. 또한 위에서 제가 쓴 아래첨자 I,j는 dummy variable로 사실상의 큰 의미는 없고 딱 계산을 잘 하기 위해 필요한 첨자 정도로만 의미가 있다고 보시면 됩니다여튼 이를 다시 풀어보면



의 식을 얻어낼 수 있습니다.

이 때 제가 정의한 rPLUS와 rMINUS, 그리고 각각의 weight는 아래의 식과 같습니다.



또, 편의상 wOBA SCALE을 아래와 같이 정의합니다.



그러므로 wOBA의 계수는 아래와 같이 구하면 됩니다.(BB의 경우)



이 때 rPLUS는 아웃이 아닌 타격에 의한 득점 가치를, rMINUS는 아웃에 의한 득점 가치를 의미합니다.

 

5. Fangraphs 방식으로 wOBA 구하기


사실 runValue를 구하기 위해서는 모든 PBP 데이터가 필요합니다. 근데, 우리의 영원한 아이돌이신 Tom Tango는 조금 다른 방식으로 runValue의 근사치를 구해내는 방법을 고안했습니다.

먼저 Runs Per Out을 구해봅시다. 이는 다른 게 아니라 을 뜻합니다. 아래에서는 이를 줄여서 RpOUT으로 쓰도록 하겠습니다.


다음에는 딱 아래와 같이 구하면 됩니다.


runBB=RpOUT+0,14

runHBP=runBB+0.025

run1B=runHBP+0.13

run2B=run1B+0.3

run3B=run2B+0.27

runHR=1.4


이는 Tom Tango의 버전과는 조금 다른데, Fangraphs는 위와 같이 RunValues를 구하는 것 같더군요.

다음 wOBA의 계수를 구하는 과정은 우리가 4번에거 구한 과정을 이용하여 구하면 됩니다.

예를 들어서 2014시즌의 wOBA 계수를 구해보면 아래와 같은 결과가 나옵니다.


 RpOUT

runBB 

runHBP 

run1B 

run2B 

run3B 

runHR 

 0.151

0.291 

0.316 

0.446 

0.746

1.016 

1.400 


rMINUS=-0.238

rPLUS=0.529

wOBA SCALE=1.304


 wBB

wHBP

w1B 

w2B 

w3B 

wHR 

 0.689

0.722 

0.892 

1.283 

1.635 

 2.135


위의 계수를 Fangraphs의 Glossary 코너에서 확인해 보면 정확히 계산되었다는 사실을 알 수 있을 것입니다.


아래는 제가 구한 Fangraphs 방식의 runValuewOBA 계수 엑셀 파일입니다.

 

runValues,wOBA Coefficients.xlsx


6. 후기


우리 같은 보통 야구팬들이 모두가 PBP 데이터를 가지고 계산하기에는 여간 힘든 게 아닙니다. 이런 건 보통 데이터베이스 프로그램을 이용하여 계산해야 하는데, 모든 사람들이 다 그 방법을 아는 건 아니거든요. 그래서 5번과 같은 방식이 있다는 것은 분명 우리 같은 일반 팬에게는 혁명과도 같은 발전이라고 할 수 있겠습니다. 5번의 방식이 정말 원래의 runValue와 비슷한지 궁금하실 수 있으실 텐데, 제가 개인적으로 데이터를 다운받아 계산해 본 바에 의하면 정말 거의 비슷합니다. 그러므로 적어도 5번의 방식을 이용하여 wOBA를 계산하는 것이 큰 무리는 없다고 생각합니다.

지금까지 잘 설명해 놓고 제가 이런 말을 하면 굉장히 이상하겠지만, 사실 제가 이 글을 쓴 이유는 단순하게 wOBA를 계산하는 방식과 그 식이 어떻게 나왔는지를 설명하기 위해서 쓴 것은 아닙니다.(..아니 조금은 있습니다...) 저는 언제나 투수의 스탯에 관심이 많습니다. 그래서 투수의 Opponent Batting Stat을 통해 wRC를 계산하면 대략적으로 투수가 기록할 실점을 계산할 수 있지 않을까?’ 하는 생각에서 계산을 하곤 했습니다. 실제로 투수가 실점을 하나 상대팀이 득점을 하나 득점 환경은 똑같기 때문에 전혀 다르게 생각할 필요는 없다고 생각한 것입니다. 하지만, 저의 생각과 다른 구간이 있더군요. 바로 평균적인 wOBA에 비해 wOBA가 굉장히 낮은 경우입니다. 대략 wOBA가 0.250정도이거나 그보다 작을 때 정도입니다. 대표적인 선수가 클레이튼 커쇼입니다. 클레이튼 커쇼는 언제나 굉장히 낮은 피wOBA를 기록합니다. 하지만 그에 상응하는 wRC는 커쇼가 기록하는 실점보다 훨씬 적었습니다. 커쇼가 실점 억제를 못하는 선수일 리는 지금까지의 경험으로는 전혀 없습니다. 커쇼의 LOB%는 통산 78.3%입니다. MLB에서는 아무리 높아도 리그평균이 75%를 넘지 못합니다. , 커쇼는 적어도 실점 억제력이 나쁜 선수는 아닙니다. 이를 다른 상황으로 적용해 보자면, 커쇼가 기록한 피wOBA와 같은 wOBA를 기록한 타자가 모든 타석에 다 나왔다고 상상을 해 볼 때, 우리가 아는 wRC를 이용하여 계산한 예상되는 득점이 커쇼가 실제로 기록한 실점보다 꾸준하게 더 적다는 굉장히 괴랄한 상황이 발생하게 됩니다.(!) 그러므로, wOBA가 굉장히 작은 경우 조금 다른 식이 필요하지 않을까 하는 생각을 하게 된 겁니다. 그러니까 정리해 보자면, 제가 이 글을 쓴 이유는 제가 만든 새로운 wRC의 근사식을 소개하기 위한 추진력을 얻기 위해 쓴 것이라고 할 수 있습니다.(...) 

그러니, 만약 이 글을 보셨다면, 다음 글도 기대해 주시길 바랍니다.(...)

마지막으로 끝까지 읽어 주셔서 감사합니다.

Posted by 야구고물상

댓글을 달아 주세요


저는 두산이 4위를 하기 원합니다...


8월 들어 프로야구 팬들에게 가장 큰 화두는 단연 4위 싸움에서 누가 과연 이길 것인가 하는 문제일 것입니다. 2014시즌 827일 기준 성적으로 보자면, 삼성이 승률 0.670으로 1, 그리고 넥센과 NC2,3위권을 공고히 하고 있으며 4LG부터 9위 한화의 승차는 5.5게임입니다. 그나마 최근 LG가 좋은 페이스를 보이며 4위와 9위까지의 승차가 벌어졌네요. 하지만 5위부터 9위는 1.5게임차가 나는 상황이고 약 25게임 정도가 남은 상황이라 LG가 승차를 벌렸다고 해도 안심할 수는 없는 상황이라고 생각합니다. 그런 의미에서, 한 번 이 뜨거운 감자에 손을 대 볼 생각입니다.

 

1. 상대팀별 승률 예상

 

위의 제목에서 통계적 방법이라고 했듯이, 먼저 팀의 기대 승률을 알아보기 위해 가끔씩 사용되는 Log5 System을 사용할 예정입니다. 물론 Log5 System은 승률이 A이고 B인 팀이 맞붙었을 때의 승률 계산에 이용되므로 약간 핀트가 다르다고 볼 수 있는데, 저는 팀의 기대 승률, 기대 승수를 알기 위해서 각 팀의 상대 전적과 남은 경기를 이용할 것이기에 Log5 System을 이용하는 것이 무리는 아니라고 생각합니다. 그러기 위해서 먼저 피타고리안 승률을 계산할 필요가 있겠군요. 다만 한 가지 걸리는 것은 이번 시즌의 경우 워낙에 점수가 많이 나다 보니 가끔가다가 24:5 같은 경기가 벌어져서 피타고리안 승률의 예측력이 조금 떨어질 가능성이 있다는 것입니다...하지만 이 부분의 경우 투고타저라도 2012시즌의 볼티모어(9369, 득실 마진 +7...)같은 문제도 있고 해서 큰 문제는 아니라고 생각하고 계산할 때 그냥 때려 박을 생각입니다.(...) 원래는 홈과 원정을 나눠서 해 보려고 했는데(의외로 이 작업은 이틀만에 다 했습니다...) 그게 홈 원정 승률 차이가 큰 차이도 없고 해서 그냥 통합해서 하기로 하였습니다. (집에서 다른 거 더 할 걸...) 보통은 피타고리안 승률 적용시 상수를 2, 혹은 1.85 정도로 놓는데 저는 (경기별 득점+실점)^0.287로 하여 상수를 계산하고 피타고리안 승률을 계산하였습니다. 결과는 아래 표와 같습니다.


 팀

피타고리안 승률 

 삼성

0.645 

 넥센

0.566 

 NC

0.610 

LG

0.499 

 롯데

0.500 

 두산

0.459 

SK

0.451 

KIA 

0.420 

 한화

0.352 


이를 통해 Log5 System을 계산할 예정입니다. 먼저, Log5 System 계산을 위해 각 팀의 능력(?)을 계산합니다. 왜냐 하면 Log5 System의 계산에서는 각 팀의 능력에 대하여 a팀을 A, b팀을 B라고 할 때 a팀은 A/(A+B)의 승률을, b팀은 B/(A+B)의 승률을 기록할 것으로 예상하기 때문입니다. 이 때 승률 0.5인 팀은 능력도 0.5로 계산되며, 이에 맞춰서 능력을 계산하시면 됩니다. (예를 들자면 승률이 a이고 능력이 A인 경우 A=a/(2(1-a)).) 그리고 이 능력을 계산했으면, 위에서 말한 식대로 각 팀간의 상대승률을 계산합니다. 그 승률은 아래의 표와 같습니다. (읽는 법은 한국야구위원회에 나오는 팀간 승패표 보는 것과 같습니다.)

 


2. 기대승률과 기대순위 예상

 

다음은 남은 경기들과 위의 상대승률을 이용하여 예상되는 승수를 계산하는 것입니다. 여기에서 저는 앞으로 무승부는 없는 것으로 가정했습니다. 원래는 무승부도 계산에 넣어야 하겠지만, 그 경우 계산이 복잡해지고 또한 무승부의 빈도가 적기 때문에 계산하지 않기로 하였습니다. 이 때 팀의 승은 소수점으로 나타날 수 없기 때문에 반올림한 후 승과 패를 계산하기로 하였습니다. 그 결과 각 팀의 예상 승, , 패는 다음과 같습니다.

 



3. 4위 확률 계산

 

이제 4위 확률을 계산해야겠는데요, 이 때 원래는 남은 경기와 승률의 모든 경우를 계산해야겠지만 그 작업은 혼자 하기에는 너무 많은 작업이 필요하므로 여기에서 푸아송 분포를 도입하기로 하였습니다. 승패의 모든 경우에 대하여 분포를 계산하면 되므로(=이산확률로 계산될 것이기 때문에) 푸아송 분포를 따를 것이라고 생각했기 때문입니다. 위에서 남은 경기의 승패를 계산한 후 푸아송 분포로 각 팀의 각각의 승률의 분포를 계산하기로 한 것입니다. 그리고 그 그래프는 아래와 같습니다.

 

각 팀별 승률 분포 그래프 <그래프별 색깔은 제가 지정하는 방법을 몰라서 색깔이 비슷비슷합니다. 죄송합니다.>


이제 4강 확률을 계산할 차례입니다. 삼성이 사실상 4위를 할 확률은 거의 없고(남은 모든 게임을 다 져도 0.532....) 넥센과 NC는 아주 약간씩 있기는 한데 그게 계산에 큰 변화를 줄 만큼 크지는 않기 때문에 이 경우도 4위를 할 확률은 없다고 가정하고 계산하기로 하였습니다. 그 과정은....사실 아래와 같은 노가다로 일일이 계산했습니다.

 


위와 같이 다른 팀들이 그 팀의 승률보다 낮을 확률에 대한 경우를 일일이 계산하고 각 확률들을 곱한 후 팀의 각 승률마다 4위가 될 확률들을 더하여 전체의 4위 확률을 더하는 겁니다.

그 결과는 아래의 표와 같습니다. 이게 약간의 오차가 생겨서 값을 더해보니 확률이 1이 안 나와서(아마 위의 세 팀이 4위를 할 확률 등등일 겁니다.) 확률의 합이 1이 되도록 조정을 했습니다.

 

4. 결과

 

아래의 표를 확인하시길 바랍니다.


 팀

4위 확률 

 LG

38.3% 

 롯데

22.2% 

 두산

21.6% 

 SK

8.0% 

 KIA

8.0% 

 한화

1.9% 

 

위에서 보듯이 LG4위를 할 확률이 현재로는 가장 높다고 생각됩니다. 4위 확률 순위는 지금의 순위와 같네요. (;;당연한가요..) 하지만 아직 3팀이나 20% 이상이 4위 확률이기 때문에 3팀 다 어느 정도 가능한 수준이라고 볼 수밖에 없을 듯 합니다. 무엇보다 위의 과정상의 허접함으로(...) 오차가 있을 수 밖에 없음을 가정하면 LG가 약 30~40% 정도, 롯데 두산이 약 15~25% 정도로 생각할 수 있을 듯 합니다. 그리고 SK, KIA, 한화는 10% 미만으로 계산되기는 하였지만 아직 희망의 끈을 놓을 때는 아닌 것으로 보입니다. 


5. 결론


2001시즌 이후 최고의 4위 싸움(...이라고 말은 하지만 사실은....)으로 꽤나 재밌는 상황이 연출되고 있습니다. 어떻게 돼든 4위는 포스트시즌의 막차를 타는 것이므로 지금 이 상황에서는 4위 이하의 팀들이 모두 4위를 원할 수 밖에 없는 상황입니다. 각 팀의 팬들 힘내시길 바라며 각 팀은 재밌는 4위 싸움을 해 줬으면 좋겠습니다.


+두산은 제발 후회 없이 좋은 경기 좀 했으면 좋겠습니다....제발..


모든 기록은 한국야구위원회서 참조하였습니다.

Posted by 야구고물상

댓글을 달아 주세요

  1. 삼팬 2015.09.13 17:20  댓글주소  수정/삭제  댓글쓰기

    안녕하세요. 글 잘 보고 있습니다. 근데 푸아송 분포에서 어떤 값을 넣으셨나요? 제가 이와 비슷하게 글을 써보려고 하는데 거기서 막혔네요...

    • 야구고물상 2015.09.13 23:25 신고  댓글주소  수정/삭제

      요새 따로 할 일이 많아서 글을 못 쓰고 있는데도 읽어 주셨다니 감사합니다!!

      푸아송 분포 적용의 경우, 위키피디아에 나오는 식을 중심으로 쓰자면 lambda의 경우 평균적으로 기대되는 승수, 그리고 k의 경우 k번 이길 경우를 생각하고 계산했습니다. 그러니까, 만약에 20경기에서 10승이 평균적으로 기대된다면 lambda에 10을 넣고, 거기에서 15승을 하는 경우의 확률을 계산하고 싶다면 k에 15를 넣는 식으로 말입니다.
      만약 패배를 중심으로 하고 싶으면 위에서 승리를 패배로 바꿔서 계산하면 됩니다.

  2. 2015.11.20 01:05  댓글주소  수정/삭제  댓글쓰기

    비밀댓글입니다

  3. 2015.11.20 01:19  댓글주소  수정/삭제  댓글쓰기

    비밀댓글입니다

  4. 경숙 2016.11.08 11:59  댓글주소  수정/삭제  댓글쓰기

    3번 포아송그래프에서 y축이 무엇인가요?

<이 글은 MLBNATION의 제드라우리님의 글인 'NPB->MLB 선발투수 성적 변화량에 따른 다나카의 예상 성적치'를 보고 계획하게 되었습니다.>

<모든 메이저리그 관련 스탯은 팬그래프에서 얻었으며 일본리그 기록은 베이스볼레퍼런스에서 얻었고, 2006년 이후 일본리그 선발 스플릿 자료는 http://lcom.sakura.ne.jp/NulData/index.html에서 얻었습니다. 마지막으로 일본리그 파크팩터 자료는 http://subjspeak.blogspot.kr/2012/12/npb-park-factors-for-2006-2012.html에서 얻었으며 2006년 이전의 파크펙터를 알 수 없었으므로 파크팩터의 적용에서 어느 정도 저의 주관이 개입되었음을 밝힙니다.>


1. 도입

이번 시즌 일본 프로야구리그에서는 두 가지 엄청난 기록이 세워졌습니다. 하나는 발렌틴이 일본프로야구 시즌 홈런 기록을 새로 갈아치운 것, 그리고 다른 하나는 다나카가 작년부터 28연승을 기록하면서 세계기록을 작성한 것+시즌 24승 0패 승률 100%를 기록한 일입니다. 그리고 특기할 만한 사실이 더 있습니다. 바로 다나카는 포스팅 대상이 될 수 있는 프로 7년차 선수라는 것입니다. 즉, 이번 시즌이 끝나고 다나카는 메이저리그에 진출할 가능성이 굉장히 높습니다. 저는 이러한 점에 주목하여 다나카가 과연 메이저리그에 진출한다면 어느 정도의 성적을 기록할 수 있을지에 대하여 예상해보기로 하였습니다.

엄청난 스탯을 찍은 다나카는 이번 시즌이 끝나고 메이저리그에 진출할 확률이 높습니다.

 
2. 예상의 방법

저는 다나카가 메이저리그에 진출했을 경우 기대할 수 있는 성적을 다음과 같은 방법을 이용해 예측할 것입니다.

1. 일본에서 마지막 3년간 선발로 뛴 경험이 있으며, 메이저리그 첫 시즌에도 5경기 이상의 선발기회를 가졌던 선수의 일본리그 선발성적과 메이저 1년차 선발성적의 스탯변화량을 이용한다. 이용하는 스탯은 평균이닝, 리그 평균에 대비한 K%,BB%,HBP%,HR%를 이용한다.

투수들의 명단은 다음과 같다.

<노모 히데오, 하세가와 시게토시, 이라부 히데키, 요시이 마사토, 이시이 가즈히사, 마쓰자카 다이스케, 이가와 게이, 구로다 히로키, 가와카미 켄신, 우에하라 코지, 다카하시 히사노리, 다르빗슈 유, 이와쿠마 히사시, 첸 웨이인>

2. 무엇이 더 실제와 가까울지에 대해서는 알기 힘들기 때문에 일본에서의 마지막 3년과 마지막 1년의 스탯변화량에 대하여 알아볼 것이며, 전체 선수에 대한 변화량과 마쓰자카 이후 진출한 선수들에 대한 변화량을 각각 나눠서(즉 4회에 걸쳐서) 스탯변화량을 조사하고, 그것의 평균변화율을 다르빗슈 유, 이와쿠마 히사시, 첸 웨이인에게 적용하여 무엇을 사용하는 것이 가장 가까울지 조사한다. 피안타는 각 리그의 BABIP에 정확히 일치할 것이라고 가정하며, 예상되는 TBF에 대한 식은 다음과 같이 예상한다.

http://i.imgur.com/9WYos1u.jpg













WAR을 비교할 때는 직접 계산한 WAR을 이용한다.
(팬그래프 수치와 조금씩 차이를 보이기 때문입니다.)

3. 평균을 구할 때는 각 선수들의 일본에서의 이닝을 이닝의 합으로 나눠서 확률밀도 P_i를 구한 후 P_i에 각 선수의 변화량을 곱한 후 더하여 평균변화율을 구하고, 변화량의 제곱에 P_I를 곱하여 더한 후 평균변화율의 제곱을 뺀 값을 제곱근을 씌워서 표준편차를 구한다. 성적예상값의 확률은 표준정규분포함수를 따르는 것으로 가정한다.

식으로 표현하자면 다음과 같다.

http://i.imgur.com/qubqAlq.jpg







(여기에서 표준편차를 구하는 이유는, 다나카 성적 예상에서 범위에 대한 설정을 하기 위해서입니다. 우리는 위에서 성적예상값이 표준정규분포함수를 따를 것이라고 가정하였기 때문에 예상되는 평균에서 +-표준편차만큼의 값의 범위에 해당할 확률은 약 68.2%에 해당합니다. 저는 이 범위를 다나카 성적의 예상범위로 가정하였습니다.)

4. 2013시즌의 AL리그 성적과 NL리그 성적에 대하여 다나카의 예상성적을 좋은 성적, 평균적으로 기대되는 성적, 나쁜 성적으로 나눠서 예상해본다. 마지막으로 주관을 개입하여 가장 가까울  것 같은 예상성적을 찾아본다. FIP는 팬그래프 방식으로 계산한다. 

5. 기록 예상은 파크펙터가 1인 구장에 대하여 예상하도록 한다. 승패의 예측의 경우 LUCK을 구할 때 사용하는 ExW과 ExL를 이용한다.(참고)


3. 예상 과정

우선 각 스탯의 변화량의 결과는 다음과 같았습니다.
아래에서 Avg는 평균, Stdev는 표준편차이며 표준편차는 변화량에 대한 표준편차이므로 %로 생각해도 됩니다(즉 첫번째 표 IP의 Stdev는 7%정도라고 생각해도 된다는 얘기입니다.)

모든 진출선수들의 일본리그 마지막 3년에 대한 변화량표

http://i.imgur.com/ACAwhkz.jpg

마쓰자카 이후 진출선수들의 일본리그 마지막 3년에 대한 변화량표

http://i.imgur.com/NFHsOSn.jpg

모든 진출선수들의 일본리그 마지막 시즌에 대한 변화량표
 
http://i.imgur.com/ULSraiH.jpg

마쓰자카 이후 진출선수들의 일본리그 마지막 시즌에 대한 변화량표

http://i.imgur.com/BTH7bHV.jpg

다음에는 위의 각 결과를 각각 2012년의 다르빗슈 유, 이와쿠마 히사시, 첸 웨이인에게 적용하여 어떤 것을 이용하는 게 가장 우리가 원하는 것과 비슷할지에 대하여 조사해보았습니다.

다르빗슈 유 예상성적(위에서 순서대로 AL에서의 모든 진출선수들의 마지막 3년 기록/모든 진출선수들의 마지막 시즌 기록/마쓰자카 이후 친출선수들의 3년기록/마쓰자카 이후 진출선수들의 마지막 시즌기록)


이와쿠마 히사시 예상성적

첸 웨이인 예상성적


실제기록은 저의 계산에 의한 첫 시즌 WAR은 다르빗슈 유/이와쿠마 히사시/첸 웨이인이 각각 5.1/1.1/2.1로 계산되었으므로 마쓰자카 이후 진출선수들의 3년기록의 변화율을 이용하여 계산한 WAR과 가장 비슷하였습니다.
그러므로 저는 예상성적에서의 변화율을 계산하기 위하여 마쓰자카 이후의 기록으로 계산하기로 하였습니다. 즉, 위에서 세 번째 변화량표를 이용하였습니다.

이를 이용하여 다나카의 성적예상의 범위를 대략적으로 예측할 수 있었습니다.


LOW가 가장 나쁘다고 생각될 수 있는 예상값, MEAN이 평균적인 값을 이용한 예상값, HIGH가 가장 좋다고 생각될 수 있는 예상값을 뜻한다고 생각하시면 됩니다. 
여기에서 BB%나 HBP%도 사실은 다 적용하여야 했지만 가장 좋은 값을 적용할 때 -에 해당하는 값이 나오는 문제점이 있었습니다. 그래서 저는 다나카의 제구력은 굉장히 좋은 수준으로 판단하였고 때문에 BB%와 HBP%의 모든 경우에 대해서 평균값을 사용하기로 하였습니다.
이를 이용하면, 우리는 대략적으로 다나카가 WAR 4에서 8사이의 어떤 값을 기록할 거라고 예측가능합니다.(물론 가장 좋은 값은 저의 가정이 불완전하기 때문에 저렇게 높게 나온 것이라고 생각합니다.)


4. 성적 예상 결과

예상결과는 제가 생각하기에 다나카가 기록할 것 같은 가장 가까운 성적을 계산하기로 하였습니다. 저는 다나카의 스타일상 제구가 좋은 스타일로 BB%나 HBP%는 평균적인 변화율을 사용해도 좋을 것이라고 생각하였습니다. 홈런에 관하여는 메이저리그에서 꽤나 많이 늘어날 것으로 예상하였기 때문에 LOW에 해당하는 예상값을 이용하였습니다. K%는 다르빗슈 유나 이와쿠마 히사시나 첸 웨이인이나 평균예상치에서 벗어나지 않는 것으로 판단하여 평균변화율을 적용하였고, 이닝수치도 평균변화율을 적용하였습니다. 결과는 아래의 표와 같았습니다.


5.결론

우선 스탯을 정리하다 생각한 내용은 다나카 마사히로가 제가 생각해왔던 것 이상으로 좋은 선수라는 것이었습니다. 일본에서의 마지막 3년간의 성적은 그 엄청나다는 다르빗슈에 전혀 뒤지지 않으며(오히려 앞선다고 볼 수도 있습니다.) 그 결과로 예상성적도 굉장히 좋은 성적이 기대됩니다. 제가 예상한 위의 결과에 따르면 다나카가 30경기를 선발로 나온다고 가정할 때 대략적으로 4~6사이의 WAR을 기록할 것으로 예상됩니다. 즉, 다나카는 굉장한 수준의 성적을 기록할 것으로 예측됩니다. 제 사견이지만, 다나카에게 투자하는 팀은 다르빗슈 유 급의 엄청난 성공을 거둘 수도 있을 것 같습니다.


Posted by 야구고물상

댓글을 달아 주세요

#참고: 과거 MLBNATION에 썼던 글로 다나카글을 올린 겸 같이 올립니다.


재미로 한 번 해 본 겁니다. 저는 이 글에서의 수학적 엄밀성을 보장할 수 없습니다. 재미로 봐 주시면 감사하겠습니다.

모든 데이터는 팬그래프(fangraphs.com)에서 얻은 것입니다.

한 때 윤석민상이라는 게 유행했던 적이 있습니다. 2007년 윤석민은 162이닝을 던지면서 2완투 1완봉 3.78의 평균자책점을 기록했습니다. 기록 자체는 아주 솔리드하다고 볼 수 없었지만, 이닝을 보면 준수한 2선발급의 활약은 하였다고 볼 수 있는 성적이었죠. 하지만 윤석민의 성적에는 심각한 문제가 있었습니다. 디시전이 7승 18패였던 것이죠. 이 7승 18패라는 성적에 고무된(!) 네티즌들은 그 때부터 윤석민상이라는 걸 만들어서 시상하기 시작했습니다. 최근에는 열기가 많이 식어서 그런 상이 있는지 모르는 분들이 더 많겠지만, 그 때 한국 프로야구를 봤던 분들이라면 윤석민의 불운을 기억하고 있을 겁니다. 제가 하고 싶은 계산은 바로 그 '불운'을 계산해보는 겁니다.

한 때 정말 불운했던 윤석민. 함정이라면 이 사진은 2008시즌 평균자책점 1위한 시즌의 사진이라는 것;; 실제로 이 시즌은 14승 5패로 전혀 불운하지 않았습니다.

사실 운을 계산하는 툴은 이미 나와 있습니다. 바로 베이스볼 프로스펙터스에서 개발한 툴로 2009 시즌이 끝나고 김형준 기자가 칼럼을 통해 소개한 적이 있습니다. 하지만 저와 같이 스탯 계산에 취미를 가진 사람들에게 그 툴은 중대한 문제점이 있었습니다. 너무 어렵다는 점이었죠. 영어의 압박도 압박이지만 이해하기 위해서는 처음부터 그 많은 사례들을 일일이 체크해가면서 이해해야 하는 어려움이 있었습니다. 다른 할 일이 많은 상황에서, 그리고 알고 있는 배경 지식이 적다는 점에서 매우 힘든 일이었죠. 그래서 더 쉬운 툴을 개발하기로 결심하였습니다. 오래 전에, 아마 고등학교 입학할 즈음에. 하지만 완성본은 그로부터 3년도 더 지난 오늘에서야 만들었습니다.;;(단언컨대 게으름은 인간의 가장 큰 적입니다..)


이 툴을 개발하기에 앞서 우선 이 툴을 계산할 때 사용할 데이터에 대하여 정리할 필요성이 있습니다. 먼저 이 툴은 선발투수만을 대상으로 한정한 계산법입니다. 불펜투수는 그 이닝수 자체가 적기 때문에 불운을 판단할 근거가 미약하다고 판단하였기 때문이죠. 이 툴은 운을 계산하기 위해 투수의 승패, 혹은 디시전이라 불리는 것을 사용할 것입니다. 이유는 간단합니다. 윤석민의 불운을 판단한 근거는 '나쁘지 않은 평균자책점+7승 18패라는 최악의 디시전'이었고, 작년의 류현진도, 그리고 그 류현진을 비웃고 계시는 리선생님의 불운도 그 디시전 때문에 판단된 것이라고 생각했기 때문입니다. 그리고 사용할 계산 방법으로는 피타고리안 승률을 이용하기로 하였습니다. 우선 저는 피타고리안 승률을 사랑하며(저는 가끔 피타고리안 승률로 WAR을 계산하곤 합니다. 그 방식으로 계산하면 상위권 성적의 피처들은 fWAR과 비슷한 값이 도출되는데, 하위권 성적의 피처들은 그에  비해 더 높은 WAR이 도출되곤합니다.) 팀의 성적도 피타고리안 승률로 예측할 수 있다면 선발의 디시전도 피타고리안 승률로 예측할 수 있지 않을까라는 막연한 질문에서 시작하였죠. 그래서 저는 RS^C/(RS^C+RA^C)=WPCT라는 식을 이용하기로 하였습니다.(과연 이 식으로 신뢰할 수 있는 선형적 관계를 유도할 수 있느냐의 문제가 남았습니다만, 그 과정은 아래에 설명하겠습니다.) 앞에서 말한 피타고리안 승률식에서 RS는 선발투수의 득점지원률을, RA는 선발투수의 실점률을 의미합니다. 왜냐고요? 투수의 디시전을 생각할 것이므로 경기 자체의 득점과 실점으로 승률을 예측하는 건 어렵다고 판단했기 때문입니다.(그러면 구원이 얼마나 선발의 승리와 패배를 날려먹는지에 대한 연구가 동시에 수반되어야 하죠..그러면 PBP 데이터도 얻어야 하고 여튼 복잡합니다.;;) 그리고 ERA에 해당하는 계산은 FIP로 대체하였습니다. 말 그대로 불운을 판단하기 위해서죠.(물론 FIP도 완전한 스탯은 아닙니다만, ERA에 비해서 노이즈가 적은 스탯이라는 판단 하에 사용하였습니다. xFIP를 사용할 수도 있지만 과연 모든 투수의 홈런 허용률이 리그 평균으로 고정할 수 있는지에 대해서는 좀 회의감이 들고, 무엇보다 타구에 대한 계산이 수반되어야 하므로 FIP를 사용하기로 한 겁니다.)


이 작업을 위해 가장 중요한 과정은 RS/9와 RA/9를 이용하여 피타고리안 승률의 계산식을 얻어내는 것입니다. 저는 이 작업을 수행하기 위하여 2002~2012년 규정이닝 이상 투구한 선발투수(선발경기 한정)의 피칭 데이터를 사용하였습니다. 우선 피타고리안 승률을 계산하기 위한 C가 필요합니다. 각각 경우에 대한 C의 계산은 다음과 같습니다.


 


이를 통해 각 선수별 C값을 구할 수 있었습니다. RS/RA=1인 경우 자연로그값이 0이 나오기 때문에 이런 경우 C는 0으로 처리해야 했습니다. 이번에는 그 C값의 평균을 구할 차례입니다. 평균은 각 값에 확률밀도 P(continuous한 함수가 아니라 discrete한 밸류)를 곱한 값을 더함으로써 계산할 수 있습니다. P는 각 투수의 이닝을 투수들의 이닝을 합한 총이닝으로 나눈 값을 이용하였습니다. 평균은 두 가지를 이용하였습니다. 1. 그냥 원래 평균과 2. 절대값들의 평균. 원래는 2번에 RMS(Root Mean Square)로 하려고 했지만 계산을 계속 이상하게 해서 미봉책으로 사용한 계산입니다. 그리고 아래에 왜 그랬는지를 설명하겠지만 사용한 값은 1과 2의 평균값으로 사용하였습니다.


그렇다면 왜 1과 2의 평균을 사용하였는지 설명하겠습니다. 저는 위와 같은 방식의 계산으로 으로 1.C=2.06, 2.C=2.97의 결과를 얻었습니다. 그 C를 이용하여 기대승률을 예측한 후, x축에는 실제 승률을, y축에는 기대승률을 플로팅하여 그래프를 그려보았습니다. 이 그래프를 통해 제가 원하는 것은 '1.R^2>0.5일 정도의 신뢰도를 가진 추세선을 가질 것과 2. 그 추세선의 기울기가 1과 유사해야 할 것'입니다.
1번의 경우


http://i.imgur.com/Ly0k31f.jpg

와 같은 그래프를 얻을 수 있었습니다. R^2=0.7317로 충분한 신뢰도를 확보하였습니다.(즉, 피타고리안 승률로 예상해도 어느 정도 괜찮은 것 같다는 결론에 도달하였습니다.) 하지만 그 식이 y=0.8625x+0.0985로 기울기가 1에서 저 멀리 떨어져 있었기 때문에 문제가 생겼습니다. 
2번의 경우

http://i.imgur.com/bTxYyvi.jpg



와 같은 그래프를 얻을 수 있었습니다. 이번에도 R^2=0.7293으로 충분한 신뢰도를 확보하였습니다만, 식이 y=1.1593x-0.0388로 기울기가 1과 저 멀리 떨어져버린 문제가 생겨버렸습니다.
그래서 평균을 구해서 C=2.51을 사용하기로 하였죠.
그 결과


http://i.imgur.com/SN1waNP.jpg

만세입니다! R^2=0.731이면서도 기울기가 1에 매우 근접한 식(y=1.0184x+0,0263)을 얻을 수 있었습니다. 그래서 C=2.51로 사용하기로 결정하였습니다. 즉, WPCT=RS^2.51/(RS^2.51+RA^2.51)입니다.


다음은 IP/DEC(줄여서 IPDEC으로 표기하겠습니다.)의 관계를 살펴볼 차례입니다만..1974~2012년 50이닝 이상의 선발투구를 펼쳤던 모든 투수의 데이터를 이용하니 다음과 같은 이상한 그래프를 얻게 되었습니다;;(x축: 선발경기당 평균이닝 y축: 디시전 당 평균이닝)


http://i.imgur.com/MvP3hbO.jpg

FAIL입니다.ㅠㅠ R^2이 무려 0.0766의 대단한 그래프를 얻어낼 수 있었죠ㅠㅠ. 이는 규정이닝 이상 선발투구로 조건을 바꿔도 마찬가지였습니다. 그래서 IPDEC은 그냥 그 해 리그평균을 일괄적으로 적용하기로 결정하였습니다.
결과적으로 식은 다음과 같아졌습니다.(sta: 선발의 약자 rel: 구원의 약자)

 


마지막으로 우리가 원했던 운(LUCK으로 표기하도록 합시다.)은 다음과 같이 계산됩니다.



이제 식을 완성했습니다. 그 식의 적용만 남았군요. 적용은 간단합니다. 2010~2012년간 어떤 투수가 운이 좋았고, 어떤 투수가 운이 나빳는지를 LUCK으로 판별하는 작업을 하기로 한 거죠. 그 결과는 다음과 같았습니다.(규정이닝 이상 선발투구 투수 순위,*는 그 시즌 사이영상 수상자)

 

2010 AL LUCK 상위 TOP3

Rank 

 Name

 ERA

 FIP

 W

 L

 ExW

 ExL

 LUCK

 1

 Trever Cahil

2.97

4.19

18 

8

11.6

12.2

+10.6

 2

Earvin Santana

3.92

4.28

17

10

12.5

14.4

+8.8

 3

Phil Hughes

4.23

4.30 

17

8

10.7

10.4

+8.7


2010 AL LUCK 하위 TOP3

Rank 

 Name

 ERA

 FIP

 W

 L

 ExW

 ExL

 LUCK

 1

 Zack Greinke 

 4.17

3.34

10 

14

17.2 

9.8

-11.9

 2

Cliff Lee

 3.18

2.58

12

9

19.8

5.8

-11.0

 3

Doug Fister 

 4.11

3.65 

6

14 

11.5

9.1 

-10.4

 *

Felix Hernandez

2.27

3.04

13

12

19.8

10.5

-8.5


2010 NL LUCK 상위 TOP3 

Rank 

 Name

 ERA

 FIP

 W

 L

 ExW

 ExL

 LUCK

 1

Bronson Arroyo

3.88

4.61

18 

10

11.1 

14.7 

+10.6

 2

Tim Hudson

2.83

4.09

17

9

13.4

13.9

+8.4

 3

 Jon Garland 

3.47

4.41 

14

12 

9.4

14.4

+7.0 

Roy Halladay 

2.44 

3.01 

21 

10 

20.2 

9.7 

+0.5 


2010 NL LUCK 하위 TOP3

Rank 

 Name

 ERA

 FIP

 W

 L

 ExW

 ExL

 LUCK

 1

 Randy Wells

 4.26

3.93

14

12.5

10.7

-7.7

 2

Josh Johnson

 2.30

2.41

11

6

17.3

4.6

-7.7

 3

Tommy Hanson

3.33

3.31 

10

11 

15.1

9.1 

-7.1

 

2011 AL LUCK 상위 TOP3

Rank 

 Name

 ERA

 FIP

 W

 L

 ExW

 ExL

 LUCK

 1

 Ivan Nova

 3.66

4.01

16 

3

10.6

8.9

+11.3

 2

Derek Holland

 3.95

3.94

16

5

13.6

10.0

+7.4

 3*

Justin Verlander

2.40

2.99 

24

21.0

8.9 

+6.9


2011 AL LUCK 하위 TOP3

Rank 

 Name

 ERA

 FIP

 W

 L

 ExW

 ExL

 LUCK

 1

Doug Fister

 2.87

3.03

10 

13

17.2

8.2

-12.0

 2

Jeff Francis

4.82

4.10

6

16

11.4

10.4

-11.0

 3

Brandon McCarthy

3.32

2.86 

9

14.3

6.0 

-8.3


2011 NL LUCK 상위 TOP3

Rank 

 Name

 ERA

 FIP

 W

 L

 ExW

 ExL

 LUCK

 1

 Aaron Harang

3.64

4.17

14 

7

8.2

11.7

+10.5

 2

Ian Kennedy

2.88

3.22

21

4

16.7

9.1

+9.4

 3

Bronson Arroyo

5.07

5.71 

9

12

6.7

16.4 

+6.7

 *

Clayton Kershaw

2.28

2.47

21

5

18.8

7.2

+3.4


2011 NL LUCK 하위 TOP3

Rank 

 Name

 ERA

 FIP

 W

 L

 ExW

 ExL

 LUCK

 1

Derek Lowe

5.05

3.70

17

11.6

10.2

-9.4

 2

Madison Bumgarner

3.21

2.67

13

13

16.5

7.3

-9.2

 3

Matt Latos

3.47

3.16 

9

14 

13.1

9.5 

-8.7

 

2012 AL LUCK 상위 TOP3

Rank 

 Name

 ERA

 FIP

 W

 L

 ExW

 ExL

 LUCK

 1

Jered Weaver

2.81

3.75

20

5

13.3

10.3

+12.1

 2

Jason Vargas

3.85

4.69

14

11

11.0

16.2

+8.2

 3

Derek Holland

4.72

4.75 

12

10.2

11.3

+7.1

4 *

David Price

2.56

3.05

20

5

17.7

8.7

+6.0


2012 AL LUCK 하위 TOP3

Rank 

 Name

 ERA

 FIP

 W

 L

 ExW

 ExL

 LUCK

 1

Jon Lester

4.82

4.11

9

14

14.4

11.3

-8.1

 2

Felix Hernandez

3.37

3.73

11

12

16.5

10.8

-6.7

 3

Jake Peavy

3.37

3.73 

11

12 

16.5

10.8 

-6.7


2012 NL LUCK 상위 TOP3

Rank 

 Name

 ERA

 FIP

 W

 L

 ExW

 ExL

 LUCK

 1

Barry Zito

4.15

4.47

15

8

8.9

13.5

+11.6

 2

Kyle Lohse

2.86

3.51

16

3

14.5

11.1

+9.6

 3

Lance Lynn

3.67

3.47 

17

11.8

8.7 

+8.9

5*

R.A. Dickey

2.67

3.22

20

6

17.2

11.0

+7.8


2012 NL LUCK 하위 TOP3

Rank 

 Name

 ERA

 FIP

 W

 L

 ExW

 ExL

 LUCK

 1

Josh Johnson

3.81

3.40

8

14

14.0

9.2

-10.9

 2

Cliff Lee

3.16

3.13

6

9

16.6

9.0

-10.7

 3

Jeff Samardzija

3.94

3.55 

9

13

12.6

8.6 

-8.1



아...아니..내가 2012시즌 최고의 불운남이 아니라니..(by 클리프 리)

결과를 대략적으로 살펴보면 의외의 선수들도 가끔 포함되어 있고(예를 들어 2010년 헛슨이나 2011년 데릭 로) 우리가 너무나도 당연히 알고 있던 선수들도 포함되어 있습니다.(클리프 리, 킹 펠릭스 등등) 특히 킹의 경우 LUCK이 최근 3년간 -8.5(2010 AL 하위 6위), -7.5(2011 AL 하위 4위), -7.6(2012 AL 하위 2위)의 극심한 불운에 시달리는 중입니다. 클리프 리도 2번이나 하위 3위 안쪽에 이름을 올렸고요. 그리고 2012년의 지토는....역시 법력 대마왕이었습니다.(지그니토!) 그리고 사이영상 수상선수들은 대체적으로 +를 기록하였군요.(킹 지못미ㅠ)

마지막으로 이 툴의 단점들을 소개해야겠습니다.

1. 아직 커리어를 대상으로 적용해본 사례가 없기 때문에 커리어의 경우 운의 요소가 많이 줄어드는지를 확인해본 적이 없다.
2. RS,RA가 독립변수로써 투수의 디시전 결과 예측에서도 통계적 유의미성을 지녔는지에 대한 증명이 생략되어 그 근거가 미약하다.
3. 실제 전체 선발투수의 승률은 0.500보다 약간 낮게 나타나지만 이 툴을 이용하면 0.500 부근으로 형성될 것이다.
4. 1999년 페드로 마르티네즈와 같이 엄청난 FIP를 기록한 경우 페드로가 나온 경기에서 팀이 이길 수 있다고 계산되는 승수보다 페드로가 기록할 것이라고 생각되는 기대승수가 더 크게 나오는 문제점을 가지고 있다.(이는 후에 다시 한 번 생각해볼 문제입니다.)


+덧붙여서

이 글은 순전히 재미를 위한 글입니다. 잘 아시겠지만 이 툴로는 절대로 투수를 평가할 수 없음을 잘 아실 겁니다.(즉, 참고용으로도 의미는 그리 크지 않다는 뜻입니다. 뭐, 윤석민상처럼 MLB에 블라일레븐상 같은 걸 만들어서 수여할 게 아니라면 말이죠...) 만약 이 툴을 계산하실 때 FIP를 이용하는 게 싫으시다면 FIP를 사용하는 부분에서 ERA, SIERA, xFIP등등의 스탯들을 이용하셔도 됩니다.


Posted by 야구고물상

댓글을 달아 주세요