#참고: 과거 MLBNATION에 썼던 글로 다나카글을 올린 겸 같이 올립니다.
재미로 한 번 해 본 겁니다. 저는 이 글에서의 수학적 엄밀성을 보장할 수 없습니다. 재미로 봐 주시면 감사하겠습니다.
한 때 정말 불운했던 윤석민. 함정이라면 이 사진은 2008시즌 평균자책점 1위한 시즌의 사진이라는 것;; 실제로 이 시즌은 14승 5패로 전혀 불운하지 않았습니다.
사실 운을 계산하는 툴은 이미 나와 있습니다. 바로 베이스볼 프로스펙터스에서 개발한 툴로 2009 시즌이 끝나고 김형준 기자가 칼럼을 통해 소개한 적이 있습니다. 하지만 저와 같이 스탯 계산에 취미를 가진 사람들에게 그 툴은 중대한 문제점이 있었습니다. 너무 어렵다는 점이었죠. 영어의 압박도 압박이지만 이해하기 위해서는 처음부터 그 많은 사례들을 일일이 체크해가면서 이해해야 하는 어려움이 있었습니다. 다른 할 일이 많은 상황에서, 그리고 알고 있는 배경 지식이 적다는 점에서 매우 힘든 일이었죠. 그래서 더 쉬운 툴을 개발하기로 결심하였습니다. 오래 전에, 아마 고등학교 입학할 즈음에. 하지만 완성본은 그로부터 3년도 더 지난 오늘에서야 만들었습니다.;;(단언컨대 게으름은 인간의 가장 큰 적입니다..)
이 툴을 개발하기에 앞서 우선 이 툴을 계산할 때 사용할 데이터에 대하여 정리할 필요성이 있습니다. 먼저 이 툴은 선발투수만을 대상으로 한정한 계산법입니다. 불펜투수는 그 이닝수 자체가 적기 때문에 불운을 판단할 근거가 미약하다고 판단하였기 때문이죠. 이 툴은 운을 계산하기 위해 투수의 승패, 혹은 디시전이라 불리는 것을 사용할 것입니다. 이유는 간단합니다. 윤석민의 불운을 판단한 근거는 '나쁘지 않은 평균자책점+7승 18패라는 최악의 디시전'이었고, 작년의 류현진도, 그리고 그 류현진을 비웃고 계시는 리선생님의 불운도 그 디시전 때문에 판단된 것이라고 생각했기 때문입니다. 그리고 사용할 계산 방법으로는 피타고리안 승률을 이용하기로 하였습니다. 우선 저는 피타고리안 승률을 사랑하며(저는 가끔 피타고리안 승률로 WAR을 계산하곤 합니다. 그 방식으로 계산하면 상위권 성적의 피처들은 fWAR과 비슷한 값이 도출되는데, 하위권 성적의 피처들은 그에 비해 더 높은 WAR이 도출되곤합니다.) 팀의 성적도 피타고리안 승률로 예측할 수 있다면 선발의 디시전도 피타고리안 승률로 예측할 수 있지 않을까라는 막연한 질문에서 시작하였죠. 그래서 저는 RS^C/(RS^C+RA^C)=WPCT라는 식을 이용하기로 하였습니다.(과연 이 식으로 신뢰할 수 있는 선형적 관계를 유도할 수 있느냐의 문제가 남았습니다만, 그 과정은 아래에 설명하겠습니다.) 앞에서 말한 피타고리안 승률식에서 RS는 선발투수의 득점지원률을, RA는 선발투수의 실점률을 의미합니다. 왜냐고요? 투수의 디시전을 생각할 것이므로 경기 자체의 득점과 실점으로 승률을 예측하는 건 어렵다고 판단했기 때문입니다.(그러면 구원이 얼마나 선발의 승리와 패배를 날려먹는지에 대한 연구가 동시에 수반되어야 하죠..그러면 PBP 데이터도 얻어야 하고 여튼 복잡합니다.;;) 그리고 ERA에 해당하는 계산은 FIP로 대체하였습니다. 말 그대로 불운을 판단하기 위해서죠.(물론 FIP도 완전한 스탯은 아닙니다만, ERA에 비해서 노이즈가 적은 스탯이라는 판단 하에 사용하였습니다. xFIP를 사용할 수도 있지만 과연 모든 투수의 홈런 허용률이 리그 평균으로 고정할 수 있는지에 대해서는 좀 회의감이 들고, 무엇보다 타구에 대한 계산이 수반되어야 하므로 FIP를 사용하기로 한 겁니다.)
이 작업을 위해 가장 중요한 과정은 RS/9와 RA/9를 이용하여 피타고리안 승률의 계산식을 얻어내는 것입니다. 저는 이 작업을 수행하기 위하여 2002~2012년 규정이닝 이상 투구한 선발투수(선발경기 한정)의 피칭 데이터를 사용하였습니다. 우선 피타고리안 승률을 계산하기 위한 C가 필요합니다. 각각 경우에 대한 C의 계산은 다음과 같습니다.
이를 통해 각 선수별 C값을 구할 수 있었습니다. RS/RA=1인 경우 자연로그값이 0이 나오기 때문에 이런 경우 C는 0으로 처리해야 했습니다. 이번에는 그 C값의 평균을 구할 차례입니다. 평균은 각 값에 확률밀도 P(continuous한 함수가 아니라 discrete한 밸류)를 곱한 값을 더함으로써 계산할 수 있습니다. P는 각 투수의 이닝을 투수들의 이닝을 합한 총이닝으로 나눈 값을 이용하였습니다. 평균은 두 가지를 이용하였습니다. 1. 그냥 원래 평균과 2. 절대값들의 평균. 원래는 2번에 RMS(Root Mean Square)로 하려고 했지만 계산을 계속 이상하게 해서 미봉책으로 사용한 계산입니다. 그리고 아래에 왜 그랬는지를 설명하겠지만 사용한 값은 1과 2의 평균값으로 사용하였습니다.
만세입니다! R^2=0.731이면서도 기울기가 1에 매우 근접한 식(y=1.0184x+0,0263)을 얻을 수 있었습니다. 그래서 C=2.51로 사용하기로 결정하였습니다. 즉, WPCT=RS^2.51/(RS^2.51+RA^2.51)입니다.
마지막으로 우리가 원했던 운(LUCK으로 표기하도록 합시다.)은 다음과 같이 계산됩니다.
이제 식을 완성했습니다. 그 식의 적용만 남았군요. 적용은 간단합니다. 2010~2012년간 어떤 투수가 운이 좋았고, 어떤 투수가 운이 나빳는지를 LUCK으로 판별하는 작업을 하기로 한 거죠. 그 결과는 다음과 같았습니다.(규정이닝 이상 선발투구 투수 순위,*는 그 시즌 사이영상 수상자)
2010 AL LUCK 상위 TOP3
Rank | Name | ERA | FIP | W | L | ExW | ExL | LUCK |
1 | Trever Cahil | 2.97 | 4.19 | 18 | 8 | 11.6 | 12.2 | +10.6 |
2 | Earvin Santana | 3.92 | 4.28 | 17 | 10 | 12.5 | 14.4 | +8.8 |
3 | Phil Hughes | 4.23 | 4.30 | 17 | 8 | 10.7 | 10.4 | +8.7 |
Rank | Name | ERA | FIP | W | L | ExW | ExL | LUCK |
1 | Zack Greinke | 4.17 | 3.34 | 10 | 14 | 17.2 | 9.8 | -11.9 |
2 | Cliff Lee | 3.18 | 2.58 | 12 | 9 | 19.8 | 5.8 | -11.0 |
3 | Doug Fister | 4.11 | 3.65 | 6 | 14 | 11.5 | 9.1 | -10.4 |
* | Felix Hernandez | 2.27 | 3.04 | 13 | 12 | 19.8 | 10.5 | -8.5 |
2010 NL LUCK 상위 TOP3
Rank |
Name |
ERA |
FIP |
W |
L |
ExW |
ExL |
LUCK |
1 |
Bronson Arroyo |
3.88 |
4.61 |
18 |
10 |
11.1 |
14.7 |
+10.6 |
2 |
Tim Hudson |
2.83 |
4.09 |
17 |
9 |
13.4 |
13.9 |
+8.4 |
3 |
Jon Garland |
3.47 |
4.41 |
14 |
12 |
9.4 |
14.4 |
+7.0 |
* |
Roy Halladay |
2.44 |
3.01 |
21 |
10 |
20.2 |
9.7 |
+0.5 |
Rank |
Name |
ERA |
FIP |
W |
L |
ExW |
ExL |
LUCK |
1 |
Randy Wells |
4.26 |
3.93 |
8 |
14 |
12.5 |
10.7 |
-7.7 |
2 |
Josh Johnson |
2.30 |
2.41 |
11 |
6 |
17.3 |
4.6 |
-7.7 |
3 |
Tommy Hanson |
3.33 |
3.31 |
10 |
11 |
15.1 |
9.1 |
-7.1 |
2011 AL LUCK 상위 TOP3
Rank |
Name |
ERA |
FIP |
W |
L |
ExW |
ExL |
LUCK |
1 |
Ivan Nova |
3.66 |
4.01 |
16 |
3 |
10.6 |
8.9 |
+11.3 |
2 |
Derek Holland |
3.95 |
3.94 |
16 |
5 |
13.6 |
10.0 |
+7.4 |
3* |
Justin Verlander |
2.40 |
2.99 |
24 |
5 |
21.0 |
8.9 |
+6.9 |
Rank |
Name |
ERA |
FIP |
W |
L |
ExW |
ExL |
LUCK |
1 |
Doug Fister |
2.87 |
3.03 |
10 |
13 |
17.2 |
8.2 |
-12.0 |
2 |
Jeff Francis |
4.82 |
4.10 |
6 |
16 |
11.4 |
10.4 |
-11.0 |
3 |
Brandon McCarthy |
3.32 |
2.86 |
9 |
9 |
14.3 |
6.0 |
-8.3 |
Rank |
Name |
ERA |
FIP |
W |
L |
ExW |
ExL |
LUCK |
1 |
Aaron Harang |
3.64 |
4.17 |
14 |
7 |
8.2 |
11.7 |
+10.5 |
2 |
Ian Kennedy |
2.88 |
3.22 |
21 |
4 |
16.7 |
9.1 |
+9.4 |
3 |
Bronson Arroyo |
5.07 |
5.71 |
9 |
12 |
6.7 |
16.4 |
+6.7 |
* |
Clayton Kershaw |
2.28 |
2.47 |
21 |
5 |
18.8 |
7.2 |
+3.4 |
Rank |
Name |
ERA |
FIP |
W |
L |
ExW |
ExL |
LUCK |
1 |
Derek Lowe |
5.05 |
3.70 |
9 |
17 |
11.6 |
10.2 |
-9.4 |
2 |
Madison Bumgarner |
3.21 |
2.67 |
13 |
13 |
16.5 |
7.3 |
-9.2 |
3 |
Matt Latos |
3.47 |
3.16 |
9 |
14 |
13.1 |
9.5 |
-8.7 |
Rank |
Name |
ERA |
FIP |
W |
L |
ExW |
ExL |
LUCK |
1 |
Jered Weaver |
2.81 |
3.75 |
20 |
5 |
13.3 |
10.3 |
+12.1 |
2 |
Jason Vargas |
3.85 |
4.69 |
14 |
11 |
11.0 |
16.2 |
+8.2 |
3 |
Derek Holland |
4.72 |
4.75 |
12 |
6 |
10.2 |
11.3 |
+7.1 |
4 * |
David Price |
2.56 |
3.05 |
20 |
5 |
17.7 |
8.7 |
+6.0 |
Rank |
Name |
ERA |
FIP |
W |
L |
ExW |
ExL |
LUCK |
1 |
Jon Lester |
4.82 |
4.11 |
9 |
14 |
14.4 |
11.3 |
-8.1 |
2 |
Felix Hernandez |
3.37 |
3.73 |
11 |
12 |
16.5 |
10.8 |
-6.7 |
3 |
Jake Peavy |
3.37 |
3.73 |
11 |
12 |
16.5 |
10.8 |
-6.7 |
Rank |
Name |
ERA |
FIP |
W |
L |
ExW |
ExL |
LUCK |
1 |
Barry Zito |
4.15 |
4.47 |
15 |
8 |
8.9 |
13.5 |
+11.6 |
2 |
Kyle Lohse |
2.86 |
3.51 |
16 |
3 |
14.5 |
11.1 |
+9.6 |
3 |
Lance Lynn |
3.67 |
3.47 |
17 |
5 |
11.8 |
8.7 |
+8.9 |
5* |
R.A. Dickey |
2.67 |
3.22 |
20 |
6 |
17.2 |
11.0 |
+7.8 |
Rank |
Name |
ERA |
FIP |
W |
L |
ExW |
ExL |
LUCK |
1 |
Josh Johnson |
3.81 |
3.40 |
8 |
14 |
14.0 |
9.2 |
-10.9 |
2 |
Cliff Lee |
3.16 |
3.13 |
6 |
9 |
16.6 |
9.0 |
-10.7 |
3 |
Jeff Samardzija |
3.94 |
3.55 |
9 |
13 |
12.6 |
8.6 |
-8.1 |
결과를 대략적으로 살펴보면 의외의 선수들도 가끔 포함되어 있고(예를 들어 2010년 헛슨이나 2011년 데릭 로) 우리가 너무나도 당연히 알고 있던 선수들도 포함되어 있습니다.(클리프 리, 킹 펠릭스 등등) 특히 킹의 경우 LUCK이 최근 3년간 -8.5(2010 AL 하위 6위), -7.5(2011 AL 하위 4위), -7.6(2012 AL 하위 2위)의 극심한 불운에 시달리는 중입니다. 클리프 리도 2번이나 하위 3위 안쪽에 이름을 올렸고요. 그리고 2012년의 지토는....역시 법력 대마왕이었습니다.(지그니토!) 그리고 사이영상 수상선수들은 대체적으로 +를 기록하였군요.(킹 지못미ㅠ)
Run Value와 wOBA 구하기 (2) | 2015.03.08 |
---|---|
간단한 타자들의 선구안 비교 (2) | 2014.08.28 |
선발투수 운의 계산(LUCK 2nd Ver.) (0) | 2014.01.18 |
LUCK 지수 구하기 엑셀자료 (4) | 2013.09.30 |
세이버매트릭스 관련 포스팅에 대하여.. (0) | 2013.08.18 |
댓글 영역