모든 기록은 팬그래프베이스볼 레퍼런스에서 얻었습니다.

아래 식에 나오는 sta는 선발을 뜻하고 rel은 불펜투수를 뜻합니다. IPDEC은 선발투수가 디시전이 되는 비율을 뜻하며 '선발이닝/선발투수 디시전 횟수'로 구합니다. 아래 나오는 계산결과는 다운 받으셔서 확인하셔도 됩니다.


사실상 이거 하는 가장 큰 이유-이브랜드 LUCK 구하기...


소개

 

작년에 쓴 글 중에 간단히 해보는 선발투수 운(Luck)의 계량이란 글이 있었습니다. 그 글에서 저는 다음과 같이 LUCK 툴의 네 가지 문제점을 말한 바 있습니다.

 

1. 아직 커리어를 대상으로 적용해본 사례가 없기 때문에 커리어의 경우 운의 요소가 많이 줄어드는지를 확인해본 적이 없다.

2. RS,RA가 독립변수로써 투수의 디시전 결과 예측에서도 통계적 유의미성을 지녔는지에 대한 증명이 생략되어 그 근거가 미약하다.

3. 실제 전체 선발투수의 승률은 0.500보다 약간 낮게 나타나지만 이 툴을 이용하면 0.500 부근으로 형성될 것이다.

4. 1999년 페드로 마르티네즈와 같이 엄청난 FIP를 기록한 경우 페드로가 나온 경기에서 팀이 이길 수 있다고 계산되는 승수보다 페드로가 기록할 것이라고 생각되는 기대승수가 더 크게 나오는 문제점을 가지고 있다.(이는 후에 다시 한 번 생각해볼 문제입니다.)

 

위의 문제점을 보면 제가 4번에 후에 대시 생각해볼 문제라고 쓴 걸 보실 수 있을 겁니다. 1999년 페드로의 경우 FIP가 무지 낮아서 (선발 한정 1.33) 위와 같은 괴상한 문제점이 발생하게 됩니다. 그리고 이는, 결국 LUCK의 첫 번째 버전이 선발투수의 퍼포먼스에 해당하는 적정한 승수를 과대평가하거나, 혹은 과소평가한다는 뜻이기도 합니다. 그래서, 저는 아예 방향을 달리해서 기대승수를 계산하기로 했습니다. , 선발투수가 나온 경기에서 승리한 횟수에서 선발투수의 기대승수를 생각하는 방식으로 계산하는 것입니다. 그리고 잘 던지는 선수들의 경우 어느 정도 경기에 나와서 디시전이 될 확률이 적어질 것이라고 생각해서 이전에 사용한 IPDEC항목도 수정을 가하기로 하였습니다. 그러니까, 선발투수마다 IPDEC을 달리 적용하는 방식을 사용하기로 한 것입니다.

 

과정

 

1. 가설

 

(1) 선발투수의 실점률이 낮아질수록 그 투수 이후 나온 중간계투들의 승률이 좋아질 것이고, 꽤나 높은 신뢰도를 가질 것이다.

(2) 이닝과 디시전의 비율인 IPDEC()은 선발투수의 경기당 평균이닝(IPAVG)가 높을수록 커질 것이고 선발투수의 실점률이 높아질수록 낮아질 것이다. 그리고 그것을 통해 IPDEC의 식을 계산할 수 있을 것이다. 이를 BWPCT(Bullpen WPCT)라고 부르기로 합시다.

 

2. 가설 증명

(?..이걸 증명이라 할 수 있나...??)

 

(1) BWPCT의 경우 2002년 이후 선발투수 중 선발로만 규정이닝 이상 투구한 선수들에 대하여 조사하였습니다.

 

선발투수 ERA에 대한 BWPCT의 그래프


이를 통해서 보면, 선발투수의 실점률이 낮아질수록(계산은 ERA로 했습니다. 예전에 아무 생각 없이 했던 거라;;) 그 경기에 나온 중간계투들의 그 경기 승률이 좋아진다거나 나빠지는 경향성은 사실상 없는 것으로 보입니다. 위에서 보듯이 R^2이 0.0029가 될 정도로 너무나 낮기 때문에 그 신뢰도가 낮다는 것이죠.


(2)IPDEC의 경우 2002년 이후 선발로 나온 모든 선수들에 대해서 조사하였습니다.

 

IPDEC.xlsx


IPAVG에 대한 IPDEC의 그래프


RA에 대한 IPDEC의 그래프


위의 그래프와 엑셀 파일에서 확인할 수 있듯이, IPAVGRAIPDEC과 꽤나 상관 있어 보입니다. 각각 R^2이 0.2107과 0.1222나 되니 적어도 R0.3은 넘는다는 걸 알 수 있습니다. 그래서 전, 두 항목을 IPDEC 계산하는 데 사용할 것입니다. 이 때 계산된 IPDEC을 IPDEC_raw라고 하고 LgIPDECsta(선발들의 IPDEC)을 IPDEC_raw로 나눈 것을 상수 C로 정의하겠습니다.

(참고: 위의 IPDEC 엑셀파일에서는 2002시즌부터 2013시즌까지의 IPDEC과 관련된 그래프와 계산된 IPDEC(IPDECEXP로 표기함)와 실제 IPDEC의 그래프도 있습니다.)

 

3. 계산식 만들기

 

우선 위에서 보듯이 선발투수의 실점률과 그 경기에 나온 중간계투들의 승률과의 관계는 없는 것으로 보입니다. 그래서, 사실상 모든 선발투수에게 선발투수 디시전이 기록되지 않은 경기에서 그 시즌 중간계투가 기록한 승률을 대입하여 선발투수가 나온 경기의 총 승리에서 빼도 되겠다는 확신이 들었습니다.

그러니까, (선발투수의 전체경기-선발투수의 디시전이 기록되지 않은 경기)*전체 중간계투의 승률을 선발투수가 나온 경기에서의 승에서 빼면 선발투수가 기록할 기대승수를 계산할 수 있다는 생각입니다.

IPDEC의 경우 그래프에서 IPDEC=1.4543IPAVG-0.0335, IPDEC=-0.3122RA+9.6393의 식이 나왔습니다. 그래서, 우선 각각의 기울기의 비율을 구하였습니다. 대략적으로 (Slope of IPAVG)=-4.66(Slope of RA)가 나왔습니다. 그리고 이 기울기의 비율의 합이 1이 되도록 만들었습니다. 이것을 통해 IPAVG와 RA에 대한 weight를 구했는데, 대략 0.82와 0.18이 나왔습니다. 그리고 그 외에 절편들에 weight를 곱하여 더한 결과 다음과 같은 계산식이 완성되었습니다.

IPDEC_raw=1.19IPAVG-0.056RA+1.71

 

그래서, 결과적으로 계산식은 다음과 같아졌습니다.


(1)팀 승리 관련



(2)IPDEC 계산



(3)디시전 관련



(4)LUCK



적용


적용은 간단하게 해봅시다. 이전에 해 본 2010~2012시즌을 한 번 해보고, 다음에 2013시즌 한 번, 그리고 몇몇 선수들(은퇴했거나 현역인)에 대하여 적용해보기로 합니다. 사실 사진을 올리는 게 좋겠지만 귀차니즘 발동(...)으로 엑셀 파일을 올리겠습니다.

 

1.2010~2012시즌

LUCK 2010~2012.xlsx


2.2013시즌

2013 MLB_SECOND.xlsx


3.몇몇 선수들의 커리어

Players-Examples.zip


결과


이번에 LUCK을 개량하여 LUCK이 이전에 가지고 있던 몇 가지 문제점을 조금 줄일 수 있었습니다. 선발투수 승률에 조금 조정을 가할 수 있었다는 점, 일괄적으로 적용되던 IPDEC의 문제점을 해소할 수 있었다는 점, 그리고 피타고리안 승률을 이용해 계산되는 이론적 팀의 승수보다 선발투수의 디시전 승수가 적어지는 점, 과대평가되거나 과소평가되던 선발투수의 기대승률이 조정되는 점 등등이 있습니다. 아직 갈 길은 멀지만(..)그래도 2번째 버전이 이전보다 나은 툴이라는 생각이 듭니다. 물론 이 툴이 맘에 안 드시면 이전 툴로 그냥 계산하셔도 됩니다. 이전 계산방식은 여기에서 확인하실 수 있습니다.

Posted by 야구고물상

댓글을 달아 주세요