'성적 예상'에 해당되는 글 2건

  1. 2014.02.02 스탯으로 다나카 양키스 성적 예상하기 (1)
  2. 2013.10.31 스탯으로 다나카 성적 예상하기

모든 기본 기록은 Fangraphs.com(MLB 기록)와 http://lcom.sakura.ne.jp/NulData/index.html(NPB 기록)에서 얻었습니다. 파크펙터는 이전버전과 같이 http://subjspeak.blogspot.kr/2012/12/npb-park-factors-for-2006-2012.html에서얻었습니다. 그리고 2013년 파크펙터는 (홈런 포함) JapaneseBaseball.com에서 얻었습니다.


다나카의 양키스 진출이 결정된지 한참 지났습니다.(...) 개인적으로 다나카가 다저스로 가지 않아서 참 다행이라고 생각합니다.(팬 입장에서는 우리팀에 올 거 아니면 다른 리그에 가는 게 더 좋죠.ㅎㅎ) 이전에도 다나카의 메이저리그 예상성적에 관해 쓴 이 있지만 그 글을 쓸 때는 다나카의 메이저리그행이 결정되지 않았기 때문에 모든 조건이 평균적인 상황에서의 성적을 예상하였습니다. 그에 반해 이제 다나카는 진출팀이 정해졌고(뉴욕 양키스) 그렇기 때문에 좀 더 예상하기가 수월해졌다고 할 수 있습니다. 그런고로 다나카의 양키스 성적을 스탯으로 예상해 보기로 합시다. 그리고 모두가 다 아시겠지만, 다시 한 번 스탯으로 하는 예상은 한계가 있을 수밖에 없음을(예를 들면 부상과 관련된 사항은 예상할 수 없습니다.) 밝힙니다.


과연 다나카는 이가와와 다른 케이스일 것인가? <참고로 다나카한테 감정 있어서 이러는 거 아닙니다.;;>


방법은 이전 글에서 썼던 것과 기본적으로 동일합니다. 마쓰자카 이후 진출한 선수들의 일본리그 마지막 누적 3년간의 기록으로 예상을 진행할 것입니다. 그리고 이닝, 볼넷, 홈런 등의 리그평균에 대한 기록의 변화량을 예상에 이용할 것입니다. 원래 버전에서 바뀐 것은 이닝 예상을 투구수로 예상하기로 한 점과 LOB%(잔루율에 해당합니다. 물론 진짜 잔루율은 아닙니다.)를 계산한 점입니다. 결국 투수는 공을 던지는 것이기 때문에 던진 이닝수는 이닝수 자체보다는 투구수와 더 연관성이 크다고 생각했기 때문이고, ERA도 한 번 예상해 보고 싶었기 때문입니다. 이닝수의 예상은 P/GS를 P/TBF로 나눠  전체 TBF를 예상하고 BABIP를 이용하여 예상하기로 하였습니다. 홈런도 홈런에 대한 파크팩터 수치를 구한 관계(위의 JapaneseBaseball.com 참고)로 계산이 변화되었습니다. 그리고 이전 버전에서는 약간의 계산 실수가 있었기 때문에 이전 버전과 약간의 수치가 달라졌을 수도 있습니다. 기록예상의 경우 2013시즌 AL기록을 이용하여 예상하였습니다. 마지막으로 예상기록의 WAR기록은 제가 LUCK을 계산할 때 사용하는 ExTmWPCT를 이용하여 계산하기로 하였습니다.(그렇게 계산하면 잘 하는 선수들의 경우 WAR이 비슷한 수치로 계산되기 때문입니다.)

여기서 한 가지 양해를 구해야 할 것은 투구수와 관련된 기록의 경우 리그 평균에 대한 기록을 찾기 힘든 관계로(제가 찾은 방법으로는 일일이 다 계산을 해야 하는데 2006시즌부터 해야 합니다..) 그냥 기본 기록의 변화량으로만 계산하였습니다.

 

먼저 변화량 표입니다.



STDEV는 표준편차입니다. 모든 부분에서 선발투수로써의 퍼포먼스가 평균적으로 감소하였음을 알 수 있습니다.


그렇다면, 이제 대략적인 예상을 해봐야겠죠.

먼저 모든 기록들을 평균에서 표준편차만큼의 퍼포먼스 차이가 나는 범위를 설정하여 최악에서 최고로 좋은 상황을 예상하기로 하였습니다.(물론 통계적 아웃라이어가 존재할 가능성도 있습니다...) 평균에서 +-표준편차만큼의 차이에 해당하는 부분은 68.2%정도입니다. 그리고 적용하는 기록이 6가지이기 때문에 대략적으로 이 성적 내에 있을 확률이 95%는 넘어갈 것으로 생각됩니다.(하지만 중요한 건 표본이 적기 때문에 굉장히 헛점이 많음을 아실 겁니다.) 승패기록의 경우 FIP가 아닌 RA를 이용하였고 ExRS에 해당하는 부분은 작년 뉴욕양키스의 평균득점(4.01점...)을 이용하였습니다.


크게 보기


대략적으로 4에서 9 사이의 fWAR을 기록할 수 있을 것 같습니다. 하지만 사실상 9정도의 WAR을 기록할 수 있을 것 같지는 않습니다. 그러므로 제가 예상하기로는 최저 4정도에서 최대 7정도를 기록하지 않을까 싶습니다.


여기에서 한 번 주관을 넣어 기록예상을 해 보기로 합시다. 이번에 다나카가 양키스로 가기 때문에 기록변화는 평균적인 기록변화에 비해 더 클 수 있다고 생각합니다. 무엇보다 피홈런이 많이 늘어날 것이고 그렇기 때문에 피홈런은 LOW에 대한 값을 이용하기로 하였습니다. 그리고 볼넷의 경우 이전버전에서는 제구력이 좋다는 이유로 평균적인 변화율을 이용하였지만 다나카의 구위도 영향을 끼쳤을 거라고 판단, LOW에 대한 값을 이용하여 계산하였습니다. LOB%의 경우 그런 의미에서 LOW와 MEDIUM의 평균값을 사용하였습니다. 그 결과는 다음과 같습니다.


크게 보기


그래도 좋은 성적입니다...물론 12승 9패정도로 예상되긴 하지만 그건 뉴욕양키스의 타선 이유가 크고(...) 굉장히 좋은 성적입니다.(이 부분은 스탯으로 한 예상이기에 어쩔 수가 없는 부분입니다.) 


내년 MLB의 또다른 관전 포인트...?


결론을 내자면, 스탯으로 보면 다나카는 좋은 성적이 예상된다고 밖에는 할 말이 없습니다. 아무리 팀이 뉴욕 양키스라고 해도 말입니다.(이가와와는 다르단 말이다!!) 적어도 4 이상의 fWAR을 기록할 수 있지 않을까 생각됩니다. 어떤 말이 있든간에 기대가 되긴 하네요.

이것으로 다나카 관련 포스팅은 당분간 끝입니다. (하하하...너무 다나카만 팠어...) 지금까지 읽어 주셔서 감사합니다.

Posted by 야구고물상

댓글을 달아 주세요

  1. pms 2014.02.04 22:05  댓글주소  수정/삭제  댓글쓰기

    대단한 연구..... 더 좋은 이야기 기대합니다.

<이 글은 MLBNATION의 제드라우리님의 글인 'NPB->MLB 선발투수 성적 변화량에 따른 다나카의 예상 성적치'를 보고 계획하게 되었습니다.>

<모든 메이저리그 관련 스탯은 팬그래프에서 얻었으며 일본리그 기록은 베이스볼레퍼런스에서 얻었고, 2006년 이후 일본리그 선발 스플릿 자료는 http://lcom.sakura.ne.jp/NulData/index.html에서 얻었습니다. 마지막으로 일본리그 파크팩터 자료는 http://subjspeak.blogspot.kr/2012/12/npb-park-factors-for-2006-2012.html에서 얻었으며 2006년 이전의 파크펙터를 알 수 없었으므로 파크팩터의 적용에서 어느 정도 저의 주관이 개입되었음을 밝힙니다.>


1. 도입

이번 시즌 일본 프로야구리그에서는 두 가지 엄청난 기록이 세워졌습니다. 하나는 발렌틴이 일본프로야구 시즌 홈런 기록을 새로 갈아치운 것, 그리고 다른 하나는 다나카가 작년부터 28연승을 기록하면서 세계기록을 작성한 것+시즌 24승 0패 승률 100%를 기록한 일입니다. 그리고 특기할 만한 사실이 더 있습니다. 바로 다나카는 포스팅 대상이 될 수 있는 프로 7년차 선수라는 것입니다. 즉, 이번 시즌이 끝나고 다나카는 메이저리그에 진출할 가능성이 굉장히 높습니다. 저는 이러한 점에 주목하여 다나카가 과연 메이저리그에 진출한다면 어느 정도의 성적을 기록할 수 있을지에 대하여 예상해보기로 하였습니다.

엄청난 스탯을 찍은 다나카는 이번 시즌이 끝나고 메이저리그에 진출할 확률이 높습니다.

 
2. 예상의 방법

저는 다나카가 메이저리그에 진출했을 경우 기대할 수 있는 성적을 다음과 같은 방법을 이용해 예측할 것입니다.

1. 일본에서 마지막 3년간 선발로 뛴 경험이 있으며, 메이저리그 첫 시즌에도 5경기 이상의 선발기회를 가졌던 선수의 일본리그 선발성적과 메이저 1년차 선발성적의 스탯변화량을 이용한다. 이용하는 스탯은 평균이닝, 리그 평균에 대비한 K%,BB%,HBP%,HR%를 이용한다.

투수들의 명단은 다음과 같다.

<노모 히데오, 하세가와 시게토시, 이라부 히데키, 요시이 마사토, 이시이 가즈히사, 마쓰자카 다이스케, 이가와 게이, 구로다 히로키, 가와카미 켄신, 우에하라 코지, 다카하시 히사노리, 다르빗슈 유, 이와쿠마 히사시, 첸 웨이인>

2. 무엇이 더 실제와 가까울지에 대해서는 알기 힘들기 때문에 일본에서의 마지막 3년과 마지막 1년의 스탯변화량에 대하여 알아볼 것이며, 전체 선수에 대한 변화량과 마쓰자카 이후 진출한 선수들에 대한 변화량을 각각 나눠서(즉 4회에 걸쳐서) 스탯변화량을 조사하고, 그것의 평균변화율을 다르빗슈 유, 이와쿠마 히사시, 첸 웨이인에게 적용하여 무엇을 사용하는 것이 가장 가까울지 조사한다. 피안타는 각 리그의 BABIP에 정확히 일치할 것이라고 가정하며, 예상되는 TBF에 대한 식은 다음과 같이 예상한다.

http://i.imgur.com/9WYos1u.jpg













WAR을 비교할 때는 직접 계산한 WAR을 이용한다.
(팬그래프 수치와 조금씩 차이를 보이기 때문입니다.)

3. 평균을 구할 때는 각 선수들의 일본에서의 이닝을 이닝의 합으로 나눠서 확률밀도 P_i를 구한 후 P_i에 각 선수의 변화량을 곱한 후 더하여 평균변화율을 구하고, 변화량의 제곱에 P_I를 곱하여 더한 후 평균변화율의 제곱을 뺀 값을 제곱근을 씌워서 표준편차를 구한다. 성적예상값의 확률은 표준정규분포함수를 따르는 것으로 가정한다.

식으로 표현하자면 다음과 같다.

http://i.imgur.com/qubqAlq.jpg







(여기에서 표준편차를 구하는 이유는, 다나카 성적 예상에서 범위에 대한 설정을 하기 위해서입니다. 우리는 위에서 성적예상값이 표준정규분포함수를 따를 것이라고 가정하였기 때문에 예상되는 평균에서 +-표준편차만큼의 값의 범위에 해당할 확률은 약 68.2%에 해당합니다. 저는 이 범위를 다나카 성적의 예상범위로 가정하였습니다.)

4. 2013시즌의 AL리그 성적과 NL리그 성적에 대하여 다나카의 예상성적을 좋은 성적, 평균적으로 기대되는 성적, 나쁜 성적으로 나눠서 예상해본다. 마지막으로 주관을 개입하여 가장 가까울  것 같은 예상성적을 찾아본다. FIP는 팬그래프 방식으로 계산한다. 

5. 기록 예상은 파크펙터가 1인 구장에 대하여 예상하도록 한다. 승패의 예측의 경우 LUCK을 구할 때 사용하는 ExW과 ExL를 이용한다.(참고)


3. 예상 과정

우선 각 스탯의 변화량의 결과는 다음과 같았습니다.
아래에서 Avg는 평균, Stdev는 표준편차이며 표준편차는 변화량에 대한 표준편차이므로 %로 생각해도 됩니다(즉 첫번째 표 IP의 Stdev는 7%정도라고 생각해도 된다는 얘기입니다.)

모든 진출선수들의 일본리그 마지막 3년에 대한 변화량표

http://i.imgur.com/ACAwhkz.jpg

마쓰자카 이후 진출선수들의 일본리그 마지막 3년에 대한 변화량표

http://i.imgur.com/NFHsOSn.jpg

모든 진출선수들의 일본리그 마지막 시즌에 대한 변화량표
 
http://i.imgur.com/ULSraiH.jpg

마쓰자카 이후 진출선수들의 일본리그 마지막 시즌에 대한 변화량표

http://i.imgur.com/BTH7bHV.jpg

다음에는 위의 각 결과를 각각 2012년의 다르빗슈 유, 이와쿠마 히사시, 첸 웨이인에게 적용하여 어떤 것을 이용하는 게 가장 우리가 원하는 것과 비슷할지에 대하여 조사해보았습니다.

다르빗슈 유 예상성적(위에서 순서대로 AL에서의 모든 진출선수들의 마지막 3년 기록/모든 진출선수들의 마지막 시즌 기록/마쓰자카 이후 친출선수들의 3년기록/마쓰자카 이후 진출선수들의 마지막 시즌기록)


이와쿠마 히사시 예상성적

첸 웨이인 예상성적


실제기록은 저의 계산에 의한 첫 시즌 WAR은 다르빗슈 유/이와쿠마 히사시/첸 웨이인이 각각 5.1/1.1/2.1로 계산되었으므로 마쓰자카 이후 진출선수들의 3년기록의 변화율을 이용하여 계산한 WAR과 가장 비슷하였습니다.
그러므로 저는 예상성적에서의 변화율을 계산하기 위하여 마쓰자카 이후의 기록으로 계산하기로 하였습니다. 즉, 위에서 세 번째 변화량표를 이용하였습니다.

이를 이용하여 다나카의 성적예상의 범위를 대략적으로 예측할 수 있었습니다.


LOW가 가장 나쁘다고 생각될 수 있는 예상값, MEAN이 평균적인 값을 이용한 예상값, HIGH가 가장 좋다고 생각될 수 있는 예상값을 뜻한다고 생각하시면 됩니다. 
여기에서 BB%나 HBP%도 사실은 다 적용하여야 했지만 가장 좋은 값을 적용할 때 -에 해당하는 값이 나오는 문제점이 있었습니다. 그래서 저는 다나카의 제구력은 굉장히 좋은 수준으로 판단하였고 때문에 BB%와 HBP%의 모든 경우에 대해서 평균값을 사용하기로 하였습니다.
이를 이용하면, 우리는 대략적으로 다나카가 WAR 4에서 8사이의 어떤 값을 기록할 거라고 예측가능합니다.(물론 가장 좋은 값은 저의 가정이 불완전하기 때문에 저렇게 높게 나온 것이라고 생각합니다.)


4. 성적 예상 결과

예상결과는 제가 생각하기에 다나카가 기록할 것 같은 가장 가까운 성적을 계산하기로 하였습니다. 저는 다나카의 스타일상 제구가 좋은 스타일로 BB%나 HBP%는 평균적인 변화율을 사용해도 좋을 것이라고 생각하였습니다. 홈런에 관하여는 메이저리그에서 꽤나 많이 늘어날 것으로 예상하였기 때문에 LOW에 해당하는 예상값을 이용하였습니다. K%는 다르빗슈 유나 이와쿠마 히사시나 첸 웨이인이나 평균예상치에서 벗어나지 않는 것으로 판단하여 평균변화율을 적용하였고, 이닝수치도 평균변화율을 적용하였습니다. 결과는 아래의 표와 같았습니다.


5.결론

우선 스탯을 정리하다 생각한 내용은 다나카 마사히로가 제가 생각해왔던 것 이상으로 좋은 선수라는 것이었습니다. 일본에서의 마지막 3년간의 성적은 그 엄청나다는 다르빗슈에 전혀 뒤지지 않으며(오히려 앞선다고 볼 수도 있습니다.) 그 결과로 예상성적도 굉장히 좋은 성적이 기대됩니다. 제가 예상한 위의 결과에 따르면 다나카가 30경기를 선발로 나온다고 가정할 때 대략적으로 4~6사이의 WAR을 기록할 것으로 예상됩니다. 즉, 다나카는 굉장한 수준의 성적을 기록할 것으로 예측됩니다. 제 사견이지만, 다나카에게 투자하는 팀은 다르빗슈 유 급의 엄청난 성공을 거둘 수도 있을 것 같습니다.


Posted by 야구고물상

댓글을 달아 주세요