1. 개요


CSAS 2025 데이터분석 챌린지: (원문 링크)

이번 CSAS 데이터 챌린지의 목표는 배트 스피드와 스윙 길이에 대한 새로운 야구 데이터를 활용하여 투수/타자 상호작용의 특정 측면을 분석하는 것입니다. 2024년 4월 2일부터 6월 30일까지의 346,250개의 메이저리그 타석에 대한 피치별 데이터를 Baseball Savant로부터 제공받았으며, 여기에는 관련 Statcast 데이터와 함께 추적된 스윙에 대한 배트 스피드와 스윙 길이가 포함되어 있습니다. 시즌 후반기 데이터는 정규 시즌 종료 후 추가될 예정입니다. 분석은 배트 스피드와 스윙 길이를 활용하여 타석에서의 타자, 투수, 또는 타자-투수 상호작용과 관련된 모든 주제를 연구할 수 있습니다.

1-1 문제 정의


  1. 어떤 조건에서 타자가 홈런을 시도할 가능성이 가장 높은가
  2. 타자의 홈런 성공률에 미치는 요인 분석

1-2. 변수


2. 데이터 정제


2-1. 홈런에 영향을 미치는 요인

홈런 시도에는 성공실패모두 포함되므로, 두 가지 기본적인 요인을 고려하기로 했습니다:

  1. 배트 스피드: 타자가 배트를 휘두르는 속도
  2. 스윙 길이: 스윙 시작점에서 임팩트 포인트까지의 거리

2-2. 최적 threshold 설정

홈런 시도의 기준을 설정했으므로, 이제 타자의 홈런 시도를 판단하기 위한 각 요인의 threshold를 결정해야 했습니다. 이를 위해 다음 단계를 수행했습니다: