팀원들: Dev B., Moiyyad S.

1. 개요


1-1. 신입생 예측 모델 개발

고등 교육 환경은 특히 학생 등록 분야에서 빠르고 중요한 변화를 겪고 있습니다. 출생률 변동, 경제적 불확실성, 교육기관 간 경쟁 심화, 학생 선호도 변화 등의 요인으로 인해 대학들이 신입생 규모와 구성을 예측하기가 더욱 어려워졌습니다. 또한 COVID-19와 같은 글로벌 이벤트는 국내외 학생 등록 패턴에 지속적인 영향을 미쳤습니다. 그 결과, 교육기관들은 재정적 압박, 자원 할당의 어려움, 장기 계획 수립의 난관에 직면하고 있습니다.

신입생 등록을 정확하게 예측하는 것은 대학의 운영상 매우 중요합니다. 등록 인원은 예산 편성, 인력 배치, 학사 과정, 주거 시설, 학생 지원 서비스 등에 직접적인 영향을 미칩니다. 신뢰할 수 있는 예측이 없다면, 대학은 자원을 과도하게 투입하거나 반대로 예상보다 많거나 적은 학생 수에 대비하지 못할 위험이 있습니다. 이러한 도전 과제들로 인해 교육기관들은 신입생 등록을 예측할 수 있는 견고한 방법을 개발하여 변화하는 고등 교육 환경에 적응할 필요가 있습니다.

Summit Ridge University는 미국 중심부에 위치한 대규모 공립대학입니다. 이 대학은 규모, 유형 및 위치가 유사한 다른 교육기관들과 마찬가지로 앞서 언급한 과제들을 경험하고 있으며, 다가오는 등록 주기에 더 잘 대비하고자 합니다. 이러한 과제를 해결하기 위해, 이 데이터톤은 참가자들에게 다양한 요인을 활용하여 Summit Ridge의 신입생을 예측하는 모델을 개발하도록 초대합니다. 과거 등록 추세, 학업 성과, 지리적 위치와 같은 전통적인 지표도 중요하지만, 경제적 지표와 행동 지표 같은 다른 변수들도 동일하게 의미가 있을 수 있습니다.

이 Datathon의 목적은 인구통계학적, 사회경제적, 학업적, 행동적 데이터를 활용하여 더 정확하고 동적인 학생 등록 모델을 개발하는 방법을 탐구하는 것입니다.

이 예측 모델을 개발함으로써, 참가자들은 Summit Ridge University의 리더십이 중요한 의사결정 과정에서 자원을 더 잘 관리하고 신입생들의 요구를 충족시킬 수 있도록 도울 것입니다.

1-2. 변수

2. 데이터 정제


2-1. 결측값 처리

높은 비율의 결측값을 가진 중요 변수들에 대해서는 데이터와 변수를 최대한 보존하기 위해 imputation을 시도했으며, 중요하지 않다고 판단된 변수들은 제거했습니다.

2-1-1. SAT/ACT 표준화

Figure 1. Percentages of NA values for each columns

Figure 1. Percentages of NA values for each columns

위의 그래프를 보면, SAT 관련 값의 약 88%가 결측값이었고, ACT 관련 변수의 22%가 결측값이었습니다. 이는 학생들이 보통 SAT와 ACT를 모두 치르지 않고 둘 중 하나만 치르기 때문에 타당합니다. 이에 저희는 이 변수들을 새로운 standardized_test 변수로 통합했으며, 이 과정에서 SAT와 ACT 점수를 0-100 스케일로 정규화하고, 학생이 두 시험을 모두 친 경우는 보통 더 높은 점수를 이용하여 응시하기에 더 높은 점수를 사용했습니다.

Figure 2. Distribution of the original  variable and  variable

Figure 2. Distribution of the original standardized_test variable and standardized_test_imputed variable