#1 프로젝트 개요
본 프로젝트는 실제 수질 데이터를 활용하여 pH 수치를 예측하기 위한 머신러닝 회귀 모델을 구축하는 것을 목표로 합니다. 특히, 선형 모델인 ElasticNet 회귀와 비선형 앙상블 모델인 Random Forest 회귀의 성능을 비교 분석하고, 과적합 문제와 각 모델의 특성 기여도를 해석하는 데 중점을 두었습니다.
이를 통해 각 모델의 장단점을 파악하고, 주어진 데이터에 더 적합하고 신뢰성 있는 모델이 무엇인지 평가했습니다.
출처
#2 프로젝트 워크플로우 및 성능 분석
ElasticNet 회귀 (다항 특성 + 표준화)
| MAE | 0.1690 | 0.1141 |
| RMSE | 0.2085 | 0.1709 |
- ElasticNet 모델은 일반화 성능이 우수하다고 판단됩니다. 훈련 세트와 테스트 세트의 오차율이 비슷하게 유지되어 과적합 없이 안정적인 예측 성능을 보였습니다. 수온(temperature)이 pH 농도에 가장 큰 양의 영향을 미쳤고, 중랑천(station_name_중랑천) 측정소는 기본적으로 pH가 높은 경향을 보였습니다. 총질소(TN)는 pH 농도에 음의 영향을 주는 것으로 나타났고, 온도와 용존산소(DO), 중랑천 위치와 온도 등 특성 간의 유의미한 상호작용 효과가 관찰되었습니다.
Random Forest 회귀
| MAE | 0.0516 | 0.1570 |
| RMSE | 0.0734 | 0.2765 |
- Random Forest 모델은 심각한 과적합 경향을 보입니다. 훈련 데이터에 대해서는 매우 낮은 오차를 기록했지만, 테스트 데이터에서는 오차가 크게 증가하여 일반화 성능이 매우 떨어졌습니다. 이는 잘못된 예측으로 이어집니다. 수온(temperature)이 전체 중요도의 50.4%를 차지하며 예측에 가장 결정적인 영향을 미쳤습니다. 총질소(TN)와 중랑천 위치가 각각 12.5%, 11.7%의 중요도를 기록하며 뒤를 이었고, 용존산소(DO), 총유기탄소(TOC) 등 다른 특성들의 기여도는 상대적으로 미미했습니다.
#3 최종 결론 및 향후 과제
본 프로젝트의 최종 모델로 ElasticNet 회귀를 채택했습니다. ElasticNet은 테스트 데이터에서 안정적인 RMSE(0.1709)를 기록하며 높은 일반화 성능과 해석 가능성을 모두 확보했습니다. 반면, Random Forest는 복잡한 비선형 관계를 학습할 잠재력에도 불구하고 심각한 과적합 문제(테스트 RMSE: 0.2765)를 해결하지 못해 최종 모델로 부적합하다고 판단했습니다.
최종 선택된 ElasticNet 모델의 계수 분석을 통해, 수온이 pH 예측에 가장 중요한 변수임을 재확인했으며, 특정 측정소(중랑천) 데이터가 결과에 유의미한 영향을 미친다는 점을 파악할 수 있었습니다.
향후에는 Random Forest 모델의 과적합 문제를 해결하기 위해 더 정교한 하이퍼파라미터 튜닝을 시도하거나, XGBoost, LightGBM과 같은 다른 강력한 앙상블 모델을 적용하여 성능을 개선하는 것이 좋다고 느꼈습니다.
깃허브로 이동
'Projects' 카테고리의 다른 글
| 적응형 언샤프 마스킹 기반 이미지 보정 프로젝트 (0) | 2026.01.01 |
|---|---|
| 서울시 대기질 예측을 위한 로지스틱 회귀 프로젝트 (0) | 2025.08.26 |