본문 바로가기
KT AIVLE SCHOOL

[KT AIVLE] 미니프로젝트2 미세먼지 농도 예측

by 얀나대장 2023. 3. 29.

aivle 에서 3월 첫째주에 미니프로젝트 두번째를 실시했다.

이번 미니프로젝트는 머신러닝 회귀 분석을 사용한 미세먼지 농도 예측이었다.

 

주제

미세먼지 농도 예측 머신러닝 모델링

목표

새로운 도메인의 학습데이터를 탐색하고 분석에 용이하도록 전처리한 후 머신러닝 모델을 완성해 테스트 데이터에 대해 예측하고 평가한다.

도메인 이해

대기환경기준물질 : 아황산가스, 일산화탄소, 이산화질소, 오존, 미세먼지

미세먼지 : 아주 작은 크기의 모든 오염물질

PM 10 : 먼지, 꽃가루, 곰팡이등

PM 2.5 : 연소입자, 유기화합물, 금속 등

초미세먼지는 폐 속 깊이 침투해 폐포에 흡착, 손상을 일으킴

관련 논문

기상환경데이터와 머신러닝을 활용한 미세먼지 농도 예측 모델

  1. 미세먼지 농도에 영향을 미치는 요인
    1. 중국 등 국회 요인보다는 국내의 기상상태에 따른 2차 미세먼지의 생성이 큰 영향을 미침
  2. 미세먼지 농도 예측 모델 제안
    1. 에어코리아의 대기오염/미세먼지 자료와 기상자료개방포털의 다양한 기상자료를 수집하고 예측에 있어 중요한 시간 데이터를 변수로 포함시켜 머신러닝 모델을 구현

데이터 소개

  • 에어코리아
  • 기상자료개발포털 - 종관기상관측자료

팀프로젝트

  • 각자 전처리를 진행하는 방법 공유
  • 결측치 처리
    • 미세먼지 농도 fillna(method = ffill)
    • 강수량 fillna(0)
    • 지중온도처럼 결측지가 적은 경우 선형보간법 interpoloate df_21['5cm 지중온도(°C)'].interpolate(inplace=True)
  • Linear Reggression은 PM10을 제외하니 평균보다 낮은값이 나왔음 PM10을 포함하면 0.9 이상으로 매우 큰 값이 나옴
  • Random Forest는 r2가 0.59정도로 괜찮은 값
  • XGB 는 r2가 0.61로 좀 더 향상

피드백

  • 각각 어떤 요인을 사용했는지 의논하면 더 좋았을 듯
  • 결측이 많은 값을 어떻게 처리하는지 좋은지 의논을 하면 좋았을 듯
  • 시계열 데이터를 처리할때는 행을 삭제해버리면 문제가 생기기에 결측치를 보안하는 방법으로 해야한다.
  • 요인별 상관계수를 계산해서 관련있는 요인만 뽑아서 학습을 시켰으면 더 잘 됐을 것 같다.
  • 종속성 계산도 했으면 더 정확하게 됐을 것 같다.

댓글