aivle 에서 3월 첫째주에 미니프로젝트 두번째를 실시했다.
이번 미니프로젝트는 머신러닝 회귀 분석을 사용한 미세먼지 농도 예측이었다.
주제
미세먼지 농도 예측 머신러닝 모델링
목표
새로운 도메인의 학습데이터를 탐색하고 분석에 용이하도록 전처리한 후 머신러닝 모델을 완성해 테스트 데이터에 대해 예측하고 평가한다.
도메인 이해
대기환경기준물질 : 아황산가스, 일산화탄소, 이산화질소, 오존, 미세먼지
미세먼지 : 아주 작은 크기의 모든 오염물질
PM 10 : 먼지, 꽃가루, 곰팡이등
PM 2.5 : 연소입자, 유기화합물, 금속 등
초미세먼지는 폐 속 깊이 침투해 폐포에 흡착, 손상을 일으킴
관련 논문
기상환경데이터와 머신러닝을 활용한 미세먼지 농도 예측 모델
- 미세먼지 농도에 영향을 미치는 요인
- 중국 등 국회 요인보다는 국내의 기상상태에 따른 2차 미세먼지의 생성이 큰 영향을 미침
- 미세먼지 농도 예측 모델 제안
- 에어코리아의 대기오염/미세먼지 자료와 기상자료개방포털의 다양한 기상자료를 수집하고 예측에 있어 중요한 시간 데이터를 변수로 포함시켜 머신러닝 모델을 구현
데이터 소개
- 에어코리아
- 기상자료개발포털 - 종관기상관측자료
팀프로젝트
- 각자 전처리를 진행하는 방법 공유
- 결측치 처리
- 미세먼지 농도 fillna(method = ffill)
- 강수량 fillna(0)
- 지중온도처럼 결측지가 적은 경우 선형보간법 interpoloate df_21['5cm 지중온도(°C)'].interpolate(inplace=True)
- Linear Reggression은 PM10을 제외하니 평균보다 낮은값이 나왔음 PM10을 포함하면 0.9 이상으로 매우 큰 값이 나옴
- Random Forest는 r2가 0.59정도로 괜찮은 값
- XGB 는 r2가 0.61로 좀 더 향상
피드백
- 각각 어떤 요인을 사용했는지 의논하면 더 좋았을 듯
- 결측이 많은 값을 어떻게 처리하는지 좋은지 의논을 하면 좋았을 듯
- 시계열 데이터를 처리할때는 행을 삭제해버리면 문제가 생기기에 결측치를 보안하는 방법으로 해야한다.
- 요인별 상관계수를 계산해서 관련있는 요인만 뽑아서 학습을 시켰으면 더 잘 됐을 것 같다.
- 종속성 계산도 했으면 더 정확하게 됐을 것 같다.
'KT AIVLE SCHOOL' 카테고리의 다른 글
| [KT AIVLE] 미니프로젝트 5차 - 인간 행동 인식 분류 (0) | 2023.04.14 |
|---|---|
| [AICE Associate 자격증 준비] python 코드 공부 (0) | 2023.04.11 |
| [KT AIVLE] 미니프로젝트2 kaggle 참가 (0) | 2023.03.29 |
| [KT AIVLE] GITHUB 사용법 (1) | 2023.03.03 |
| [KT AIVLE]3기 KT 에이블러 시작! (인적성+코테+합격후기) (0) | 2023.02.26 |
댓글