객관적 기후예측에 적합한 인공지능 활용 기반기술 개발(II)

저자
예측기술과 김미애, 박경원, 이성규, 이윤영, 정유란
 
작성일
2023.12.22
조회
239
  • 요약
  • 목차

국문 요약

최근 NVIDIA(FourCastNet), 구글 딥마인드(GraphCast), 화웨이(Pangu-Weather), ECMWF(AIFS) 등 글로벌 기업과 글로벌 연구소를 중심으로 14일 이내의 인공지능 기후예측모델이 개발되고 있다. 이들 모델은 ECMWF 웹사이트를 통해 시범 운영 중에 있다. 그러나 여전히 예측기간이 14일 이내로 계절내 및 계절 시간규모로의 확장은 아직 미흡하다. 또한, 인공지능 연구에는 대량의 학습자료가 필요하지만 현재 글로벌 기업들이 학습에 사용한 기후자료인 ECMWF ERA-5 재분석자료는 1950년부터 현재까지 약 74년의 자료만 구축되어 있다. 이 자료를 학습자료, 검증자료, 테스트자료로 나눠서 사용하면 실제 학습에 사용되는 자료는 매우 부족하다.

 

기후위기로 인하여 응용기후분야에 정확도 높은 계절 내 예측자료의 중요성이 커지고 있다. 이러한 계절 내 예측자료는 물리적 기반으로 다양한 대기 및 해양의 상호작용을 수치모델만으로 예측하기 어려운 문제에 직면하고 있다. 이러한 어려움을 극복하기 위하여 입력자료에서 보다 중요한 패턴과 특징에 가중치를 줘서 정확도를 개선하고자 하는 Attention U-Net 모델과 계절 내 예측 모델 뿐만 아니라 관측자료를 기반으로 Filter, Wrapper, Embedded 등의 기법을 이용하여 변수가 가지고 있는 특징들을 찾아내어 다양한 민감도 분석을 실시하였다. 모델/관측자료의 변수의 선택으로 일부 변수조합으로 계절내 예측보다 정확도가 향상됨을 확인할수 있었다. 그러나 많은 변수들의 조합에서는 통계적 결과가 최적화된 결과를 보여주지 못한다는 것을 알수가 있었다. 따라서 향후 변수가 가지는 특성과 최근 발전한 기후분야의 인공지능 모델을 개선한다면 보다 정확도가 향상된 예측자료를 활용할 수 있을 것으로 판단된다.

 

U-Net 아키텍처를 개선하기 위해 Attention과 Residual 장치를 활용하여 모델을 확장하고, 초매개변수를 최적화하여 S2S (Sub-seasonal to Seasonal) 기후 변수 (예, 최고기온 및 강수)의 예측 정확도를 향상시키는 방법을 탐색하였다. 먼저, Attention은 입력과 다음 결과 간의 연관성을 측정하여 특정 정보에 집중하는 기법이고, Residual learning은 기울기 소실 문제를 해결하기 위한 기법이다. 본 연구에서는 이 두 가지를 기존 U-Net에 각각 추가하여 Attention U-Net 및 Residual U-Net을 구축하고, 두 장치를 결합한 Attention based-on Residual U-Net을 구축하였다. 또한, 초매개변수를 최적화하기 위해 그리드 탐색(Grid search) 알고리즘을 사용하였다. 에포크, 배치 사이즈, 학습률에 대한 주요 초매개변수에 대해서 최적화를 수행하였다. 훈련 데이터는 계절 내 기후 예측자료를 활용했는데, 대부분의 기후 모델에서 최적화된 초매개변수 조합은 유사한 경향을 보였다. S2S 최고기온과 강수 예측에서, Attention 혹은 Residual이 추가된 U-Net에서 ACC가 향상되었으며, 두 장치가 모두 장착된 Attention based-on Residual U-Net이 가장 우수한 결과를 보였다. 특히, Residual 장치가 기온 예측에 영향을 준 것으로 보이며, Attention은 강수 예측을 개선하는 데 효과적으로 작용한 것으로 추측된다. 그러나, 여전히 기온의 1주 예측 성능과 강수의 2-3주 예측 성능을 향상시키는 데 한계가 있었다. 이에 따라 후속 연구에서는 앙상블 기법을 활용하여 높은 성능을 보이는 모델들을 조합하고, S2S 기온 (최고 및 최저기온) 및 강수 예측에 적합한 방법을 제시할 것으로 기대된다.

 

기후 자료는 수십 년간 축적되어 왔음에도 MJO와 같은 특정 기후 현상은 그중 일부에 해당하기 때문에 딥러닝 모델에 활용되기에 자료의 양이 충분하지 않은 경우가 많다. 이는 월별로 자료를 활용하는 경우 더욱 제한적이다. 준지도학습은 적은 양의 라벨링된 자료를 효율적으로 활용해 높은 성능의 모델을 구현할 수 있다. 본 연구에서는 준지도학습 기법을 기반으로 MJO 위상을 분류하는데 수십 년의 이미지를 활용하여 딥러닝 모델을 개발하였다. 우선 모든 자료를 라벨링하여 MJO 위상을 분류하는 지도학습 모델을 개발하였다. 다양한 변수, 훈련 자료 분리 방법, 모델 구조에 따라 다양하게 개발하고 최적의 모델을 선정하였다. 다음으로 이 모델을 준지도학습 환경에서 학습하였다. Mean Teacher 준지도학습 기법 기반 모델을 자료 증강 방법, 모델 학습 방법, Consistency 손실 가중치, 라벨링된 자료의 개수 등을 조정하여 다양한 민감도 실험을 수행하였다. 그 결과로 전체 자료 중 절반의 양을 가지고도 대부분의 라벨링 자료를 사용하거나 모든 자료를 라벨링하여 학습한 지도학습 결과에 비해 비슷하거나 더 나은 결과를 보여주었다. 추가로 다양한 이전 시계열 길이를 가지는 입력장 자료를 학습하여 다음날 혹은 연속 7일의 입력장(U850, U200, OLR)을 예측하는 모델링을 수행하였다. Inactive MJO 발생 사례 제거, 여름철 제거 등의 샘플링을 통해서 모델 테스트를 수행하였다.

 

기후분야에서 딥러닝 기법을 적용한 연구가 많이 늘어나고 있지만 딥러닝 모델의 이해를 통한 모델의 개선 방향 도출은 미흡하다. 본 연구에서는 딥러닝 모델의 이해도를 높이고 모델의 개선점을 도출하기 위해 설명가능한 인공지능(eXplainable Artificial Intelligence, XAI), 손실지형 분석, 모델 내부 구조 분석 및 개선을 수행하였다. XAI 기법을 통해 지도학습과 준지도학습으로 구축된 모델이 입력자료에서 유사한 정보를 추출하여 예측에 활용했는지 분석하였다. 손실지형 분석을 이용하여 딥러닝 모델의 구조가 전역최저점을 찾는데 유리한 지형인지 판단하는 연구를 수행하였다. 또한, 딥러닝 모델의 내부 구조와 피처 붕괴를 분석하여 어텐션 메카니즘, 데이터셋 확장, 레이어 필터 수 증가, 모델 구조 개선 등을 고려하여 모델을 설계하고 모델의 예측성을 평가하였다.