인공지능 AI 딥러닝 모델 망각 증상 (Atastrophic Forgetting)

딥러닝 모델의 파인튜닝을 하면서 만나게 되는 난제, 망각증상 (catastrophic forgetting) 에 대해 다뤄보려고 합니다. 

 

인공지능 망각증상이란?

모델을 학습하다보면 이전에 학습한 내용을 까먹는 현상이 문제가 됩니다. 이는 단순히 모델의 용량을 넘는 너무 많은 정보를 넣어서 발생하는 것이 아니라, 학습의 순서에 따라 최근에 학습한 내용을 중심으로 기억하고 이전에 학습한 것은 까먹게 되는 경향이 있는 것입니다.

 

예를 들어, 다국어 모델에서 한국어를 가르치면 영어를 까먹고, 영어를 가르치면 한국어를 까먹는 현상이 나타납니다. 이렇게 갑작스럽게 이전의 학습 내용을 잊어버리는 현상을 '파국적 망각'이라고 부릅니다.

 

인공지능 딥러닝 망각증상 해결 방법

하나의 방법은 모델의 레이어를 추가하고 나머지 레이어를 얼려놓은 상태에서 새로운 레이어만 학습시키는 것입니다. 예를 들어, llama2 모델에 한국어를 학습시킨 야놀자 eeve 모델이 이러한 방법을 사용했습니다.

 

다른 방법으로는 학습이 진행되면서 까먹기 전에 다시 원래 지식을 주입하여 망각을 방지하는 것입니다. 이는 마치 미국에 사는 한국인이 가끔 한국에 돌아와 친구들과 한국어로 대화하는 것과 비슷합니다.

 

커리큘럼 학습은 학습 내용을 단계적으로 나누어 학습하는 방식입니다. 초기에는 기본적인 어휘를 학습하고, 점차 난이도가 있는 개념으로 넘어가는 식입니다. 이러한 방식은 학습의 효율성을 높여줍니다. 예를 들어, 이미지 생성 모델의 경우, 처음에는 단순한 이미지를 학습하고, 점차 복잡하고 고퀄리티의 이미지를 학습하는 식입니다.

 

인공지능 AI 망각 증상은 실존하는가?

 

망각증상이 정말로 '망각'을 의미하는가에 대한 의문이 있습니다. 이는 단순히 기억 속에 잠재되어 있지만 쉽게 꺼내지 못하는 상태일 수도 있습니다. 위 논문에서는 이러한 가정을 실험으로 증명하고 있습니다.

 

실험에서는 작은 파라메터의 언어모델 pythia-1b를 사용하여 25가지 문서를 순서대로 학습시킨 결과를 분석했습니다. 학습이 반복될수록 망각의 정도가 완화되고, 심지어 학습 이전에 망각의 완화가 일어나는 것을 확인했습니다.

 

프리트레이닝이 잘 된 모델일수록 망각 후 재학습의 효과가 더 큽니다. 이는 기억과 이해가 불가분의 관계임을 보여줍니다. 체스 고수들이 체스판의 배치를 잘 기억하는 것처럼, 딥러닝 모델도 이해를 바탕으로 한 기억이 더 강력합니다.

파인튜닝을 잘 하기 위해서는 원 데이터의 지식을 간간히 섞어준 데이터셋을 만드는 것이 좋습니다. 또한, 프리트레이닝 단계에서는 데이터의 복잡도에 따라 단계를 나누어 학습시키는 것이 효과적입니다.

 

인공지능 망각 증상, 그래서 어떻게해?

딥러닝 모델의 망각증상을 극복하기 위해 다양한 방법들이 연구되고 있습니다. 원 데이터의 지식을 재주입하거나 커리큘럼 학습을 통해 학습 효율을 높이는 방법 등이 있습니다. 이러한 접근은 딥러닝 모델의 성능을 향상시키는 데 중요한 역할을 합니다.

 

반응형