인간이 아닌 동물 중에도 도구를 사용하는 ‘종’이 있다. 침팬지와 까마귀가 좁은 구멍에 들어있는 먹이를 먹을 때 나뭇가지를 이용하는 것처럼 말이다. 인간만이 도구를 사용하는 것은 아니지만, 인간이 도구를 만들어 사용하는 방식은 독특한 면이 있다. 인간은 도구를 이용해 도구를 만들어 사용한다. 우리가 매일 접하는 온갖 기기와 도구는 예외 없이 놀랍도록 복잡한 ‘재귀’의 결과다. A로 B를 만들고 B와 C를 이용해 D를 만드는 과정이 길게 이어져 우리 손 안 스마트폰이 되는 것처럼 말이다. 인간이 기존 결과를 새롭게 융합해 새로운 무언가를 만들어 내는 것은 도구만이 아니다. 우리 인간은 이미 존재하는 다른 이의 생각을 모아 새로운 생각을 만들어 낼 수 있는 놀라운 존재이기도 하다. 인간은 이처럼 누적적인 사회적 재귀를 통해 온갖 새로운 것들을 만들어 낸다. 요즘 많은 이가 놀라고 있는 ‘생성형 인공지능’(Artificial Intelligence, AI)도 결국 이러한 인간의 사회적, 역사적 재귀의 긴 연쇄의 결과로 세상에 등장했다.
요즘의 놀라운 AI는 세상의 온갖 데이터를 학습 자료로 이용해 그 안의 통계적 패턴을 스스로 인식해 새로운 질문에 그럴듯한 결과를 답으로 출력한다. 수많은 고양이와 강아지 사진을 보여주면, 새로 처음 본 사진에 담긴 것이 고양이인지 강아지인지 판단할 수 있는 것처럼 말이다. 생성형 AI는 강아지·고양이 사진 판별을 훌쩍 넘어선 능력을 보여주기도 한다. 이미 존재하는 수많은 인터넷상의 문서를 학습한 거대 언어 모형 AI는 다양한 질문에 상당히 그럴듯한 결과를 생성해 낸다. 과학 분야에서도 연구 결과의 분석과 논문 작성에 생성형 AI를 이용하는 이들이 가파르게 늘고 있다. AI가 작성한 언론 기사, AI가 그린 이미지, AI가 쓴 소설 등이 인간이 만들어 낸 결과와 얼핏 보아서는 점점 구별하기 어려워지고 있고, AI가 생성해 낸 데이터가 인터넷에서 차지하는 비중은 점점 더 늘어날 것이 분명하다.
올해 학술지 <네이처>에 출판된 한 논문(DOI:10.1038/s41586-024-07566-y)이 큰 주목을 받았다. 이 논문에서 다룬 주제는 정말로 시의적절하다. AI가 생성한 데이터가 점점 늘어나다 보면 AI가 학습 데이터로 인간이 만들어 낸 데이터가 아닌 과거에 AI가 생성한 데이터를 이용하게 될 것이 분명하다. 논문에서는 AI가 자신의 출력물을 다시 학습 데이터로 이용하는 재귀적 과정이 이어질 때 AI의 출력 결과의 질이 하락한다는 것을 명확히 보였다. 지난해 SF 작가 테드 창은 거대 언어 모형 AI를 흐릿한 JPEG 이미지 파일로 비유해 큰 주목을 받았다. 원본의 정보를 줄여서 변환하는 과정을 재귀적으로 이어가면 결국은 원본이 가진 대부분 정보는 소실된다. 원본 사진을 복사기로 복사하고 이렇게 복사한 이미지를 또 복사하는 것을 이어가면 사진 이미지의 질이 점점 떨어지는 것과 마찬가지다. 테드 창의 통찰이 이번 논문에서 구체적인 결과로 확인되었다고 할 수 있다. 현재 우리가 이용하는 모든 생성형 AI는 재귀적 학습을 계속 이어가면 결국 모델이 붕괴하는 상황에 도달하게 된다는 것을 명확하게 보인 의미 있는 연구 논문이다.
AI는 학습 과정을 통해 학습에 이용된 다량의 데이터에 대한 일종의 확률 분포를 스스로 만들어 낸다. 이렇게 확률 분포를 만들어 가는 과정이 학습의 과정이라면, 학습이 끝난 거대 언어 모형 AI는 우리가 입력하는 질문에 대해 개연성 있는 그럴듯한 문장을 학습 과정에서 구축한 확률 분포로부터 생성해 낸다. 이렇게 AI가 생성한 결과를 다시 재귀적으로 학습 데이터로 이용하게 되면, AI가 다음에 생성해 내게 되는 확률 분포는 처음의 확률 분포와 달라진다. 재귀적 학습은 어떤 방식으로 확률 분포를 변화시키게 될까? 먼저, 재귀적 학습에서는 확률이 작았던 사건이 다음의 확률 분포에서 제외되는 방식으로 변화가 일어난다. 생성형 AI는 드문 사건에 대해서는 작은 확률을 부여하는데, 재귀적 학습이 이어지다 보면, 드물게 발생한 사건이 더 드물게 발생하게 되는 방향으로의 변화가 일어날 수밖에 없기 때문이다. 거꾸로, 재귀를 계속 이어가다 보면 확률이 높아 자주 발생하게 되는 사건은 더 자주 발생하게 된다. 결국 재귀적 학습을 통해 AI가 만들어 내는 확률 분포의 폭은 줄어들고 자주 발생하는 소수의 사건에만 높은 확률을 부여하는 방식으로 뾰족한 모습의 확률 분포로 수렴하게 된다. 결국 어떤 입력 데이터에도 거의 같은 결과를 출력하는, 고양이와 강아지 사진을 구별할 수 없는 멍청한 AI가 출현한다. 논문의 저자들이 말하는 ‘모델 붕괴’의 상황이 도래한다.
이번 논문의 결과를 생명의 진화 과정과 비교할 수 있다. 재귀적 학습의 과정은 유전적 다양성이 줄어드는 근친 교배를 닮았다. 유전적 다양성이 극단적으로 줄어들면 작은 환경의 변화에도 생존할 수 없는 개체만으로 집단이 구성되고, 결국 종의 멸종으로 이어지게 된다. 재귀적 학습으로 다양성이 줄어드는 AI의 모습에서 유전적 다양성이 줄어들다 결국 멸종하는 생명을 떠올릴 수 있다. 먹이를 먹고 눈 자신의 똥을 다시 먹이로 먹는 생명을 상상해 보라. 에너지 보존 법칙과 엔트로피 증가의 법칙을 생각하면, 이 생명은 당연히 생존을 계속 이어갈 수 없다. 내가 알고 있는 것을 모아 책을 쓰고, 그 책만을 다시 공부해 다음 책을 쓰는 과정을 재귀적으로 이어가면 더 나은 책이 만들어질 수 없는 것도 마찬가지다. 하지만, 다른 사람이 쓴 책도 함께 읽고 새로운 지식을 배우는 과정을 덧붙이면, 내 다음 책은 내 이전 책보다 더 나은 책이 될 수도 있다. 인간 개인 한 명의 재귀는 새로운 무언가를 만들어 내기 어렵지만, 인간은 사회적 재귀의 결과에 새로운 무언가를 창의적으로 조금씩 덧붙이는 누적적인 과정을 통해 끊임없이 새로움을 만들어 왔다.
인간의 사회적 재귀와 생명의 진화에서 배운 다양성의 중요성이 AI의 발전에 기여할 수 있지 않을까? 어쩌면 차세대 AI는 생명과 인간 사회처럼 다양성을 적극적으로 반영해야 하는 것이 아닐까? 먼 미래 수많은 AI가 참여하는 인공 생태계를 상상해 본다. 가상 생태계에서 AI의 결과물에 대한 적절한 인간의 판단이 선택압으로 작용하는 방식을 통해서, 다양성을 유지하며 끊임없이 변화해 가는 AI의 생태계가 과연 출현하게 될까? 먼 미래 AI의 생태계는 인간 집단처럼 사회적 재귀를 통해 새로운 무언가를 만들어 내는 수준에 다다를 수 있을까? 재귀적 학습으로 인한 모델 붕괴의 발견으로 인공지능의 또 다른 혹한기가 시작되고 있을 수 있다. 지금처럼 무작정 엄청난 데이터를 이용해 학습하는 방식은 지속 가능하지 않다는 것이 이번 연구가 알려주는 교훈이라고 나는 믿는다. 추운 겨울을 버티고 AI가 다시 봄을 맞을 수 있으려면 현재 AI가 이용하는 학습 방식에 근본적인 변화가 필요하다.