아기에게 배우는 ‘인공지능’ [김범준의 세상물정]

요즘 생성형 인공 지능이 빠르게 발전하고 있다. 이미 세상에 존재하는 수많은 데이터를 이용해 학습한 이들 인공 지능은 우리 인간이 물어보는 질문에 상당히 그럴듯한 답을 들려준다. 깜짝 놀랄만한 결과물을 보면, 마치 인공 지능이 주어진 질문과 자신의 답변을 스스로 이해한 것처럼 느껴질 수도 있다. 하지만, 이해한 것처럼 보인다는 것과 정말로 이해했다는 것은 천지 차이다. 지금의 인공 지능은, 많은 학습 데이터에 기반해서 가장 통계적으로 개연성이 큰 결과를 출력하는 방식으로 작동하는, 스스로의 이해가 불가능한 알고리즘일 뿐이다.

인간과 현재의 인공 지능의 작동 방식에는 큰 차이가 있다. 최근의 생성형 인공 지능은 무려 십조 개 정도의 단어로 이루어진 학습 데이터를 이용한다고 한다. 한편, 평범한 인간의 어린 아기는 기껏 30만 단어 정도 분량의 음성 언어에 노출된 경험만으로도 놀라운 언어 구사 능력을 습득한다는 것이 알려져 있다. 인간보다 훨씬 더 많은 학습 데이터가 인공 지능에게 필요한 이유는 자명하다. 인간은 마음속에서 단순한 인과 모형을 먼저 구축하고 이를 외부와의 상호작용을 통해 끊임없이 견주어 점점 더 모형을 정교화해 나가는 방식을 이용하지만, 인공 지능은 많은 데이터를 이용한 상관관계의 통계적 추론의 방식으로 작동하기 때문이다. 엄청난 양의 데이터로 학습시켜야 작동한다는 문제뿐 아니라, 인공 지능의 다른 문제도 무척이나 심각하다. 바로, 학습 데이터가 충분치 않은 상황에서는 엉뚱한 결과를 출력할 수 있다는 문제다.

지금까지의 운전에서 단 한 번도 보지 못한 무언가가 도로 위에 놓여있어도 인간 운전자는 대부분의 경우 큰 문제 없이 올바른 판단을 해 운전을 계속할 수 있지만, 인공 지능은 이런 경우 학습 데이터가 부족하면 작동 불능의 상태에 빠지거나 아니면 엉뚱한 판단을 할 수도 있다. 게리 마커스와 어니스트 데이비스의 책 <2029 기계가 멈추는 날>에서 저자들은 현재의 인공 지능이 아직 평범한 인간의 수준에 이르지 못했다고 주장한다. 많은 양의 데이터로 상관관계를 학습해 놀라운 성능을 보여주는 인공 지능은 암묵적인 상식을 이용해 적은 양의 데이터로부터도 인과관계를 너끈히 추론해 내는 평범한 인간의 이해 능력에 여전히 크게 뒤처져 있다.

인공 신경망의 입력층과 출력층 사이에 다수의 은닉층을 두는 딥러닝 기법이 제안된 이후, 인공 지능의 발전은 주로 많은 데이터를 빠르게 처리할 수 있는 기술적 혁신이 만들었다. 현재의 대규모 생성형 인공 지능은 이미 엄청난 에너지를 소비하고 있으며, 더 빠른 고가의 하드웨어와 더 많은 학습 데이터에 기반한 인공 지능의 발전이 미래에도 계속 지속되는 것은 그리 가능해 보이지 않는다. 위에서 소개한 책의 저자는 앞으로 인공 지능이 더 발전하려면 인간과 같은 열린 방식으로 외부 세상과의 끊임없는 상호작용이 필요하다는 것을 찬찬히 설득한다. 인공 지능이 주어진 상황에 대한 진정한 이해의 수준에 도달해야만 인간과 같은 수준의 판단과 문제 해결의 능력이 가능하다는 이야기다. 현재의 딥러닝은 전혀 깊지 않다는 얘기다.

2024년 2월 학술지 <사이언스>에 출판된 한 논문(DOI:10.1126/science.adi1374)은 한 아기 머리에 장착된 카메라가 녹화한 6개월에서 25개월 사이의 61시간 분량의 동영상을 이용한 인공 지능 학습 결과를 보고했다. 연구에 사용된 학습 데이터는 동영상을 구성하는 이미지 정보와 그 이미지를 아기가 보고 있을 때 함께 녹음한 양육자의 목소리 정보로 구성되어 있다. 각각의 정보를 기존의 기법으로 인코딩해 고차원 벡터로 표상하고, 정보가 함께 발생하면 두 벡터가 점점 가까워지게 하는 방식으로 논문의 연구진은 자신들의 인공 지능을 성공적으로 학습시켰다. 학습을 마친 인공 지능 시스템에 ‘모래’라는 단어를 입력하면 모래를 가지고 놀던 과거의 이미지를 보여준다. 심지어는 학습에 이용된 적 없는 새로운 시각 정보에 대해서도 상당한 수준의 일반화를 보여주기도 했다. 연구진이 이용한 인공 지능의 학습 방법보다 이들이 이용한 학습 데이터의 의미가 중요하다고 생각한다. 한 아기가 성장 과정에서 시간 순서로 맞닥뜨린 그리 크지 않은 데이터를 이용해서 상당한 수준의 성능을 보여주는 인공 지능이 가능하다는 얘기다.

어쩌면 느려 보여도 인간 아기의 학습 과정이 엄청난 효율성을 가지고 있을 수도 있다. 조금씩 외부와의 상호작용을 이어가면서 스스로의 개념 모형을 형성하고 이 모형에 기반한 예측을 다시 외부에 적용해 그 결과를 다시 반영하는 방식의 학습 방법에 큰 장점이 있을 수 있다. 이러한 아장아장 걸음마처럼 초보적인 단계에서 시작해서 재귀적으로 발전하는 인간의 학습 방법이 현재 인공 지능의 일방향 학습을 미래에 대체할 가능성도 있다. 어쩌면 이러한 인간 아기의 학습 과정을 따라 배우는 것만이 인간의 암묵적이고 자명한 상식을 인공 지능이 습득하는 방법일 수도 있다. 너무나 자명해 문서로 존재하지 않고 따라서 현재의 인공 지능은 인간의 상식을 배우기 어렵기 때문이다. 아기에게 배워 구현된 인공 지능으로부터 우리가 다시 인간의 성장 초기에 어떻게 학습이 이뤄지는지를 이해할 가능성도 있다. 어쩌면 인공 지능도 아장아장 걸음마로 시작해 자꾸 넘어져 보는 경험이 필요한 것이 아닐까.

김범준 편집위원(성균관대 교수) beomjun@skku.edu

김범준 편집위원(성균관대 교수) 다른기사 보기