날씨·주가 예측보다 어려운 ‘이것’ [김범준의 세상물정]

코로나19의 전 세계 확산이 벌써 1년 넘게 진행 중이다. 다양한 분야의 과학자가 현실 데이터에 기반한 여러 감염확산 모형을 제안하기도 했다. 온라인 매체 <퀀타매거진>(www.quantamagazine.org)은 과학의 최첨단 연구를 소개하는 좋은 기사를 자주 공개한다. 얼마 전 <코로나19 팬데믹 모형연구로 힘들게 배운 교훈>(The hard lessons of modeling the Coronavirus pandemic)이라는 제목의 글을 읽었다.

감염확산을 설명하는 여러 이론 모형이 있다. 한쪽 극단에는 감염병에 걸린 사람, 병에 걸렸다가 나은 사람, 아직 감염되지 않은 사람 등 사람들을 몇 가지 유형으로 간략히 구분하고, 각 유형에 몇 명의 사람이 있는 지 그 숫자만을 변수로 이용하는 모형이 있다. 이를 구획모형(compartment model)이라 부른다.

병에 걸린 감염자가 몇 명인지, 그 숫자는 이용하지만 감염자 각자가 어디에 사는지, 그리고 누구에게 감염되었는지 등의 정보는 전혀 이용하지 않는 단순한 모형이다. 구획모형의 장점은 단순성에 있다. 단 몇 개의 수식만으로, 시간이 지나면서 감염자의 수가 어떻게 늘어나고 줄어드는 지 결과를 쉽게 얻을 수 있다.

구획모형의 단점도 명확하다. 서울 종로구에 사는 감염자나 부산 동래구에 사는 감염자, 서울 강남구에 사는 사람을 같은 확률로 감염시킨다고 가정하는 것이 구획모형이다. 구획모형은 사람들을 한 주머니 안의 고르게 섞여 있는 똑같은 바둑알처럼 생각한다. 너무나도 단순한 방법으로 감염 과정을 기술하는 구획모형은 현실의 감염확산을 제대로 설명하기 어렵다.

반대쪽 극단의 감염확산 모형이 있다. 다른 사회 현상 연구에도 널리 쓰이는 행위자-기반 모형(agent-based model)이다. 컴퓨터 프로그램을 통해 한 사람 한 사람을 행위자(agent)로 표현하고, 이들 각자의 이동에 대한 정보도 프로그램 안에 구현하는 방법이다. 감염된 한 행위자가 다른 행위자에게 언제, 어디서 감염을 확산시키는지, 세세한 과정을 모형 안에 구현할 수 있다는 장점이 있다.

예를 들어, 종로에 사는 50대 직장인 남성이 기차를 타고 방문한 부산에 감염을 일으키는 것과 같은 구체적인 과정도 원칙적으로는 모두 모형에 구현할 수 있다. 행위자-기반 모형의 장점은 곧 단점이 된다. 모형 안에 구현한 여러 세부적인 요인마다 존재하는 어쩔 수 없는 불확실성이 모여, 결과를 크게 바꿀 수 있다는 것이 단점이다.

구획모형이 세부적인 정보를 너무 많이 덜어내 문제라면, 자세한 요소까지 속속들이 담은 행위자-기반 모형은 너무 자세해서 문제일 수 있다. 두 극단의 중간 정도의 지점에서 모형을 설계하는 연구자가 많다.

일기예보나 주가예측도 무척 어려운 문제다. 하지만 감염확산은 어렵다는 일기예보보다 훨씬 더 어렵다. 이유가 있다. 오늘 비가 온다는 아침 예보를 듣고 사람들이 우산을 가지고 출근한다. 하지만 우산을 들고 출근했다고 해서, 올 비가 안 올 리도, 오지 않을 비가 올 리도 없다. 사람의 행동이 오늘 기상현상에 영향을 줄 수는 없다.

감염확산은 다르다. 사람들의 행동 양식 자체가, 감염확산에 큰 영향을 미친다. 예를 들어, 수년간 사람들의 이동에 관한 데이터가 잘 축적되어 정리되어 있어도, 감염확산에 대한 두려움으로 이동 패턴이 변하면, 기존 데이터가 무용지물이 될 수 있다.

모든 사람이 정부가 정한 방역 규칙을 따라 행동하는 것이 아니라는 어려움도 있다. 미국의 한 대학에서 각고의 노력으로 마련한 정교한 코로나19 확산 모형이 예측에 실패한 사례가 있다. 모형의 가정과는 달리, 대학의 방역 정책을 학생들이 성실히 따르지 않았기 때문이다.

감염확산 모형이 가진 다른 어려움도 있다. 연결된 세상에서 한 나라의 감염확산은 다른 모든 나라의 감염확산과 동떨어진 문제가 아니라는 점이 모형을 통한 연구를 어렵게 한다. 어느 정도 첫 대규모 확산이 진정된 이후에라도 두 번째, 세 번째 대규모 감염확산이 다른 지역에서 유입된 감염자로 인해 얼마든지 다시 일어날 수 있다.

이번 코로나19가 가진 독특한 특성도 모형 연구를 어렵게 했다. 과거의 감염병과 달리, 많은 무증상 감염자로 말미암아 감염자의 수 자체를 현실에서 정확히 파악하는 것이 쉽지 않았다. 앞서 설명한 여러 이유로, 코로나19 감염확산의 미래를 이론적인 모형으로 정확하게 예측하는 것은 현재 불가능에 가까운 일이다.

감염확산 모형을 통해 짐작해보는 ‘근미래’는 예측(prediction)보다는 투사(projection)에 가깝다. ‘지금까지의 패턴이 앞으로도 계속 이어진다면’이라는 증명할 수 없는 가정을 이용할 수밖에 없기 때문이다. 모형으로 짐작해보는 미래가 불확실하더라도, 손 놓고 아무런 이야기를 하지 않는 것보다는 그래도 짐작해보려는 노력이 필요하다.

지난해 초, 영국이 록다운을 결정할 때에도, 모형을 통해 당시 짐작해본 최악의 시나리오가 도움이 된 바 있다. 아무런 방역 노력을 하지 않을 경우 발생할 사망자수를 추정해보는 것은, 정말로 그 만큼의 사망자가 발생할 리는 없더라도, 현실의 시급한 정책 결정에 도움이 될 수 있다. 이처럼 감염확산 모형은 여러 다양한 시나리오의 테스트 베드로서의 역할이, 정확한 수치의 예측보다 더 중요한 경우가 많다.

감염확산 모형이 앞으로 어떤 방식으로 발전할 필요가 있을지 생각해보자. 먼저 기상현상 예측에도 많이 이용하는 앙상블 예측의 방법이 중요해질 것으로 보인다. 서로 독립적인 여러 이론 예측 모형의 결과를 결합해서 집단 지성의 방식으로 근미래를 짐작하는 방식이다.

미래에는 사람들의 실시간 행동 패턴 데이터가 좀 더 체계적으로 수집되어 연구에 이용될 필요도 있다. 이미 구글은 각 국가의 사람들의 이동 패턴 통계 결과를 공개하고 있다. 앞으로 감염확산 모형이 각 지역의 특성에 맞춰 정교하게 구축될 필요도 있다.

코로나19 확산 양상이 정확히 같았던 두 나라는 지구상에 없다. 다른 나라의 연구자가 우리나라의 감염확산 모형을 만들기는 어려울 것으로 보인다. 나라마다 사람들의 행동 양식과 정부 방역의 강도가 다르기 때문이다.

한 나라에서 성공한 확산 모형이라고 해서, 다른 나라에서도 성공할 것으로 믿기는 어렵다. 감염확산을 이론 모형을 통해 연구하는 국내의 다학제간 공동연구가 앞으로 점점 더 중요해질 것이 분명하다.

김범준 편집위원(성균관대 교수) beomjun@skku.edu

김범준 편집위원(성균관대 교수) 다른기사 보기