우연이 필연이 되는 ‘생일문제’ [김범준의 세상물정]
상태바
우연이 필연이 되는 ‘생일문제’ [김범준의 세상물정]
  • 김범준 성균관대 교수
  • 승인 2020.05.28 14:52
  • 댓글 0
이 기사를 공유합니다

생일. /사진=픽사베이
생일. /사진=픽사베이

21대 국회의원 선거의 투표결과가 조작되었다는, 과학적인 근거가 약한 음모론 수준의 주장을 소개하는 기사가 선거 후 잠시 몇 언론에 등장했다. 필자의 지난 글에서는, 독립사건과 조건부확률의 몰이해에 기반한 엉뚱한 주장을 소개했다.

이에 반해 다른 성격의 주장도 있었다. 이 중, 관외투표의 득표수가 정확히 같은 후보들이 짝으로 존재하는 특정정당이 있었고, 이는 거의 불가능에 가까운 일이므로 투표결과에 조작이 있었다고 결론짓는 주장이 눈에 띄었다.

필자가 선거에 관련된 데이터를 모두 모아서 정확히 계산을 해 본 것은 아니지만, 이와 비슷한 문제가 통계학 분야에 이미 존재한다. 바로 '생일문제(birthday problem)'라 불리는 재밌는 문제다. 오늘은 지난번 필자의 글과 마찬가지로, 선거로 배우는 확률과 통계 얘기를 좀 더 이어가보자.

◆ 처음 만난 사람과 생일이 같을 확률

처음 만난 사람과 얘기를 나누다가 어쩌다 생일 얘기가 나왔다. 아니 글쎄, 그분과 나의 생일이 정확히 똑같다면, 우리는 당연히 깜짝 놀란다. 내 생일이 정해져 있으니, 그분의 생일이 나와 같을 확률은 365분의 1로서 무척 작다. 하지만, 둘이 셋으로, 다시 넷으로, 점점 한 집단 안에 있는 사람의 수가 늘어나면, 전체 사람 중 우연히 생일이 같은 두 사람이 발견될 확률은 점점 커지게 된다.

예를 들어, 만약 366명의 사람이 모여 있는 집단이라면, 이 중 365명의 생일이 어쩌다 우연히 모두 제각각 다른 극단적인 상황을 가정하더라도, 마지막 366번째 사람의 생일은 365일 모두를 비켜갈 수는 없다. 즉, 366명의 사람이 모여 있는 집단에서는 같은 생일인 사람이 반드시 존재하게 된다. 두명일 때 365분의 1로 시작한 확률은 366명이 되는 순간 정확히 1이 된다.

통계학에서의 생일문제는 '모두 N명의 사람으로 이루어진 집단 안에서 생일이 같은 사람이 두명 이상일 확률은 얼마일까?'이다. 이 확률을 P(N)의 함수꼴로 적으면 N=2일 때 P(2)=1/365로 시작해서, N=366일 때 정확히 P(366)=1이 된다. 생일문제에서는 N이 작은 값에서 시작해 점점 커질 때, P(N)가 어떤 수학적인 꼴로 적히는 지를 묻는다.

자, 위에서 소개한 두명의 경우를 살펴보자. 두번째 사람의 생일이 첫번째 사람의 생일과 같을 확률을 1/365로 쉽게 적을 수도 있지만, 다른 방법도 있다. 바로 두사람의 생일이 다를 확률을 먼저 계산하고, 이 값을 1에서 빼는 방법이다. 둘의 생일은 서로 같거나, 서로 다르거나, 두 경우만 가능{이를 통계학에서는 배반(exclusive) 사건이라 부른다}하니, 두 경우의 확률을 더하면 1이 될 수밖에 없다. 즉 생일이 같을 확률은 1에서 생일이 다를 확률을 빼서 구할 수 있다.

첫번째 사람의 생일이 예를 들어, 5월 5일로 주어졌다고 하자. 두번째 사람의 생일이 딱 이날 5월 5일 하루를 제외한 나머지 364일 중 아무 날짜 중 하나라면 둘의 생일은 당연히 다르다. 즉, 둘의 생일이 다를 확률은 364/365이고, 이 값을 1에서 빼서, 1 – 364/365 = 1/365로 계산해도, 앞에서 쉽게 얻은 것과 같은 결과를 얻는다. 일반적인 생일문제에서도 이 방법을 이용하는 것이 편리하다. 즉, N명의 사람들의 생일이 모두 다른 경우의 확률을 계산하고, 1에서 이 값을 빼서 생일문제의 답을 찾는 방법이다.

◆ 쌍둥이 아닌데 생일이 같은 두 친구

자, 이제 세명의 생일이 서로 모두 다를 확률을 계산하자. 첫번째 사람의 생일이 주어져 있는데, 두번째 사람의 생일이 이와 다를 확률은 앞에서 계산한 것처럼 364/365이다. 첫 번째 사람의 생일을 제외한 364일 중 아무 날짜나 두번째 사람의 생일이 되면, 둘의 생일은 다르다.

이제 이어서 세번째 사람의 생일을 생각해보자. 셋 모두의 생일이 다르려면, 이 세번째 사람의 생일로는 365일 중, 첫번째 사람의 생일과 두번째 사람의 생일을 제외한 363일 중 아무 날짜를 하나 고르면 된다. 즉, 셋 모두의 생일이 다를 확률은 (364/365)*(363/365)의 꼴이 된다.

첫번째 괄호 안의 값이, 두번째 사람이 첫번째 사람과 생일이 다를 확률이고, 두번째 괄호 안의 값이 세번째 사람이 첫번째, 두번째 사람과 생일이 다를 확률이 된다. 세명 중 적어도 두명의 생일이 같을 확률은 이제 1- (364/365)*(363/365)로 적힌다. 계산기를 눌러 보니, 0.0082라서 0.8%정도의 확률이다. 즉, 세명이 모인 집단에서 둘 혹은 셋이 생일이 같을 확률은 1%에도 채 미치지 못한다.

이 정도면 놀랄 일이 맞다. 지금까지 소개한 계산을 N명으로 확장하는 것도 어렵지 않다. 네명의 생일이 모두 다를 확률은 (364/365)*(363/365)*(362/365)이므로, 이를 1에서 빼면, 네명의 경우 생일문제의 정답은 1.6%다. 마찬가지로 계산하면 다섯명으로 이루어진 집단에서 적어도 두명이 생일이 같은 날짜일 확률은 2.7%다.

이처럼 집단의 크기가 커지면서, 둘 이상의 생일이 같을 확률은 점점 커져 1을 향해 늘어난다. 위의 계산을 일반화해서 N명의 집단에서 둘 이상의 사람이 생일이 같을 확률 P(N)을 구해 그래프로 그려보았다. 필자의 어린 시절, 초등학교 한반에는 60명 정도의 학생이 있었다. 이 중 생일이 같은 사람이 존재할 확률은 99.4%다. 예전 초등학교 때 한반에 생일이 같은 두 친구가 있을 확률은 이처럼 거의 100%에 근접해서, 우연이지만 필연에 가까워 신기한 일이 결코 아니다.

100명의 집단이라면, 생일이 같은 사람이 존재할 확률은 더 커져서 무려 99.99997%다. 우연히 득표수가 같은 두 후보가 존재하는 일은 후보의 수가 많을 때, 그리고 득표수가 그리 많지 않은 후보들의 경우에는 전혀 놀라운 일이 아니다. 우연은 필연이 된다.

 


관련기사

댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.
주요기사