시금치에 철분이 많이 함유돼 있다는 건 오래된 거짓말이다. 1890년에 나온 논문에서 시금치 100g에 철분이 3.5mg 들어있다는 문장에서 소숫점을 빼먹고 35mg이라고 잘못 쓰면서 40년 가까이 시금치는 철분이 많은 채소로 잘못 알려져 왔다. 이 사실이 바로 잡히고 한참 지난 지금까지도 시금치는 다른 채소보다 더 특별한 취급을 받는다.

담배를 피우는 사람이 더 오래 산다? 55세에서 74세까지 인구를 대상으로 흡연자와 비흡연자를 나눠 20년 뒤 얼마나 생존해 있는지를 조사해 봤더니 흡연자의 생존 비율이 높았다. 놀라운 결과지만 이는 골초들이 일찍 죽었기 때문일 가능성이 크다. 연령대가 높아질수록 흡연자 자체가 많지 않다는 사실이 이를 설명해 준다.

수감자의 나이가 어릴수록 재범 비율이 높다는 통계는 어떨까. 이 때문에 14세 미만은 감옥에 보내서 안 된다는 주장이 있는데 여기에도 통계적 착시현상이 있다. 강력범의 재범률이 높은데 청소년들은 중죄를 저질렀을 때만 감옥에 간다. 나이가 어릴수록 재범을 저지를 수 있는 기간도 길다. 70세 노인 범죄자가 재범을 저지를 확률은 그리 높지 않다.

십이지장궤양이 파라세타몰(진통제)의 부작용이라는 연구결과가 있었다. 그런데 알고 보니 십이지장궤양 환자들이 파라세타몰을 많이 복용하기 때문에 나온 통계적 착시현상이었다. 프탈레이트라는 바닥자재가 천식을 유발한다는 논문도 있었는데 먼지가 줄어드는 대신 먼지 1g에 함유된 프탈레이트 함량이 높아진다는 사실을 간과한 결과였다.

신발 사이즈가 클수록 연봉이 높다는 통계는 어떨까. 남성의 신발 사이즈가 상대적으로 크기 때문에 남녀 구분 없이 통계를 뽑으면 이런 엉뚱한 결론이 나온다. 외국인 노동자가 늘어나니까 범죄가 늘어났다는 주장도 마찬가지다. 수많은 변수들 가운데 어떤 변수를 비교하느냐에 따라 얼마든지 원하는 결론을 끌어낼 수 있다.

윌 로저스 현상이라는 게 있다. “오클라호마 출신 농부들이 일자리를 찾아 캘리포니아로 이주하는 바람에 오클라호마와 캘리포니아 주민 모두의 평균 지능지수가 높아졌다”는 영화배우의 농담인데 이 농부들이 오클라호마에서 상대적으로 머리가 나빴지만 캘리포니아의 평균 지능보다는 높았다는 의미다. 검증할 수는 없지만 통계학적으로 흥미로운 주제다.

인문계 고등학교를 다니던 학생이 학습 진도를 따라잡기 어려워 실업계 고등학교로 전학을 가면 두 학교 모두 평균 성적이 올라간다. 물론 전체 평균은 같다. 반대의 경우도 가능하다. 다이어트 센터에서 체중에 따라 3개 그룹을 나누고 감량 실적에 따라 그룹을 옮길 수 있도록 했더니 2그룹과 3그룹의 평균 체중이 크게 늘어났다. 물론 전체 평균은 같았다.

심슨의 역설이라는 것도 있다. UC버클리에서 여성 지원자들 탈락 비율이 높다는 주장이 제기돼 소송까지 간 적이 있었는데 실제로 남성 지원자는 44%가 합격, 여성 지원자는 35%만 합격했다. 그런데 놀랍게도 남성 합격률이 여성보다 더 높은 학과는 한 군데도 없었다. 전체로는 남성 합격률이 높은데 개별적으로는 여성 합격률이 더 높게 나타났다.

심슨의 역설은 다른 대부분의 학과에서 여성 합격률이 높았는데 여성 지원자가 대거 몰린 한 학과에서 불합격자가 많아 발생한 통계적 착시현상이었다. 합산해서 비교할 경우 통계적 모순이 발생한다는 이야기다. 약품 A와 B를 어린이와 노인 그룹에 똑같이 투여했더니 그룹별로 보면 A가 효능이 높은데 전체적으로 보면 B의 효능이 더 높다는 연구 결과도 있었다.

의료보험(건강보험) 지출이 급격히 늘어나고 있다는 언론 보도도 마찬가지다. (인구 고령화 효과를 감안하더라도) 해마다 물가가 오르니 지출이 늘어나는 건 당연하다. 물가상승률을 감안하거나 국내총생산 대비 비율을 놓고 살펴봐야 정확한 비교가 된다. 변수를 어떻게 잡느냐에 따라 통계는 전혀 다른 결과를 끌어낸다.

국민연금이 2064년 이후에 고갈된다거나 저소득 계층에게 생활보조금을 많이 주면 취업을 포기하는 사람이 늘어난다는 주장이나 G20 정상회의를 한 번하면 450조원의 경제 효과를 기대할 수 있다거나 한미 자유무역협정으로 두 나라가 모두 엄청난 경제 성장을 할 수 있다거나, 이런 주장들을 뒷받침하는 통계들은 얼마든지 통계로 반박할 수 있다.

잘못된 통계와 의도적으로 조작된 통계를 모두 경계할 필요가 있다. 정부예산이나 기업실적, 경제전망 등도 마찬가지다. 기간과 변수를 어떻게 설정하느냐에 따라 전혀 다른 결과를 끌어낼 수 있다. 정치인 지지율은 조사방법과 표본 설정, 질문을 어떻게 바꾸느냐에 따라 10%에서 90%까지 만들어 낼 수 있다.

원인과 결과를 뒤바꿔서 결론을 끌어내거나 절대적 수치와 상대적 수치를 혼동하거나 표본 추출에 실패하거나 통계적 착시현상을 불러일으키는 요인은 숱하게 많다. 흔히 그래프는 숫자보다 더 많은 거짓말을 한다. 강조하고 싶은 부분을 과장하기 때문이다. 숫자를 믿지 마라. 그래프는 더욱 믿지 마라. 그게 이 책의 결론이다.


통계 속 숫자의 거짓말 / 게르트 보스바흐 외 지음 / 강희진 옮김 / 작은책방 펴냄

저작권자 © 미디어오늘 무단전재 및 재배포 금지