당신이 사는 세상은 숫자의 바다. 그 속에서 어떻게 살아갈 것인가?

일상생활 속 매일의 시작과 끝을 대부분의 사람들은 뉴스를 보는데 시간을 할애한다. 그 뉴스내용은 대부분 “올해 경제성장률, 3%전망”, “실업자 수 100만 시대”, “국민의 41%가 중산층?” 같은 수치자료가 많다. 특히 요즘 대선 때는 매일마다 어느 후보의 지지율이 얼마이고 어느 후보와의 격차가 벌어졌다, 크다, 작다 등 수치 자체가 뉴스거리가 되는 경우가 많다. 이렇듯 우리들은 늘 일상 속에서 숫자와 통계수치를 접한다. 그리고 우리가 이것을 귀 기울이는 까닭은, 그것이 숫자와 통계를 바탕으로 한 ‘객관적인 사실’이라는 믿음과 통계로 정리된 정보들은 우리로 하여금 사태의 핵심을 쉽고 빠르게 이해할 수 있도록 해주기 때문이다. 그러나 영국총리 디즈레일리는 이렇게 말했다. “거짓말에는 세 가지가 있다. 평범한 거짓말과 못된 거짓말, 그리고 통계숫자다.” 그 이유는 사실을 밝히기 위해 통계를 사용하는 것이 아니라, 자기의 주장을 뒷받침 하고자 통계를 이용하는 사람들이 있기 때문이다.

그렇다면 그러한 조작의 의도와 목적을 제외하더라도, 숫자들이 조사하는 방법에 따라 달라지는 이유는 무엇이 있을까? 단적인 예를 들어보겠다. 지금은 대선기간이니만큼 대선과 관련된 예시들을 다루겠다.

이 조사들은 분명 같은 목적을 가지고 대한민국의 투표권이 있는 사람들을 대상으로 조사했음은 분명하다. 그럼에도 불구하고 왜 차이가 나는 것이며, 그 차이가 양자 후보간의 지지율 등수를 바꿔놓을만큼 큰 이유는 무었일까?

■ 표본조사의 특징 때문!

통계조사 방법으로 가장 널리 쓰이는 것은 표본조사이다. 대상 집단 전체를 조사하는 전수조사에 대비되는 방법으로, 모집단의 구성원 중 일부를 임의로 추출하여 조사하는 방법이다. 이러한 임의추출 표본조사는 비용과 시간을 줄일 수 있으며, 제품의 품질 검사처럼 상품을 파괴하거나 포장을 뜯어야만 검사가 가능해지는 경우에는 반드시 표본조사를 해야 한다.

조사 대상이 되는 원래 집단을 모집단이라 하며, 모집단의 수에 대한 표본수의 비율을 추출률이라고 한다. 조사의 신뢰도는 추출률이 높을수록 증가하지만 추출률을 지나치게 높이면 표본조사의 장점이 희석되며, 조사 결과를 잘못 해석할 경우에는 추출률이 높더라도 전혀 엉뚱한 결론을 내릴 수 있다. 반대로 충분히 잘 섞은 임의추출 표본은 낮은 추출률을 가지고도 탁월한 정확성을 발휘할 수 있다.

가장 대표적인 예를 들어보자. 1963년 미국의 대통령 선거를 앞두고 대중잡지 <리터러리 다이제스트>와 여론조사 기관인 갤럽은 각각 설문조사를 실시했다. 이미 여러 차례 선거예측에서 탁월한 정확성을 발휘했던 <리터러리 다이제스트>는 무려 1,000만명을 표본추출 했으며, 응답자는 240만 명이나 되었다. 반면 갤럽은 5만 명을 표본조사 했다. 조사 결과, 전자는 공화당 랜던 후보의 당선을 확신했으며, 후자는 민주당 루스벨트가 56퍼센트의 지지율로 당선할 것이라고 발표했다. 결과는 갤럽의 승리였다. 루스벨트는 62퍼센트의 압도적인 지지로 대통령에 당선되었다.

<리터러리 다이제스트>는 왜 예측에 실패했을까? 그들은 표본을 대부분 잡지의 정기구독자들 가운데서 추출했으며, 나머지는 자동차 등록부, 사교클럽인명부, 전화번호부에서 임의로 추출했다. 그런데 이 잡지의 정기구독자는 상당수가 중산층이었으며, 1936년대에 자동차와 전화를 보유하고 있으며 사교클럽의 회원인 사람들은 결코 민주당을 지지하는 가난한 사람들은 아니었을 것이다. 이것은 왜곡된 표본추출의 대표적인 실패 사례이다.

이렇게 표본추출은 추출의 방법에 따라 오류가 발생할 수 있고 그러한 오류를 이용한다면 자신이 원하는 결과를 충분히 만들어 낼 수 있다. 위의 사례에서 만약 <리터러리 다이제스트>가 일반시민에게 미치는 영향이 아주 큰 미디어였고, 잡지사가 공화당을 지지하는 집단이었다고 하면 표본추출을 역이용하여 공화당을 은연중에 지지할 수 있었을 것이다.

그렇다면 이번 대선이 끝났다고 해보자. 현재, 다자 후보중 한명이었던 안철수 대통령후보가 사퇴를 선언하여 야당의 단일화가 이루어진 가운데, 사람들은 안철수 후보의 지지자들 가운데에서 기성 정치에 대한 반감으로 인해 이번 대선에서 무효표를 던지거나 아예 투표권을 포기하는 사람들이 많아질 수 있음에 주목하고 있다. 이런 상황에서 양자후보 중 한명이 대통령이 나온다고 하면 우리가 주목해야 할 것은 무엇일까? 실제로 우리들 중 몇명이 그들을 뽑은 것일까?

■ 비율의 문제!

선거

전체유권자수

투표자수

투표율

당선자

득표수

득표율

17대

37653518

23732854

63.03%

이명박

11492389

48.42%

16대

34991529

24784963

70.83%

노무현

12014277

48.47%

15대

32290416

26042633

80.65%

김대중

10326275

39.65%

14대

28676547

24095170

84.02%

김영삼

9977332

41.41%

13대

25127158

23066419

91.80%

노태우

8282738

35.91%

(출처: 정남구,『통계가 전하는 거짓말』, 서울: 시대의창, 2008.)

지난 17대 대통령선거에서 이명박 대통령은 48.42퍼센트의 득표율을 얻었고 표에 나와 있지는 않지만 2위 정동영 후보는 26퍼센트를 받아 무려 22.4퍼센트 포인트나 되는 득표율 격차로 당선되었다. 지난 5회의 대선 중 가장 큰 격차로 당선되었기에 당연히 언론에서는 이 격차에 주목하였다.

(출처: 정남구,『통계가 전하는 거짓말』, 서울: 시대의창, 2008.)

그러나 위쪽의 그림을 보면 전체 유권자수 대비 득표수의 비율을 따져보면 이명박 대통령이 얻은 표는 30.5퍼센트에 불과하다는 것을 알 수 있다. 즉, 이명박 대통력의 득표율은 투표자 수를 분모로 계산하면 48.4퍼센트에 이르지만, 전체 유권자 수를 분모로 계산하면 30.5퍼센트로 무려 17.9퍼센트 포인트나 차이가 난다. 이는 5번의 선거에서 당선자가 얻은 득표비율 가운데 가장 낮은 것이다. 이렇게 분모를 무엇으로 삼느냐에 따라 비율을 나타내는 수치는 달라진다. 분모는 ‘비율’로 나타내는 수치를 흔든다고 할 수 있다.

이렇게 통계수치들은 이용되는 목적에 관계없이 통계를 이끌어내는 과정의 특성 때문에 달라질수 밖에 없다. 또한 우리가 통계수치에 대해 자세히 못보고 지나가는 면들 때문에 진짜 중요한 사실들을 놓칠때가 많다. 그렇다면 우리는 어떻게 해야하는가?

“통계적 사고는 어렵다.” 노벨상 수상자인 다니엘 카너먼은 2009년 뉴욕시에 모인 수학자들에게 이렇게 말했다. 사실 통계적 사고는 그 자체가 본질적으로 어려운 것은 아니다. 하지만 올바른 추론을 하는데 기본이라고 할 수 있는 이 사고방식으로부터 우리의 뇌는 자꾸만 도망가려고 발버둥 치고 있다. 가장 나쁜 것은 숫자를 대할 때 지나친 확신을 가진다는 것이다. 다양한 가능성을 염두에 두지 않고 오로지 숫자 하나만을 믿는 것은 우리가 숫자에 쉽게 넘어가게 되는 과정이다.

통계적 사고는 일상의 사고와는 완전히 다르다. 이는 학습된 기술이다. 이러한 기술을 완전히 숙지하기 위해서는 긍정적인 사례를 살펴보며 어떻게 그런 일을 해낼 수 있었는가를 이해하는 것이 좋은 방법이다. 무언가 원하는 대상을 세고자 할 때, 그 대상의 정의를 지나치게 명확하게 내리게 되면 현실과 맞지 않는 프레임에 그 대상을 억지로 끼워 맞추는 꼴이 될 수도 있다. 우리는 아주 간단한 원칙을 세우면 된다. 대상을 정의하는 데는 한계가 있을 수 있다는 점을 항상 인식하자. 그리고 우리가 내린 정의에 문제가 없는지 살펴본다면 통계의 오류를 쉽게 발견할 수 있을 것이다.

숫자가 지배하는 세상에서 완전하고 온건한 숫자로 세상을 봐야한다.

전체목록

당신이 사는 세상은 숫자의 바다. 그 속에서 어떻게 살아갈 것인가?

생활/노하우베스트

명예의 전당

추천 많은 톡

댓글 많은 톡

새로운 베플

공감많은 뉴스 시사

공유하기

뉴스 플러스