언론의 사명이 권력의 감시와 비판에 있다는 건 누구나 동의한다. 오세욱 한국언론진흥재단 연구위원은 묻는다. 지금 진짜 권력은 누구인가.

“만약 포털의 검색 기능이 없어지면 하루 정도 고통을 겪을 겁니다. 마이크로소프트 오피스가 없어지면 일주일 정도 고통을 겪겠죠. 그런데 SAP의 전사적자원관리(ERP) 시스템이 없어지면 3년 정도 물류 작동이 멈출 거라고 합니다. 데이터가 새로운 권력이 되는 세상입니다.”

오세욱 연구위원은 8월22일 서강대학교 가브리엘관에서 열린 이노베이션 저널리즘 스쿨 강의에서 “권력에 대한 감시와 비판이 언론의 사명이라면 테크놀로지의 권력화 현상을 감시하고 비판하는 것도 언론의 중요한 역할”이라고 강조했다.

 

오세욱 한국언론진흥재단 연구위원.

 

우리는 일상 생활에서 알게 모르게 미디어의 영향을 받는다. 단순히 영향을 미치는 정도를 넘어 일상 생활을 재구조화하는 단계에 이르고 있다는 게 오 연구위원의 문제의식이다. 대부분의 미디어가 소프트웨어화하고 있고 소프트웨어화한 미디어의 핵심 작동 원리가 바로 알고리즘이다. 검색을 하고, 관심 있는 뉴스를 보고, 여행지 숙소를 예약하고, 이동을 위해 차량을 호출하고, 물건을 구매하고, 관심사가 비슷한 사람들과 교류하는 등 대부분의 커뮤니케이션 행위가 미디어 소프트웨어로 구현되고 있다. 우리 모두가 알게 모르게 알고리즘의 논리와 통제에 따르고 있다는 이야기다.

구글은 자신들의 툴을 어떻게 활용하는지를 알려주지만 그런 시스템이 어떻게 작동하는지 알려주지 않는다. 독점적인 플랫폼 기업들이 데이터를 최대한 공개하도록 압박해야 한다는 게 오 연구위원의 주장이다.

“포털에서 ‘펜션’을 검색하면 짜증나시죠. 광고가 맨 위에 주루룩 뜹니다. 검색의 중립성은 어디갔냐고 푸념하는 사람도 있지만 대부분은 포털도 기업이니 먹고 살려고 그러나 보다 하게 되죠. 문제는 왜 이런 검색결과가 나오는지, 왜 이렇게 뉴스가 배열됐는지, 왜 숙소의 가격이 다른지, 물건 판매의 가격이 사람에 따라 다른지, 누군가의 글은 왜 나에게 보이지 않는지 등의 의문이 제기되고 있지만, 명확한 설명은 제공되지 않고 있다는 겁니다. 알고리즘 설계자들은 알고리즘이 가치중립적이기 때문에 사람보다 공정하다고 주장하지만 공정성과 투명성에 대한 논란이 끊이지 않고 있죠.”

알고리즘은 최초 설계 후 계속해서 최적화 과정을 거치면서 사람과 비슷한 성향의 결과물을 만들어내게 된다. 알고리즘이 공정하지 않은 것이 아니라, 알고리즘이 학습하는 데이터, 즉 사람이 만들어낸 데이터들이 공정하지 않기 때문이라는 반론도 제기된다.

모든 것을 데이터화할 수 있지만 드러나지 않는 것까지 데이터화되는 것은 아니고 알고리즘이 숫자를 처리하지만 드러나지 않은 것들은 처리하지 못한다. 오 연구위원이 우리의 일상 생활을 지배하는 알고리즘을 이해하기 어렵다는 이유로 방치해서는 안 된다고 주장하는 이유다.

 

구글에서 ‘의사’를 검색하면 남성의 이미지가 주루룩 뜬다. ‘간호사’를 입력하면 여성 간호가가 뜬다. 실제로 현실이 그렇지 않느냐고 하겠지만 알고리즘이 사람들의 편향을 강화하고 고착화할 가능성을 경계해야 한다.

위키피디아에서도 여성을 설명하기 위해 남편이라는 단어가 등장하는 비율이 그 반대의 경우보다 훨씬 많다. 여성은 다른 남성으로 링크가 걸리지만 그 반대의 경우는 많지 않다. 여성은 누구의 남편이라는 사실이 중요한 정보지만 남성은 그렇지 않다는 이야기다. 결혼이라는 단어에 대한 링크가 여성으로 걸리는 경우가 남성 보다 4배나 많은 것으로 나타났다.

얼굴 인식 기술이 보급되면서 중국에서는 공항에서 자동으로 연결 항공편 안내를 문자 메시지로 띄워주는 서비스를 하고 있다. 섬뜩하기도 하지만 편리한 부분도 있고 보안을 위해 이 정도는 필요한 것 아니냐고 생각하는 사람도 있을 수 있다. 문제는 이런 기술이 완벽하지 않다는 것이다.

 

미국에서는 아마존의 얼굴 인식 소프트웨어를 경찰이 활용하는 방안을 검토하고 있는데 흑인 여성을 고릴라로 인식하는 경우도 있었다. 오 연구위원은 “완전하지 않은 기술을 모두에게 적용하는 것은 매우 위험하다”고 지적했다. 실제로 미국의 연구에서는 밝은 색의 피부는 비교적 정확했지만 어두운 피부를 가진 사람은 정확도가 떨어졌다. 어두운 피부를 가진 여성은 잘못 인식하는 비율이 30%나 됐다.

“이런 일이 있을 수도 있어요. 경찰이 와서 일단 잡아가는데 무슨 일로 잡혀가는지 몰라요. 수배된 사람과 얼굴이 비슷하다는 이유로. 이런 일이 실제로 벌어지고 있습니다. 사람이 이런 일을 벌였다면 담당자가 징계를 받겠죠. 그래서 확인을 하고 또 하겠죠. 그런데 기계가 이런 실수를 했다면 기계가 틀리겠어? 하면서 사람을 의심합니다.”

에어비앤비도 알고리즘의 공정성 논란이 있었다. 비슷한 지역과 비슷한 규모의 방이더라도 주인이 흑인이 아닐 경우 흑인이 주인인 경우보다 평균적으로 12% 높게 숙박비가 책정되고 있다는 분석이 있었다. 고객의 불만이 더 높게 나온다는 통계적 분석에 따른 것이다. 오 연구위원에 따르면 심지어 한국 사람들도 같은 조건이라면 백인이 아니라는 이유로 숙박비가 높게 책정될 수 있다.

 

차량 공유 서비스 우버도 흑인들이 자주 쓰는 이름의 이용자가 예약을 취소하는 경우가 백인보다 두 배 이상 높다는 황당무계한 통계를 알고리즘에 반영하고 있다. 시애틀에서는 흑인이 차를 기다리는 시간이 35% 이상 늘어났다는 분석도 있었다. 비슷한 이유로 여성들이 차를 좀 더 오래 기다려야 하고 비용도 비싸게 내는 경우가 많다.

사람의 고정적인 편견이 학습되면서 알고리즘에 드러나는 것이다. 미국 법원들이 형량을 선고하는데 참고하는 알고리즘도 비슷한 문제를 안고 있다. 백인 피고인들이 흑인 피고인들보다 좀 더 위험이 낮은 것으로 잘못 판정하는 경우가 많고 실제로 이런 알고리즘 탓에 미래의 범죄 가능성이 높은 것으로 잘못 낙인 찍히는 흑인 피고인들이 백인의 거의 두 배 수준에 이른다. 알고리즘의 판단 결과를 받아볼 수는 있지만 어떤 근거로 계량화하는지 구체적인 알고리즘은 전혀 공개되지 않는다.

한국에서는 아직 사례가 없지만 이용자 쿠키 등을 분석해 맞춤형 가격을 제공하는 온라인 쇼핑몰도 있다. 항공권 예약 사이트처럼 구매 의사와 성향에 따라 가격을 다르게 제공한다는 이야기다. 역시 알고리즘의 판단에 따라 누군가가 좀 더 비싼 가격을 지불하는 불이익을 받게 될 수 있다.

미국의 대부업체인 제스트파이낸스는 알고리즘을 활용해 대출 여부를 판단한다. 소득과 지출, 도시별 생활비 등을 복합적으로 살펴봐야 하는데, 여전히 신용도와 연체 가능성을 평가하기 어렵다고 판단했기 때문이다. 이 회사의 알고리즘은 대출 신청서를 적을 때 이름을 소문자로 쓰는 사람보다 대문자로만 쓰는 사람들이 신용도가 더 낮다는 통계적 분석을 근거로 대문자로 이름을 쓰는 사람들에게 대출 이자를 높게 책정했다.

알고리즘을 악용하는 사례도 늘고 있다. 에어비앤비가 수익성이 높고 세금을 회피할 수 있다는 사실이 알려지면서 일부 임대 사업자들이 일반 개인처럼 에어비앤비에 등록하는 경우가 늘고 있는데 알고리즘이 이를 판별하지 못하고 있다. 일부 지역에서는 에어비앤비가 부동산 가격 상승에 영향을 미치는 것으로 확인돼 조사를 받고 있는데 에어비앤비 직원이 개입돼 있다는 의심을 받고 있기도 하다.

채용 알고리즘은 추천이 아니라 배제(rejection)가 문제가 된다. 추천까지는 제대로 작동하는데 특정 조건의 지원자를 배제할 때 편향이 드러나는 것으로 나타났다. 온라인 데이팅 사이트에서 가입조차 거부되는 경우도 있다. 이를 테면 몰몬계에 트럭 운전사면 가입이 안 된다는 식이다.

 

기사 배열과 필터 버블 역시 알고리즘의 문제로 접근할 수 있다. 뉴스타파 기사가 단독 기사를 냈는데 정작 네이버 클러스트에서는 관련 기사로 묶이고 인용해서 쓴 기사가 최상단으로 올라가는 일이 벌어진다.

“사람이 편집한다면 이렇게 편집하지 않았겠죠.” 오 연구위원은 이런 문제를 너무 당연하게 받아들이고 있는 것 아니냐고 반문했다.

“문제의 핵심은 기계학습입니다. 기계가 습득한 지식이 통제 불가능한 영역으로 가고 있다는 게 문제입니다. 사람은 내가 습득한 지식이 틀릴 수 있다는 가정으로 시작하는데 기계는 모든 틀릴 수 있는 가능성을 배제했기 때문에 틀릴 수 없다는 가정을 전제로 합니다. 그렇지 않으면 작동하지 않으니까요. 설계한 사람이 의도하지는 않았을 것입니다. 그렇지만 결과는 치명적입니다. 캡틴 아메리카 윈터 솔저에 나오는 아르민 졸라(Armin Zola) 박사처럼 나와 내가 속한 집단의 안전을 위해서 과거 데이터를 기반으로 미래의 위협을 제거하겠다는 극단적인 전체주의로 변질될 수도 있습니다.”

오 연구위원에 따르면 위키피디아에도 알고리즘 로봇이 있는데 독도라는 이름을 두고 한국봇과 일본봇이 계속 싸운다. 기계가 스스로 만들어낸 지식을 기억하기 시작하는 것이다. 기계는 자신이 학습한 지식에 절대적으로 의존할 수밖에 없다. 사람의 기억은 제1기억(유전적 기억)과 제2기억(후생적 기억), 제3기억(외재 기억)으로 구성되는데 기계학습은 제3기억의 양과 규모가 인간의 접근 범위를 넘어서고 있다. 기계의 판단에 따라 인간의 행위를 통제하는 시대로 진입하고 있는 것이다.

이세돌과 알파고의 바둑 대국은 인간과 알고리즘이 공존하는 시대가 어떤 시대가 될 것인가를 보여준다. 복기를 하려고 해도 상대가 없고, 인간의 바둑 이론으로 알파고의 수를 설명할 수도 없다. 언어를 공유할 수 없기 때문에 이해하는 것조차 불가능하다.

오 연구위원은 “데이터 저널리즘에서 가장 중요한 것은 어떻게 수집했고 어떻게 가공했고 처리했는지를 밝히는 것”이라고 강조했다. 빅 데이터의 정의가 모호하지만 흔히 600만줄 이상이면 빅 데이터라고 부르는데 빅 데이터를 선택하는 것부터가 주관적인 것이고 빅 데이터라서 객관적이라고 볼 수는 없다는 이야기다.

“완벽한 것처럼 보이는 수학적 모델과 타당한 실험을 거친 결과라고 하더라도 그 결과를 이해하려고 하는 순간 해석의 과정이 시작됩니다. 모든 숫자들은 중립적이지 않고 주관적인 해석 없이는 관계를 추정할 수 없죠. 더 큰 데이터가 항상 더 좋은 데이터가 아닙니다.”

이를 테면 트위터 이용자가 모든 사람을 대표하지 않으며 ‘사람’과 ‘트위터 이용자’를 동의어로 간주하는 것은 심각한 오류를 만들 수 있다. 2~3년 전까지만 해도 트위터 분석으로 여론을 분석하려는 시도가 많았지만 이용자의 유형을 살펴야 한다. 적극적인 참여자와 단순 청취자가 있고 기계가 작성하는 봇 계정도 많다.

오 연구위원이 네이버 가장 많이 보는 기사의 댓글을 긁어봤더니 전체 기사를 보는 사람 대비 댓글을 다는 사람 비율이 5% 미만인 것으로 나타났다. 댓글을 가장 열심히 달고 있는 연령대와 성별은 50대 남성이었다. 한때 세상을 떠들썩했던 드루킹 댓글 논란 역시 특정 집단에서만 작동하는 댓글의 영향력을 과대평가하는 것 아니냐는 지적이 나올 수 있다.

선의를 의심해서가 아니라, 데이터가 갖고 있는 편견과 비의도적 결과가 미치는 부정적 영향을 방지하기 위한 감시가 필요하다는 게 오 연구위원의 주장이다. 광범위한 데이터를 집적한 테크놀로지 기업은 우리가 알 수 없는 방향으로 진화해 나가고 있다. 결국 데이터가 없으면 말을 하지 말라는 식으로 인간을 위협해 나갈 것이라는 이야기다.

“빅데이터는 이제까지의 과학이 설명하지 못한 현상을 설명해낼 수 있다고 주장하는데, 전통적인 사회과학과 저널리즘은 이런 상황에서 무엇을 제시할 수 있을 것인가에 대한 연구와 관심이 필요합니다. 그 시작은 질문이죠. 인공지능이 자신의 일을 설명하는데 인간보다 더 서툴다면, 그들을 신뢰해서는 안 됩니다. 단순히 빠르고 편리하고 안전하다는 이유로 알고리즘에 우리의 미래를 맡기는 건 매우 위험합니다.”

알고리즘은 기본적으로 효율적이라서 95%가 효율적이라면 5%를 배제한다. 온라인 데이팅 사이트에서 가입이 거부되는 사람이 있는 것처럼, 단순히 누군가와 닮았다는 이유로 경찰에 끌려갈 수도 있고 알 수 없는 이유로 알고리즘의 판단에 따라 대출이 거부당할 수도 있다. 누군가가 알고리즘의 희생양이 될 수 있다면 다음에는 그게 당신이 될 수도 있다.

만드는 사람도 이해할 수 없는 알고리즘의 판단과 결정 과정을 인간의 영역에서 검토하고 그 결과가 정당한지 끊임없이 질문하고 비판적으로 분석해야 한다는 이야기다. 오 연구위원은 “권력에 대한 감시와 비판이 언론의 사명이라면 테크놀로지의 권력화 현상을 감시하고 비판하는 것도 언론의 중요한 역할”이라고 강조했다.

오 연구위원은 알고리즘 감시의 구체적인 접근 방법과 관련해 “자동화된 의사결정이 어딘지부터 목록화하는 작업이 필요하다”고 설명했다. 이를 테면 네이버와 다음에 사람이 편집하는 영역과 기계가 편집하는 영역을 밝히라고 요구하고, 밝히지 않는다면 시민들의 제보를 받아 하나씩 구분하는 작업을 시작해야 한다는 이야기다. “영업 노하우라는 이유로 알고리즘의 구조를 공개하지 않을 가능성이 크지만 이용자 입장에서는 어디까지가 알고리즘의 영역인지 정도는 알 권리가 있습니다. 그래야 감시를 할 수 있고 그래야 대응을 할 수 있으니까요. 언론이 그 역할을 해야 합니다.”

저작권자 © 미디어오늘 무단전재 및 재배포 금지