전 세계인 3만여명이 참여한 유튜브 알고리즘 추적 실험 결과가 공개됐다. 이번 실험을 통해 유튜브 알고리즘의 ‘폐해’는 물론 콘텐츠 심의 과정에서 ‘비 영어권’에 대한 차별적인 대응 정황이 드러났다.

모질라재단은 전세계 지원자 3만7380여명의 유튜브 이용 기록을 추적하는 크라우드 소싱 방식으로 지난해 7월부터 지난 5월까지 10개월 동안 실험을 진행했다. 참가자들은 성적인 내용을 담은 영상, 허위 주장을 담은 영상 등 유감스러운(regrettable) 영상을 발견하면 이를 제보하고, 모질라재단은 해당 영상을 어떻게 보게 됐는지를 추적했다.

연구 결과 이용자들이 유감스러운 영상이라고 보고한 영상 가운데 71%는 특정한 키워드를 검색한 결과에 뜬 것이 아니라 유튜브가 자동으로 추천해준 영상이었다. 문제가 있는 영상을 이용자가 스스로 발견하기 보다는 유튜브가 자동으로 추천해주는 비율이 높다는 의미다.  유튜브는 토이스토리 애니메이션을 성인 버전으로 바꾼 영상, 인종 차별 발언이 담긴 영상 등을 추천했다.

▲ 유튜브 스마트폰 화면. 사진=gettyimages
▲ 유튜브 스마트폰 화면. 사진=gettyimages

유튜브는 6월1일 기준 참가자가 제보한 영상 가운데 189건을 삭제했다. 모질라재단에 따르면 이들 영상의 전체 조회수는 1억6000만회에 달했으며, 평균 5개월 동안 게시된 후 삭제됐다. 이는 유튜브 스스로도 커뮤니티 가이드라인을 위반하는 영상들까지도 추천했음을 드러낸다. 

모질라재단은 “알고리즘이 문제”라며 “여러 경우에 유튜브는 커뮤니티 가이드(유튜브 자체 심의규정)를 위반하거나 이전에 시청한 동영상과 관련이 없는 동영상을 추천했다”고 지적했다.

“영어 쓰지 않는 사람들 가장 큰 타격”

모질라재단 보고서 가운데 주목할 대목은 ‘언어’에 따른 대응 차이가 감지된 점이다. 

조사 결과 유감스러운 영상 비율은 영어를 기본적인 언어로 사용하지 않는 국가에서 60% 더 높게 나타났다. 특히 팬데믹과 관련한 문제적 정보의 비율이 높았다. 유튜브는 투명성 보고서를 통해 전세계적으로 동일한 커뮤니티 가이드를 적용한다고 강조해왔다. 하지만 모질라재단은 “불행히도 플랫폼 정책은 세계 여러 지역에서 매우 다르게 시행된다”고 반박했다.

왜일까. 모질라재단은 그 이유로 “정책 위반을 감지하고 동영상을 추천하는 데 사용되는 알고리즘이 언어별 기계 학습 모델에 의존하기 때문”이라며 “이는 기업이 다양한 언어 및 국가 컨텍스트의 데이터를 사용하여 알고리즘을 훈련해야 함을 의미한다. 그러나 많은 플랫폼은 영어 데이터에 대한 교육을 우선시하므로 이러한 맥락에서 (영어에서만) 더 나은 성능을 보인다”고 지적했다.

▲ 모질라재단 보고서 갈무리.
▲ 유튜브가 추천한 문제적 영상 갈무리. 애니메이션을 성인 버전으로 바꾸는 내용과 인종차별적 내용을 담은 영상이다. 자료=모질라재단 보고서

모질라재단은 영어권 중심의 설계가 코로나19 확산 국면에서 “건강 정보와 같은 중요 정보에 접근할 때 이런 차이는 재앙이 될 수 있다”고 우려했다. 코로나19 관련 음모론을 부추기는 영상의 경우 영어권에는 적극 조치를 취하는 반면 비영어권에서는 방치할 수 있기 때문이다. 

모질라재단은 “어떤 언어를 사용하는가가 온라인에서 보호되는지 여부를 가르도록 해서는 안된다. 유튜브와 같은 플랫폼은 영어권 국가에 거주하고 영어를 사용하는 사람뿐만 아니라 플랫폼을 사용하는 모든 사람에게 책임을 갖고 있다”고 지적했다.

유튜브 알고리즘 다른 분석은?

외국에선 유튜브 알고리즘이 수익을 위해 자극적인 영상을 적극적으로 추천하고, 이 과정에서 문제가 있는 영상을 적극 보여준다는 연구와 보도가 지속적으로 나왔다.

월스트리트저널 분석에 따르면 유튜브는 추천 알고리즘으로 이용자들이 체류하는 시간을 70% 이상 늘리고 있는데 이를 위해 개개인의 성향에 맞는 콘텐츠는 내용을 따지지 않고 적극적으로 추천하고, 음모론적인 내용까지도 빈번하게 추천했다. 워싱턴포스트는 극단주의자들이 유튜브 추천 알고리즘을 악용해 자신들의 사고를 유튜브 이용자들에게 교묘히 심었다고 보도했다. 편향되지 않은 영상을 미끼로 활용한 다음 점차 수위를 높이는 영상이 추천되도록 해 사람들이 극단적인 내용에 빠져들게 한 것이다.

유튜브의 전 엔지니어인 기욤 샬로는 유튜브 추천 알고리즘의 문제점을 가디언에 폭로했다. 그는 “체류시간에만 집중된 유튜브 추천 시스템은 필터버블과 페이크뉴스를 발생시킬 수밖에 없었다”며 “유튜브 동영상의 품질과 다양성 개선을 위한 알고리즘 수정방안을 제시했지만 채택되지 않았다”고 했다.

▲ 디자인=이우림 기자
▲ 디자인=이우림 기자

다만 국내에서는 예상보다 알고리즘으로 인한 편향 콘텐츠 추천이 적을 수 있다는 연구도 있다. 2019년 한국언론진흥재단의 ‘유튜브 추천 알고리즘과 저널리즘’(책임연구 오세욱 선임연구위원) 연구는 33만4425개의 추천 목록을 분석해 유튜브 추천 알고리즘의 경향을 파악했다. 

연구 결과 “개별 키워드의 이념적 성향에 따른 추천 결과에 있어서 유의미한 차이는 발견하지 못했다”며 “유튜브 추천 알고리즘이 한국어 환경에서는 생각보다 단순하게 작동하고 있다는 느낌을 받았다”고 했다. 특정한 소재를 기반으로 한 추천은 이뤄지지만, 특정 성향의 영상을 적극적으로 보여주진 않는다는 의미다. 이는 알고리즘 심의 뿐 아니라 추천에 있어서도 영어 중심으로 설계돼 있기에 비교적 정밀한 추천까지는 이뤄지지 못한다는 것으로 해석 가능하다.

유튜브 입장은?

미디어오늘은 모질라재단 연구에 대한 입장을 구글코리아에 물었다. 구글코리아는 유튜브측 입장을 전했다.

유튜브는 “유튜브는 추천 시스템에 대한 연구에 언제나 열려있으며, 외부 연구자들이 유튜브 시스템을 연구할 수 있는 더 많은 방법을 찾고 있다. 그러나 이 보고서의 경우 ‘유감(regretted)’이라는 표현의 의미를 정의하지 않았을 뿐 아니라 전체 데이터가 아닌 일부 몇개의 동영상을 대상으로 했다는 점에서 어떠한 결론을 내리기는 어렵다”고 지적했다.

유튜브는 “유튜브가 공개하고 있는 데이터에 따르면 정책 위반 경계선상에 있는 추천 동영상의 소비는 1% 미만이며 (‘위반 조회율’은) 전체 동영상 조회수의 단 0.16-0.18%에 불과하다”며 “지난해에만 30번 이상 추천 시스템을 변경했으며, 이용자의 서비스 경험을 향상시키기 위해 항상 노력하고 있다. 유튜브는 그간 문제적 콘텐츠에 대응하기 위해 여러 정책을 발표해왔다”고 했다. 

▲ 유튜브 '위반 조회율' 추이
▲ 유튜브 '위반 조회율' 추이

‘위반 조회율’은 유튜브의 심의 규정이라고 할 수 있는 커뮤니티 가이드를 위반해 삭제된 동영상 조회수가 전체 조회수 대비 어느 정도 비율인지 샘플 조사를 통해 추정한 데이터다. 유튜브에 따르면 ‘위반 조회율’은 최초 조사를 시작한 2017년 4분기 0.72%에서 전반적으로 감소하는 추세다.

유튜브는 투명성 보고서를 통해 분기별로 전체적인 심의 내역도 공개하고 있다. ‘유튜브 작동원리’ 사이트를 통해 커뮤니티 가이드  기준, 콘텐츠 추천 원리 등을 세분화해 대중적인 언어로 공개하고 있기도 하다.

하지만 보고서에서 지적한 대목 가운데 하나인 ‘언어 측면’에서 유튜브의 입장은 소극적이다. 유튜브는 구글 콘텐츠 심의 인력을 1만 명에서 2만 명으로 늘렸다고 발표했지만 정작 언어·국가별로 심의하는 인력이 얼마나 되는지, 국가별 위반조회율은 어느 정도인지 일절 공개하지 않고 있다.

모질라재단은 현재와 같은 유튜브의 정보 공개로는 부족하다는 입장이다. 모질라재단은 유튜브의 추천시스템을 감시할 수 있도록 추천 시스템의 작동 방식에 대한 정보와 시간 경과에 따른 문제 및 진행 상황 등에 대한 충분한 통찰을 제공하는 투명성 보고서를 게시할 것 등을 요구했다.

[참고자료]

모질라재단 보고서 원문
미디어고토사 번역문
유튜브 커뮤니티 가이드

저작권자 © 미디어오늘 무단전재 및 재배포 금지