[이송희일의 견문발검] 챗GPT와 디지털 식민지

2021년 케냐의 노동자들은 9시간 교대 근무 환경 속에서 인터넷의 가장 어두운 곳으로부터 추출한 수만 개의 조각난 텍스트들을 샅샅이 뒤져야 했다. 대부분이 아동 성적 학대, 수간, 살인, 자살, 고문, 자해, 근친상간 등의 폭력적인 내용들. 한 노동자는 개와 성관계를 갖는 남성에 대한 그래픽 묘사를 읽은 후 계속 환각과 트라우마에 시달렸다. 타임지와의 인터뷰에서 “그건 고문이었다”고 토로했다.

이들은 케냐의 텍스트 라벨링 노동자들이다. 이렇게 폭력적인 텍스트에 노출된 채 라벨링 작업을 하며 받는 임금은 고작 시간당 1.3달러에서 최대 2달러였다. 2023년 1월 타임지는 챗GPT의 숨겨진 이면을 폭로했다. 케냐의 저소득층을 저임금으로 고용해 챗GPT의 안전 메커니즘을 위해 인터넷 쓰레기장을 뒤지게 했다는 것이다. 미국의 한 인터넷 매체는 일론 머스크가 챗GPT를 위해 케냐인들을 ‘AI 기니피그’로 만들었다고까지 비판의 목소리를 높였다.

챗GPT의 이전 버전인 GPT-3은 학습 능력과 인상적인 문장 연결 능력을 보여줬지만, 성차별적이고 인종차별적인 문장을 구사하는 결함이 존재했다. 개발사 오픈AI(OpenAI)는 이를 보정하기 위해 아웃소싱 기업인 사마(Sama)와 계약을 체결하고 인터넷 지하 세계에서 채굴한 어둡고 폭력적인 텍스트들을 건넸다. 샌프란시스코에 본사를 두고 있는 사마는 구글, 메타, 마이크로소프트와 같은 실리콘밸리 기업들을 위해 케냐, 우간다, 인도 등으로 데이터 라벨링 작업을 아웃소싱하는 세계 최대의 기업이다. 수십만 명의 남반구 노동자들에게 디지털 기술을 전수하고 인공지능의 윤리성을 고양시키는 기업이라고 자찬하지만, 실상은 단조롭고 해로운 업무를 도맡길 남쪽의 저렴한 노동력을 쫓는다. 케냐 사건이 불거지자 사마는 2022년 2월 오픈AI와 계약을 재빨리 종료했다. 하지만 이 사건은 인공지능 뒤편에 감춰진 남반구 노동자들의 얼굴을 전면에 드러냈다. 또한 인공지능의 알고리즘이 완전히 자체적으로 작동할 수 있다는 환상을 널리 유포해왔던 빅 테크의 전략 이면에 사실은 저렴한 노동 착취가 존재함을 적시해준다.

▲타임지의 기사 ‘오픈AI가 챗GPT의 유해성을 완화하기 위해 케냐 노동자들을 시간당 2$ 미만에 활용했다’ 웹페이지 갈무리

빅 테크 자본과 실리콘벨리는 물론 사마, 마이티AI(Mighty AI), 스케일AI(Scale AI)와 같은 데이터 라벨링 기업들이 미국에 위치하는 반면, 실제 작업은 사하라 이남 아프리카, 동남아시아, 베네수엘라, 시리아 난민에 이르기까지 주로 남반구에 외주화되어 있다. 텍스트를 분류하고, 동영상에 태그를 붙이고, 사진에 주석을 달고, 오디오를 텍스트로 변환하는 값싸고 눈에 띄지 않는 이 ‘유령 노동’을 이렇게 남반구에 아웃소싱하는 이유는 간단하다. 노동력을 값싸게 이용하고, 근로 조건에 대한 감시를 피할 수 있으며, 기술 유출의 리스크를 방지할 수 있기 때문이다. 데이터 라벨러는 ‘노동자’가 아니라 ‘독립계약자’로 간주되기 때문에 최저임금도 적용되지 않고 관련 규제법도 전무하다. 한 연구에 따르면, 전 세계 데이터 라벨러의 94%가 일방적으로 일이 끊기거나 임금을 받지 못한 경험이 있다. 요컨대 ‘디지털 식민지’가 구축되고 있는 것이다. 16세기 이래 남반구의 자원과 노동을 수탈하면서 부를 축적했던 것과 마찬가지로, 이번엔 디지털 파이프라인을 박아 저렴한 노동과 정신적 고통을 빨아들이는 것이다.

이미 2022년 5월에도 사마와 메타는 케냐 나이로비의 한 콘텐츠 조정자로부터 기소된 바 있는데 강제 노동, 인신매매, 노조 파괴가 그 이유다. 앞서 그는 참수와 아동학대 동영상에 대한 정신적 고통을 호소했었다. 이렇게 케냐 슬럼가의 노동자들은 살인, 강간, 신체 절단 등이 포함된 그래픽 이미지와 영상, 텍스트를 지속적으로 보다가 외상 후 스트레스 장애(PTSD) 진단을 받기도 한다.

케냐의 가난한 사람들이 유령 노동을 하며 시간당 고작 1.5달러를 버는 동안, 사마는 2021년 약 1900만 달러의 수익을 벌어들였다. 인공지능과 머신러닝 시장이 확대됨에 따라 데이터 라벨링 일자리도 함께 증가하고 있다. 미국 시장조사업체 그래드뷰 리서치(Grand View Research) 보고서에 따르면, 글로벌 데이터 수집 및 라벨링 시장 규모는 2030년까지 127억 5000만 달러에 이를 것으로 예상된다. 북반구 시민들이 챗GPT처럼 학습 능력을 갖춘 새로운 마법 도구에 환호하는 동안, 남반구의 유령 노동자들과 보호 받지 못하는 긱 노동자들이 그것이 제대로 작동하도록 디지털 인형에 눈코입을 붙이고 있는 것이다.

2018년부터 수십만 명의 베네수엘라 사람들이 마이티 AI, 플레이먼트, 하이브 등 AI 데이터 집계 회사를 위해 헐값 임금으로 ‘데이터 눈깔 붙이기’ 노동을 해왔다. 베네수엘라는 재앙적인 경제 위기로 실업과 빈곤이 치솟았고, 사회적 불안정성과 범죄 증가로 사람들이 집밖 외출을 꺼려하고 있던 터였다. 심지어 2019년 핀란드 AI 기업 바이뉴(Vainu)는 자국의 교정국과의 협약 하에 3개월간 교도소 제소자들의 노동력을 활용하기까지 했다. 또 시리아 난민들은 자율주행 자동차의 인지 능력을 높이기 위해 자신과 가족의 사진을 직접 찍어 데이터 라벨링을 하고 있다.

딥러닝 기반의 자율주행 자동차는 10대의 카메라와 막대한 작업량을 처리하는 온보드 컴퓨터가 장착돼 있다. 표지판, 보행자, 가로수 등을 식별하는 수백만 개의 레이블이 필요한데, 현재 인도, 케냐 등 남반구 저임금 노동자들이 수천 시간 분량의 비디오 영상을 프레임 단위로 수작업한다. 그에 더해, 다른 문제도 있다. 최근 MIT 연구에 따르면, 자율주행 자동차가 10억대로 증가할 경우 데이터 센터만큼의 탄소를 배출하게 된다. IEA(국제에너지기구)는 데이터 센터가 전 세계 전력의 1% 남짓을 소모하고, 정보통신기술은 전체 온실가스의 2~4%를 배출하는 것으로 추정한다. 챗GPT의 경우 학습에만 1287MWh(메가와트시)의 전력을 소비했고, 550만톤의 이산화탄소를 배출했는데 이는 한 사람이 뉴욕과 샌프란시스코를 550번 왕복하는 것과 같은 양이다. 수천 만명이 챗GPT를 클릭하면 어떻게 될까? 앞으로 인공지능 산업은 항공 산업보다 더 많은 오염을 유발할 가능성이 높다.

상단영역

본문영역

[이송희일의 견문발검] 챗GPT와 디지털 식민지

이 사건은 인공지능 뒤편에 감춰진 남반구 노동자들의 얼굴을 전면에 드러냈다. 인공지능 알고리즘이 자체적으로 작동할 수 있다는 환상을 유포해왔던 빅 테크의 전략 이면에 저렴한 노동 착취가 존재함을 적시해준다.

관련기사

개의 댓글

댓글 정렬

내 댓글 모음