네이버판 챗GPT인 클로바X가 공개되면서 언론계에 ‘뉴스 사용료’가 화두로 떠올랐다. 네이버는 이미 학습한 뉴스 데이터는 약관에 따라 제공 받았기에 사용료 지급 대상이 아니라고 못 박은 가운데 사용료 지급 기준과 적정 대가 마련을 두고 신경전이 이어질 전망이다.

네이버는 지난 24일 ‘단(DAN) 23’ 행사를 통해 거대언어모델인 하이퍼클로바X와 이를 기반으로 한 대화형 생성형 인공지능 서비스 클로바X를 공개했다. 오는 11월엔 검색에 클로바X를 연동한 인공지능 검색 서비스도 출시할 예정이다. 

오픈AI의 챗GPT, 구글의 바드, 네이버의 클로바X등 거대언어모델 기반 생성형 인공지능 서비스는 온라인 공간 속 많은 데이터를 학습하는데 이 과정에서 언론사 뉴스 학습에 따른 대가 지급이 언론계 쟁점으로 떠올랐다. 

▲ 디자인=이우림 기자. 사진= gettyimagesbank
▲ 디자인=이우림 기자. 사진= gettyimagesbank

네이버 “기존 학습 데이터는 사용료 논의 안 해”
향후 학습 데이터엔 “규제나 논의 따라갈 예정”

24일 ‘단(DAN) 23’ 행사 질의응답 때 ‘뉴스학습에 따른 대가 지급’을 어떻게 할 것인지 묻는 질문에 최수연 네이버 CEO는 “뉴스를 어떻게 활용할지에 대해 국제적으로 첨예한 이슈가 있는 것 같다”며 “명확한 답변을 드리긴 어려워도 저희는 항상 그 부분(뉴스대가 지불)에 가장 적극적이고 어떤 글로벌 플랫폼보다 (언론에) 수익으로 되돌려드릴지 고민을 많이 해온 회사”라고 설명했다. 

최수연 CEO는 ‘지금까지 학습한 데이터’와 ‘앞으로 학습할 데이터’를 구분해 설명했다. 그는 “지금까지 학습한 데이터들은 기존의 규제라든지 약관에 근거를 두고 학습한 거라 별도 사용료를 논의하고 있는 단계는 아니다”라고 했다. 네이버는 과거 제휴 언론사 약관에 ‘연구 목적’으로 뉴스 데이터를 활용할 시 언론의 동의를 받지 않는다는 내용을 포함했다. 네이버는 현재 새 약관을 준비하고 있다.

최수연 CEO는 “앞으로 학습에 활용하는 부분은 창구들이 많이 열려 있기에 계속 긴밀하게 협의하면서 동의도 받고, 명확하게 싫다고 하시는 부분에 대해선 활용하지 않는 것을 명확하게 하는 방향으로 계획을 잡고 있다”며 “논의들이 건강하게 계속되면서 윈윈할 수 있는 방법으로 자리 잡았으면 좋겠다는 바람이고, 추이에 따라 저희도 적극적으로 규제나 논의를 따라갈 예정”이라고 했다. 

즉, 현재까지 학습한 데이터는 현행법상 허용되는 범위 또는 기존 약관 동의를 거쳤기에 별도의 사용료 지급은 없을 전망이다. 추후 학습할 데이터에 관해선 네이버가 새로 마련한 약관을 바탕으로 언론사 등과 협의에 나설 계획이다. 네이버는 ‘규제 논의’를 언급했는데 법적 논의가 뉴스 등 저작물 제공에 따른 대가를 인정하지 않는 방향으로 이어질 경우 소극적으로 협의에 나설 가능성도 있다. 

▲ 클로바X 서비스 화면
▲ 클로바X 서비스 화면

 

신문업계, “기존학습 데이터도 대가 지급해야”
AI업체들에 ‘대가산정’ 기준 마련 등 요구

반면 언론계는 ‘기존 학습 데이터’ 약관부터 문제가 있다고 보고 있다. 네이버가 언론사에 적용했던 과거 약관 8조3항은 네이버가 뉴스 데이터(기사)를 ‘연구’에 활용할 때 언론사들의 동의를 받지 않도록 하는 내용이다. 

한국신문협회는 지난 22일 입장문을 통해 해당 약관을 통한 뉴스 데이터 학습이 ‘불공정 행위’라고 반발했다. 신문협회는 “(언론사들이) 네이버가 인공지능 개발에 뉴스를 활용한다는 사실을 사전에 인식할 수 없었다”며 “저작권자인 언론사의 개별 이용 허락 절차를 거치지 않았다”고 했다. 동아일보는 지난 24일 사설을 통해 “이 조항이 인공지능을 예견해 만든 것이 아니고, 언론사들은 네이버가 인공지능 개발에 뉴스를 활용하고 있다는 사실도 사전에 알지 못했다”며 “생성형 인공지능을 개발하는 포털업체들이 사전 동의를 받지 않고 저작권에 의한 정당한 대가 지불마저 외면하는 것은 무책임한 처사”라고 비판했다.

▲ 최수연 네이버 대표가 24일 ‘단(DAN) 23’ 컨퍼런스에서 키노트 발표를 하고 있다. 사진=네이버 제공
▲ 최수연 네이버 대표가 24일 ‘단(DAN) 23’ 컨퍼런스에서 키노트 발표를 하고 있다. 사진=네이버 제공

한국신문협회는 지난 22일 네이버, 카카오, 구글코리아, 마이크로소프트 등 국내외 대형 IT 기업에 생성형 인공지능의 뉴스 저작권 침해방지 요구사항을 전달하기도 했다. 요구사항은 언론 뉴스 활용을 위한 기준을 언론과 협의하고, 언론계가 요구한 국제적 기준을 따르고, 출처를 투명하게 공개하고, 대가 산정을 위한 논의를 해야 한다는 내용이다. 

해외에서도 뉴스데이터 학습 논란

미국에선 이미 생성형 인공지능의 뉴스 무단 사용이 논란이 됐다. 챗GPT 개발사인 오픈AI가 미국의 주요 언론사 뉴스를 학습한 정황이 드러나자 CNN과 월스트리트저널이 법적 대응을 검토하겠다고 밝혔다. 월스트리트저널을 소유한 다우존스앤컴퍼니의 법률대리인은 2023년 2월 “월스트리트저널 기자들이 쓴 기사를 인공지능 학습시키는 데 활용하고자 하는 이들은 누구든 적절한 라이선스를 받아야 한다”고 밝혔다. 2023년 2월 블룸버그에 따르면 CNN 관계자는 “CNN은 자사의 기사를 챗GPT에 훈련시키기 위해 사용하는 것이 약관 위반이라고 생각한다”고 밝혔다.

미국과 캐나다 언론사들이 가입된 뉴스미디어연합(NMA) 차원에서도 인공지능의 무단 뉴스 학습에 관한 논의가 이어졌다. 대니얼 코피 NMA 부회장은 “우리가 투자를 해 만든 가치 있는 콘텐츠에는 인간의 노력을 필요로 하지만 이를 다른 사람들이 무단으로 사용하고 있다”며 “보상을 받아야 한다”고 했다.

▲ 사진=Getty Images Bank
▲ 사진=Getty Images Bank

세계신문협회는 ‘글로벌 인공지능 원칙’을 마련하고 있다. 이 원칙은 △인공지능 기업이 지식재산권을 존중할 것 △인공지능 기술 활용방안에 대해 저작권자에게 투명하게 공개할 것 △뉴스 저작권자를 시장에서 배제하는 방식 금지 등의 내용을 담고 있다.

갈등이 봉합된 사례도 있다. 2023년 7월13일 오픈AI가 AP통신과 기사 사용 등에 대한 계약을 맺었다고 발표했다. AP통신은 1985년부터 생산해 온 뉴스콘텐츠를 챗GPT를 학습시키는 데 이용할 수 있도록 했다. 계약 금액은 공개되지 않았다.  

인공지능 무단 학습을 막기 위해 언론이 장벽을 세우기도 한다. 뉴욕타임스는 자사 사이트의 오픈AI의 웹크롤러(인터넷 상의 정보를 긁어가는 프로그램)인 ‘GPT봇’의 접근을 막았다. 한국일보는 지난 7월31일 국내 언론 가운데 처음으로 ‘인공지능 및 대량 크롤링’ 조항을 신설해 ‘한국일보 콘텐츠를 대상으로 자동화 도구를 활용하는 행위 금지’ 등을 규정했다.

왜 뉴스 대가 갈등 벌어지나

국내외에서 유사한 갈등이 벌어지는 이유는 인공지능 업체는 뉴스를 필요로 하고, 언론사들은 디지털 환경이 도래한 이후 뉴스가 제대로 된 대가를 받지 못하는 점에 문제 의식을 갖고 있기 때문이다.

거대언어모델 개발 과정에서 뉴스 학습은 중요하다. 인터넷 공간에는 많은 데이터가 있지만 인터넷 커뮤니티에 올라온 글은 공신력을 확보하기 힘들다. 언론은 취재를 거쳐, 정제된 글을 꾸준히 쓰는 데다 최신 사항을 반영한다는 점에서 뉴스는 ‘양질의 데이터’로 볼 수 있다. 

신기주 더밀크코리아 부대표는 한국언론진흥재단이 발간한 <해외 미디어 동향, 챗GPT : 미디어의 기회인가, 위기인가?> 보고서를 통해 “언론사의 최신 뉴스를 업데이트 받지 못한 생성형 인공지능은 도태될 가능성이 높다”고 했다. 그는 “뉴스텍스트로 세상을 배우는 생성형 인공지능의 등장은 뉴스 제공자 입장에선 새로운 시장이 열린 셈이다. 뉴스 소비를 인간지능에서 인공지능으로 확장할 기회”라고 의미를 부여하기도 했다.

지난 4월 A언론사 디지털부문 관계자는 “챗GPT 시대라는 게 중요하다. 어떻게 사용될지 청사진이 그려지지 않은 상황에서 기술이 앞선 포털이 이용하겠다고 했을 때 매듭을 잘 지어놓지 않으면 나중에는 방법이 없어진다”며 “과거 인터넷 뉴스가 처음 나왔을 때 기사를 어떻게 활용할지 몰라 언론이 염가에 넘긴 것”이라고 했다.

저작권자 © 미디어오늘 무단전재 및 재배포 금지