뉴욕타임스가 뉴스 무단 학습을 문제 삼으며 챗GPT 개발사인 오픈AI에 소송을 제기한 가운데 오픈AI가 ‘반격’에 나섰다.

오픈AI는 지난 8일(현지시간) 공식 블로그를 통해 “뉴욕타임스는 전체적인 내용을 전하지 않았다”며 뉴욕타임스를 비판했다. 앞서 뉴욕타임스는 오픈AI가 뉴욕타임스 기사를 챗봇 훈련에 활용했다며 자사 기사를 그대로 제시한 챗GPT 답변 내용을 저작권 침해의 근거로 제시했다. 

▲ ⓒ istock.
▲ ⓒ istock.

오픈AI는 ‘역류’(Regurgitation)였다고 반박했다. 역류는 챗GPT가 학습한 정보를 그대로 답변으로 내놓는 현상을 말한다. 생성형 인공지능은 학습한 데이터를 있는 그대로 답하는 기존 챗봇과 달리 확률에 기반해 상황에 맞게 새로운 답을 만들어낸다는 차이가 있다. 

오픈AI는 “뉴욕타임스가 장문의 기사 발췌문을 포함하는 등 역류 버그를 의도적으로 일으키는 식으로 조작한 것으로 보인다”며 “(역류는) 드물게 발생하는 버그다. 이를 해결하기 위한 노력을 하고 있다”고 했다.

오픈AI는 “공개적으로 이용할 수 있는 인터넷 자료를 통해 인공지능 학습을 시켰다”며 뉴욕타임스가 언급한 기사는 여러 웹사이트에 발췌된 내용이라고 했다. 

오픈AI가 ‘역류’가 ‘예외적인 버그’라고 강조하고 나선 이유는 챗GPT가 뉴욕타임스 기사를 그대로 답변으로 제시할 경우 ‘무단 학습’일뿐 아니라 저작권법상 예외라는 주장이 흔들리기 때문이다.

오픈AI는 그동안 저작권 침해 주장에 관해 ‘공정 이용’이라고 밝혀왔다. ‘공정 이용’은 저작권법의 예외 조항으로 연구나 평론 등이 해당된다. 오픈AI는 챗GPT의 온라인 공간 속 데이터 학습이 저작물을 무단 복제해 훔치는 행위가 아니라 ‘학습’한 것이기에 공정 이용이라고 주장해왔다. 

예를 들어 누군가가 저작물인 책을 그대로 복사해서 판다면 저작권 침해지만, 책의 내용을 공부해서 이를 통해 얻은 지식으로 돈을 벌게 된다면 이는 저작권 침해로 보기 어렵다. 오픈AI는 인공지능 학습이 후자에 해당된다고 주장해온 것이다. 만일 무단 전재라고 볼 정도로 동일한 내용을 그대로 답으로 내는 일이 비일비재하다면 전자에 해당할 가능성이 높아 저작권법 예외라는 주장의 근간이 흔들리게 된다.

저작권자 © 미디어오늘 무단전재 및 재배포 금지