▲ 클로바X 서비스 갈무리
▲ 클로바X 서비스 갈무리

네이버판 챗GPT 클로바X가 지난 8월24일 베타 버전을 출시했다. 네이버는 ‘뛰어난 한국어 능력’과 ‘네이버 서비스 연계’ 등 장점을 강조하고 있다. 챗GPT와 달리 다량의 한국어 데이터를 학습했다는 점이 강점으로 꼽힌다. 

‘정보 검색’ 측면에서 클로바X를 사용한 결과 질문을 하면 답변과 함께 띄우는 참고 사이트 링크에 블로그와 나무위키 글을 자주 제시하면서 ‘신뢰할 수 있는 정보’를 제공하는 것이 맞는지 의문이 제기된다. 언론 기사를 무단 전재한 블로그를 링크로 제시한 경우도 일부 있었다.

나무위키와 블로그 제시, 신뢰할 수 있을까

클로바X는 질문에 답변을 하면서 동시에 ‘블로그’와 ‘나무위키’를 링크로 제시하는 경우가 많았다.

▲ 클로바X 서비스 갈무리
▲ 클로바X 서비스 갈무리

클로바X에 ‘새만금 잼버리 논란’ ‘후쿠시마 오염수’, ‘N번방 사건’ ‘이태원 참사’ 등 언론에 보도된 시사 현안 30건을 물었다. 일상적인 질문이 아닌 시사 현안으로 한정했음에도 제시한 링크(중복 포함)는 블로그 12건, 나무위키 6건, 언론보도 5건(비즈조선, 한겨레, 경향신문, KBS, 동아일보), 링크를 제시하지 않은 경우 11건으로 나타났다. 

일례로 ‘후쿠시마 오염수 논란에 대해 알려줘’라고 물었을 때 나무위키 게시글 링크와 언론 보도들을 모아서 정리한 한 블로그 글을 함께 제시했다. 

나무위키 링크를 제시하는 데 이용자들이 우려를 제기하고 있다. 트위터(X)의 한 게시글은 “네이버 클로바X 열려서 써보고 있는데 답변 출처에 나무위키 있군요”라며 “예전에 나무위키 인물 관련 아티클에 악의적인 내용, 비하 내용 있어서 삭제했던 기억 나는데 이런거 확대 재생산 되는 거 아닌지”라고 지적했다. 

▲ 클로바X 화면. 후쿠시마 오염수 논란에 대해 묻자 나무위키와 블로그 링크를 제시한다.
▲ 클로바X 화면. 후쿠시마 오염수 논란에 대해 묻자 나무위키와 블로그 링크를 제시한다.

나무위키는 이용자가 직접 특정 인물이나 사건 등에 관한 글을 쓸 수 있어 사실이 아닌 내용이 포함될 수 있다. 나무위키 역시 서비스 안내를 통해 “백과사전이 아니며 검증되지 않았거나, 편향적이거나, 잘못된 서술이 있을 수 있다”고 했다. 유명인들 사이에서 나무위키에 언급된 자신에 관한 기술을 읽어보는 콘텐츠가 한 때 유행하기도 했는데 틀린 내용을 정정하는 경우가 많다. 블로그 게시글 역시 검증되지 않은 글이 올라올 가능성을 배제할 수 없다.

기사 무단전재 블로그도 링크로 제시

클로바X는 답변과 함께 언론 보도를 가공하거나 무단 전재한 블로그 링크를 띄우기도 했다. 최근 논란이 된 ‘새만금 잼버리’에 관해 질문하면 이를 보도한 언론 링크를 띄우지 않고, 언론 보도를 종합해 정리한 블로그 링크를 띄운다. 

‘자우림 멤버 김윤아의 후쿠시마 오염수 발언’에 관해 묻자 한 블로그 글을 제시했는데 이 블로그 글은 언론 기사를 가공해 작성된 것으로 보이는 내용을 제시했다. 최근 국내 항공사인 하이에어 운항 중단 소식을 묻자 해당 소식을 단독 보도한 동아일보 기사가 아닌 기사 내용 토대로 가공한 것으로 보이는 블로그 글을 띄웠다. 

지난 8월 해병대 수사단장 외압 의혹 관련 국방부 기자들과 대변인 설전에 관해 질문하자 한 블로그 글을 제시했다. 이 블로그는 <해병대 수사단장 외압 의혹에 기자들-국방부 대변인 설전까지> 제목의 미디어오늘 기사를 무단 전재한 내용을 담았다. 미디어오늘이 단독 보도했던 ‘연합뉴스 기사형광고 사태’가 무엇인지 묻는 질문을 하자 미디어오늘 기사를 그대로 옮겨다 쓴 블로그 링크를 띄웠다. 언론이 기사 무단 전재를 한 블로그에 일일이 대응하지는 않지만 뉴스 저작권을 위반하는 행위다. 

▲ 클로바X 답변 화면. 답변 하단에 제시한 블로그 링크를 접속하면 언론 기사를 그대로 무단 전재한 내용이다. 
▲ 클로바X 답변 화면. 답변 하단에 제시한 블로그 링크를 접속하면 언론 기사를 그대로 무단 전재한 내용이다. 

특히 언론 기사 무단 전재 링크를 제시하는 건 언론 입장에서 민감할 수 있다. 현재 언론과 네이버의 인공지능 뉴스 데이터 학습을 둘러싼 ‘신경전’이 이어지고 있다. 네이버는 이미 학습한 데이터는 제휴 언론에 전재료 지급 계약 때 ‘연구’ 목적의 활용이 가능하다는 약관이 적용돼 별도 사용료 지급은 하지 않는다는 입장이다. 반면 한국신문협회, 온라인신문협회 등 언론단체들은 인공지능 학습은 별도의 대가를 지불해야 한다고 주장한다. 

한 언론사 관계자는 “언론이 만약 법적으로 ‘왜 우리걸 갖다 썼냐’고 소송을 하더라도 전체 언론사가 똘똘 뭉쳐서 찾아내지 않는 이상 (무단 학습) 증거를 찾을 방법이 없다”며 “생성형 인공지능의 특징이 여러 곳에서 만들어낸 답을 가져오기 때문에 언론사에서 ‘우리 기사 베꼈다’고 얘기하기 어렵다”고 했다.

네이버 “피드백 반영하고 범위확대 예정”

이와 관련 네이버 관계자는 “언급된 내용의 출처를 제시하기는 어렵고 참고 정보로만 (링크를) 제시하고 있다. 질의와의 관련성, 신뢰성, 최신성 등을 종합적으로 판단한 정보를 답변 생성에 활용하고 있으며, 참고했을 가능성이 높은 페이지를 참고 정보로 하단에 링크 제공한다”며 “참고정보의 범위를 확대해 나갈 예정으로 우선은 블로그 등 위주로 나갈 수 있다”고 했다.

신뢰도가 떨어지는 블로그나 나무위키 출처에 관해 네이버 관계자는 “이제 막 새로 시작되는 모델인만큼 다양한 실험을 하고 있는 베타테스트”라며 “이용자 피드백 등 의견을 들어 계속 고도화해나갈 예정이고 참고 범위도 확대할 예정”이라고 했다.

저작권자 © 미디어오늘 무단전재 및 재배포 금지