▲ ⓒ istock
▲ ⓒ istock

부산대가 운영하는 ‘맞춤법 검사기’에 인공지능 학습 목적으로 추정되는 비정상적 접속이 있었다. 

6일 부산대 인공지능 연구실이 서비스하는 ‘맞춤법 검사기’측은 공지사항을 통해 “최근 우리 서비스를 이용한 특정 IP들에서 비정상적인 이용 패턴을 확인했다”며 “거대 언어 모델(LLM)의 학습을 위한 목적이 아닌가 의심된다”는 공지를 올렸다. 맞춤법 검사기측에 따르면 최근 특정 IP에서 한 달에 500만 회 이상 접속해 과도한 클라우드 운영 비용이 청구됐다.

‘맞춤법 검사기’측은 “대용량의 데이터 처리가 계속된다면 서비스 속도가 느려져 일반 사용자들이 선의의 피해를 입을 수밖에 없다”며 “클라우드 서비스 유지 비용이 예상보다 늘어나 현재와 같이 웹 검사기 서비스를 무료로 제공하기가 불가능해진다”고 했다.

▲ 부산대 맞춤법검사기 공지사항
▲ 부산대 맞춤법검사기 공지사항

거대언어모델 학습이 확인된 건 아니다. 맞춤법 검사기가 학습을 위한 정보가 있는 서비스는 아니라는 점에서 특정 업체가 대량의 글을 검사기에 넣어 자료를 검수하는 등 다른 업무를 했을 가능성도 배제할 수 없다.

해외에선 챗GPT로 대표되는 거대언어모델 기반 서비스가 온라인 공간 속 정보를 대량 학습하자 빗장을 거는 기업들이 늘고 있다.

트위터는 지난 1일 이용자의 게시물 조회 횟수를 제한했다. 트위터 일반 계정 기준 하루 600개 게시물만 조회할 수 있게 했다. 일론 머스크는 자신의 트위터에 “극단적인 수준의 데이터 스크래핑(정보를 긁어가는 행위)과 시스템 조작 문제를 처리하기 위한 목적으로 서비스에 일시적인 제한을 적용했다”고 설명했다. 기준이 과도하다는 논란이 일자 트위터는 허용 게시물 기준을 1000개로 늘렸다.

미국의 대표적인 인터넷 커뮤니티 사이트인 레딧은 지난달 API 서비스에 한해 1000회 접속시 24센트의 요금을 부과하기로 했다. API는 다른 앱이나 서비스가 특정 서비스의 일부 기능으로 데이터를 활용할 수 있게 하는 규약을 말한다.   

레딧과 트위터처럼 이용자가 많은 온라인 서비스는 챗GPT와 같은 생성형 인공지능의 기반인 대규모 언어 모델(LLM)이 정보를 학습하는 데 활용될 수 있다. 이 과정에서 특정 서비스의 게시물을 무단으로 가져가는 문제와 해당 업체 서버에 부담을 주는 문제 등이 논란이 되고 있다.

저작권자 © 미디어오늘 무단전재 및 재배포 금지