조선일보가 100주년을 맞아 지난 5일 ‘조선 뉴스 라이브러리 100’(과거 지면과 기사를 담은 홈페이지) 홈페이지를 오픈한 가운데, 과거 신문을 현대화하는 작업에 100억원을 투입했다고 알렸다. 

조선일보는 7일 사보를 통해 ‘조선 뉴스 라이브러리 100’에는 기존에 디지털화하지 않았던 1920년 3월5일 창간호부터 1999년까지의 본지 지면과 기사 전체가 담겼다고 전했다. 

이를 위해 조선일보 측은 지난 3년간 100억 원을 투입햇다고도 밝혔다. 조선 뉴스 라이브러리에는 1920년부터 1999년까지 발행된 26만1589면의 기사 295만여건이 디지털화됐다. 

조선일보 측은 “서고에 보관된 지면과 마이크로필름을 일일이 스캔하고 한 장씩 스캔한 지면은 문자 인식 기술을 통해 디지털로 문자를 추출했는데 이 작업에만 2년이 넘는 기간이 소요됐다”며 “인식되지 않은 문자는 원본과 비교해 수작업으로 일일이 처넣었다. 누락된 지면을 찾기 위해 전국 도서관을 누볐다”고 설명했다. 

▲조선일보 뉴스 라이브러리 100 홈페이지 화면.
▲조선일보의 '조선 뉴스 라이브러리 100' 홈페이지 화면.

조선일보는 과거 기사를 현대어로 전환하기도 했다. 1920년 창간호부터 6·25 전쟁 휴전까지의 기사에 대해서는 현대어 변환 서비스를 제공한다. 

라이브러리에서 개별 기사 원문 상단 ‘원문’ 버튼을 클릭하면 당시 국어로 적힌 기사 원문을 볼 수 있다. 한자어가 많은 조선일보의 특성상 한자를 모르면 읽기가 힘든데 한자와 한글 서비스가 제공된다. 

조선일보 측은 “특히 1920~1930년대는 현대 한글이 완성되지 않았던 시기로 조사를 제외한 기사 전체가 한문이거나 띄어쓰기가 전혀 없이 모든 글자가 붙어 있어 오늘날 독자가 읽고 이해하기가 어렵다”며 “연세대 교수와 연구원들은 인공지능 기술을 이용해 100만 건이 넘는 옛 기사를 1차 가공했다. 이어 원문 이미지와 디지털화한 텍스트를 대조하고, 변환한 기사를 연구진이 한 글자, 한 단어씩 고쳐 썼다”고 전했다. 

조선일보 뉴스 라이브러리는 newslibrary.chosun.com에서 볼 수 있다. 

한편 올해 4월1일 100주년을 맞는 동아일보도 지난 2일 ‘동아 디지털 아카이브’를 통해 1920년 4월1일자 창간호 이후 모든 기사와 지면 PDF를 공개했다. 동아일보 아카이브는 www.donga.com/archive/newslibrary에서 볼 수 있다.

저작권자 © 미디어오늘 무단전재 및 재배포 금지