▲MBC와 윤석열 대통령. 
▲MBC와 윤석열 대통령. 

“국회에서 이XX들이 승인 안 해주면 바이든은 쪽팔려서 어떡하나.” 윤석열 대통령 발언을 잘못 보도했다며 MBC를 상대로 정정보도 소송에 나선 외교부가 재판부에 음성 감정을 신청하자, 음성 감정 전문가 이아무개씨가 지난해 12월19일 재판부에 ‘감정 불가’ 의견을 제출했다. ‘이XX’가 비속어인 것은 확인됐으나 ‘바이든’인지 ‘날리면’인지는 확인이 어렵다고 했다. ‘감정 불가’ 의견은 어떻게 나온 것일까. 미디어오늘이 63페이지 분량의 감정의견서를 입수했다.

감정인은 의견서에서 “최초에 이 사건 감정인으로 지정되어 감정신청서와 함께 ‘의뢰 파일’을 받아 해당 파일을 재생시켰을 때 펼쳐지는 영상만으로도 성문 분석을 할 경우 판독 불가 가능성이 높겠다고 예상했다”고 밝혔다. “녹음된 공간이 실내이기는 하나 열린 공간에 배경음악까지 흘러나오는 가운데 수많은 사람들 틈에서 이동하는 ‘주발화자’의 발화 신호가 처음 듣기에도 일반청취로는 다소 모호한 구간이 있었기 때문이다. 따라서 성문 분석은 거의 판독 불가일 것으로 예측했다”는 것.

감정인은 “그래서 감정 수임 불가 의견서를 (재판부에) 제출했던 것이다. 하지만, 법원의 입장이 판독 불가도 하나의 의견으로 본 사건에 있어서 필요한 감정 의견임을 피력한바, 본 감정에 임하게 되었다”고 밝혔다. 지난 1월 12일 MBC를 상대로 정정보도 판결을 내린 서울서부지법 제12민사부(성지호 부장판사)가 감정의견서를 받기 전부터 ‘감정 불가’ 결론을 알고 감정을 요청했다고 볼 수 있는 대목이다. 

▲감정의견서의 한 대목. 
▲감정의견서의 한 대목. 

감정의견서는 우선 “대한민국 국민이라면 누구나 한 번쯤은 들어봤을 음성이기에 화자 식별에 대한 부분은 쟁점이 아니지만, 만약 영상이 부존재하고 소리 신호만 있는 증거물이며, ‘주발화자’가 별다른 변별력이 없는 일반인이었다면, 발화 신호에 대한 쟁점보다 화자 식별에 대한 문제가 대두될 수도 있는 상황으로, 그렇다면 현재 과학기술로는 해당 ‘의뢰 구간’의 음향 신호로는 화자 식별 판독 불가로 감정 결과가 나온들 할 말이 없을 정도로 신호의 변별력이 불량하다”고 밝혔다. 

또 “AI 성능이 날로 개선되고 있다고는 하지만, 아직까지 오차 수준을 간과할 수 없으며, 주로 법정 증거물은 갑론을박하는 쟁점 시료로써 특히 본 ‘의뢰구간’은 온전한 발화 신호가 아닌 잡음과 소음이 존재하는 상황에서 일부 구간은 상대적으로 미약한 신호 구간도 있기에, 올바른 입력이 있어야 이에 따른 정확한 출력도 기대할 수 있는 컴퓨터의 속성상, AI 분석을 통한 식별은 아직 시기상조”라고 밝혔다. 

감정의견서에는 “청취 분석만으로 감정인이 결론을 내릴 수 없다”며 선을 긋는 모습도 있었다. “본 감정인도 감정인이기 전에 한 사람의 개인으로서, 이미 해당 발화 신호에 대한 발화체 정보를 여러 기사나 보도를 통해 접한 뒤에, 원본 파일을 본 감정을 통해서 뒤늦게 처음 확인한 것인 만큼, 본 감정인이 소리로 청취하여 인지되는 발화 내용이 뇌가 사전에 선행 학습한 각인 효과로 그렇게 들리는 것인지 여부를 판단할 수 없기 때문”이라는 이유였다.  

감정의견서는 음성 분석결과 “ⓐ국회에서 ⓑ이 새끼들이 ⓒ승인 안 해XX(일부 판독불가) ⓓ판독불가 ⓔ쪽팔려서 ⓕ어떡하나로 판단됨을 최종 감정 결론으로 소견한다”고 밝혔다. 감정인은 “‘승인 안 해’까지는 미약하게나마 관찰되나, ‘주면’에 해당되는 신호 성문, 성흔은 모음 성문이라고 기대할 수 있는 수준에 전혀 이르지 않기에 해당 두 음절에 대한 성문분석 판독은 잡음, 소음 및 배경음악에 의한 불검출로 ‘판독불가’ 소결할 수밖에 없다”고 밝혔다. 

▲감정의견서 중 ⓓ구간에 대한 분석 결과. 왼쪽부터 ‘의뢰구간’ 성문, AI시료, 감정인시료. 
▲감정의견서 중 ⓓ구간에 대한 분석 결과. 왼쪽부터 ‘의뢰구간’ 성문, AI시료, 감정인시료. 

논란의 ‘바이든은’ 대목에 대해서는 “해당 발화체가 ‘바이든은’인지 아니면 그 외에 다른 발화체인지 여부와 상관없이 어떤 신호라고 주장해도 해당 성문만으로는 판독불가라고 판단할 수밖에 없는 성문·성흔이므로, 이 역시 앞서 ⓒ구간처럼 잡음, 소음 및 배경음악에 의한 방해음으로 분석목적대상 신호의 명징한 성문은 불검출로 ‘판독불가’ 소결할 수밖에 없다”고 밝혔다. 감정서에 적힌 견적서에 따르면 해당 문장의 전체 감정 비용은 1320만원이었다. 

감정인은 “분석목적음 외에 잡음이나 소음, 배경음악, 그리고 주변 인물들의 웅성거리는 말소리까지 함께 녹음된 신호라면, 사람 목소리가 가지는 특유의 고유 주파수들의 유사성 때문에 특정인물의 발화소리만 변별해서 성문분석을 통해 발화체를 추정 감정 의견한다는 것은 실상 불가능에 가까울 정도로 매우 어려운 일”이라고 밝혔다. 그러면서 “적지 않은 발화신호가 미약하거나 불량, 부실하여 정밀청취 과정을 거치면서 교차분석을 했음에도, 청취 과정에서 예상되는 발화 신호와 달리 성문 분석을 통한 결과는 온전한 성문으로써 합리적 의심 없이 예측되는 신호로 최종 감정 의견할 수준에 이르렀다고 보기 어려웠다”고 밝혔다. 

감정인은 의견서에서 정치적 부담감을 토로하기도 했다. 감정인은 “20년 이상 감정을 해온 녹취분석전문가로서 5초 구간의 발화 성문을 분석함에 있어서 이렇게 많은 분량의 감정서를 작성해 본 적은 처음이다. 이는 본 사건에 대한 관심이 여타 사건과 다름을 본 감정인도 잘 알고 있기에 부담을 느끼지 않았다면, 이는 거짓말일 것이다”라고 밝혔다. 이어 “본 사건의 감정인이라도 청취적 판단에만 기인한 의견 표명은 이미 본 감정인 역시 사전학습에 의한 각인효과로 확증편향적 사고의 우려에서 예외일 수 없기에 별도 적시하지 않았다”고 밝혔다. 

그러면서 감정인은 “본 ‘의뢰구간’에 대해 누구나 개인별로 청취해서 인지되는 발화체에 대한 의견은 그 어떤 것이라도 존중되어야 한다고 생각한다. 신체적으로는 개인의 청력, 인지적으로는 성향과 지식, 정보가 다 다르기에 소리 분석에 대한 의견은 충분히 다를 수 있기 때문”이라고 밝혔다. ‘바이든은’으로 들리는 것도, ‘날리면’으로 들리는 것도 모두 가능하고 존중해야 한다는 대목이다. 다만 감정서는 “화자가 특정된다면 그 화자가 누구인지에 상관없이 의도와 달리 확증편향 되어 공표되는 것은 별개의 문제”라고 밝혔다.

저작권자 © 미디어오늘 무단전재 및 재배포 금지