당신이 올린 커뮤니티 글, 기업이 돈 받고 팔았다
당신이 올린 커뮤니티 글, 기업이 돈 받고 팔았다
게시글 ‘크롤링’해 개인정보 유추 가능하게 수집해 판매, 이용자 예상 못한 활용 쟁점

당신이 어제 무심코 SNS와 인터넷 커뮤니티에 올린 게시글을 기업이 돈을 받고 팔고 있을지 모른다. 온라인 공간 속 트렌드를 분석한 ‘소셜 빅데이터’ 상품이 주목받는 가운데 이용자 개인정보가 드러날 수 있는 상품이 있어 논란이 예상된다.

정부 ‘데이터 거래소’ 등을 통해 판매가 이뤄진 소셜 빅데이터 거래를 분석한 결과 SK텔레콤 스마트인사이트(이하 스마트인사이트)의 ‘포털사/SNS 검색 키워드 기반 소셜 빅데이터’ 상품은 이용자 신상이 드러날 수 있는 정보를 제공하는 것으로 나타났다.

이 상품은 포털과 SNS, 커뮤니티 등에서 누리꾼들이 올린 게시글을 분석·취합해 어떤 키워드를 얼마나 언급했는지, 긍정적으로 언급했는지 등을 소개하는 내용으로 판매하고 있다. 치킨 브랜드 업체는 누리꾼들이 자사 치킨에 대해 어떤 반응을 보이는지 분석할 수 있고, 중고차 거래 업체는 중고차를 구입할 때 사람들이 무엇을 고려하는지 살펴볼 수 있다. 

▲ 정부 데이터거래소에서 판매된 SK 스마트인사이트의 빅데이터 상품.
▲ 정부 데이터거래소에서 판매된 SK 스마트인사이트의 빅데이터 상품.

개인정보보호법은 당사자 동의 없는 개인정보 제공과 활용을 금지하고 있다. 개인정보는 개인이 특정되지 않더라도 다른 정보와 쉽게 결합하여 알아볼 수 있는 정보를 포함한다. 따라서 통상적으로 빅데이터 상품은 개인이 드러나지 않도록 해야 한다. 그러나 스마트인사이트의 상품 가운데 ‘통계연구형’은 지나치게 구체적인 정보가 포함돼 있다. 

해당 상품의 샘플 파일을 보면 엑셀 시트를 통해 ‘네이버 카페’ ‘다음 TIP’ ‘트위터’ ‘MLB PARK’ ‘여성시대’ 등 온라인 사이트의 게시글 정보를 수집해 공개하고 있었다. 한 누리꾼은 “아이폰 쓰고 나서 접속이 잘 안돼요”라고 썼고 다른 누리꾼은 게임 리그 경기 일정을 언급하며 “킹존자리 한자리 구해봅니다”라고 언급했다. 

스마트인사이트는 수집 과정에서 이용자 아이디 두 글자를 노출했다. 아이디가 ‘인터넷’이면 ‘인터*’으로 처리하는 식이다. 여기에 게시글 제목과 내용 일체, 게시글을 올린 날짜, 해당 링크까지 그대로 공개했다. 몇몇 누리꾼들은 ‘지역’ 정보도 드러났다. 이 같은 데이터는 세트당 500만원에 거래되고 있었다. 

▲ SK텔레콤 스마트인사이트의 빅데이터 상품. 일부 흐림처리.
▲ SK텔레콤 스마트인사이트의 빅데이터 상품. 일부 흐림처리.

이와 관련 스마트인사이트 관계자는 비식별화 절차를 거친 데이터라고 설명하며 “일부 마킹(***처리) 방식으로 업로드 돼 있다. 개인정보가 아니다. 해당 데이터는 연구용 목적이며 또한 9월 서비스 종료 예정으로 현재 해당 데이터를 제공하지 않고 있다”고 밝혔다.

스마트인사이트의 조치는 적절했을까. 개인정보를 가공해 개인이 드러나지 않도록 하는 조치를 비식별화라고 하는데 스마트인사이트의 경우 링크를 함께 제공하면서 누가 쓴 글인지 즉각 파악이 가능하다. 링크가 없다 해도 3~4글자로 된 아이디는 두 글자만 노출해도 신원을 파악하기 쉽다. 여기에 커뮤니티 이름, 게시글 제목과 내용 일체를 함께 제공하면서 개인이 누구인지 식별할 가능성은 매우 커진다. 실제 해당 정보만으로도 인터넷 게시글 작성자를 쉽게 찾을 수 있었다. 

스마트인사이트의 상품은 유사한 정보를 판매하는 타사의 데이터 샘플과 비교해보면 차이가 뚜렷하다. 다음소프트에서 판매하는 상품의 경우 날짜만 드러날 뿐 게시글 본문, 제목, 이용자 아이디 등을 제공하지 않거나 알아볼 수 없는 숫자 등 정보로 대체해 개인정보를 유추할 수 없도록 처리하고 있었다. 

▲ 다음소프트에서 제공하는 빅데이터 상품 샘플. 스마트인사이트 상품과 달리 개인정보를 유추하기 힘들다.
▲ 다음소프트에서 제공하는 빅데이터 상품 샘플. 스마트인사이트 상품과 달리 개인정보를 유추하기 힘들다.

오병일 진보네트워크센터 활동가는 “스마트인사이트 상품은 링크까지 제공한다. 링크를 클릭하면 아이디와 게시글이 다 나온다. 트위터의 경우는 계정 주인의 과거 트윗 목록, 사진도 나오기 때문에 개인이 특정된다고 할 수 있다. 전혀 비식별 조치라고 할 수 없는 수준”이라고 지적했다.

‘통계작성 및 학술연구’ 목적이라도 예외는 아니다. 개인정보보호법 18조는 ‘통계작성 및 학술연구’를 별도로 두고 있긴 하지만 “특정 개인을 알아볼 수 없는 형태로 개인정보를 제공”하는 것을 전제한다. 김하나 민주사회를위한변호사모임 디지털정보위원회 변호사는 “18조는 이미 수집된 정보를 목적 외로 이용하는 것에 대한 내용”이라며 인터넷에 돌아다니는 정보를 임의로 수집하는 것과 다르다고 지적했다. 

‘공개된 정보’라 해도 당사자 동의 없이 판매하는 등의 행위가 부적절하다는 지적도 있다. 김하나 변호사는 “작성자는 해당 정보가 제3자에 의하여 수집되어 자신의 성향이 분석된다는 사실 자체를 인지하지 못한다”며 “(게시글은) 사적인 목적으로 작성되는 데 반해 이를 수집하는 사람들은 마케팅 등 용도로 사용하기 위해 수집해 사생활이 개인이 인지하지 못하는 사이 분석대상이 되는 것”이라고 했다.

원세훈 전 국정원장의 댓글조작사건 재판에서 이 문제가 쟁점이 됐다. 검찰은 빅데이터 업체를 통해 수집된 트윗 내용을 증거로 활용하려 했으나 재판부는 트위터 게시글도 ‘개인정보’이고, 당시 게시글을 작성한 이들이 수사 목적으로 활용되는 사실을 예상할 수 없다며  증거 능력을 인정하지 않았다. 

▲ 원세훈 댓글조작 고등법원 판결문. '트위터' 계정 정보도 개인정보로 본다는 내용.
▲ 원세훈 댓글조작 고등법원 판결문. '트위터' 계정 정보도 개인정보로 본다는 내용.

 

▲ 2015년 원세훈 댓글사건 고등법원 판결문.
▲ 2015년 원세훈 댓글사건 고등법원 판결문. 트위터 정보를 수사기관에 제공하는 것은 이용자가 예상할 수 있는 동의 범위를 벗어난다는 내용.

오병일 활동가는 “공개된 개인정보 자체를 ’크롤링‘(인터넷 게시글을 긁어 수집하는 행위)을 할 수는 있겠지만 어떻게 활용하는지는 별개로 볼 필요가 있다. 과거 원세훈 판결과 마찬가지로 이용자들이 예상할 수 있는 이용 범위를 넘어 섰다는 사실이 중요하다”고 했다.

개인정보보호위원회도 지난달 유사한 결정을 내렸다. 위원회는 내사 및 수사 과정에서 인터넷에 공개된 게시글을 수집해 불법 성격이 강한 게시글을 분석하는 서울시 인공지능 수사관의 행위에 대해 “공개된 게시물의 개인정보를 수집·이용하는 것은 온라인 게시물의 통상적인 이용 범위, 정보 주체의 공개 의도나 목적을 벗어나는 것으로 정보 주체가 동의한 것으로는 볼 수 없을 것으로 판단된다”고 판정했다. 

이 기사를 후원합니다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 1
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.
바람 2019-07-09 17:46:45
아무리 연구라고 해도 링크까지 제공한 것은 과했다.