• Legalinsight
  • Legaledu
  • 법률신문 법률정보

    바른

    개인정보를 인공지능 학습데이터로 쓸 수 있을까

    입력 :
    글자크기 : 확대 최소
  • 인쇄
  • 메일보내기
  • 기사스크랩
  • 스크랩 보기
  • [2021.10.20]



    이루다는 우수한 챗봇이었다. 인공지능 학습 및 서비스 운영에 쓰인 대화 데이터의 품질이 매우 높았던 것이 그 비결이었다. 이 대화 데이터는 스캐터랩이 수년간 연애의 과학이라는 일종의 연애상담 심리테스트 서비스를 운영하며 수집한 남녀간 카카오톡 대화 문장이었다. 그러나 개인정보 보호위원회의 과징금이 부과되었고 결국 이루다 서비스는 중단되고 말았다. 무엇이 이루다를 위법하게 만들었을까.


    첫째, 전·후 서비스의 개인정보 처리 목적이 상당히 달랐다. 연애의 과학은 카카오톡 대화에 드러난 상대방의 호감도를 측정하는 서비스였고, 이루다는 그 대화문장들을 학습데이터로 삼아 인공지능 언어 모델을 구축한 챗봇이었다. 비록 스캐터랩이 연애의 과학 이용자들에게 ‘신규 서비스 개발 목적’으로 개인정보를 수집한다는 동의를 받기는 했지만, 이 정도 추상적인 고지문구만으로는 이용자에게 예측가능성을 심어주기 어려웠다.


    둘째, 이루다 담당직원이 연애의 과학 원 DB에 접근하지 못하도록 차단하지 않았다. 이로 인해 이루다 DB상의 문장이 연애의 과학 원 DB상에서 어느 이용자가 올린 문장인지를 역추적 할 수 있는 여지를 남겼다. 다행히 실제로 그러한 역추적 행위가 없었다고는 하지만, 우리 법상 그러한 역추적으로써 개인을 식별할 여지를 기술적·관리적 조치로써 충분히 통제하지 않으면 '다른 정보와 쉽게 결합하여 개인을 알아볼 수 있는 정보'로서 ‘개인정보’에 해당하는 것을 피하기 어렵다.


    셋째, 실제 연애의 과학 이용자들이 쓴 문장을 가지고 이루다의 응답 후보군 문장을 구성함으로 인해 개인정보 노출 리스크를 키웠다. 인공지능 학습을 통한 언어 모델 생성과, 그렇게 구축된 언어 모델을 기반으로 챗봇 서비스를 운영하는 것은 별개의 행위이다. 학습 단계에서 개인정보를 사용하더라도 서비스 운영 단계에서 개인정보를 쓰지 않으면 리스크 통제에 성공할 가능성이 현저히 높아지는데, 이루다의 경우 그러한 조치가 취해지지 않았다.


    이상의 위법사항은 스캐터랩이 이루다 개발 당시 양질의 법률자문을 받았더라면 어느 정도 회피 또는 통제할 수 있었으리라는 점에서 안타까움을 더한다. 어떻게 하면 이루다와 같은 서비스를 합법으로 만들 수 있을까.


    첫째, 기존에 수집된 이용자 데이터를 가지고 인공지능을 학습시켜 신규 서비스를 만들고자 한다면, 기존 서비스의 이용자가 그러한 신규 서비스의 등장을 합리적으로 예상할 수 있도록 예측가능성을 심어주는 방안이 있기는 하다. 한편, 이 방안은 기존의 서비스 대비 완전히 새로운 인공지능 서비스를 만드는 데에는 적법 근거로 쓰일 수 없다는 한계가 있다. 이루다도 그러했다.


    둘째, 인공지능 학습데이터와 원 개인정보 데이터가 서로 결합될 경우 학습데이터상의 개인이 식별될 리스크가 발생하므로, 그러한 결합 여지를 규범적으로 단절시켜야 한다. 예컨대 인공지능 개발·운영 인력이 원 서비스의 개인정보 DB에 접근할 수 없도록 접근권한을 분리하고 내부 교류를 금지하는 등 차이니즈 월(Chinese wall)을 구축하는 방법이 있다. 이러한 '원 데이터에 대한 접근 차단'은 최소한의 조치일 뿐이고, 아래의 셋째 및 넷째 방안을 함께 적용해야 한다.


    셋째, 적정한 비식별처리를 거친 데이터를 인공지능 학습데이터로 쓰는 방안이 있다. 다만, 대화 문장, 사진, 영상 등 '비정형 데이터'에 대해서 비식별처리를 어느 수준까지 요구해야 할지는 사회적 논의가 좀 더 필요하다. 가령 인공지능이 학습할 문장의 군데군데가 비어 있거나 암호문 등으로 치환되어 있을 경우 컴퓨터가 빅데이터의 패턴을 관찰하는 것이 어려워져 인공지능의 품질이 떨어지거나 학습 비용이 높아질 수 있기 때문이다. ‘인공지능의 성능’과 ‘최소처리 원칙’이라는 두 고려 요소 사이에서, 인공지능으로써 달성하고자 하는 목적 및 데이터의 상황에 맞는 적절한 타협점을 찾아야 한다. 예컨대 신용카드 부정사용 탐지시스템(Fraud Detection System)처럼 기술적으로 데이터 원문 사용이 불가피하고 이로 인해 얻어지는 사회적 편익이 현저히 큰 경우에는 개인정보 원문도 인공지능 학습데이터로 쓸 수 있는 것이다.


    넷째, 인공지능 학습을 시키는 것과 학습된 인공지능 기반 서비스를 운영하는 것은 서로 별개의 개인정보 처리에 해당하는바, 적어도 운영 단계에서는 이용자의 개인정보가 노출되지 않도록 익명화를 철저히 하여야 한다. 이루다로서는 발화할 문장을 인공지능 스스로 문장을 조합하여 생성케 하거나, 혹은 최소한 연애의 과학 이용자가 쓴 문장을 이루다 응답 후보군 문장으로 가져올 때 k-익명성 모델을 적용함으로써 이용자 개인별 고유한 표현을 제거했어야 한다. 후자를 선택할 경우 마찬가지로 이루다 응답 후보군 문장이 연애의 과학 원 DB와 결합하여 개인을 역추적하는데 쓰이지 못하도록 접근차단 조치를 취해야 한다.


    본고에서 제안하는 대안의 확정적인 적법성을 담보할 수는 없다. 다만, 향후 현장에서 이용자 데이터를 인공지능 서비스에 활용할 때 어떠한 안전장치를 두어야만 개인정보 침해 리스크가 적법한 범위 내로 통제될 수 있을지에 관한 논의의 단초는 제공할 수 있을 것이다.


    보다 자세한 내용은, 전승재, 고명석, "이루다 사건을 통해서 보는 개인정보의 인공지능 학습데이터 활용 가능성", 정보법학 제25권 제2호, 2021, 103-133면(클릭 시 원문으로 연결) 논문을 참고하면 된다.



    전승재 변호사 (seungjae.jeon@barunlaw.com)

    마세라티