+ All Categories
Home > Documents > chapter 데이터 경제와 개인정보 비식별 기술 동향 · 높이기 위해 최근...

chapter 데이터 경제와 개인정보 비식별 기술 동향 · 높이기 위해 최근...

Date post: 26-Jul-2020
Category:
Upload: others
View: 3 times
Download: 0 times
Share this document with a friend
15
ICT 신기술 정보통신기획평가원 15 * I. 서론 데이터가 핵심 자원인 데이터 경제 시대에 데이터 활용은 국가 및 조직의 미래를 결정하 는 중요한 요소로서 작용한다. 그리고 중요 자원으로서 데이터 자원 확보와 그 가치를 높이기 위해 최근 빅데이터 플랫폼 구축 및 활용, 데이터 경제 활성화를 위해 많은 노력들 이 이루어지고 있다. 이러한 노력과 함께 많은 도전이 따르고 있으며, 프라이버시 보호 또한 중요한 가치로 판단되는 지금 데이터에 대한 활용과 프라이버시 보호를 위한 개인정 보보호는 데이터에 대한 안전성과 유용성 모두를 보장해야 할 의무를 가지고 있다. 최근 개인정보를 보호해야 하는 의무 수행과 이에 따른 다양한 문제 해결을 위해 데이터 를 활용할 수 있도록 법·제도의 개선과 함께 관련 기술 개발이 진행되고 있다. 이에 따라 개인정보보호법, 정보통신망법, 신용정보보호법 등 개인정보보호 관련 법률의 개정안이 마련되었다. 그리고 데이터 바우처 사업, 마이데이터 사업, 국가데이터맵 구축 등 데이터 활성화 환경 조성을 위한 정책 지원이 따르고 있다. 또한, 안전하게 개인정보를 보호하면 서 데이터를 활용할 수 있도록 개인정보 비식별 조치 분야에 대한 관심 제고와 기술 발전 * 본 내용은 차연철 수석연구원(☎ 02-443-9767, [email protected])에게 문의하시기 바랍니다. ** 본 내용은 필자의 주관적인 의견이며 IITP의 공식적인 입장이 아님을 밝힙니다. 02 chapter 데이터 경제와 개인정보 비식별 기술 동향 차연철 ㈜엔텀네트웍스 수석연구원 ICT 신기술
Transcript
Page 1: chapter 데이터 경제와 개인정보 비식별 기술 동향 · 높이기 위해 최근 빅데이터 플랫폼 구축 및 활용, 데이터 경제 활성화를 위해 많은 노력들

ICT 신기술

정보통신기획평가원 15

*

I. 서론

데이터가 핵심 자원인 데이터 경제 시대에 데이터 활용은 국가 및 조직의 미래를 결정하

는 중요한 요소로서 작용한다. 그리고 중요 자원으로서 데이터 자원 확보와 그 가치를

높이기 위해 최근 빅데이터 플랫폼 구축 및 활용, 데이터 경제 활성화를 위해 많은 노력들

이 이루어지고 있다. 이러한 노력과 함께 많은 도전이 따르고 있으며, 프라이버시 보호

또한 중요한 가치로 판단되는 지금 데이터에 대한 활용과 프라이버시 보호를 위한 개인정

보보호는 데이터에 대한 안전성과 유용성 모두를 보장해야 할 의무를 가지고 있다.

최근 개인정보를 보호해야 하는 의무 수행과 이에 따른 다양한 문제 해결을 위해 데이터

를 활용할 수 있도록 법·제도의 개선과 함께 관련 기술 개발이 진행되고 있다. 이에 따라

개인정보보호법, 정보통신망법, 신용정보보호법 등 개인정보보호 관련 법률의 개정안이

마련되었다. 그리고 데이터 바우처 사업, 마이데이터 사업, 국가데이터맵 구축 등 데이터

활성화 환경 조성을 위한 정책 지원이 따르고 있다. 또한, 안전하게 개인정보를 보호하면

서 데이터를 활용할 수 있도록 개인정보 비식별 조치 분야에 대한 관심 제고와 기술 발전

* 본 내용은 차연철 수석연구원(☎ 02-443-9767, [email protected])에게 문의하시기 바랍니다.** 본 내용은 필자의 주관적인 의견이며 IITP의 공식적인 입장이 아님을 밝힙니다.

02chapter

데이터 경제와 개인정보 비식별 기술 동향

•••차연철 ‖ ㈜엔텀네트웍스 수석연구원

ICT 신기술

Page 2: chapter 데이터 경제와 개인정보 비식별 기술 동향 · 높이기 위해 최근 빅데이터 플랫폼 구축 및 활용, 데이터 경제 활성화를 위해 많은 노력들

주간기술동향 2019. 7. 10.

16 www.iitp.kr

에 노력하고 있다. 2016년 개인정보 비식별조치 가이드라인의 발표와 2018년 개인정보

비식별 기술 경진대회 개최는 개인정보 비식별조치 기술 발전을 위한 대표적인 노력 중

하나이다.

본 고에서는 데이터 경제로 패러다임의 이동에 따른 개인정보 관련 제도 및 기술 동향에

대해 살펴본다. 더불어 개인정보 비식별조치 가이드라인에 포함된 기술과 함께 비정형

데이터의 개인정보 비식별조치 기술, 향상된 개인정보 비식별조치 기술에 대해서도 살펴

보고자 한다.

II. 데이터 경제와 개인정보보호

1. 데이터 경제 패러다임

최근 빅데이터(Big Data)의 활용에 대한 관심 증대와 함께 데이터를 활용한 경제 활성화에 대해 많은 논의가 있다. 데이터 경제(Data Economy)의 개념은 응용 프로그램, SW, HW의 경제가 아닌 빅데이터, 오픈데이터, 연결데이터 등 데이터로 파생되는 경제가 경쟁 우위를 이끌어가는 시대에, 조직이나 비즈니스의 방대한 데이터를 저장·검색·분석해서 생

[표 1] 데이터 경제의 개념구분 개념

가트너(2011)

응용 프로그램, SW, HW의 경제가 아닌 빅데이터, 오픈데이터, 연결데이터 등 데이터로 파생되는 경제가 경쟁 우위를 이끌어가는 시대

EC(2014)

데이터를 다루는 구성원이 만들어내고 있는 생태계를 말하며, 데이터의 생성·수집·저장·처리·분배·전달 등을 모두 포괄하는 개념

MIT(2016)

데이터 자본은 재화·서비스를 생산하는데 필요한 저장된 정보로, 기존의 물리적 자산처럼 장기적인 경제적 가치를 보유

IBM(2016)

데이터를 내·외부적으로 가치를 창출하는데 사용하는 것을 의미하며, 이러한 현상은 이용 가능한 데이터와 데이터 기반의 의사결정이 증가하면서 기업들 사이에서 더 많은 데이터가 교환됨으로써 발생

Digital Reality(2018) 조직이나 비즈니스의 방대한 데이터를 저장·검색·분석해서 생성되는 금융이나 경제적 가치

한국정보화진흥원(2018)

모든 데이터가 활용하기 쉽게 자유롭게 흘러 타 산업 발전의 촉매 역할을 하면서, 혁신적 비즈니스와 서비스를 창출하는 경제

<자료> 데이터 경제의 부상과 사회경제적 영향 참조

Page 3: chapter 데이터 경제와 개인정보 비식별 기술 동향 · 높이기 위해 최근 빅데이터 플랫폼 구축 및 활용, 데이터 경제 활성화를 위해 많은 노력들

ICT 신기술

정보통신기획평가원 17

성되는 금융이나 경제적 가치를 창출하는 것을 의미하며[1] 과거 지식 정보 산업의 개념을

훨씬 뛰어 넘는 개념이다. 그리고 데이터 경제의 시대에 산업 발전과 혁신적인 성장을

이끄는 신자본(New Capital)으로 데이터의 가치는 더욱 높아지고 있다.

데이터 경제를 향한 패러다임 이동은 데이터 가치사슬 생태계의 형성과 정보 주체의

참여를 요구한다. 데이터 가치사슬은 사물과 사람에 대한 데이터 플랫폼(특히 빅데이터

플랫폼)의 구축과 데이터의 개방, 공공 데이터 및 민간 데이터에 대한 저장과 유통, 일반정

보 및 개인정보에 대한 분석과 활용을 통해 맞춤형 서비스, 사회 현안 해결, 데이터 기반

의사결정 등 다양한 분야에서 활용하도록 지원하는 데이터 생태계이다.

또한, 데이터 경제 활성화를 위해 데이터 활용에 대한 산업계 및 민간의 의견 수렴과

사회적 합의 유도, 데이터 생태계 조성 인프라 지원, 빅데이터 활용 선도사업 지원, 선도기

술 및 보호기술에 대한 데이터 R&D, 공공 데이터 발굴·개방, 공공빅데이터센터 및 국가

데이터맵 구축, 개인정보보호법 등 개인정보 보호를 위한 관련 제도의 개정이 필요하다[2].

2. 빅데이터 개인정보보호 동향

빅데이터 환경에서 데이터 경제 활성화를 위해 데이터의 정보 주체에 대한 프라이버시

보호와 데이터 활용을 위해 관련 제도의 정비 및 개선이 이루어지고 있으며, 이와 함께

개인정보보호 기술이 발전하고 있다.

가. 개인정보보호 관련 법·제도 동향

2011년 9월 ‘개인정보보호법’의 시행에 따라 그 동안 “정보통신망 이용촉진 및 정보보

호 등에 관한 법률(이하, 정보통신망법)”을 통해 온라인 환경에서만 보호할 수 있었던 개인

정보가 오프라인 영역까지 확대, 보호할 수 있게 되었다. 그렇지만 개인정보보호와 관련해

입법된 여러 개인정보보호와 관련한 법률(특히, 정보통신망법, 신용정보의 이용 및 보호에

관한 법률(신용정보보호법), 개인정보보호법)에 개인정보보호와 관련한 내용이 흩어져 있

는 상황은 많은 불편을 초래함은 물론 데이터 경제 활성화에 대한 저해 요소로 인식되고

있다. 이런 문제의 해소를 위해 2018년 정보통신망법, 신용정보보호법, 개인정보보호법에

대한 개정안이 제안된 상태이다. 이를 통해 기존 개인정보의 개념을 [표 2]와 같이 개인정

보, 가명정보, 익명정보로 구분하여 데이터 활용의 범위를 명확히 하고, 현재 모호한 개인

Page 4: chapter 데이터 경제와 개인정보 비식별 기술 동향 · 높이기 위해 최근 빅데이터 플랫폼 구축 및 활용, 데이터 경제 활성화를 위해 많은 노력들

주간기술동향 2019. 7. 10.

18 www.iitp.kr

[표 2] 개인정보의 분류

정보에 대한 개념으로 데이터 활용에 어려움에 처해 있는 문제를 해결하려고 한다. 또한,

2016년 6월에 발표된 개인정보 비식별조치 가이드라인은 데이터 활용의 활성화를 위해

제시된 구체적인 노력 중 하나이다. 이 가이드라인은 개인정보 활용을 위해 “사전검토–비

식별조치–적정성평가–사후관리”의 일련의 개인정보 비식별 조치 절차와 개인정보 처리자

간 데이터의 결합을 위한 정보집합물의 결합에 대한 방법을 포함하고 있다[7]. 개인정보

비식별 조치 가이드라인은 법적 근거에 대한 부분에 대해 개인정보보호법의 개정으로 그

근거의 마련과 구체성 확보를 위한 절차를 밟고 있다.

나. 개인정보보호 관련 기술 동향

개인정보에 대한 관심 증대와 보호의 필요성에 따라 개인정보보호 영역은 법·제도의

발전과 함께 기술의 변화를 함께 추구하고 있다. [표 3]과 같이 개인정보보호 기술은 시대

의 흐름에 따라 발전하고1) 있다.

1) 개인정보보호 기술의 시대 흐름에 따른 발전 구분은 필자의 개인적인 견해임

구분 개념 특징

개인정보살아있는 개인을 식별할 수 있는 정보로서, 특정 개인을 직접 또는 다른 정보와 결합하여 알아볼 수 있는 정보

특정 개인을 알아볼 수 없더라도 다른 정보와 쉽게 결합하여 알아볼 수 있는 정보로, 다른 정보의 입수 가능성 등 개인을 알아보는데 소요되는 시간, 비용, 기술 등을 합리적으로 고려해야함

가명정보 원상태로 복원하기 위한 추가 정보의 사용·결합 없이는 특정 개인을 알아볼 수 없는 정보

통계작성, 연구, 공익적 기록보존의 목적으로 처리 및 개인정보처리자간 정보집합물 결합이 가능함

익명정보 더 이상 개인을 식별할 수 없는 정보 개인정보보호 관련 법령의 적용을 받지 않으며, 해당 데이터에 대한 활용이 광범위하게 가능함

<자료> 개인정보보호법 일부개정법률안 참조[3]

<자료> ㈜엔텀네트웍스 자체 제작

[그림 1] 개인정보보호 기준에 의한 데이터의 분류와 활용

Page 5: chapter 데이터 경제와 개인정보 비식별 기술 동향 · 높이기 위해 최근 빅데이터 플랫폼 구축 및 활용, 데이터 경제 활성화를 위해 많은 노력들

ICT 신기술

정보통신기획평가원 19

[표 3] 개인정보보호 관련 제도와 개인정보보호 솔루션의 변화

첫 번째, 1세대로 인식의 단계다. 개인정보보호 기술은 개인정보에 대한 중요성의 인식으로부터 출발했다. 이 시기에는 개인정보를 포함한 데이터의 활용 측면보다는 개인정보를 보호하는데 많은 관심을 두고 데이터를 처리했다. 개인정보보호를 위해 도입한 대표적 기술은 개인정보 필터링, 개인정보 노출진단, 초기 수준의 데이터베이스 암호화 기술이다.

두 번째, 2세대로 관리의 단계다. 개인정보보호 기술은 개인정보에 대한 관리적 접근으로 발전했다. 이 시기에는 개인정보보호법의 영향과 개인정보영향평가 및 ISMS-P(ISMS, PIMS, PIPL) 등 개인정보보호를 위한 인증·평가를 통해, 단순히 조직 내부에 존재하는 정보 자산 시스템(서버나 PC 등)에 저장되는 개인정보를 보호하는 수준에서 개인정보에 대한 전체 생명주기 관리까지, 보다 구체적이고 추적 가능한 실행을 통해 개인정보에 대한 관리에 집중하기 시작했다. 2세대 개인정보보호를 위해 도입한 대표적인 기술로 개인정보 생명주기 관리, 개인정보 파일 샌드박스 등이 있다.

마지막으로 개인정보보호를 위한 3세대는 활용의 단계다. 빅데이터, 사물인터넷, 인공지능의 발전과 더불어 이 시기의 개인정보보호 기술은 개인정보에 대한 안전한 활용에 초점을 두는 특징을 갖는다. 3세대 개인정보보호 기술은 데이터 경제 환경에서 개인정보의 보호와 개인정보의 활용이라는 양면성을 모두 만족시키는 개인정보보호 기술의 제공을 통해 데이터 가치사슬을 연결하는 고리 역할을 담당한다. 그리고 기존 정형 데이터에 집중된 개인정보보호의 노력이 문서 형태의 반정형 데이터, 음성 및 영상 형태의 비정형 데이터에까지 보호의 범위를 넓히고 있다.

데이터 활용 단계에서 개인정보보호는 데이터 비식별(Data De-identification) 기술과 프라이버시 보호 모델을 통해 데이터의 안전한 활용을 보장한다. 그렇지만 하드웨어와 소프트웨어의 발전 등으로 인해 비식별 조치된 데이터는 재식별(Re-identification)이 가능한 위험을 가지고 있다.

구분 인식단계(~2010년) 관리단계(~2015년) 활용단계(~현재)

개인정보보호솔루션

- 개인정보 필터링- 개인정보 노출진단- 데이터베이스 암호화

- 개인정보 생명주기 관리- 개인정보 파일 샌드박스

- 개인정보 접속기록관리- 비정형 데이터 암호화- 개인정보 비식별 조치

개인정보보호관련제도

- (1995.1.) 신용정보보호법- (1999.2.) 정보통신망법 개정

(개인정보 관련 규정 신설)

- (2011.9.) 개인정보보호법 동법 시행령 제35조(개인정보 영향평가의 대상)

- (2016.6.) 개인정보 비식별 조치 가이드라인- (2018.5.) EU GDPR- (2018.11.) 개인정보보호법 개정안 발의

<자료> ㈜엔텀네트웍스 자체 제작

Page 6: chapter 데이터 경제와 개인정보 비식별 기술 동향 · 높이기 위해 최근 빅데이터 플랫폼 구축 및 활용, 데이터 경제 활성화를 위해 많은 노력들

주간기술동향 2019. 7. 10.

20 www.iitp.kr

III. 개인정보 비식별 조치 동향

1. 개인정보 비식별 조치 대상과 개인정보 재식별

가. 개인정보 비식별 조치 대상

개인정보 비식별 조치의 대상인 데이터는 [그림 2]와 같이 “① 정형 데이터, ② 반정형 데이터, ③ 비정형 데이터”로 그 유형을 구분할 수 있다. 정형 데이터는 개인정보 비식별 조치 가이드라인의 대상 데이터이며, 반정형 데이터와 텍스트 데이터 형태의 일부 비정형 데이터는 개인정보 필터링의 대상 데이터이다. 또한, 음성 및 영상 형태의 비정형 데이터에 대해서는 현재 활발한 연구가 진행되고 있다.

나. 개인정보 재식별(Re-identification)

비식별 조치된 정보는 [표 4]와 같이 데이터셋 자체의 추론 및 데이터 결합 등을 통해 재식별 위험을 가지고 있다. 개인정보 비식별 조치는 개인정보의 재식별로부터 정보주체의 프라이버시 보호를 위해 재식별 가능성을 측정하고 재식별 위험을 해소시켜야 한다.

[표 4] 개인정보 재식별 공격(Re-identification Attack) 유형

<자료> ㈜엔텀네트웍스 자체 제작

[그림 2] 개인정보 비식별 대상 데이터 유형

재식별 공격 유형 설명

Prosecutor Attack 사전 지식을 가지고 특정 데이터 주체에 속하는 레코드를 재식별하는 공격 모델

Journalist Attack 사전 지식을 가지고 특정 레코드의 데이터 주체를 재식별하는 공격 모델

Marketer Attack 사전 지식을 가지고 가능한 많은 레코드를 가지고 해당 데이터 주체를 재식별하는 공격 모델

(In)distinguishability Attack 데이터셋의 특정 주체의 존재 여부를 확인하는 공격 모델

Inference Attack 다른 속성 그룹과 관련있는 민감정보에서 추론하는 공격 모델<자료> ISO/IEC 20889 표준 문서 참조

Page 7: chapter 데이터 경제와 개인정보 비식별 기술 동향 · 높이기 위해 최근 빅데이터 플랫폼 구축 및 활용, 데이터 경제 활성화를 위해 많은 노력들

ICT 신기술

정보통신기획평가원 21

2. 개인정보 비식별 조치 표준화

개인정보 비식별 조치를 위해 필요한 기술 및 기법은 개인정보 비식별 조치 가이드라인[4]과 ISO/IEC 20889 표준 문서[5]에서 명시적으로 설명하고 있다.

가. 개인정보 비식별 조치 가이드라인

개인정보 비식별 조치 가이드라인은 일반적 기법으로 개인 식별요소를 삭제하는 방법과 재식별 가능성을 검토하는 기법으로 프라이버시 보호 모델을 제시하고 있다. 특히, [그림 3]과 같이 일반적 기법의 데이터 마스킹 방법은 개인정보의 보호를 강조하는 개인정보 데이터 필터링 기술에서도 사용되고 있다. 반면에 협의의 개인정보 비식별은 데이터의 활용을 강조한다.

(1) 일반적 기법

개인정보 비식별 조치 가이드라인의 일반적 기법은 데이터를 삭제하거나 조작하는 방법으로 “① 가명처리, ② 총계처리, ③ 데이터 삭제, ④ 데이터 범주화, ⑤ 데이터 마스킹” 처리 기법과 함께 총 17가지 세부기술이 있다.

(2) 프라이버시 보호 모델

개인정보 비식별 조치 가이드라인의 프라이버시 보호 모델은 개인정보 재식별 방지를 위한 정량적 평가 요소로서 개인정보 비식별 조치 평가단의 평가에 의해 기준이 수립되고 적정성 평가 단계에서 평가의 지표로 사용된다. 개인정보 비식별 조치 가이드라인은 k-익명성, l-다양성, t-근접성을 평가 기준으로 정하고 있다. 특히, t-근접성의 경우 의료 데이터와 같은 높은 개인정보보호 수준을 요구하는 경우 적용할 필요가 있으며, 순서형, 범주형, 계층형의 데이터 형태에 따라 해당하는 EMD(Earth Mover’s Distance) 알고리즘을

<자료> ㈜엔텀네트웍스 자체 제작

[그림 3] 개인정보 비식별 기술의 관점에 따른 구분

Page 8: chapter 데이터 경제와 개인정보 비식별 기술 동향 · 높이기 위해 최근 빅데이터 플랫폼 구축 및 활용, 데이터 경제 활성화를 위해 많은 노력들

주간기술동향 2019. 7. 10.

22 www.iitp.kr

사용한다[6]. 또한, 더 강화된 개인정보 재식별 방지를 위해 차분 프라이버시(Differential Privacy)[7] 등 추가적인 향상된 프라이버시 보호 모델 연구가 진행되고 있다.

(3) 데이터 결합

데이터 결합은 데이터 경제 환경에서 빅데이터 활용 가치를 극대화시킬 수 있는 수단이다.

그렇지만 개인정보 처리자 간의 정보집합물에 대한 데이터 결합으로 개인정보 재식별의 위

험이 존재할 수 있다. 따라서 데이터 결합 시 더 높은 수준의 보안이 요구된다. 이런 이유로

개인정보보호법 개정안은 데이터 결합에 필요한 전문기관을 명시적으로 표현하고, 전문기관

의 안전한 보호 조치 환경 속에서 데이터 결합을 수행하는 방법에 대해 법률로서 규정하려

한다. 데이터 결합은 임시 대체키에 대한 생성과 결합 후 삭제 절차를 통해 개인정보 재식별

을 방지할 수 있는 방안을 가지고 있다. 또한, 데이터 결합의 안전성 확보를 위해 m-유일성

(m-uniqueness)을 활용한 익명 데이터 결합과 같은 연구개발 과제가 수행되고 있다[8].

<자료> 의료데이터 활용을 위한 개인정보 비식별화 기술 및 프로그램 동향 참조

[그림 4] 개인정보 비식별 조치 가이드라인과 ISO/IEC 20889의 세부기술 매칭 테이블

Page 9: chapter 데이터 경제와 개인정보 비식별 기술 동향 · 높이기 위해 최근 빅데이터 플랫폼 구축 및 활용, 데이터 경제 활성화를 위해 많은 노력들

ICT 신기술

정보통신기획평가원 23

나. ISO/IEC 20889

ISO/IEC 20889는 2018년 11월 표준화가 완료된 개인정보 비식별 조치 기법에 대한 표준이다. 이 표준은 8가지 비식별 기법(De-identification technique)과 k-익명성, l-다양성, t-근접성의 프라이버시 평가 모델과 차분 프라이버시 모델(Differential Privacy Model) 및 선형 민감도 모델(Linear Sensitivity Model)에 대해 정의하고 있다. [그림 4]는 개인정보 비식별 조치 가이드라인과 ISO/IEC 20889 표준에서 정의한 비식별 조치 기법에 대한 비교 자료이다[9].

IV. 개인정보 비식별 조치 기술 동향

[그림 5]와 같이 개인정보 비식별 조치 소프트웨어는 개인정보보호법과 관련 고시 내용

을 준수하며 개인정보를 안전하게 보호하여 빅데이터를 활용할 수 있도록 기술을 제공해

<자료> 금융 빅데이터 환경에서 비식별처리를 위한 소프트웨어의 구조 및 기능 참조

[그림 5] 빅데이터 활용을 위한 비식별처리 소프트웨어 구조

Page 10: chapter 데이터 경제와 개인정보 비식별 기술 동향 · 높이기 위해 최근 빅데이터 플랫폼 구축 및 활용, 데이터 경제 활성화를 위해 많은 노력들

주간기술동향 2019. 7. 10.

24 www.iitp.kr

야 한다[10]. 개인정보 비식별 조치 기술은 단순히 개인정보를 포함한 데이터를 비식별

조치하는 기술뿐만 아니라 접근제어·데이터 완전삭제·내보내기/들어오기 등 다양한 기능

을 제공할 수 있는 기술을 포함한다. 또한, 정형 데이터에 대한 비식별 조치와 함께 반정

형·비정형 데이터까지 다양한 형태의 데이터에 적용 가능한 비식별 조치 기술이 필요하다.

1. 비정형 데이터 비식별 기술

가. 텍스트 데이터 비식별 기술

텍스트 데이터에는 다양한 형태의 개인정보가 포함되어 있기 때문에 이를 활용하기 위

해서는 개인의 프라이버시 침해 문제에 대한 대비책이 필요하다. 또한, 텍스트 데이터의

특성을 고려한 익명화 기술이 요구되며, 텍스트 데이터를 익명화하기 위해서는 안전성과

유용성을 모두 고려해야 한다. 텍스트 데이터의 개인 식별 요소의 탐지는 패턴 매칭(Pattern

matching) 기반과 개체명 인식(Named entity recognition) 기반 기술을 통해 가능하

다. 또한, 탐지된 개인정보를 [표 5]와 같이 익명화하는 기술은 삭제(Suppression), 대체

(Substitution), 태깅(Tagging)으로 가능하다[11].

[표 5] 텍스트 데이터를 익명화하는 기술

나. 영상 데이터 비식별 기술

최근 인공지능 기술을 활용한 영상 데이터의 활용을 위해 많은 연구가 활발히 진행되고

있다. 이런 영상 데이터의 개방과 공유는 프라이버시 침해 문제를 발생시킬 수 있다. 따라

서 영상 데이터의 특성을 고려한 익명화 기술이 필요하다. 텍스트 데이터와 같이 익명화된

영상 데이터는 안전성과 유용성을 모두 고려해야 한다. 영상 데이터 익명화는 영상 내에서

개인을 식별할 수 있는 영역을 탐지하는 기술과 탐지한 개인 식별 영역을 변형하는 기술

2단계로 구성된다. [표 6]은 탐지한 개인 식별 영역을 변형하는 기술에 대한 요약이다[12].

기술 설명 예시

삭제 개인정보에 해당하는 원본 텍스트를 삭제하여 익명화함 ‘홍길동’ > ‘XXX’

대체 동일한 태그세트에 포함된 임의의 값으로 대체함 ‘한국대학교 병원’ > ‘OO대학교 병원’

태깅 해당 개인정보의 속성을 이용하여 태그를 생성한 후, 대체하는 방법 ‘한국대학교 병원’ > ‘[병원 1]’<자료> 텍스트 데이터 익명화 기술 및 평가방안 참조

Page 11: chapter 데이터 경제와 개인정보 비식별 기술 동향 · 높이기 위해 최근 빅데이터 플랫폼 구축 및 활용, 데이터 경제 활성화를 위해 많은 노력들

ICT 신기술

정보통신기획평가원 25

[표 6] 개인 식별 영역 변형 기술 요약

다. 음성 데이터 비식별 기술

음성 데이터를 비식별하는 음성 익명화 기술은 주어진 음성으로부터 개인을 특정할 수

있는 발화 정보를 제거하는 기술이다. 음성 변환(Voice Conversion)은 주어진 음성에서

발화된 내용을 유지하면서 화자의 발화 특성(성별, 연령 등)을 변화시키는 것으로 음성

익명화의 주요 기술이다. 기존 음성 변환 기술이 동일한 내용을 여러 사람이 발화한 병렬

데이터를 대량으로 요구하는데, 이러한 평행 데이터의 수집은 비용이 매우 많이 들어 활용

이 어렵다. 따라서 [표 7]과 같은 최신 기술의 연구 개발을 통해 음성 데이터에 대한 비식

별이 요구된다[13].

[표 7] 음성 데이터 비식별을 위한 음성 변환 기법

기술 설명 장점 한계

이미지필터링

영상에서 개인을 식별할 수 있는 영역에 여러 필터를 적용하여 특정한 개인을 식별하지 못하게 함

간단하게 개인 식별 영역을 알아 볼 수 없게 처리 가능

컴퓨터의 인식 능력을 막지는 못함딥러닝 기반 기술의 발달로 필터링을 거친 이미지를 일정 수준 복원 가능

이미지암호화

영상을 암호화하여 허가된 대상에게만 공개하는 기법

원본 영상으로 복원이 가능한 가명 처리 기술안전하게 네트워크를 통해 영상을 전송해야 할 때 유용

기존 암호화 기법을 사용하면 연산량이 많아 실시간 영상 처리가 어려움복호화 키가 없으면 암호화된 영상 데이터를 활용할 수 없음영상의 저장 형식에 따라 암호화 방법이 달라질 수 있음

얼굴합성

영상 데이터에 적합하게 k-익명성 모델을 확장수집한 얼굴 이미지 집합 내에서만 비슷한 k개의 얼굴을 합성

수학적으로 보장되는 개인 식별 방지 수준 제공합성한 얼굴을 대체하는 기법이므로 익명화된 영상 데이터의 활용도가 높음

저장된 얼굴 이미지를 사용하므로 실시간 영상 처리가 어려움익명화 단계에서 유용성을 고려하지 않기 때문에 유용성을 보장할 수 없음합성한 얼굴에서 원본 얼굴로 복원 불가능

인페이팅영상에서 특정한 부분을 제거하고 생긴 공백 또는 손상된 부분을 채우는 기법

영상에서 제거된 대상에 대해서는 어떠한 시각적 정보가 남지않음영상 내에서 특정한 목적과 무관한 사람 등을 제거할 때 유용

연산량이 많아 실시간 처리가 어려움제거된 영역이 큰 경우에는 복구가 불가능 할 수 있음부자연스럽게 복원한 경우 영상 데이터의 유용성이 하락할 수 있음

<자료> 영상 데이터 익명화 기술 및 평가방안 참조

기법 설명

VAE(Variational Auto-Encoder)

- 입력 음성을 기본적인 요소(latent variable)로 압축한 후 복원하는 방법- 압축된 기본 요소의 화자 정보를 변경하여 복원하면 다른 화자의 목소리 변환이 가능

GAN(Generative Adversarial

Networks)

- 생성신경망(generator)과 구분신경망(discriminator)을 동시에 학습, 원본을 정교히 모사- CycleGAN은 원본을 대상으로 변환한 후 이를 다시 원본으로 복원하는 두 개의 GAN으

로 구성, 병렬 데이터 없이 학습 가능<자료> 음성 변환 기법 참조

Page 12: chapter 데이터 경제와 개인정보 비식별 기술 동향 · 높이기 위해 최근 빅데이터 플랫폼 구축 및 활용, 데이터 경제 활성화를 위해 많은 노력들

주간기술동향 2019. 7. 10.

26 www.iitp.kr

2. 암호화 도구

가. 동형 암호화(Homomorphic Encryption)

동형 암호는 1970년대에 처음 이론 연구가

시작되었으며, 2009년에 IBM의 연구원 Gentry

에 의해 기술적 가능성이 증명되었다.

동형암호는 평문과 암호문에서 같은 성질이

유지된다는 의미로 평문에 대한 연산 결과와

암호문에 대한 연산 결과가 같은 값을 가져, 암

호화된 개인정보를 풀어보지 않고도 통계분석

이 가능한 기술이다[14].

나. 형태 보존 암호화(Format-Preserving Encryption)

블록암호에 기반하여 특정한 형태의 평문의 값을 동일한 형태의 값으로 변환하는 암호

알고리즘으로 ① 트윅(Tweak)의2) 사용, ② Feistel 구조의 암호화 방식 기반, ③ 기존

암호화 방식의 대치 및 보완의 역할을 한다[15].

다. 순서 보존 암호화(Order-Preserving Encryption)

암호화 과정에서 평문의 순서 정보를 보존하는 암호 기술로, 암호화를 통한 데이터 프라

이버시 보호와 동시에 데이터 활용성을 보장하는 기술이다. 순서 보존 암호화 기술은 데이

터베이스 혹은 메모리 상에 배열된 데이터를 암호화하되 암호화된 데이터들의 크기 순서

2) 형태 보존 암호에서 기밀성을 제공하기 위해 정형화된 데이터에 추가적인 입력 정보임

<자료> 개인식별 방지 기술 세미나 자료 참조

[그림 6] 동형암호화 예시

<자료> 신용카드 번호를 암호화할 경우 암호문의 형태 사례 재구성

[그림 7] 형태 보존 암호화의 사용 사례

Page 13: chapter 데이터 경제와 개인정보 비식별 기술 동향 · 높이기 위해 최근 빅데이터 플랫폼 구축 및 활용, 데이터 경제 활성화를 위해 많은 노력들

ICT 신기술

정보통신기획평가원 27

가 원본 데이터들이 가지는 값의 순서를 유지하는 암호 알고리즘이다. 따라서 이 기술을

통해 이진검색, 범위검색, 정렬, mix, max 등의 다양한 데이터 활용 연산이 데이터의

순서 정보에 의존, 복호화 없이 저장된 암호데이터를 활용할 수 있다[16].

3. 향상된 프라이버시 보호 모델

개인정보에 대한 재식별 방지를 위해 개인정보 비식별 조치 가이드라인은 프라이버시

보호 모델로 k-익명성, l-다양성, t-근접성을 제시하고 있다. 그리고 개인정보 재식별 방

지를 위한 추가적인 프라이버시 보호 모델 개발을 위해 많은 연구 과제를 수행하고 있다.

가. 차분 프라이버시 모델

차분 프라이버시 모델(Differential Privacy Model)은 k-익명성과 l-다양성의 취약한

부분을 보완하기 위해 C. Dwork가 제안한 모형으로, 단순한 숫자의 변화가 아니라 레코

드들 자체의 확률적 변형을 통해 식별 가능성을 제한하는 접근법이다. 차분 프라이버시

모델은 ① 어떤 특정인에 대한 정보가 포함되지 않은 데이터 집합에서 차분적인 알고리즘

의 적용을 통해 획득한 결과와 ② 그 특정인에 대한 정보가 포함된 데이터 집합에서 얻은

결과가 구별되지 못하게 하는 체계를 구축하는 것이 기본적인 목표이다. 이 목표의 달성을

위해 정확하게 계산된 양의 노이즈를 통계 기록에 넣어서 개인의 식별성을 없애는 방법을

이용한다. 민감한 정보의 보호를 위해 차분 프라이버시 모델은 체계적으로 무작위 수치를

넣게 되고 이 무작위 수치는 일종의 노이즈 역할을 한다. 이 노이즈의 삽입을 통해 어떤

데이터셋에 특정인에 관한 정보가 포함되어 있는지 여부에 관계없이 동일한 결과물을 산

출할 수 있다[17].

<자료> 순서 보존형 데이터 암호화 알고리즘 및 구현기술 재구성

[그림 8] 순서 보존 암호화 예시

Page 14: chapter 데이터 경제와 개인정보 비식별 기술 동향 · 높이기 위해 최근 빅데이터 플랫폼 구축 및 활용, 데이터 경제 활성화를 위해 많은 노력들

주간기술동향 2019. 7. 10.

28 www.iitp.kr

나. 익명처리 모델

익명처리 모델은 “합리적으로 예상되는 모든 수단”을 동원하여도 어느 한 개인이라도 식별할 수 없도록 원본 데이터셋을 익명 가공하는 모델이다. 이 모델에서 완벽하게 익명화된 익명 데이터셋에서는 원본 데이터셋에 존재하는 모든 유일한 속성값 조합을 완벽하게 제거한다. 따라서 익명 데이터셋만을 보고 원본의 특정 개인을 식별하는 것은 원천적으로 불가능하며 익명처리 모델의 성질을 보다 명확히 정의하기 위해 m-유일성(m-Uniqueness) 성질을3) 사용한다[8]. 익명처리 모델은 개인정보 비식별 조치 가이드라인의 임시대체키와 같은 가명식별자가 개인과 1:1 대응이 되는 유일한 값으로 그 자체가 개인정보인 문제를 해결하며, 익명식별자 기반의 익명결합을 통해 개인정보 비식별 조치 가이드라인의 정보집합물 결합의 개인정보 재식별 가능성을 제거한다.

V. 결론

개인정보를 보호하려는 노력은 데이터 경제 활성화를 위해 반드시 필요한 핵심 요소이

다. 데이터 경제 활성화를 위해 개인정보의 활용만 강조하면 정보주체에 대한 프라이버시

희생을 강제하여 극심한 반대에 처할 수 있다. 그리고 결국 4차 산업혁명의 핵심인 데이터

경제는 활성화되지 못하고 국가 경쟁력은 떨어질 것이다. 따라서 개인정보를 가명정보

및 익명정보로 변환시켜 데이터를 활용할 수 있도록 지원하는 개인정보 비식별 조치는

데이터 경제 활성화의 한 축으로서의 역할을 할 것이다. 이를 위해 데이터의 안정성과

유용성 확보를 위한 기술 개발이 따라야 한다. 또한, 기술의 개발과 함께 데이터의 안전한

활용에 대해 사회적인 인식과 합의가 동반되어야 한다.

데이터 경제 활성화를 위한 개인정보 비식별 조치 기술은 기술의 개발과 함께 해당 기술

을 활용하고 데이터를 이해할 수 있는 역량을 보유한 데이터 전문가를 필요로 한다. 전문

가를 통해 적정성 평가를 수행하고 적정성 평가를 수행하는 과정에서 개인정보 비식별

조치 기술과 프라이버시 보호 모델을 결정할 수 있어야 한다. 또한 데이터 변환에 따른

3) 원본 데이터셋 테이터 S(a1,a2,,,an)와 이를 완벽하게 익명처리한 익명 데이터셋 테이블 T(a1,a2,,,an)가 주어줬을 때, 속성집합 A={a1,a2,,,an}의 모든 부분속성집합에 대해 S와 T에 동일한 속성값을 갖는 레코드들이 존재하면 원본 데이터셋 S에는 최소 m개 이상의 레코드들이 존재해야 한다.

Page 15: chapter 데이터 경제와 개인정보 비식별 기술 동향 · 높이기 위해 최근 빅데이터 플랫폼 구축 및 활용, 데이터 경제 활성화를 위해 많은 노력들

ICT 신기술

정보통신기획평가원 29

통계학적 분석 능력을 발휘할 수 있어야 한다.

앞서 살펴본 것과 같이 개인정보 비식별 조치 기술은 정형 데이터, 반정형 데이터, 비정

형 데이터의 다양한 데이터 유형에 대한 비식별 기술 연구와 함께 개인정보의 재식별을

방지할 수 있도록 다양한 형태의 프라이버시 모델을 연구·개발하고 있다. 뿐만 아니라

비식별 조치 기술의 개발을 통해 개인정보의 재식별 위험성을 감소시키기 위한 기술적

방식의 노력과 함께, 사후 관리를 통한 보안 통제를 적용하는 관리적 조치 방식도 고려될

필요가 있다.

[ 참고문헌 ]

[1] 장준희, “데이터 경제의 부상과 사회경제적 영향”, 한국정보화진흥원, IT & Future Strategy, 제7호, 2018. 11. 19.

[2] 관계부처 합동, “데이터 산업 활성화 전략 – I-KOREA 4.0 데이터 분야 계획, I-DATA”, 2018. 6.[3] 인재근 외 13인, “개인정보 보호법 일부개정법률안”, 인재근의원 대표발의, 2018. 11. 15.[4] 관계부처 합동, “개인정보 비식별 조치 가이드라인”, 2016. 6. 30.[5] ISO/IEC, “Privacy enhancing data de-identification terminology and classification of techniques,”

ISO/IEC 20889, First edition, 2018. 11.[6] Ninghui Li, Tiancheng Li, Suresh Venkatasubramanian, “t-Closeness: Privacy Beyond k-Anonymity and

l-Diversity,” IEEE, 2007 IEEE 23rd International Conference on Data Engineering, 2007. 4, pp.6-7.[7] 한국인터넷진흥원, “개인정보 활용도 강화를 위한 프라이버시 보호 모델 체계화 및 정립”, 용역 제안요청

서, 2019. 5. 13.[8] 이원석, “익명화 데이터의 익명 결합 방법”, 금융보안원, 전자금융과 금융보안, 제15호, 2019. 1.[9] 김재한, “의료데이터 활용을 위한 개인정보 비식별화 기술 및 프로그램 동향”, 한국보건산업진흥원, 보건

산업브리프, Vol.268, 2018. 8. 13.[10] 금융보안표준화협의회, “금융 빅데이터 환경에서 비식별처리를 위한 소프트웨어의 구조 및 기능”, 금융보

안원, 기술·정책참조표준, V1.0, 2018. 12.[11] K-ICT 빅데이터센터, “텍스트 데이터 익명화 기술 및 평가방안”, 2019. 2.[12] K-ICT 빅데이터센터, “영상 데이터 익명화 기술 및 평가방안”, 2019. 2.[13] 고려대학교산학협력단, “심층 신경망을 이용한 음성 익명화 기술” 기술예고, 정보통신기획평가원, 2018.[14] 과학기술정보통신부, “안전한 데이터 활용을 위한 동형암호 기술 실증”, 보도자료, 2018. 11. 20.[15] 보안연구부 보안기술팀, “NIST, 블록암호 운영방식에 관한 권고 – 형태보존 암호화 방법 소개“, 금융보

안원, 정보보호 동향, 2016. 5. 18.[16] ETRI, “순서보존암호화기술”, 미래창조과학부, K-Global 시큐리티 스타트업 설명회 기술소개 자료집, 2015. 11.[17] 고학수, 최경진, “개인정보의 비식별화 처리가 개인정보 보호에 미치는 영향에 관한 연구”, 개인정보위원

회, 2015. 12. 10, pp.24-25.


Recommended