+ All Categories
Home > Documents > 關聯式規則探勘隱私保護之隱私性 與可用性之評估 Evaluating … ·...

關聯式規則探勘隱私保護之隱私性 與可用性之評估 Evaluating … ·...

Date post: 30-Aug-2019
Category:
Upload: others
View: 4 times
Download: 0 times
Share this document with a friend
39
國立高雄大學資訊管理學系碩士班 碩士論文 關聯式規則探勘隱私保護之隱私性 與可用性之評估 Evaluating Privacy and Utility in Privacy-Preserving Association Rule Mining 研究生 : 宋承祐 指導教授 : 王學亮 博士 中華民國一零五年六月
Transcript
Page 1: 關聯式規則探勘隱私保護之隱私性 與可用性之評估 Evaluating … · 關聯式規則探勘隱私保護之隱私性 與可用性之評估 ... 獻探討,介紹資料的保護技術,間接隱私保護為k隱

國立高雄大學資訊管理學系碩士班

碩士論文

關聯式規則探勘隱私保護之隱私性

與可用性之評估

Evaluating Privacy and Utility in

Privacy-Preserving Association Rule

Mining

研究生 : 宋承祐 撰

指導教授 : 王學亮 博士

中華民國一零五年六月

Page 2: 關聯式規則探勘隱私保護之隱私性 與可用性之評估 Evaluating … · 關聯式規則探勘隱私保護之隱私性 與可用性之評估 ... 獻探討,介紹資料的保護技術,間接隱私保護為k隱

i

關聯式規則探勘隱私保護之隱私性與可用性之評估

Evaluating Privacy and Utility in Privacy-Preserving

Association Rule Mining

摘要

近幾年來,越多的資料被發布、被分析,而隱私保護也就越來越受重視。一

些隱私的訊息,可以由資料連結、資料探勘等推論出來。k 隱匿是第一個被提出

來隱藏敏感資訊,不受資料的連結而洩漏隱私的概念,但卻沒有考慮到資料探勘

後敏感的結果。關聯式規則隱藏的技術則是後來為了隱藏資料探勘的敏感結果而

被提出。然而這些直接性的隱藏技術會有副作用,像是需要隱藏的規則卻沒被完

全隱藏到、衍生了一些新規則等等。我們探討並比較先做 k 隱匿再做關聯式規則

探勘,以及直接做關聯式規則隱藏的兩種資料保護方法的優缺點。本研究提出一

個新的方法架構,來評估資料探勘後的隱私性的提升以及資料可用性的流失。比

較這兩種方法的數值說明了 k 隱匿有著較高的隱私性的提升,而關聯式規則隱藏

保留著較多的資料可用性的流失。

關鍵字: 關聯式規則探勘, 隱私保護, 關聯式規則隱藏, k 隱匿, 隱私性的提升,

資料可用性的流失

Page 3: 關聯式規則探勘隱私保護之隱私性 與可用性之評估 Evaluating … · 關聯式規則探勘隱私保護之隱私性 與可用性之評估 ... 獻探討,介紹資料的保護技術,間接隱私保護為k隱

ii

ABSTRACT

In recent years, privacy preservation has attracted much interest due to concerns

regarding breaches of privacy when data are published and analyzed. Private

information can be observed directly from published data or inferred through data

mining techniques. The k-anonymity concept was first proposed to hide sensitive

attribute values that could be discovered using a linking attack. Association rule hiding

techniques have been proposed to hide sensitive patterns in mining results. However,

these association rule hiding techniques have side effects such as hiding failure, creation

of new rules, and lost rules. In addition, the k-anonymity approach does not consider

hiding association rules. In this work, we extend the k-anonymity concept to hide

sensitive association rules and compare it with the association rule hiding approach. We

propose a novel concept of measuring privacy gain and utility loss of anonymized

association rules. Numerical experiments comparing the two approaches show that the

k-anonymity for association rule mining approach achieves higher privacy gain, while

the direct anonymization approach of association rule hiding achieves lower utility loss.

The results obtained here provide a guideline for adopting anonymization techniques

under different requirements and suggests a direction for the development of new

association rule hiding techniques.

Keywords: Privacy preservation; association rule hiding; k-anonymity; privacy gain;

utility loss

Page 4: 關聯式規則探勘隱私保護之隱私性 與可用性之評估 Evaluating … · 關聯式規則探勘隱私保護之隱私性 與可用性之評估 ... 獻探討,介紹資料的保護技術,間接隱私保護為k隱

iii

目錄

Chapter 1 緒論 .............................................................................................................. 1

1.1 研究背景......................................................................................................... 1

1.2 研究動機與目的............................................................................................. 3

1.3 研究架構......................................................................................................... 4

Chapter 2 間接隱私保護與直接隱私保護方法之文獻探討 ....................................... 5

Chapter 3 資料隱私性的提升及可用性的流失衡量之問題定義 ............................ 10

3.1 間接隱私保護............................................................................................... 10

3.2 直接隱私保護............................................................................................... 13

Chapter 4 衡量資料可用性的流失以及隱私性的提升之方法 ................................ 16

4.1 各項符號定義............................................................................................... 16

4.2 隱私性的提升和可用性的流失之計算公式............................................... 18

4.3 隱私性的提升計算例子............................................................................... 19

4.4 衡量隱匿過後的資料與原始資料的距離 (kl-divergence) ........................ 20

Chapter 5 實驗與結果分析 ........................................................................................ 21

5.1 實驗環境與資料集....................................................................................... 21

5.2 實驗分析與討論........................................................................................... 21

Chapter 6 結論與未來方向 ........................................................................................ 32

參考文獻...................................................................................................................... 33

Page 5: 關聯式規則探勘隱私保護之隱私性 與可用性之評估 Evaluating … · 關聯式規則探勘隱私保護之隱私性 與可用性之評估 ... 獻探討,介紹資料的保護技術,間接隱私保護為k隱

1

Chapter 1 緒論

1.1 研究背景

越來越多的資料、越來越快的網路,以及各式各樣的雲端服務、社交網站,

使得資料量以驚人的速度成長著,比起以往較常使用的單位 Megabyte、Terabyte

等等,現在資料的量往往會用到 Petabyte 甚至 Zettabyte。在多樣的網路環境、資

料量這麼大的情況下,許多的使用者都沒注意到隱私方面的設定,使得許多個人

資料,都暴露在沒有被保護的狀態之下。

2006 年美國線上公司 AOL,公開一份 2000 萬筆搜尋紀錄,包含了用戶查詢

的關鍵詞、查詢時間以及用戶是否點擊搜尋結果等,雖然這份資料只有使用編號,

並未含有用戶的姓名、身分等資料,但網友仍能透過分析這些資料,就追查出一

位住在美國喬治亞州里爾本 62 歲寡婦阿諾德(Thelma Arnold)。這是利用了資料

的連結,即使沒有可以辨識使用者的資料,還是能透過比對不同資料來推論。

2012 年美國超市 TARGET 寄了懷孕的促銷資訊給一名高中女生,這位女生

的父親一開始還想投訴超市,但後來與女兒溝通後才發現真的懷孕了,一家超市

會比父親還早知道這名高中女生懷孕,靠的是分析購買紀錄,這名女高中生同時

購買了無味濕紙巾以及補鎂藥品,進而推論出可能懷孕,這是關聯式規則的應用。

資料探勘的技術,把兩個物品連結起來,得到購買某些特定東西,極有可能是懷

孕的關聯式規則,然後再由推薦系統發出促銷。很多顧客的資料,都能經由資料

Page 6: 關聯式規則探勘隱私保護之隱私性 與可用性之評估 Evaluating … · 關聯式規則探勘隱私保護之隱私性 與可用性之評估 ... 獻探討,介紹資料的保護技術,間接隱私保護為k隱

2

探勘的技術找出某些關聯式規則,而這其中就會有敏感規則被發現的風險,也因

此對於敏感的關聯規則保護是重要的[6]。

而近年來公開發布資料的使用者隱私,越來越被重視,有許多用來保護資料

的技術發表,這些保護資料的技術,可分為兩類。第一類是間接隱私保護(privacy-

preserving data publishing),針對原始資料做保護,希望發佈後的資料不會被經過

資料比對等方法,侵犯到隱私,例如 k 隱匿(k-anonymity)、I-diversity 等等。第二

類是直接隱私保護(privacy-preserving data mining),針對資料探勘的結果來做保

護,根據資料探勘的結果不同,保護也會不同,例如關聯式規則隱藏(association

rule hiding),就是針對敏感的關聯式規則做保護。直接隱私保護是根據資料探勘

的結果,針對探勘出來的敏感規則,去修改、刪除原始資料,使得探勘後的結果

不再有敏感資訊,而間接隱私保護則是,對於原始資料做保護,希望被處理過的

資料能夠不被比對、連結等方法侵犯到隱私。在資料經過保護之後,是希望其隱

私性能夠提升,伴隨而來的是資料可用性的流失也會隨之增加。圖 1.1 表示本研

究的架構,經由對原始資料做間接隱私保護,k 隱匿之後,會得到一個經過保護

的資料(Sanitized DB),再對此資料做關聯式規則探勘,最後將此結果與原始資料

的關聯式規則探勘結果做計算比較。對於直接隱匿也是同樣的,將經過關聯式規

則隱藏的資料(Sanitized 𝐷𝐵2),而後對其做關聯式規則探勘,將結果與原始資料

探勘出的結果計算比較,而如何衡量直接隱私保護以及間接隱私保護的隱私性的

提升和資料可用性的流失即是本研究之目的。

Page 7: 關聯式規則探勘隱私保護之隱私性 與可用性之評估 Evaluating … · 關聯式規則探勘隱私保護之隱私性 與可用性之評估 ... 獻探討,介紹資料的保護技術,間接隱私保護為k隱

3

圖 1.1

1.2 研究動機與目的

近年來隨著資料量不斷增加,資料隱私保護的相關技術也不斷的發展,而有

些資料雖然經過間接隱私保護的技術,然後再發佈出去,卻還是潛藏著隱私洩漏

的風險,例如使得資料符合 k 隱匿之後才公布,不過還是有機會被惡意攻擊者用

資料探勘的方式,甚至只需比對兩個不同資料集,便可推論出資料擁有著的隱私

資料。而直接隱私保護相較之下,對於惡意的資料探勘的保護效果較為顯著,但

也會有一些副作用,例如為了隱藏含有隱私的關聯規則,卻產生了新的關聯規則。

本研究目的是提出一個架構,可以比較直接隱私保護以及間接隱私保護在關

聯規則議題下的隱私性的提升和資料可用性的流失,基於 tf-idf 的評估方法[31],

來衡量直接隱私保護和間接隱私保護後的資料隱私性的提升(privacy gain)和資料

可用性的流失(utility loss),因此在本研究中所提到的直接隱私保護和間接隱私保

護皆是基於關聯規則之上。此架構能夠評估被保護的資料經過關聯式規則的探勘

後,所得到隱私性的提升以及可用性的流失,我們對固定最小支持度(minimum

Page 8: 關聯式規則探勘隱私保護之隱私性 與可用性之評估 Evaluating … · 關聯式規則探勘隱私保護之隱私性 與可用性之評估 ... 獻探討,介紹資料的保護技術,間接隱私保護為k隱

4

support),0.1 和 0.15,變化最小可信度(minimum confidence),0.5~0.95,以及固

定最小可信度,0.8,變化最小支持度,0.05~0.25,作探討。而得到結果是直接隱

私保護所得到的隱私性的提升較小但是可用性的流失也較少,相反的間接隱私保

護所得到的隱私性的提升較高、可用性的流失也較高。

1.3 研究架構

在本研究裡,第一章為緒論,描述本研究之背景、動機與目的。第二章為文

獻探討,介紹資料的保護技術,間接隱私保護為 k 隱匿後之資料再進行關聯規則

探勘,基直接隱私保護則為關聯規則隱藏,本研究採用(Wang, S. L. et al., 2007)[27]

提出的 DCDS 和 DCIS 演算法。第三章為如何衡量直接隱私保護和間接隱私保護

的隱私性的提升以及資料可用性的流失之問題描述,說明本研究衡量隱私性的提

升還有資料可用性的流失的問題,並提出一個可以比較直接隱私保護和間接隱私

保護之間的隱私性的提升及資料可用性的流失之架構。第四章為實驗與結果分析,

利用變化關聯式規則中的最小支持度(minimum support)和最小可信度(minimum

confidence),觀察其中的隱私性的提升以及資料可用性的流失之變化,接著比較

直接隱私保護和間接隱私保護之間的隱私性的提升和資料可用性的流失。第五章

為結論和未來研究方向,闡述本研究的結果以及未來的研究方向。

Page 9: 關聯式規則探勘隱私保護之隱私性 與可用性之評估 Evaluating … · 關聯式規則探勘隱私保護之隱私性 與可用性之評估 ... 獻探討,介紹資料的保護技術,間接隱私保護為k隱

5

Chapter 2 間接隱私保護與直接隱私保護方法之文獻探討

隨著現在網路上的虛擬世界的活躍,資料的傳播、蒐集也更加快速,造就了

一個資料高度共享的社會,使得資料的隱私問題逐漸被重視。在某些時候資料需

要被發佈,像是為了研究、統計等等,而這些資料中若是含有資料擁有者的隱私

例如病人的病歷、學生的基本資料、員工的檔案等等,則會面臨著隱私被侵犯的

風險,對個人、企業都是不容忽視的危害。

間接的隱私保護有許多種,像是 k 隱匿[7][8][14][15][17][19][20][28]、l-

diversity[13]、t-Closeness[12]等等,這些都是在資料發佈前,對資料進行處理,

以免發佈之後的資料洩漏出隱私。以 k 隱匿來說是為了防止發佈的資料中敏感

的隱私被惡意的攻擊者獲得,k 隱匿要求發佈後的資料必須存在一定數量的無

法區分個體,從而讓惡意的攻擊者無法判斷出敏感的隱私屬於誰,以此達到保

護隱私的目的。k 隱匿須把資料的屬性分成三類。第一類是主要屬性,即為可

識別資料擁有者的屬性(Key Attribute)例如姓名、身分證字號等。第二類是準識

別屬性(Quasi-identifier),即為與主要屬性相關的資料例如年紀、性別、郵遞區

號等。第三類為敏感屬性(Sensitive attribute),即為資料擁有者的敏感資料,例

如疾病、收入等。圖 2.1 為原始資料表,其中姓名為主要屬性,年齡、性別、

住所、宗教為準識別屬性,疾病則為敏感屬性。經過 k 隱匿處理之後如圖 2.2

所示,除了主要屬性完全掩蓋(suppression),每一筆資料都至少有另一筆資料在

準辨識屬性上與其完全相同,其中年齡則是使用了一般化

(generalization)[19][20][24][25]。即使攻擊者得到此資料表,也無法分辨每筆資

料所對應的敏感屬性。k 隱匿的 k 是代表至少要有 k 筆資料的準辨識屬性完全

相同。在過去的研究中 k 隱匿有許多方法來達成,像是掩蓋、一般化等等。一

般化是將準辨識屬性的資料,以年齡為例,在同一個區間內的資料例如 25、

26、27 歲,變成以 20~30 歲來表示,如圖 2.2。掩蓋的方法則是直接將資料以

星號或是其他符號來表示,使得惡意攻擊者取得資料也無法辨識,以宗教為

Page 10: 關聯式規則探勘隱私保護之隱私性 與可用性之評估 Evaluating … · 關聯式規則探勘隱私保護之隱私性 與可用性之評估 ... 獻探討,介紹資料的保護技術,間接隱私保護為k隱

6

例,原本是基督教、佛教等,經過掩蓋方法後全都變成星號,如圖 2.2。本研究

使用掩蓋方法來做觀察結果的變化。

圖 2.1

圖 2.2

然而在先前的研究中 k 隱匿大多沒有針對敏感屬性做特別的保護,大多是

將其中準識別屬性做處理,使得惡意攻擊者沒辦法經由資料連結等方式來侵犯

到資料擁有者的隱私,但是在這之外惡意攻擊者可能經由資料探勘、背景知識

攻擊、一致性攻擊等方法來得知資料擁有者的隱私資訊[5]。例如攻擊者得到一

份 k 隱匿後的資料,被攻擊者所在的等價類別中,敏感資訊都是癌症,那麼攻

擊者很容易就能做出被攻擊者一定患有癌症的判斷,為了防止一致性攻擊新的

Page 11: 關聯式規則探勘隱私保護之隱私性 與可用性之評估 Evaluating … · 關聯式規則探勘隱私保護之隱私性 與可用性之評估 ... 獻探討,介紹資料的保護技術,間接隱私保護為k隱

7

隱私保護模型 l-diversity[13]改進了 k 隱匿,任何一個等價的類別中,敏感資訊

至少需要有 l 個不同的值,t-Closeness[12]在 l-diversity 的基礎上,要求這些敏

感資訊屬性的盡量平均分布。這些研究是針對於資料的一致性所做的保護,但

卻無法防止攻擊者使用資料探勘的技術來攻擊。

(Sramka, M., 2010)[21]等人提出了一個計算可用性的概念,將可用性分為好

的可用性以及壞的可用性,好的可用性是一般使用者所做的資料探勘,像是研

究、實驗等,如圖 2.3,壞的可用性則是惡意使用者所做的資料探勘,想要從中

找到敏感的資訊,像是疾病、宗教等等,此研究希望藉由 k 隱匿和差分隱匿

[16]將壞的可用性降低,結果顯示 k 隱匿效果較佳。(Sankar, L., 2010)[22][23]等

人,則是針對資料在隱匿前與隱匿後,之間資料的改動多寡作探討,使用了亂

度以及各種距離公式來衡量,希望可以找出隱私性高、資料不用改動太多的最

佳值。(He, Y., 2011)[9][29]是針對研究針對查詢(query)的結果的可用性作探討。

圖 2.3

直接隱私保護的目的是要防止惡意的資料探勘侵犯隱私資訊,例如保護關聯

式規則、分類、分群之結果不會透漏隱私[1][10][26][27]。本研究針對關聯式規則

作探討,關聯式規則就是一種資料探勘的技術[3],分析資料中每個項目,找出其

Page 12: 關聯式規則探勘隱私保護之隱私性 與可用性之評估 Evaluating … · 關聯式規則探勘隱私保護之隱私性 與可用性之評估 ... 獻探討,介紹資料的保護技術,間接隱私保護為k隱

8

中之間的關係,例如 A=>B。關聯強度則是使用支持度 (support)與可信度

(confidence)來衡量,支持度是指在資料中包含 A∩ B 的百分比,也就是機率

P(A∩B),可信度是指資料中包含了 A 也同時包含了 B 的百分比,也就是機率

P(B|A)。若滿足設定的最小支持度(minimum support)和最小可信度(minimum

confidence)的話,則該資料項目間存在有強關聯。

在過去的研究中(Pontikakis, E. D., 2004)[18]等人提出,關聯式規則的保護可

分為兩種,第一種是資料修改方法[4],概念是想要藉由直接修改原始資料來隱藏

探勘出來的關聯式規則,例如將某筆資料 A 修改為 C,或是直接將 A 以其他符

號取代,而這種方法並不能控制隱藏的效果。第二種則是資料重建方法

[10][27][26],概念是經由觀察探勘出來的結果,來修改原始資料,使得探勘結果

有所不同,達到隱藏敏感規則的效果。但是這些修改也會出現一些副作用,以關

聯式規則隱藏為例,新規則的出現、敏感規則沒有隱藏到等等都是副作用,而這

些副作用也往往被拿來當評估資料可用性的流失流失的指標,但是並沒有評估到

底獲取了多少的隱私性的提升的方法,在本研究中針對資料探勘中的關聯式規則,

根據(Wang S. L., 2007)[27]提出的對於關聯式規則保護(association rule hiding)敏

感的隱私資訊之方法 Decrease Confidence by Decrease Support(DCDS)以及

Decrease Confidence by Increase Support(DCIS),經由增減資料的支持度,來達到

降低資料的可信度,而使得想要隱藏的含有敏感隱私的關聯式規則,無法被資料

探勘找出來。下圖 2.4 是一個關於 DCDS 的例子。在這個例子中希望隱藏的敏感

規則為:{C=>A (66%, 100%), C=>B (50%, 75%)},想要對資料做隱匿的保護,在

原始的資料中,可探勘出來的敏感規則有四條,C=>B(33%, 50%)、AC=>B(33%,

50%)、C=>AB(33%, 50%)、C=>A(66%, 100%)。想要經由 DCDS 讓這四條關聯式

規則隱藏起來,便將項目中 TID 是 T1 的 ABC 改為 AC 來達到降低支持度,而

使得可信度也跟著下降,在這之後,能夠隱藏起來的關聯式規則為 C=>B(33%,

50%)、AC=>B(33%, 50%)、C=>AB(33%, 50%),雖然這三條關聯式規則經過 DCDS

Page 13: 關聯式規則探勘隱私保護之隱私性 與可用性之評估 Evaluating … · 關聯式規則探勘隱私保護之隱私性 與可用性之評估 ... 獻探討,介紹資料的保護技術,間接隱私保護為k隱

9

之後很好的被隱藏起來,但是還有一條 C=>A(66%, 100%)是想要隱匿卻沒隱匿

的,此為 DCDS 方法的副作用之一。另外一個副作用則是會隱匿到本來沒有想要

隱匿的規則,讓資料的資料可用性的流失產生預期外的變化,這個例子原本只想

要隱匿這四條敏感規則,C=>B(33%, 50%)、AC=>B(33%, 50%)、C=>AB(33%,

50%)、C=>A(66%, 100%),經過處理後只隱匿了其中三條,但卻連這三條

B=>C(33%, 66%)、AB=>C(33%, 66%)、B=>AC(33%, 66%),原本不想隱匿的,卻

因為將 TID 中 T1 的 ABC 改成 AB,而使得這三條關聯式規則也被隱匿起來。

圖 2.4

Page 14: 關聯式規則探勘隱私保護之隱私性 與可用性之評估 Evaluating … · 關聯式規則探勘隱私保護之隱私性 與可用性之評估 ... 獻探討,介紹資料的保護技術,間接隱私保護為k隱

10

Chapter 3 資料隱私性的提升及可用性的流失衡量之問題定

此章介紹本研究的問題定義。第一節介紹基於關聯規則之間接隱私保護與其

隱私性的提升以及資料可用性的流失之衡量和間接隱私保護之問題。第二節介紹

基於關聯規則之直接隱私保護與其隱私性的提升以及資料可用性的流失之衡量

和間接隱私保護之問題。

3.1 間接隱私保護

在間接隱私保護中想要達到的效果是,防止惡意的攻擊者經由資料的比對、

關聯等方法辨識出資料擁有者的敏感資訊像是疾病、收入等等,有許多的間接隱

私保護,例如 k 隱匿、l-diversity[13]、t-Closeness[12]等等,都是對於發布前的資

料做保護,使得資料發布後不會被惡意的攻擊者侵犯到隱私。以 k 隱匿來說,下

表 3.1 為一個原始資料(Original Database, OD),準辨識屬性(Quasi-identifier)為年

齡(Age)、 受教育程度(Education-num)、工作(Occupation),敏感屬性(Sensitive

attribute)為薪水(Salary)。k 隱匿的目的是讓經過 k 隱匿處理的資料,其準辨識資

料,有 k-1 筆相同,而無法辨識出敏感資料是哪筆資料所擁有。以表 3.2(k-

anonymity Database, KAD)為例,經過 k 隱匿(k = 3)的處理,除了本身之外還有兩

筆資料的準辨識資料是相同的。 同底色的表格為一組,都有著相同的準辨識資

料,紅色的字為經過修改的資料。

衡量 k 隱匿之隱私性的提升皆為 k 值大小,k 越大則隱私性的提升越高,以

表 3.2 這個例子來說是 k=3,而資料可用性的流失可以用亂度(entropy)為基礎來

計算,其原始公式為entropy(H) = −(p(a) × log(p(a)) − p(b) × log(p(b)),

(Krause, A., 2008)[11]中提到,想要計算使用者對於搜尋結果的點擊次數之可用性,

是以觀察 entropy 值的變化來衡量可用性之變化。以 entropy 原始公式為例,正值

表示資料可用性的流失有上升,負值表示資料可用性的流失的下降,a 代表 k 隱

Page 15: 關聯式規則探勘隱私保護之隱私性 與可用性之評估 Evaluating … · 關聯式規則探勘隱私保護之隱私性 與可用性之評估 ... 獻探討,介紹資料的保護技術,間接隱私保護為k隱

11

匿之前的資訊出現機率,b 代表 k 隱匿之後資訊出現的機率。以表 3.2 隱匿前的

A1 為例,entropy = −(p (5

9) × log (p (

5

9)) − p (

3

9) × log (p (

3

9)) = −0.01722236,

代表 k 隱匿後的資料可用性的流失下降,但隱私性的提升則增高。

經過了 k 隱匿之後,隱私性的提升雖然有提高,但卻沒有針對資料探勘(Data

Mining)的結果做保護,如果有惡意攻擊者使用資料探勘,例如關聯式規則

(Association Rules),則想要隱藏的敏感資訊還是有可能會暴露。下面用原本的資

料為例,先對原始資料做關聯式規則的探勘,在圖 3.3 中,首先是以表 3.1 的原

始資料 (Original Database)做關聯式規則的探勘,設定最小支持度 (minimum

support)為 15%和最小可信度(minimum confidence)為 80%,最後是敏感的資訊,

在這個例子中把薪水部分的 S1 視為敏感資訊。接著在圖 3.3 中下方右邊是關聯

式規則所得到的結果,總共有十條規則,分別是 E1=>S2、S1=>E2、(A1, S2)=>E1、

(A1, E1)=>S2、(A1, S1)=>E2、(A1, E2)=>S1、(A2, O2)=>S1、(O3, S2)=>E1、(E1,

O3)=>S2、(O2, S2)=>E1,而其中第六條(A1, E2)=>S1 和第七條(A2, O2)=>S1 包

含了敏感的資料 S1,這是還沒經過 k 隱匿處理得到的結果。在圖 3.4 中,首先是

以表 3.2 的經過 k 隱匿處理的資料(k-anonymity Database)做關聯式規則的探勘,

設定最小支持度(minimum support)和最小可信度(minimum confidence)與圖 3.3 相

同的數值分別為 15%、80%,最後是敏感的資訊 S1,希望能夠隱藏 S1 在右項的

規則,不被關聯式規則探勘所找出來。接著在圖 3.4 中下方右邊是關聯式規則所

得到的結果,總共有十條規則,分別是 A1=>E1、O3=>A1、A1=>O3、E2=>A2、

O1=>A2、(A2, O2)=>S1、O3=>E1、O2=>E1、O1=>E2、O2=>A2,而其中第六條

(A2, O2)=>S1 包含了敏感資料 S1。在最小支持度、最小可信度以及敏感的資訊

都跟對原始資料相同的情況下,經過 k 隱匿之後做關聯式規則的探勘之結果,可

發現包含敏感資料的規則只剩下一條,代表 k 隱匿對這個資料是有保護,但並無

法完全消除潛在隱私洩漏的風險。更明顯的則是關聯式規則的結果幾乎完全是不

一樣的,這也代表 k 隱匿對資料探勘的結果會產生不小的干擾,是為一個副作

Page 16: 關聯式規則探勘隱私保護之隱私性 與可用性之評估 Evaluating … · 關聯式規則探勘隱私保護之隱私性 與可用性之評估 ... 獻探討,介紹資料的保護技術,間接隱私保護為k隱

12

用。由於 k 隱匿並不是針對資料探勘的結果去做保護,以及無法完全消除潛在隱

私洩漏的風險,加上先前大多的研究都是在衡量 k 隱匿之後資料可用性的流失,

較少探討對資料做 k 隱匿後,再做關聯式規則探勘,並計算可用性的流失以及隱

私性的提升。本研究希望能夠提出一個方法架構對於 k 隱匿之後的資料做關聯式

規則後的結果,能夠衡量資料可用性的流失及隱私性的提升,並且能夠和其他隱

私保護的方法做比較。

ID Age Education-

num Occupation Salary

1 A1 E1 O3 S2

2 A1 E1 O1 S2

3 A1 E2 O3 S1

4 A1 E1 O2 S2

5 A2 E1 O2 S1

6 A2 E2 O2 S1

7 A2 E2 O1 S2

8 A2 E1 O3 S2

9 A1 E2 O1 S1

表 3.1(Original Database, OD)

ID Age Education-

num Occupation Salary

1 A1 E1 O3 S2

2 A1 E1 O3 S2

3 A1 E1 O3 S1

4 A2 E1 O2 S2

5 A2 E1 O2 S1

6 A2 E1 O2 S1

7 A2 E2 O1 S2

8 A2 E2 O1 S2

9 A2 E2 O1 S1

表 3. 2(k-anonymity Database, KAD)

Page 17: 關聯式規則探勘隱私保護之隱私性 與可用性之評估 Evaluating … · 關聯式規則探勘隱私保護之隱私性 與可用性之評估 ... 獻探討,介紹資料的保護技術,間接隱私保護為k隱

13

圖 3.3(Original Database Association Rules)

圖 3.4(k-anonymity Database Association Rules)

3.2 直接隱私保護

在直接隱私保護中想要達到的效果是,對於直接隱私保護後的資料,做資料

探勘之結果,能夠有直接的隱私保護,防止惡意的攻擊者使用資料探勘的方式例

如關聯式規則、分類、分群等等,來獲取資料擁有者的隱私資訊。(Wang, S. L. et

Page 18: 關聯式規則探勘隱私保護之隱私性 與可用性之評估 Evaluating … · 關聯式規則探勘隱私保護之隱私性 與可用性之評估 ... 獻探討,介紹資料的保護技術,間接隱私保護為k隱

14

al., 2007)[27]提出的 Decrease Confidence by Decrease Support(DCDS),是保護關

聯式規則之結果的方法,其目的是為了保護對於資料做關連式規則後的隱私暴露

的可能。以表 3.1 和其關聯式規則結果圖 3.3 為例,依照先前例子將敏感資料設

定為 S1,希望隱藏 S1 在右項的規則,此方法是以最小支持度(minimum support)、

最小可信度(minimum confidence)來判定是否達到目的,經由修改原始資料,使得

最小支持度或最小可信度下降到預先設定好的值,本研究設定最小支持度 0.15、

最小可信度 0.8,因為這在這樣的條件下所得到的敏感關聯規則相對來說較多,

能夠更直接的保護到資料。接著對原始資料做 DCDS 的處理,但因為資料不是交

易資料的型態(transaction database),所以本研究將本來是要刪除的資料,以新的

資料取代,例如 A1 取代為 X,經過了 DCDS 的資料如表 3.5,對於表 3.5 做關聯

式規則的探勘所得到的結果在圖 3.6,總共有十條規則,Y=>E1、A2=>E2、(A1,

S2)=>E1、(A1, E1)=>S2、(O3, S2)=>E1、(E1, O3)=>S2、(A1, O3)=>E1、(A1, O2)=>E1、

(A1, O1)=>E2、(A1, E2)=>O1,可以發現而需要隱藏 S1 在右項的規則也被完全

隱藏了而,Y=>E1、A2=>E2、(A1, O3)=>E1、(A1, O2)=>E1、(A1, O1)=>E2、(A1,

E2)=>O1 皆是新出現的規則,這為 DCDS 的副作用。

本研究中使用的直接隱私保護方法是針對敏感的關聯式規則結果去做保護,

比間接隱私保護更加針對敏感資料所做的資料探勘結果之隱私洩漏風險來保護,

本研究希望提出一個能夠將直接隱匿以及間接隱匿保護程度的比較、量化方法架

構,此架構能夠比較直接隱私保護以及間接隱私保護的資料可用性的流失以及隱

私性的提升。

Page 19: 關聯式規則探勘隱私保護之隱私性 與可用性之評估 Evaluating … · 關聯式規則探勘隱私保護之隱私性 與可用性之評估 ... 獻探討,介紹資料的保護技術,間接隱私保護為k隱

15

ID Age Education-

num Occupation Salary

1 A1 E1 O3 S2

2 A1 E1 O1 S2

3 X E2 O3 S1

4 X E1 O2 S2

5 Y E1 O2 S1

6 A2 E2 O2 S1

7 A2 E2 O1 S2

8 A2 E1 O3 S2

9 Y E2 O1 S1

表 3.5(DCDS Database, DAD)

圖 3.6(DCDS Database Association Rules)

Page 20: 關聯式規則探勘隱私保護之隱私性 與可用性之評估 Evaluating … · 關聯式規則探勘隱私保護之隱私性 與可用性之評估 ... 獻探討,介紹資料的保護技術,間接隱私保護為k隱

16

Chapter 4 衡量資料可用性的流失以及隱私性的提升之方法

先前的直接隱私保護方法,大多都用對於資料的影響或是副作用來衡量結果。

而間接隱私保護也較少有研究討論對於隱匿過後的資料作探勘,並衡量其探勘結

果的資料可用性的流失和隱私性的提升。對於如何衡量評估資料探勘後的隱私性

的提升以及資料可用性的流失,本研究提出一個架構方法,可以互相衡量比較。

表 4.1 為本研究使用符號以及其定義。

OD Original database, OD = {R1, 2, …, Rt}

MD Modified database, MD = {R’1, R’2, …, R’t }

KAD Modified database by k-anonymity technique

DAD Modified database by association rule hiding algorithm(DCDS, DCIS)

Ri A relational data in original database

R’i A relational data in modified database

I A set of items in database

S A set of sensitive items, which need to be hidden in data mining

slii A sensitive large itemset in database

lij A large itemset in database

slij,i A ratio of sensitive large itemset slij in a transaction Ti

lij,i A ratio of large itemset lij in a transaction Ti

idfj The inverse database frequency for large itemset lij

swi The importance of sensitive large itemset slij in a transaction Ti

wi The importance of large itemset lij in a transaction Ti

表 4.1

4.1 各項符號定義

Definition 1. (ratio of sensitive large itemsets)

I={i1, i2, …, im},是一個項目的集合(set of items),使用者特定的敏感項目

Page 21: 關聯式規則探勘隱私保護之隱私性 與可用性之評估 Evaluating … · 關聯式規則探勘隱私保護之隱私性 與可用性之評估 ... 獻探討,介紹資料的保護技術,間接隱私保護為k隱

17

(sensitive items)為,S={s1, s2, …, sn},這些項目在資料探勘後是希望被隱藏起來的,

且 SI。敏感的大項集合(sensitive large itemsets),包含了敏感的項目。SLI={sli1,

sli2, …, slik},大項目敏感資訊的出現機率定義為下:

𝑠𝑙𝑖𝑗,𝑖 =|𝑠𝑙𝑖𝑗|

|𝑅𝑖|

|slij|是在資料 Ri裡面的敏感的大項集合中的敏感項目數量,|Ri|是關係資料 Ri中

的資料項目數量。

Definition 2. (inverse database frequency)

I={i1, i2, …, im},是一個項目的集合(set of items),大項目集合(large itemsets)

是指支持度(support)大於最小支持度(minimum support)的項目,LI={li1, li2, …, lil}。

資料頻率倒數定義如下:

idfj = log|DB|

fj

fj 是 lij 出現在資料中的數量, 且|DB| 總共的關係資料數量

Definition 3. (ratio of large itemsets)

I={i1, i2, …, im},是一個項目的集合(set of items),大項目集合(large itemsets)

是指支持度(support)大於最小支持度(minimum support)的項目,LI={li1, li2, …, lil}。

大項目集合(large itemsets)出現的機率定義如下:

lij,i =|lij|

|Ti|

|lij|是在關係資料 Ri中大項目集合 lij的項目數量, 且|Ri|是關係資料 Ri中的資料

項目數量。

Page 22: 關聯式規則探勘隱私保護之隱私性 與可用性之評估 Evaluating … · 關聯式規則探勘隱私保護之隱私性 與可用性之評估 ... 獻探討,介紹資料的保護技術,間接隱私保護為k隱

18

4.2 隱私性的提升和可用性的流失之計算公式

敏感大項目的集合之重要程度,對於每筆關係資料的公式如下:

swi = ∑ slij,i × idfjj (1)

swi 是在整個關係資料 Ri中敏感大項目的集合之重要程度,slij,i是大敏感項

目slij在 Ri 中的出現率,idfj是大敏感項目slij資料出現頻率的倒數,在 Ri 中每一

筆資料都有一個敏感大項目的集合之重要程度,這些數值集合起來為一個敏感大

項目的集合之重要程度的向量。

大項集合(large itemsets)的重要性之公式如下:

wi = ∑ lij,i × idfjj (2)

wi是 Ri裡面大項目集合的重要性,lij,i是大項目集合lij在 Ri中出現的機率,

idfj是大項目集合lij的資料頻率之倒數。在 Ri 之中每筆資料都有一個大資料集合

的重要程度,這些數值集合起來為一個大資料集合的重要程度之向量。

敏感大項目集合,對於關聯式規則所產生有敏感項目的規則,影響非常大。

基於敏感大項目集合的重要程度,本研究針對關聯式規則提出了一個衡量隱私性

的提升以及資料可用性的流失的方法,此方法是基於原始資料和修改後資料之間

的距離來計算。讓敏感大項目資料集合的重要程度之向量,對於原始資料和修改

過後的資料分別表示為SODT=[sw1, sw2, … swt] 以及SMDT=[sw’1, sw’2, … sw’ t]。

隱私性的提升定義為 SOD 和 SMD 兩向量間的距離:

privacy gain(SOD⃑⃑⃑⃑⃑⃑ ⃑⃑ , SMD⃑⃑⃑⃑⃑⃑ ⃑⃑ ⃑) = 1 −SOD∙SMD

‖SOD‖×‖SMD‖ (3)

所有的大項資料集合,對於資料探勘的結果都有很高的影響力,所以本研究

提出一個衡量資料可用性的流失的方法,是經由計算這兩個向量的距離,原始資

料以及修改過後的資料的大項資料集合之重要性。讓原始資料和修改過後的資料,

大項目資料集合的重要程度之向量分別表示為 LODT=[w1, w2, … wt] 以及

LMDT=[w’1, w’ 2, … w’ t]。資料可用性的流失的流失定義為 LOD 和 LMD 兩向量

Page 23: 關聯式規則探勘隱私保護之隱私性 與可用性之評估 Evaluating … · 關聯式規則探勘隱私保護之隱私性 與可用性之評估 ... 獻探討,介紹資料的保護技術,間接隱私保護為k隱

19

間的距離:

utility loss(LOD⃑⃑⃑⃑ ⃑⃑ ⃑⃑ , LMD⃑⃑⃑⃑ ⃑⃑ ⃑⃑ ⃑) = 1 −LOD∙LMD

‖LOD‖×‖LMD‖ (4)

4.3 隱私性的提升計算例子

使用的原始資料為表 3.1,給予的最小可信度和最小支持度分別為 0.8 和 0.15,

而右項為 S1 的規則,視為敏感。第一個方法是用 k 隱匿,之後再對修改過的資

料做關聯式規則探勘,觀察其變化。第二個方法是用 DCDS,之後再對修改過的

資料做關聯式規則探勘,觀察其變化。

首先,對原始資料做關聯式規則,結果在圖 3.3,接著對原始資料做 k 隱匿,

k=3,其結果為表 3.2,而對表 3.2 做關聯式規則探勘之結果為圖 3.4。比較圖 3.3

及圖 3.4 之差別,敏感規則由兩條變成一條,少了一條敏感的規則,若要以公式

(3)計算其隱私性的提升或是公式(4)計算資料可用性的流失,則必須先由公式(1)

計算每筆資料的值,取得 LOD 和 LMD 向量或是 SOD 和 SMD,方可計算。以

原始資料第一筆的資料可用性的流失計算為例:

𝑤1 = ∑𝑙𝑖𝑗,1 × 𝑖𝑑𝑓𝑗

10

𝑗=1

=2

4× 𝑙𝑜𝑔

9

4+

3

4× 𝑙𝑜𝑔

9

3+

3

4× 𝑙𝑜𝑔

9

3+

3

4× 𝑙𝑜𝑔

9

3+

2

4× 𝑙𝑜𝑔

9

2+

3

4

× 𝑙𝑜𝑔9

2+

3

4× 𝑙𝑜𝑔

9

2=2.229432853

為了計算資料可用性的流失,以相同算法對原始資料和修改過後的資料,每

筆資料都做計算,最後得到的向量結果為[2.23, 1.25, 0.73, 1.97, 1.97, 0.49, 0.73, 0,

1.16, 0.73]。而 k 隱匿後的資料(KAD)所計算出來為 [0.95, 0.95, 0.95, 0.72, 1.2, 1.2,

0.47, 0.47, 0.47],接著便可以使用第公式(4)來計算其可用的流失,計算過程如下:

Page 24: 關聯式規則探勘隱私保護之隱私性 與可用性之評估 Evaluating … · 關聯式規則探勘隱私保護之隱私性 與可用性之評估 ... 獻探討,介紹資料的保護技術,間接隱私保護為k隱

20

Utility loss(OD⃑⃑ ⃑⃑ ⃑, KAD⃑⃑ ⃑⃑ ⃑⃑ ⃑⃑ ) = 1 −

2.23×0.95+1.25×0.95+0.73×0.95+1.97×0.72+1.97×1.2+0.49×1.2+0.73×1.2+0×0.47+1.16×0.47+0.73×0.47

‖√2.232+1.252+0.732+1.972+1.972+0.492+0.732+02+1.162+0.732‖×‖√0.952+0.952+0.952+0.722+1.22++1.22+0.472+0.472+0.472‖=

0.13761142

若要以公式(3)計算其隱私性的提升,則需先計算 SOD 和 SMD 向量。以原

始資料第三筆為例:

swi = ∑ slij,i × idfjj

=2

4× 𝑙𝑜𝑔

9

4= 0.489909385

計算隱私性的提升,以相同算法對原始資料和修改過後的資料,每筆資料都

做計算,最後得到的向量結果為[0, 0, 0.49, 0, 0.49, 0.49, 0, 0, 0.49, 1.96]。取得修

改前後的向量後,便可以計算隱私性的提升。

4.4 衡量隱匿過後的資料與原始資料的差異 (KL-divergence)

對於資料隱匿的前後,為了達到資料的隱私性,像是 k 隱匿需要修改過後的

資料有 k 筆相同,使得敏感資訊能夠不被辨識出來的這個目的,需要修改一些資

料來達到,而資料改動後與資料改動前的原始資料,可以用改動的資料數量來衡

量兩者之間的差異,本研究除了計算改動資料數量之外,也採用 KL- divergence

來衡量原始資料與改動後的資料之間的差異。公式如下:

kl − divergence (𝑔, 𝑓) = ∑ ∏ 𝑔𝑖,𝑗(𝑥) × 𝑙𝑜𝑔

𝑔𝑖,𝑗(𝑥)

𝑓𝑖,𝑗(𝑥)

𝑚

𝑗=1

𝑛

𝑖=1

在這公式中 g 代表的是原始資料,f 代表修改過後的資料,x 是資料中的屬

性,像是年齡、受教育年限等等。把除了敏感屬性,薪水,之外的所有屬性經過

計算後相乘,之後加總,便可以得到最終的 KL-divergence 的值。值越大代表改

動過的資料與原始資料的差異越大。

Page 25: 關聯式規則探勘隱私保護之隱私性 與可用性之評估 Evaluating … · 關聯式規則探勘隱私保護之隱私性 與可用性之評估 ... 獻探討,介紹資料的保護技術,間接隱私保護為k隱

21

Chapter 5 實驗與結果分析

5.1 實驗環境與資料集

為了評估本研究所提出的架構方法,使用實際的資料集,adult dataset,來自

於 UCI Machine Learning Repository,此資料集有 48842 筆資料,14 個屬性。在

本研究中,我們選擇了三個屬性作為準辨識屬性(QI),分別是年齡(age)、教育年

齡(education-num)、職業(occupation),和一個屬性作為敏感屬性(SI),薪水(salary)。

我們依照順序,取前 20000 筆資料,以這四個屬性,來做實驗。本研究是在 Intel

Xeon E3-1230 v2 3.3-GHz CPU 和 8G RAM 的電腦硬體下進行實驗,作業系統為

Windows 10。用來探勘關聯式規則的軟體為 WEKA。

以下實驗為比較直接隱私保護與間接隱私保護,直接隱私保護為掩蓋法的 k

隱匿,調整 k,使得 k=2、4、6、8、10,間接隱私保護為 DCDS 以及 DCIS,資

料做完隱匿之後在對其做關聯式規則探勘,最後計算隱私性的提升以及資料可用

性的流失,評估各變數的表現。

5.2 實驗分析與討論

為了比較隱匿過後的資料之隱私性的提升及資料可用性的流失,本研究先將

資料做隱匿,隱匿方法為 k 隱匿(k=2、4、6、8、10)、DCDS、DCIS,再來對隱

匿過後的資料做關聯式規則探勘。在實驗中,固定最小支持度(minimum support)

為 0.15 以及 0.1,變化最小可信度(minimum confidence)0.5、0.55、0.6、0.65、0.7、

0.75、0.8、0.85、0.9、0.95,以及固定最小可信度為 0.8,變化最小支持度 0.05、

0.09、0.13、0.17、0.25,藉此來評估隱私性的提升的變化(privacy gain)以及資料

可用性的流失的變化(utility loss)。

圖 5.1 是最小支持度為 0.15,變化最小可信度由小到大,資料可用性的流失

的實驗結果。由圖 5.1 可以看出隨著最小可信度的增加,k 隱匿過的資料上升的

Page 26: 關聯式規則探勘隱私保護之隱私性 與可用性之評估 Evaluating … · 關聯式規則探勘隱私保護之隱私性 與可用性之評估 ... 獻探討,介紹資料的保護技術,間接隱私保護為k隱

22

趨勢較為明顯尤其在 0.8~0.85 之間變化最為劇烈,因為 k 隱匿並不是針對敏感

的關聯規則去做隱私保護,所以資料可用性的流失在可信度越大、所能探勘出來

的規則越少的時候會更為明顯。

圖 5.2 最小支持度為 0.15,變化最小可信度由小到大,隱私性的提升的實驗

結果。可以發現 k 隱匿的數據和 DCDS、DCIS 有明顯的區隔,因為兩者的保護

方法不同,DCDS、DCIS 是直接對某些敏感的規則做隱私保護,相較於 k 隱匿對

於整個原始資料做隱私保護,隱私性的提升是比較低的,這點在其他圖中也都是

一樣的結果。

圖 5.1 以及 5.2 的實驗數據都只有到 0.85,是因為在最小支持度 0.15 之下,

最小可信度到了 0.85 已經是極限,所能探勘出來的規則都只剩下 1~2 條,若是

把最小支持度固定、最小可信度繼續增加則會得到探勘不出規則的結果,但是把

最小支持度放寬到 0.1,則最多能探勘到 0.95,如圖 5.3 及圖 5.4 表示。

圖 5.3 最小支持度為 0.1,變化最小可信度由小到大,資料可用性的流失的

實驗結果。和最小支持度為 0.15 時一樣最小可信度在 0.8~0.85 時資料可用性的

流失的值會上升很多,但是到了 0.95 的時候又降了下來,因為關聯式規則的數

量在 0.95 的時候遽然減少,造成所得到的值也跟著下降。k 隱匿和 DCDS、DCIS

也和最小支持度為 0.15 時一樣有區隔。

圖 5.4 最小支持度固定為 0.1,變化最小可信度由小到大,隱私性的提升的

實驗結果。在 0.95 的時候也是因為關聯式規則的數量遽減,所得到的值也跟著

遽降。因為 k 隱匿是對於整個原始資料做保護,所以線條都是在 DCDS、DCIS

的上方,也就是流失的可用較多,得到的隱私也較多。

圖 5.5 最小可信度固定為 0.8,變化最小支持度由小到大,可用性的流失的

實驗結果。變化最小支持度的結果是一開始得到的值非常高,後面則是變化較少,

這也反應了在最小支持度較小的時候,在每個保護過後的資料中,能用關聯式規

Page 27: 關聯式規則探勘隱私保護之隱私性 與可用性之評估 Evaluating … · 關聯式規則探勘隱私保護之隱私性 與可用性之評估 ... 獻探討,介紹資料的保護技術,間接隱私保護為k隱

23

則探勘出來的規則都和原始資料探勘出來的規則差異較小,所得到的向量也較為

相似,經過計算所得到的值也就較大。

圖 5.6 最小可信度固定為 0.8,變化最小支持度由小到大,隱私性的提升的

實驗結果。同圖 5.5,在最小支持度為 0.05 的時候,所得到的值相較於其他最小

支持度高,另外 k 隱匿和 DCDS、DCIS 的區隔更為明顯,這也說明間接的隱私

保護能夠獲得較高的隱私性的提升,但可用性的流失也較多。從以上這幾張圖都

可以看到明顯的 k 隱匿和 DCDS、DCIS 的區隔,但是也可看出 k 隱匿本身並無

明顯分隔,因為 k 隱匿並不是針對關聯式規則去做保護,對於探勘出來的關聯式

規則並沒有直接的影響,造成 k 值大小較不會影響計算出來的結果,使得 k 隱匿

的數據只是在相似的位置,並沒有 k 值大隱私高的現象。

資料的改動,有隱私性的提升,也有可用性的流失。另一方面資料改動的目

的是為隱藏敏感的關聯式規則,為了評估間接的隱私保護以及直接的隱私保護之

效果,本研究針對資料改動後的效果及副作用來探討。對於隱藏含有敏感資訊的

規則、總共被刪除的規則、新增規則這三個部分作分析,固定最小支持度為 0.15,

變化最小可信度 0.5、0.55、0.6、0.65、0.7、0.75、0.8、0.85,以及固定最小可信

度為 0.8,變化最小支持度 0.05、0.09、0.13、0.17、0.25

圖 5.7 看出來針對關聯式規則的隱藏,需要改動的資料比較少,也就是資料

可用性的流失與 k 隱匿相比之下較少,但獲得的隱私也沒有 k 隱匿多,而 k 隱匿

則是相反,改動的資料比率大於 DCDS、DCIS 許多,所以流失的隱私相較之下

多出很多,但相對得到的隱私也較高。更進一步,本研究對於每個隱匿資料的方

法,使用 KL-divergence 方法來衡量對於資料隱匿前後的差異,得到的結果如表

5.8。因為 DCDS、DCIS 的方法設定最小支持度 0.15、最小可信度 0.8,所以對

DCDS、DCIS 的 KL-divergence 在此條件數值下做計算。可以看出 DCDS、DCIS

這兩個方法 KL-divergence 的值小於其他 k 隱匿很多,因為 DCDS、DCIS 是針對

探勘出來的關聯式規則去做隱私保護,而 k 隱匿是對於全部資料作保護,所改動

Page 28: 關聯式規則探勘隱私保護之隱私性 與可用性之評估 Evaluating … · 關聯式規則探勘隱私保護之隱私性 與可用性之評估 ... 獻探討,介紹資料的保護技術,間接隱私保護為k隱

24

到的資料相對比較多,得到的 KL-divergence 值也就比較大。

如圖 5.9新增的關聯式規則由 k=10的百分比最多,也因為最小支持度在 0.13

之後的關聯式規則越來越少,與原始的關聯式規則之差異也就越來越小。k=2 在

最小支持度 0.17 的時候,百分比會大於 k=4、6、8、10 是因為關聯式規則的總

數量較少,但新增的關聯式規則數量都為一條,所以會像圖 5.9 所示。圖 5.10 顯

示了 k=2、DCDS、DCIS 所刪除的關聯式規則百分比較少,而其他則反之。在

k=4、6、8、10 且最小支持度在 0.17~0.25 的時候,都是刪除了一條關聯式規則,

但因為總關聯式規則只有四條,所以百分比皆為 25。圖 5.11 可見隱匿過的資料

大多都有新增的關聯式規則,而 k=10 和 k=8 最為明顯,在最小可信度較高的時

候,關聯式規則的總較較少,造成分母較小,導致新增關聯式規則即使只有一兩

條,百分比變很高,也因為最小支持度在 0.13 之後所能探勘出的關聯式規則越

來越少,與原始的關聯式規則之差異也沒有很顯著。k=2 在最小支持度 0.17 的時

候,百分比會大於 k=4、6、8、10 是因為總關聯式規則的數量較少,但新增的關

聯式規則都為一條,所佔的百分比才會如圖 5.11 所示。

由圖 5.12 可見 k=10 可隱藏敏感資訊最多,DCDS 和 DCIS 在最小可信度 0.6

之前的效果較佳,k=2~8 則是最小可信度到了 0.7 之後才較無法隱藏含有敏感資

訊的關聯式規則,因為當最小可信度在 0.7 以上的時候,每個隱匿過後的資料所

探勘出來的關聯式規則都非常相似,對於隱藏敏感規則也就沒有顯著的效果。由

圖 5.13 可見被刪除的關聯式規則在最小可信度 0.6 之後降低的較為明顯,大多是

與原始資料的關聯式規則相似,也就沒有被刪除的關聯式規則,換句話說是最小

可信度在 0.6 之前所探勘到的關聯式規則差異較顯著。

這些資料改動後的效果以及副作用,在最小可信度與最小支持度數值較小的

情況下,因為所能探勘到的關聯式規則較為多樣化,也就造成了差異較為顯著。

除了最小可信度與最小支持度影響之外,對於資料改動的影響也是在越多的時候,

越為明顯,像是 k=8 和 k=10,對於資料的改動最多,在隱藏含有敏感資訊的規

Page 29: 關聯式規則探勘隱私保護之隱私性 與可用性之評估 Evaluating … · 關聯式規則探勘隱私保護之隱私性 與可用性之評估 ... 獻探討,介紹資料的保護技術,間接隱私保護為k隱

25

則、總共被刪除的規則、新增規則這三個百分比結果中,往往也是較好的,但在

最小支持度與最小可信度高的情況下,每個隱匿方法所改動的資料中能探勘到的

關聯式規則較為相似,因此結果並沒有顯著優於其他資料隱匿的方法。也就是在

最小支持度與最小可信度高的情況下,資料的改動影響較小,而在最小支持度與

最小可信度低的情況下,資料改動的影響較為顯著。

圖 5.1 (minimum support = 0.15 之 utility loss 實驗結果)

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0 . 5 0 . 5 5 0 . 6 0 . 6 5 0 . 7 0 . 7 5 0 . 8 0 . 8 5

UT

ILIT

Y L

OS

S

MINIMUM CONFIDENCE

UTILITY LOSS

k=2 k=4 k=6 k=8 k=10 DCDS DCIS

Page 30: 關聯式規則探勘隱私保護之隱私性 與可用性之評估 Evaluating … · 關聯式規則探勘隱私保護之隱私性 與可用性之評估 ... 獻探討,介紹資料的保護技術,間接隱私保護為k隱

26

圖 5.2 (minimum support = 0.15 之 privacy gain 實驗結果)

圖 5.3 (minimum support = 0.1 之 utility loss 實驗結果)

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0 . 5 0 . 5 5 0 . 6 0 . 6 5 0 . 7 0 . 7 5 0 . 8 0 . 8 5

PR

IVA

CY

GA

IN

MINIMUM CONFIDENCE

PRIVACY GAIN

k=2 k=4 k=6 k=8 k=10 DCDS DCIS

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0 . 5 0 . 5 5 0 . 6 0 . 6 5 0 . 7 0 . 7 5 0 . 8 0 . 8 5 0 . 9 0 . 9 5

UT

ILIT

Y L

OS

S

MINIMUM CONFIDENCE

UTILITY LOSS

k=2 k=4 k=6 k=8 k=10 DCDS DCIS

Page 31: 關聯式規則探勘隱私保護之隱私性 與可用性之評估 Evaluating … · 關聯式規則探勘隱私保護之隱私性 與可用性之評估 ... 獻探討,介紹資料的保護技術,間接隱私保護為k隱

27

圖 5.4 (minimum support = 0.1 之 privacy gain 實驗結果)

圖 5.5 (minimum confidence = 0.8 之 utility loss 實驗結果)

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0 . 5 0 . 5 5 0 . 6 0 . 6 5 0 . 7 0 . 7 5 0 . 8 0 . 8 5 0 . 9 0 . 9 5

PR

IVA

CY

GA

IN

MINIMUM CONFIDENCE

PRIVACY GAIN

k=2 k=4 k=6 k=8 k=10 DCDS DCIS

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

0 . 0 5 0 . 0 7 0 . 0 9 0 . 1 1 0 . 1 3 0 . 1 5 0 . 1 7 0 . 1 9 0 . 2 1 0 . 2 3 0 . 2 5

UT

ILIT

Y L

OS

S

MINIMUM SUPPORT

UTILITY LOSS

k=2 k=4 k=6 k=8 k=10 DCDS DCIS

Page 32: 關聯式規則探勘隱私保護之隱私性 與可用性之評估 Evaluating … · 關聯式規則探勘隱私保護之隱私性 與可用性之評估 ... 獻探討,介紹資料的保護技術,間接隱私保護為k隱

28

圖 5.6 (minimum confidence = 0.8 之 privacy gain 實驗結果)

圖 5.7 各個隱匿所改動的資料比率

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

0 . 0 5 0 . 0 7 0 . 0 9 0 . 1 1 0 . 1 3 0 . 1 5 0 . 1 7 0 . 1 9 0 . 2 1 0 . 2 3 0 . 2 5

PR

IVA

CY

GA

IN

MINIMUM SUPPORT

PRIVACY GAIN

k=2 k=4 k=6 k=8 k=10 DCDS DCIS

0.2764875

0.2805375

0.2880625

0.3080625

0.3182625

0.1265247

0.1539578

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35

k=2

k=4

k=6

k=8

k=10

DCDS

DCIS

資料改動率

隱匿技術

資料改動

Page 33: 關聯式規則探勘隱私保護之隱私性 與可用性之評估 Evaluating … · 關聯式規則探勘隱私保護之隱私性 與可用性之評估 ... 獻探討,介紹資料的保護技術,間接隱私保護為k隱

29

表 5.8 KL-divergence 之數值結果

圖 5.9 (minimum confidence = 0.8 之隱藏含有敏感關聯式規則結果)

0

20

40

60

80

100

120

0.09 0.13 0.17 0.21 0.25

MINIMUM SUPPORT

隱藏含有敏感資訊的關聯式規則 (百分比)

DCDS DCIS k=2 k=4 k=6 k=8 k=10

Page 34: 關聯式規則探勘隱私保護之隱私性 與可用性之評估 Evaluating … · 關聯式規則探勘隱私保護之隱私性 與可用性之評估 ... 獻探討,介紹資料的保護技術,間接隱私保護為k隱

30

圖 5.10 (minimum confidence = 0.8 之總共被刪除的關聯式規則結果)

圖 5.11 (minimum confidence = 0.8 之新增的關聯式規則結果)

0

5

10

15

20

25

30

0.09 0.13 0.17 0.21 0.25

MINIMUM SUPPORT

總共被刪除的關聯式規則 (百分比)

DCDS DCIS k=2 k=4 k=6 k=8 k=10

0

20

40

60

80

100

120

140

160

180

200

0.09 0.13 0.17 0.21 0.25

MINIMUM SUPPORT

新增的關聯式規則(百分比)

DCDS DCIS k=2 k=4 k=6 k=8 k=10

Page 35: 關聯式規則探勘隱私保護之隱私性 與可用性之評估 Evaluating … · 關聯式規則探勘隱私保護之隱私性 與可用性之評估 ... 獻探討,介紹資料的保護技術,間接隱私保護為k隱

31

圖 5.12 (minimum support = 0.15 之隱藏含有敏感資訊的關聯式規則結果)

圖 5.13 (minimum support = 0.15 之總共被刪除的關聯式規則結果)

0

5

10

15

20

25

30

35

0.5 0.55 0.6 0.65 0.7 0.75 0.8 0.85

MINIMUM CONFIDENCE

隱藏含有敏感資訊的關聯式規則 (百分比)

DCDS DCIS k=2 k=4 k=6 k=8 k=10

0

10

20

30

40

50

60

70

80

90

0.5 0.55 0.6 0.65 0.7 0.75 0.8 0.85

MINIMUM CONFIDENCE

總共被刪除的關聯式規則 (百分比)

DCDS DCIS k=2 k=4 k=6 k=8 k=10

Page 36: 關聯式規則探勘隱私保護之隱私性 與可用性之評估 Evaluating … · 關聯式規則探勘隱私保護之隱私性 與可用性之評估 ... 獻探討,介紹資料的保護技術,間接隱私保護為k隱

32

Chapter 6 結論與未來方向

本研究藉由比較直接隱私保護以及間接隱私保護,探討關聯式規則探勘之後

的隱私。本研究提出的方法架構,可以評估資料可用性的流失以及隱私性的提升

的變化。在實驗分析中,首先以固定最小支持度,加上變化最小可信度,其次以

固定最小可信度,加上變化最小支持度,來評估直接隱私保護和間接隱私保護的

資料可用性的流失以及隱私性的提升的變化。結果顯示,間接隱私保護所得到的

隱私性的提升較高,但也犧牲了較多的資料可用性的流失,而直接隱私保護雖然

有著較低的隱私性的提升,但是保留了較多的資料可用性的流失。

對於 k 隱匿增加最小可信度,也會讓關聯式規則探勘後的資料可用性的流失

以及隱私性的提升出現變化,當最小支持度固定在 0.15 的時候,最小可信度值

為 0.8~0.85 的時候,k 隱匿的變化最為顯著,可用性的流失以及隱私性的提升皆

為增加,當小支持度固定在 0.1 的時候,可用性的流失以及隱私性的提升則是在

最小可信度 0.9 的的時候有最高值,變動最小可信度對於 DCDS、DCIS 的影響

就沒有那麼顯著。

對於 k 隱匿以及 DCDS、DCIS 在固定最小可信度,變化最小支持度的時候,

可用性的流失以及隱私性的提升在 0.05~0.09 的時候皆是顯著下降,但是 k 隱匿

和 DCDS、DCIS 之間還是有明顯的區隔,k 隱匿之可用性的流失以及隱私性的

提升都是比較高,DCDS、DCIS 之可用性的流失以及隱私性的提升皆比 k 隱匿

低。

未來能夠針對那些使得結果變化較大的可信度以及支持度來探討。也可以朝

著評估更多的保護資料的方法,以及將本研究的方法擴展到更多資料型態。讓使

用者可以在更多的資料形態中,對於可用性的流失與隱私性的提升做取捨,找出

一個資料可用性的流失高,且要保護的隱私也有保護到的方法,找到資料可用性

的流失以及隱私性的提升之間的平衡。

Page 37: 關聯式規則探勘隱私保護之隱私性 與可用性之評估 Evaluating … · 關聯式規則探勘隱私保護之隱私性 與可用性之評估 ... 獻探討,介紹資料的保護技術,間接隱私保護為k隱

33

參考文獻

[1] Aggarwal, C. C. and Yu, P. S. 2008. Privacy-preserving data mining. Springer.

[2] Aggarwal, G., Feder, T., Kenthapadi, K., Khuller, S., Panigrahy, R., Thomas, D.,

and Zhu, A. 2006. Achieving anonymity via clustering. In Proc. of ACM SIGMOD

conference, 153-162.

[3] Agrawal, R., Imielinski, T., and Sawmi, A. 1993. Mining association rules between

sets of items in large databases, In Proc. pf ACM SIGMOD conference, 207-216.

[4] Agrawal, R. and Srikant, R. 2000. Privacy preserving data mining. In Proc. of

ACM SIGMOD conference, 439-450.

[5] Friedman, A., Wolff, R., and Schuster, A. 2008. Providing k-anonymity in data

mining. The VLDB Journal, 17, 4, 789-804.

[6] Fung, B. C. M., Wang, K., Chen, R., and Yu, P. S. 2010. Privacy-preserving data

publishing: a survey on recent developments. ACM Computing Surveys, 42, 4,

2010.

[7] Ghinita, G., Kalnis, P., and Tao, Y. 2011. Anonymous publication of sensitive

transactional data. IEEE Transactions on Knowledge and Data Engineering, 33, 2,

161-174.

[8] He, Y. and Naughton, J.F. 2009. Anonymization of set-valued data via top-down,

local generalization. In Proc. of VLDB conference, 934-945.

[9] He, Y., Barman, S., Wang, D., & Naughton, J. F. 2011. On the complexity of

privacy-preserving complex event processing, In Proc. of the thirtieth ACM

SIGMOD-SIGACT-SIGART symposium on Principles of database systems (pp.

165-174). ACM.

[10] Hong, T. P., Lin, C. W., and Yang, K. T. 2013. Using TF-IDF to hide sensitive

itemsets. Applied Intelligent, 2013, pp. 502-510.

[11] Krause, A., & Horvitz, E. 2008. A Utility-Theoretic Approach to Privacy and

Personalization. In AAAI (Vol. 8, pp. 1181-1188).

[12] Li, N., Li, T., and Venkatasubramanian, S. 2007. t-closeness: Privacy beyond k-

anonymity and l-diversity. In Proc. of ICDE conference, 106-115.

[13] Machanavajjhala, A., Kifer, D., Gehrke, J., and Venkitasubramaniam, M. 2007. l-

diversity: Privacy beyond k-anonymity. ACM Transactions on Knowledge

Discovery in Data, 1, 1.

[14] Meyerson, A., and Williames, R. 2004. On the complexity of optimal k-anonymity.

In Proc. of ACM PODS conference, 223-228.

Page 38: 關聯式規則探勘隱私保護之隱私性 與可用性之評估 Evaluating … · 關聯式規則探勘隱私保護之隱私性 與可用性之評估 ... 獻探討,介紹資料的保護技術,間接隱私保護為k隱

34

[15] Motwani, R. and Nabar, S. U. 2008. Anonymizing unstructured data. arXiv:

0810.5582v2, [cs.DB].

[16] Mir, D. J. 2012. Information-theoretic foundations of differential privacy,

International Symposium on Foundations and Practice of Security (pp. 374-381).

Springer Berlin Heidelberg.

[17] Park, H., and Shim, K. 2007. Approximate algorithms for k-anonymity. In Proc.

of ACM SIGMOD conference, 67–78.

[18] Pontikakis, E. D., Tsitsonis, A. A., & Verykios, V. S. 2004. An experimental study

of distortion-based techniques for association rule hiding. In Research Directions

in Data and Applications Security XVIII (pp. 325-339). Springer US.

[19] Samarati, P. and Sweeny, L. 1998. Generalizing data to provide anonymity when

disclosing information. In Proc. of ACM Symposium on Principles of Database

Systems, 188.

[20] Samarati, P. 2001. Protecting respondents’ identities in microdata release. IEEE

Transactions on Knowledge and Data Engineering, 13, 6, 1010-1027.

[21] Sramka, M., Reihaneh, S. N., Denzinger, J., and Askari, M. 2010. A practice-

oriented framework for measuring privacy and utility in data sanitization systems.

In Proc. of the EDBT/ICDT Workshops, Article No. 27.

[22] Sankar, L., Rajagopalan, S. R., & Poor, H. V. , 2010. A theory of utility and privacy

of data sources. In ISIT (pp. 2642-2646).

[23] Sankar, L., Rajagopalan, S. R., & Poor, H. V. 2010. An information-theoretic

approach to privacy, 2010 48th Annual Allerton Conference on (pp. 1220-1227).

IEEE.

[24] Sweeny, L. 2002. K-anonymity: a model for protecting privacy. International

Journal on Uncertainty, Fuzziness and Knowledge-based Systems, 10, 5, 557–570.

[25] Sweeney, L. 2002. Achieving k-anonymity privacy protection using generalization

and suppression. International Journal on Uncertainty, Fuzziness and Knowledge-

based Systems, 10, 5, 571-588.

[26] Verykios, V. S., Elmagarmid, A., Bertino, E., Saygin, Y., and Dasseni, E. 2004.

Association rules hiding, IEEE Transactions on Knowledge and Data Engineering,

16, 4, 434-447.

[27] Wang, S. L., Patel, D., Jafari, A., and Hong, T. P. 2007. Hiding collaborative

recommendation association rules, Applied Intelligent, 27, 1, 67-77.

[28] Wang, S. L., Tsai, Y. C., Kao, H. Y., and Hong, T. P. 2014. On Anonymizing

Transactions with Sensitive Items, Applied Intelligent, 41, 4, 1043-1058.

[29] Xia, W., Kantarcioglu, M., Wan, Z., Heatherly R., Vorobeychik, Y., and Malin,

2015. B. Process-driven data privacy, In Proc. of CIKM conference, 1021-1030.

[30] Yates, B. and Neto, R. 1999. Modern Information Retrieval, Addison Wesley.

Page 39: 關聯式規則探勘隱私保護之隱私性 與可用性之評估 Evaluating … · 關聯式規則探勘隱私保護之隱私性 與可用性之評估 ... 獻探討,介紹資料的保護技術,間接隱私保護為k隱

35

[31] Y. He, S. Barman, D. Wang, and J. Naughton. 2011. On the complexity of privacy-

preserving complex event processing, In Proc. of PODS.


Recommended