+ All Categories
Home > Documents > KHAI THÁC LUẬT KẾT HỢP

KHAI THÁC LUẬT KẾT HỢP

Date post: 05-Mar-2023
Category:
Upload: cntp
View: 0 times
Download: 0 times
Share this document with a friend
46
KHAI THÁC LUTKTHP 1
Transcript

KHAI THÁC LUẬT KẾT HỢP

1

DDẪẪNN NHNHẬẬPPDDẪẪNN NHNHẬẬPPXét CSDL khảo sát tiện nghi sử dụng ở các hộ

gia đình như sau:gia đình như sau:

Hộ Tiện nghi sở hữu1 Ti i Má Vití h1 Tivi, MáyVitính2 Tủlạnh, Máylạnh3 Tivi, Máygiặt, Máylạnh3 Tivi, Máygiặt, Máylạnh4 Tivi, Tủlạnh, Máylạnh5 Tivi, Máygiặt, MáyVitính6 Tivi, Tủlạnh, Máygiặt7 Tivi, Tủlạnh, MáyVitính8 Tivi, Tủlạnh, Máygiặt, Máylạnh, MáyVitính 2

LLUUẬẬTT KKẾẾTT HHỢỢPPLLUUẬẬTT KKẾẾTT HHỢỢPP

LuLuậậtt kkếếtt hhợợpp làlà phépphép kéokéo theotheo cócó ddạạngng:: Tivi Máyvitính [50%, 57%] hay

sử dụng:Tivi sử dụng:Máyvitính [50%, 57%]

Nghĩa là: “57% hộ gia đình sử dụng Tivi thì cũng sử dụngMáyvitính. Tivi và Máyvitính xuất hiện chung trong 50% dòng dữ liệu "dòng dữ liệu.

3

KKHAIHAI THÁCTHÁC LULUẬẬTT KKẾẾTT HHỢỢPP

ếKhai thác luật kết hợp được chia làm hai giai đoạn:

1. Khai thác tập phổ biến(FIs – Frequent Itemsets).ập p ( q )

2. Khai thác luật từ các tập phổ biến(ARs –Association Rules)Association Rules).

4

KKHAIHAI THÁCTHÁC LULUẬẬTT KKẾẾTT HHỢỢPP

ế

CSDL giao tácKhai thác luật kết hợp được chia làm hai giai đoạn:

1. Khai thác tập phổ biến(FIs – Frequent Itemsets).

giao tác

ập p ( q )

2. Khai thác luật từ các tập phổ biến(ARs –Association Rules)Tìm tập phổ

CSDL luậtAssociation Rules).Tìm tập phổ

biến

Khai thác luật FIs5

1 Tìm Tập phổ biến1. Tìm Tập phổ biến2 Tìm luật kết hợp2. Tìm luật kết hợp

6

TTÌMÌM TTẬẬPP PHPHỔỔ BIBIẾẾNN

Được đề xuất bởi Agrawal năm 1993. ốMục đích: tìm mối liên hệ giữa các mặt hàng

(danh mục) được bán trong siêu thị.Đế ó hiề h há đ háĐến nay, có nhiều phương pháp được pháttriển như:

Ph há A i i (A l) Phương pháp Apriori (Agrawal) Phương pháp IT-tree (M. Zaki) Phương pháp FP-tree (J Han) Phương pháp FP tree (J. Han) …

7

MMỘỘT ST SỐỐ THUTHUẬẬT TOÁN T TOÁN TÌM TTÌM TẬẬP PHP PHỔỔ BIBIẾẾNN

1 Phương pháp Apriori1. Phương pháp Apriori.2. Phương pháp FP-tree (Frequent Patterns

Tree)Tree).3. Phương pháp IT-tree (Itemset-Tidset Tree).

8

ĐĐỊỊNHNH NGHĨANGHĨA

1. Định nghĩa độ phổ biến:Cho CSDL giao dịch D và tập dữ liệu XI.Độ phổ biến của X trong D, kí hiệu (X),được định nghĩa là số giao dịch mà X xuấtđược định nghĩa là số giao dịch mà X xuấthiện trong D.

2. Định nghĩa tập phổ biến:Tập X I được gọi là phổ biến nếup g p(X)minSup ( với minSup là giá trị dongười dùng chỉ định).

9

2121--DecDec--1010

TTÍNHÍNH CHCHẤẤTT AAPRIORIPRIORI

1. Mọi tập con của tập phổ biến đều phổ biến, nghĩa là XY, nếu (Y) minSup thì (X) minSup

2. Mọi tập cha của tập không phổ biến đều không phổbiến nghĩa là Y X nếu (X) < minSup thì (Y) biến, nghĩa là Y X, nếu (X) < minSup thì (Y) < minSup

10

TTHUHUẬẬTT TOÁNTOÁN AAPRIORIPRIORI

Đầu vào:CSDL giao dịch D và ngưỡng phổ biến minSupp

Đầu ra: FIs chứa tất cả các tập phổ biến của D Mã giả:

Gọi Ck: Tập các ứng viên có kích thước kọ k ập gLk: Các tập phổ biến có kích thước k

L1 = { i I: (i) minSup}for (k = 2; Lk-1 !=; k++) do

Ck = {các ứng viên được tạo từ Lk 1 }Ck {các ứ g v ê được tạo từ k-1 }for each t D do

if Ck t then Ck.count++Lk = {Ck | Ck.count minSup}

FIs = L ;FIs = kLk;

11

CCÁCHÁCH TTẠẠOO ỨỨNGNG VIÊNVIÊN CCỦỦAA AAPRIORIPRIORI

Nguyên tắc Apriori:Nhớ lại tính chất: mọi tập con của tập phổ biến Nhớ lại tính chất: mọi tập con của tập phổ biến cũng phổ biến

Giả sử ta có L3 = {abc, abd, acd, ace, bcd} Xét việc kết để tao ra các ứng viên C4: L3*L3

abcd được tạo từ abc và abdd đ t từ d à acde được tạo từ acd và ace

Rút gọn:acde bị loại vì ade không có trong L3acde bị loại vì ade không có trong L3

C4 = {abcd}

12

VVÍÍ DDỤỤ MINHMINH HHỌỌAAVVÍÍ DDỤỤ MINHMINH HHỌỌAA

Bảng 1: Xét CSDL mẫu

MãMã giaogiaodịchdịch

Nội dung giao Nội dung giao dịchdịch

11 AA, , CC, , TT, , WW22 CC, , DD, , WW

(A) = 4

(C) = 633 AA, , CC, , TT, , WW44 AA, , CC, , DD, , WW55 AA CC DD T WT W

(D) = 4

(T) = 455 AA, , CC, , DD, , T, WT, W66 CC, , DD, , TT

(T) 4

(W) = 5

13Với minSup = 50% (50*6/100 = 3), ta có:

VVÍÍ DDỤỤ ((TTTT))

Database (D) L1( )TID Nội dung Danh

mụcĐộ

phổ biến1 AA, , CC, , TT, , WW A 42 CC, , DD, , WW C 6

AA CC TT WW3 AA, , CC, , TT, , WW D 44 AA, , CC, , DD, , WW T 45 AA CC DD T WT W W 55 AA, , CC, , DD, , T, WT, W W 56 CC, , DD, , TT

14

TIDTID ItemsItems

11 AA, , CC, , TT, , WW22 CC, , DD, , WW

VVÍÍ DDỤỤ ((TTTT))C2 L2

33 AA, , CC, , TT, , WW44 AA, , CC, , DD, , WW55 AA, , CC, , DD, , T, WT, W

C2 L2Danh mục

Độ phổ biến

Danh mục

Độ phổ biến ,, ,, ,, ,,

66 CC, , DD, , TT

ụ ụAC 4 AC 4AD 2 AT 3AT 3 AW 4AW 4 CD 4CD 4 CT 4CT 4 CW 5CW 5 DW 3DT 2 TW 3DW 3 15DW 3TW 3

TIDTID ItemsItems11 AA, , CC, , TT, , WW

VVÍÍ DDỤỤ ((TTTT))22 CC, , DD, , WW33 AA, , CC, , TT, , WW44 AA, , CC, , DD, , WW

C3 L3 Danh Độ phổ Danh Độ phổ

55 AA, , CC, , DD, , T, WT, W66 CC, , DD, , TT

mụcộ pbiến mục

ộ pbiến

ACT 3 ACT 3ACW 4 ACW 4ATW 3 ATW 3CDW 3 CDW 3CTW 3 CTW 3

Lưu ý: CDT không có trong C3 vì DT không có trong L2!

16

TIDTID ItemsItems11 AA, , CC, , TT, , WW22 CC DD WW

VVÍÍ DDỤỤ ((TTTT))

C4 L4

22 CC, , DD, , WW33 AA, , CC, , TT, , WW44 AA, , CC, , DD, , WW55 AA CC DD T WT W

Danh mục

Độ phổ biến

Danh mục

Độ phổ biến

55 AA, , CC, , DD, , T, WT, W66 CC, , DD, , TT

ACTW 3 ACTW 3

C5 = L5 =

ổ ổDanh mục

Độ phổ biến

Danh mục

Độ phổ biến

17

PHPHƯƠƯƠNG PHÁP FPNG PHÁP FP-- TREETREEPHPHƯƠƯƠNG PHÁP FPNG PHÁP FP TREETREE

Quét DB lần thứ nhất để tìm tất cả cácitem đơn phổ biến (single item pattern)

Sắp xếp các item theo thứ tự giảm của độphổ biến f-listQ ét DB lầ 2 Xâ d FP t Quét DB lần 2, Xây dựng FP-tree

2121--DecDec--1010

18

FPFP-- TREETREE ––XÂYXÂY DDỰỰNGNG CÂYCÂY

TIDTID ItemsItems

11 AA, , CC, , TT, , WW22 CC DD WWFPFP-- TREETREE XÂYXÂY DDỰỰNGNG CÂYCÂY 22 CC, , DD, , WW33 AA, , CC, , TT, , WW44 AA, , CC, , DD, , WW55 AA CC DD T WT W55 AA, , CC, , DD, , T, WT, W66 CC, , DD, , TT

It A C D T WItem A C D T W 4 6 4 4 5

It C W A D T

Sắp xếp theo

Item C W A D T 6 5 4 4 4

19

2121--DecDec--1010

FPFP-- TREETREE ––XÂYXÂY DDỰỰNGNG CÂYCÂY

TIDTID ItemsItems

11 AA, , CC, , TT, , WW22 CC DD WW

AA, , CC, , TT, , WWCC DD WWFPFP TREETREE XÂYXÂY DDỰỰNGNG CÂYCÂY 22 CC, , DD, , WW

33 AA, , CC, , TT, , WW44 AA, , CC, , DD, , WW55 AA CC DD T WT WItem Link {}

CC, , DD, , WWAA, , CC, , TT, , WWAA, , CC, , DD, , WW

AA CC D TD T WW55 AA, , CC, , DD, , T, WT, W66 CC, , DD, , TTC 6

W 5C:1C:2C:3C:4

AA, , CC, , D, T,D, T, WW

C:5CC, , D, TD, T

C:6W 5

A 4

D 4

W:1CC, , W, A, TW, A, T

CC, , W, DW, D

W:1W:2W:3W:4W:5 D:1

D 4

T 4A:1 D:1 CC, , W, A, TW, A, TA:2

CC, , W, A, DW, A, D

A:3A:4 T:1

Item C W A D T 6 5 4 4 4

T:1T:2 D:1 CC, , W, A, D, TW, A, D, TD:2

20

2121--DecDec--1010

6 5 4 4 4T:1

FP-tree trên CSDL ở bảng 1 với minSup = 50%

CCHIHIẾẾUU TRÊNTRÊN FPFP--TREETREE –– TT FPTT FP--GGROWTHROWTH

Item Link{} Chiếu trên nút T: ta có CSDL

cục bộ như sau:C 6

W 5C:1C:2C:3C:4C:5C:6

cục bộ như sau:

{CWA:2, CWAD:1, CD:1}

A 4

D 4

W:1W:1W:2W:3W:4W:5 D:1

T 4 A:1

T:1

D:1A:2

T:2

A:3

D:1

A:4

D:2

T:1

T:2

T:1T

T:1T:2 D:1D:2

T:1T:1

T:2

21

2121--DecDec--1010

T:1T:1

CCHIHIẾẾUU TRÊNTRÊN T:4T:4

{CWA:2, CWAD:1, CD:1} Cây cục bộ cho CSDL chiếu trên T như Đây là đường đi đơn nên việc tìm

á tậ hổ biế hỉ đ iả làsau:

Item Link{}

các tập phổ biến chỉ đơn giản làtìm các tập con của tập {C, W,A}. Ta có các tập con:Item Link

C 4

W 3

C:2C:3C:4 {,A:3,W:3,C:4,AW:3,AC:3,WC:3, AWC:3}W 3

A 3 W:2W:3 Vì vậy: chiếu trên T sinh ra cáctập phổ biến là: {T:4, TA:3,TW 3 TC 4 TAW 3 TAC 3A:2A:3

CWA:2

TW:3, TC:4, TAW:3, TAC:3,TWC:3, TAWC:3}.

22

2121--DecDec--1010

CWAD:1 CWA:1

CD:1 C:1

CCHIHIẾẾUU TRÊNTRÊN D:4D:4

D

{CWA:2, CW:1, C:1} Cây cục bộ như sau:{}

Item Link

C 4

{}

C:2C:3C:4

Đường đi đơn Các tập con:

{, W:3,C:4, WC:3}

W 3W:2W:3

Chiếu trên D sinh ra các tập phổbiến là:{D:4, DW:3, DC:4,DWC:3} 23

2121--DecDec--1010

DWC:3}.

CCHIHIẾẾUU TRÊNTRÊN A:4A:4A

{CW:4} Cây cục bộ như sau:{} Đ ờ đi đ Cá tậ

Item Link

C 4

{}

C:4

Đường đi đơn Các tập con:

{, W:4,C:4, WC:4}

W 4W:4

Chiếu trên A sinh ra các tập phổ biếnlà:{A:4, AW:4, AC:4, AWC:4}.

24

2121--DecDec--1010

CCHIHIẾẾUU TRÊNTRÊN W,CW,C C

W

W:5 {C:5} Cây cục bộ như sau:{} Đường đi đơn Các tập con:

Item Link

C 5 C:5{, C:5}

Chiếu trên W sinh ra các tập phổập pbiến là:{W:5, WC:5}.

Cuối cùng, chiếu trên C: 6 ta được {} tập phổ biến:{C:6}25

2121--DecDec--1010

Cuối cùng, chiếu trên C: 6 ta được {} tập phổ biến:{C:6}.

FPFP-- TREETREE –– NNHHẬẬNN XÉTXÉT

FP-tree duyệt CSDL 2 lần, sau đó dùng phépyệ , g p pchiếu để tạo ra CSDL cục bộ của từng item đơn,sau đó tạo cây FP cục bộ và khai thác trên câyc c bộ một cách đệ quicục bộ một cách đệ qui.

Sử dụng phương pháp chia để trị để khai tháctập phổ biến.tập phổ biến.

Là phương pháp không sinh ứng viên.Thường rất hiệu quả trên các CSDL có mật độg ệ q ậ ộ

trùng lắp dữ liệu cao.

26

2121--DecDec--1010

PHPHƯƠƯƠNG PHÁP ITNG PHÁP IT-- TREETREE

Kết nối Galois:Kết nối Galois:Cho quan hệ hai ngôi I T chứaCSDL cần khai thác. Với: X I và Y T. Định nghĩa hai ánh xạ giữa P(I) (Tập tấtcả các tập con của I) và P(T) như sau:) ( )

t: P(I ) P(T ), t(X) = {yT | xX, x y} i: P(T) P(I ), i(Y) = {xI | yY, x y}

27

PHPHƯƠƯƠNG PHÁP ITNG PHÁP IT-- TREETREE ((TTTT))PHPHƯƠƯƠNG PHÁP ITNG PHÁP IT TREETREE ((TTTT))Cấu trúc IT-tree và các lớp tương đương:

Cho XI ta định nghĩa hàm p(X k)=X[1:k]Cho XI, ta định nghĩa hàm p(X,k)=X[1:k]gồm k phần tử đầu của X và quan hệ tươngđương dựa vào tiền tố như sau:

Mỗi út t ê IT t ồ 2 thà h hầMỗi nút trên IT-tree gồm 2 thành phầnItemset-Tidset: Xt(X) được gọi là IT-pair,thực chất là một lớp tiền tố. Các nút con củaự ộ pX thuộc về lớp tương đương của X vì chúngchia sẻ chung tiền tố X (t(X) là tập các giaodịch có chứa X)dịch có chứa X) 28

NNHHẬẬNN XÉTXÉT VVỀỀ ITIT-- TREETREENNHHẬẬNN XÉTXÉT VVỀỀ ITIT TREETREE

1. (X) =|t(X)|2 Chỉ cần kết hợp các phần tử trên cùng một2. Chỉ cần kết hợp các phần tử trên cùng một

mức của lớp tương đương là đủ để sinh ra cáctập phổ biến.

29

THUTHUẬẬT TOÁN TÌM TT TOÁN TÌM TẬẬP PHP PHỔỔ BIBIẾẾN N

ECLAT()[] = {iI| (i) minSup}[] = {iI| (i) minSup}ENUMERATE_FREQUENT([])

ENUMERATE_FREQUENT([P])for all li [P] do

[Pi] = for all lj [P] with j > i doj [ ] j

X = li ljT = t(li) t(lj)if |T| minSup thenif |T| minSup then

[Pi] = [Pi] {XT}ENUMERATE_FREQUENT([Pi])

30Trong đó t(X) = {yT | X xuất hiện trong giao dịch y} được gọi là Tidset của X.

VÍ DVÍ DỤỤ MINH HMINH HỌỌAAỤỤ ỌỌ

Xét CSDL mẫu của bảng 1 định dạng dữ liệu dọc

Mã danh mục Các giao dịchchứa danh mục

Mã giao dịch Nội dung giao dịch

1 C A 1, 3, 4, 5

C 1, 2, 3, 4, 5, 6

1 A, C, T, W2 C, D, W3 A C T W , , , , ,

D 2, 4, 5, 6T 1, 3, 5, 6

3 A, C, T, W4 A, C, D, W5 A, C, D, T, W

t(A) 1345 t(AD) t(A) t(D) 1345 2456 45

W 1, 2, 3, 4, 5, , , ,

6 C, D, T

t(A) = 1345; t(AD) = t(A) t(D) = 1345 2456 = 45 31

3131

IT-tree với minSup=50% ItemItem TIDTID

AA 1, 3, 4, 51, 3, 4, 5CC 1, 2, 3, 4, 5, 61, 2, 3, 4, 5, 6

{}x123456, , , , ,, , , , ,

DD 2, 4, 5, 62, 4, 5, 6TT 1, 3, 5, 61, 3, 5, 6WW 1, 2, 3, 4, 51, 2, 3, 4, 5

Cx123456 Dx2456 Tx1356 Wx12345Ax1345A C1234561345 1345

WW 1, 2, 3, 4, 51, 2, 3, 4, 5

ADx45 AWx1345 CWx12345 DTx56 DWx245 TWx135ACx1345 ATx135 CDx2456 CTx1356AC

ACTx135 ACWx1345 ATWx135 CDTx56 CDWx245 CTWx135

32

ACTWx135Có 19 tập phổ biến thỏa minSup = 50%

NHNHẬẬN XÉTN XÉTNHNHẬẬN XÉTN XÉTThuật toán dựa vào phần giao giữa các

ể ổ ếậ ự p g g

Tidset để tính nhanh độ phổ biến nên chỉquét CSDL 1 lần.

Có thể sử dụng Diffset để tính nhanh độCó thể sử dụng Diffset để tính nhanh độphổ biến nhằm làm giảm không gian lưutrữ Tidset.D th ật t á khô i h ứ iê êDo thuật toán không sinh ứng viên nênhiệu quả khai thác thường cao hơn so vớicác họ thuật toán sinh ứng viên.

ố ổ ếKhi số tập phổ biến lớn, thời gian khaithác luật lớn Cần phương pháp khaithác hiệu quả hơnthác hiệu quả hơn

33

DDIFFSETIFFSET ĐĐỂỂ TÍNHTÍNH NHANHNHANH ĐĐỘỘ PHPHỔỔ BIBIẾẾNN

Diffset của X so với Y, kí hiệu d(PX) được định, ệ ( ) ợ ịnghĩa như sau:d(PX) = t(P) – t(X)

(PXY) (PX) |d(PXY)| (1) (PXY) = (PX) - |d(PXY)| (1) Ta có d(PXY) = d(PY) – d(PX) (2) Diffset thường khá nhỏ so với Tidset (3) Diffset thường khá nhỏ so với Tidset (3) Từ (1), (2) và (3), chúng ta có thể sử dụng Diffsetđể thay thế Tidset.

34

DDIFFSETIFFSET ((TTTT)){}x12345

Mức 1 dùng Tidset

Bx12345 Cx245 Dx135 Ex234Ax1345A B123451345 - B

Mức 2: d(PX) = t(P) t(X)

ACx13 AEx15 BEx15 CDx24 CEx5 DEx15ABx ADx4 BCx13 BDx24AB

d(PX) = t(P) – t(X)

ABDx4 BCDx24 BCEx5 BDEx15

35Từ mức 3: d(PXY) = d(PY) – d(PX)

NNHHẬẬNN XÉTXÉT

Kích thước Diffset thường khá nhỏ so với Tidsetnên tiết kiệm được không gian bộ nhớ và thờinên tiết kiệm được không gian bộ nhớ và thờigian tính phần “khác nhau”.So sánh độ dài trung bình giữa Tidset và Diffset trên các CSDL chuẩn[4]

CSDL MinSup(%)

Độ dài trung bình Diffset

Độ dài trung bình Tidset

Tỉ lệ Tidset/Diffset

h 0 5 26 1820 70

ộ g g [ ]

chess 0.5 26 1820 70connect 90 143 62204 434.99

mushroom 5 60 622 10.37pumsb_star 35 301 18977 63.04

pumsb 90 330 45036 136.47T10I4D100K 0.1 31 230 7.42

Tỉ lệ = 1820/26

T40I10D100K 0.5 96 755 7.8636

TÌM TTÌM TẬẬP PHP PHỔỔ BIBIẾẾN ĐÓNG N ĐÓNG ((FFREQUENTREQUENT CCLOSEDLOSED IITEMSETSTEMSETS FCI)FCI)((FFREQUENTREQUENT CCLOSEDLOSED IITEMSETSTEMSETS -- FCI)FCI)

Toán tử đóng:ÁCho X I. cit: P(I) P(I): cit(X) = i(t(X)). Ánh xạ cit được gọi là toán tử

đóng.Ví dụ: cit(AW) = i(t(AW)) = i(1345) = ACW

Tập đóng:Cho X I. X gọi là tập đóng cit(X) = X.

37

TÌM TTÌM TẬẬP PHP PHỔỔ BIBIẾẾN ĐÓNG N ĐÓNG ((FFREQUENTREQUENT CCLOSEDLOSED IITEMSETSTEMSETS FCI)FCI)((FFREQUENTREQUENT CCLOSEDLOSED IITEMSETSTEMSETS -- FCI)FCI)

ItemItem TIDTID TidTid ItemsItems

AA 1, 3, 4, 51, 3, 4, 5CC 1, 2, 3, 4, 5, 61, 2, 3, 4, 5, 6DD 2, 4, 5, 62, 4, 5, 6

11 AA, , CC, , TT, , WW22 CC, , DD, , WW33 AA, , CC, , TT, , WW

t(AW) = t(A) t(W) = 1345

Tập đóng:Ch X I X i là tậ đó (X) X

TT 1, 3, 5, 61, 3, 5, 6WW 1,1, 2, 2, 3, 4, 53, 4, 5

44 AA, , CC, , DD, , WW55 AA, , CC, , DD, , T, T, WW66 CC, , DD, , TTCho X I. X gọi là tập đóng cit(X) = X.

Ví dụ: xét CSDL ở bảng 1 ta có

Do cit(AW) = i(t(AW)) = i(1345)

,, ,,

= ACWit( ) ( ( )) ( ) AW không phải là tập đóng.

Do cit(ACW) = i(t(ACW)) = i(1345) = ACW ACW là tập đóng. 38

CÁC TÍNH CHCÁC TÍNH CHẤẤT CT CỦỦA ITA IT PAIRPAIRCÁC TÍNH CHCÁC TÍNH CHẤẤT CT CỦỦA ITA IT--PAIRPAIR

Định lý 1:ầCho Xit(Xi) và Xjt(Xj) là hai phần tử tùy ý của lớp

tương đương [P]. Ta có 4 tính chất sau (c là cit):1 Nế t(X ) t(X ) thì (X ) (X ) (X X )1. Nếu t(Xi) = t(Xj) thì c(Xi) = c(Xj) = c(XiXj)2. Nếu t(Xi) t(Xj) thì c(Xi) c(Xj)

nhưng c(Xi) = c(XiXj)i i j3. Nếu t(Xi) t(Xj) thì c(Xi) c(Xj)

nhưng c(Xj) = c(XiXj)4 Ngược lại của 1 2 và 3: c(X ) c(X ) c(X X )4. Ngược lại của 1, 2 và 3: c(Xi) c(Xj) c(XiXj)

39

NHNHẬẬN XÉT VN XÉT VỀỀ ITIT--PAIRPAIRẬẬ

1. Tính chất 1 nói rằng, nếu phần giao củag, p ghai Tidset bằng nhau thì|t(Xi)|=|t(Xj)|=|t(XiXj)| mà XiXiXjvà X X X nên X X không là tập đóngvà XjXiXj nên Xi, Xj không là tập đóng.

2. Theo tính chất 2, ta có c(Xi) = c(XiXj) Xi không là tập đóng. Bên cạnh đó, doXi không là tập đóng. Bên cạnh đó, dot(Xi)t(Xj) nên Xi và Xj thuộc về 2 tập đóngkhác nhau.

ấ3. Tương tự tính chất 2.4. Theo tính chất 4, Xi, Xj và XiXj sẽ thuộc

về 3 tập đóng khác nhauvề 3 tập đóng khác nhau. 40

THUTHUẬẬT TOÁN TÌM T TOÁN TÌM TTẬẬP PHP PHỔỔ BIBIẾẾN ĐÓNG(CHARM)N ĐÓNG(CHARM)TTẬẬP PHP PHỔỔ BIBIẾẾN ĐÓNG(CHARM)N ĐÓNG(CHARM)

CHARM(D,minSup) CHARM-PROPERTY(X Y,li,lj,[Pi],[P])( , p)[]={lit(li):liI Sup(li)minSup}CHARM-EXTEND([], C = )return C

( , i, j,[ i],[ ])

if Sup(X) minSup then

if t(li)=t(lj) then

Remove lj from [P]

P = P l

CHARM-EXTEND([P], C)

for each lit(li) in [P] do

Pi = Pi lj and [Pi] =

Pi = Pi ljelseif t(li) t(lj) then

Pi = Pi ljelseif t(li) t(lj) then

R l f [P]for each ljt(lj) with j > i do

Y =t(li) t(lj) CHARM-PROPERTY(XY,li,lj,[Pi],[P])

SUBSUMPTION-CHECK(C, Pi)

Remove lj from [P]

Add X Y to [Pi] else

Add X Y to [Pi] CHARM-EXTEND([Pi], C)

delete ([Pi]SUBSUMPTION-CHECK(C, P)

for allY HASHTABLE[|t(P)|] doif PY thSử dụng bảng băm để kiểm tra tập P

41if PY thenC = C P

Sử dụng bảng băm để kiểm tra tập P có phải là tập đóng hay không?

MINH HỌA CHARM MINH HỌA CHARM ((minSupminSup=50%)=50%)

ItemItem TIDTID

AA 1, 3, 4, 51, 3, 4, 5

{}x123456

((minSupminSup=50%)=50%) CC 1, 2, 3, 4, 5, 61, 2, 3, 4, 5, 6DD 2, 4, 5, 62, 4, 5, 6TT 1 3 5 61 3 5 6TT 1, 3, 5, 61, 3, 5, 6WW 1, 2, 3, 4, 51, 2, 3, 4, 5SX tăng theo

|t(X)|Thay D bởi DC

Cx123456Dx2456 Tx1356 Wx12345Ax1345DCx2456 CCTCx1356 Wx12345AWx1345 Cx123456AWCx1345 Cx123456WCx12345t(D) t(C) Thỏa tính chất 2 nên D không là tập đóng

Thay D bởi DC

Do t(TCA) = t(TCW) nên thayDTx56 DAx45 DWx245DCWx245 TAx135 TWx135TCAx135 TCWx135TCAWx135

Có tất cả 7 tập phổ biến đóng thỏa minSup = 50% ồ

Và thay DW bởi DCW

Do t(TCA) t(TCW) nên thay TCA bởi TCAW và xóa TCW

42gồm: DC, TC, AWC, WC, C, DWC, TAWC

NHNHẬẬN XÉTN XÉTẬẬ

Số lượng tập phổ biến đóng thường nhỏSố lượng tập phổ biến đóng thường nhỏhơn nhiều so với số tập phổ biến. Như vậy,việc khai thác luật từ chúng sẽ hiệu quảhơn.

Mức tìm kiếm trên IT-tree để tìm FCI thấphơn so với tìm FI không gian bộ nhớê ầ h á ì h i đệ i ẽ hỏyêu cầu cho quá trình gọi đệ qui sẽ nhỏ

hơn.43

1. Tìm Tập phổ biến2 Tì l ật kết h2. Tìm luật kết hợp

44

2121--DecDec--1010

KHAI THÁC LUKHAI THÁC LUẬẬT TRUYT TRUYỀỀN THN THỐỐNGNG(M(MININGINING TTRADITIONALRADITIONAL AASSOCIATIONSSOCIATION RRULESULES))(M(MININGINING TTRADITIONALRADITIONAL AASSOCIATIONSSOCIATION RRULESULES))

Định nghĩa:Luật kết hợp là biểu thức có dạng XY – X (q,

p) (X Y là các tập phổ biến) trong đó X Yp) (X, Y là các tập phổ biến) trong đó X,Y,XY và p = (Y)/ (X) minConf gọi là độ tincậy của luật còn q = (Y) ≥ minSup được gọi làậy ậ q ( ) p ợ gọđộ phổ biến của luật.

ếNhư vậy: luật kết hợp là luật sinh ra giữa cáctập phổ biến X, YFI trong đó X Y.

45

LULUẬẬT TRUYT TRUYỀỀN THN THỐỐNG: NG: THUTHUẬẬTT TOÁNTOÁN

EXTRACT_AR( FI, minConf )( , f )SORT (FI) // Sắp xếp tập FI tăng theo k-itemsetAR = f h Y FI dfor each YFI do

for each X FI with Y after X doif XY then if XY then

conf = Sup(Y)/Sup(X)if conf minConf thenfAR = AR {X Y\X (Sup(Y), conf)}

return AR46


Recommended