+ All Categories
Home > Documents > Shadowed Sets 聚类的离群点检测算法 - GitHub Pagesziyang.github.io/files/wd-outlier.pdf ·...

Shadowed Sets 聚类的离群点检测算法 - GitHub Pagesziyang.github.io/files/wd-outlier.pdf ·...

Date post: 27-Jun-2020
Category:
Upload: others
View: 13 times
Download: 0 times
Share this document with a friend
9
ISSN 1673-9418 CODEN JKYTA8 Journal of Frontiers of Computer Science and Technology 1673-9418/2012/06(11)-0985-09 DOI: 10.3778/j.issn.1673-9418.2012.11.003 E-mail: [email protected] http://www.ceaj.org Tel: +86-10-51616056 融合 Shadowed Sets 聚类的离群点检测算法 * + ,毛紫阳,吴孟达 国防科学技术大学 理学院 数学与系统科学系,长沙 410073 Outlier Detection Algorithm on Shadowed Sets Clustering WANG Dan + , MAO Ziyang, WU Mengda Department of Mathematics and System Science, College of Science, National University of Defense Technology, Changsha 410073, China + Corresponding author: E-mail: [email protected] WANG Dan, MAO Ziyang, WU Mengda. Outlier detection algorithm on Shadowed Sets clustering. Journal of Frontiers of Computer Science and Technology, 2012, 6(11)985-993. Abstract: This paper proposes a new definition for outliers from the macroscopic characteristics of data sets, and designs a new outlier factor of observation (COF) by considering both deviation of outlier to clusters and uncertainty of outliers itself. The paper gives a new optimization goal on Shadowed Sets, which pays more attention to the accu- racy of core in the shadowed process of fuzzy sets. Further, the paper develops an outlier detection algorithm based on Shadowed Sets clustering to incorporate the advantages of both COF and Shadowed Sets in a hybridized frame- work. The experimental results on synthetic and Iris data sets demonstrate better effect of the proposed approach. Key words: outlier; clustering; Shadowed Sets 要: 从数据整体和宏观特点给出了离群点的新的定义,并基于数据宏观模式定义了一种新的离群因子,该 因子考虑了数据点偏离数据模式的程度和数据点本身归类的不确定性;提出了一种新的 Shadowed Sets 优化 目标,使得在模糊集阴影化过程中更加关注核的准确性;同时基于 Shadowed Sets 聚类,提出了一种结合聚类 的离群点检测算法,该算法可以同时进行聚类和离群点检测;通过模拟数据和 Iris 数据测试,显示算法具有较 好的检测效果。 关键词: 离群点;聚类;阴影集 文献标识码: A 中图分类号: TP181 * The National Natural Science Foundation of China under Grant No. 60872152 (国家自然科学基金). Received 2012-05, Accepted 2012-07.
Transcript
Page 1: Shadowed Sets 聚类的离群点检测算法 - GitHub Pagesziyang.github.io/files/wd-outlier.pdf · 2017-04-08 · 2.2 基于Shadowed Sets 的FCM 聚类 类似于粗糙模糊C 均值聚类算法(rough

ISSN 1673-9418 CODEN JKYTA8Journal of Frontiers of Computer Science and Technology1673-9418201206(11)-0985-09DOI 103778jissn1673-9418201211003

E-mail fcstvip163comhttpwwwceajorg

Tel +86-10-51616056

融合Shadowed Sets聚类的离群点检测算法

王 丹+毛紫阳吴孟达

国防科学技术大学 理学院 数学与系统科学系长沙 410073

Outlier Detection Algorithm on Shadowed Sets Clustering1049021

WANG Dan+ MAO Ziyang WU Mengda

Department of Mathematics and System Science College of Science National University of Defense Technology

Changsha 410073 China

+ Corresponding author E-mail casablanmanhotmailcom

WANG Dan MAO Ziyang WU Mengda Outlier detection algorithm on Shadowed Sets clustering Journal

of Frontiers of Computer Science and Technology 2012 6(11)985-993

Abstract This paper proposes a new definition for outliers from the macroscopic characteristics of data sets and

designs a new outlier factor of observation (COF) by considering both deviation of outlier to clusters and uncertainty

of outliers itself The paper gives a new optimization goal on Shadowed Sets which pays more attention to the accu-

racy of core in the shadowed process of fuzzy sets Further the paper develops an outlier detection algorithm based

on Shadowed Sets clustering to incorporate the advantages of both COF and Shadowed Sets in a hybridized frame-

work The experimental results on synthetic and Iris data sets demonstrate better effect of the proposed approach

Key words outlier clustering Shadowed Sets

摘 要从数据整体和宏观特点给出了离群点的新的定义并基于数据宏观模式定义了一种新的离群因子该

因子考虑了数据点偏离数据模式的程度和数据点本身归类的不确定性提出了一种新的Shadowed Sets优化

目标使得在模糊集阴影化过程中更加关注核的准确性同时基于Shadowed Sets聚类提出了一种结合聚类

的离群点检测算法该算法可以同时进行聚类和离群点检测通过模拟数据和 Iris数据测试显示算法具有较

好的检测效果

关键词离群点聚类阴影集

文献标识码A 中图分类号TP181

The National Natural Science Foundation of China under Grant No 60872152 (国家自然科学基金)

Received 2012-05 Accepted 2012-07

Journal of Frontiers of Computer Science and Technology 计算机科学与探索 2012 6(11)

1 引言数据分析中在大量数据的分析处理前往往需

要对数据进行预处理离群点检测是数据预处理的

一个重要步骤尽管如此目前还没有一个关于离

群点的正式的被人们普遍认同的定义Hawkins等

人给出了离群点的形式化定义[1-3]离群点不仅是噪

声点也有可能是包含着重要信息的样本点并且这

些例外的点所携带的信息可能比常规模式更有价值

如网络入侵模式信用卡恶意透支等中发现这样的

点就有可能发现新的重要的犯罪模式因此离群点

的检测已经成为数据挖掘中最重要的研究领域之

一通俗地说离群点检测就是从大量样本中发现少

量的与多数样本具有明显区别的异常个体的过程[4]

近年来很多学者提出了一些有效的离群点检

测算法具有代表性的算法有Barnett等人提出的基

于统计分布的检测算法[2]Johnson等人提出的基于深

度的算法DEEPLOC[3]Knorr等人提出的基于距离的

算法FindAllOutsD[5]Breunig等人提出的基于局部密

度的LOF算法[6]等这些算法一方面具有较高的时

间复杂度另一方面数据集的高维性也常常造成算

法失效还有一些学者将聚类算法应用到离群点的

检测中如基于K均值聚类的离群点检测[2]基于K中

值聚类的离群点检测[7]等但这些算法或者主要关注

的是聚类或者只是先通过聚类对数据进行归类再

利用上述局部化检测算法进行检测从而未能从全局

角度充分利用聚类的特性来进行离群点检测

综上所述对离群点检测算法进行归类可以采

用这样一种方式即基于局部特性的方法和基于全

局特性的方法基于统计的方法是基于全局特性的

方法但由于要事先对数据的统计分布进行假设和

对参数进行估计算法的实用性不高另外一些算

法是从样本局部特性刻画样本的离群程度未能从

数据宏观特性对离群点进行刻画基于聚类的离群

点检测算法可以认为是一种基于全局的算法但当

前提出的基于聚类的检测算法未能很好地利用聚

类反映全局性的特征而只是为其局部化检测提供

一种预先处理本文正是基于这样一个背景从数

据宏观特性出发给出离群点的定义并基于数据聚

类给出离群点检测算法从而使得数据聚类和离群

点检测同时进行既考虑了数据的局部特性也充分

考虑了数据的全局特征

本文组织结构如下第 2 章介绍阴影集(shad-

owed sets)模型第3章给出新的离群点的定义并从

全局给出离群因子第 4 章提出一种基于 Shadowed

Sets聚类的离群点检测算法第 5章给出实验结果

最后对全文进行总结

2 预备知识

21 阴影集众所周知模糊集(fuzzy set)通过引入隶属度函

数来刻画对象的不确定性但隶属度函数本身是精

确清晰的函数通过精确表示的隶属度函数来刻画

模糊现象受到了一些学者的质疑为了解决此问题

Pedrycz等人通过引入一个刻画模糊性的最优层次

从模糊集中诱导出阴影集模型[8]相比模糊集阴影

集刻画模糊现象更加简单和符合实际

在阴影集中相应的模糊集被划分为三个层次

分别为隶属度为0的对象集合隶属度为1的对象集

和隶属度位于0和1之间的对象集合也就是说阴影

集将精确的模糊隶属度函数根据某种准则分成了三

部分从而避免了刻画模糊现象的过度精确对于

如图 1所示的模糊集 F(x) 阴影集提高部分对象的

隶属度到1或者到当前模糊集的最大隶属度值同时

降低部分对象的隶属度到0通过这种处理方法将

精确的模糊隶属度函数进行了划分在阴影集处理

中那些隶属度为1(或最大隶属度值)的对象集合称

为核(core)那些隶属度为 0 的对象集合称为负域

Fig1 Shadowed sets

图1 阴影集

Shadow

Core

Fuzzy set1 - λ

λ

Exclusion

986

王 丹 等融合Shadowed Sets聚类的离群点检测算法

(exclusion)而那些隶属度位于 0和 1之间的对象集

则称为阴影集(shadow)阴影集中的对象隶属度都

定义在(01)区间而不再用单个确定的隶属度值来

刻画也就是说对阴影集的刻画是通过一个区间(非

数值模型)来表示的显然相比模糊集处理阴影

集的处理将更简单一些

从数学上来说模糊集的阴影化处理是一个映射

SX01(01)

S(x)=igraveiacuteicirc

iumliuml

1 if xIcirc core

(01) if xIcirc shadow

0 if xIcirc exclusion

(1)

在模糊集的阴影化处理中通过一个阈值 λ将模

糊隶属度函数分成三部分对于隶属度小于 λ的对

象将其隶属度设定为 0而对于隶属度大于 1 - λ的

对象将其隶属度设定为 1 或模糊集的最大隶属度

值在这样的处理中参数 λ的选取是最重要的其

选取应该维持原模糊集整体的不确定性本质上来

说模糊集的阴影化处理就是根据阈值将隶属度最

大的和最小的部分对象设定为完全确定的而其他

对象认为是不确定的用一个隶属度区间来刻画

Pedrycz等人设计了一个优化目标函数[8]来选取 λ优

化目标定义如下

λopt = argminλ

O(λ) (2)

其中 λIcirc(012

)

O(λ)=

|intF(x) λ

thinspF(x)dx + intF(x) 1 - λ

thinsp(1 - F(x))dx - intλ lt F(x)lt 1 - λ

thinspdx|(3)

显然区间 (λ1 - λ) 限制了阴影集的边界根据

上述定义相应地可以定义核阴影和负域如下

igrave

iacute

icirc

iumliumliumliuml

core(X )=xIcircX|F(x) 1 - λ

shadow(X )=xIcircX|λ lt F(x)lt 1 - λ

exclusion(X )=xIcircX|F(x) λ

(4)

离散情况下若 ui 表示对象属于某个集合的隶

属度值优化目标(3)能够转化为

O(λ)= |aringui λ

ui + aringui umax - λ

(umax - ui) thinsp-

cardi|λ lt ui lt umax - λ| (5)

其中 λIcirc[uminumin + umax 2] 这里 uminumax 为模糊集

隶属度的最小最大值

尽管产生的机理并不一样但阴影集与粗糙集

有着一定的异曲同工之处粗糙集中的下近似对应

于阴影化处理中的核而粗糙集中的边界对应于阴

影集粗糙集中的负域对应阴影化处理中的负域

从机理上来说粗糙集中下近似边界和负域的产生

是根据当前已有的知识来分类而阴影集是根据隶

属度值的分布来对核阴影和负域进行划分

22 基于Shadowed Sets的FCM聚类类似于粗糙模糊 C 均值聚类算法(rough fuzzy

C-means clusteringRFCM)Mitra等人提出了基于阴

影集的模糊C均值聚类算法(shadowed sets C-means

clusteringSCM)[9]在基于阴影集的模糊C均值聚类

算法中设对象集为 X =x1x2xn 对象集所确

定的分类为 Ui(i = 12c) 且设第 i 个类的类心

为 vi 对象 xj 属于第 i 个类的隶属度为 uij 则算法聚

类过程中相应的类心和隶属度迭代公式为vi =

aringxkIcirc core(Ui)

xk thinsp + aringxkIcirc shadow(Ui)

umik xk thinsp + aring

xkIcirc exclusion(Ui)

umm

ik xk thinsp

cardx|xkIcirc core(Ui)+ aringxkIcirc shadow(Ui)

umik thinsp + aring

xkIcirc exclusion(Ui)

umm

ik thinsp(6)

uik =1

aringj = 1

c

(dik

djk

)2

m - 1

(7)

其中core(Ui)shadow(Ui) 和 exclusion(Ui) 分别表示

由聚类Ui 上的模糊隶属度函数阴影化处理过程中得

到的核阴影和负域它们是通过优化目标函数(5)而

得到的 dij 表示对象 xj 与类心 vi 之间的欧氏距离

基于阴影集的聚类算法在模糊C均值算法的基

础上通过考虑聚类的不同部分(核边界和负域)对

类心的影响不同来更新边界从而使得算法具有更

大的鲁棒性

3 离群点新定义和离群因子关于什么是离群点很多学者已经从不同方面

给出了多个定义具有代表性的定义如下

定义1(Hawkins定义[1])如果一个对象偏离其他

对象很多以至于不得不怀疑其是由其他机理产生

987

Journal of Frontiers of Computer Science and Technology 计算机科学与探索 2012 6(11)

的这样的对象称为离群点

定义 2(Barnett定义[3])离群点是那些与样本集

中大多数样本具有显著偏差的样本

定义3(Johnson定义[4])数据中的离群点是那些

与其他样本不一致的点

从以上描述来看离群点的定义立足点都在离

群点本身强调的是与其他大多数点的区别而对其

他大多数点并没有进行更多描述没有给出其他大

多数点应该满足的约束也就是说上述定义实际上

是从离群点局部给出来的另外上述定义也未给出

数据点到底与其他多少点有多大偏离就可以称之为

离群点因此上述定义并未从实质上给出离群点的

较准确刻画

事实上对于离群点的刻画有两个重要的方面

应该注意到一是离群点具有相对性也就是说某

个样本是否是离群点应该看其针对的是什么数据

有的点针对这一部分数据来看是离群点但针对另

外一部分数据来说却又不是离群点二是是否是

离群点从数据整体或宏观来刻画更加准确用数据

点对数据整体上表现出的偏离性或不一致性来描述

离群点更加合适要注意的是这里数据整体或宏

观指的是数据宏观表现出来的数据特点下面给出

本文对离群点的定义

定义4 离群点指的是与数据集中所有模式或聚

类具有较大偏离的那些点这些点在数据宏观上表

现为其不具备明显的某个模式的特征同时又对所

有模式具有较大的不确定性

上述定义是从数据整体或宏观上给出的离群点

定义通俗地说离群点就是在数据集中既没有哪个

模式或聚类能够将其包含进去其本身也不具备能

以较大确定性属于某个模式或聚类的那些点相比

基于局部特性刻画离群点上述定义强调数据集本

身的结构离群点是与现有数据集结构不一致的那

些点

上述离群点定义给出的离群点检测的标准涉及

到三个方面

(1)检测时需要获取数据集的结构

(2)应计算离群点与数据中模式或聚类的偏离

程度

(3)离群点本身归属模式或聚类的概率计算其

反应的是离群点的不确定性

下面给出刻画离群点的离群因子定义

定义5 设数据集为 X =x1x2xn数据集 X

存在 c(1 c lt n) 个模式(或聚类)Ui(i = 12c) 设

uij(1 i c1 j n) 为第 j 个数据点属于第 i 个模式

的隶属度并且满足aringi = 1

c

uij = 1则第 j 个数据点的离

群因子(outlier factorCOF)定义为

COF(xj)=aeligegraveccedil

oumloslashdividearing

i = 1

c

uij lb uij thinsp acuteaeligegraveccedil

oumloslashdividearing

i = 1

c

uijdij thinsp (8)

上述定义中 dij 表示数据点 xj 到模式(或聚类)

Ui 的距离等号右边的第1项实际为熵其反应的是

数据点 xj 的不确定性第 2项是数据点 xj 到所有模

式的平均距离 COF(xj) 值越大数据点 xj 就越有

可能是离群点

4 融合Shadowed Sets聚类的离群点检测算法

41 新的阴影集优化目标

从定义4来检测离群点一个重要的基础就是需

要有比较准确的模式(聚类)划分而从模糊集阴影

化处理来看核是一个集合中较确定的对象集合对

于基于聚类思想来检测离群点来说准确的核定义

具有非常重要的作用为了进一步强调阴影化处理

过程中核的作用本文提出了一个新的阴影集优化

目标对于第Ui 聚类其最优 λi 的优化函数定义为

O(λi)=

|aringuij λi

uij thinsp + aringuij 1 - λi

(1 - uij) - card j|λi lt uij lt ui max - λi|

||coremin - shadowmax||2

(9)

其中uij 表示第 j 个对象属于Ui 的隶属度ui max 表

示 uij 的最大值coreminshadowmax 分别表示核中对

象的最小隶属度值和阴影中对象的最大隶属度值

上述优化目标相比Pedrycz等人提出的优化目标

更加严格其强调核与阴影的距离应该尽量远从而

保证核的准确性

988

王 丹 等融合Shadowed Sets聚类的离群点检测算法

42 算法描述

基于阴影集聚类的离群点检测算法的主要思想

是在基于阴影集的模糊C均值聚类迭代过程中通过

对每个类优化目标函数(9)从而将每个类分成核

阴影和负域三部分再对所有核中对象使用模糊C

均值聚类(不考虑属于阴影和负域的对象)从而在

每步迭代过程中得到较准确的聚类中心通过式(8)

计算每个对象的离群因子根据用户指定的输入参

数mdashmdash离群点数量 K 选出离群点如此迭代直到

获得的离群点不再产生变化则算法停止

算法1 融合Shadowed Sets聚类的离群点检测

输入设数据集为 X =x1x2xN 聚类数量

为 c 模糊C均值聚类算法中模糊化因子为 m 用户

定义的离群点数量为 K

输出离群点

步骤1 随机初始化隶属度函数 uij(i = 12c

j = 12N) 同时确保 aringi = 1

c

uij = 1 j = 12N thinsp

步骤 2 对于数据集 X 进行模糊C均值聚类获

得类心 vi(i = 12c) 和隶属度函数 uij

步骤3 对每一个聚类Ui 的隶属度函数 uij( j = 1

2N) 根据式(9)计算最优的 λi 和类Ui 的最大隶

属度值 ui max

步骤4 根据式(4)获取所有聚类的核对象

步骤5 对于所有的核对象集合执行模糊C均值

算法从而得到较准确的类心 vi

步骤 6 根据获得的类心 vi 计算每个对象 xj 的

COF(xj) 值选取 COF 值最大的 K 个对象作为离

群点

步骤 7 根据新的类心 vi 和式(7)更新所有点的

隶属度值

步骤8 检查算法的收敛性若前后两次获得的 K

个离群点不再产生变化则转下一步否则转步骤3

步骤9 输出离群点

5 实验分析

51 模拟数据

采用两个模拟数据集对算法进行测试模拟数

据集1是由32个二维数据点组成的集合包含3个离

群点模拟数据集 2是由 77个二维数据点构成的集

合包含17个离群点两个数据集见图2

对于模拟数据集1和模拟数据集2取不同 K 值

时离群点的检测结果分别如图3和图4所示(红色圆

圈表示检测到的离群点)从数据点的离群因子可

以看出由式(8)确定的离群因子在本文算法下与正

常数据点的离群因子具有较好的区分性对于不同

的 K 值从图中结果可以看出随着 K 值的增大离

群点的增加具有较好的合理性符合人类的感知注

70

60

50

40

30

20

10

0

y

10 20 30 40 50 60 70x

2018161412108642

y

0 2 4 6 8 10 12 14x

(a)Data 1

(a)数据集1

(b)Data 2

(b)数据集2

Fig2 Synthetic data

图2 模拟数据

989

Journal of Frontiers of Computer Science and Technology 计算机科学与探索 2012 6(11)

意到本文方法在检测离群点时考虑了离群点本身的

不确定性因此检测出来的结果除了孤立点低密度

点外还会考虑到类之间相交边界处的那些点这些

点可能距离每个类都有一定距离确定这些点的所

属归类并不容易因此随着 K 值的增大这样的点也

有可能被检测出来成为离群点

进一步针对模拟数据 2比较了采用本文算法

与基于距离的离群点检测算法和基于密度的离群点

检测算法的检测效果选择检测率检测精度和检

测误差三个指标对算法进行比较结果如表 1所示

其中三个指标定义如下

(1)检测率检测到的正确的离群点数量占真实

离群点总量的比率

(2)检测精度检测到的正确的离群点数量占算

法标注的离群点数量的比值

(3)检测误差未检测到的离群点数量和错误检

测的正常点数量占所有标注离群点数量的比值

上述算法比较中基于距离的检测算法的两个

参数距离阈值和距离阈值内数据点个数阈值分别取

为 4和 10基于密度的检测算法中参数邻域 K 取为

10上述两个算法的检测性能对参数具有较大依赖

性若要获得好的检测效果需要不断尝试选择合适

的参数

52 实际数据

从 UCI 数据集中选择 Iris 数据集作为算法测试

数据集Iris 数据集是关于植物分类的数据特征

集主要是关于花萼和花瓣的描述包括花萼宽度

花萼长度花瓣宽度和花瓣长度四个特征数据集

分为三类表 2显示了本文算法的可能离群点检测

结果

2018161412108642

y

0 2 4 6 8 10 12 14x

2018161412108642

y

0 2 4 6 8 10 12 14x

(c)K=3 (d)K=4

18

16

14

12

10

8

6

4

2

CO

F

0 5 10 15 20 25 30 35数据点编号

2018161412108642

y

0 2 4 6 8 10 12 14x

(a)COF (b)K=2

Fig3 Results of synthetic data 1

图3 模拟数据1的结果

990

王 丹 等融合Shadowed Sets聚类的离群点检测算法

显然从表2中可以看出随着 K 值的增加最小

的 COF 逐步减小最佳 K 值的选取一方面依赖于用

户的先验知识另一方面也可以根据最小COF值的变

化来寻找较合适的 K 值一种简单的办法是通过不

同 K 值计算最小COF 值选择相邻COF 值变化最大

的 K 作为最佳 K 值比如 Iris数据可以选择 K = 4

6 结论本文提出了一种新的离群点定义该定义从数

据宏观角度出发既考虑到离群点对数据模式的偏离

程度也考虑了离群点本身归属的不确定性新的定

义更加符合人类的感知基于新的离群点定义结合

阴影集模型提出了一种基于阴影集聚类的离群点

90

80

70

60

50

40

30

20

10

CO

F

0 10 20 30 40 50 60 70 80数据点编号

70

60

50

40

30

20

10

0

y

10 20 30 40 50 60 70x

(a)COF (b)K=1

70

60

50

40

30

20

10

0

y

10 20 30 40 50 60 70x

70

60

50

40

30

20

10

0

y

10 20 30 40 50 60 70x

(c)K=3 (d)K=7

70

60

50

40

30

20

10

0

y

10 20 30 40 50 60 70x

70

60

50

40

30

20

10

0

y

10 20 30 40 50 60 70x

(e)K=11 (f)K=17

Fig4 Results of synthetic data 2

图4 模拟数据2结果

991

Journal of Frontiers of Computer Science and Technology 计算机科学与探索 2012 6(11)

检测算法该算法能同时进行聚类和离群点检测具

有较好的检测效果

References[1] Hawkins D Identification of outliers[M] London Chap-

man and Hall 1980

[2] Barnett V Lewis T Outliers in statistical data[M] New York

John Wiley and Sons 1994

[3] Johnson T Kwok I Ng R Fast computation of 2-dimensional

depth contours[C]Proceedings of the 4th International

Conference on Knowledge Discovery and Data Mining New

York 1998

[4] Ni Weiwei Lu Jieping Chen Geng et al An efficient data

stream outliers detection algorithm based on k-means parti-

tioning[J] Journal of Computer Research and Development

2006 43(9) 1639-1643

[5] Knorr E Ng R Algorithms for mining distance-based out-

liers in large datasets[C]Proceedings of the 24th Interna-

tional Conference on Very Large Data Bases (VLDB 104901198)

New York NY USA 1998 San Francisco CA USA Mor-

gan Kaufmann Publishers Inc 1998 392-403

[6] Breunig M M Kreigel H P Ng R T et al LOFidentifying

density-based local outliers[C]Proceedings of the 2000

ACM SIGMOD International Conference on Management

of Data (SIGMOD 104901100) Dallas TX 2000 New York NY

USA ACM 2000 93-104

[7] Dhaliwal P Bhatia M P S Bansal P A cluster-based appro-

ach for outlier detection in dynamic data streams (KORM

k-median outlier miner)[J] Journal of Computing 2010 2(2)

74-80

[8] Pedrycz W Shadowed sets representing and processing

fuzzy sets[J] IEEE Transactions on Systems Man and Cyber-

metics Part B 1998 28(1) 103-109

[9] Mitra S Banka H Pedrycz W Rough-fuzzy collaborative

clustering[J] IEEE Transactions on Systems Man and Cyber-

netics Part B 2006 36(4) 795-805

[10] Aggarwal C Yu P An effective and efficient algorithm for

high-dimensional outlier detection[J] The VLDB Journal

2005 14(2) 211-221

[11] Xue Zhenxia Shang Youlin Feng Aifen Semi-supervised out-

lier detection based on fuzzy rough C-means clustering[J]

Mathematics and Computers in Simulation 2010 80(9)

1911-1921

[12] Jiang Feng Sui Yuefei Cao Cungen An information entropy-

based approach to outlier detection in rough sets[J] Expert

Systems with Applications 2010 37(9) 6338-6344

[13] Chen Yumin Miao Duoqia Zhang Hongyun Neighborhood

outlier detection[J] Expert Systems with Applications2010

37(12) 8745-8749

[14] Huang Biao Yang Peng Finding key knowledge attribute

subspace of outliers in high-dimensional dataset[J] Expert

Systems with Applications 2011 38(8) 10147-10152

离群点

数量

3

7

11

17

检测率

3(17)

7(41)

10(59)

11(65)

检测精度

3(100)

7(100)

10(91)

11(65)

检测误差

0(0)

0(0)

1(9)

6(35)

检测率

3(17)

7(41)

10(59)

13(76)

检测精度

3(100)

7(100)

10(91)

13(76)

检测误差

0(0)

0(0)

1(9)

4(24)

检测率

3(17)

7(41)

11(65)

17(100)

检测精度

3(100)

7(100)

11(100)

17(100)

检测误差

0(0)

0(0)

0(0)

0(0)

基于距离检测 基于密度检测 本文算法检测

Table 1 Detection effects comparison of three algorithms

表1 三类算法检测效果比较

注检测率和检测精度前面的数字代表算法检测到的正确的离群点数量检测误差前面的数字代表算法误检的点的数量

K值

2

4

9

16

数据点编号

5899

58619499

5158619499115118119132

5153586177879499107114115118119123132135

最小

COF

2622 0

2538 1

1705 0

1302 1

最大

COF

2691 8

2691 8

2691 8

2691 8

Table 2 Outliers detection of Iris data for different K

表2 Iris数据在不同K值下的离群点检测结果

992

王 丹 等融合Shadowed Sets聚类的离群点检测算法

MAO Ziyang was born in 1979 He is a PhD candidate and lecturer at National University of Defense Tech-

nology His research interests include computational mathematics and weather science etc

毛紫阳(1979mdash)男河南开封人国防科技大学博士研究生讲师主要研究领域为计算数学气象科学等

WU Mengda was born in 1956 He is a professor and master supervisor at National University of Defense

Technology His research interests include rough sets and mathematical modeling etc

吴孟达(1956mdash)男浙江奉化人国防科技大学教授硕士生导师主要研究领域为粗糙集数学建模等

WANG Dan was born in 1981 He is a PhD candidate and lecturer at National University of Defense Technol-

ogy His research interests include rough sets and image processing etc

王丹(1981mdash)男湖南长沙人国防科技大学博士研究生讲师主要研究领域为粗糙集图像处理等

993

Page 2: Shadowed Sets 聚类的离群点检测算法 - GitHub Pagesziyang.github.io/files/wd-outlier.pdf · 2017-04-08 · 2.2 基于Shadowed Sets 的FCM 聚类 类似于粗糙模糊C 均值聚类算法(rough

Journal of Frontiers of Computer Science and Technology 计算机科学与探索 2012 6(11)

1 引言数据分析中在大量数据的分析处理前往往需

要对数据进行预处理离群点检测是数据预处理的

一个重要步骤尽管如此目前还没有一个关于离

群点的正式的被人们普遍认同的定义Hawkins等

人给出了离群点的形式化定义[1-3]离群点不仅是噪

声点也有可能是包含着重要信息的样本点并且这

些例外的点所携带的信息可能比常规模式更有价值

如网络入侵模式信用卡恶意透支等中发现这样的

点就有可能发现新的重要的犯罪模式因此离群点

的检测已经成为数据挖掘中最重要的研究领域之

一通俗地说离群点检测就是从大量样本中发现少

量的与多数样本具有明显区别的异常个体的过程[4]

近年来很多学者提出了一些有效的离群点检

测算法具有代表性的算法有Barnett等人提出的基

于统计分布的检测算法[2]Johnson等人提出的基于深

度的算法DEEPLOC[3]Knorr等人提出的基于距离的

算法FindAllOutsD[5]Breunig等人提出的基于局部密

度的LOF算法[6]等这些算法一方面具有较高的时

间复杂度另一方面数据集的高维性也常常造成算

法失效还有一些学者将聚类算法应用到离群点的

检测中如基于K均值聚类的离群点检测[2]基于K中

值聚类的离群点检测[7]等但这些算法或者主要关注

的是聚类或者只是先通过聚类对数据进行归类再

利用上述局部化检测算法进行检测从而未能从全局

角度充分利用聚类的特性来进行离群点检测

综上所述对离群点检测算法进行归类可以采

用这样一种方式即基于局部特性的方法和基于全

局特性的方法基于统计的方法是基于全局特性的

方法但由于要事先对数据的统计分布进行假设和

对参数进行估计算法的实用性不高另外一些算

法是从样本局部特性刻画样本的离群程度未能从

数据宏观特性对离群点进行刻画基于聚类的离群

点检测算法可以认为是一种基于全局的算法但当

前提出的基于聚类的检测算法未能很好地利用聚

类反映全局性的特征而只是为其局部化检测提供

一种预先处理本文正是基于这样一个背景从数

据宏观特性出发给出离群点的定义并基于数据聚

类给出离群点检测算法从而使得数据聚类和离群

点检测同时进行既考虑了数据的局部特性也充分

考虑了数据的全局特征

本文组织结构如下第 2 章介绍阴影集(shad-

owed sets)模型第3章给出新的离群点的定义并从

全局给出离群因子第 4 章提出一种基于 Shadowed

Sets聚类的离群点检测算法第 5章给出实验结果

最后对全文进行总结

2 预备知识

21 阴影集众所周知模糊集(fuzzy set)通过引入隶属度函

数来刻画对象的不确定性但隶属度函数本身是精

确清晰的函数通过精确表示的隶属度函数来刻画

模糊现象受到了一些学者的质疑为了解决此问题

Pedrycz等人通过引入一个刻画模糊性的最优层次

从模糊集中诱导出阴影集模型[8]相比模糊集阴影

集刻画模糊现象更加简单和符合实际

在阴影集中相应的模糊集被划分为三个层次

分别为隶属度为0的对象集合隶属度为1的对象集

和隶属度位于0和1之间的对象集合也就是说阴影

集将精确的模糊隶属度函数根据某种准则分成了三

部分从而避免了刻画模糊现象的过度精确对于

如图 1所示的模糊集 F(x) 阴影集提高部分对象的

隶属度到1或者到当前模糊集的最大隶属度值同时

降低部分对象的隶属度到0通过这种处理方法将

精确的模糊隶属度函数进行了划分在阴影集处理

中那些隶属度为1(或最大隶属度值)的对象集合称

为核(core)那些隶属度为 0 的对象集合称为负域

Fig1 Shadowed sets

图1 阴影集

Shadow

Core

Fuzzy set1 - λ

λ

Exclusion

986

王 丹 等融合Shadowed Sets聚类的离群点检测算法

(exclusion)而那些隶属度位于 0和 1之间的对象集

则称为阴影集(shadow)阴影集中的对象隶属度都

定义在(01)区间而不再用单个确定的隶属度值来

刻画也就是说对阴影集的刻画是通过一个区间(非

数值模型)来表示的显然相比模糊集处理阴影

集的处理将更简单一些

从数学上来说模糊集的阴影化处理是一个映射

SX01(01)

S(x)=igraveiacuteicirc

iumliuml

1 if xIcirc core

(01) if xIcirc shadow

0 if xIcirc exclusion

(1)

在模糊集的阴影化处理中通过一个阈值 λ将模

糊隶属度函数分成三部分对于隶属度小于 λ的对

象将其隶属度设定为 0而对于隶属度大于 1 - λ的

对象将其隶属度设定为 1 或模糊集的最大隶属度

值在这样的处理中参数 λ的选取是最重要的其

选取应该维持原模糊集整体的不确定性本质上来

说模糊集的阴影化处理就是根据阈值将隶属度最

大的和最小的部分对象设定为完全确定的而其他

对象认为是不确定的用一个隶属度区间来刻画

Pedrycz等人设计了一个优化目标函数[8]来选取 λ优

化目标定义如下

λopt = argminλ

O(λ) (2)

其中 λIcirc(012

)

O(λ)=

|intF(x) λ

thinspF(x)dx + intF(x) 1 - λ

thinsp(1 - F(x))dx - intλ lt F(x)lt 1 - λ

thinspdx|(3)

显然区间 (λ1 - λ) 限制了阴影集的边界根据

上述定义相应地可以定义核阴影和负域如下

igrave

iacute

icirc

iumliumliumliuml

core(X )=xIcircX|F(x) 1 - λ

shadow(X )=xIcircX|λ lt F(x)lt 1 - λ

exclusion(X )=xIcircX|F(x) λ

(4)

离散情况下若 ui 表示对象属于某个集合的隶

属度值优化目标(3)能够转化为

O(λ)= |aringui λ

ui + aringui umax - λ

(umax - ui) thinsp-

cardi|λ lt ui lt umax - λ| (5)

其中 λIcirc[uminumin + umax 2] 这里 uminumax 为模糊集

隶属度的最小最大值

尽管产生的机理并不一样但阴影集与粗糙集

有着一定的异曲同工之处粗糙集中的下近似对应

于阴影化处理中的核而粗糙集中的边界对应于阴

影集粗糙集中的负域对应阴影化处理中的负域

从机理上来说粗糙集中下近似边界和负域的产生

是根据当前已有的知识来分类而阴影集是根据隶

属度值的分布来对核阴影和负域进行划分

22 基于Shadowed Sets的FCM聚类类似于粗糙模糊 C 均值聚类算法(rough fuzzy

C-means clusteringRFCM)Mitra等人提出了基于阴

影集的模糊C均值聚类算法(shadowed sets C-means

clusteringSCM)[9]在基于阴影集的模糊C均值聚类

算法中设对象集为 X =x1x2xn 对象集所确

定的分类为 Ui(i = 12c) 且设第 i 个类的类心

为 vi 对象 xj 属于第 i 个类的隶属度为 uij 则算法聚

类过程中相应的类心和隶属度迭代公式为vi =

aringxkIcirc core(Ui)

xk thinsp + aringxkIcirc shadow(Ui)

umik xk thinsp + aring

xkIcirc exclusion(Ui)

umm

ik xk thinsp

cardx|xkIcirc core(Ui)+ aringxkIcirc shadow(Ui)

umik thinsp + aring

xkIcirc exclusion(Ui)

umm

ik thinsp(6)

uik =1

aringj = 1

c

(dik

djk

)2

m - 1

(7)

其中core(Ui)shadow(Ui) 和 exclusion(Ui) 分别表示

由聚类Ui 上的模糊隶属度函数阴影化处理过程中得

到的核阴影和负域它们是通过优化目标函数(5)而

得到的 dij 表示对象 xj 与类心 vi 之间的欧氏距离

基于阴影集的聚类算法在模糊C均值算法的基

础上通过考虑聚类的不同部分(核边界和负域)对

类心的影响不同来更新边界从而使得算法具有更

大的鲁棒性

3 离群点新定义和离群因子关于什么是离群点很多学者已经从不同方面

给出了多个定义具有代表性的定义如下

定义1(Hawkins定义[1])如果一个对象偏离其他

对象很多以至于不得不怀疑其是由其他机理产生

987

Journal of Frontiers of Computer Science and Technology 计算机科学与探索 2012 6(11)

的这样的对象称为离群点

定义 2(Barnett定义[3])离群点是那些与样本集

中大多数样本具有显著偏差的样本

定义3(Johnson定义[4])数据中的离群点是那些

与其他样本不一致的点

从以上描述来看离群点的定义立足点都在离

群点本身强调的是与其他大多数点的区别而对其

他大多数点并没有进行更多描述没有给出其他大

多数点应该满足的约束也就是说上述定义实际上

是从离群点局部给出来的另外上述定义也未给出

数据点到底与其他多少点有多大偏离就可以称之为

离群点因此上述定义并未从实质上给出离群点的

较准确刻画

事实上对于离群点的刻画有两个重要的方面

应该注意到一是离群点具有相对性也就是说某

个样本是否是离群点应该看其针对的是什么数据

有的点针对这一部分数据来看是离群点但针对另

外一部分数据来说却又不是离群点二是是否是

离群点从数据整体或宏观来刻画更加准确用数据

点对数据整体上表现出的偏离性或不一致性来描述

离群点更加合适要注意的是这里数据整体或宏

观指的是数据宏观表现出来的数据特点下面给出

本文对离群点的定义

定义4 离群点指的是与数据集中所有模式或聚

类具有较大偏离的那些点这些点在数据宏观上表

现为其不具备明显的某个模式的特征同时又对所

有模式具有较大的不确定性

上述定义是从数据整体或宏观上给出的离群点

定义通俗地说离群点就是在数据集中既没有哪个

模式或聚类能够将其包含进去其本身也不具备能

以较大确定性属于某个模式或聚类的那些点相比

基于局部特性刻画离群点上述定义强调数据集本

身的结构离群点是与现有数据集结构不一致的那

些点

上述离群点定义给出的离群点检测的标准涉及

到三个方面

(1)检测时需要获取数据集的结构

(2)应计算离群点与数据中模式或聚类的偏离

程度

(3)离群点本身归属模式或聚类的概率计算其

反应的是离群点的不确定性

下面给出刻画离群点的离群因子定义

定义5 设数据集为 X =x1x2xn数据集 X

存在 c(1 c lt n) 个模式(或聚类)Ui(i = 12c) 设

uij(1 i c1 j n) 为第 j 个数据点属于第 i 个模式

的隶属度并且满足aringi = 1

c

uij = 1则第 j 个数据点的离

群因子(outlier factorCOF)定义为

COF(xj)=aeligegraveccedil

oumloslashdividearing

i = 1

c

uij lb uij thinsp acuteaeligegraveccedil

oumloslashdividearing

i = 1

c

uijdij thinsp (8)

上述定义中 dij 表示数据点 xj 到模式(或聚类)

Ui 的距离等号右边的第1项实际为熵其反应的是

数据点 xj 的不确定性第 2项是数据点 xj 到所有模

式的平均距离 COF(xj) 值越大数据点 xj 就越有

可能是离群点

4 融合Shadowed Sets聚类的离群点检测算法

41 新的阴影集优化目标

从定义4来检测离群点一个重要的基础就是需

要有比较准确的模式(聚类)划分而从模糊集阴影

化处理来看核是一个集合中较确定的对象集合对

于基于聚类思想来检测离群点来说准确的核定义

具有非常重要的作用为了进一步强调阴影化处理

过程中核的作用本文提出了一个新的阴影集优化

目标对于第Ui 聚类其最优 λi 的优化函数定义为

O(λi)=

|aringuij λi

uij thinsp + aringuij 1 - λi

(1 - uij) - card j|λi lt uij lt ui max - λi|

||coremin - shadowmax||2

(9)

其中uij 表示第 j 个对象属于Ui 的隶属度ui max 表

示 uij 的最大值coreminshadowmax 分别表示核中对

象的最小隶属度值和阴影中对象的最大隶属度值

上述优化目标相比Pedrycz等人提出的优化目标

更加严格其强调核与阴影的距离应该尽量远从而

保证核的准确性

988

王 丹 等融合Shadowed Sets聚类的离群点检测算法

42 算法描述

基于阴影集聚类的离群点检测算法的主要思想

是在基于阴影集的模糊C均值聚类迭代过程中通过

对每个类优化目标函数(9)从而将每个类分成核

阴影和负域三部分再对所有核中对象使用模糊C

均值聚类(不考虑属于阴影和负域的对象)从而在

每步迭代过程中得到较准确的聚类中心通过式(8)

计算每个对象的离群因子根据用户指定的输入参

数mdashmdash离群点数量 K 选出离群点如此迭代直到

获得的离群点不再产生变化则算法停止

算法1 融合Shadowed Sets聚类的离群点检测

输入设数据集为 X =x1x2xN 聚类数量

为 c 模糊C均值聚类算法中模糊化因子为 m 用户

定义的离群点数量为 K

输出离群点

步骤1 随机初始化隶属度函数 uij(i = 12c

j = 12N) 同时确保 aringi = 1

c

uij = 1 j = 12N thinsp

步骤 2 对于数据集 X 进行模糊C均值聚类获

得类心 vi(i = 12c) 和隶属度函数 uij

步骤3 对每一个聚类Ui 的隶属度函数 uij( j = 1

2N) 根据式(9)计算最优的 λi 和类Ui 的最大隶

属度值 ui max

步骤4 根据式(4)获取所有聚类的核对象

步骤5 对于所有的核对象集合执行模糊C均值

算法从而得到较准确的类心 vi

步骤 6 根据获得的类心 vi 计算每个对象 xj 的

COF(xj) 值选取 COF 值最大的 K 个对象作为离

群点

步骤 7 根据新的类心 vi 和式(7)更新所有点的

隶属度值

步骤8 检查算法的收敛性若前后两次获得的 K

个离群点不再产生变化则转下一步否则转步骤3

步骤9 输出离群点

5 实验分析

51 模拟数据

采用两个模拟数据集对算法进行测试模拟数

据集1是由32个二维数据点组成的集合包含3个离

群点模拟数据集 2是由 77个二维数据点构成的集

合包含17个离群点两个数据集见图2

对于模拟数据集1和模拟数据集2取不同 K 值

时离群点的检测结果分别如图3和图4所示(红色圆

圈表示检测到的离群点)从数据点的离群因子可

以看出由式(8)确定的离群因子在本文算法下与正

常数据点的离群因子具有较好的区分性对于不同

的 K 值从图中结果可以看出随着 K 值的增大离

群点的增加具有较好的合理性符合人类的感知注

70

60

50

40

30

20

10

0

y

10 20 30 40 50 60 70x

2018161412108642

y

0 2 4 6 8 10 12 14x

(a)Data 1

(a)数据集1

(b)Data 2

(b)数据集2

Fig2 Synthetic data

图2 模拟数据

989

Journal of Frontiers of Computer Science and Technology 计算机科学与探索 2012 6(11)

意到本文方法在检测离群点时考虑了离群点本身的

不确定性因此检测出来的结果除了孤立点低密度

点外还会考虑到类之间相交边界处的那些点这些

点可能距离每个类都有一定距离确定这些点的所

属归类并不容易因此随着 K 值的增大这样的点也

有可能被检测出来成为离群点

进一步针对模拟数据 2比较了采用本文算法

与基于距离的离群点检测算法和基于密度的离群点

检测算法的检测效果选择检测率检测精度和检

测误差三个指标对算法进行比较结果如表 1所示

其中三个指标定义如下

(1)检测率检测到的正确的离群点数量占真实

离群点总量的比率

(2)检测精度检测到的正确的离群点数量占算

法标注的离群点数量的比值

(3)检测误差未检测到的离群点数量和错误检

测的正常点数量占所有标注离群点数量的比值

上述算法比较中基于距离的检测算法的两个

参数距离阈值和距离阈值内数据点个数阈值分别取

为 4和 10基于密度的检测算法中参数邻域 K 取为

10上述两个算法的检测性能对参数具有较大依赖

性若要获得好的检测效果需要不断尝试选择合适

的参数

52 实际数据

从 UCI 数据集中选择 Iris 数据集作为算法测试

数据集Iris 数据集是关于植物分类的数据特征

集主要是关于花萼和花瓣的描述包括花萼宽度

花萼长度花瓣宽度和花瓣长度四个特征数据集

分为三类表 2显示了本文算法的可能离群点检测

结果

2018161412108642

y

0 2 4 6 8 10 12 14x

2018161412108642

y

0 2 4 6 8 10 12 14x

(c)K=3 (d)K=4

18

16

14

12

10

8

6

4

2

CO

F

0 5 10 15 20 25 30 35数据点编号

2018161412108642

y

0 2 4 6 8 10 12 14x

(a)COF (b)K=2

Fig3 Results of synthetic data 1

图3 模拟数据1的结果

990

王 丹 等融合Shadowed Sets聚类的离群点检测算法

显然从表2中可以看出随着 K 值的增加最小

的 COF 逐步减小最佳 K 值的选取一方面依赖于用

户的先验知识另一方面也可以根据最小COF值的变

化来寻找较合适的 K 值一种简单的办法是通过不

同 K 值计算最小COF 值选择相邻COF 值变化最大

的 K 作为最佳 K 值比如 Iris数据可以选择 K = 4

6 结论本文提出了一种新的离群点定义该定义从数

据宏观角度出发既考虑到离群点对数据模式的偏离

程度也考虑了离群点本身归属的不确定性新的定

义更加符合人类的感知基于新的离群点定义结合

阴影集模型提出了一种基于阴影集聚类的离群点

90

80

70

60

50

40

30

20

10

CO

F

0 10 20 30 40 50 60 70 80数据点编号

70

60

50

40

30

20

10

0

y

10 20 30 40 50 60 70x

(a)COF (b)K=1

70

60

50

40

30

20

10

0

y

10 20 30 40 50 60 70x

70

60

50

40

30

20

10

0

y

10 20 30 40 50 60 70x

(c)K=3 (d)K=7

70

60

50

40

30

20

10

0

y

10 20 30 40 50 60 70x

70

60

50

40

30

20

10

0

y

10 20 30 40 50 60 70x

(e)K=11 (f)K=17

Fig4 Results of synthetic data 2

图4 模拟数据2结果

991

Journal of Frontiers of Computer Science and Technology 计算机科学与探索 2012 6(11)

检测算法该算法能同时进行聚类和离群点检测具

有较好的检测效果

References[1] Hawkins D Identification of outliers[M] London Chap-

man and Hall 1980

[2] Barnett V Lewis T Outliers in statistical data[M] New York

John Wiley and Sons 1994

[3] Johnson T Kwok I Ng R Fast computation of 2-dimensional

depth contours[C]Proceedings of the 4th International

Conference on Knowledge Discovery and Data Mining New

York 1998

[4] Ni Weiwei Lu Jieping Chen Geng et al An efficient data

stream outliers detection algorithm based on k-means parti-

tioning[J] Journal of Computer Research and Development

2006 43(9) 1639-1643

[5] Knorr E Ng R Algorithms for mining distance-based out-

liers in large datasets[C]Proceedings of the 24th Interna-

tional Conference on Very Large Data Bases (VLDB 104901198)

New York NY USA 1998 San Francisco CA USA Mor-

gan Kaufmann Publishers Inc 1998 392-403

[6] Breunig M M Kreigel H P Ng R T et al LOFidentifying

density-based local outliers[C]Proceedings of the 2000

ACM SIGMOD International Conference on Management

of Data (SIGMOD 104901100) Dallas TX 2000 New York NY

USA ACM 2000 93-104

[7] Dhaliwal P Bhatia M P S Bansal P A cluster-based appro-

ach for outlier detection in dynamic data streams (KORM

k-median outlier miner)[J] Journal of Computing 2010 2(2)

74-80

[8] Pedrycz W Shadowed sets representing and processing

fuzzy sets[J] IEEE Transactions on Systems Man and Cyber-

metics Part B 1998 28(1) 103-109

[9] Mitra S Banka H Pedrycz W Rough-fuzzy collaborative

clustering[J] IEEE Transactions on Systems Man and Cyber-

netics Part B 2006 36(4) 795-805

[10] Aggarwal C Yu P An effective and efficient algorithm for

high-dimensional outlier detection[J] The VLDB Journal

2005 14(2) 211-221

[11] Xue Zhenxia Shang Youlin Feng Aifen Semi-supervised out-

lier detection based on fuzzy rough C-means clustering[J]

Mathematics and Computers in Simulation 2010 80(9)

1911-1921

[12] Jiang Feng Sui Yuefei Cao Cungen An information entropy-

based approach to outlier detection in rough sets[J] Expert

Systems with Applications 2010 37(9) 6338-6344

[13] Chen Yumin Miao Duoqia Zhang Hongyun Neighborhood

outlier detection[J] Expert Systems with Applications2010

37(12) 8745-8749

[14] Huang Biao Yang Peng Finding key knowledge attribute

subspace of outliers in high-dimensional dataset[J] Expert

Systems with Applications 2011 38(8) 10147-10152

离群点

数量

3

7

11

17

检测率

3(17)

7(41)

10(59)

11(65)

检测精度

3(100)

7(100)

10(91)

11(65)

检测误差

0(0)

0(0)

1(9)

6(35)

检测率

3(17)

7(41)

10(59)

13(76)

检测精度

3(100)

7(100)

10(91)

13(76)

检测误差

0(0)

0(0)

1(9)

4(24)

检测率

3(17)

7(41)

11(65)

17(100)

检测精度

3(100)

7(100)

11(100)

17(100)

检测误差

0(0)

0(0)

0(0)

0(0)

基于距离检测 基于密度检测 本文算法检测

Table 1 Detection effects comparison of three algorithms

表1 三类算法检测效果比较

注检测率和检测精度前面的数字代表算法检测到的正确的离群点数量检测误差前面的数字代表算法误检的点的数量

K值

2

4

9

16

数据点编号

5899

58619499

5158619499115118119132

5153586177879499107114115118119123132135

最小

COF

2622 0

2538 1

1705 0

1302 1

最大

COF

2691 8

2691 8

2691 8

2691 8

Table 2 Outliers detection of Iris data for different K

表2 Iris数据在不同K值下的离群点检测结果

992

王 丹 等融合Shadowed Sets聚类的离群点检测算法

MAO Ziyang was born in 1979 He is a PhD candidate and lecturer at National University of Defense Tech-

nology His research interests include computational mathematics and weather science etc

毛紫阳(1979mdash)男河南开封人国防科技大学博士研究生讲师主要研究领域为计算数学气象科学等

WU Mengda was born in 1956 He is a professor and master supervisor at National University of Defense

Technology His research interests include rough sets and mathematical modeling etc

吴孟达(1956mdash)男浙江奉化人国防科技大学教授硕士生导师主要研究领域为粗糙集数学建模等

WANG Dan was born in 1981 He is a PhD candidate and lecturer at National University of Defense Technol-

ogy His research interests include rough sets and image processing etc

王丹(1981mdash)男湖南长沙人国防科技大学博士研究生讲师主要研究领域为粗糙集图像处理等

993

Page 3: Shadowed Sets 聚类的离群点检测算法 - GitHub Pagesziyang.github.io/files/wd-outlier.pdf · 2017-04-08 · 2.2 基于Shadowed Sets 的FCM 聚类 类似于粗糙模糊C 均值聚类算法(rough

王 丹 等融合Shadowed Sets聚类的离群点检测算法

(exclusion)而那些隶属度位于 0和 1之间的对象集

则称为阴影集(shadow)阴影集中的对象隶属度都

定义在(01)区间而不再用单个确定的隶属度值来

刻画也就是说对阴影集的刻画是通过一个区间(非

数值模型)来表示的显然相比模糊集处理阴影

集的处理将更简单一些

从数学上来说模糊集的阴影化处理是一个映射

SX01(01)

S(x)=igraveiacuteicirc

iumliuml

1 if xIcirc core

(01) if xIcirc shadow

0 if xIcirc exclusion

(1)

在模糊集的阴影化处理中通过一个阈值 λ将模

糊隶属度函数分成三部分对于隶属度小于 λ的对

象将其隶属度设定为 0而对于隶属度大于 1 - λ的

对象将其隶属度设定为 1 或模糊集的最大隶属度

值在这样的处理中参数 λ的选取是最重要的其

选取应该维持原模糊集整体的不确定性本质上来

说模糊集的阴影化处理就是根据阈值将隶属度最

大的和最小的部分对象设定为完全确定的而其他

对象认为是不确定的用一个隶属度区间来刻画

Pedrycz等人设计了一个优化目标函数[8]来选取 λ优

化目标定义如下

λopt = argminλ

O(λ) (2)

其中 λIcirc(012

)

O(λ)=

|intF(x) λ

thinspF(x)dx + intF(x) 1 - λ

thinsp(1 - F(x))dx - intλ lt F(x)lt 1 - λ

thinspdx|(3)

显然区间 (λ1 - λ) 限制了阴影集的边界根据

上述定义相应地可以定义核阴影和负域如下

igrave

iacute

icirc

iumliumliumliuml

core(X )=xIcircX|F(x) 1 - λ

shadow(X )=xIcircX|λ lt F(x)lt 1 - λ

exclusion(X )=xIcircX|F(x) λ

(4)

离散情况下若 ui 表示对象属于某个集合的隶

属度值优化目标(3)能够转化为

O(λ)= |aringui λ

ui + aringui umax - λ

(umax - ui) thinsp-

cardi|λ lt ui lt umax - λ| (5)

其中 λIcirc[uminumin + umax 2] 这里 uminumax 为模糊集

隶属度的最小最大值

尽管产生的机理并不一样但阴影集与粗糙集

有着一定的异曲同工之处粗糙集中的下近似对应

于阴影化处理中的核而粗糙集中的边界对应于阴

影集粗糙集中的负域对应阴影化处理中的负域

从机理上来说粗糙集中下近似边界和负域的产生

是根据当前已有的知识来分类而阴影集是根据隶

属度值的分布来对核阴影和负域进行划分

22 基于Shadowed Sets的FCM聚类类似于粗糙模糊 C 均值聚类算法(rough fuzzy

C-means clusteringRFCM)Mitra等人提出了基于阴

影集的模糊C均值聚类算法(shadowed sets C-means

clusteringSCM)[9]在基于阴影集的模糊C均值聚类

算法中设对象集为 X =x1x2xn 对象集所确

定的分类为 Ui(i = 12c) 且设第 i 个类的类心

为 vi 对象 xj 属于第 i 个类的隶属度为 uij 则算法聚

类过程中相应的类心和隶属度迭代公式为vi =

aringxkIcirc core(Ui)

xk thinsp + aringxkIcirc shadow(Ui)

umik xk thinsp + aring

xkIcirc exclusion(Ui)

umm

ik xk thinsp

cardx|xkIcirc core(Ui)+ aringxkIcirc shadow(Ui)

umik thinsp + aring

xkIcirc exclusion(Ui)

umm

ik thinsp(6)

uik =1

aringj = 1

c

(dik

djk

)2

m - 1

(7)

其中core(Ui)shadow(Ui) 和 exclusion(Ui) 分别表示

由聚类Ui 上的模糊隶属度函数阴影化处理过程中得

到的核阴影和负域它们是通过优化目标函数(5)而

得到的 dij 表示对象 xj 与类心 vi 之间的欧氏距离

基于阴影集的聚类算法在模糊C均值算法的基

础上通过考虑聚类的不同部分(核边界和负域)对

类心的影响不同来更新边界从而使得算法具有更

大的鲁棒性

3 离群点新定义和离群因子关于什么是离群点很多学者已经从不同方面

给出了多个定义具有代表性的定义如下

定义1(Hawkins定义[1])如果一个对象偏离其他

对象很多以至于不得不怀疑其是由其他机理产生

987

Journal of Frontiers of Computer Science and Technology 计算机科学与探索 2012 6(11)

的这样的对象称为离群点

定义 2(Barnett定义[3])离群点是那些与样本集

中大多数样本具有显著偏差的样本

定义3(Johnson定义[4])数据中的离群点是那些

与其他样本不一致的点

从以上描述来看离群点的定义立足点都在离

群点本身强调的是与其他大多数点的区别而对其

他大多数点并没有进行更多描述没有给出其他大

多数点应该满足的约束也就是说上述定义实际上

是从离群点局部给出来的另外上述定义也未给出

数据点到底与其他多少点有多大偏离就可以称之为

离群点因此上述定义并未从实质上给出离群点的

较准确刻画

事实上对于离群点的刻画有两个重要的方面

应该注意到一是离群点具有相对性也就是说某

个样本是否是离群点应该看其针对的是什么数据

有的点针对这一部分数据来看是离群点但针对另

外一部分数据来说却又不是离群点二是是否是

离群点从数据整体或宏观来刻画更加准确用数据

点对数据整体上表现出的偏离性或不一致性来描述

离群点更加合适要注意的是这里数据整体或宏

观指的是数据宏观表现出来的数据特点下面给出

本文对离群点的定义

定义4 离群点指的是与数据集中所有模式或聚

类具有较大偏离的那些点这些点在数据宏观上表

现为其不具备明显的某个模式的特征同时又对所

有模式具有较大的不确定性

上述定义是从数据整体或宏观上给出的离群点

定义通俗地说离群点就是在数据集中既没有哪个

模式或聚类能够将其包含进去其本身也不具备能

以较大确定性属于某个模式或聚类的那些点相比

基于局部特性刻画离群点上述定义强调数据集本

身的结构离群点是与现有数据集结构不一致的那

些点

上述离群点定义给出的离群点检测的标准涉及

到三个方面

(1)检测时需要获取数据集的结构

(2)应计算离群点与数据中模式或聚类的偏离

程度

(3)离群点本身归属模式或聚类的概率计算其

反应的是离群点的不确定性

下面给出刻画离群点的离群因子定义

定义5 设数据集为 X =x1x2xn数据集 X

存在 c(1 c lt n) 个模式(或聚类)Ui(i = 12c) 设

uij(1 i c1 j n) 为第 j 个数据点属于第 i 个模式

的隶属度并且满足aringi = 1

c

uij = 1则第 j 个数据点的离

群因子(outlier factorCOF)定义为

COF(xj)=aeligegraveccedil

oumloslashdividearing

i = 1

c

uij lb uij thinsp acuteaeligegraveccedil

oumloslashdividearing

i = 1

c

uijdij thinsp (8)

上述定义中 dij 表示数据点 xj 到模式(或聚类)

Ui 的距离等号右边的第1项实际为熵其反应的是

数据点 xj 的不确定性第 2项是数据点 xj 到所有模

式的平均距离 COF(xj) 值越大数据点 xj 就越有

可能是离群点

4 融合Shadowed Sets聚类的离群点检测算法

41 新的阴影集优化目标

从定义4来检测离群点一个重要的基础就是需

要有比较准确的模式(聚类)划分而从模糊集阴影

化处理来看核是一个集合中较确定的对象集合对

于基于聚类思想来检测离群点来说准确的核定义

具有非常重要的作用为了进一步强调阴影化处理

过程中核的作用本文提出了一个新的阴影集优化

目标对于第Ui 聚类其最优 λi 的优化函数定义为

O(λi)=

|aringuij λi

uij thinsp + aringuij 1 - λi

(1 - uij) - card j|λi lt uij lt ui max - λi|

||coremin - shadowmax||2

(9)

其中uij 表示第 j 个对象属于Ui 的隶属度ui max 表

示 uij 的最大值coreminshadowmax 分别表示核中对

象的最小隶属度值和阴影中对象的最大隶属度值

上述优化目标相比Pedrycz等人提出的优化目标

更加严格其强调核与阴影的距离应该尽量远从而

保证核的准确性

988

王 丹 等融合Shadowed Sets聚类的离群点检测算法

42 算法描述

基于阴影集聚类的离群点检测算法的主要思想

是在基于阴影集的模糊C均值聚类迭代过程中通过

对每个类优化目标函数(9)从而将每个类分成核

阴影和负域三部分再对所有核中对象使用模糊C

均值聚类(不考虑属于阴影和负域的对象)从而在

每步迭代过程中得到较准确的聚类中心通过式(8)

计算每个对象的离群因子根据用户指定的输入参

数mdashmdash离群点数量 K 选出离群点如此迭代直到

获得的离群点不再产生变化则算法停止

算法1 融合Shadowed Sets聚类的离群点检测

输入设数据集为 X =x1x2xN 聚类数量

为 c 模糊C均值聚类算法中模糊化因子为 m 用户

定义的离群点数量为 K

输出离群点

步骤1 随机初始化隶属度函数 uij(i = 12c

j = 12N) 同时确保 aringi = 1

c

uij = 1 j = 12N thinsp

步骤 2 对于数据集 X 进行模糊C均值聚类获

得类心 vi(i = 12c) 和隶属度函数 uij

步骤3 对每一个聚类Ui 的隶属度函数 uij( j = 1

2N) 根据式(9)计算最优的 λi 和类Ui 的最大隶

属度值 ui max

步骤4 根据式(4)获取所有聚类的核对象

步骤5 对于所有的核对象集合执行模糊C均值

算法从而得到较准确的类心 vi

步骤 6 根据获得的类心 vi 计算每个对象 xj 的

COF(xj) 值选取 COF 值最大的 K 个对象作为离

群点

步骤 7 根据新的类心 vi 和式(7)更新所有点的

隶属度值

步骤8 检查算法的收敛性若前后两次获得的 K

个离群点不再产生变化则转下一步否则转步骤3

步骤9 输出离群点

5 实验分析

51 模拟数据

采用两个模拟数据集对算法进行测试模拟数

据集1是由32个二维数据点组成的集合包含3个离

群点模拟数据集 2是由 77个二维数据点构成的集

合包含17个离群点两个数据集见图2

对于模拟数据集1和模拟数据集2取不同 K 值

时离群点的检测结果分别如图3和图4所示(红色圆

圈表示检测到的离群点)从数据点的离群因子可

以看出由式(8)确定的离群因子在本文算法下与正

常数据点的离群因子具有较好的区分性对于不同

的 K 值从图中结果可以看出随着 K 值的增大离

群点的增加具有较好的合理性符合人类的感知注

70

60

50

40

30

20

10

0

y

10 20 30 40 50 60 70x

2018161412108642

y

0 2 4 6 8 10 12 14x

(a)Data 1

(a)数据集1

(b)Data 2

(b)数据集2

Fig2 Synthetic data

图2 模拟数据

989

Journal of Frontiers of Computer Science and Technology 计算机科学与探索 2012 6(11)

意到本文方法在检测离群点时考虑了离群点本身的

不确定性因此检测出来的结果除了孤立点低密度

点外还会考虑到类之间相交边界处的那些点这些

点可能距离每个类都有一定距离确定这些点的所

属归类并不容易因此随着 K 值的增大这样的点也

有可能被检测出来成为离群点

进一步针对模拟数据 2比较了采用本文算法

与基于距离的离群点检测算法和基于密度的离群点

检测算法的检测效果选择检测率检测精度和检

测误差三个指标对算法进行比较结果如表 1所示

其中三个指标定义如下

(1)检测率检测到的正确的离群点数量占真实

离群点总量的比率

(2)检测精度检测到的正确的离群点数量占算

法标注的离群点数量的比值

(3)检测误差未检测到的离群点数量和错误检

测的正常点数量占所有标注离群点数量的比值

上述算法比较中基于距离的检测算法的两个

参数距离阈值和距离阈值内数据点个数阈值分别取

为 4和 10基于密度的检测算法中参数邻域 K 取为

10上述两个算法的检测性能对参数具有较大依赖

性若要获得好的检测效果需要不断尝试选择合适

的参数

52 实际数据

从 UCI 数据集中选择 Iris 数据集作为算法测试

数据集Iris 数据集是关于植物分类的数据特征

集主要是关于花萼和花瓣的描述包括花萼宽度

花萼长度花瓣宽度和花瓣长度四个特征数据集

分为三类表 2显示了本文算法的可能离群点检测

结果

2018161412108642

y

0 2 4 6 8 10 12 14x

2018161412108642

y

0 2 4 6 8 10 12 14x

(c)K=3 (d)K=4

18

16

14

12

10

8

6

4

2

CO

F

0 5 10 15 20 25 30 35数据点编号

2018161412108642

y

0 2 4 6 8 10 12 14x

(a)COF (b)K=2

Fig3 Results of synthetic data 1

图3 模拟数据1的结果

990

王 丹 等融合Shadowed Sets聚类的离群点检测算法

显然从表2中可以看出随着 K 值的增加最小

的 COF 逐步减小最佳 K 值的选取一方面依赖于用

户的先验知识另一方面也可以根据最小COF值的变

化来寻找较合适的 K 值一种简单的办法是通过不

同 K 值计算最小COF 值选择相邻COF 值变化最大

的 K 作为最佳 K 值比如 Iris数据可以选择 K = 4

6 结论本文提出了一种新的离群点定义该定义从数

据宏观角度出发既考虑到离群点对数据模式的偏离

程度也考虑了离群点本身归属的不确定性新的定

义更加符合人类的感知基于新的离群点定义结合

阴影集模型提出了一种基于阴影集聚类的离群点

90

80

70

60

50

40

30

20

10

CO

F

0 10 20 30 40 50 60 70 80数据点编号

70

60

50

40

30

20

10

0

y

10 20 30 40 50 60 70x

(a)COF (b)K=1

70

60

50

40

30

20

10

0

y

10 20 30 40 50 60 70x

70

60

50

40

30

20

10

0

y

10 20 30 40 50 60 70x

(c)K=3 (d)K=7

70

60

50

40

30

20

10

0

y

10 20 30 40 50 60 70x

70

60

50

40

30

20

10

0

y

10 20 30 40 50 60 70x

(e)K=11 (f)K=17

Fig4 Results of synthetic data 2

图4 模拟数据2结果

991

Journal of Frontiers of Computer Science and Technology 计算机科学与探索 2012 6(11)

检测算法该算法能同时进行聚类和离群点检测具

有较好的检测效果

References[1] Hawkins D Identification of outliers[M] London Chap-

man and Hall 1980

[2] Barnett V Lewis T Outliers in statistical data[M] New York

John Wiley and Sons 1994

[3] Johnson T Kwok I Ng R Fast computation of 2-dimensional

depth contours[C]Proceedings of the 4th International

Conference on Knowledge Discovery and Data Mining New

York 1998

[4] Ni Weiwei Lu Jieping Chen Geng et al An efficient data

stream outliers detection algorithm based on k-means parti-

tioning[J] Journal of Computer Research and Development

2006 43(9) 1639-1643

[5] Knorr E Ng R Algorithms for mining distance-based out-

liers in large datasets[C]Proceedings of the 24th Interna-

tional Conference on Very Large Data Bases (VLDB 104901198)

New York NY USA 1998 San Francisco CA USA Mor-

gan Kaufmann Publishers Inc 1998 392-403

[6] Breunig M M Kreigel H P Ng R T et al LOFidentifying

density-based local outliers[C]Proceedings of the 2000

ACM SIGMOD International Conference on Management

of Data (SIGMOD 104901100) Dallas TX 2000 New York NY

USA ACM 2000 93-104

[7] Dhaliwal P Bhatia M P S Bansal P A cluster-based appro-

ach for outlier detection in dynamic data streams (KORM

k-median outlier miner)[J] Journal of Computing 2010 2(2)

74-80

[8] Pedrycz W Shadowed sets representing and processing

fuzzy sets[J] IEEE Transactions on Systems Man and Cyber-

metics Part B 1998 28(1) 103-109

[9] Mitra S Banka H Pedrycz W Rough-fuzzy collaborative

clustering[J] IEEE Transactions on Systems Man and Cyber-

netics Part B 2006 36(4) 795-805

[10] Aggarwal C Yu P An effective and efficient algorithm for

high-dimensional outlier detection[J] The VLDB Journal

2005 14(2) 211-221

[11] Xue Zhenxia Shang Youlin Feng Aifen Semi-supervised out-

lier detection based on fuzzy rough C-means clustering[J]

Mathematics and Computers in Simulation 2010 80(9)

1911-1921

[12] Jiang Feng Sui Yuefei Cao Cungen An information entropy-

based approach to outlier detection in rough sets[J] Expert

Systems with Applications 2010 37(9) 6338-6344

[13] Chen Yumin Miao Duoqia Zhang Hongyun Neighborhood

outlier detection[J] Expert Systems with Applications2010

37(12) 8745-8749

[14] Huang Biao Yang Peng Finding key knowledge attribute

subspace of outliers in high-dimensional dataset[J] Expert

Systems with Applications 2011 38(8) 10147-10152

离群点

数量

3

7

11

17

检测率

3(17)

7(41)

10(59)

11(65)

检测精度

3(100)

7(100)

10(91)

11(65)

检测误差

0(0)

0(0)

1(9)

6(35)

检测率

3(17)

7(41)

10(59)

13(76)

检测精度

3(100)

7(100)

10(91)

13(76)

检测误差

0(0)

0(0)

1(9)

4(24)

检测率

3(17)

7(41)

11(65)

17(100)

检测精度

3(100)

7(100)

11(100)

17(100)

检测误差

0(0)

0(0)

0(0)

0(0)

基于距离检测 基于密度检测 本文算法检测

Table 1 Detection effects comparison of three algorithms

表1 三类算法检测效果比较

注检测率和检测精度前面的数字代表算法检测到的正确的离群点数量检测误差前面的数字代表算法误检的点的数量

K值

2

4

9

16

数据点编号

5899

58619499

5158619499115118119132

5153586177879499107114115118119123132135

最小

COF

2622 0

2538 1

1705 0

1302 1

最大

COF

2691 8

2691 8

2691 8

2691 8

Table 2 Outliers detection of Iris data for different K

表2 Iris数据在不同K值下的离群点检测结果

992

王 丹 等融合Shadowed Sets聚类的离群点检测算法

MAO Ziyang was born in 1979 He is a PhD candidate and lecturer at National University of Defense Tech-

nology His research interests include computational mathematics and weather science etc

毛紫阳(1979mdash)男河南开封人国防科技大学博士研究生讲师主要研究领域为计算数学气象科学等

WU Mengda was born in 1956 He is a professor and master supervisor at National University of Defense

Technology His research interests include rough sets and mathematical modeling etc

吴孟达(1956mdash)男浙江奉化人国防科技大学教授硕士生导师主要研究领域为粗糙集数学建模等

WANG Dan was born in 1981 He is a PhD candidate and lecturer at National University of Defense Technol-

ogy His research interests include rough sets and image processing etc

王丹(1981mdash)男湖南长沙人国防科技大学博士研究生讲师主要研究领域为粗糙集图像处理等

993

Page 4: Shadowed Sets 聚类的离群点检测算法 - GitHub Pagesziyang.github.io/files/wd-outlier.pdf · 2017-04-08 · 2.2 基于Shadowed Sets 的FCM 聚类 类似于粗糙模糊C 均值聚类算法(rough

Journal of Frontiers of Computer Science and Technology 计算机科学与探索 2012 6(11)

的这样的对象称为离群点

定义 2(Barnett定义[3])离群点是那些与样本集

中大多数样本具有显著偏差的样本

定义3(Johnson定义[4])数据中的离群点是那些

与其他样本不一致的点

从以上描述来看离群点的定义立足点都在离

群点本身强调的是与其他大多数点的区别而对其

他大多数点并没有进行更多描述没有给出其他大

多数点应该满足的约束也就是说上述定义实际上

是从离群点局部给出来的另外上述定义也未给出

数据点到底与其他多少点有多大偏离就可以称之为

离群点因此上述定义并未从实质上给出离群点的

较准确刻画

事实上对于离群点的刻画有两个重要的方面

应该注意到一是离群点具有相对性也就是说某

个样本是否是离群点应该看其针对的是什么数据

有的点针对这一部分数据来看是离群点但针对另

外一部分数据来说却又不是离群点二是是否是

离群点从数据整体或宏观来刻画更加准确用数据

点对数据整体上表现出的偏离性或不一致性来描述

离群点更加合适要注意的是这里数据整体或宏

观指的是数据宏观表现出来的数据特点下面给出

本文对离群点的定义

定义4 离群点指的是与数据集中所有模式或聚

类具有较大偏离的那些点这些点在数据宏观上表

现为其不具备明显的某个模式的特征同时又对所

有模式具有较大的不确定性

上述定义是从数据整体或宏观上给出的离群点

定义通俗地说离群点就是在数据集中既没有哪个

模式或聚类能够将其包含进去其本身也不具备能

以较大确定性属于某个模式或聚类的那些点相比

基于局部特性刻画离群点上述定义强调数据集本

身的结构离群点是与现有数据集结构不一致的那

些点

上述离群点定义给出的离群点检测的标准涉及

到三个方面

(1)检测时需要获取数据集的结构

(2)应计算离群点与数据中模式或聚类的偏离

程度

(3)离群点本身归属模式或聚类的概率计算其

反应的是离群点的不确定性

下面给出刻画离群点的离群因子定义

定义5 设数据集为 X =x1x2xn数据集 X

存在 c(1 c lt n) 个模式(或聚类)Ui(i = 12c) 设

uij(1 i c1 j n) 为第 j 个数据点属于第 i 个模式

的隶属度并且满足aringi = 1

c

uij = 1则第 j 个数据点的离

群因子(outlier factorCOF)定义为

COF(xj)=aeligegraveccedil

oumloslashdividearing

i = 1

c

uij lb uij thinsp acuteaeligegraveccedil

oumloslashdividearing

i = 1

c

uijdij thinsp (8)

上述定义中 dij 表示数据点 xj 到模式(或聚类)

Ui 的距离等号右边的第1项实际为熵其反应的是

数据点 xj 的不确定性第 2项是数据点 xj 到所有模

式的平均距离 COF(xj) 值越大数据点 xj 就越有

可能是离群点

4 融合Shadowed Sets聚类的离群点检测算法

41 新的阴影集优化目标

从定义4来检测离群点一个重要的基础就是需

要有比较准确的模式(聚类)划分而从模糊集阴影

化处理来看核是一个集合中较确定的对象集合对

于基于聚类思想来检测离群点来说准确的核定义

具有非常重要的作用为了进一步强调阴影化处理

过程中核的作用本文提出了一个新的阴影集优化

目标对于第Ui 聚类其最优 λi 的优化函数定义为

O(λi)=

|aringuij λi

uij thinsp + aringuij 1 - λi

(1 - uij) - card j|λi lt uij lt ui max - λi|

||coremin - shadowmax||2

(9)

其中uij 表示第 j 个对象属于Ui 的隶属度ui max 表

示 uij 的最大值coreminshadowmax 分别表示核中对

象的最小隶属度值和阴影中对象的最大隶属度值

上述优化目标相比Pedrycz等人提出的优化目标

更加严格其强调核与阴影的距离应该尽量远从而

保证核的准确性

988

王 丹 等融合Shadowed Sets聚类的离群点检测算法

42 算法描述

基于阴影集聚类的离群点检测算法的主要思想

是在基于阴影集的模糊C均值聚类迭代过程中通过

对每个类优化目标函数(9)从而将每个类分成核

阴影和负域三部分再对所有核中对象使用模糊C

均值聚类(不考虑属于阴影和负域的对象)从而在

每步迭代过程中得到较准确的聚类中心通过式(8)

计算每个对象的离群因子根据用户指定的输入参

数mdashmdash离群点数量 K 选出离群点如此迭代直到

获得的离群点不再产生变化则算法停止

算法1 融合Shadowed Sets聚类的离群点检测

输入设数据集为 X =x1x2xN 聚类数量

为 c 模糊C均值聚类算法中模糊化因子为 m 用户

定义的离群点数量为 K

输出离群点

步骤1 随机初始化隶属度函数 uij(i = 12c

j = 12N) 同时确保 aringi = 1

c

uij = 1 j = 12N thinsp

步骤 2 对于数据集 X 进行模糊C均值聚类获

得类心 vi(i = 12c) 和隶属度函数 uij

步骤3 对每一个聚类Ui 的隶属度函数 uij( j = 1

2N) 根据式(9)计算最优的 λi 和类Ui 的最大隶

属度值 ui max

步骤4 根据式(4)获取所有聚类的核对象

步骤5 对于所有的核对象集合执行模糊C均值

算法从而得到较准确的类心 vi

步骤 6 根据获得的类心 vi 计算每个对象 xj 的

COF(xj) 值选取 COF 值最大的 K 个对象作为离

群点

步骤 7 根据新的类心 vi 和式(7)更新所有点的

隶属度值

步骤8 检查算法的收敛性若前后两次获得的 K

个离群点不再产生变化则转下一步否则转步骤3

步骤9 输出离群点

5 实验分析

51 模拟数据

采用两个模拟数据集对算法进行测试模拟数

据集1是由32个二维数据点组成的集合包含3个离

群点模拟数据集 2是由 77个二维数据点构成的集

合包含17个离群点两个数据集见图2

对于模拟数据集1和模拟数据集2取不同 K 值

时离群点的检测结果分别如图3和图4所示(红色圆

圈表示检测到的离群点)从数据点的离群因子可

以看出由式(8)确定的离群因子在本文算法下与正

常数据点的离群因子具有较好的区分性对于不同

的 K 值从图中结果可以看出随着 K 值的增大离

群点的增加具有较好的合理性符合人类的感知注

70

60

50

40

30

20

10

0

y

10 20 30 40 50 60 70x

2018161412108642

y

0 2 4 6 8 10 12 14x

(a)Data 1

(a)数据集1

(b)Data 2

(b)数据集2

Fig2 Synthetic data

图2 模拟数据

989

Journal of Frontiers of Computer Science and Technology 计算机科学与探索 2012 6(11)

意到本文方法在检测离群点时考虑了离群点本身的

不确定性因此检测出来的结果除了孤立点低密度

点外还会考虑到类之间相交边界处的那些点这些

点可能距离每个类都有一定距离确定这些点的所

属归类并不容易因此随着 K 值的增大这样的点也

有可能被检测出来成为离群点

进一步针对模拟数据 2比较了采用本文算法

与基于距离的离群点检测算法和基于密度的离群点

检测算法的检测效果选择检测率检测精度和检

测误差三个指标对算法进行比较结果如表 1所示

其中三个指标定义如下

(1)检测率检测到的正确的离群点数量占真实

离群点总量的比率

(2)检测精度检测到的正确的离群点数量占算

法标注的离群点数量的比值

(3)检测误差未检测到的离群点数量和错误检

测的正常点数量占所有标注离群点数量的比值

上述算法比较中基于距离的检测算法的两个

参数距离阈值和距离阈值内数据点个数阈值分别取

为 4和 10基于密度的检测算法中参数邻域 K 取为

10上述两个算法的检测性能对参数具有较大依赖

性若要获得好的检测效果需要不断尝试选择合适

的参数

52 实际数据

从 UCI 数据集中选择 Iris 数据集作为算法测试

数据集Iris 数据集是关于植物分类的数据特征

集主要是关于花萼和花瓣的描述包括花萼宽度

花萼长度花瓣宽度和花瓣长度四个特征数据集

分为三类表 2显示了本文算法的可能离群点检测

结果

2018161412108642

y

0 2 4 6 8 10 12 14x

2018161412108642

y

0 2 4 6 8 10 12 14x

(c)K=3 (d)K=4

18

16

14

12

10

8

6

4

2

CO

F

0 5 10 15 20 25 30 35数据点编号

2018161412108642

y

0 2 4 6 8 10 12 14x

(a)COF (b)K=2

Fig3 Results of synthetic data 1

图3 模拟数据1的结果

990

王 丹 等融合Shadowed Sets聚类的离群点检测算法

显然从表2中可以看出随着 K 值的增加最小

的 COF 逐步减小最佳 K 值的选取一方面依赖于用

户的先验知识另一方面也可以根据最小COF值的变

化来寻找较合适的 K 值一种简单的办法是通过不

同 K 值计算最小COF 值选择相邻COF 值变化最大

的 K 作为最佳 K 值比如 Iris数据可以选择 K = 4

6 结论本文提出了一种新的离群点定义该定义从数

据宏观角度出发既考虑到离群点对数据模式的偏离

程度也考虑了离群点本身归属的不确定性新的定

义更加符合人类的感知基于新的离群点定义结合

阴影集模型提出了一种基于阴影集聚类的离群点

90

80

70

60

50

40

30

20

10

CO

F

0 10 20 30 40 50 60 70 80数据点编号

70

60

50

40

30

20

10

0

y

10 20 30 40 50 60 70x

(a)COF (b)K=1

70

60

50

40

30

20

10

0

y

10 20 30 40 50 60 70x

70

60

50

40

30

20

10

0

y

10 20 30 40 50 60 70x

(c)K=3 (d)K=7

70

60

50

40

30

20

10

0

y

10 20 30 40 50 60 70x

70

60

50

40

30

20

10

0

y

10 20 30 40 50 60 70x

(e)K=11 (f)K=17

Fig4 Results of synthetic data 2

图4 模拟数据2结果

991

Journal of Frontiers of Computer Science and Technology 计算机科学与探索 2012 6(11)

检测算法该算法能同时进行聚类和离群点检测具

有较好的检测效果

References[1] Hawkins D Identification of outliers[M] London Chap-

man and Hall 1980

[2] Barnett V Lewis T Outliers in statistical data[M] New York

John Wiley and Sons 1994

[3] Johnson T Kwok I Ng R Fast computation of 2-dimensional

depth contours[C]Proceedings of the 4th International

Conference on Knowledge Discovery and Data Mining New

York 1998

[4] Ni Weiwei Lu Jieping Chen Geng et al An efficient data

stream outliers detection algorithm based on k-means parti-

tioning[J] Journal of Computer Research and Development

2006 43(9) 1639-1643

[5] Knorr E Ng R Algorithms for mining distance-based out-

liers in large datasets[C]Proceedings of the 24th Interna-

tional Conference on Very Large Data Bases (VLDB 104901198)

New York NY USA 1998 San Francisco CA USA Mor-

gan Kaufmann Publishers Inc 1998 392-403

[6] Breunig M M Kreigel H P Ng R T et al LOFidentifying

density-based local outliers[C]Proceedings of the 2000

ACM SIGMOD International Conference on Management

of Data (SIGMOD 104901100) Dallas TX 2000 New York NY

USA ACM 2000 93-104

[7] Dhaliwal P Bhatia M P S Bansal P A cluster-based appro-

ach for outlier detection in dynamic data streams (KORM

k-median outlier miner)[J] Journal of Computing 2010 2(2)

74-80

[8] Pedrycz W Shadowed sets representing and processing

fuzzy sets[J] IEEE Transactions on Systems Man and Cyber-

metics Part B 1998 28(1) 103-109

[9] Mitra S Banka H Pedrycz W Rough-fuzzy collaborative

clustering[J] IEEE Transactions on Systems Man and Cyber-

netics Part B 2006 36(4) 795-805

[10] Aggarwal C Yu P An effective and efficient algorithm for

high-dimensional outlier detection[J] The VLDB Journal

2005 14(2) 211-221

[11] Xue Zhenxia Shang Youlin Feng Aifen Semi-supervised out-

lier detection based on fuzzy rough C-means clustering[J]

Mathematics and Computers in Simulation 2010 80(9)

1911-1921

[12] Jiang Feng Sui Yuefei Cao Cungen An information entropy-

based approach to outlier detection in rough sets[J] Expert

Systems with Applications 2010 37(9) 6338-6344

[13] Chen Yumin Miao Duoqia Zhang Hongyun Neighborhood

outlier detection[J] Expert Systems with Applications2010

37(12) 8745-8749

[14] Huang Biao Yang Peng Finding key knowledge attribute

subspace of outliers in high-dimensional dataset[J] Expert

Systems with Applications 2011 38(8) 10147-10152

离群点

数量

3

7

11

17

检测率

3(17)

7(41)

10(59)

11(65)

检测精度

3(100)

7(100)

10(91)

11(65)

检测误差

0(0)

0(0)

1(9)

6(35)

检测率

3(17)

7(41)

10(59)

13(76)

检测精度

3(100)

7(100)

10(91)

13(76)

检测误差

0(0)

0(0)

1(9)

4(24)

检测率

3(17)

7(41)

11(65)

17(100)

检测精度

3(100)

7(100)

11(100)

17(100)

检测误差

0(0)

0(0)

0(0)

0(0)

基于距离检测 基于密度检测 本文算法检测

Table 1 Detection effects comparison of three algorithms

表1 三类算法检测效果比较

注检测率和检测精度前面的数字代表算法检测到的正确的离群点数量检测误差前面的数字代表算法误检的点的数量

K值

2

4

9

16

数据点编号

5899

58619499

5158619499115118119132

5153586177879499107114115118119123132135

最小

COF

2622 0

2538 1

1705 0

1302 1

最大

COF

2691 8

2691 8

2691 8

2691 8

Table 2 Outliers detection of Iris data for different K

表2 Iris数据在不同K值下的离群点检测结果

992

王 丹 等融合Shadowed Sets聚类的离群点检测算法

MAO Ziyang was born in 1979 He is a PhD candidate and lecturer at National University of Defense Tech-

nology His research interests include computational mathematics and weather science etc

毛紫阳(1979mdash)男河南开封人国防科技大学博士研究生讲师主要研究领域为计算数学气象科学等

WU Mengda was born in 1956 He is a professor and master supervisor at National University of Defense

Technology His research interests include rough sets and mathematical modeling etc

吴孟达(1956mdash)男浙江奉化人国防科技大学教授硕士生导师主要研究领域为粗糙集数学建模等

WANG Dan was born in 1981 He is a PhD candidate and lecturer at National University of Defense Technol-

ogy His research interests include rough sets and image processing etc

王丹(1981mdash)男湖南长沙人国防科技大学博士研究生讲师主要研究领域为粗糙集图像处理等

993

Page 5: Shadowed Sets 聚类的离群点检测算法 - GitHub Pagesziyang.github.io/files/wd-outlier.pdf · 2017-04-08 · 2.2 基于Shadowed Sets 的FCM 聚类 类似于粗糙模糊C 均值聚类算法(rough

王 丹 等融合Shadowed Sets聚类的离群点检测算法

42 算法描述

基于阴影集聚类的离群点检测算法的主要思想

是在基于阴影集的模糊C均值聚类迭代过程中通过

对每个类优化目标函数(9)从而将每个类分成核

阴影和负域三部分再对所有核中对象使用模糊C

均值聚类(不考虑属于阴影和负域的对象)从而在

每步迭代过程中得到较准确的聚类中心通过式(8)

计算每个对象的离群因子根据用户指定的输入参

数mdashmdash离群点数量 K 选出离群点如此迭代直到

获得的离群点不再产生变化则算法停止

算法1 融合Shadowed Sets聚类的离群点检测

输入设数据集为 X =x1x2xN 聚类数量

为 c 模糊C均值聚类算法中模糊化因子为 m 用户

定义的离群点数量为 K

输出离群点

步骤1 随机初始化隶属度函数 uij(i = 12c

j = 12N) 同时确保 aringi = 1

c

uij = 1 j = 12N thinsp

步骤 2 对于数据集 X 进行模糊C均值聚类获

得类心 vi(i = 12c) 和隶属度函数 uij

步骤3 对每一个聚类Ui 的隶属度函数 uij( j = 1

2N) 根据式(9)计算最优的 λi 和类Ui 的最大隶

属度值 ui max

步骤4 根据式(4)获取所有聚类的核对象

步骤5 对于所有的核对象集合执行模糊C均值

算法从而得到较准确的类心 vi

步骤 6 根据获得的类心 vi 计算每个对象 xj 的

COF(xj) 值选取 COF 值最大的 K 个对象作为离

群点

步骤 7 根据新的类心 vi 和式(7)更新所有点的

隶属度值

步骤8 检查算法的收敛性若前后两次获得的 K

个离群点不再产生变化则转下一步否则转步骤3

步骤9 输出离群点

5 实验分析

51 模拟数据

采用两个模拟数据集对算法进行测试模拟数

据集1是由32个二维数据点组成的集合包含3个离

群点模拟数据集 2是由 77个二维数据点构成的集

合包含17个离群点两个数据集见图2

对于模拟数据集1和模拟数据集2取不同 K 值

时离群点的检测结果分别如图3和图4所示(红色圆

圈表示检测到的离群点)从数据点的离群因子可

以看出由式(8)确定的离群因子在本文算法下与正

常数据点的离群因子具有较好的区分性对于不同

的 K 值从图中结果可以看出随着 K 值的增大离

群点的增加具有较好的合理性符合人类的感知注

70

60

50

40

30

20

10

0

y

10 20 30 40 50 60 70x

2018161412108642

y

0 2 4 6 8 10 12 14x

(a)Data 1

(a)数据集1

(b)Data 2

(b)数据集2

Fig2 Synthetic data

图2 模拟数据

989

Journal of Frontiers of Computer Science and Technology 计算机科学与探索 2012 6(11)

意到本文方法在检测离群点时考虑了离群点本身的

不确定性因此检测出来的结果除了孤立点低密度

点外还会考虑到类之间相交边界处的那些点这些

点可能距离每个类都有一定距离确定这些点的所

属归类并不容易因此随着 K 值的增大这样的点也

有可能被检测出来成为离群点

进一步针对模拟数据 2比较了采用本文算法

与基于距离的离群点检测算法和基于密度的离群点

检测算法的检测效果选择检测率检测精度和检

测误差三个指标对算法进行比较结果如表 1所示

其中三个指标定义如下

(1)检测率检测到的正确的离群点数量占真实

离群点总量的比率

(2)检测精度检测到的正确的离群点数量占算

法标注的离群点数量的比值

(3)检测误差未检测到的离群点数量和错误检

测的正常点数量占所有标注离群点数量的比值

上述算法比较中基于距离的检测算法的两个

参数距离阈值和距离阈值内数据点个数阈值分别取

为 4和 10基于密度的检测算法中参数邻域 K 取为

10上述两个算法的检测性能对参数具有较大依赖

性若要获得好的检测效果需要不断尝试选择合适

的参数

52 实际数据

从 UCI 数据集中选择 Iris 数据集作为算法测试

数据集Iris 数据集是关于植物分类的数据特征

集主要是关于花萼和花瓣的描述包括花萼宽度

花萼长度花瓣宽度和花瓣长度四个特征数据集

分为三类表 2显示了本文算法的可能离群点检测

结果

2018161412108642

y

0 2 4 6 8 10 12 14x

2018161412108642

y

0 2 4 6 8 10 12 14x

(c)K=3 (d)K=4

18

16

14

12

10

8

6

4

2

CO

F

0 5 10 15 20 25 30 35数据点编号

2018161412108642

y

0 2 4 6 8 10 12 14x

(a)COF (b)K=2

Fig3 Results of synthetic data 1

图3 模拟数据1的结果

990

王 丹 等融合Shadowed Sets聚类的离群点检测算法

显然从表2中可以看出随着 K 值的增加最小

的 COF 逐步减小最佳 K 值的选取一方面依赖于用

户的先验知识另一方面也可以根据最小COF值的变

化来寻找较合适的 K 值一种简单的办法是通过不

同 K 值计算最小COF 值选择相邻COF 值变化最大

的 K 作为最佳 K 值比如 Iris数据可以选择 K = 4

6 结论本文提出了一种新的离群点定义该定义从数

据宏观角度出发既考虑到离群点对数据模式的偏离

程度也考虑了离群点本身归属的不确定性新的定

义更加符合人类的感知基于新的离群点定义结合

阴影集模型提出了一种基于阴影集聚类的离群点

90

80

70

60

50

40

30

20

10

CO

F

0 10 20 30 40 50 60 70 80数据点编号

70

60

50

40

30

20

10

0

y

10 20 30 40 50 60 70x

(a)COF (b)K=1

70

60

50

40

30

20

10

0

y

10 20 30 40 50 60 70x

70

60

50

40

30

20

10

0

y

10 20 30 40 50 60 70x

(c)K=3 (d)K=7

70

60

50

40

30

20

10

0

y

10 20 30 40 50 60 70x

70

60

50

40

30

20

10

0

y

10 20 30 40 50 60 70x

(e)K=11 (f)K=17

Fig4 Results of synthetic data 2

图4 模拟数据2结果

991

Journal of Frontiers of Computer Science and Technology 计算机科学与探索 2012 6(11)

检测算法该算法能同时进行聚类和离群点检测具

有较好的检测效果

References[1] Hawkins D Identification of outliers[M] London Chap-

man and Hall 1980

[2] Barnett V Lewis T Outliers in statistical data[M] New York

John Wiley and Sons 1994

[3] Johnson T Kwok I Ng R Fast computation of 2-dimensional

depth contours[C]Proceedings of the 4th International

Conference on Knowledge Discovery and Data Mining New

York 1998

[4] Ni Weiwei Lu Jieping Chen Geng et al An efficient data

stream outliers detection algorithm based on k-means parti-

tioning[J] Journal of Computer Research and Development

2006 43(9) 1639-1643

[5] Knorr E Ng R Algorithms for mining distance-based out-

liers in large datasets[C]Proceedings of the 24th Interna-

tional Conference on Very Large Data Bases (VLDB 104901198)

New York NY USA 1998 San Francisco CA USA Mor-

gan Kaufmann Publishers Inc 1998 392-403

[6] Breunig M M Kreigel H P Ng R T et al LOFidentifying

density-based local outliers[C]Proceedings of the 2000

ACM SIGMOD International Conference on Management

of Data (SIGMOD 104901100) Dallas TX 2000 New York NY

USA ACM 2000 93-104

[7] Dhaliwal P Bhatia M P S Bansal P A cluster-based appro-

ach for outlier detection in dynamic data streams (KORM

k-median outlier miner)[J] Journal of Computing 2010 2(2)

74-80

[8] Pedrycz W Shadowed sets representing and processing

fuzzy sets[J] IEEE Transactions on Systems Man and Cyber-

metics Part B 1998 28(1) 103-109

[9] Mitra S Banka H Pedrycz W Rough-fuzzy collaborative

clustering[J] IEEE Transactions on Systems Man and Cyber-

netics Part B 2006 36(4) 795-805

[10] Aggarwal C Yu P An effective and efficient algorithm for

high-dimensional outlier detection[J] The VLDB Journal

2005 14(2) 211-221

[11] Xue Zhenxia Shang Youlin Feng Aifen Semi-supervised out-

lier detection based on fuzzy rough C-means clustering[J]

Mathematics and Computers in Simulation 2010 80(9)

1911-1921

[12] Jiang Feng Sui Yuefei Cao Cungen An information entropy-

based approach to outlier detection in rough sets[J] Expert

Systems with Applications 2010 37(9) 6338-6344

[13] Chen Yumin Miao Duoqia Zhang Hongyun Neighborhood

outlier detection[J] Expert Systems with Applications2010

37(12) 8745-8749

[14] Huang Biao Yang Peng Finding key knowledge attribute

subspace of outliers in high-dimensional dataset[J] Expert

Systems with Applications 2011 38(8) 10147-10152

离群点

数量

3

7

11

17

检测率

3(17)

7(41)

10(59)

11(65)

检测精度

3(100)

7(100)

10(91)

11(65)

检测误差

0(0)

0(0)

1(9)

6(35)

检测率

3(17)

7(41)

10(59)

13(76)

检测精度

3(100)

7(100)

10(91)

13(76)

检测误差

0(0)

0(0)

1(9)

4(24)

检测率

3(17)

7(41)

11(65)

17(100)

检测精度

3(100)

7(100)

11(100)

17(100)

检测误差

0(0)

0(0)

0(0)

0(0)

基于距离检测 基于密度检测 本文算法检测

Table 1 Detection effects comparison of three algorithms

表1 三类算法检测效果比较

注检测率和检测精度前面的数字代表算法检测到的正确的离群点数量检测误差前面的数字代表算法误检的点的数量

K值

2

4

9

16

数据点编号

5899

58619499

5158619499115118119132

5153586177879499107114115118119123132135

最小

COF

2622 0

2538 1

1705 0

1302 1

最大

COF

2691 8

2691 8

2691 8

2691 8

Table 2 Outliers detection of Iris data for different K

表2 Iris数据在不同K值下的离群点检测结果

992

王 丹 等融合Shadowed Sets聚类的离群点检测算法

MAO Ziyang was born in 1979 He is a PhD candidate and lecturer at National University of Defense Tech-

nology His research interests include computational mathematics and weather science etc

毛紫阳(1979mdash)男河南开封人国防科技大学博士研究生讲师主要研究领域为计算数学气象科学等

WU Mengda was born in 1956 He is a professor and master supervisor at National University of Defense

Technology His research interests include rough sets and mathematical modeling etc

吴孟达(1956mdash)男浙江奉化人国防科技大学教授硕士生导师主要研究领域为粗糙集数学建模等

WANG Dan was born in 1981 He is a PhD candidate and lecturer at National University of Defense Technol-

ogy His research interests include rough sets and image processing etc

王丹(1981mdash)男湖南长沙人国防科技大学博士研究生讲师主要研究领域为粗糙集图像处理等

993

Page 6: Shadowed Sets 聚类的离群点检测算法 - GitHub Pagesziyang.github.io/files/wd-outlier.pdf · 2017-04-08 · 2.2 基于Shadowed Sets 的FCM 聚类 类似于粗糙模糊C 均值聚类算法(rough

Journal of Frontiers of Computer Science and Technology 计算机科学与探索 2012 6(11)

意到本文方法在检测离群点时考虑了离群点本身的

不确定性因此检测出来的结果除了孤立点低密度

点外还会考虑到类之间相交边界处的那些点这些

点可能距离每个类都有一定距离确定这些点的所

属归类并不容易因此随着 K 值的增大这样的点也

有可能被检测出来成为离群点

进一步针对模拟数据 2比较了采用本文算法

与基于距离的离群点检测算法和基于密度的离群点

检测算法的检测效果选择检测率检测精度和检

测误差三个指标对算法进行比较结果如表 1所示

其中三个指标定义如下

(1)检测率检测到的正确的离群点数量占真实

离群点总量的比率

(2)检测精度检测到的正确的离群点数量占算

法标注的离群点数量的比值

(3)检测误差未检测到的离群点数量和错误检

测的正常点数量占所有标注离群点数量的比值

上述算法比较中基于距离的检测算法的两个

参数距离阈值和距离阈值内数据点个数阈值分别取

为 4和 10基于密度的检测算法中参数邻域 K 取为

10上述两个算法的检测性能对参数具有较大依赖

性若要获得好的检测效果需要不断尝试选择合适

的参数

52 实际数据

从 UCI 数据集中选择 Iris 数据集作为算法测试

数据集Iris 数据集是关于植物分类的数据特征

集主要是关于花萼和花瓣的描述包括花萼宽度

花萼长度花瓣宽度和花瓣长度四个特征数据集

分为三类表 2显示了本文算法的可能离群点检测

结果

2018161412108642

y

0 2 4 6 8 10 12 14x

2018161412108642

y

0 2 4 6 8 10 12 14x

(c)K=3 (d)K=4

18

16

14

12

10

8

6

4

2

CO

F

0 5 10 15 20 25 30 35数据点编号

2018161412108642

y

0 2 4 6 8 10 12 14x

(a)COF (b)K=2

Fig3 Results of synthetic data 1

图3 模拟数据1的结果

990

王 丹 等融合Shadowed Sets聚类的离群点检测算法

显然从表2中可以看出随着 K 值的增加最小

的 COF 逐步减小最佳 K 值的选取一方面依赖于用

户的先验知识另一方面也可以根据最小COF值的变

化来寻找较合适的 K 值一种简单的办法是通过不

同 K 值计算最小COF 值选择相邻COF 值变化最大

的 K 作为最佳 K 值比如 Iris数据可以选择 K = 4

6 结论本文提出了一种新的离群点定义该定义从数

据宏观角度出发既考虑到离群点对数据模式的偏离

程度也考虑了离群点本身归属的不确定性新的定

义更加符合人类的感知基于新的离群点定义结合

阴影集模型提出了一种基于阴影集聚类的离群点

90

80

70

60

50

40

30

20

10

CO

F

0 10 20 30 40 50 60 70 80数据点编号

70

60

50

40

30

20

10

0

y

10 20 30 40 50 60 70x

(a)COF (b)K=1

70

60

50

40

30

20

10

0

y

10 20 30 40 50 60 70x

70

60

50

40

30

20

10

0

y

10 20 30 40 50 60 70x

(c)K=3 (d)K=7

70

60

50

40

30

20

10

0

y

10 20 30 40 50 60 70x

70

60

50

40

30

20

10

0

y

10 20 30 40 50 60 70x

(e)K=11 (f)K=17

Fig4 Results of synthetic data 2

图4 模拟数据2结果

991

Journal of Frontiers of Computer Science and Technology 计算机科学与探索 2012 6(11)

检测算法该算法能同时进行聚类和离群点检测具

有较好的检测效果

References[1] Hawkins D Identification of outliers[M] London Chap-

man and Hall 1980

[2] Barnett V Lewis T Outliers in statistical data[M] New York

John Wiley and Sons 1994

[3] Johnson T Kwok I Ng R Fast computation of 2-dimensional

depth contours[C]Proceedings of the 4th International

Conference on Knowledge Discovery and Data Mining New

York 1998

[4] Ni Weiwei Lu Jieping Chen Geng et al An efficient data

stream outliers detection algorithm based on k-means parti-

tioning[J] Journal of Computer Research and Development

2006 43(9) 1639-1643

[5] Knorr E Ng R Algorithms for mining distance-based out-

liers in large datasets[C]Proceedings of the 24th Interna-

tional Conference on Very Large Data Bases (VLDB 104901198)

New York NY USA 1998 San Francisco CA USA Mor-

gan Kaufmann Publishers Inc 1998 392-403

[6] Breunig M M Kreigel H P Ng R T et al LOFidentifying

density-based local outliers[C]Proceedings of the 2000

ACM SIGMOD International Conference on Management

of Data (SIGMOD 104901100) Dallas TX 2000 New York NY

USA ACM 2000 93-104

[7] Dhaliwal P Bhatia M P S Bansal P A cluster-based appro-

ach for outlier detection in dynamic data streams (KORM

k-median outlier miner)[J] Journal of Computing 2010 2(2)

74-80

[8] Pedrycz W Shadowed sets representing and processing

fuzzy sets[J] IEEE Transactions on Systems Man and Cyber-

metics Part B 1998 28(1) 103-109

[9] Mitra S Banka H Pedrycz W Rough-fuzzy collaborative

clustering[J] IEEE Transactions on Systems Man and Cyber-

netics Part B 2006 36(4) 795-805

[10] Aggarwal C Yu P An effective and efficient algorithm for

high-dimensional outlier detection[J] The VLDB Journal

2005 14(2) 211-221

[11] Xue Zhenxia Shang Youlin Feng Aifen Semi-supervised out-

lier detection based on fuzzy rough C-means clustering[J]

Mathematics and Computers in Simulation 2010 80(9)

1911-1921

[12] Jiang Feng Sui Yuefei Cao Cungen An information entropy-

based approach to outlier detection in rough sets[J] Expert

Systems with Applications 2010 37(9) 6338-6344

[13] Chen Yumin Miao Duoqia Zhang Hongyun Neighborhood

outlier detection[J] Expert Systems with Applications2010

37(12) 8745-8749

[14] Huang Biao Yang Peng Finding key knowledge attribute

subspace of outliers in high-dimensional dataset[J] Expert

Systems with Applications 2011 38(8) 10147-10152

离群点

数量

3

7

11

17

检测率

3(17)

7(41)

10(59)

11(65)

检测精度

3(100)

7(100)

10(91)

11(65)

检测误差

0(0)

0(0)

1(9)

6(35)

检测率

3(17)

7(41)

10(59)

13(76)

检测精度

3(100)

7(100)

10(91)

13(76)

检测误差

0(0)

0(0)

1(9)

4(24)

检测率

3(17)

7(41)

11(65)

17(100)

检测精度

3(100)

7(100)

11(100)

17(100)

检测误差

0(0)

0(0)

0(0)

0(0)

基于距离检测 基于密度检测 本文算法检测

Table 1 Detection effects comparison of three algorithms

表1 三类算法检测效果比较

注检测率和检测精度前面的数字代表算法检测到的正确的离群点数量检测误差前面的数字代表算法误检的点的数量

K值

2

4

9

16

数据点编号

5899

58619499

5158619499115118119132

5153586177879499107114115118119123132135

最小

COF

2622 0

2538 1

1705 0

1302 1

最大

COF

2691 8

2691 8

2691 8

2691 8

Table 2 Outliers detection of Iris data for different K

表2 Iris数据在不同K值下的离群点检测结果

992

王 丹 等融合Shadowed Sets聚类的离群点检测算法

MAO Ziyang was born in 1979 He is a PhD candidate and lecturer at National University of Defense Tech-

nology His research interests include computational mathematics and weather science etc

毛紫阳(1979mdash)男河南开封人国防科技大学博士研究生讲师主要研究领域为计算数学气象科学等

WU Mengda was born in 1956 He is a professor and master supervisor at National University of Defense

Technology His research interests include rough sets and mathematical modeling etc

吴孟达(1956mdash)男浙江奉化人国防科技大学教授硕士生导师主要研究领域为粗糙集数学建模等

WANG Dan was born in 1981 He is a PhD candidate and lecturer at National University of Defense Technol-

ogy His research interests include rough sets and image processing etc

王丹(1981mdash)男湖南长沙人国防科技大学博士研究生讲师主要研究领域为粗糙集图像处理等

993

Page 7: Shadowed Sets 聚类的离群点检测算法 - GitHub Pagesziyang.github.io/files/wd-outlier.pdf · 2017-04-08 · 2.2 基于Shadowed Sets 的FCM 聚类 类似于粗糙模糊C 均值聚类算法(rough

王 丹 等融合Shadowed Sets聚类的离群点检测算法

显然从表2中可以看出随着 K 值的增加最小

的 COF 逐步减小最佳 K 值的选取一方面依赖于用

户的先验知识另一方面也可以根据最小COF值的变

化来寻找较合适的 K 值一种简单的办法是通过不

同 K 值计算最小COF 值选择相邻COF 值变化最大

的 K 作为最佳 K 值比如 Iris数据可以选择 K = 4

6 结论本文提出了一种新的离群点定义该定义从数

据宏观角度出发既考虑到离群点对数据模式的偏离

程度也考虑了离群点本身归属的不确定性新的定

义更加符合人类的感知基于新的离群点定义结合

阴影集模型提出了一种基于阴影集聚类的离群点

90

80

70

60

50

40

30

20

10

CO

F

0 10 20 30 40 50 60 70 80数据点编号

70

60

50

40

30

20

10

0

y

10 20 30 40 50 60 70x

(a)COF (b)K=1

70

60

50

40

30

20

10

0

y

10 20 30 40 50 60 70x

70

60

50

40

30

20

10

0

y

10 20 30 40 50 60 70x

(c)K=3 (d)K=7

70

60

50

40

30

20

10

0

y

10 20 30 40 50 60 70x

70

60

50

40

30

20

10

0

y

10 20 30 40 50 60 70x

(e)K=11 (f)K=17

Fig4 Results of synthetic data 2

图4 模拟数据2结果

991

Journal of Frontiers of Computer Science and Technology 计算机科学与探索 2012 6(11)

检测算法该算法能同时进行聚类和离群点检测具

有较好的检测效果

References[1] Hawkins D Identification of outliers[M] London Chap-

man and Hall 1980

[2] Barnett V Lewis T Outliers in statistical data[M] New York

John Wiley and Sons 1994

[3] Johnson T Kwok I Ng R Fast computation of 2-dimensional

depth contours[C]Proceedings of the 4th International

Conference on Knowledge Discovery and Data Mining New

York 1998

[4] Ni Weiwei Lu Jieping Chen Geng et al An efficient data

stream outliers detection algorithm based on k-means parti-

tioning[J] Journal of Computer Research and Development

2006 43(9) 1639-1643

[5] Knorr E Ng R Algorithms for mining distance-based out-

liers in large datasets[C]Proceedings of the 24th Interna-

tional Conference on Very Large Data Bases (VLDB 104901198)

New York NY USA 1998 San Francisco CA USA Mor-

gan Kaufmann Publishers Inc 1998 392-403

[6] Breunig M M Kreigel H P Ng R T et al LOFidentifying

density-based local outliers[C]Proceedings of the 2000

ACM SIGMOD International Conference on Management

of Data (SIGMOD 104901100) Dallas TX 2000 New York NY

USA ACM 2000 93-104

[7] Dhaliwal P Bhatia M P S Bansal P A cluster-based appro-

ach for outlier detection in dynamic data streams (KORM

k-median outlier miner)[J] Journal of Computing 2010 2(2)

74-80

[8] Pedrycz W Shadowed sets representing and processing

fuzzy sets[J] IEEE Transactions on Systems Man and Cyber-

metics Part B 1998 28(1) 103-109

[9] Mitra S Banka H Pedrycz W Rough-fuzzy collaborative

clustering[J] IEEE Transactions on Systems Man and Cyber-

netics Part B 2006 36(4) 795-805

[10] Aggarwal C Yu P An effective and efficient algorithm for

high-dimensional outlier detection[J] The VLDB Journal

2005 14(2) 211-221

[11] Xue Zhenxia Shang Youlin Feng Aifen Semi-supervised out-

lier detection based on fuzzy rough C-means clustering[J]

Mathematics and Computers in Simulation 2010 80(9)

1911-1921

[12] Jiang Feng Sui Yuefei Cao Cungen An information entropy-

based approach to outlier detection in rough sets[J] Expert

Systems with Applications 2010 37(9) 6338-6344

[13] Chen Yumin Miao Duoqia Zhang Hongyun Neighborhood

outlier detection[J] Expert Systems with Applications2010

37(12) 8745-8749

[14] Huang Biao Yang Peng Finding key knowledge attribute

subspace of outliers in high-dimensional dataset[J] Expert

Systems with Applications 2011 38(8) 10147-10152

离群点

数量

3

7

11

17

检测率

3(17)

7(41)

10(59)

11(65)

检测精度

3(100)

7(100)

10(91)

11(65)

检测误差

0(0)

0(0)

1(9)

6(35)

检测率

3(17)

7(41)

10(59)

13(76)

检测精度

3(100)

7(100)

10(91)

13(76)

检测误差

0(0)

0(0)

1(9)

4(24)

检测率

3(17)

7(41)

11(65)

17(100)

检测精度

3(100)

7(100)

11(100)

17(100)

检测误差

0(0)

0(0)

0(0)

0(0)

基于距离检测 基于密度检测 本文算法检测

Table 1 Detection effects comparison of three algorithms

表1 三类算法检测效果比较

注检测率和检测精度前面的数字代表算法检测到的正确的离群点数量检测误差前面的数字代表算法误检的点的数量

K值

2

4

9

16

数据点编号

5899

58619499

5158619499115118119132

5153586177879499107114115118119123132135

最小

COF

2622 0

2538 1

1705 0

1302 1

最大

COF

2691 8

2691 8

2691 8

2691 8

Table 2 Outliers detection of Iris data for different K

表2 Iris数据在不同K值下的离群点检测结果

992

王 丹 等融合Shadowed Sets聚类的离群点检测算法

MAO Ziyang was born in 1979 He is a PhD candidate and lecturer at National University of Defense Tech-

nology His research interests include computational mathematics and weather science etc

毛紫阳(1979mdash)男河南开封人国防科技大学博士研究生讲师主要研究领域为计算数学气象科学等

WU Mengda was born in 1956 He is a professor and master supervisor at National University of Defense

Technology His research interests include rough sets and mathematical modeling etc

吴孟达(1956mdash)男浙江奉化人国防科技大学教授硕士生导师主要研究领域为粗糙集数学建模等

WANG Dan was born in 1981 He is a PhD candidate and lecturer at National University of Defense Technol-

ogy His research interests include rough sets and image processing etc

王丹(1981mdash)男湖南长沙人国防科技大学博士研究生讲师主要研究领域为粗糙集图像处理等

993

Page 8: Shadowed Sets 聚类的离群点检测算法 - GitHub Pagesziyang.github.io/files/wd-outlier.pdf · 2017-04-08 · 2.2 基于Shadowed Sets 的FCM 聚类 类似于粗糙模糊C 均值聚类算法(rough

Journal of Frontiers of Computer Science and Technology 计算机科学与探索 2012 6(11)

检测算法该算法能同时进行聚类和离群点检测具

有较好的检测效果

References[1] Hawkins D Identification of outliers[M] London Chap-

man and Hall 1980

[2] Barnett V Lewis T Outliers in statistical data[M] New York

John Wiley and Sons 1994

[3] Johnson T Kwok I Ng R Fast computation of 2-dimensional

depth contours[C]Proceedings of the 4th International

Conference on Knowledge Discovery and Data Mining New

York 1998

[4] Ni Weiwei Lu Jieping Chen Geng et al An efficient data

stream outliers detection algorithm based on k-means parti-

tioning[J] Journal of Computer Research and Development

2006 43(9) 1639-1643

[5] Knorr E Ng R Algorithms for mining distance-based out-

liers in large datasets[C]Proceedings of the 24th Interna-

tional Conference on Very Large Data Bases (VLDB 104901198)

New York NY USA 1998 San Francisco CA USA Mor-

gan Kaufmann Publishers Inc 1998 392-403

[6] Breunig M M Kreigel H P Ng R T et al LOFidentifying

density-based local outliers[C]Proceedings of the 2000

ACM SIGMOD International Conference on Management

of Data (SIGMOD 104901100) Dallas TX 2000 New York NY

USA ACM 2000 93-104

[7] Dhaliwal P Bhatia M P S Bansal P A cluster-based appro-

ach for outlier detection in dynamic data streams (KORM

k-median outlier miner)[J] Journal of Computing 2010 2(2)

74-80

[8] Pedrycz W Shadowed sets representing and processing

fuzzy sets[J] IEEE Transactions on Systems Man and Cyber-

metics Part B 1998 28(1) 103-109

[9] Mitra S Banka H Pedrycz W Rough-fuzzy collaborative

clustering[J] IEEE Transactions on Systems Man and Cyber-

netics Part B 2006 36(4) 795-805

[10] Aggarwal C Yu P An effective and efficient algorithm for

high-dimensional outlier detection[J] The VLDB Journal

2005 14(2) 211-221

[11] Xue Zhenxia Shang Youlin Feng Aifen Semi-supervised out-

lier detection based on fuzzy rough C-means clustering[J]

Mathematics and Computers in Simulation 2010 80(9)

1911-1921

[12] Jiang Feng Sui Yuefei Cao Cungen An information entropy-

based approach to outlier detection in rough sets[J] Expert

Systems with Applications 2010 37(9) 6338-6344

[13] Chen Yumin Miao Duoqia Zhang Hongyun Neighborhood

outlier detection[J] Expert Systems with Applications2010

37(12) 8745-8749

[14] Huang Biao Yang Peng Finding key knowledge attribute

subspace of outliers in high-dimensional dataset[J] Expert

Systems with Applications 2011 38(8) 10147-10152

离群点

数量

3

7

11

17

检测率

3(17)

7(41)

10(59)

11(65)

检测精度

3(100)

7(100)

10(91)

11(65)

检测误差

0(0)

0(0)

1(9)

6(35)

检测率

3(17)

7(41)

10(59)

13(76)

检测精度

3(100)

7(100)

10(91)

13(76)

检测误差

0(0)

0(0)

1(9)

4(24)

检测率

3(17)

7(41)

11(65)

17(100)

检测精度

3(100)

7(100)

11(100)

17(100)

检测误差

0(0)

0(0)

0(0)

0(0)

基于距离检测 基于密度检测 本文算法检测

Table 1 Detection effects comparison of three algorithms

表1 三类算法检测效果比较

注检测率和检测精度前面的数字代表算法检测到的正确的离群点数量检测误差前面的数字代表算法误检的点的数量

K值

2

4

9

16

数据点编号

5899

58619499

5158619499115118119132

5153586177879499107114115118119123132135

最小

COF

2622 0

2538 1

1705 0

1302 1

最大

COF

2691 8

2691 8

2691 8

2691 8

Table 2 Outliers detection of Iris data for different K

表2 Iris数据在不同K值下的离群点检测结果

992

王 丹 等融合Shadowed Sets聚类的离群点检测算法

MAO Ziyang was born in 1979 He is a PhD candidate and lecturer at National University of Defense Tech-

nology His research interests include computational mathematics and weather science etc

毛紫阳(1979mdash)男河南开封人国防科技大学博士研究生讲师主要研究领域为计算数学气象科学等

WU Mengda was born in 1956 He is a professor and master supervisor at National University of Defense

Technology His research interests include rough sets and mathematical modeling etc

吴孟达(1956mdash)男浙江奉化人国防科技大学教授硕士生导师主要研究领域为粗糙集数学建模等

WANG Dan was born in 1981 He is a PhD candidate and lecturer at National University of Defense Technol-

ogy His research interests include rough sets and image processing etc

王丹(1981mdash)男湖南长沙人国防科技大学博士研究生讲师主要研究领域为粗糙集图像处理等

993

Page 9: Shadowed Sets 聚类的离群点检测算法 - GitHub Pagesziyang.github.io/files/wd-outlier.pdf · 2017-04-08 · 2.2 基于Shadowed Sets 的FCM 聚类 类似于粗糙模糊C 均值聚类算法(rough

王 丹 等融合Shadowed Sets聚类的离群点检测算法

MAO Ziyang was born in 1979 He is a PhD candidate and lecturer at National University of Defense Tech-

nology His research interests include computational mathematics and weather science etc

毛紫阳(1979mdash)男河南开封人国防科技大学博士研究生讲师主要研究领域为计算数学气象科学等

WU Mengda was born in 1956 He is a professor and master supervisor at National University of Defense

Technology His research interests include rough sets and mathematical modeling etc

吴孟达(1956mdash)男浙江奉化人国防科技大学教授硕士生导师主要研究领域为粗糙集数学建模等

WANG Dan was born in 1981 He is a PhD candidate and lecturer at National University of Defense Technol-

ogy His research interests include rough sets and image processing etc

王丹(1981mdash)男湖南长沙人国防科技大学博士研究生讲师主要研究领域为粗糙集图像处理等

993


Recommended