web data tsunami.ppt [兼容模式] -...

Web 数据海洋中的方舟

孟小峰

中国人民大学信息学院

2

Introduction

数据库技术从诞生到现在，不到半个世纪的时间里，形成了坚实的理论基础、成熟的商业产品和广泛的应用领域

成熟的产品

经典的教科书

网状模型： C.W. Bachman

关系模型： E. F Codd

事务处理技术：J.Gray

李稻葵，萨缪尔森的风采

“通过萨缪尔森之手，那个时代的经济学体系彻底建立在完美的数学体系之上，这个体系的确太完美了，完美得像牛顿力学。但是，这个体系显然有很多地方与现实不符，于是过去半个世纪以来，经济学家致力于修修补补，到今天，经济学已经在很程度上支离破碎了。每个人抓住一个具体方面修一修，补一补，到最后整个经济学大厦变得千疮百孔。”

通过E F Codd之手，数据库系统彻底建立在完美的数学体系之上。这个体系十分完美，但是，这个体系显然有很多地方与现实不符。于是，近二十年来，数据库学者致力于修修补补，到今天，数据库系统已经在很程度上支离破碎了。每个人抓住一个具体方面修一修，补一补，到最后整个数据库系统大厦变得千疮百孔。

Internet

5

Research Dimensions: ten years ago

MobileWeb

DatabaseMobileData

XMLData

Web Data Management

XML Data Management

Mobile Data Management

Web Data

Web数据海洋

海量异构 281EB in 2009 仍以指数级增长

内容多样半结构

非结构

移动共享

移动数据

XML数据

Web 数据

Web数据海洋的方舟

如何高效管理海量Web数据？

8

研究动机如何有效管理Web数据？

特定领域的Web数据集成问题

Web数据结构化处理，多数据源集成

成果提出了Web数据抽取和数据集成的理论方法，构建若干实际

可用的系统

Web 数据管理

Google返回的结果 C-DBLP系统返回的结果

移动数据

XML数据

Web 数据

数据库方法

海量Web数据抽取和集成框架

Developed issue Developing issue Undeveloped issue Our focuses

Web页面分类 Web网页按照内容类型来分

Web页面分类

单数据记录型文档数据型

数据记录列表型文档列表型

新闻、博客等领域

图书、电影、汽车等领域

记录型页面文档型页面

主要成果针对记录型数据源的数据抽取

针对文档型数据源的数据抽取

基础知识包装器(Wrapper)：针对特定数据源构造的抽取规则，以及进行抽

取的程序

模式指导(Schema-Guided)：进行网页抽取时，抽取出的数据块能够根据预先定义好的模式进行标注

XPath：用于在XML/XHTML文件上寻找信息的一种语言

数据驱动的记录型页面抽取方法

基于视觉的自适应文档型页面抽取方法

原有数据抽取方法的缺陷针对记录型页面，原有抽取方法存在如下问题：

包装器生成：存在过多的假设，对于模板特征的依赖

包装器维护：未考虑包装器的维护问题

音乐图书汽车

LineSpliter 65% 67% 40%

RoadRunner 90% 62% 80%

ExAlg 91% 85% 81%

TreeAlign 88% 65% 85%

领域方法

( [CH07] S.-L. Chuang, K. C.-C. Chang, and C. Zhai. Context-Aware Wrapping: Synchronized Data Extraction. In: VLDB 2007. 699-710 )

准确率

不同的领域/不同的页面集合

（失效）

（较好）

（较差）

（一般）特征驱动

数据驱动

数据驱动基本方法

在一系列的匹配页面对上：

(1) 若语义块匹配,则源语义块上的数据值与目标语义块上的数据值大部分具有较高相似度值;

(2) 若语义块不匹配,源语义块上的数据值与目标语义块上的数据值大部分具有较低的相似度值.

匹配页面对

( , , )i i i i ( , , )j j j jB A V P源语义块：目标语义块：

不同网站同一时期的页面

（a）当当网上的页面（b）卓越网上的页面

数据驱动的包装器生成

( , , )i i i i ( , , )j j j jB A V P源语义块：目标语义块：

同一网站不同时期的页面

（a）当当网改版前页面（2006）（b）当当网改版后页面（2008）

数据驱动的包装器维护

包装器生成与维护过程

包装器生成扩散

包装器维护

可以利用现有的方法先生成一个高精准的包装器

块匹配 <records>

<items> <item>

<name>title</name> <xpath>/html/body/div[1]/table

/tr/td[1]</xpath> </item> <item>

<name>author</name> <xpath>/html/body/div[1]/table


<name>price</name> <xpath>/html/body/div[1]/table


<name>catalog</name> <xpath>/html/body/div[1]/div

/div[1]/a</xpath> </item> <item>

<name>introduction</name> <xpath>/html/body/div[1]/div

/div[2]/span</xpath> </item>

</items> </records>

Source Block Target Block

Xpath of target data block

( , , )i i i i ( , , )j j j jB A V P

| |

1

2 2

( ) ( )( )

i j

i j

D

Vw

k i jV

weight w weight wP V

weight weight

中国人史纲第五版(套装上下册)(附赠柏杨生平影像珍贵VCD)

ii

i

、

、

jAjV

jP

匹配块迭代计算

……

……

第 i 个语义块

第 k 个源页面第 k 个目标页面

2( )k iP B

( )k i jP B

( )k i nP B

1( )k iP B

……

……

第 j 个语义块

1

1

( ) ( )

[ ( ) ( 1) ( )] /

[ ( )] /

l i j l i j

l i j l i j

l

k i jk

P B P V

P B l P V l

P V l

1

1 1

( ) ( )( )

( ) ( ) [1 ( )] [1 ( )]k i j k i j

k i jk i j k i j k i j k i j

P B P VP B

P B P V P B P V

(1, 2, , )k l

• Average Approach

• Iterative Approach

L Matching pages

文档型页面数据抽取基于视觉的数据抽取方法：

字体特征：大小、颜色、粗细、样式; 位置信息：坐标位置、高度、宽度

文本信息：链接文本、高频词、正则表达式

Precision，Recall，Revision

存在问题：效率低下

需要下载附属的JavaScript文件、CSS样式文件

未考虑结构关联

同一数据源页面模板之间的关联

无法正确抽取微数据

正文长度较短的数据

正文

噪音

噪音

噪音

噪音

微数据

Web页面=主HMTL文件+附属文件集合

统计实验

数据集：选取最流行的10个新闻网站，从中各自随机选取了100个实际的新闻网页

新浪网搜狐网人民网中新网凤凰网网易和讯网腾讯网光明网新华网

Web页面文件集合大

小(KB)1070 1080 288 849 747 383 273 352 552 176

主HTML文件大小

(KB)81 95 38 71 124 63 34 114 22 37

附属文件集合大小

（KB）989 985 250 778 623 320 239 238 530 139

主HTML文件所占

比例(%)7.57% 8.80% 13.19% 8.36% 16.60% 16.45% 12.45% 32.39% 3.99% 21.02%

Web页面文件集合数

量(个)59 92 54 67 97 46 52 31 31 31

主HTML文件数量

（个）1 1 1 1 1 1 1 1 1 1

完整页面下载时间

（毫秒）25400 23400 19200 21700 10100 12800 16200 14900 11700 12000

主HTML文件下载

时间（毫秒）784.6 918.4 715.8 2621.8 3103.4 2449.8 231.2 618.8 3593.8 328

主HTML下载时间

所占比例(%)3.09% 3.92% 3.73% 12.08% 30.73% 19.14% 1.43% 4.15% 30.72% 2.73%

基于视觉的自适应抽取方法

抽取规则更新

冲突检测与解决

基于视觉的正文抽取

种子点发现1、启发式规则2、发现视觉树VT中文本长度最长的节点(不含孩子节点)

1、从种子节点往上回溯抽取2、推导抽取规则

1、与数据库中命中次数最多的抽取规则进行比较2、基于贝叶斯最优决策冲突解决

多种方法更新抽取规则积累

种子点

正文

/html/body/div[3]/div/div/div[4]/p

推导规则

22

理论成果

基于视觉信息的Web数据抽取方法ViDRE 不依赖页面的编写语言和结构可抽取Javascript等原有方法不能抽取的部分

基于模式的包装器生成方法SGWRAP 给出了抽取规则的规范表达方式自动学习的方法归纳抽取规则

基于模式的包装器维护方法SGWRAM 链接信息和句法信息识别数据变化部分

Restaurants inSanta Monica?

Name AddressChinois on Main 2709 Main St.Chao Dara 13 Union Sq.? ...

餐馆

移动数据

XML数据

Web 数据

23

论文发表

• 国际期刊IEEE Transactions on Knowledge and Data Engineering，2009

• 国际顶级会议IEEE ICDE2002IEEE ICDE2003VLDB2007

• 两项国家发明专利授权(2007)

移动数据

XML数据

Web 数据

• W.Liu, X.Meng, W. Meng: ViDE: A Vision-based Approach for Deep Web Data Extraction. Accepted for publication in IEEETransactions on Knowledge and Data Engineering (TKDE).(regular paper,14 pages) , 2009 online pulication.

• J. Chen and X. Meng: Update-efficient Indexing of Moving Objects in Road Networks. Geoinformatica (27 pages),2008 online publication

• X. Meng, H. Lu, H.Wang, M. Gu.: SG-WRAP: A Schema-Guided Wrapper Generator (Demo). In ICDE2002, pages 331-332, San Jose, CA., 26 February - 1 March 2002

• X. Meng, H. Wang,D. Hu, M. Gu: SG-WRAM Schema Guided Wrapper Maintenance: A Demonstration. In ICDE2003, pages 750-752, Bangalore, India, March 5-8, 2003

• X. Meng, D. Hu, C. Li: Schema-Guided Wrapper Maintenance for Web-Data Extraction. In Proceedings of WIDM2003, pages 1-8, New Orleans, Lousiana, USA, November 7-8, 2003.

• X. Min, H. Wang, J. Yin, X. Meng: Integrity Auditing of Outsourced Data. In VLDB 2007, pages 782-793, Vienner, Austria, September 24-28, 2007

24

基于数据抽取的数据集成方法

求职领域：工作通数据集成系统

学术领域：计算机中文文献集成系统C-DBLP

新闻领域：舆情监控系统

数据源数据源数据源

数据抽取程序

页面页面页面

本地数据库

数据抽取

集成近6万作者的信息，日访问量6000次，半年累计访问超过100万次

集成近100个数据源，数据量超过300万条

集成5个代表性论坛，1000多新闻媒体，十万个网上博客

系统成果

计算机中文文献集成系统C-DBLP(1)

实体:作者, 论文, 期刊, 会议, 研究机构, …

关联:作者关系, 论文发表关系,合作者关系,

数据抽取

数据集成

Advisor

Advisor

Advisor

Co-AuthorCo-Author

Author-Of

Author-Of

Author-Of

Published-In

Published-In

Member

Classmate

Reference

Published-In

Author-Of

关联演化

浏览查询分析基于任务多种形式丰富多样

隶属关系, 导师关系，参考文献关系…

关联发现、删除、更新

文献集成系统SearchScholar


Web pages

Keyword search

SQL querying

Question answering

Browse

Mining

Alert/Monitor

News summary

Journal PagesConference PagesGroup PagesResearcher Pages

EntitiesAssociations

Entities: Authors, Papers, Journals, Conferences, Groups, …

Associations: is author of, belongs to, co-author, …


输入学者名字，可以查询出其发表的文章，参加的科研项目、研究兴趣、科研成果分析、合作者情况等大量信息。

计算机中文文献集成系统C-DBLP(4)文献集成系统SearchScholar 12个期刊(1960.01-2011.02), 1 个会议(NDBC 2000-2011),

7.6万多篇论文, 6.8万多个作者

日访问量超过5000次，累计访问超过350万次

2010-06-25 2010-08-07 2010-09-21 2010-11-05 2010-12-20 2011-02-03 2010-03-202010-07-01

ScholarSpace

为学者查找“结构化”学术成果

为学者构建“可更新”学术主页

为学者联络“可交流”学术同行

ScholarSpace

SearchScholar

EasyScholar SocialScholar

31

EasyScholar

自动集成公开学术信息，在有限的人工参与下方便地建立并维护学者的学术主页

Faculty Faculty (找同行）

Faculty Student(招学生）

Student Student(同学）

Student Faculty(选导师）

Student Engineer(找工作）

……

SocialScholar

以学术网络关系图ScholarGraph动态展示学术关系

SocialScholar

成果意义

建立了一种将Web数据结构化管理的途径，为解决特定领域的数据集成问题奠定了基础

进而为非结构化数据管理提供一种新的解决思路

成果意义

非结构化半结构化

结构化半结构化

日本海啸

Web数据海洋中的海啸

数据海啸一：Web网面海量数据

数据海啸二：微博海量数据

数据海啸三：移动App海量数据

数据海啸：微博海量数据

微博海量数据 Twitter 创建时间：2007年用户数量：1.75亿数据量：9000万条/天

微博数据特点

实时性

帖子长度限制：140字符

信息传播快

数据量大

用户量大

Twitter分析：Social or Media?

研究动机

分析Twitter用户之间关注关系是否符合社会网络用户关系特征

分析Twitter是否具有新闻媒体的特征

分析结论 Twitter用户之间的关系是一种弱社会关系

用户经常讨论时事话题

极少数用户直接将信息传给大量受众。

大多数用户可以通过口口相传的方式将信息

传播给大量受众。

新浪微博数据分析

数据集

用户信息：174万；

用户关系：3200万；

跟踪话题：1086 ；帖子：3300万；

分析内容

用户follower与following数分布；

用户被关注度与用户发帖数关系；

用户转帖行为分析；

用户关注关系分析；

新浪微博 vs. Twitter

新浪微博用户的following数目有人数限制(3000)。Twitter中具有超高关注度的用户比例比新浪高。


新浪微博用户总体活跃程度比twitter高。


新浪微博信息传播速度比Twitter快。


转帖时间间隔与用户follower数无关

有关研究问题

MicroblogSearch

MicroblogInfluencer

MicroblogCredibility

MicroblogCascading

MicroblogMining

MicroblogPrivacy

……

数据海啸：移动应用海量数据

App store

移动应用海量数据苹果：App store 发布时间：2008年7月应用程序数量：38万下载量：2011年1月22号，达到100亿次

应用程序商店数量：113个年下载量：2015年，达到250亿次，相当于全球每人每秒

钟下载4个应用程序

销售收入：2014年，将超过300亿美元

05

101520253035

2009 2010 2013 2014

销售收入（$bn）

0

5

10

15

20

25

30

2009 2010 2013 2015

年下载量（bn）

49

Apple

发布时间

数量（

K）

company Available apps Lunch timeApple：App Store 380,000+ July 08Google: Android Market 290,000+ Oct 08Blackberry：AppWorld 20,000 Mar 09Nokia：Ovi Store 50,000 Apr 09China Mobile：Mobile market 40,000 Aug 09China Telecom：Surfing 15,000 Sep 09Microsoft: WP7 market place 16,000 Oct 10

China Unicom：WoStore 6,828 Nov 10

移动应用程序商店

应用程序数量激增带来的问题

用户

如何快速地从众多的应用程序中找到自己想要的程序？如果不知道应用程序的准确名字，如何进行查找？更换手机时，如何选择类似功能的应用程序列表？……

应用程序商店

如何提供快速、准确的搜索？如何提供个性化的推荐？如何实现新应用程序的自动发现？ ……

开发者

如何把自己开发的应用程序推荐给用户？选择什么样的应用程序来开发？……

应用程序无处不在！

应用程序搜索/推荐公司

序号公司主要技术

1 http://chomp.com 利用文本分析、语义分析等技术，提供

精确搜索。2 http://iapps.in

3 http://mplayit.com

利有社交网络的共享信息进行应用程序

搜索和推荐。

4 http://www.appolicious.com

5 http://appaware.org

6 http://appsfire.com

7 http://www.appcraver.com利用用户评论信息进行应用程序推荐。8 http://www.appstorehq.com

9 http://www.appreview.com/

有关研究问题

AppSearch

AppTransfer

AppRecommendation

AppMining

……

乐Phone iPhone

更换

App store:38万

总结和展望

对许多学科而言，海量数据意味着更严峻的挑战；

若能更好地组织和使用这些数据，会有助我们将巨大机遇变为现实。

Science：数据处理专题

总结和展望

寻找应对数据海啸的方舟……

55

Our Lab

Innovative Data Management Research Http://idke.ruc.edu.cn Google wamdm

谢谢！

未来每18 个月产生的数据量等于有史以来的数据量之和

-- Jim Gray1998图灵奖获奖演说

Date post:	31-Aug-2019
Category:	Documents
Upload:	others
View:	7 times
Download:	0 times

web data tsunami.ppt [兼容模式] -...

Documents