Web 数据海洋中的方舟
孟小峰
中国人民大学信息学院
2
Introduction
数据库技术从诞生到现在,不到半个世纪的时间里,形成了坚实的理论基础、成熟的商业产品和广泛的应用领域
成熟的产品
经典的教科书
网状模型: C.W. Bachman
关系模型: E. F Codd
事务处理技术:J.Gray
李稻葵,萨缪尔森的风采
“通过萨缪尔森之手,那个时代的经济学体系彻底建立在完美的数学体系之上,这个体系的确太完美了,完美得像牛顿力学。但是,这个体系显然有很多地方与现实不符,于是过去半个世纪以来,经济学家致力于修修补补,到今天,经济学已经在很程度上支离破碎了。每个人抓住一个具体方面修一修,补一补,到最后整个经济学大厦变得千疮百孔。”
通过E F Codd之手,数据库系统彻底建立在完美的数学体系之上。这个体系十分完美,但是,这个体系显然有很多地方与现实不符。于是,近二十年来,数据库学者致力于修修补补,到今天,数据库系统已经在很程度上支离破碎了。每个人抓住一个具体方面修一修,补一补,到最后整个数据库系统大厦变得千疮百孔。
Internet
5
Research Dimensions: ten years ago
MobileWeb
DatabaseMobileData
XMLData
Web Data Management
XML Data Management
Mobile Data Management
Web Data
Web数据海洋
海量异构 281EB in 2009 仍以指数级增长
内容多样 半结构
非结构
移动共享
移动数据
XML数据
Web 数据
Web数据海洋的方舟
如何高效管理海量Web数据?
8
研究动机 如何有效管理Web数据?
特定领域的Web数据集成问题
Web数据结构化处理,多数据源集成
成果 提出了Web数据抽取和数据集成的理论方法,构建若干实际
可用的系统
Web 数据管理
Google返回的结果 C-DBLP系统返回的结果
移动数据
XML数据
Web 数据
数据库方法
海量Web数据抽取和集成框架
Developed issue Developing issue Undeveloped issue Our focuses
Web页面分类 Web网页按照内容类型来分
Web页面分类
单数据记录型 文档数据型
数据记录列表型 文档列表型
新闻、博客等领域
图书、电影、汽车等领域
记录型页面 文档型页面
主要成果 针对记录型数据源的数据抽取
针对文档型数据源的数据抽取
基础知识 包装器(Wrapper):针对特定数据源构造的抽取规则,以及进行抽
取的程序
模式指导(Schema-Guided):进行网页抽取时,抽取出的数据块能够根据预先定义好的模式进行标注
XPath:用于在XML/XHTML文件上寻找信息的一种语言
数据驱动的记录型页面抽取方法
基于视觉的自适应文档型页面抽取方法
原有数据抽取方法的缺陷 针对记录型页面,原有抽取方法存在如下问题:
包装器生成:存在过多的假设,对于模板特征的依赖
包装器维护:未考虑包装器的维护问题
音乐 图书 汽车
LineSpliter 65% 67% 40%
RoadRunner 90% 62% 80%
ExAlg 91% 85% 81%
TreeAlign 88% 65% 85%
领域方法
( [CH07] S.-L. Chuang, K. C.-C. Chang, and C. Zhai. Context-Aware Wrapping: Synchronized Data Extraction. In: VLDB 2007. 699-710 )
准确率
不同的领域/不同的页面集合
(失效)
(较好)
(较差)
(一般) 特征驱动
数据驱动
数据驱动基本方法
在一系列的匹配页面对上:
(1) 若语义块匹配,则源语义块上的数据值与目标语义块上的数据值大部分具有较高相似度值;
(2) 若语义块不匹配,源语义块上的数据值与目标语义块上的数据值大部分具有较低的相似度值.
匹配页面对
( , , )i i i i ( , , )j j j jB A V P源语义块: 目标语义块:
不同网站同一时期的页面
(a)当当网上的页面 (b)卓越网上的页面
数据驱动的包装器生成
( , , )i i i i ( , , )j j j jB A V P源语义块: 目标语义块:
同一网站不同时期的页面
(a)当当网改版前页面(2006) (b)当当网改版后页面(2008)
数据驱动的包装器维护
包装器生成与维护过程
包装器生成扩散
包装器维护
可以利用现有的方法先生成一个高精准的包装器
块匹配 <records>
<items> <item>
<name>title</name> <xpath>/html/body/div[1]/table
/tr/td[1]</xpath> </item> <item>
<name>author</name> <xpath>/html/body/div[1]/table
/tr/td[2]</xpath> </item> <item>
<name>price</name> <xpath>/html/body/div[1]/table
/tr/td[3]</xpath> </item> <item>
<name>catalog</name> <xpath>/html/body/div[1]/div
/div[1]/a</xpath> </item> <item>
<name>introduction</name> <xpath>/html/body/div[1]/div
/div[2]/span</xpath> </item>
</items> </records>
Source Block Target Block
Xpath of target data block
( , , )i i i i ( , , )j j j jB A V P
| |
1
2 2
( ) ( )( )
i j
i j
D
Vw
k i jV
weight w weight wP V
weight weight
中国人史纲第五版(套装上下册)(附赠柏杨生平影像珍贵VCD)
ii
i
、
、
jAjV
jP
匹配块迭代计算
……
……
第 i 个语义块
第 k 个源页面 第 k 个目标页面
2( )k iP B
( )k i jP B
( )k i nP B
1( )k iP B
……
……
第 j 个语义块
1
1
( ) ( )
[ ( ) ( 1) ( )] /
[ ( )] /
l i j l i j
l i j l i j
l
k i jk
P B P V
P B l P V l
P V l
1
1 1
( ) ( )( )
( ) ( ) [1 ( )] [1 ( )]k i j k i j
k i jk i j k i j k i j k i j
P B P VP B
P B P V P B P V
(1, 2, , )k l
• Average Approach
• Iterative Approach
L Matching pages
文档型页面数据抽取 基于视觉的数据抽取方法:
字体特征:大小、颜色、粗细、样式; 位置信息:坐标位置、高度、宽度
文本信息:链接文本、高频词、正则表达式
Precision,Recall,Revision
存在问题: 效率低下
需要下载附属的JavaScript文件、CSS样式文件
未考虑结构关联
同一数据源页面模板之间的关联
无法正确抽取微数据
正文长度较短的数据
正文
噪音
噪音
噪音
噪音
微数据
Web页面=主HMTL文件+附属文件集合
统计实验
数据集:选取最流行的10个新闻网站,从中各自随机选取了100个实际的新闻网页
新浪网 搜狐网 人民网 中新网 凤凰网 网易 和讯网 腾讯网 光明网 新华网
Web页面文件集合大
小(KB)1070 1080 288 849 747 383 273 352 552 176
主HTML文件大小
(KB)81 95 38 71 124 63 34 114 22 37
附属文件集合大小
(KB)989 985 250 778 623 320 239 238 530 139
主HTML文件所占
比例(%)7.57% 8.80% 13.19% 8.36% 16.60% 16.45% 12.45% 32.39% 3.99% 21.02%
Web页面文件集合数
量(个)59 92 54 67 97 46 52 31 31 31
主HTML文件数量
(个)1 1 1 1 1 1 1 1 1 1
完整页面下载时间
(毫秒)25400 23400 19200 21700 10100 12800 16200 14900 11700 12000
主HTML文件下载
时间(毫秒)784.6 918.4 715.8 2621.8 3103.4 2449.8 231.2 618.8 3593.8 328
主HTML下载时间
所占比例(%)3.09% 3.92% 3.73% 12.08% 30.73% 19.14% 1.43% 4.15% 30.72% 2.73%
基于视觉的自适应抽取方法
抽取规则更新
冲突检测与解决
基于视觉的正文抽取
种子点发现1、启发式规则2、发现视觉树VT中文本长度最长的节点(不含孩子节点)
1、从种子节点往上回溯抽取2、推导抽取规则
1、与数据库中命中次数最多的抽取规则进行比较2、基于贝叶斯最优决策冲突解决
多种方法更新抽取规则积累
种子点
正文
/html/body/div[3]/div/div/div[4]/p
推导规则
22
理论成果
基于视觉信息的Web数据抽取方法ViDRE 不依赖页面的编写语言和结构 可抽取Javascript等原有方法不能抽取的部分
基于模式的包装器生成方法SGWRAP 给出了抽取规则的规范表达方式 自动学习的方法归纳抽取规则
基于模式的包装器维护方法SGWRAM 链接信息和句法信息识别数据变化部分
Restaurants inSanta Monica?
Name AddressChinois on Main 2709 Main St.Chao Dara 13 Union Sq.? ...
餐馆
移动数据
XML数据
Web 数据
23
论文发表
• 国际期刊IEEE Transactions on Knowledge and Data Engineering,2009
• 国际顶级会议IEEE ICDE2002IEEE ICDE2003VLDB2007
• 两项国家发明专利授权(2007)
移动数据
XML数据
Web 数据
• W.Liu, X.Meng, W. Meng: ViDE: A Vision-based Approach for Deep Web Data Extraction. Accepted for publication in IEEETransactions on Knowledge and Data Engineering (TKDE).(regular paper,14 pages) , 2009 online pulication.
• J. Chen and X. Meng: Update-efficient Indexing of Moving Objects in Road Networks. Geoinformatica (27 pages),2008 online publication
• X. Meng, H. Lu, H.Wang, M. Gu.: SG-WRAP: A Schema-Guided Wrapper Generator (Demo). In ICDE2002, pages 331-332, San Jose, CA., 26 February - 1 March 2002
• X. Meng, H. Wang,D. Hu, M. Gu: SG-WRAM Schema Guided Wrapper Maintenance: A Demonstration. In ICDE2003, pages 750-752, Bangalore, India, March 5-8, 2003
• X. Meng, D. Hu, C. Li: Schema-Guided Wrapper Maintenance for Web-Data Extraction. In Proceedings of WIDM2003, pages 1-8, New Orleans, Lousiana, USA, November 7-8, 2003.
• X. Min, H. Wang, J. Yin, X. Meng: Integrity Auditing of Outsourced Data. In VLDB 2007, pages 782-793, Vienner, Austria, September 24-28, 2007
24
基于数据抽取的数据集成方法
求职领域:工作通数据集成系统
学术领域:计算机中文文献集成系统C-DBLP
新闻领域:舆情监控系统
数据源数据源数据源
数据抽取程序
页面 页面页面
本地数据库
数据抽取
集成近6万作者的信息,日访问量6000次,半年累计访问超过100万次
集成近100个数据源,数据量超过300万条
集成5个代表性论坛,1000多新闻媒体,十万个网上博客
系统成果
计算机中文文献集成系统C-DBLP(1)
实体:作者, 论文, 期刊, 会议, 研究机构, …
关联:作者关系, 论文发表关系,合作者关系,
数据抽取
数据集成
Advisor
Advisor
Advisor
Co-AuthorCo-Author
Author-Of
Author-Of
Author-Of
Published-In
Published-In
Member
Classmate
Reference
Published-In
Author-Of
关联演化
浏览 查询 分析基于任务 多种形式 丰富多样
隶属关系, 导师关系,参考文献关系…
关联发现、删除、更新
文献集成系统SearchScholar
计算机中文文献集成系统C-DBLP(2)
Web pages
Keyword search
SQL querying
Question answering
Browse
Mining
Alert/Monitor
News summary
Journal PagesConference PagesGroup PagesResearcher Pages
EntitiesAssociations
Entities: Authors, Papers, Journals, Conferences, Groups, …
Associations: is author of, belongs to, co-author, …
计算机中文文献集成系统C-DBLP(3)
输入学者名字,可以查询出其发表的文章,参加的科研项目、研究兴趣、科研成果分析、合作者情况等大量信息。
计算机中文文献集成系统C-DBLP(4)文献集成系统SearchScholar 12个期刊(1960.01-2011.02), 1 个会议(NDBC 2000-2011),
7.6万多篇论文, 6.8万多个作者
日访问量超过5000次,累计访问超过350万次
2010-06-25 2010-08-07 2010-09-21 2010-11-05 2010-12-20 2011-02-03 2010-03-202010-07-01
ScholarSpace
为学者查找“结构化”学术成果
为学者构建“可更新”学术主页
为学者联络“可交流”学术同行
ScholarSpace
SearchScholar
EasyScholar SocialScholar
31
EasyScholar
自动集成公开学术信息,在有限的人工参与下方便地建立并维护学者的学术主页
Faculty Faculty (找同行)
Faculty Student(招学生)
Student Student(同学)
Student Faculty(选导师)
Student Engineer(找工作)
……
SocialScholar
以学术网络关系图ScholarGraph动态展示学术关系
SocialScholar
成果意义
建立了一种将Web数据结构化管理的途径,为解决特定领域的数据集成问题奠定了基础
进而为非结构化数据管理提供一种新的解决思路
成果意义
非结构化半结构化
结构化半结构化
日本海啸
Web数据海洋中的海啸
数据海啸一:Web网面海量数据
数据海啸二:微博海量数据
数据海啸三:移动App海量数据
数据海啸:微博海量数据
微博海量数据 Twitter 创建时间:2007年 用户数量:1.75亿 数据量:9000万条/天
微博数据特点
实时性
帖子长度限制:140字符
信息传播快
数据量大
用户量大
Twitter分析:Social or Media?
研究动机
分析Twitter用户之间关注关系是否符合社会网络用户关系特征
分析Twitter是否具有新闻媒体的特征
分析结论 Twitter用户之间的关系是一种弱社会关系
用户经常讨论时事话题
极少数用户直接将信息传给大量受众。
大多数用户可以通过口口相传的方式将信息
传播给大量受众。
新浪微博数据分析
数据集
用户信息:174万 ;
用户关系:3200万 ;
跟踪话题:1086 ; 帖子:3300万;
分析内容
用户follower与following数分布;
用户被关注度与用户发帖数关系;
用户转帖行为分析;
用户关注关系分析;
新浪微博 vs. Twitter
新浪微博用户的following数目有人数限制(3000)。Twitter中具有超高关注度的用户比例比新浪高。
新浪微博 vs. Twitter
新浪微博用户总体活跃程度比twitter高。
新浪微博 vs. Twitter
新浪微博信息传播速度比Twitter快。
新浪微博 vs. Twitter
转帖时间间隔与用户follower数无关
有关研究问题
MicroblogSearch
MicroblogInfluencer
MicroblogCredibility
MicroblogCascading
MicroblogMining
MicroblogPrivacy
……
数据海啸:移动应用海量数据
App store
移动应用海量数据 苹果:App store 发布时间:2008年7月 应用程序数量:38万 下载量:2011年1月22号,达到100亿次
应用程序商店数量:113个 年下载量:2015年,达到250亿次,相当于全球每人每秒
钟下载4个应用程序
销售收入:2014年,将超过300亿美元
05
101520253035
2009 2010 2013 2014
销售收入($bn)
0
5
10
15
20
25
30
2009 2010 2013 2015
年下载量(bn)
49
Apple
发布时间
数量(
K)
company Available apps Lunch timeApple:App Store 380,000+ July 08Google: Android Market 290,000+ Oct 08Blackberry:AppWorld 20,000 Mar 09Nokia:Ovi Store 50,000 Apr 09China Mobile:Mobile market 40,000 Aug 09China Telecom:Surfing 15,000 Sep 09Microsoft: WP7 market place 16,000 Oct 10
China Unicom:WoStore 6,828 Nov 10
移动应用程序商店
应用程序数量激增带来的问题
用户
如何快速地从众多的应用程序中找到自己想要的程序?如果不知道应用程序的准确名字,如何进行查找?更换手机时,如何选择类似功能的应用程序列表?……
应用程序商店
如何提供快速、准确的搜索?如何提供个性化的推荐?如何实现新应用程序的自动发现? ……
开发者
如何把自己开发的应用程序推荐给用户?选择什么样的应用程序来开发?……
应用程序无处不在!
应用程序搜索/推荐公司
序号 公 司 主要技术
1 http://chomp.com 利用文本分析、语义分析等技术,提供
精确搜索。2 http://iapps.in
3 http://mplayit.com
利有社交网络的共享信息进行应用程序
搜索和推荐。
4 http://www.appolicious.com
5 http://appaware.org
6 http://appsfire.com
7 http://www.appcraver.com利用用户评论信息进行应用程序推荐。8 http://www.appstorehq.com
9 http://www.appreview.com/
有关研究问题
AppSearch
AppTransfer
AppRecommendation
AppMining
……
乐Phone iPhone
更 换
App store:38万
总结和展望
对许多学科而言,海量数据意味着更严峻的挑战;
若能更好地组织和使用这些数据,会有助我们将巨大机遇变为现实。
Science:数据处理专题
总结和展望
寻找应对数据海啸的方舟……
55
Our Lab
Innovative Data Management Research Http://idke.ruc.edu.cn Google wamdm
谢 谢!
未来每18 个月产生的数据量等于有史以来的数据量之和
-- Jim Gray1998图灵奖获奖演说