+ All Categories
Home > Documents > _ 乐辣

_ 乐辣

Date post: 25-May-2015
Category:
Upload: tommy96
View: 777 times
Download: 2 times
Share this document with a friend
Popular Tags:
15
1. Introduction Describe the background and motivation. Data mining efforts associated with the Web, called Web mining, can be broadly divided into three classes, i.e. content mining, usage mining, and structure mining . Web usage mining is the application of data mining techniques to discover usage patterns from Web data, in order to understand and better serve the needs of Web-based applications. Web usage mining consists of three phases, namely preprocessing, pattern discovery, and pattern analysis. This paper describes each of these phases in detail. Given its application potential, Web usage mining has seen a rapid increase in interest, from both the research and practice communities. This paper provides a detailed taxonomy of the work in this area, including research efforts as well as commercial offerings. An up-to-date survey of the existing work is also provided. Finally, a brief overview of the WebSIFT system as an example of a prototypical Web usage mining system is given. 1
Transcript
Page 1: _ 乐辣

1. Introduction

Describe the background and motivation.

Data mining efforts associated with the Web, called Web mining, can be

broadly divided into three classes, i.e. content mining, usage mining, and

structure mining .

Web usage mining is the application of data mining techniques to discover

usage patterns from Web data, in order to understand and better serve the

needs of Web-based applications. Web usage mining consists of three

phases, namely preprocessing, pattern discovery, and pattern analysis. This

paper describes each of these phases in detail. Given its application

potential, Web usage mining has seen a rapid increase in interest, from both

the research and practice communities. This paper provides a detailed

taxonomy of the work in this area, including research efforts as well as

commercial offerings. An up-to-date survey of the existing work is also

provided. Finally, a brief overview of the WebSIFT system as an example

of a prototypical Web usage mining system is given.

Describe the data set and the data mining techniques used to perform the data mining task.

There are many kinds of data that can be used in Web Mining. Classifies

1

Page 2: _ 乐辣

such data into the following types:

Content: The real data in the Web pages, i.e. the data the Web page

was designed to convey to the users. This usually consists of, but is not

limited to, text and graphics.

Structure: Data which describes the organization of the content. Intra-

page structure information includes the arrangement of various HTML

or XML tags within a given page. This can be represented as a tree

structure, where the (html) tag becomes the root of the tree. The

principal kind of inter-page structure information is hyper-links

connecting one page to another.

Usage: Data that describes the pattern of usage of Web pages, such as

IP addresses, page references, and the date and time of accesses.

User Profile: Data that provides demographic information about users

of the Web site. This includes registration data and customer profile

information.

The usage data collected at the different sources will represent the

navigation patterns of different segments of the overall Web traffic, ranging

from single-user, single-site browsing behavior to multi-user, multi-site

access patterns.

Server Level Collection: The data recorded in server logs reflects the

(possibly concurrent) access of a Web site by multiple users. These log

files can be stored in various formats such as Common log or Extended

log formats.

Packet sniffing technology is an alternative method to collecting usage

data through server logs. Packet sniffers monitor network traffic

coming to a Web server and extract usage data directly from TCP/IP

packets. The Web server can also store other kinds of usage

information such as cookies and query data in separate logs.

Cookies are tokens generated by the Web server for individual client

browsers in order to automatically track the site visitors. Query data is

also typically generated by online visitors while searching for pages

relevant to their information needs. Besides usage data, the server side

also provides content data, structure information and Web page meta-

information (such as the size of a file and its last modified time).

2

Page 3: _ 乐辣

The Web server also relies on other utilities such as CGI scripts to

handle data sent back from client browsers. Web servers implementing

the CGI standard parse the URI of the requested file to determine if it

is an application program. The URI for CGI programs may contain

additional parameter values to be passed to the CGI application. Once

the CGI program has completed its execution, the Web server send the

output of the CGI application back to the browser.

Client Level Collection: The implementation of client-side data

collection methods requires user cooperation, either in enabling the

functionality of the Java scripts and Java applets, or to voluntarily use

the modified browser. Client-side collection has an advantage over

server-side collection because it ameliorates both the caching and

session identification problems. However, Java applets perform no

better than server logs in terms of determining the actual view time of

a page. In fact, it may incur some additional overhead especially when

the Java applet is loaded for the first time. Java scripts, on the other

hand, consume little interpretation time but cannot capture all user

clicks (such as reload or back buttons). These methods will collect only

single-user, single-site browsing behavior. A modified browser is

much more versatile and will allow data collection about a single user

over multiple Web sites. The most difficult part of using this method is

convincing the users to use the browser for their daily browsing

3

Page 4: _ 乐辣

activities.

Proxy Level Collection: A Web proxy acts as an intermediate level of

caching between client browsers and Web servers. Proxy caching can

be used to reduce the loading time of a Web page experienced by users

as well as the network traffic load at the server and client sides. The

performance of proxy caches depends on their ability to predict future

page requests correctly. Proxy traces may reveal the actual HTTP

requests from multiple clients to multiple Web servers. This may serve

as a data source for characterizing the browsing behavior of a group of

anonymous users sharing a common proxy server.

The information provided by the data sources described above can all be

used to construct/identify several data abstractions, notably users, server

sessions, episodes, click-streams, and page views.

A user is defined as a single individual that is accessing file from one

or more Web servers through a browser. While this definition seems

trivial, in practice it is very difficult to uniquely and repeatedly identify

users. A user may access the Web through different machines, or use

more than one agent on a single machine.

A page view consists of every file that contributes to the display on a

user's browser at one time. Page views are usually associated with a

single user action (such as a mouse-click) and can consist of several

files such as frames, graphics, and scripts. When discussing and

analyzing user behaviors, it is really the aggregate page view that is of

importance. The user does not explicitly ask for "n" frames and "m"

graphics to be loaded into his or her browser, the user requests a "Web

page." All of the information to determine which files constitute a page

view is accessible from the Web server.

A click-stream is a sequential series of page view requests. Again, the

data available from the server side does not always provide enough

information to reconstruct the full click-stream for a site. Any page

view accessed through a client or proxy-level cache will not be

"visible" from the server side.

A user session is the click-stream of page views for a singe user across

the entire Web. Typically, only the portion of each user session that is

accessing a specific site can be used for analysis, since access

information is not publicly available from the vast majority of Web

4

Page 5: _ 乐辣

servers.

The set of page-views in a user session for a particular Web site is

referred to as a server session (also commonly referred to as a visit). A

set of server sessions is the necessary input for any Web Usage

analysis or data mining tool. The end of a server session is defined as

the point when the user's browsing session at that site has ended.

Again, this is a simple concept that is very difficult to track reliably.

Any semantically meaningful subset of a user or server session is

referred to as an episode.

2. Problem statement

在WebSIFT的計劃中,主要發展了一個web usage mining的概念性的架構,在這個架構中(如圖一),將網際使用探勘劃分成兩個部分,第一個部分是將網站資料轉換為適當的交易形式,而這個過程包含了預先處理、交易的定義、以及資料的整合,而這部分則是需要專門領域的知識。至於第二個部分,則是和特定領域無關的應用,也就是透過資料探勘和模式比對的技巧來進行資料的探勘。

圖一:Web Usage Mining的一般架構

而在執行網際資料探勘時,其主要的流程有事先準備(Preprocess)、樣式發現(Pattern Discovery)、以及樣式的分析(Pattern Analysis)等三個流程,而其實際的流程如 Figure 1(page 1),而每一階段的工作內容,則是在下面的內容說明。

預先處理 (Preprocessing)

預先處理則是對資料來源中所包含的Usage、Content、和 Structure 的資訊轉換成模式發掘所需要的資料抽象化。

5

Page 6: _ 乐辣

a. 使用的預先處理 (Usage Preprocessing)

由於可得的資料多數並不完整,也因此,這部分的資料處理是最為複雜;除非能使用客戶端追蹤的機制,否則僅能用 IP

address、agent、以及伺服端的 click stream來定義 user以及 server

session。而以下則是說明可能會遭遇的問題:

單一 IP位置,多個 Server Session

使用者可能透過 Proxy來進行連結。 多個 IP位置,單一 Server Session

一些 ISP會在不同的 Session間,隨機指定 IP位置。 多個 IP位置,單一User

使用者可能透過多台機器進行連結。 多個Agent,單一User

使用者使用一個以上的瀏覽器來進行瀏覽。即使在同一台機器上,其也會被視為不同的使用者。

若使用者已被定義(透過 cookie、login、或者是 IP/agent/path 分析)每個 user 的 click-stream就可以被劃分成 session,但仍是無法知道使用者在什麼時候離開網站,而通常的方式是設定一個逾期時間,如 30 分鐘,並將使用者的 click-stream劃分成 session。若session ID被包含在每個 URI之中,那 session的定義也就由content server來設定。

b. 內容的預先處理 (Content Preprocessing)

即將文字、圖像、script、或是多媒體形式的檔案轉換為網頁使用探勘流程有用的格式。而通常這個過程也執行分類(classification)或分群(clustering)等類型的內容探勘。

c. 結構的預先處理 (Structure Preprocessing)

網站的結構是由 page view的超連結所建立起來的,也因此,這個結構可以由類似網站內容的處理方法來取得。而動態的內容會造成比靜態 page view更多的問題。而它也必須針對每一個 server

session建立起不同的網站架構。

模式的發掘 (Pattern Discovery)

在模式的發掘上,可以採行的方法相當的多,也來自於各個領域,如統計、資料探勘、機器學習、以及模型認知(pattern recognition)等。而在Web mining方面,通常採用以下幾種方式,來進行模型的發覺

6

Page 7: _ 乐辣

a. 統計分析 (Statistical Analysis)

統計的技巧是所有網站最常使用到的方法,透過 session file的分析,即可以在 page view、瀏覽的路徑長度或時間等特性上,進行頻率、平均值、中位數等不同的描述統計分析。而在許多網站流量分析工具中,也都提供定期性的統計報告;而這些報告中也可能包含了功能有限的錯誤分析,如偵測未授權的進入點或是找到最常使用錯誤的URI。儘管這種方式缺乏分析上的深度,但仍是可以協助系統效能的提昇、增加安全性,以及輔助網站修正的工作,並可支援行銷的決策。

b. 關聯規則 (Association Rules)

此種方式可用來分析一個 server session 中,有哪些網頁是具有存取的關聯性,也就是該群網頁的支持度(support)超過所設定的門檻值。而這些網頁有可能不是透過超連結的方式來連結,這也就可以協助網頁設計者去重新架構網站,以增加相關網頁的連結。而這種方式也可以透過事先擷取文件,以避免遠端存取的延遲。

c. 分群 (Clustering)

分群(clustering)的方式是將一群有相關特性的項目群組起來。在網頁使用的探勘之中,可以發現 usage cluster和 page cluster 兩種有趣的類型。使用者的分群也就是將有類似瀏覽行為的使用者群組起來,而這種特性可依照其在人口統計上的特性,去進行電子商務應用的市場區隔,並可以提供個人化的網頁。而在網頁的分群上則是去找尋擁有相關內容的網頁群集,而這類的資訊是適合網際網路搜尋引擎的使用,並可以根據使用者查詢或過去使用的歷史來產生動態的網頁。

d. 分類(Classification)分類是即將資料項目對應到一些已事先定義的類別,在 Web領域的應用上,也就是將使用者的使用紀錄歸類於一個或特定的類別或分類;而在分類執行之前,也就需要進行特徵的選取,以挑選出合適的描述特性。而經由這種方式的樣式挖掘,可能會產生下列有趣的規則:在 /Product/Music下單的客戶中,有 30%的人是屬於 18-25歲的族群,且居住在西岸。

e. 序列模型(Sequential Patterns)這類的技術主要在嘗試去找尋 session 間的模型,如在某一些項目出現後的一段時間之後,會有哪些的行動出現;利用此種方式,網路行銷者也就有辦法預測客戶未來再度瀏覽的行為,並可針對特定的使用者族群作適當的廣告策略。而其他的時間性分析則可以進行順序性的分析,如趨勢分析、改變的偵測、或是相似性分析。

f. 相依性的模式(Dependency Modeling)

7

Page 8: _ 乐辣

這種方式主要是去發展一個模式,而能夠代表Web domain中各個變數之間的重要關係,如建立一個模式以代表在不同階段,一個瀏覽者所會執行的不同動作。而這部分有許多可能的方法可以用來模式化使用者的瀏覽行為,如 Hidden Markov Models和 Bayesian

Belief Networks。而對Web的使用模式進行塑模,不僅可以提供分析使用者行為的理論架構,且可用來預測未來網站資源的消耗。利用這種方式,也可以增加使用者的瀏覽便利性,並增加電子交易的銷售額。

模式分析 (Pattern Analysis)

模式分析是整體活動的最後一個階段,也就是篩選在上述階段所產生的規則,將沒有意義的規則過濾。而正確的分析方法通常是採用知識查詢的機制,如 SQL等。而另一種方式則是將資料載入 data cube,以執行OLAP 的操作。視覺化的技巧,如圖形的模式或是指定不同顏色給不同的值,而內容和結構的資訊也可以使用在過濾模式。

3. Detailed data mining(以健康檢查業為例)

資料來源與描述

a. 資料來源

I. 國內某健康檢查中心 2002年 9月~10月顧客上網資料 log檔(IP位址、瀏覽的網頁代碼、瀏覽的網頁主題、瀏覽網頁的時間進入與離開網站的時間、會員編號等)。

II. 會員基本資料(會員編號、年齡、性別、地區、加入會員的日期等)。

b. 資料描述

8

Page 9: _ 乐辣

系統架構

圖 4為系統架構圖,我們利用健康檢查網站的日誌檔以及會員基本資料為資料來源,經過資料清理、轉換至資料庫,然後再利用資料探勘之分類法、關聯法則等技術來建構個人化網站,以提供使用者個人化的環境。

關聯法則-WS演算法 based on Apriori

9

Page 10: _ 乐辣

程序

網站伺服器的網站日誌提供了很好的分析資料來源,我們首先必須針對原始的資料進行初步的整理工作,將資料經過清理,過濾掉不相關的項目及不正確、不合理的資料,例如:將路過 (網頁停留時間太短) 及無效 (網頁停留時間太長) 的資料刪除。

接著與會員基本資料整合轉換至資料庫,整合後的資料必須轉換成資料探勘工具可以處理的格式。在我們提出的研究方法中,資料經清理後為了執行資料探勘之關聯法則就必須先將瀏覽的時間累加。

結果與分析

本研究原將資料的網頁停留時間分布如圖 6所示,其平均為 72秒。經過清理過濾後為 54秒,其與Nielsen/NetRatings針對台灣所統計出的網頁停留時間 37秒 (2001年 3月) 增加了 17秒,由此可知,使用者進入醫療產業網站的網頁停留時間較一般產業停留時間長,也代表使用者真正關心醫療產業網站所提供的資料,更加需要網站瀏覽之個人化。

表 2為主要網頁的代碼對照表;表 3為實驗的部分結果,是利用WS

演算法所挖掘出來的關聯法則,支持度設為 0.4%,信賴度設為 50%。在表 3,我們主要的分析結果及採取的策略如下:

10

Page 11: _ 乐辣

a. (A001,R008)èB002所代表的意義是在瀏覽首頁(A001)及登錄健檢結果查詢的網頁(R008)之狀況下也會瀏覽檢驗結果解讀的網頁(B002),此結果與一般我們上網查詢健檢結果的狀況相符。可以將三個網頁擺在一起或是建立超連結,以改善網頁設計架構。

b. 支持度可以看出網頁被瀏覽時受歡迎的程度,可提供醫療業者推出健檢項目搭配促銷的決策參考。

11

Page 12: _ 乐辣

c. 當醫療業者欲推出某網頁廣告的資訊時,可以參考信賴度。

決策樹

程序

將文字性的資料轉換成數值性的資料,以利執行資料探勘。本研究中為了執行資料探勘軟體之決策樹功能來做分類,我們將每一個紽頁當成一個屬性,有瀏覽此網頁,則屬性值為 1,反之為 0。

結果與分析

利用年齡、性別、地區、網頁代碼等屬性來建構決策樹,以進行顧客之分類。由分類的結果,可針對不同的顧客上網時,依據其特徵及瀏覽屬性,採取不同的廣告行銷策略及瀏覽之環境。以健檢業為例,了解健檢市場顧客特性,利用資料探勘技術將顧客分類,針對不同的使用者群組給予不同的醫療資訊及採取不同的健檢廣告行鐺。表 5為網頁代碼對照表,我們的實驗結果正分析如下:

a. 性別為女、年齡大於 35歲,瀏覽骨質疏鬆相關網頁的機率較高當業者推出骨質疏鬆健檢活動時,顧客的屬性符合性別為女、年齡大於 35歲之條件,可自動彈出該項健檢活動優惠專案

b. 在關聯法則的實驗結果,發現瀏覽網頁D018(下午茶)的狀況下也會瀏覽網頁D035(綜合健康檢查簡介),而這些人的年齡大部份小於 28歲,這些資訊可作為健檢業者於規劃下午茶網頁內

12

Page 13: _ 乐辣

容之依據。

c. 結果發現,會瀏覽檢驗結果解讀(B002)網頁及血脂肪(D479)網頁而不瀏覽肝臟保健(D306)網頁之顧客,是屬於會瀏覽肝功能(D221)網頁的族群。當使用者瀏覽網頁之情況符合決策樹規則時,可瞭解其對肝功能網頁是否有興趣,以決定是否呈現肝功能之相關座談會與促銷功能。

13

Page 14: _ 乐辣

4. Conclusions and critics

a. Conclusions

i. This paper has attempted to provide an up-to-date survey of the rapidly

growing area of Web Usage mining.

ii. Specifically electronic commerce, there is significant interest in

analyzing Web Usage data to better understand Web usage, and apply

the knowledge to better serve users.

iii. Web Usage mining raises some hard scientific questions that must be

answered before robust tools can be developed.

iv. 此篇 paper將Web Usage mining 會使用到的Data type、屬性與來源和處裡步驟與方法都解釋清楚,因此若要做此方面研究,才能知

14

Page 15: _ 乐辣

道所要 collect的資料為何,以及從何 collect。

b. critics to this work

i. 在實例當中的這篇 paper將權重放在網頁瀏覽時間上,可是卻沒有考慮到,網頁的大小與複雜度也會影響使用者停留的時間,並且停留時間的 start time是以 the first click-stream亦或進入網頁內做點選得動作,因為網路速度也會影響開啟網頁的時間。

ii. 這篇 paper簡單的以會員的 log檔來做類似交易處理的動作,但是對於其他非會員的外部使用者資料的參考價值卻沒有考慮到,這部份也是做此方面研究所要突破之處。

5. Reference

Jaideep Srivastava , Robert Cooley , Mukund Deshpande, Pang-Ning Tan.

Web Usage Mining: Discovery and Applications of Usage Patterns from

Web Data

趙景明, 黃雅慧. 應用網站使用探勘於網站瀏覽之個人化-以健康檢查業為例

15


Recommended