中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

搜索引擎中的web數(shù)據(jù)挖掘

2019-12-03    來源:raincent

容器云強(qiáng)勢上線!快速搭建集群,上萬Linux鏡像隨意使用

來源:DataFun社區(qū) 作者:沐沐老師

今天為大家分享的是搜索引擎中的 web 數(shù)據(jù)挖掘。首先介紹下搜索引擎。實(shí)際上,我們每天都會使用的搜索引擎,我們會輸入關(guān)鍵詞 query 和需求,搜索引擎會根據(jù)算法將于 query 最相關(guān)且最權(quán)威的結(jié)果呈現(xiàn)給用戶。

 

 

搜索引擎有 3 個核心部分:

第一:理解用戶行為,從最初文字輸入到語音和圖片輸入。

第二:收錄并分析互聯(lián)網(wǎng)數(shù)據(jù)。

第三:將用戶行為與數(shù)據(jù)建立聯(lián)系,為用戶推薦結(jié)果。

 

 

今天主要介紹第二部分內(nèi)容:互聯(lián)網(wǎng) web 數(shù)據(jù)分析技術(shù)。首先看一下 web 數(shù)據(jù)挖掘與收錄系統(tǒng),也就是 spider 系統(tǒng)。Spider 系統(tǒng)是比較成熟的技術(shù), 目標(biāo)是:快速、全面、準(zhǔn)確的收錄并分析網(wǎng)頁數(shù)據(jù), 一般全網(wǎng)搜索引擎類似 google、百度、搜狗的 spider 系統(tǒng),每日調(diào)度 10 億級鏈接,Spider 數(shù)據(jù)庫存儲千億級網(wǎng)頁與萬億級鏈接。我們可以認(rèn)為 spider 系統(tǒng)是一個環(huán)狀的系統(tǒng),從鏈接數(shù)據(jù)庫開始,經(jīng)過相關(guān)算法:如鏈接調(diào)度與篩選相關(guān)算法,對周期內(nèi)需要調(diào)度的鏈接進(jìn)行抓取,然后發(fā)給抓取器,進(jìn)行網(wǎng)頁的下載和渲染。然后輸入到數(shù)據(jù)挖掘與計算系統(tǒng)中,對內(nèi)容進(jìn)行提取,將網(wǎng)頁中的內(nèi)容保存到內(nèi)容數(shù)據(jù)庫,鏈接保存到鏈接數(shù)據(jù)庫中。我們今天的重點(diǎn)是網(wǎng)頁下載之后,網(wǎng)頁相關(guān)的一些數(shù)據(jù)挖掘算法。

 

 

首先我們看一個例子,互聯(lián)網(wǎng)用戶會瀏覽新聞、微博等各式各樣的網(wǎng)頁。我們觀察一下網(wǎng)頁,思考兩個問題,第一個問題,在你觀察的網(wǎng)頁有什么特征及內(nèi)容。第二個問題,從整體看來,這是怎樣的網(wǎng)頁,如何描述這個網(wǎng)頁。具體的分析如下:

 

 

 

 

Web 分析技術(shù)最核心是對網(wǎng)頁特征提取,比如:導(dǎo)航、標(biāo)題、時間、主圖等等。網(wǎng)頁內(nèi)部特征是數(shù)據(jù)引擎進(jìn)行排序時用到的關(guān)鍵特征。例如在排序中,時間特征也比較關(guān)鍵,將實(shí)效性高且相關(guān)網(wǎng)頁排在前面。除內(nèi)部特征之外,還有網(wǎng)頁整體特征。我們會用到一些分類和自然語言處理的技術(shù),剛才的例子就是一個新聞網(wǎng)頁,內(nèi)容是科技相關(guān)的。會同時計算語義特征和結(jié)構(gòu)特征,例如主圖、排版、文本段落等。

 

 

Web 數(shù)據(jù)挖掘中,需要計算并提取網(wǎng)頁的百余個網(wǎng)頁屬性字段,在此之中會使用一些技術(shù),如機(jī)器學(xué)習(xí)的分類、聚類、回歸、自然語言處理、規(guī)則聚合、主題模型等等。最終的目標(biāo)是充分的理解網(wǎng)頁,為搜索引擎排序提供準(zhǔn)確的網(wǎng)頁屬性。

 

 

網(wǎng)頁分析用到了許多基礎(chǔ)的算法和數(shù)據(jù)結(jié)構(gòu)。獲取網(wǎng)頁屬性,需要用很多模型計算相應(yīng)的字段,低層需要構(gòu)造很多數(shù)據(jù)結(jié)構(gòu)。了解網(wǎng)頁首先需要建立一個 html 樹的結(jié)構(gòu)。在這個數(shù)據(jù)結(jié)構(gòu)中, 如圖藍(lán)色的代表標(biāo)簽節(jié)點(diǎn),綠色代表文本節(jié)點(diǎn)。文本節(jié)點(diǎn)是 html 的內(nèi)容,內(nèi)容可以展示在瀏覽器中。在分析過程中,一些內(nèi)容比較關(guān)鍵,如標(biāo)題、超鏈接與文本內(nèi)容等相關(guān)重要字段。

 

 

下面介紹頁面分析的一個算法:我們希望充分的理解網(wǎng)頁, 在此過程中, 我們可以通過算法劃分出不同的區(qū)域。如劃分為上下左右區(qū)域,根據(jù)不同的區(qū)域提取字段,最終可以對網(wǎng)頁進(jìn)行更深層次的理解,比如說主體邊框、標(biāo)題、關(guān)鍵內(nèi)容識別理解。

 

 

在將網(wǎng)頁劃分為不同區(qū)域的過程中, 需要用到較多的數(shù)據(jù)結(jié)構(gòu)。例如:依賴 HTML 樹構(gòu)建統(tǒng)計樹。所謂統(tǒng)計樹就是在建立了 HTML 樹之后,對樹節(jié)點(diǎn)增加統(tǒng)計屬性,例如坐標(biāo)、寬高、樣式等等基礎(chǔ)信息。往往在識別節(jié)點(diǎn)類型(正文節(jié)點(diǎn)、圖片節(jié)點(diǎn))時,這些基本信息可以幫我們排除沒有意義的節(jié)點(diǎn)。

 

 

在構(gòu)造樹的過程中,會對節(jié)點(diǎn)的特征進(jìn)行計算,例如節(jié)點(diǎn)的面積、顏色等。依賴這些節(jié)點(diǎn)特征對節(jié)點(diǎn)進(jìn)行分類標(biāo)記。例如說網(wǎng)頁的布局節(jié)點(diǎn),js 節(jié)點(diǎn),這些具有對應(yīng)的特征屬性,基于此對網(wǎng)頁進(jìn)行分類。分類之后將樹形的節(jié)點(diǎn)轉(zhuǎn)化成數(shù)組的形式,方便后續(xù)分析。

 

 

如左圖,該網(wǎng)頁包含 body 主體,布局節(jié)點(diǎn)從上到下一次排開。同樣在右圖的統(tǒng)計樹上,根節(jié)點(diǎn)就是 body 節(jié)點(diǎn),下面的四個子節(jié)點(diǎn)代表網(wǎng)頁塊元素。在統(tǒng)計樹上進(jìn)行層次遍歷,以保留有效布局結(jié)構(gòu)節(jié)點(diǎn),將樹縮減為一個更加簡單的樹。在遍歷過程中,需要算法來計算節(jié)點(diǎn)的排列順序。例如根節(jié)點(diǎn)下有 4 個子節(jié)點(diǎn),分別代表網(wǎng)頁中的不同布局塊。左圖四個布局塊是從上到下的排列方式,在右圖中會根據(jù)深度進(jìn)行標(biāo)記。

 

 

構(gòu)造完結(jié)構(gòu)樹之后,還會對樹進(jìn)行變換:節(jié)點(diǎn)刪除,節(jié)點(diǎn)壓縮。左圖網(wǎng)頁中橙色的節(jié)點(diǎn),對于表示頁面意義不大,原因是:根節(jié)點(diǎn)下的子節(jié)點(diǎn)都是從上到下排列的,橙色節(jié)點(diǎn)的子節(jié)點(diǎn)排序順序相同,因此可以對橙色節(jié)點(diǎn)刪除,將其子節(jié)點(diǎn)上移。

 

 

總結(jié):為網(wǎng)頁劃分區(qū)域,為構(gòu)造平面數(shù)據(jù)結(jié)構(gòu)做準(zhǔn)備。我們從 html tree 做了許多化簡得到 layout tree,根據(jù) layout tree 計算區(qū)域,從而得到多個分區(qū)。

 

 

如何根據(jù) layout tree 劃分平面,劃分思想就是構(gòu)造劃分平面的容器(類比與 c++ 中的 vector)。 我們按廣度優(yōu)先遍歷 layout tree,來判斷節(jié)點(diǎn)是否可以放入到容器中?梢允褂靡(guī)則或者機(jī)器學(xué)習(xí)模型來進(jìn)行判斷。如圖中黃框的節(jié)點(diǎn),面積比較小,寬比高的值較大,且包含一些語義信息:導(dǎo)航等,就可判斷節(jié)點(diǎn)屬于上區(qū)域容器中。但是 5 號節(jié)點(diǎn)面積較大, 判斷為上區(qū)域是不合適的。那么上區(qū)域容器收集完成了。所以 5 號節(jié)點(diǎn)會在下一層進(jìn)行相應(yīng)的劃分。也可以通過分類模型來判斷是否要放入到容器中。

 

 

完成平面構(gòu)造之后,可以利用它們對網(wǎng)頁中元素提取。例如圖中在提取評論內(nèi)容,訓(xùn)練一個評論塊識別模型,就可以從不同網(wǎng)頁中,商品、新聞等網(wǎng)頁中提取評論內(nèi)容。

 

 

最后介紹網(wǎng)頁分類,這是一個比較通用技術(shù),無論是結(jié)構(gòu)分類還是語義分類思路是比較類似的。例如對網(wǎng)頁分類,就是對提取網(wǎng)頁的特征向量(如圖片數(shù)量,鏈接數(shù)量等等統(tǒng)計信息),利用有監(jiān)督的機(jī)器學(xué)習(xí)模型(如隨機(jī)森林、邏輯回歸等)進(jìn)行訓(xùn)練,識別網(wǎng)頁類型。一般的網(wǎng)頁分類系統(tǒng)是多個二分類模型疊加在一起的。例如有多個模型:娛樂,體育新聞等,最終我們會對這些模型結(jié)果串聯(lián)到一起,這樣每個類型相互沒有依賴,升級迭代比較方便。

原文鏈接:

https://mp.weixin.qq.com/s/-VAE-QeiykYwwAmf0q9NhQ

標(biāo)簽: 數(shù)據(jù)挖掘

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:政府?dāng)?shù)據(jù)向社會開放不能成為一種“放之四海皆準(zhǔn)”的工具

下一篇:在時間關(guān)系數(shù)據(jù)上AutoML:一個新的前沿