搜索引擎中的web數(shù)據(jù)挖掘

2019-12-03 來源：raincent

來源：DataFun社區(qū) 作者：沐沐老師

今天為大家分享的是搜索引擎中的 web 數(shù)據(jù)挖掘。首先介紹下搜索引擎。實(shí)際上，我們每天都會(huì)使用的搜索引擎，我們會(huì)輸入關(guān)鍵詞 query 和需求，搜索引擎會(huì)根據(jù)算法將于 query 最相關(guān)且最權(quán)威的結(jié)果呈現(xiàn)給用戶。

搜索引擎有 3 個(gè)核心部分：

第一：理解用戶行為，從最初文字輸入到語音和圖片輸入。

第二：收錄并分析互聯(lián)網(wǎng)數(shù)據(jù)。

第三：將用戶行為與數(shù)據(jù)建立聯(lián)系，為用戶推薦結(jié)果。

今天主要介紹第二部分內(nèi)容：互聯(lián)網(wǎng) web 數(shù)據(jù)分析技術(shù)。首先看一下 web 數(shù)據(jù)挖掘與收錄系統(tǒng)，也就是 spider 系統(tǒng)。Spider 系統(tǒng)是比較成熟的技術(shù), 目標(biāo)是：快速、全面、準(zhǔn)確的收錄并分析網(wǎng)頁數(shù)據(jù), 一般全網(wǎng)搜索引擎類似 google、百度、搜狗的 spider 系統(tǒng)，每日調(diào)度 10 億級鏈接，Spider 數(shù)據(jù)庫存儲(chǔ)千億級網(wǎng)頁與萬億級鏈接。我們可以認(rèn)為 spider 系統(tǒng)是一個(gè)環(huán)狀的系統(tǒng)，從鏈接數(shù)據(jù)庫開始，經(jīng)過相關(guān)算法：如鏈接調(diào)度與篩選相關(guān)算法，對周期內(nèi)需要調(diào)度的鏈接進(jìn)行抓取，然后發(fā)給抓取器，進(jìn)行網(wǎng)頁的下載和渲染。然后輸入到數(shù)據(jù)挖掘與計(jì)算系統(tǒng)中，對內(nèi)容進(jìn)行提取，將網(wǎng)頁中的內(nèi)容保存到內(nèi)容數(shù)據(jù)庫，鏈接保存到鏈接數(shù)據(jù)庫中。我們今天的重點(diǎn)是網(wǎng)頁下載之后，網(wǎng)頁相關(guān)的一些數(shù)據(jù)挖掘算法。

首先我們看一個(gè)例子，互聯(lián)網(wǎng)用戶會(huì)瀏覽新聞、微博等各式各樣的網(wǎng)頁。我們觀察一下網(wǎng)頁，思考兩個(gè)問題，第一個(gè)問題，在你觀察的網(wǎng)頁有什么特征及內(nèi)容。第二個(gè)問題，從整體看來，這是怎樣的網(wǎng)頁，如何描述這個(gè)網(wǎng)頁。具體的分析如下：

Web 分析技術(shù)最核心是對網(wǎng)頁特征提取，比如：導(dǎo)航、標(biāo)題、時(shí)間、主圖等等。網(wǎng)頁內(nèi)部特征是數(shù)據(jù)引擎進(jìn)行排序時(shí)用到的關(guān)鍵特征。例如在排序中，時(shí)間特征也比較關(guān)鍵，將實(shí)效性高且相關(guān)網(wǎng)頁排在前面。除內(nèi)部特征之外，還有網(wǎng)頁整體特征。我們會(huì)用到一些分類和自然語言處理的技術(shù)，剛才的例子就是一個(gè)新聞網(wǎng)頁，內(nèi)容是科技相關(guān)的。會(huì)同時(shí)計(jì)算語義特征和結(jié)構(gòu)特征，例如主圖、排版、文本段落等。

Web 數(shù)據(jù)挖掘中，需要計(jì)算并提取網(wǎng)頁的百余個(gè)網(wǎng)頁屬性字段，在此之中會(huì)使用一些技術(shù)，如機(jī)器學(xué)習(xí)的分類、聚類、回歸、自然語言處理、規(guī)則聚合、主題模型等等。最終的目標(biāo)是充分的理解網(wǎng)頁，為搜索引擎排序提供準(zhǔn)確的網(wǎng)頁屬性。

網(wǎng)頁分析用到了許多基礎(chǔ)的算法和數(shù)據(jù)結(jié)構(gòu)。獲取網(wǎng)頁屬性，需要用很多模型計(jì)算相應(yīng)的字段，低層需要構(gòu)造很多數(shù)據(jù)結(jié)構(gòu)。了解網(wǎng)頁首先需要建立一個(gè) html 樹的結(jié)構(gòu)。在這個(gè)數(shù)據(jù)結(jié)構(gòu)中, 如圖藍(lán)色的代表標(biāo)簽節(jié)點(diǎn)，綠色代表文本節(jié)點(diǎn)。文本節(jié)點(diǎn)是 html 的內(nèi)容，內(nèi)容可以展示在瀏覽器中。在分析過程中，一些內(nèi)容比較關(guān)鍵，如標(biāo)題、超鏈接與文本內(nèi)容等相關(guān)重要字段。

下面介紹頁面分析的一個(gè)算法：我們希望充分的理解網(wǎng)頁, 在此過程中, 我們可以通過算法劃分出不同的區(qū)域。如劃分為上下左右區(qū)域，根據(jù)不同的區(qū)域提取字段，最終可以對網(wǎng)頁進(jìn)行更深層次的理解，比如說主體邊框、標(biāo)題、關(guān)鍵內(nèi)容識別理解。

在將網(wǎng)頁劃分為不同區(qū)域的過程中, 需要用到較多的數(shù)據(jù)結(jié)構(gòu)。例如：依賴 HTML 樹構(gòu)建統(tǒng)計(jì)樹。所謂統(tǒng)計(jì)樹就是在建立了 HTML 樹之后，對樹節(jié)點(diǎn)增加統(tǒng)計(jì)屬性，例如坐標(biāo)、寬高、樣式等等基礎(chǔ)信息。往往在識別節(jié)點(diǎn)類型(正文節(jié)點(diǎn)、圖片節(jié)點(diǎn))時(shí)，這些基本信息可以幫我們排除沒有意義的節(jié)點(diǎn)。

在構(gòu)造樹的過程中，會(huì)對節(jié)點(diǎn)的特征進(jìn)行計(jì)算，例如節(jié)點(diǎn)的面積、顏色等。依賴這些節(jié)點(diǎn)特征對節(jié)點(diǎn)進(jìn)行分類標(biāo)記。例如說網(wǎng)頁的布局節(jié)點(diǎn)，js 節(jié)點(diǎn)，這些具有對應(yīng)的特征屬性，基于此對網(wǎng)頁進(jìn)行分類。分類之后將樹形的節(jié)點(diǎn)轉(zhuǎn)化成數(shù)組的形式，方便后續(xù)分析。

如左圖，該網(wǎng)頁包含 body 主體，布局節(jié)點(diǎn)從上到下一次排開。同樣在右圖的統(tǒng)計(jì)樹上，根節(jié)點(diǎn)就是 body 節(jié)點(diǎn)，下面的四個(gè)子節(jié)點(diǎn)代表網(wǎng)頁塊元素。在統(tǒng)計(jì)樹上進(jìn)行層次遍歷，以保留有效布局結(jié)構(gòu)節(jié)點(diǎn)，將樹縮減為一個(gè)更加簡單的樹。在遍歷過程中，需要算法來計(jì)算節(jié)點(diǎn)的排列順序。例如根節(jié)點(diǎn)下有 4 個(gè)子節(jié)點(diǎn)，分別代表網(wǎng)頁中的不同布局塊。左圖四個(gè)布局塊是從上到下的排列方式，在右圖中會(huì)根據(jù)深度進(jìn)行標(biāo)記。

構(gòu)造完結(jié)構(gòu)樹之后，還會(huì)對樹進(jìn)行變換：節(jié)點(diǎn)刪除，節(jié)點(diǎn)壓縮。左圖網(wǎng)頁中橙色的節(jié)點(diǎn)，對于表示頁面意義不大，原因是：根節(jié)點(diǎn)下的子節(jié)點(diǎn)都是從上到下排列的，橙色節(jié)點(diǎn)的子節(jié)點(diǎn)排序順序相同，因此可以對橙色節(jié)點(diǎn)刪除，將其子節(jié)點(diǎn)上移。

總結(jié)：為網(wǎng)頁劃分區(qū)域，為構(gòu)造平面數(shù)據(jù)結(jié)構(gòu)做準(zhǔn)備。我們從 html tree 做了許多化簡得到 layout tree，根據(jù) layout tree 計(jì)算區(qū)域，從而得到多個(gè)分區(qū)。

如何根據(jù) layout tree 劃分平面，劃分思想就是構(gòu)造劃分平面的容器(類比與 c++ 中的 vector)。我們按廣度優(yōu)先遍歷 layout tree，來判斷節(jié)點(diǎn)是否可以放入到容器中�？梢允褂靡�(guī)則或者機(jī)器學(xué)習(xí)模型來進(jìn)行判斷。如圖中黃框的節(jié)點(diǎn)，面積比較小，寬比高的值較大，且包含一些語義信息：導(dǎo)航等，就可判斷節(jié)點(diǎn)屬于上區(qū)域容器中。但是 5 號節(jié)點(diǎn)面積較大, 判斷為上區(qū)域是不合適的。那么上區(qū)域容器收集完成了。所以 5 號節(jié)點(diǎn)會(huì)在下一層進(jìn)行相應(yīng)的劃分。也可以通過分類模型來判斷是否要放入到容器中。

完成平面構(gòu)造之后，可以利用它們對網(wǎng)頁中元素提取。例如圖中在提取評論內(nèi)容，訓(xùn)練一個(gè)評論塊識別模型，就可以從不同網(wǎng)頁中，商品、新聞等網(wǎng)頁中提取評論內(nèi)容。

最后介紹網(wǎng)頁分類，這是一個(gè)比較通用技術(shù)，無論是結(jié)構(gòu)分類還是語義分類思路是比較類似的。例如對網(wǎng)頁分類，就是對提取網(wǎng)頁的特征向量(如圖片數(shù)量，鏈接數(shù)量等等統(tǒng)計(jì)信息)，利用有監(jiān)督的機(jī)器學(xué)習(xí)模型(如隨機(jī)森林、邏輯回歸等)進(jìn)行訓(xùn)練，識別網(wǎng)頁類型。一般的網(wǎng)頁分類系統(tǒng)是多個(gè)二分類模型疊加在一起的。例如有多個(gè)模型：娛樂，體育新聞等，最終我們會(huì)對這些模型結(jié)果串聯(lián)到一起，這樣每個(gè)類型相互沒有依賴，升級迭代比較方便。

原文鏈接：

https://mp.weixin.qq.com/s/-VAE-QeiykYwwAmf0q9NhQ

標(biāo)簽：數(shù)據(jù)挖掘

版權(quán)申明：本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請聯(lián)系：west999com@outlook.com
特別注意：本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)！
本站所提供的圖片等素材，版權(quán)歸原作者所有，如需使用，請與原作者聯(lián)系。

上一篇:政府?dāng)?shù)據(jù)向社會(huì)開放不能成為一種“放之四海皆準(zhǔn)”的工具

下一篇:在時(shí)間關(guān)系數(shù)據(jù)上AutoML：一個(gè)新的前沿

相關(guān)文章

最新資訊

熱門推薦

為學(xué)習(xí)和知識分享目的，本站文章部分自網(wǎng)絡(luò)，本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請聯(lián)系：2653426586@qq.com QQ：2653426586

如有其他需求，請聯(lián)系：2653426586@qq.com QQ：2653426586

友情鏈接：網(wǎng)絡(luò)安全運(yùn)維經(jīng)驗(yàn) IT技術(shù)分享運(yùn)維隨筆錄鮮花東郊到家往約到家

中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

搜索引擎中的web數(shù)據(jù)挖掘