中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

帝國cms如何采集內(nèi)容分頁

2018-10-06    來源:愛站科技

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

  上一篇我們介紹了帝國cms采集基本流程,那么我們這一篇介紹帝國cms如何采集內(nèi)容分頁。不少的同學(xué)在采集過程中,列表頁和內(nèi)容頁都能可以很好地設(shè)定正則,但往往失敗在內(nèi)容分頁正則上,主要是對內(nèi)容分頁正則不了解。

  帝國的內(nèi)容分頁形式有兩種:

  (1)全部列出式

  (2)上下頁導(dǎo)航式,但是這兩種內(nèi)容分頁形式有什么區(qū)別,采集內(nèi)容分頁時該用哪種,官方說得比較模糊,對此有些同學(xué)感到很頭大,好的,我們先看下例子:

  一、全部列出式

  全部列表式只需看第一頁的頁面HTML代碼,這一頁的所有分頁鏈接都列出來了。

  1、我們以“中華網(wǎng)內(nèi)容分頁(http://auto.china.com/dongtai/yejie/11012724/20120309/17081442.html)”為例:

  可以看到這條新聞總共有3條分頁。

  2、查看源代碼:

  這一頁里除了已經(jīng)采集到的第1條分頁外,還包括了第2條和第3條分頁,所有的分頁都列出來了。

  3、取得 分頁區(qū)域正則([!--smallpageallzz--]):

  4、取得 分頁鏈接正則([!--pageallzz--]):

  二、上下頁導(dǎo)航式

  上下頁導(dǎo)航式是分頁采集的難點,他需要所有頁面都符合分頁正則才行,在不熟悉的情況下,我們可以用第1頁和第2頁的代碼來進行對比分析然后確定分頁正則。

  1、我們以下網(wǎng)站的內(nèi)容分頁為例:

  可以看到這條新聞總共有20條分頁。

  2、查看源代碼:

  這一頁里除了已經(jīng)采集到的第1條分頁外,還包括了第2,第3,第4,第5,第6,第7,第8,第20條分頁,但是第9到第19條分頁并沒有列出來,這時候我們拿用第1頁和第2頁的代碼來進行對比分析,來確定分頁正則:

  (1)第1頁代碼:

  (2)第2頁代碼:

  從這兩幅圖片可以看到他們有著相同的“分頁區(qū)域開始代碼”,“分頁鏈接”格式,“分頁區(qū)域結(jié)束代碼”,那么就可以確定“分頁區(qū)域正則”,“分頁鏈接正則”。

  3、取得 分頁區(qū)域正則([!--smallpageallzz--]):

  4、取得 分頁鏈接正則([!--pageallzz--]):

  5、為了方便教程顯示,newstext我采集了標題而不是采集內(nèi)容,預(yù)覽結(jié)果:

  注意事項:

  第一、在第一頁的頁面HTML代碼里,內(nèi)容分頁鏈接全部列出來的情況下我們使用“全部列出式”。在第一頁的頁面HTML代碼里,內(nèi)容分頁鏈接沒有全部列出來的情況下我們使用“上下頁導(dǎo)航式”。

  第二、用全部列出式時,采集規(guī)則正確但是莫名其妙的出現(xiàn)重復(fù)的分頁,這時可以利用替換法把它過濾掉(下一講我們再說)。

  第三、用上下頁導(dǎo)航式時,老是采到第1頁,其他頁連個影子都沒有見過,這是因為分頁區(qū)域正則([!--smallpagezz--])截取錯誤。

  第四、用上下頁導(dǎo)航式時,可以采集到前幾頁了,但是接下來這前幾頁全部重復(fù)循環(huán)到底,這也是因為分頁區(qū)域正則([!--smallpagezz--])截取錯誤,截取范圍過大,導(dǎo)致重復(fù)截取前幾個分頁鏈接。

  好的,這一講就到這里,下一篇我們愛站技術(shù)頻道介紹帝國cms采集過濾和替換。

標簽: 代碼

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:帝國CMS本地安裝實例演示

下一篇:門戶網(wǎng)站為何需要碎片功能以及碎片在帝國CMS中的應(yīng)用