中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

數(shù)據(jù)造假、爬蟲與反爬蟲戰(zhàn)爭(zhēng)暴露出哪些行業(yè)現(xiàn)狀?

2018-11-02    來源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

一、馬蜂窩“造假門”事件所暴露的行業(yè)潛規(guī)則

上周,估值據(jù)傳已高達(dá)25億美元、新一輪融資接近尾聲的明星獨(dú)角獸公司馬蜂窩陷入了數(shù)據(jù)造假丑聞。一個(gè)由3名年輕海龜組成不足1年、名不見經(jīng)傳的乎睿數(shù)據(jù)把馬蜂窩涉嫌數(shù)據(jù)造假的行為逐條拎出來在社交媒體上傳播。根據(jù)乎睿數(shù)據(jù)團(tuán)隊(duì)提供的信息,馬蜂窩2100萬(wàn)條真實(shí)點(diǎn)評(píng)中,有1800萬(wàn)條是通過機(jī)器人抄襲自點(diǎn)評(píng)、攜程等競(jìng)爭(zhēng)對(duì)手;其在馬蜂窩上發(fā)現(xiàn)了7454個(gè)抄襲賬號(hào),平均每個(gè)賬號(hào)從攜程、藝龍、美團(tuán)、Agoda、Yelp上抄襲搬運(yùn)了數(shù)千條點(diǎn)評(píng),占到馬蜂窩官網(wǎng)聲稱總點(diǎn)評(píng)數(shù)的85%。而馬蜂窩則發(fā)表聲明稱乎睿數(shù)據(jù)“歪曲事實(shí)”,屬于“有組織攻擊行為”,已起訴該公司并獲得立案。同時(shí),乎睿數(shù)據(jù)回應(yīng),目前已掌握大量證據(jù),期待法院作出的公正裁決,因?yàn)?ldquo;這個(gè)案子最終將決定未來中國(guó)二十年的互聯(lián)網(wǎng)走向”。

 

 

本次事件的雙方你來我往數(shù)個(gè)回合,一個(gè)認(rèn)為自己鐵證如山,一個(gè)咬定“明顯抹黑”,唯獨(dú)真正的“受害者”——被“抄襲”了數(shù)據(jù)的攜程、去哪兒等企業(yè)集體陷入沉默。因?yàn)楫?dāng)前數(shù)據(jù)造假、爬蟲刷屏是司空見慣的行為,已成為互聯(lián)網(wǎng)行業(yè)的客觀現(xiàn)狀,攜程、去哪兒自身的用戶點(diǎn)評(píng)數(shù)據(jù)來源都難以解釋清楚。目前,案件最終結(jié)果尚未定論,但司法界人士認(rèn)為,馬蜂窩訴乎睿數(shù)據(jù)的案子具有典型意義。該案件一方面反應(yīng)了當(dāng)下企業(yè)對(duì)于大數(shù)據(jù)基礎(chǔ)性資源的激烈爭(zhēng)奪,另一方面也暴露出我國(guó)在數(shù)據(jù)權(quán)責(zé)安全相關(guān)的法制法規(guī)建設(shè)上亟待加強(qiáng)。

二、“潛規(guī)則”背后的技術(shù):網(wǎng)絡(luò)爬蟲與反爬蟲

1、網(wǎng)絡(luò)爬蟲技術(shù)

爬蟲最早源于搜索引擎,它是一種按照一定的規(guī)則,自動(dòng)從互聯(lián)網(wǎng)上抓取信息的程序,又被稱為爬蟲,網(wǎng)絡(luò)機(jī)器人等。按爬蟲功能可以分為網(wǎng)絡(luò)爬蟲和接口爬蟲,按授權(quán)情況可以分為合法爬蟲和惡意爬蟲。如今數(shù)據(jù)資源越來越珍貴,利用爬蟲技術(shù)爬取有價(jià)值的數(shù)據(jù),成為很多公司彌補(bǔ)自身先天數(shù)據(jù)短板、提高自身估值的不二選擇。

針對(duì)此次馬蜂窩事件,很多開發(fā)者承認(rèn),從其他網(wǎng)站或APP上抓取點(diǎn)評(píng)數(shù)據(jù)非常簡(jiǎn)單,在技術(shù)上沒有任何難度,隨便一個(gè)爬蟲工程師就可以做到。有的開發(fā)者說,“不涉及到數(shù)據(jù)庫(kù),直接爬頁(yè)面就行了”、“可以批量處理,通常是機(jī)器+人工編輯”。

很多人好奇報(bào)道中稱馬蜂窩2100萬(wàn)條“真實(shí)點(diǎn)評(píng)”中,有1800萬(wàn)條都是通過機(jī)器人從競(jìng)品網(wǎng)站抄襲過來的,究竟是如何做到的。邦盛科技機(jī)器防御專家在接受媒體采訪時(shí)說,目前平臺(tái)均是通過網(wǎng)絡(luò)機(jī)器人技術(shù)從其他網(wǎng)站爬取信息,并抄襲到自己的平臺(tái)。當(dāng)前大部分的網(wǎng)絡(luò)機(jī)器人是通過直接發(fā)起http請(qǐng)求的方式獲取網(wǎng)頁(yè)資源,無(wú)js引擎,會(huì)進(jìn)行一定的偽裝,并使用動(dòng)態(tài)IP來躲避反爬蟲措施。隨著網(wǎng)站防護(hù)能力的不斷提升,網(wǎng)絡(luò)爬蟲會(huì)逐漸向?yàn)g覽器內(nèi)核型進(jìn)化,從而具備執(zhí)行js的能力,并進(jìn)一步的擬人化,增加被識(shí)別的難度。

目前,爬蟲技術(shù)已經(jīng)遍布網(wǎng)絡(luò),并且越是涉及個(gè)人切身利益的地方,越是布滿了爬蟲。

 

 

根據(jù)之前國(guó)外網(wǎng)絡(luò)安全公司的研究報(bào)告,50%左右的網(wǎng)絡(luò)流量來自網(wǎng)絡(luò)機(jī)器人,遍布各類網(wǎng)站,包括出行、社交、OTA、電商、招聘、銀行、政府等。

例如出行類中的12306票務(wù)信息被各類搶票軟件瘋狂地爬取,高峰時(shí)刻每天的訪問量達(dá)到千億次。在社交類中,通過網(wǎng)絡(luò)爬蟲技術(shù)可以指揮一幫網(wǎng)絡(luò)機(jī)器人關(guān)注某人的微博、公眾號(hào)等,進(jìn)行點(diǎn)贊、關(guān)注或者留言,制造大量的僵尸粉。在電商類中,比如在“比價(jià)平臺(tái)”“聚合電商”和“返利平臺(tái)”等平臺(tái)上,當(dāng)用戶搜索一個(gè)商品時(shí),這類聚合平臺(tái)會(huì)自動(dòng)把各個(gè)電商的商品都放在你面前供你選擇,同樣利用的是爬蟲技術(shù)。

此外,馬蜂窩所在的OTA領(lǐng)域同樣也是爬蟲重災(zāi)區(qū)。某大型互聯(lián)網(wǎng)公司運(yùn)營(yíng)總監(jiān)表示,盡管不知道馬蜂窩被指控的刷評(píng)行為是否屬實(shí),但業(yè)內(nèi)出現(xiàn)刷評(píng)行為的根本原因是出于競(jìng)爭(zhēng)壓力,是幾家在線旅游網(wǎng)站出于對(duì)UGC(用戶生成內(nèi)容)市場(chǎng)的爭(zhēng)奪,以及維護(hù)平臺(tái)活躍度的需要。

一位從事搜索引擎開發(fā)的創(chuàng)業(yè)者表示,從其他平臺(tái)抓數(shù)據(jù)的目的,就是為了制造流量很大的假象,但爬蟲抓數(shù)據(jù)的行為很容易識(shí)別,就看資本方盡調(diào)的時(shí)候是否嚴(yán)格。

2、反爬蟲技術(shù)

爬蟲與反爬蟲領(lǐng)域,一直是互聯(lián)網(wǎng)最激烈的對(duì)抗戰(zhàn)場(chǎng)之一。

目前,企業(yè)經(jīng)典的對(duì)抗方式大概有幾種:圖片驗(yàn)證碼、滑塊驗(yàn)證、封禁 IP、給訪問者增加一些加解密運(yùn)算,耗費(fèi)爬蟲的程序資源等等。除了這些小模塊,企業(yè)還可以通過 WAF(Web 應(yīng)用防火墻)來防護(hù),WAF的功能就是通過設(shè)置一些規(guī)則,攔截掉那些不符合規(guī)則的請(qǐng)求。

 

 

不過,隨著爬蟲技術(shù)的演進(jìn),常規(guī)的反爬蟲手段已經(jīng)無(wú)法有效阻止爬蟲的訪問。

據(jù)安全專家介紹,近年來通過多維度、多層次的檢測(cè),并輔以后端大數(shù)據(jù)分析來識(shí)別網(wǎng)絡(luò)機(jī)器人逐漸興起并成為主流。利用設(shè)備指紋技術(shù)從設(shè)備維度定位網(wǎng)絡(luò)機(jī)器人,人機(jī)識(shí)別技術(shù)從操作行為判別機(jī)器人點(diǎn)擊和自動(dòng)化點(diǎn)擊,而后端大數(shù)據(jù)實(shí)時(shí)分析技術(shù)可根據(jù)長(zhǎng)周期數(shù)據(jù)進(jìn)行復(fù)雜規(guī)則決策。綜合以上手段,可有效偵測(cè)爬蟲行為,保護(hù)網(wǎng)站的信息資產(chǎn)不被爬取和泄露。

此外,人工智能技術(shù)的加入讓這場(chǎng)對(duì)抗爬蟲的常規(guī)戰(zhàn)逐漸升級(jí)為“智能戰(zhàn)”,而且戰(zhàn)線向云端轉(zhuǎn)移。

此前,騰訊云鼎實(shí)驗(yàn)室通過深度學(xué)習(xí)技術(shù)對(duì)海量真實(shí)惡意爬蟲流量進(jìn)行分析,認(rèn)為將 AI 技術(shù)引入反爬蟲領(lǐng)域能起到極好的補(bǔ)充效果,將是未來此類對(duì)抗領(lǐng)域的趨勢(shì)所在。目前,騰訊云網(wǎng)站管家(WAF)聯(lián)合云鼎實(shí)驗(yàn)室基于海量真實(shí)爬蟲流量建立更為通用的爬蟲識(shí)別模型,已卓有成效。除了騰訊云,還有很多其他的云安全廠商,也開始主推反爬蟲的技術(shù)。

三、如何解決行業(yè)數(shù)據(jù)造假的普遍現(xiàn)狀?

事實(shí)上,任何新技術(shù)在引導(dǎo)行業(yè)變革時(shí),由于自由發(fā)展,最開始都會(huì)出現(xiàn)一片亂象。唯有相關(guān)法律法規(guī)的健全,才會(huì)對(duì)所有從業(yè)者行為有所規(guī)范,才會(huì)對(duì)行業(yè)的健康發(fā)展保駕護(hù)航。

目前,國(guó)家并沒有一項(xiàng)明確法律條文規(guī)定爬蟲刷屏是否違法。不過,由于搜索引擎的存在,所以爬取已經(jīng)允許公開的數(shù)據(jù)應(yīng)該是合法的。搜索引擎領(lǐng)域一直遵守的是Robots協(xié)議。搜索引擎的原理是通過一種爬蟲spider程序,自動(dòng)搜集互聯(lián)網(wǎng)上的網(wǎng)頁(yè)并獲取相關(guān)信息。而鑒于網(wǎng)絡(luò)安全與隱私的考慮,每個(gè)網(wǎng)站都會(huì)設(shè)置自己的Robots協(xié)議,來明示搜索引擎,哪些內(nèi)容是愿意和允許被搜索引擎收錄的,哪些則不允許。搜索引擎則會(huì)按照Robots協(xié)議給予的權(quán)限進(jìn)行抓取。Robots協(xié)議代表了一種契約精神,互聯(lián)網(wǎng)企業(yè)只有遵守這一規(guī)則,才能保證網(wǎng)站及用戶的隱私數(shù)據(jù)不被侵犯。

針對(duì)此次馬蜂窩事件,法律專家認(rèn)為,如果平臺(tái)方未經(jīng)允許把其他平臺(tái)的客戶評(píng)論扒來進(jìn)行商業(yè)化運(yùn)營(yíng),這顯然是違法行為。

一方面,內(nèi)容的作者是用戶,發(fā)表在平臺(tái)上就構(gòu)成了平臺(tái)的一部分。大量使用其他平臺(tái)未獲授權(quán)的內(nèi)容,而且還有競(jìng)爭(zhēng)關(guān)系,就構(gòu)成了對(duì)其他平臺(tái)的侵害,這違反了《反不正當(dāng)競(jìng)爭(zhēng)法》的第二條:經(jīng)營(yíng)者在生產(chǎn)經(jīng)營(yíng)活動(dòng)中,應(yīng)當(dāng)遵循自愿、平等、公平、誠(chéng)信的原則,遵守法律和商業(yè)道德。

另一方面,發(fā)布大量虛假信息,誤導(dǎo)消費(fèi)者,又違反了《消費(fèi)者權(quán)益保護(hù)法》中關(guān)于消費(fèi)者知情權(quán)的規(guī)定。該權(quán)益在一般情況下可由消費(fèi)者協(xié)會(huì)或者是工商管理部門來代替消費(fèi)者行使,可以依據(jù)相關(guān)規(guī)定對(duì)企業(yè)進(jìn)行查處。

另外,我們還能通過類似的事件來發(fā)現(xiàn)司法判決的要旨。2016年一審宣判的“大眾點(diǎn)評(píng)訴百度案”中,大眾點(diǎn)評(píng)以百度公司大量抄襲、復(fù)制自己點(diǎn)評(píng)信息的不正當(dāng)競(jìng)爭(zhēng)行為,向上海浦東新區(qū)法院提起訴訟。

根據(jù)判決書,法院在百度行為是否具有不正當(dāng)性的分析中提到,點(diǎn)評(píng)信息是核心資源之一,具有商業(yè)價(jià)值。“百度未對(duì)大眾點(diǎn)評(píng)網(wǎng)中的點(diǎn)評(píng)信息作出貢獻(xiàn),卻在百度地圖和百度知道中大量使用,其行為具有明顯的’搭便車’、’不勞而獲’的特點(diǎn)。”最終判定結(jié)果,可想而知是大眾點(diǎn)評(píng)勝訴,百度違反公認(rèn)的商業(yè)道德和誠(chéng)實(shí)信用原則,給大眾點(diǎn)評(píng)造成了實(shí)質(zhì)損害,構(gòu)成不正當(dāng)競(jìng)爭(zhēng)。2017年,百度的上訴被駁回,維持了原判。

回看此次馬蜂窩事件,如果案情最終能促使相關(guān)法律法規(guī)得以補(bǔ)充完善,該事件確實(shí)將如乎睿數(shù)據(jù)所說的振奮人心:“這個(gè)案子最終將決定未來中國(guó)二十年的互聯(lián)網(wǎng)走向”。

四、爬蟲集中所在地,最能反映社會(huì)問題

 

 

 

 

在這張爬蟲光顧top50公司排行榜里,除了google、Youtube、ask、亞洲航空這四家企業(yè)之外,其他全是中國(guó)企業(yè)或機(jī)關(guān)。

細(xì)看此圖,我們會(huì)非常輕易地找到這些企業(yè)或機(jī)關(guān)上榜原因;蛟S是因?yàn)閲?guó)內(nèi)東西地域發(fā)展不平衡、城鄉(xiāng)貧富懸殊太大、公共假期設(shè)置不合理等諸多原因,讓很多漂泊在外工作的人逢年過節(jié)買票回家成為難題,這才把12306推上爬蟲榜第一名;或許是我們的信用體系還不是很完善,騙子和老賴還可以繼續(xù)蒙騙新人,所以才催生了爬蟲收集法院公告,形成民間信用記錄的服務(wù),于是將“最高人民法院公告查詢”推上第八名;此外,由于良好的醫(yī)療資源分布不均導(dǎo)致的掛號(hào)難、看病難問題,催生的黃牛用爬蟲搶號(hào)現(xiàn)象問題有多么嚴(yán)峻,也在此表中有所表現(xiàn)。

爬蟲是趨利的,而爬蟲覺得有利益的地方,往往是我們不忍提及的隱痛。自不用說那些虛假?gòu)V告、沖榜刷量,背后都有爬蟲的影子。當(dāng)一個(gè)行業(yè)中所有人都在彼此心照不宣地爬取數(shù)據(jù)以作商用時(shí),我們無(wú)法因此斷言爬蟲技術(shù)有罪或者無(wú)罪。真正該反省的,或許應(yīng)該是制度是否合理、價(jià)值觀是否正確才對(duì)。

標(biāo)簽: Google 安全 大數(shù)據(jù) 大數(shù)據(jù)分析 大數(shù)據(jù)基礎(chǔ) 大型互聯(lián)網(wǎng)公司 電商 防火墻 互聯(lián)網(wǎng) 互聯(lián)網(wǎng)公司 互聯(lián)網(wǎng)企業(yè) 互聯(lián)網(wǎng)行業(yè) 開發(fā)者 媒體 權(quán)限 數(shù)據(jù)分析 數(shù)據(jù)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:超級(jí)大匯總!200多個(gè)最好的機(jī)器學(xué)習(xí)、NLP和Python教程

下一篇:怎樣更換UPS蓄電池