中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

數(shù)據(jù)造假、爬蟲與反爬蟲戰(zhàn)爭暴露出哪些行業(yè)現(xiàn)狀?

2018-11-02    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

一、馬蜂窩“造假門”事件所暴露的行業(yè)潛規(guī)則

上周,估值據(jù)傳已高達25億美元、新一輪融資接近尾聲的明星獨角獸公司馬蜂窩陷入了數(shù)據(jù)造假丑聞。一個由3名年輕海龜組成不足1年、名不見經(jīng)傳的乎睿數(shù)據(jù)把馬蜂窩涉嫌數(shù)據(jù)造假的行為逐條拎出來在社交媒體上傳播。根據(jù)乎睿數(shù)據(jù)團隊提供的信息,馬蜂窩2100萬條真實點評中,有1800萬條是通過機器人抄襲自點評、攜程等競爭對手;其在馬蜂窩上發(fā)現(xiàn)了7454個抄襲賬號,平均每個賬號從攜程、藝龍、美團、Agoda、Yelp上抄襲搬運了數(shù)千條點評,占到馬蜂窩官網(wǎng)聲稱總點評數(shù)的85%。而馬蜂窩則發(fā)表聲明稱乎睿數(shù)據(jù)“歪曲事實”,屬于“有組織攻擊行為”,已起訴該公司并獲得立案。同時,乎睿數(shù)據(jù)回應(yīng),目前已掌握大量證據(jù),期待法院作出的公正裁決,因為“這個案子最終將決定未來中國二十年的互聯(lián)網(wǎng)走向”。

 

 

本次事件的雙方你來我往數(shù)個回合,一個認(rèn)為自己鐵證如山,一個咬定“明顯抹黑”,唯獨真正的“受害者”——被“抄襲”了數(shù)據(jù)的攜程、去哪兒等企業(yè)集體陷入沉默。因為當(dāng)前數(shù)據(jù)造假、爬蟲刷屏是司空見慣的行為,已成為互聯(lián)網(wǎng)行業(yè)的客觀現(xiàn)狀,攜程、去哪兒自身的用戶點評數(shù)據(jù)來源都難以解釋清楚。目前,案件最終結(jié)果尚未定論,但司法界人士認(rèn)為,馬蜂窩訴乎睿數(shù)據(jù)的案子具有典型意義。該案件一方面反應(yīng)了當(dāng)下企業(yè)對于大數(shù)據(jù)基礎(chǔ)性資源的激烈爭奪,另一方面也暴露出我國在數(shù)據(jù)權(quán)責(zé)安全相關(guān)的法制法規(guī)建設(shè)上亟待加強。

二、“潛規(guī)則”背后的技術(shù):網(wǎng)絡(luò)爬蟲與反爬蟲

1、網(wǎng)絡(luò)爬蟲技術(shù)

爬蟲最早源于搜索引擎,它是一種按照一定的規(guī)則,自動從互聯(lián)網(wǎng)上抓取信息的程序,又被稱為爬蟲,網(wǎng)絡(luò)機器人等。按爬蟲功能可以分為網(wǎng)絡(luò)爬蟲和接口爬蟲,按授權(quán)情況可以分為合法爬蟲和惡意爬蟲。如今數(shù)據(jù)資源越來越珍貴,利用爬蟲技術(shù)爬取有價值的數(shù)據(jù),成為很多公司彌補自身先天數(shù)據(jù)短板、提高自身估值的不二選擇。

針對此次馬蜂窩事件,很多開發(fā)者承認(rèn),從其他網(wǎng)站或APP上抓取點評數(shù)據(jù)非常簡單,在技術(shù)上沒有任何難度,隨便一個爬蟲工程師就可以做到。有的開發(fā)者說,“不涉及到數(shù)據(jù)庫,直接爬頁面就行了”、“可以批量處理,通常是機器+人工編輯”。

很多人好奇報道中稱馬蜂窩2100萬條“真實點評”中,有1800萬條都是通過機器人從競品網(wǎng)站抄襲過來的,究竟是如何做到的。邦盛科技機器防御專家在接受媒體采訪時說,目前平臺均是通過網(wǎng)絡(luò)機器人技術(shù)從其他網(wǎng)站爬取信息,并抄襲到自己的平臺。當(dāng)前大部分的網(wǎng)絡(luò)機器人是通過直接發(fā)起http請求的方式獲取網(wǎng)頁資源,無js引擎,會進行一定的偽裝,并使用動態(tài)IP來躲避反爬蟲措施。隨著網(wǎng)站防護能力的不斷提升,網(wǎng)絡(luò)爬蟲會逐漸向瀏覽器內(nèi)核型進化,從而具備執(zhí)行js的能力,并進一步的擬人化,增加被識別的難度。

目前,爬蟲技術(shù)已經(jīng)遍布網(wǎng)絡(luò),并且越是涉及個人切身利益的地方,越是布滿了爬蟲。

 

 

根據(jù)之前國外網(wǎng)絡(luò)安全公司的研究報告,50%左右的網(wǎng)絡(luò)流量來自網(wǎng)絡(luò)機器人,遍布各類網(wǎng)站,包括出行、社交、OTA、電商、招聘、銀行、政府等。

例如出行類中的12306票務(wù)信息被各類搶票軟件瘋狂地爬取,高峰時刻每天的訪問量達到千億次。在社交類中,通過網(wǎng)絡(luò)爬蟲技術(shù)可以指揮一幫網(wǎng)絡(luò)機器人關(guān)注某人的微博、公眾號等,進行點贊、關(guān)注或者留言,制造大量的僵尸粉。在電商類中,比如在“比價平臺”“聚合電商”和“返利平臺”等平臺上,當(dāng)用戶搜索一個商品時,這類聚合平臺會自動把各個電商的商品都放在你面前供你選擇,同樣利用的是爬蟲技術(shù)。

此外,馬蜂窩所在的OTA領(lǐng)域同樣也是爬蟲重災(zāi)區(qū)。某大型互聯(lián)網(wǎng)公司運營總監(jiān)表示,盡管不知道馬蜂窩被指控的刷評行為是否屬實,但業(yè)內(nèi)出現(xiàn)刷評行為的根本原因是出于競爭壓力,是幾家在線旅游網(wǎng)站出于對UGC(用戶生成內(nèi)容)市場的爭奪,以及維護平臺活躍度的需要。

一位從事搜索引擎開發(fā)的創(chuàng)業(yè)者表示,從其他平臺抓數(shù)據(jù)的目的,就是為了制造流量很大的假象,但爬蟲抓數(shù)據(jù)的行為很容易識別,就看資本方盡調(diào)的時候是否嚴(yán)格。

2、反爬蟲技術(shù)

爬蟲與反爬蟲領(lǐng)域,一直是互聯(lián)網(wǎng)最激烈的對抗戰(zhàn)場之一。

目前,企業(yè)經(jīng)典的對抗方式大概有幾種:圖片驗證碼、滑塊驗證、封禁 IP、給訪問者增加一些加解密運算,耗費爬蟲的程序資源等等。除了這些小模塊,企業(yè)還可以通過 WAF(Web 應(yīng)用防火墻)來防護,WAF的功能就是通過設(shè)置一些規(guī)則,攔截掉那些不符合規(guī)則的請求。

 

 

不過,隨著爬蟲技術(shù)的演進,常規(guī)的反爬蟲手段已經(jīng)無法有效阻止爬蟲的訪問。

據(jù)安全專家介紹,近年來通過多維度、多層次的檢測,并輔以后端大數(shù)據(jù)分析來識別網(wǎng)絡(luò)機器人逐漸興起并成為主流。利用設(shè)備指紋技術(shù)從設(shè)備維度定位網(wǎng)絡(luò)機器人,人機識別技術(shù)從操作行為判別機器人點擊和自動化點擊,而后端大數(shù)據(jù)實時分析技術(shù)可根據(jù)長周期數(shù)據(jù)進行復(fù)雜規(guī)則決策。綜合以上手段,可有效偵測爬蟲行為,保護網(wǎng)站的信息資產(chǎn)不被爬取和泄露。

此外,人工智能技術(shù)的加入讓這場對抗爬蟲的常規(guī)戰(zhàn)逐漸升級為“智能戰(zhàn)”,而且戰(zhàn)線向云端轉(zhuǎn)移。

此前,騰訊云鼎實驗室通過深度學(xué)習(xí)技術(shù)對海量真實惡意爬蟲流量進行分析,認(rèn)為將 AI 技術(shù)引入反爬蟲領(lǐng)域能起到極好的補充效果,將是未來此類對抗領(lǐng)域的趨勢所在。目前,騰訊云網(wǎng)站管家(WAF)聯(lián)合云鼎實驗室基于海量真實爬蟲流量建立更為通用的爬蟲識別模型,已卓有成效。除了騰訊云,還有很多其他的云安全廠商,也開始主推反爬蟲的技術(shù)。

三、如何解決行業(yè)數(shù)據(jù)造假的普遍現(xiàn)狀?

事實上,任何新技術(shù)在引導(dǎo)行業(yè)變革時,由于自由發(fā)展,最開始都會出現(xiàn)一片亂象。唯有相關(guān)法律法規(guī)的健全,才會對所有從業(yè)者行為有所規(guī)范,才會對行業(yè)的健康發(fā)展保駕護航。

目前,國家并沒有一項明確法律條文規(guī)定爬蟲刷屏是否違法。不過,由于搜索引擎的存在,所以爬取已經(jīng)允許公開的數(shù)據(jù)應(yīng)該是合法的。搜索引擎領(lǐng)域一直遵守的是Robots協(xié)議。搜索引擎的原理是通過一種爬蟲spider程序,自動搜集互聯(lián)網(wǎng)上的網(wǎng)頁并獲取相關(guān)信息。而鑒于網(wǎng)絡(luò)安全與隱私的考慮,每個網(wǎng)站都會設(shè)置自己的Robots協(xié)議,來明示搜索引擎,哪些內(nèi)容是愿意和允許被搜索引擎收錄的,哪些則不允許。搜索引擎則會按照Robots協(xié)議給予的權(quán)限進行抓取。Robots協(xié)議代表了一種契約精神,互聯(lián)網(wǎng)企業(yè)只有遵守這一規(guī)則,才能保證網(wǎng)站及用戶的隱私數(shù)據(jù)不被侵犯。

針對此次馬蜂窩事件,法律專家認(rèn)為,如果平臺方未經(jīng)允許把其他平臺的客戶評論扒來進行商業(yè)化運營,這顯然是違法行為。

一方面,內(nèi)容的作者是用戶,發(fā)表在平臺上就構(gòu)成了平臺的一部分。大量使用其他平臺未獲授權(quán)的內(nèi)容,而且還有競爭關(guān)系,就構(gòu)成了對其他平臺的侵害,這違反了《反不正當(dāng)競爭法》的第二條:經(jīng)營者在生產(chǎn)經(jīng)營活動中,應(yīng)當(dāng)遵循自愿、平等、公平、誠信的原則,遵守法律和商業(yè)道德。

另一方面,發(fā)布大量虛假信息,誤導(dǎo)消費者,又違反了《消費者權(quán)益保護法》中關(guān)于消費者知情權(quán)的規(guī)定。該權(quán)益在一般情況下可由消費者協(xié)會或者是工商管理部門來代替消費者行使,可以依據(jù)相關(guān)規(guī)定對企業(yè)進行查處。

另外,我們還能通過類似的事件來發(fā)現(xiàn)司法判決的要旨。2016年一審宣判的“大眾點評訴百度案”中,大眾點評以百度公司大量抄襲、復(fù)制自己點評信息的不正當(dāng)競爭行為,向上海浦東新區(qū)法院提起訴訟。

根據(jù)判決書,法院在百度行為是否具有不正當(dāng)性的分析中提到,點評信息是核心資源之一,具有商業(yè)價值。“百度未對大眾點評網(wǎng)中的點評信息作出貢獻,卻在百度地圖和百度知道中大量使用,其行為具有明顯的’搭便車’、’不勞而獲’的特點。”最終判定結(jié)果,可想而知是大眾點評勝訴,百度違反公認(rèn)的商業(yè)道德和誠實信用原則,給大眾點評造成了實質(zhì)損害,構(gòu)成不正當(dāng)競爭。2017年,百度的上訴被駁回,維持了原判。

回看此次馬蜂窩事件,如果案情最終能促使相關(guān)法律法規(guī)得以補充完善,該事件確實將如乎睿數(shù)據(jù)所說的振奮人心:“這個案子最終將決定未來中國二十年的互聯(lián)網(wǎng)走向”。

四、爬蟲集中所在地,最能反映社會問題

 

 

 

 

在這張爬蟲光顧top50公司排行榜里,除了google、Youtube、ask、亞洲航空這四家企業(yè)之外,其他全是中國企業(yè)或機關(guān)。

細看此圖,我們會非常輕易地找到這些企業(yè)或機關(guān)上榜原因;蛟S是因為國內(nèi)東西地域發(fā)展不平衡、城鄉(xiāng)貧富懸殊太大、公共假期設(shè)置不合理等諸多原因,讓很多漂泊在外工作的人逢年過節(jié)買票回家成為難題,這才把12306推上爬蟲榜第一名;或許是我們的信用體系還不是很完善,騙子和老賴還可以繼續(xù)蒙騙新人,所以才催生了爬蟲收集法院公告,形成民間信用記錄的服務(wù),于是將“最高人民法院公告查詢”推上第八名;此外,由于良好的醫(yī)療資源分布不均導(dǎo)致的掛號難、看病難問題,催生的黃牛用爬蟲搶號現(xiàn)象問題有多么嚴(yán)峻,也在此表中有所表現(xiàn)。

爬蟲是趨利的,而爬蟲覺得有利益的地方,往往是我們不忍提及的隱痛。自不用說那些虛假廣告、沖榜刷量,背后都有爬蟲的影子。當(dāng)一個行業(yè)中所有人都在彼此心照不宣地爬取數(shù)據(jù)以作商用時,我們無法因此斷言爬蟲技術(shù)有罪或者無罪。真正該反省的,或許應(yīng)該是制度是否合理、價值觀是否正確才對。

標(biāo)簽: Google 安全 大數(shù)據(jù) 大數(shù)據(jù)分析 大數(shù)據(jù)基礎(chǔ) 大型互聯(lián)網(wǎng)公司 電商 防火墻 互聯(lián)網(wǎng) 互聯(lián)網(wǎng)公司 互聯(lián)網(wǎng)企業(yè) 互聯(lián)網(wǎng)行業(yè) 開發(fā)者 媒體 權(quán)限 數(shù)據(jù)分析 數(shù)據(jù)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:超級大匯總!200多個最好的機器學(xué)習(xí)、NLP和Python教程

下一篇:怎樣更換UPS蓄電池