中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

《長安十二時辰》大案牘術(shù),并非“穿越版”的大數(shù)據(jù)!

2019-08-08    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

如果你有關(guān)注《長安十二時辰》,那你一定會知道“大案牘術(shù)”。不過,你知道“大案牘術(shù)”和我們常提到的大數(shù)據(jù)有什么區(qū)別嗎?

 

 

現(xiàn)在《長安十二時辰》正在優(yōu)酷熱播,發(fā)現(xiàn)這個連續(xù)劇跟大數(shù)據(jù)還有點關(guān)系,好多文章就以大數(shù)據(jù)為題進行了詮釋,比如《<長安十二時辰>中的IT技術(shù)》、《<長安十二時辰>,穿越版的大數(shù)據(jù)泄露事件》、《劉雨欣:唐代查案用“大數(shù)據(jù)”,<長安十二時辰>里的大案牘術(shù)可行嗎?》等等,而且不止一次提到了一個概念——大案牘術(shù)。

 

 

那么“大案牘術(shù)”是什么呢?

答案很簡單,就是我們天天掛在嘴邊的“大數(shù)據(jù)”,劇中靖安司徐賓的“大案牘術(shù)”其實就是以超強記憶力對長安各部門辦事文書進行記憶、歸納、整理,形成“大唐數(shù)據(jù)庫”,進而形成預(yù)判和解決方案。無論是破案調(diào)查找人,甚至預(yù)言未來。

案牘是中國古時候官府的公文案卷,大案牘更是凸顯重要的國家紀要,術(shù)則是代表方法能力?氨犬(dāng)今的大數(shù)據(jù)分析應(yīng)用能力。

 

 

開篇劇中易洋千璽扮演的李必犧牲了一名暗樁崔六郎,又從大牢中提出死囚張小敬,為解決此次長安大劫,答應(yīng)如果能破獲此案,便免去他的死罪,兩人都是“大案牘術(shù)”選出的最佳人選。

 

 

怎么選的?

在龐大的數(shù)據(jù)庫中,添加目標(biāo)的行為與特征等標(biāo)簽,分析出其喜好與習(xí)慣。“熟知當(dāng)?shù)睾诎椎酪?guī)矩”,三教九流皆有交集”,多種語言能力,“且有好勝心、有牽掛”、不想死”。這不就是大數(shù)據(jù)標(biāo)簽體系嗎?

現(xiàn)代意義上的大數(shù)據(jù),跟連續(xù)劇里的大數(shù)據(jù)有密切的聯(lián)系,比如都需要基于收集的數(shù)據(jù)進行客戶的洞察和未來的預(yù)測,但無論是從采集的數(shù)據(jù)規(guī)模、實現(xiàn)分析的方法、使用的算法及使用的工具上都具有天壤之別,這些往往決定了現(xiàn)代大數(shù)據(jù)的本質(zhì)。

筆者就用類比的方式,講講這部劇里的唐代原始大數(shù)據(jù)與現(xiàn)代大數(shù)據(jù)的區(qū)別,畢竟有比較就有鑒別,看看熱文牽強附會大數(shù)據(jù)一把無可非議,但如果能借此機會學(xué)習(xí)下什么才是現(xiàn)代意義上的大數(shù)據(jù),可能更有意義。

一、什么是大數(shù)據(jù)

1. 現(xiàn)代大數(shù)據(jù)

指無法在一定時間范圍內(nèi)用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。

2. 唐代大數(shù)據(jù)

以檔案登記為基礎(chǔ),無論是百姓家添丁新喪、婚配嫁娶之事,還是各個衙門機構(gòu)間的人員往來和調(diào)動,甚至連錢糧貨物流水,都會由錄入吏進行登記。

兩者的區(qū)別就在于現(xiàn)代意義上的大數(shù)據(jù),更多依靠的是海量的機器和傳感器無時不刻的自動記錄數(shù)據(jù),而唐代大數(shù)據(jù)僅靠官吏進行手工錄入,其不僅受限于人員數(shù)量,而且受限于有限的時間,這決定了其數(shù)據(jù)量的上限。

二、大數(shù)據(jù)的特點

1. 現(xiàn)代大數(shù)據(jù)

一般講有4個特點。

一是數(shù)據(jù)體量巨大。

比如百度資料表明,其新首頁導(dǎo)航每天需要提供的數(shù)據(jù)超過1.5PB(1PB=1024TB),這些數(shù)據(jù)如果打印出來將超過5千億張A4紙。

二是數(shù)據(jù)類型多樣。

現(xiàn)在的數(shù)據(jù)類型不僅是文本形式,更多的是圖片、視頻、音頻、地理位置信息等多類型的數(shù)據(jù),個性化數(shù)據(jù)占絕對多數(shù)。

三是處理速度快。

數(shù)據(jù)處理遵循“1秒定律”,可從各種類型的數(shù)據(jù)中快速獲得高價值的信息。比如在用戶瀏覽購物的時候進行商品的個性化實時推薦。

四是價值密度低。

以視頻為例,一小時的視頻,在不間斷的監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅只有一兩秒。

2. 唐代大數(shù)據(jù)

完全走向了反面。

一是數(shù)據(jù)體量極其有限。

有資料證實,到目前為止,人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量僅為200PB,唐代作為全世界一個國家中的一個朝代一個時期能記錄的數(shù)據(jù)量更是微乎其微。

二是數(shù)據(jù)類型非常單一。

大案牘術(shù)僅僅以檔案登記為基礎(chǔ),也就類似于現(xiàn)代的戶口登記數(shù)據(jù)。

三是處理速度很慢。

你看靖安司那么多人忙這忙那,因為卷宗到處都是,需要某個數(shù)據(jù)得靠人工一個個去找,要推理某個事情,還要靠人員超級的記憶力和邏輯推斷力,脫口而出的數(shù)字雖然代表敬業(yè),但顯然跟現(xiàn)代的機器處理速度不可同日而語。

 

 

四是價值密度相對高。

由于處理能力有限,靖安司只能記錄最重要的數(shù)據(jù),戶口登記數(shù)據(jù)即使在現(xiàn)代也是重要的數(shù)據(jù)類型之一,因此唐代大數(shù)據(jù)的價值密度肯定是很高的,否則就沒有斷案的可能了。

三、大數(shù)據(jù)的分析

大數(shù)據(jù)已經(jīng)不簡簡單單是數(shù)據(jù)大的事實了,而最重要的現(xiàn)實是對大數(shù)據(jù)進行分析,只有通過分析才能獲取很多智能的,深入的,有價值的信息。

1. 現(xiàn)代大數(shù)據(jù)

大數(shù)據(jù)的屬性,包括數(shù)量,速度,多樣性等等都是呈現(xiàn)了大數(shù)據(jù)不斷增長的復(fù)雜性,因此不大可能靠人去直接面對大數(shù)據(jù)進行分析,大數(shù)據(jù)的分析方法在大數(shù)據(jù)領(lǐng)域就顯得尤為重要,可以說是決定最終信息是否有價值的決定性因素。

先說說可視化分析。

大數(shù)據(jù)分析的使用者有大數(shù)據(jù)分析專家,同時還有普通用戶,但是他們二者對于大數(shù)據(jù)分析最基本的一個要求就是可視化分析,因為可視化分析能夠直觀的呈現(xiàn)大數(shù)據(jù)特點,非常容易被讀者所接受,就如同看圖說話一樣簡單明了,就是你平時接觸的PPT軟件,也可看成一種可視化分析軟件,更別提專業(yè)的商業(yè)智能(BI)軟件了。

 

 

再說說算法。

大數(shù)據(jù)分析極度依賴數(shù)據(jù)挖掘算法,各種數(shù)據(jù)挖掘的算法基于不同的數(shù)據(jù)類型和格式能更加科學(xué)的呈現(xiàn)出數(shù)據(jù)本身具備的特點,也正是因為這些被全世界統(tǒng)計學(xué)家所公認的各種統(tǒng)計方法才能深入數(shù)據(jù)內(nèi)部,挖掘出公認的價值,包括貝葉斯,SVM,回歸,決策樹,神經(jīng)網(wǎng)絡(luò),深度學(xué)習(xí)等等。

比如阿爾法狗基于深度學(xué)習(xí)算法來實現(xiàn)價值網(wǎng)絡(luò)(value network),可以預(yù)測棋盤上不同的分布會帶來什么不同的結(jié)果,因此,現(xiàn)在機器在圍棋上戰(zhàn)勝人類已經(jīng)不是事了。

 

 

2. 唐代大數(shù)據(jù)

《長安十二時辰》大案牘術(shù)這么描述辦案分析方法:

“等到辦案時,靖安司只需調(diào)閱相關(guān)卷宗進行預(yù)判和推測,便可以從數(shù)據(jù)與信息間發(fā)現(xiàn)諸多關(guān)聯(lián),進而找到破案的線索“,這里提到的預(yù)判、推測、關(guān)聯(lián)都是靠人,徐賓似乎成了分析之神。

但徐賓在分析上其實是個光桿司令,沒啥輔助工具。

唐代既沒有電腦,更不可能有可視化軟件,徐賓的分析推測首先要讓李必理解聽懂,但人對于聽的接受能力遠沒有看強,而同樣是看,人對于圖像的理解力比文字好太多了。

徐賓缺乏很好的洞察數(shù)據(jù)的手段和解釋數(shù)據(jù)的方法,因此如果要用圖形示意,估計就只能這么靠手工畫吧,效率之低可想而知。

 

 

徐賓不可能用到現(xiàn)代的算法,做預(yù)測或判斷靠的只能是自己的邏輯推理能力,但里面的可疑人物之所以能被推理出來是因為徐賓面臨的只是小數(shù)據(jù),涉及的要素不夠多,關(guān)系不夠復(fù)雜而已。

人對于二三維變量的關(guān)系還是能做些判斷,但一旦數(shù)據(jù)維度非常多,比如要你基于十維的數(shù)據(jù)找相互之間的關(guān)系,人的腦子估計就不夠用了,這個時候就要靠機器算法。

 

 

比如Palantir是美國著名的獨角獸反恐公司,Palantir的主要牛逼之處是在于可以多維度將不同來源的數(shù)據(jù)進行關(guān)聯(lián),特別是對非結(jié)構(gòu)化數(shù)據(jù)的關(guān)聯(lián)分析。

比如郵件、社交網(wǎng)絡(luò)信息、網(wǎng)絡(luò)日志信息,從而挖掘和展現(xiàn)出未知的相關(guān)關(guān)系,為決策提供依據(jù),其在本拉登的抓捕,麥道夫 “龐氏騙局”的發(fā)現(xiàn)中起到至關(guān)重要的作用。

 

 

唐代第一圍棋國手王積薪在那個時候可是所向披靡,但如果穿越到現(xiàn)代跟柯潔下,不知道要被讓多少個子,而柯杰對阿爾法狗的勝率可是0,具有強大算法能力的阿爾法狗在圍棋界是神一樣的存在。

當(dāng)然,現(xiàn)代大數(shù)據(jù)和人工智能算法目前的“通識”能力還是有限的,其對于環(huán)境的復(fù)雜性非常敏感,只能專一的做某件事,能夠把某件事做到極致,比如純粹的下棋,人臉識別,商品推薦等等。

假如涉及到復(fù)雜的決策環(huán)境,比如在無邊界,數(shù)據(jù)完整性不夠的情況下的斷案,那福爾摩斯、徐賓依靠人類進化而來的的邏輯大腦可以做出更為明智的判斷。

但一旦判斷方向準確,算法就可以起到強大的輔助作用,比如DNA檢測等等,遺憾的是,徐賓在那個時候只能孤身作戰(zhàn),如果徐賓穿越到現(xiàn)代,一定可以依靠算法的協(xié)助讓其決策水平更上一層樓,兩者是相輔相成的。

四、大數(shù)據(jù)的技術(shù)

從數(shù)據(jù)采集看,現(xiàn)代大數(shù)據(jù)的數(shù)據(jù)采集依托專業(yè)的ETL工具,將分布在各處的異構(gòu)數(shù)據(jù)抽取到臨時中間層后進行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉庫或數(shù)據(jù)集市中,成為數(shù)據(jù)挖掘的基礎(chǔ),而且實時性越來越高。

而唐代大數(shù)據(jù)的采集是這么記錄的:“各縣配備錄入吏,該縣百姓的添丁新喪、婚配嫁娶、買賣奴婢,衙門之間的人員往來、人事變動、車馬糧草、征收賦稅等一切事務(wù),將被錄入吏一一查證,悉數(shù)記錄到案牘中。”

最大特征就是靠人工紙質(zhì)記錄,效率之低可想而知,比如每個人記錄的標(biāo)準可能不統(tǒng)一,因此無法保證數(shù)據(jù)質(zhì)量,比如在錄入的時候無法快速的判斷重復(fù),無法方便的實現(xiàn)紙質(zhì)的案牘修改功能,又比如寫錯了怎么辦等等。

從數(shù)據(jù)處理看,現(xiàn)代大數(shù)據(jù)用分布式架構(gòu)來解決海量數(shù)據(jù)的計算瓶頸,也就是能夠自動把一個針對海量數(shù)據(jù)的計算任務(wù)拆成多個子數(shù)據(jù)任務(wù),然后多個子任務(wù)并行計算,最后再自動匯總,這樣就可以實現(xiàn)處理速度的飛躍。

而唐代大數(shù)據(jù)的數(shù)據(jù)處理估計還是以人工集中式的為主,比如徐賓要統(tǒng)計某天進入長安城的人數(shù),肯定得安排一個下屬找到對應(yīng)的冊子去一個個數(shù)吧,而這個數(shù)的過程是無法交給不同人處理的,如果要分布式處理,則也是非常麻煩。

 

 

首先,要有人負責(zé)把本子平均拆成多份,其次,根據(jù)份數(shù)安排對應(yīng)的人分別去統(tǒng)計,最后,還要有人匯總記錄各人統(tǒng)計的結(jié)果,如果某個人能力差點統(tǒng)計的慢一點,所有人都要等那個人的結(jié)果,總體耗費的時間可能更長,這個管理成本是非常高的,而現(xiàn)在大數(shù)據(jù)分布式處理能基于算法自動高效的完成這種資源分配及協(xié)調(diào)問題。

從數(shù)據(jù)存儲看,現(xiàn)代大數(shù)據(jù)不僅能基于關(guān)系型數(shù)據(jù)庫存儲類似名字,籍貫等結(jié)構(gòu)化數(shù)據(jù),也能用NOSQL等數(shù)據(jù)庫存儲圖像,視頻等非結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)存儲于數(shù)據(jù)庫中非常方便檢索,而唐代大數(shù)據(jù)則只能存儲于紙質(zhì)書中,存儲的數(shù)量還受限于紙張印刷量。

大家也看到了,因為大案牘術(shù)記錄卷宗需要大量的紙張,但唐朝的藤紙相當(dāng)匱乏,所以徐賓將每月的俸銀都用來買書做造紙坊了,可見唐代要存儲數(shù)據(jù)是多么不容易的事情啊。

 

 

五、大數(shù)據(jù)的應(yīng)用

唐代大數(shù)據(jù)展示給我們最大的應(yīng)用就是“大案牘術(shù)”,也就是在司法、安全、民生領(lǐng)域基于大數(shù)據(jù)做決策判斷,為社會穩(wěn)定做出貢獻,但現(xiàn)代大數(shù)據(jù)的應(yīng)用領(lǐng)域可遠遠超越了這個范疇,而且重點集中在互聯(lián)網(wǎng)、金融等新興領(lǐng)域,下面舉一些例子:

在互聯(lián)網(wǎng)領(lǐng)域,我們每天接受到的廣告就是最大的一類大數(shù)據(jù)應(yīng)用。

 

 

 

 

在金融領(lǐng)域,風(fēng)控大數(shù)據(jù)始終是應(yīng)用的焦點,比如大家接觸到的芝麻信用分算是其中很小的一個應(yīng)用。

 

 

當(dāng)然還有醫(yī)療行業(yè)的電腦醫(yī)生、交通行業(yè)的自動駕駛、工業(yè)上的個性制造、體育行業(yè)的運動員大數(shù)據(jù)分析、能源行業(yè)的用電預(yù)測、通信行業(yè)的客戶挽留等等,大數(shù)據(jù)已經(jīng)滲透進每個人的生活。

以上筆者以《長安十二時辰》為例子,簡單的對比了下現(xiàn)代大數(shù)據(jù)與唐代大數(shù)據(jù)的區(qū)別,涵蓋了大數(shù)據(jù)概念、分析、技術(shù)、應(yīng)用等各個方面,但現(xiàn)代大數(shù)據(jù)與唐代大數(shù)據(jù)其實是沒有可比性的,因為基礎(chǔ)完全不一樣。

現(xiàn)代大數(shù)據(jù)是建構(gòu)在近現(xiàn)代科技基礎(chǔ)上,特別是信息時代的新數(shù)學(xué)和新方法論、電子計算機、互聯(lián)網(wǎng)、通信網(wǎng)等等,筆者所以這么比較,只是為了更方便的說清楚大數(shù)據(jù)的一些概念。

當(dāng)然如果換個角度,脫離“術(shù)”的范疇,那《長安十二時辰》中有兩點大數(shù)據(jù)的做法是發(fā)人深省的,也是當(dāng)前大數(shù)據(jù)發(fā)展中的難點:

第一,唐代建立了靖安司這個集中化的數(shù)據(jù)管理組織。

靖安司為唐玄宗設(shè)定的統(tǒng)攝整個西都賊事策防的機構(gòu),凌駕于諸署之上,負責(zé)收集來自全國各地的信息收集和傳遞。靖安司內(nèi)有個龐大的庫房,堆積著從三省六部、一臺九寺五監(jiān)的機密要件 。這不就是一個全國性的數(shù)據(jù)倉庫嗎?

 

 

孤立的一個數(shù)據(jù)的價值是極其有限的,大數(shù)據(jù)必須打破孤島,集中起來才能辦大事,所謂1+1>2,比如徐賓做推測是要綜合多個要素相互驗證才能使得做出的結(jié)論合情合理,因此,打破數(shù)據(jù)邊界是現(xiàn)代數(shù)據(jù)管理者的一個使命!

第二,人員檔案、用戶行為數(shù)據(jù)搜集的完整性令人瞠目。

靖安司建設(shè)了相關(guān)應(yīng)用,例如人員檔案。徐賓在被懷疑后,就被用大案牘術(shù)推演了個人戶籍、軌跡、行為信息。他的出身、房產(chǎn)變動、妻子的勞動關(guān)系、異常行為等等都記錄詳盡,被李必查了個底兒掉。

其中記錄的信息之詳盡,包括你去哪個酒吧喝的什么酒、與誰喝酒、誰付的錢這些,恐怕放在今日,都難有人能做到這么詳實的記錄,堪稱人口管理工作模板。

 

 

顯然上述描述過于夸張了,但這似乎是現(xiàn)代大數(shù)據(jù)所希望能達到的境界,我們也許遲早會處于一個現(xiàn)代天網(wǎng)之下,這到底是好事還是壞事呢,就看管理者的智慧了吧!

《長安十二時辰》在提供給大家賞心悅目的劇情和華麗的畫面之余,如果能普及點大數(shù)據(jù)知識,也算是很有意義的事情,歡迎大家閱讀評論!

作者:傅一平,來源:與數(shù)據(jù)同行

標(biāo)簽: 大案牘術(shù) 大數(shù)據(jù)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:BAT 程序員們常用的開發(fā)工具

下一篇:簡述Hadoop之后大數(shù)據(jù)的未來在誰的身上