中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

高技能人才或是未來 5-10 年大數(shù)據(jù)發(fā)展的最大瓶頸

2019-10-29    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

大數(shù)據(jù)無疑是當(dāng)下最流行的熱詞和前沿技術(shù)之一。本質(zhì)上,大數(shù)據(jù)具有三大類特征:快速、海量和復(fù)雜,大多數(shù)公司都在經(jīng)歷著這三大特征的各種形態(tài)組合。目前,這些特征中,還存在很多較難以解決的挑戰(zhàn),諸如處理數(shù)據(jù)流中的丟失、重復(fù)問題,數(shù)據(jù)質(zhì)量參差不齊,數(shù)據(jù)存儲成本高,大數(shù)據(jù)人才缺乏等。在本文中,我們將對“大數(shù)據(jù)”的問題進(jìn)行拆分,是什么使大數(shù)據(jù)充滿挑戰(zhàn),以及現(xiàn)在我們?nèi)绾斡米钚碌姆椒ń鉀Q這些問題。

本文最初發(fā)布于 Towards Data Science 網(wǎng)站,作者:Gary Cheung 譯者:MQ 譯文來源:InfoQ

在本文中,我們將對“大數(shù)據(jù)”的問題進(jìn)行拆分,是什么使大數(shù)據(jù)充滿挑戰(zhàn),以及現(xiàn)在我們?nèi)绾谓鉀Q這些問題。大數(shù)據(jù)一度成為流行語,但本質(zhì)上它是指具備這三大類特征的數(shù)據(jù):快速,海量和復(fù)雜。讓我們仔細(xì)研究下這些特征,舉一些例子,看看如何用最新的方法解決這些難題。

“大數(shù)據(jù)是描述海量的高速、復(fù)雜和多變數(shù)據(jù)的一個術(shù)語,這些數(shù)據(jù)需要結(jié)合先進(jìn)的技能和技術(shù)來實現(xiàn)信息的捕獲、存儲、分發(fā)、管理和分析”( TechAmerica Foundation’s Federal Big Data Commission, 2012 )

 

 

高速的數(shù)據(jù)

高速的數(shù)據(jù)指什么?高速的數(shù)據(jù)指在短時間內(nèi)產(chǎn)生的大量的數(shù)據(jù)。比如汽車工廠的傳感器數(shù)據(jù),溫度監(jiān)測器,飛行儀表等產(chǎn)生的數(shù)據(jù)。

高速數(shù)據(jù)通常被認(rèn)為是實時的或是準(zhǔn)實時的數(shù)據(jù)流。數(shù)據(jù)流本質(zhì)上是在生成后就發(fā)給處理器的數(shù)據(jù)包(比如天線收到的電視信號或是通過固話傳輸?shù)恼Z音電話)。實時數(shù)據(jù)的定義值得深入討論,但是它本質(zhì)上可以歸結(jié)為需要在毫秒內(nèi)被更新的數(shù)據(jù)。處理數(shù)據(jù)流有很多挑戰(zhàn),包括在采集時不丟失數(shù)據(jù)、處理數(shù)據(jù)流中的重復(fù)記錄、流數(shù)據(jù)與更大的歷史數(shù)據(jù)集集成、以及進(jìn)行實時分析。

傳統(tǒng)的數(shù)據(jù)流服務(wù)比如 Rabbit MQ 和 Active MQ 只在單節(jié)點上運行因此收到了服務(wù)器能力的限制。Apache Kafka 引入了分布式流服務(wù)的概念,使得數(shù)據(jù)流可以分散到多個節(jié)點(服務(wù)器)上。這實現(xiàn)了高吞吐的流處理,每秒能達(dá)到數(shù)百萬條。隨著服務(wù)向云上的遷移,開發(fā)者不用再管理底層的硬件。亞馬遜的 Kinesis 和谷歌的 Pub/Sub 將后方的服務(wù)器完全抽離,使開發(fā)者能夠更專注于業(yè)務(wù)邏輯和數(shù)據(jù)。

ELK 是常用的在流式數(shù)據(jù)上作實時分析的技術(shù)棧。ELK 由多個工具組成,用 Log Stash 將多種數(shù)據(jù)源的數(shù)據(jù)傳輸進(jìn) Elastic Search(ES)。在 ES 中存儲的數(shù)據(jù)可以輕松的通過特定的短語和關(guān)鍵詞檢索到。Kibana 是 ES 最上層的工具,它在數(shù)據(jù)流入時就能進(jìn)行實時分析,用戶可以通過它來查詢數(shù)據(jù)、為數(shù)據(jù)創(chuàng)建度量。

海量數(shù)據(jù)

“大數(shù)據(jù)”的第二個

特征是數(shù)據(jù)量足夠大。

典型的例如一個包含頂級投資銀行 20 年股票交易歷史的超大數(shù)據(jù)集,20 年間所有信用卡的交易記錄,或是熱門網(wǎng)站(如 buzz feed)的用戶交互信息等。通常這些數(shù)據(jù)都會在 TB 甚至 PB 量級。

 

 

處理超大數(shù)據(jù)集通常會受到存儲和處理數(shù)據(jù)的計算資源的限制。通常一塊商用硬盤可以容納 1TB 的數(shù)據(jù)量。有些數(shù)據(jù)集能有好多 PB(相當(dāng)于上千塊硬盤的容量)。這些數(shù)據(jù)需要在數(shù)據(jù)中心內(nèi)跨多個服務(wù)器(或傳統(tǒng)的 RAID 盤)存儲。除此之外,處理這些數(shù)據(jù)也需要大量的物理內(nèi)存和 CPU。

Hadoop(一個開源分布式大數(shù)據(jù)處理生態(tài))的出現(xiàn)一定程度上降低了數(shù)據(jù)處理的成本。這套系統(tǒng)的核心是 Hive,一種能像數(shù)據(jù)庫一樣存儲數(shù)據(jù)的類 SQL 處理系統(tǒng)。數(shù)據(jù)處理在商用硬件上進(jìn)行,使用 Map-Reduce 算法(專門為分布式處理設(shè)計的算法)。這些服務(wù)器通常被存放在數(shù)據(jù)中心。但是,管理維護(hù)數(shù)據(jù)中心和 Hadoop 套件的成本非常高。

但最近,很多的存儲和處理都轉(zhuǎn)移到了云上,比如 Amazon Web Service (AWS) 和 Google Cloud Platform (GCP) 這些主流玩家。AWS 和 GCP 都提供受管理的 map reduce 或 spark 服務(wù)(AWS Elastic Map Reduce 以及 GCP Cloud data proc)。他們也提供大規(guī)?蓴U展的數(shù)據(jù)庫服務(wù)(分別是 Google Big Query 和 AWS Redshift),能為 PB 級的數(shù)據(jù)集提供關(guān)系型數(shù)據(jù)庫服務(wù)。這些解決方案最大的優(yōu)點是用戶不用管理底層的硬件,可以專注于更重要的任務(wù),如存儲 / 移動數(shù)據(jù)或者是寫 SQL。這個生態(tài)中的典型玩家是 Snowflake,在 AWS 中提供即買即用的數(shù)據(jù)處理服務(wù)。

復(fù)雜數(shù)據(jù)

“大數(shù)據(jù)”的第三個特征是復(fù)雜。在解釋什么造成了數(shù)據(jù)的復(fù)雜性前,我先講下理想的數(shù)據(jù)集是什么樣的。理想的數(shù)據(jù)集有預(yù)先定義的 schema,每種數(shù)據(jù)類型(string, number, date)都有定義好的主鍵,以及完善的數(shù)據(jù)字典。數(shù)據(jù)集中沒有重復(fù),所有的值都是精準(zhǔn)的。

復(fù)雜數(shù)據(jù)的概念和理想數(shù)據(jù)完全相反。所有數(shù)據(jù)集都有一定的復(fù)雜性,但有一些天生更難處理。通常這些復(fù)雜數(shù)據(jù)集沒有定義結(jié)構(gòu)(沒有行列結(jié)構(gòu)),經(jīng)常變化,數(shù)據(jù)質(zhì)量很差或沒有記錄。

 

 

比如人工輸入的醫(yī)生的筆記、博客的文字、時刻更新的網(wǎng)頁日志以及深嵌套的 XML 或 JSON 文件。

為復(fù)雜數(shù)據(jù)做快速標(biāo)注時,大多數(shù)不好的數(shù)據(jù)應(yīng)該在源頭就進(jìn)行識別。數(shù)據(jù)工程師需要構(gòu)建足夠強壯的系統(tǒng)來快速獲取和過濾這些數(shù)據(jù)集,但是這些數(shù)據(jù)最終還是要在源頭糾正。此外,如果可以,我們建議在數(shù)據(jù)產(chǎn)生的源頭定好 SLA 來減少低質(zhì)量的數(shù)據(jù),使數(shù)據(jù)更好管理。

處理復(fù)雜數(shù)據(jù)集,讓它們能遵從整潔的格式需要下很大的功夫。每種數(shù)據(jù)質(zhì)量問題都需要區(qū)別處理,比如記錄重復(fù)、主鍵缺失、字符 / 字符串的格式錯誤等。

有很多工具可以用來處理這種數(shù)據(jù)。通常數(shù)據(jù)科學(xué)家和工程師會用 Jupyter notebook 以及 Pandas 或 Spark 來處理、分析、可視化這些數(shù)據(jù)集。Jupyter 為開發(fā)者提供了交互式的環(huán)境使他們能在代碼中逐行遍歷數(shù)據(jù)集,從而節(jié)省很多時間。Databricks 也提供了非常好的數(shù)據(jù)處理和分析環(huán)境,包含了一個類似 Jupyter notebook 的 UI、獨有的 Spark 特性、以及簡單易用的節(jié)點管理能力。

還有很多第三方的工具,比如 Trifacta,能夠自動進(jìn)行一些數(shù)據(jù)清洗任務(wù),通過提供 UI 和非常好的功能代替完全手寫的數(shù)據(jù)清洗代碼,來加速清洗和分析任務(wù)。Google Cloud 在 GCP 中提供了這個工具 cloud Data Prep。

小結(jié)

可以看出,這些特征中的任何一個挑戰(zhàn)都很難解決。但是,大多數(shù)的公司都經(jīng)歷著這三種問題的各種形態(tài)組合。挑戰(zhàn)變得更龐大了,這需要衡量不同的工具和方法來解決他們特定的問題。

向云服務(wù)的轉(zhuǎn)移很大程度上降低了處理和管理大數(shù)據(jù)的壁壘,公司不再需要建設(shè)數(shù)據(jù)中心并且花大量的預(yù)算在專用軟件上。但是招聘懂得如何使用正確的工具來處理大數(shù)據(jù)問題的人才仍然是個難題。

降低大數(shù)據(jù)使用門檻的下一步是利用機器學(xué)習(xí)技術(shù)來理解數(shù)據(jù)的結(jié)構(gòu)以及監(jiān)測數(shù)據(jù)發(fā)生的變化。由于高技能人才將成為處理大數(shù)據(jù)的瓶頸,未來 5-10 年間產(chǎn)生的下一代工具,很可能會關(guān)注這些特征。

希望這篇文章能為你提供關(guān)于大數(shù)據(jù)全面而簡潔的概述!

原文鏈接:

https://towardsdatascience.com/what-exactly-is-big-data-in-2020-9acee48e8dd7

標(biāo)簽: 大數(shù)據(jù)發(fā)展 大數(shù)據(jù)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:大數(shù)據(jù)共享有三難:“不愿”“不敢”“不會”

下一篇:AI人才市場兩重天:算法工程師降薪9%,推薦算法漲到3萬