中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

通過調(diào)研開源基準(zhǔn)測試集,解讀大數(shù)據(jù)的應(yīng)用現(xiàn)狀和開源未來

2018-12-21    來源:raincent

容器云強(qiáng)勢上線!快速搭建集群,上萬Linux鏡像隨意使用

 作者:韓銳,詹劍鋒

 這篇綜述論文解讀了 2006 大數(shù)據(jù)系統(tǒng)興起以來代表性應(yīng)用和開源基準(zhǔn)測試集。近年來,隨著大數(shù)據(jù)系統(tǒng)的快速發(fā)展,各式各樣的開源基準(zhǔn)測試集被開發(fā)出來,以評測和分析大數(shù)據(jù)系統(tǒng)并促進(jìn)其技術(shù)改進(jìn)。然而,迄今為止,還沒有就這些基準(zhǔn)測試集進(jìn)行系統(tǒng)調(diào)研。

因此,本文對當(dāng)前最前沿的開源大數(shù)據(jù)基準(zhǔn)測試集進(jìn)行全面總結(jié),闡述其歷史、現(xiàn)狀并展望下一步研究方向。首先,我們從大數(shù)據(jù)系統(tǒng)的角度對大數(shù)據(jù)基準(zhǔn)測試集進(jìn)行了定義和分類。隨后,我們回顧了基準(zhǔn)測試技術(shù)的三個重要方面——工作負(fù)載生成技術(shù)、輸入數(shù)據(jù)生成技術(shù)和系統(tǒng)評估指標(biāo)。最后,論文從這三個方面對現(xiàn)有基準(zhǔn)測試集進(jìn)行歸類,并重點(diǎn)描述其中具有代表性的測試集,進(jìn)而討論未來研究方向,以推動該領(lǐng)域工作的持續(xù)發(fā)展。

大數(shù)據(jù)開源基準(zhǔn)測試集

1. 大數(shù)據(jù)系統(tǒng)及開源基準(zhǔn)測試簡介

大數(shù)據(jù)系統(tǒng)通常被分為三個陣營,如圖 1 所示:

(1)Hadoop 相關(guān)系統(tǒng);

(2)數(shù)據(jù)庫管理系統(tǒng) (DBMSs) 和 NoSQL 數(shù)據(jù)庫;

(3)針對圖數(shù)據(jù)、流數(shù)據(jù)和復(fù)雜科學(xué)數(shù)據(jù)的特殊處理需要的專用系統(tǒng)。

 

 

圖 1. 大數(shù)據(jù)系統(tǒng)分類與總述

總結(jié)歸納了當(dāng)前流行的開源基準(zhǔn)測試集,圖 2 顯示了這些基準(zhǔn)測試集的詞云圖,其中詞的大小和流行度成比例。

 

 

圖 2. 開源大數(shù)據(jù)基準(zhǔn)的詞云云

2. 大數(shù)據(jù)基準(zhǔn)測試分類及發(fā)展歷史

大數(shù)據(jù)基準(zhǔn)測試集的類別:

(1)微基準(zhǔn)測試集。這類基準(zhǔn)測試集被用于評估單個系統(tǒng)組件或特定系統(tǒng)行為(或代碼的功能);

(2)端到端基準(zhǔn)測試集。這類基準(zhǔn)測試集的目的是使用典型應(yīng)用場景評估整個系統(tǒng),每個場景都對應(yīng)一個工作負(fù)載的集合。

(3)基準(zhǔn)測試集套件是不同的微基準(zhǔn)測試集或端到端基準(zhǔn)測試集的組合,這些套件的目標(biāo)是提供全面的基準(zhǔn)測試解決方案。

發(fā)展歷史:大數(shù)據(jù)基準(zhǔn)測試是一個活躍的研究領(lǐng)域,許多基準(zhǔn)測試集在最初發(fā)布之后仍在發(fā)展,圖 3 顯示了它們的初始發(fā)布年份。

 

 

圖 3. 大數(shù)據(jù)基準(zhǔn)測試集發(fā)布時間軸

3. 工作負(fù)載生成技術(shù)

工作負(fù)載實現(xiàn)技術(shù):我們將大數(shù)據(jù)工作負(fù)載劃分為三類:

(1)I / O 操作。這些操作在輸入數(shù)據(jù)或文件上執(zhí)行 (例如,讀、寫、移動數(shù)據(jù)或新建、刪除文件)。

(2)算法操作。當(dāng)作為一種算法實現(xiàn)時,一個工作負(fù)載由一個或多個對輸入數(shù)據(jù)的獨(dú)立操作組成。

(3)基本操作 (EO)。這些操作要么是標(biāo)準(zhǔn)的 SQL 操作符 [102],要么是具有類似語法的操作符(如 Pig Latin)。圖 4 顯示了代表性負(fù)載和操作的詞云圖。

 

 

圖 4. 代表性大數(shù)據(jù)工作負(fù)載的詞云圖

工作負(fù)載提交技術(shù):我們將本文回顧的基準(zhǔn)測試集的提交策略分成三類:

(1)預(yù)先指定。在許多基準(zhǔn)測試集中,工作負(fù)載的輸入數(shù)據(jù)、提交速率和順序都是在執(zhí)行前指定的。

(2)參數(shù)控制。這類基準(zhǔn)測試集允許用戶使用參數(shù)控制工作負(fù)載的執(zhí)行。

(3)真實日志驅(qū)動。通過使用這種提交策略,基準(zhǔn)測試集可以根據(jù)真實世界的日志來真實地復(fù)現(xiàn)工作負(fù)載。

開放性挑戰(zhàn):已有的大數(shù)據(jù)基準(zhǔn)并不能完全符合以上三個準(zhǔn)則:(1)相關(guān)性。鑒別被測系統(tǒng)的典型行為是實現(xiàn)高度相關(guān)性負(fù)載的先決條件。(2)可移植性。我們首先從軟件系統(tǒng)(即軟件棧)的角度討論這個準(zhǔn)則。(3)伸縮性。為了評估不同規(guī)模的系統(tǒng),基準(zhǔn)測試集應(yīng)該能夠調(diào)整工作負(fù)載的規(guī)模,同時保證其提交和混合的真實性。

4. 輸入數(shù)據(jù)生成技術(shù)

大數(shù)據(jù)基準(zhǔn)測試中的數(shù)據(jù)生成器:

(1)現(xiàn)有數(shù)據(jù)集:許多大基準(zhǔn)測試提供固定大小的數(shù)據(jù)集作為其工作負(fù)載的輸入;

(2)基于合成分布的數(shù)據(jù)生成器;

(3)基于真實數(shù)據(jù)的數(shù)據(jù)生成器;

(4)混合數(shù)據(jù)生成器。

開放性挑戰(zhàn):考慮大數(shù)據(jù)的數(shù)據(jù)量和速度,以及不同的數(shù)據(jù)類型和來源(數(shù)據(jù)種類),此處有兩個具有挑戰(zhàn)性的關(guān)鍵問題:第一個問題是現(xiàn)有的基準(zhǔn)測試集可以構(gòu)建模型來提取某些數(shù)據(jù)類型(如表格,文本和圖數(shù)據(jù))的真實數(shù)據(jù)集的特征,但是很少關(guān)注其他數(shù)據(jù)類型,如流、圖、視頻和科學(xué)數(shù)據(jù)。第二個同時也是更具挑戰(zhàn)性的問題是如何評估產(chǎn)生的合成數(shù)據(jù)的真實性水平。

5. 評估中的指標(biāo)和性能參數(shù)

評估中的指標(biāo)和性能參數(shù):

(1)通用性能指標(biāo)包括響應(yīng)時間、吞吐量、可靠性、可用性;

(2)體系結(jié)構(gòu)指標(biāo)包括執(zhí)行周期劃分、處理器計算強(qiáng)度;

(3)價格和能耗指標(biāo)包括性價比指標(biāo)、能耗指標(biāo)。

大數(shù)據(jù)系統(tǒng)性能參數(shù):

(1)系統(tǒng)配置參數(shù)。大數(shù)據(jù)系統(tǒng)中大量軟件棧和多種編程語言的使用會帶來大量的配置參數(shù)。

(2)資源分配參數(shù)。當(dāng)數(shù)據(jù)中心中部署大數(shù)據(jù)系統(tǒng)時,計算和網(wǎng)絡(luò)資源由不同系統(tǒng)的工作負(fù)載共享。

論文原文:2018 年發(fā)表于服務(wù)計算領(lǐng)域頂級期刊 TSC: (http://ieeexplore.ieee.org/document/7990174/),圖 5 顯示了英文原文導(dǎo)讀圖。

 

 

圖 5. TSC 英文原文導(dǎo)讀圖

標(biāo)簽: 大數(shù)據(jù) 大數(shù)據(jù)系統(tǒng) 代碼 評測 數(shù)據(jù)庫 網(wǎng)絡(luò)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇: 深度學(xué)習(xí)中不均衡數(shù)據(jù)集的處理

下一篇:斯坦福大學(xué)CS 230的深度學(xué)習(xí)秘籍—帶你速覽深度學(xué)習(xí)核心知識