站長資訊平臺

通過調(diào)研開源基準(zhǔn)測試集，解讀大數(shù)據(jù)的應(yīng)用現(xiàn)狀和開源未來

2018-12-21 來源：raincent

作者：韓銳，詹劍鋒

這篇綜述論文解讀了 2006 大數(shù)據(jù)系統(tǒng)興起以來代表性應(yīng)用和開源基準(zhǔn)測試集。近年來，隨著大數(shù)據(jù)系統(tǒng)的快速發(fā)展，各式各樣的開源基準(zhǔn)測試集被開發(fā)出來，以評測和分析大數(shù)據(jù)系統(tǒng)并促進(jìn)其技術(shù)改進(jìn)。然而，迄今為止，還沒有就這些基準(zhǔn)測試集進(jìn)行系統(tǒng)調(diào)研。

因此，本文對當(dāng)前最前沿的開源大數(shù)據(jù)基準(zhǔn)測試集進(jìn)行全面總結(jié)，闡述其歷史、現(xiàn)狀并展望下一步研究方向。首先，我們從大數(shù)據(jù)系統(tǒng)的角度對大數(shù)據(jù)基準(zhǔn)測試集進(jìn)行了定義和分類。隨后，我們回顧了基準(zhǔn)測試技術(shù)的三個重要方面——工作負(fù)載生成技術(shù)、輸入數(shù)據(jù)生成技術(shù)和系統(tǒng)評估指標(biāo)。最后，論文從這三個方面對現(xiàn)有基準(zhǔn)測試集進(jìn)行歸類，并重點(diǎn)描述其中具有代表性的測試集，進(jìn)而討論未來研究方向，以推動該領(lǐng)域工作的持續(xù)發(fā)展。

大數(shù)據(jù)開源基準(zhǔn)測試集

1. 大數(shù)據(jù)系統(tǒng)及開源基準(zhǔn)測試簡介

大數(shù)據(jù)系統(tǒng)通常被分為三個陣營，如圖 1 所示：

(1)Hadoop 相關(guān)系統(tǒng);

(2)數(shù)據(jù)庫管理系統(tǒng) (DBMSs) 和 NoSQL 數(shù)據(jù)庫;

(3)針對圖數(shù)據(jù)、流數(shù)據(jù)和復(fù)雜科學(xué)數(shù)據(jù)的特殊處理需要的專用系統(tǒng)。

圖 1. 大數(shù)據(jù)系統(tǒng)分類與總述

總結(jié)歸納了當(dāng)前流行的開源基準(zhǔn)測試集，圖 2 顯示了這些基準(zhǔn)測試集的詞云圖，其中詞的大小和流行度成比例。

圖 2. 開源大數(shù)據(jù)基準(zhǔn)的詞云云

2. 大數(shù)據(jù)基準(zhǔn)測試分類及發(fā)展歷史

大數(shù)據(jù)基準(zhǔn)測試集的類別：

(1)微基準(zhǔn)測試集。這類基準(zhǔn)測試集被用于評估單個系統(tǒng)組件或特定系統(tǒng)行為(或代碼的功能);

(2)端到端基準(zhǔn)測試集。這類基準(zhǔn)測試集的目的是使用典型應(yīng)用場景評估整個系統(tǒng)，每個場景都對應(yīng)一個工作負(fù)載的集合。

(3)基準(zhǔn)測試集套件是不同的微基準(zhǔn)測試集或端到端基準(zhǔn)測試集的組合，這些套件的目標(biāo)是提供全面的基準(zhǔn)測試解決方案。

發(fā)展歷史：大數(shù)據(jù)基準(zhǔn)測試是一個活躍的研究領(lǐng)域，許多基準(zhǔn)測試集在最初發(fā)布之后仍在發(fā)展，圖 3 顯示了它們的初始發(fā)布年份。

圖 3. 大數(shù)據(jù)基準(zhǔn)測試集發(fā)布時間軸

3. 工作負(fù)載生成技術(shù)

工作負(fù)載實(shí)現(xiàn)技術(shù)：我們將大數(shù)據(jù)工作負(fù)載劃分為三類:

(1)I / O 操作。這些操作在輸入數(shù)據(jù)或文件上執(zhí)行 (例如，讀、寫、移動數(shù)據(jù)或新建、刪除文件)。

(2)算法操作。當(dāng)作為一種算法實(shí)現(xiàn)時，一個工作負(fù)載由一個或多個對輸入數(shù)據(jù)的獨(dú)立操作組成。

(3)基本操作 (EO)。這些操作要么是標(biāo)準(zhǔn)的 SQL 操作符 [102]，要么是具有類似語法的操作符(如 Pig Latin)。圖 4 顯示了代表性負(fù)載和操作的詞云圖。

圖 4. 代表性大數(shù)據(jù)工作負(fù)載的詞云圖

工作負(fù)載提交技術(shù)：我們將本文回顧的基準(zhǔn)測試集的提交策略分成三類：

(1)預(yù)先指定。在許多基準(zhǔn)測試集中，工作負(fù)載的輸入數(shù)據(jù)、提交速率和順序都是在執(zhí)行前指定的。

(2)參數(shù)控制。這類基準(zhǔn)測試集允許用戶使用參數(shù)控制工作負(fù)載的執(zhí)行。

(3)真實(shí)日志驅(qū)動。通過使用這種提交策略，基準(zhǔn)測試集可以根據(jù)真實(shí)世界的日志來真實(shí)地復(fù)現(xiàn)工作負(fù)載。

開放性挑戰(zhàn)：已有的大數(shù)據(jù)基準(zhǔn)并不能完全符合以上三個準(zhǔn)則：(1)相關(guān)性。鑒別被測系統(tǒng)的典型行為是實(shí)現(xiàn)高度相關(guān)性負(fù)載的先決條件。(2)可移植性。我們首先從軟件系統(tǒng)(即軟件棧)的角度討論這個準(zhǔn)則。(3)伸縮性。為了評估不同規(guī)模的系統(tǒng)，基準(zhǔn)測試集應(yīng)該能夠調(diào)整工作負(fù)載的規(guī)模，同時保證其提交和混合的真實(shí)性。

4. 輸入數(shù)據(jù)生成技術(shù)

大數(shù)據(jù)基準(zhǔn)測試中的數(shù)據(jù)生成器：

(1)現(xiàn)有數(shù)據(jù)集：許多大基準(zhǔn)測試提供固定大小的數(shù)據(jù)集作為其工作負(fù)載的輸入;

(2)基于合成分布的數(shù)據(jù)生成器;

(3)基于真實(shí)數(shù)據(jù)的數(shù)據(jù)生成器;

(4)混合數(shù)據(jù)生成器。

開放性挑戰(zhàn)：考慮大數(shù)據(jù)的數(shù)據(jù)量和速度，以及不同的數(shù)據(jù)類型和來源(數(shù)據(jù)種類)，此處有兩個具有挑戰(zhàn)性的關(guān)鍵問題：第一個問題是現(xiàn)有的基準(zhǔn)測試集可以構(gòu)建模型來提取某些數(shù)據(jù)類型(如表格，文本和圖數(shù)據(jù))的真實(shí)數(shù)據(jù)集的特征，但是很少關(guān)注其他數(shù)據(jù)類型，如流、圖、視頻和科學(xué)數(shù)據(jù)。第二個同時也是更具挑戰(zhàn)性的問題是如何評估產(chǎn)生的合成數(shù)據(jù)的真實(shí)性水平。

5. 評估中的指標(biāo)和性能參數(shù)

評估中的指標(biāo)和性能參數(shù)：

(1)通用性能指標(biāo)包括響應(yīng)時間、吞吐量、可靠性、可用性;

(2)體系結(jié)構(gòu)指標(biāo)包括執(zhí)行周期劃分、處理器計(jì)算強(qiáng)度;

(3)價格和能耗指標(biāo)包括性價比指標(biāo)、能耗指標(biāo)。

大數(shù)據(jù)系統(tǒng)性能參數(shù)：

(1)系統(tǒng)配置參數(shù)。大數(shù)據(jù)系統(tǒng)中大量軟件棧和多種編程語言的使用會帶來大量的配置參數(shù)。

(2)資源分配參數(shù)。當(dāng)數(shù)據(jù)中心中部署大數(shù)據(jù)系統(tǒng)時，計(jì)算和網(wǎng)絡(luò)資源由不同系統(tǒng)的工作負(fù)載共享。

論文原文：2018 年發(fā)表于服務(wù)計(jì)算領(lǐng)域頂級期刊 TSC: (http://ieeexplore.ieee.org/document/7990174/)，圖 5 顯示了英文原文導(dǎo)讀圖。

圖 5. TSC 英文原文導(dǎo)讀圖

標(biāo)簽：大數(shù)據(jù) 大數(shù)據(jù)系統(tǒng) 代碼評測數(shù)據(jù)庫網(wǎng)絡(luò)

版權(quán)申明：本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請聯(lián)系：west999com@outlook.com
特別注意：本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)！
本站所提供的圖片等素材，版權(quán)歸原作者所有，如需使用，請與原作者聯(lián)系。

上一篇: 深度學(xué)習(xí)中不均衡數(shù)據(jù)集的處理

下一篇:斯坦福大學(xué)CS 230的深度學(xué)習(xí)秘籍—帶你速覽深度學(xué)習(xí)核心知識

相關(guān)文章

最新資訊

熱門推薦

為學(xué)習(xí)和知識分享目的，本站文章部分自網(wǎng)絡(luò)，本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請聯(lián)系：2653426586@qq.com QQ：2653426586

如有其他需求，請聯(lián)系：2653426586@qq.com QQ：2653426586

友情鏈接：網(wǎng)絡(luò)安全運(yùn)維經(jīng)驗(yàn) IT技術(shù)分享運(yùn)維隨筆錄鮮花東郊到家往約到家

中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

通過調(diào)研開源基準(zhǔn)測試集，解讀大數(shù)據(jù)的應(yīng)用現(xiàn)狀和開源未來

通過調(diào)研開源基準(zhǔn)測試集，解讀大數(shù)據(jù)的應(yīng)用現(xiàn)狀和開源未來