中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

數(shù)據質量管理的一些思考

2018-07-12    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用
背景

在近期的項目當中,我們?yōu)榭蛻袈涞貙嵤┝藬?shù)據資產平臺。隨后,在數(shù)據平臺中接入了客戶子公司的一個業(yè)務系統(tǒng)的明細數(shù)據?蛻粝M谖覀兊臄(shù)據平臺上通過數(shù)據探索和數(shù)據分析,來挖掘一些業(yè)務價值和業(yè)務創(chuàng)新點。

當我們拿到數(shù)據開始進行一些初步探索的時候,發(fā)現(xiàn)導入平臺的數(shù)據質量存在一定的問題:例如一些用于數(shù)據分析的關鍵字段的值為空、一些本應該有主從關系的數(shù)據對應不上、數(shù)據分類混亂等。這些問題直接影響到了對業(yè)務數(shù)據的分析和價值挖掘。因此,我們決定先對這份業(yè)務數(shù)據進行一次質量評估。如果評估的結果太差,不能做太多有價值的數(shù)據分析,那么我們的工作方向可能就需要轉變?yōu)閹椭蛻糁贫ㄕ臄?shù)據質量的計劃和方案。

數(shù)據質量問題

什么是質量

關于質量是有個一個標準定義的:一組固有特性滿足明示的、通常隱含的或必須履行的需求或期望(要求)的?程度。這里面包含了兩層意思,一個是說質量其實是一組特性,另一個是說質量需要滿足需求或期望。所以如果從數(shù)據分析的角度來說數(shù)據質量,就是看當前數(shù)據的特性能否滿足我們做數(shù)據分析或挖掘這個需求。

質量問題的來源

數(shù)據問題的來源可能產生于從數(shù)據源頭到數(shù)據存儲介質的各個環(huán)節(jié)。在數(shù)據采集階段,數(shù)據的真實性、準確性、完整性、時效性都會影響數(shù)據質量。除此之外,數(shù)據的加工、存儲過程都有可能涉及對原始數(shù)據的修改,從而引發(fā)數(shù)據的質量問題。所以,技術、流程、管理等多方面的因素都有可能會影響到數(shù)據質量。

在企業(yè)中,隨著企業(yè)業(yè)務的增長,數(shù)據也是一個增量積累的過程。隨著數(shù)據類型、數(shù)據來源的不斷豐富以及數(shù)據數(shù)量的快速增長,企業(yè)在數(shù)據管理工作和數(shù)據流程中面臨越來越多的數(shù)據質量問題。而且數(shù)據質量的管理并沒有被企業(yè)重視起來,其根本原因還是ROI并沒有那么明顯。

數(shù)據質量管理相對來說成本比較高。因為它涉及到企業(yè)數(shù)據標準的制定、規(guī)范的落地、生命周期的管理等多個環(huán)節(jié)。從收益上來說,數(shù)據質量的效益和結果并不是十分明顯,大部分企業(yè)不會把數(shù)據質量作為KPI。在企業(yè)的不同系統(tǒng)中,業(yè)務領域的關鍵指標不一致,數(shù)據無法共享導致出現(xiàn)數(shù)據孤島,大量數(shù)據無法關聯(lián),并且有明顯的數(shù)據冗余等問題,還有數(shù)據的維護需要投入大量的人員、時間、軟硬件成本。所以數(shù)據的質量管理往往被會邊緣化甚至趨向于無。

數(shù)據質量評估

那么我們如何對一份數(shù)據進行質量評估呢?這是一個比較難以回答的問題。因為數(shù)據質量本身有這么幾個問題。首先是數(shù)據質量定義不一致,人們對數(shù)據質量的理解并沒有一個參考標準或者標準的定義,所以人們理解的數(shù)據質量就會呈現(xiàn)出多樣性,而無論是數(shù)據評估體系還是數(shù)據質量控制體系,都離不開關于數(shù)據質量的清晰定義。其次,沒有權威性的數(shù)據質量標準模型或參考模型。再者,沒有系統(tǒng)化的數(shù)據質量評估指標,也沒有對數(shù)據質量評估的指標形成一個量化的標準。所以現(xiàn)在多數(shù)對于數(shù)據質量的研究都是針對特定領域或特定問題的研究,并不具有普適性,很難推廣成為標準化的體系或模型。

那我們能不能像CMMI(能力成熟度模型, Capability Maturity Model Integration)和 AMM(敏捷成熟度模型,Agile Maturity Model)一樣對數(shù)據質量建立一個模型,我們暫且稱之為DQAM(數(shù)據質量評估模型,Data Quality Assessment Model)。

首先思考一下,在進行數(shù)據質量評估時我們會選取多個指標,所以很自然會想到借用一下模糊綜合評價理論。搜集了一下資料,這里選取以下若干個指標來作為我們的數(shù)據質量評價指標(當然,可以根據實際需要選取其他指標,指標的數(shù)量也可多可少):

Completeness:完整性,用于度量哪些數(shù)據丟失了或者哪些數(shù)據不可用

Conformity:規(guī)范性,用于度量哪些數(shù)據未按統(tǒng)一格式存儲

Consistency:一致性,用于度量哪些數(shù)據的值在信息含義上是沖突的

Accuracy:準確性,用于度量哪些數(shù)據和信息是不正確的,或者數(shù)據是超期的

Uniqueness:唯一性,用于度量哪些數(shù)據是重復數(shù)據或者數(shù)據的哪些屬性是重復的

Integration:關聯(lián)性,用于度量哪些關聯(lián)的數(shù)據缺失或者未建立索引

那么評估模型應該有這么幾個要素:

Dataset:被評估的數(shù)據集,對于關系型數(shù)據庫來說就是一張表

Indicators:評估指標,就是上面列出來的6個指標

Rule:評估規(guī)則,與上面的評估指標對應,后續(xù)會根據規(guī)則的描述來編寫腳本。

Weight:權重,此處的權重是每一條評估規(guī)則在全部規(guī)則的所占比重

Expectation:期望,根據每個評估規(guī)則給出一個評估前的期望值(0-100)

Score:結果,每個評估規(guī)則應用到數(shù)據集后計算出來的結果值(0-100)

那么構造整個模型的過程基本就可以確定下來,首先根據需要選取數(shù)據集當中要進行評估的數(shù)據視圖,再選取所需要的評估指標。下一步需要制定規(guī)則集,根據所選的評估指標來制定相應的數(shù)據質量評估規(guī)則,并確定它們相應的權值和期望值。最后一步就是根據規(guī)則集來計算結果得分。

對于數(shù)據集的N個規(guī)則計算出來的得分,最后計算其加權平均值,得到質量評估的絕對量化值。用該量化值和期望進行差值比較,可以得出該數(shù)據集是比預期的好,還是不如預期。

以上是一個簡單的評估模型,目前并沒有在實際的場景中應用,當然這個模型的精度并不會很高,也沒有處理誤差。僅僅提供一個思路,或許質量的評估可以朝著這個方向來進行。

數(shù)據質量管理

數(shù)據工作流質量管理

下面來談談數(shù)據質量管理。質量管理前面提到了,涉及到數(shù)據工作流的各個環(huán)節(jié)。數(shù)據的工作流可以分為以下幾部分:數(shù)據產生、加工處理、存儲、挖掘和應用。質量管理的前提是在每一個環(huán)節(jié)建立質量標準。數(shù)據的來源包括:業(yè)務系統(tǒng)產生的數(shù)據、外部系統(tǒng)的數(shù)據、手動錄入的數(shù)據等,從這些源頭采集數(shù)據,然后經過數(shù)據通道進行加工處理(ETL,Extract-Transform-Load),數(shù)據進入到數(shù)據倉庫或數(shù)據集市當中。然后業(yè)務人員、數(shù)據科學家、數(shù)據工程師等,會在數(shù)據平臺對數(shù)據進行探索和挖掘,這個過程可能發(fā)生在數(shù)據倉庫,也可能是在數(shù)據沙箱中進行,最后對數(shù)據探索分析挖掘的產出結果,會以數(shù)據應用的方式發(fā)布出來,具體的形式包括:數(shù)據報表、數(shù)據門戶、OLAP、數(shù)據產品、數(shù)據服務、智能模型等等。

數(shù)據質量監(jiān)督

除了制定質量標準外,還需要對系統(tǒng)中的數(shù)據本身和數(shù)據工作流進行監(jiān)督管理。

對數(shù)據系統(tǒng)進行實時監(jiān)控,監(jiān)測數(shù)據工作環(huán)境的服務器軟硬件運行狀態(tài)、性能、磁盤空間、數(shù)據庫事務、鎖、緩沖、會話量、備份等等一系列指標,實施預警機制,并監(jiān)測一些異常情況的發(fā)生。

對數(shù)據進行定期校驗,除了對數(shù)據系統(tǒng)進行實施監(jiān)控外,還需要對數(shù)據進行校驗:日常校驗、數(shù)據抽檢、全面校驗等。

審核制度也是保證質量的一個重要措施,特別是對于敏感數(shù)據和敏感操作。建立數(shù)據變更時候的分級審核制度,尤其是一些影響較大或者權限較高的操作。建立審批制度,對于數(shù)據的讀取,如果涉及到敏感數(shù)據,必要時,也需要數(shù)據審批或者是數(shù)據脫敏。

數(shù)據生命周期管理

數(shù)據的生命周期從數(shù)據規(guī)劃開始,中間是一個包括產生、處理、部署、應用、監(jiān)控、存檔、銷毀這幾個步驟并不斷循環(huán)的過程。隨著業(yè)務的發(fā)展,系統(tǒng)的業(yè)務數(shù)據類型和業(yè)務規(guī)范不斷變化,一個完備的數(shù)據生命周期管理方案還應當包括對系統(tǒng)的優(yōu)化調整,根據業(yè)務系統(tǒng)實際運行情況、新的業(yè)務類型和規(guī)范、技術改進等調整原有的數(shù)據存儲遷移策略和訪問方式,以滿足業(yè)務系統(tǒng)發(fā)展及新的業(yè)務規(guī)范需求。數(shù)據生命周期管理的目的是對不同階段的數(shù)據采取不同的管理策略用來降低數(shù)據管理運營成本,并提高數(shù)據質量度,實現(xiàn)數(shù)據價值最大化的終極目的。

總結

數(shù)據質量在任何系統(tǒng)當中都是十分重要卻容易被忽視的一部分。構建完整的數(shù)據質量管理體系,既是支持企業(yè)系統(tǒng)穩(wěn)定運行的基本保障,同時也是企業(yè)進行數(shù)字化轉型、創(chuàng)新的必備條件。

標簽: 服務器 腳本 權限 數(shù)據分析 數(shù)據庫 推廣 轉型

版權申明:本站文章部分自網絡,如有侵權,請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:人工智能背景下的高等教育“新工科”建設探索

下一篇:蘋果架構調整:AI、機器學習和Siri合并,由前谷歌AI負責人領導