中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

數(shù)據(jù)科學中的“帕累托法則”

2020-12-04    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

一個多世紀以前,政治經(jīng)濟學教授維弗雷多·帕累托發(fā)表了他對于社會財富分配的研究結果。他所觀察到的嚴重的不平等,例如20%的人擁有80%的財富,令經(jīng)濟學家、社會學家和政治科學家感到驚訝。在過去的一個世紀中,不同領域的幾位先驅(qū)者在包括商業(yè)在內(nèi)的幾種層面上觀察到這種不成比例的分布。關鍵性的那部分少數(shù)的投入/原因(如20%的投入)直接影響了絕大多數(shù)的產(chǎn)出/效應(如80%的產(chǎn)出),此理論被稱為帕累托法則——也稱為80-20規(guī)則。

帕累托法則是一個非常簡單但功能非常強大的管理工具。企業(yè)高管長期以來一直將其用于戰(zhàn)略規(guī)劃和決策。諸如20%的商店產(chǎn)生80%的收入,20%的軟件錯誤導致80%的系統(tǒng)崩潰,20%的產(chǎn)品功能驅(qū)動80%的銷售等,受到廣泛歡迎,善于分析的企業(yè)嘗試在他們自己的商業(yè)世界中找到這樣的帕累托法則。通過這種方式,他們可以計劃并確定其行動的優(yōu)先順序。事實上,今天,數(shù)據(jù)科學在篩選大量復雜數(shù)據(jù),以助識別未來帕累托場景方面發(fā)揮著重要作用。

 

來源: William Lipovsky

不僅數(shù)據(jù)科學有助于為企業(yè)預測新的帕累托場景,但站在數(shù)據(jù)科學本身的角度看,這一技術也可以從帕累托法則中受益。利用該法則可以使數(shù)據(jù)科學顯著提高效率。在本文中,筆者將分享一些方法,作為數(shù)據(jù)科學家,我們可以利用帕累托法則的力量來指導我們的日常工作。

項目優(yōu)先級排序

如果您是數(shù)據(jù)科學部門領導/經(jīng)理,您不可避免地需要幫助為您的組織制定分析策略。雖然不同的業(yè)務領導者會提出各自不同的需求,但您必須闡明所有這些組織(或業(yè)務單位)需求,并為之制定路線圖,確定優(yōu)先級。一種簡單的方法是量化解決每個分析需求所能獲得的價值,并按值的遞減順序?qū)λ鼈冞M行排序。您經(jīng)常會注意到,少部分的問題/用例擁有不成比例的價值(帕累托法則),應優(yōu)先于其他問題/優(yōu)先級。實際上,更好的方法是量化解決/實現(xiàn)每個問題/用例的復雜性,并基于價值和復雜性之間的權衡來優(yōu)先考慮它們(例如,將它們放在x軸為復雜性,y軸為價值的坐標圖上)。

問題范圍

業(yè)務問題往往是模糊和非結構化的,數(shù)據(jù)科學家的工作需要確定正確的范圍。范圍界定通常需要將注意力集中在問題最重要的方面,并忽略那些價值較低的方面。首先,查看輸出/效果在輸入/原因上的分布將有助于我們了解問題空間中是否存在高級帕累托。隨后,我們可以選擇僅查看某些輸入/輸出或原因/結果。例如,如果20%的商店產(chǎn)生80%的銷售額,我們可以將其余商店分組到一個集群中并進行分析而不是單獨評估它們。

范圍界定還涉及到對風險的評估——更深層次的評估通常會告訴我們,最重要的項目會帶來更高的風險,而最底層的項目發(fā)生的可能性很小(帕累托法則)。我們可以將時間和精力放在一些主要風險上,而不是解決所有風險。

數(shù)據(jù)規(guī)劃

復雜的業(yè)務問題需要的數(shù)據(jù)超出分析數(shù)據(jù)集中可用的數(shù)據(jù)。我們需要請求訪問、購買、獲取、抓取、解析、處理和集成來自內(nèi)部/外部源的數(shù)據(jù)。它們具有不同的形狀、大小、健康狀態(tài)、復雜性、成本等。等待整個數(shù)據(jù)計劃落實到位,可能會導致項目的延遲不受我們控制。有一種簡單的方法是,根據(jù)這些數(shù)據(jù)對最終解決方案的價值,對這些數(shù)據(jù)需求進行分類,例如絕對必須擁有、有好處和可選的(帕累托法則)。這將幫助我們專注于絕對必須擁有的東西,而不是被可選的東西分心或拖延。除了價值之外,考慮數(shù)據(jù)獲取的成本、時間和精力方面的因素將幫助我們更好地對數(shù)據(jù)規(guī)劃工作進行優(yōu)先級排序。

分析

有種說法是,一名工匠只用20%的工具就能完成80%的工作。這也適用于我們的數(shù)據(jù)科學家。我們傾向于使用很少的分析和模型來完成我們工作的重要部分(帕累托法則),而其他技術的使用頻率則要低得多。探索性分析中的典型示例包括變量分布、異常檢測、缺失值插補、相關矩陣等。類似地,建模階段的示例包括k折交叉驗證,實際VS預測圖,錯誤分類表,超參數(shù)調(diào)整分析等構建使用/訪問/實施這些分析的微型自動化(例如庫,代碼片段,可執(zhí)行文件,UI)可以在分析過程中帶來顯著的效率。

建模

在建模階段,我們不需要很長時間就可以在過程的早期找到一個合理的工作模型。而且到目前為止,大部分提高精度的工作就已經(jīng)完成了(帕累托法則)。剩下的過程是對模型進行微調(diào),并增加精度。有時,為了使解決方案對業(yè)務可行,需要進一步增加精確度。在其他情況下,模型微調(diào)對最終的洞察/主張沒有多大價值。作為數(shù)據(jù)科學家,我們需要認識到這些情況,這樣我們就知道該在哪里相應地劃定界限。

業(yè)務溝通

今天的數(shù)據(jù)科學生態(tài)系統(tǒng)是多學科的。項目團隊可能包括業(yè)務分析師、機器學習科學家、大數(shù)據(jù)工程師、軟件開發(fā)人員和多個業(yè)務相關人員。這樣的團隊成功的一個關鍵驅(qū)動力是溝通。作為一個努力工作的人,你可能會需要溝通所有的工作——挑戰(zhàn)、分析、模型、見解等等。然而,在當今信息過載的世界里,采取這樣的方法將無濟于事。我們需要認識到“有用的多但重要的少”(帕累托法則),并利用這一認識來簡化我們交流的信息量。同樣,我們呈現(xiàn)和突出的信息需要根據(jù)目標受眾(業(yè)務涉眾vs數(shù)據(jù)科學家)進行定制。

帕累托法則與我們而言是一個強大的工具,以正確的方式使用,可以幫助我們整理和優(yōu)化我們的工作。

標簽: 數(shù)據(jù) 

版權申明:本站文章部分自網(wǎng)絡,如有侵權,請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:Python 中的多進程與線程 每個數(shù)據(jù)科學家都需要知道

下一篇:數(shù)據(jù)技能正成職場“神技”,市場需求5年間增長7倍