中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

Prashanth Southekal 談應用機器學習,如何分析各類數(shù)據(jù)

2019-05-22    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

DBP 研究所管理負責人 Prashanth Southekal 上月在2019 年企業(yè)數(shù)據(jù)世界大會上舉辦了一個研討會,主題是應用機器學習技術以及何時使用不同的 ML 算法。

機器學習(ML)使計算機能夠使用大量數(shù)據(jù)集自動學習和適應。Southekal 談到了五種主要的分析方法和三種機器學習方法。他還討論了 ML 算法,如決策樹、支持向量機(SVM)、邏輯回歸、線性回歸和聚類。

我們采訪了 Southekal,了解他關于應用機器學習領域的會議環(huán)節(jié)和數(shù)據(jù)分析。

問:如何對數(shù)據(jù)進行分類,對每種類型的數(shù)據(jù)進行哪種分析?

Prashanth Southekal:廣泛的數(shù)據(jù),尤其是商業(yè)數(shù)據(jù),主要可以分為三種類型。首先,從數(shù)據(jù)存儲和處理的角度,可以將業(yè)務數(shù)據(jù)分為結構化數(shù)據(jù)和非結構化數(shù)據(jù)。其次,從數(shù)據(jù)集成的角度來看,業(yè)務數(shù)據(jù)可以是管理類別(如工廠和地理位置)的參考數(shù)據(jù),管理業(yè)務實體(如供應商和產(chǎn)品)的主數(shù)據(jù),以及捕獲業(yè)務事件(如采購訂單和發(fā)票)的事務數(shù)據(jù)。第三,從數(shù)據(jù)分析的角度來看,業(yè)務數(shù)據(jù)可以分為標定數(shù)據(jù)(用于管理類別,如產(chǎn)品描述)、有序數(shù)據(jù)(用于捕獲有序數(shù)據(jù)集,如付款項和交付優(yōu)先級)和連續(xù)數(shù)據(jù)(用于處理價格和數(shù)量)。

現(xiàn)在進入問題的第二部分——對每種類型的數(shù)據(jù)執(zhí)行哪種類型的分析。在我看來,分析是基于你的問題使用數(shù)據(jù)。所以,你問的問題在分析學中非常重要。這些問題的答案來自于算法,算法的選擇基于數(shù)據(jù)類型。例如,如果問題是“貨物會按時交貨嗎?”,答案將會是“Yes/No”,答案將會使用 logistic 回歸算法得到。另一方面,如果問題是“貨物需要多長時間才能送到?”,答案將是一個數(shù)值,該數(shù)值可能會使用線性回歸算法得到。

問:你能談談一些數(shù)據(jù)質量維度以及它們如何影響數(shù)據(jù)質量嗎?

Southekal:數(shù)據(jù)質量是對數(shù)據(jù)在給定上下文中是否適合服務于其目的的評估。在我看來,有 12 個數(shù)據(jù)質量維度,包括完整性、一致性、有效性、基數(shù)性、準確性、正確性、可訪問性、安全性、及時性、冗余、覆蓋率和完整性。在我的書Data for Business Performance中,我詳細解釋了這些數(shù)據(jù)質量維度。然而,數(shù)據(jù)質量并不意味著所有這 12 個維度都應該一直滿足。數(shù)據(jù)質量維度的選擇取決于適用性、目的和上下文。

問:選擇 ML 解決方案時需要考慮什么?

Southekal: 在我看來,如果一個解決方案滿足四個關鍵條件,那么就可以認為它是 ML 解決方案:

輸出是不斷優(yōu)化的,即數(shù)據(jù)持續(xù)不斷地攝入到 ML 算法中。

在獲取和應用輸出時,很少(甚至沒有)人為干預。

輸出是概率的形式,因為解決方案是面向未來狀態(tài)的。

輸出主要提供關于事件或事務(實體或類別)的問題的答案。

問:你能談一下你在研討會中談到的四種 ML 算法:回歸、分類、聚類和關聯(lián)嗎?

Southekal:ML 算法有數(shù)百種,但我選擇了這四種類型的 ML 算法,即回歸、分類、聚類和關聯(lián),因為它們在業(yè)務中非常常用。

回歸算法基于一組自變量預測因變量的值。

分類算法利用輸入的數(shù)據(jù)對觀測結果進行分類。

聚類算法根據(jù)一些相似的條件將一組觀測值分配到聚簇中。

關聯(lián) ML 算法揭示了項之間是如何關聯(lián)的。

問:對于想學習機器學習技術的數(shù)據(jù)庫專業(yè)人士,您有什么建議嗎?

Southekal:選擇一項你和你的公司都能輕易獲得的技術。例如,如果你是一個采購專家,在一家在SAP ERP中完成采購活動的公司工作,那么最好利用 SAP 的分析工具,如BI/BOBJ、Leonardo等。你將有一個良好的開端,因為分析所需的數(shù)據(jù)已經(jīng)在你的 SAP 環(huán)境中,并且你可以訪問 SAP 生態(tài)系統(tǒng)。如果你剛剛開始你的職業(yè)生涯,可以嘗試R或Python,因為它們都是具有大型社區(qū)的開源工具。但是,要始終注重應用工具解決問題,而不是學習工具本身。除了在技術方面的技能,還要在統(tǒng)計和線性代數(shù)方面培養(yǎng)良好的技能。描述性分析需要統(tǒng)計,而預測分析和 ML 需要線性代數(shù)和統(tǒng)計。網(wǎng)上有許多免費的優(yōu)質資料。在選擇昂貴的課程之前,可以先嘗試一下它們。

查看英文原文:Prashanth Southekal on Applied Machine Learning

原文:https://www.infoq.com/news/2019/04/southekal-machine-learning

作者:Srini Penchikala

譯者:平川

標簽: [db:TAGG]

版權申明:本站文章部分自網(wǎng)絡,如有侵權,請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:大疆:數(shù)據(jù)由用戶完全掌握

下一篇:十四年的NYU教學精華,開放書《機器學習基礎》第二版可以下載啦