站長資訊平臺

制定機器學習訓練數(shù)據(jù)策略的6個技巧

2019-09-09 來源：raincent

人工智能(AI)和機器學習(ML)如今已經十分常見。AI指的是機器模仿人類進行認知的概念，ML是一種用于構建AI的方法。如果AI是指計算機可以根據(jù)指令執(zhí)行一組任務，那么ML就是機器從數(shù)據(jù)中攝取、解析和學習的能力，以便更精確地完成任務。

汽車、金融、政府、醫(yī)療、零售和科技等行業(yè)的大部分管理者都已經對ML和AI有了基本的了解。不過，并非每個人都是一個制定訓練數(shù)據(jù)策略的專家——而這往往是實現(xiàn)ML高投資回報的必要的第一步。

AI系統(tǒng)通過實例來學習，它們擁有的高質量實例數(shù)據(jù)越多，就會學得越好。缺乏，或只有低質量的訓練數(shù)據(jù)可能會生成不可靠的系統(tǒng)，得出錯誤的結論，做出糟糕的決策，無法處理現(xiàn)實世界的變化，并引入或延續(xù)一些如偏見等問題。

如果沒有一個良好定義的策略來收集和組織你需要訓練、測試和優(yōu)化AI系統(tǒng)的數(shù)據(jù)，你將面臨項目延遲、無法適當擴展以及被競爭對手超過的風險。下面是構建一個成功的訓練數(shù)據(jù)策略的6個技巧。

Pexels 上的 Pixabay 拍攝的照片

1、制定訓練數(shù)據(jù)預算

當啟動一個新的ML項目時，首先要定義的是要實現(xiàn)的目標。這會讓你知道，你的系統(tǒng)中需要哪種類型的數(shù)據(jù)，以及需要多少“訓練項”(已分類的數(shù)據(jù)點)。

例如，計算機視覺或圖像識別項目的訓練項目，使用人工注釋標記的圖像數(shù)據(jù)，用于識別圖像的內容(樹、停車標志、人、車等)。此外，根據(jù)你正在構建的解決方案的類型，你的模型可能需要不斷地重新培訓或刷新。你的解決方案可能需要每季度、每月甚至每周進行更新。

一旦確定了訓練項目和更新頻率，你就可以評估關于采購數(shù)據(jù)的一些選項，并計算預算。

重要的是要清楚地了解啟動該計劃所需的時間和資金成本，隨著時間的推移對其進行維護，并隨著業(yè)務的發(fā)展對特性和功能進行改進，從而使解決方案對你的客戶保持相關性和價值性。啟動ML計劃是一項長期投資。獲得高回報需要一個長期的策略。

2、收集適當?shù)臄?shù)據(jù)

你需要的數(shù)據(jù)類型取決于你正在構建的解決方案的類型。一些數(shù)據(jù)來源包括實際使用數(shù)據(jù)、調查數(shù)據(jù)、公共數(shù)據(jù)集和合成數(shù)據(jù)。例如，一個能夠理解人類語音命令的語音識別解決方案必須針對已翻譯成文本的高質量語音數(shù)據(jù)(實際數(shù)據(jù))進行培訓。搜索解決方案需要由人工注釋的文本數(shù)據(jù)來告訴它哪些結果是最相關的。

ML中最常用的數(shù)據(jù)類型是圖像、視頻、語音、音頻和文本。在用于ML之前，必須對訓練數(shù)據(jù)進行注釋或標記，以確定它們是什么。注釋可以告訴模型如何處理每段數(shù)據(jù)。例如,如果一個虛擬助理的一條訓練數(shù)據(jù)是某個人的錄音“多訂購一點AA電池”，注釋可能會告訴系統(tǒng)在聽到“訂購”時，與某個在線零售商處下個訂單，在聽到“AA電池”時搜索“AA電池”。

3、保證數(shù)據(jù)質量

根據(jù)任務的不同，數(shù)據(jù)注釋可能是一項相對簡單的活動，但是它也是重復的、耗時的，并且很難始終正確地執(zhí)行。它需要人的介入。

低數(shù)據(jù)質量帶來的風險很高，因為如果你根據(jù)不準確的數(shù)據(jù)訓練模型，那么模型將會做錯誤的事情。例如，如果你訓練一個自動駕駛汽車的計算機視覺系統(tǒng)，將人行道的圖像錯誤地標記為街道，結果可能是災難性的。事實上，糟糕的數(shù)據(jù)質量，是阻止ML廣泛且有效使用的頭號敵人。

當我們討論數(shù)據(jù)質量時，我們談論的是標簽的準確性和一致性。準確是一個標簽距離事實有多近;一致性是不同訓練項目上的多個注釋彼此一致的程度。

4 .注意并減少數(shù)據(jù)偏差

強調數(shù)據(jù)質量有助于公司減輕其AI項目中的偏見，這些偏見可能會隱藏起來，直到基于人工智能的解決方案進入市場。在這一點上，偏見可能很難糾正。

偏見通常來自項目開始時項目團隊或培訓數(shù)據(jù)中的盲點或無意識偏好。AI中的偏見可以表現(xiàn)為不同性別、口音或種族的語音或面部識別表現(xiàn)不均勻。隨著AI在我們的文化中變得越來越普遍，現(xiàn)在是時候解決內在的偏見了。

為了避免項目級別的偏見，在建設定義目標、路線圖、度量和算法團隊時需要積極保證多樣性。建設一個多樣化的數(shù)據(jù)人才團隊說起來容易做起來難，但風險很高。如果你團隊的內部構成不代表潛在客戶的外部構成，那么最終產品的風險只是為一小部分人工作，或者對他們有吸引力，而錯過了一個面向大眾市場的機會，或者更糟——偏見可能讓AI具備現(xiàn)實世界中的歧視。

5、必要時，實施數(shù)據(jù)安全保障

并非每個數(shù)據(jù)項目都使用個人身份信息(PII)或敏感數(shù)據(jù)。對于利用這類信息的解決方案，數(shù)據(jù)安全性比以往任何時候都更重要，特別是在處理客戶的PII、財務或政府記錄或用戶生成的內容時。越來越多的政府法規(guī)規(guī)定企業(yè)必須怎樣處理客戶信息。

保護這些機密數(shù)據(jù)可以保護你和你的客戶的信息。對實踐保持透明和道德準則，并堅持你的服務條款，這將給你帶來競爭優(yōu)勢。不這樣做會讓你面臨丑聞和品牌負面影響的風險。

6、選擇合適的技術

你的訓練數(shù)據(jù)越復雜或微妙，結果就越好。大多數(shù)組織都需要大量高質量、快速且大規(guī)模的訓練數(shù)據(jù)。為了實現(xiàn)這一點，他們必須構建一個數(shù)據(jù)渠道，以更新模型所需的速度交付足夠的數(shù)據(jù)量。這就是為什么，采用正確的數(shù)據(jù)注釋技術是至關重要的。

你選擇的工具必須能夠為你的項目處理適當?shù)臄?shù)據(jù)類型，允許靈活的標記工作流設計，可管理單個注釋器的質量和吞吐量，并提供ML輔助的數(shù)據(jù)標記來增強人工注釋器的性能。

制定策略保障AI項目成功

IHS Markit最近的一項研究顯示，87%的組織正在采用至少一種形式的變革性技術，比如人工智能，但只有26%的組織認為已經具備了適當?shù)纳虡I(yè)模式，可以從這些技術中獲取全部價值。

創(chuàng)建一個可靠的訓練數(shù)據(jù)策略是獲取AI價值的第一步。包括設置預算、確定數(shù)據(jù)源、確保質量和保證安全性。清晰的數(shù)據(jù)策略還有助于提供大多數(shù)ML模型定期更新所需的穩(wěn)定的數(shù)據(jù)渠道。單獨的訓練數(shù)據(jù)策略并不能保證AI的成功，但它可以幫助企業(yè)更好地利用AI帶來的紅利。

標簽：機器學習訓練數(shù)據(jù)

版權申明：本站文章部分自網絡，如有侵權，請聯(lián)系：west999com@outlook.com
特別注意：本站所有轉載文章言論不代表本站觀點！
本站所提供的圖片等素材，版權歸原作者所有，如需使用，請與原作者聯(lián)系。

上一篇:開放銀行到底都開放了什么？

下一篇:更快更準的未來治療，AI在這5個方面交出滿意答卷

最新資訊

熱門推薦

中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

制定機器學習訓練數(shù)據(jù)策略的6個技巧