中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

最通俗的機器學(xué)習(xí)介紹

2018-09-03    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

在本文中,我將描述數(shù)據(jù)分析是如何與機器學(xué)習(xí)相關(guān)的,還將揭開機器學(xué)習(xí)中的一些荒唐和錯誤的說法,并解釋機器學(xué)習(xí)的過程和類型。

 

 

摘要:在本文中,我將描述數(shù)據(jù)分析是如何與機器學(xué)習(xí)相關(guān)的,還將揭開機器學(xué)習(xí)中的一些荒唐和錯誤的說法,并解釋機器學(xué)習(xí)的過程和類型。

如果你不是一個人工智能專家,不要擔(dān)心,我不會提及線性回歸和k-均值聚類。

數(shù)據(jù)分析和機器學(xué)習(xí)

如果你認為大數(shù)據(jù)僅僅是關(guān)于SQL語句查詢和海量的數(shù)據(jù)的話,那么別人也會理解你的,但是大數(shù)據(jù)真正的目的是通過對數(shù)據(jù)的推斷,從數(shù)據(jù)中獲取價值、從數(shù)據(jù)中發(fā)現(xiàn)有用的東西。例如,“如果我降低5%的價格,我將增加10%的銷售量。”

數(shù)據(jù)分析是重要的技術(shù),包括如下方面:

· 描述性分析:確定所發(fā)生的事情。這通常涉及到描述發(fā)生了什么現(xiàn)象的報告。例如,用這個月的銷售額與去年同期進行比較的結(jié)果。

· 特征性分析:解釋現(xiàn)象發(fā)生的原因,這通常涉及使用帶有OLAP技術(shù)的控制臺用以分析和研究數(shù)據(jù),根據(jù)數(shù)據(jù)挖掘技術(shù)來找到數(shù)據(jù)之間的相關(guān)性。

· 預(yù)測性分析:評估可能發(fā)生的事情的概率。這可能是預(yù)測性分析被用來根據(jù)你的工作性質(zhì)、個人興趣愛好,認為你是一個潛在的讀者,以便能夠鏈接到其他的人。

機器學(xué)習(xí)適合于預(yù)測性分析。

 

 

什么是機器學(xué)習(xí)

機器學(xué)習(xí)是人工智能的一個子集,即用機器去學(xué)習(xí)以前的經(jīng)驗。與傳統(tǒng)的編程不同,開發(fā)人員需要預(yù)測每一個潛在的條件進行編程,一個機器學(xué)習(xí)的解決方案可以有效地基于數(shù)據(jù)來適應(yīng)輸出的結(jié)果。

一個機器學(xué)習(xí)的算法并沒有真正地編寫代碼,但它建立了一個關(guān)于真實世界的計算機模型,然后通過數(shù)據(jù)訓(xùn)練模型。

機器學(xué)習(xí)如何工作?

垃圾郵件過濾是一個很好的例子,它利用機器學(xué)習(xí)技術(shù)來學(xué)習(xí)如何從數(shù)百萬封郵件中識別垃圾郵件,其中就用到了統(tǒng)計學(xué)技術(shù)。

例如,如果每100個電子郵件中的85個,其中包括“便宜”和“偉哥”這兩個詞的郵件被認為是垃圾郵件,我們可以說有85%的概率,確定它是垃圾郵件。并通過其它幾個指標(biāo)(例如,從來沒給你發(fā)送過郵件的人)結(jié)合起來,利用數(shù)十億個電子郵件進行算法測試,隨著訓(xùn)練次數(shù)不斷增加來提升準(zhǔn)確率。

事實上,谷歌表示它現(xiàn)在已經(jīng)可以攔截99.99%左右的垃圾郵件。

機器學(xué)習(xí)實例

一般包括以下幾個方面:

· 目標(biāo)影響:主要針對Google和Facebook的目標(biāo)廣告,基于個人興趣愛好,并通過Netflix推薦電影,還通過亞馬遜推薦購物;

· 信用評分:銀行使用收入數(shù)據(jù),從你的居住地、你的年齡和婚姻狀況來預(yù)測你是否會拖欠貸款;

· 信用卡欺詐檢測:用于根據(jù)你之前一些可能的消費習(xí)慣,在線禁止具有欺詐行為的信用卡或借記卡的使用;

· 購物籃分析:根據(jù)數(shù)以百萬個類似顧客的消費習(xí)慣,用來預(yù)測你更可能使用哪些特殊優(yōu)惠政策;

在一個有爭議的案例:美國零售商對使用了25種不同的健康和化妝品產(chǎn)品的顧客的購物籃進行分析,來成功地預(yù)測婦女懷孕,包括非常準(zhǔn)確的預(yù)產(chǎn)期。然而卻事與愿違,當(dāng)一個年輕女孩的父親抱怨說,在女兒被懷孕相關(guān)的特殊優(yōu)惠轟炸后,目的就變成了鼓勵未成年少女懷孕。

 

 

你需要什么

事實上,你是在尋找數(shù)據(jù)中的關(guān)聯(lián)性,但你需要一些領(lǐng)域的專業(yè)知識來驗證結(jié)果。計算機可以找到一個模式,但是只有專家才能驗證它是否具有關(guān)聯(lián)性。

總之,以下是你所需要的:

· 目標(biāo).你正在試圖解決的問題。例如,信用卡被盜了嗎?股票價格會上漲還是下跌?用戶近期最喜歡哪部電影?

· 大量數(shù)據(jù). 例如,為了準(zhǔn)確預(yù)測房屋的價格,你需要詳細列出的歷史價格。

· 專家.你需要一個知道正確答案的領(lǐng)域?qū)<襾眚炞C所產(chǎn)生的結(jié)果,并確認什么時候模型足夠精確。

· 模式.你在尋找數(shù)據(jù)中的模式。如果沒有模式,你可能會有錯誤的或者不完整的數(shù)據(jù)。

機器學(xué)習(xí)的類型

預(yù)測性分析試圖基于歷史數(shù)據(jù)來預(yù)測未來的結(jié)果,最常用的方法被稱為監(jiān)督學(xué)習(xí)。

 

 

機器學(xué)習(xí)的類型有:

· 監(jiān)督學(xué)習(xí):當(dāng)我們需要從過去的數(shù)據(jù)中知道正確答案的時候,但是還需要預(yù)測未來的結(jié)果。例如,利用過去的房價來預(yù)測當(dāng)前和未來的價格。有效地使用基于試錯的統(tǒng)計改進過程,機器依靠對監(jiān)督者提供的一組值的測試結(jié)果來逐步提高準(zhǔn)確性。

· 無監(jiān)督學(xué)習(xí):這里沒有明確的正確答案,但我們想從數(shù)據(jù)中有新的發(fā)現(xiàn)。最常用于對數(shù)據(jù)進行分類或分組,例如,在Spotify上對音樂分類,來幫助推薦你可能想聽的歌曲或是專輯。然后,他們將聽眾分類,看他們是否更可能愿意聽Radiohead或Justin Bieber。

· 強化學(xué)習(xí):不需要一個領(lǐng)域?qū)<,但需要不斷地向預(yù)定目標(biāo)前進。這是一種經(jīng)常部署神經(jīng)網(wǎng)絡(luò)的技術(shù),例如, AphaGo在DeepMind中跟自己打了一百萬場比賽,最終成為了世界冠軍。

機器學(xué)習(xí)過程

不同于未來通過機器學(xué)習(xí)下象棋的場景,目前大多數(shù)機器學(xué)習(xí)是相當(dāng)麻煩的,在下面的圖表中進行了說明:

 

 

在未來很可能機器學(xué)習(xí)將會被應(yīng)用到幫助加快過程,特別是在數(shù)據(jù)收集和清洗領(lǐng)域,但主要步驟仍然存在以下方面:

· 定義問題:正如我在另一篇文章中所指出的那樣,機器學(xué)習(xí)總是從一個明確的問題和目標(biāo)開始;

· 收集數(shù)據(jù):適合的數(shù)據(jù)的數(shù)量和種類越多,機器學(xué)習(xí)模型就會變得越精確。這些數(shù)據(jù)可以來自電子表格、文本文件和數(shù)據(jù)庫,除了商業(yè)上可用的數(shù)據(jù)源之外;

· 準(zhǔn)備數(shù)據(jù):這包括數(shù)據(jù)的清理和解析。刪除或糾正異常值(失控的錯誤值);這經(jīng)常占用總的時間和工作量的60%以上,然后將數(shù)據(jù)分成兩個不同的部分,即訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù);

· 訓(xùn)練模型:針對一組訓(xùn)練數(shù)據(jù)—用于識別數(shù)據(jù)中的模式或相關(guān)性,或者用于做預(yù)測,同時使用重復(fù)的測試和誤差改進方法來逐步地提高模型的精度;

· 評估模型:通過比較結(jié)果與測試數(shù)據(jù)集的準(zhǔn)確度來評估模型。重要的是不要對用于訓(xùn)練系統(tǒng)的數(shù)據(jù)進行模型評估,以確保無偏差的和獨立的測試;

· 部署和改進:這可以涉及到嘗試完全不同的算法或者收集更多種類或更大數(shù)量的數(shù)據(jù)。例如,你可以通過使用房屋所有者提供的數(shù)據(jù)來預(yù)估今后的房屋升值空間,從而提高房價預(yù)測的準(zhǔn)確度;

綜上所述,大多數(shù)機器學(xué)習(xí)過程實際上是循環(huán)的和連續(xù)的,因為更多的數(shù)據(jù)被添加或者情況會有所變化,因為世界從來不會靜止不動,并且總是有改進和提高的空間。

總結(jié)

下圖說明了機器學(xué)習(xí)系統(tǒng)所使用的關(guān)鍵策略:

 

 

總之,任何機器學(xué)習(xí)系統(tǒng)的關(guān)鍵部分就是數(shù)據(jù)?紤]到額外的算法、巧妙的編程和大量的更精確的數(shù)據(jù)的選擇,大數(shù)據(jù)每次都是勝利者。

標(biāo)簽: Google 大數(shù)據(jù) 代碼 電子郵件 谷歌 數(shù)據(jù)分析 數(shù)據(jù)庫 網(wǎng)絡(luò) 優(yōu)惠

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:GDPR將如何影響金融科技行業(yè)?

下一篇:25個機器學(xué)習(xí)面試題,期待你來解答