中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

分析和預防機器學習中的無意識偏差

2018-08-31    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

本文要點

• 深度學習算法被越來越多地運用到影響生活的決策中,如招聘和解聘員工、刑事司法系統(tǒng)。

• 機器學習實際上會放大偏差。研究人員發(fā)現(xiàn),在人做飯的圖片中,67%是女性,而算法把84%的圖片標記為女性。

• Pro Publica發(fā)現(xiàn),黑人被告(錯誤率45%)的假陽性率幾乎是白人被告(24%)的兩倍。

• Buolamwini和Gebru在研究中發(fā)現(xiàn),ML分類器對男性分類的效果好于對女性分類的效果,對亮膚色人分類的效果好于對暗膚色人分類的效果。

• AI法規(guī),如1967年的年齡歧視和就業(yè)法案和平等信用機會法,雖然不完美,但比什么保護都沒有強。

本文以Rachel Thomas在QCon.ai 2018大會上的主題演講“分析和預防機器學習中的無意識偏差”為基礎。Thomas在fast.ai工作,這是一個非營利性的研究實驗室,和舊金山大學的數(shù)據研究所合作,向開發(fā)者社區(qū)提供深度學習培訓。該實驗室提供了一項免費課程,名稱“面向編碼人員的實用機器學習”。

Thomas探討了機器學習偏差的三個案例、偏差來源以及如何避免。

案例1:用于招聘、解聘和刑事司法系統(tǒng)的軟件

深度學習算法在影響生活的決策中運用得越來越多,如招聘、解聘和刑事司法系統(tǒng)。編碼偏差會帶來決策陷阱和風險。

2016年,Pro Publica研究了COMPAS再犯算法。該算法用于預測犯人或被告人被釋放之后再次犯罪的可能性。該算法被用于保釋、量刑和假釋。Pro Publica發(fā)現(xiàn),黑人被告(錯誤率45%)的假陽性率(被標記為“高風險”但沒有再犯)是白人被告(24%)的將近兩倍。

在這個算法中,種族不是一個顯式變量,但種族和性別被潛在編碼到許多其他的變量中,如我們在哪里生活,我們的社交網絡,我們受到的教育。即使有意識地不看種族或性別,也不能保證沒有偏差——裝瞎子沒用。雖然懷疑COMPAS的準確性,但威斯康星州最高法院去年批準了該方法的使用。Thomas指出,那個算法還在使用真是令人震驚。

重要的是要有一個好的基線,讓我們可以知道怎么樣才算性能好,并且,有助于說明更簡單的模型可能更有效。不能因為某個東西復雜,就認為那有用。人工智能(AI)在預測警務中的使用是一個問題。

去年,Taser收購了兩家AI公司,它在向警察部門推銷預測軟件。該公司占據著美國執(zhí)法記錄儀市場80%的份額,因此,他們有大量的視頻數(shù)據。此外,Verge在二月份透露,在過去的六年中,新奧爾良警察已經在一個絕密項目中使用來自Palantir的預測警務軟件,甚至是市政委員都不知道。對于類似這樣的應用,需要保持警惕,因為它們的使用不透明。因此有些私人公司,他們不會像警察部門那樣遵守國家/公共記錄法。經常,他們在法庭上受到保護,不需要透露他們在做什么。

此外,在警方現(xiàn)有的數(shù)據中存在大量的種族偏見,因此,這些算法用來學習的數(shù)據集從一開始就存在偏差。

最后,計算機視覺在運用于有色人種時一再失敗。Thomas表示,這是一個會導致出錯的可怕組合。

案例2:計算機視覺

計算機視覺通常不善于識別有色人種。其中一個最聲名狼藉的例子來自2015年。可以自動標注照片的谷歌照片在分類畢業(yè)照和建筑圖片時很有用。但是,它也把黑人標記成了大猩猩。

2016年,Beauty.AI網站使用AI機器人作為選美比賽的裁判。人們發(fā)現(xiàn),與皮膚顏色深的人相比,皮膚顏色淺的人會被判定為更具吸引力。2017年,使用神經網絡創(chuàng)建照片濾鏡的FaceApp創(chuàng)建了一個火辣濾鏡,可以使人的膚色變淺,賦予他們更多歐洲人的特征。Rachel在Twitter上展示了一個用戶的真實面貌以及App創(chuàng)建的火辣版本。

 

 

Thomas談到了Joy Buolamwini和Timnit Gebru發(fā)表的一篇學術論文,他們評價了來自微軟、IBM和Face++(一家中國公司)的幾款商用計算機視覺分類器。他們發(fā)現(xiàn),分類器對于男性的效果好于女性,對于膚色淺的人效果好于膚色深的人。差距相當明顯,對于淺膚色男性,錯誤率基本為0%,而對于深膚色女性,錯誤率在20%到35%之間。Buolamwini和Gebru還按照膚色深淺分析了女性錯誤率。錯誤率隨著膚色加深而增加。膚色最深的類別,錯誤率在25%到47%之間。

案例3:詞嵌入

Thomas研究的第三個案例是類似谷歌翻譯這樣的產品中的詞嵌入。

比如有兩個句子“She is a doctor. He is a nurse.”。使用谷歌翻譯把他們翻譯成土耳其語,然后再譯回英語。性別就反轉了,那兩個句子現(xiàn)在變成了“He is a doctor. She is a nurse.”。土耳其語中的單數(shù)代詞不分性別,翻譯成英語時會按照固定的模式。其他單數(shù)代詞不分性別的語言也會出現(xiàn)這種情況。按照記錄,有許多單詞的翻譯定式支持女性懶惰、女性憂傷等許多性格特征。

Thomas解釋了為什么會出現(xiàn)這種情況。計算機和機器學習把圖片和單詞當成數(shù)值來看待。同樣的方法被用于語音識別和圖片標注。這些算法的工作原理是,它們讀取提供的圖片,輸出類似“穿黑襯衫的男性在彈吉他”或者“穿橘色背心的建筑工人正在路上施工”這樣的東西。在類似谷歌智能回復這樣的產品中,同樣的機制可以自動提供郵件回復建議——如果有人詢問你的假期計劃,那么智能回復會建議,你可能想說“還沒有計劃”或者“我正準備要發(fā)給你”。

Thomas舉了fast.ai課程“面向程序員的實用深度學習”中的一個例子。在這個例子中,我們提供單詞,獲得一副圖片。提供單詞“tench(丁鯛)”(一種魚)和“net(網)”,它就會返回一張丁鯛在網中的圖片。該方法會仔細搜索一串單詞,但對于相似的單詞,它不會告訴我們那意味著什么。因此,雖然“cat”和“catastrophe(災難)”可能是有順序的,但是它們之間沒有任何語義關聯(lián)。

一個更好的方法是把詞表示成向量。詞嵌入高維向量。她舉了“kitten(小貓)”、“puppy(小狗)”和“duckling(小鴨子)”的例子,這幾個詞可能彼次之間都很接近,因為它們都是動物寶寶。但是,“avalanche(雪崩)”可能就遠,因為其因為它與其他詞之間沒有真正的聯(lián)系。

 

 

關于詞向量的更多信息,請查閱Adrian Colyer的文章“詞向量的神奇力量”。

Word2Vec

Word2Vec是谷歌發(fā)布的一個詞嵌入庫。還有其他類似的庫,如Facebook的fastText,斯坦福大學自然語言處理團隊的GloVe。訓練這些庫需要大量的數(shù)據、時間和計算能力,不過,這些團隊已經完成了這項工作,并且發(fā)布了自己的庫供公眾使用,因此還是很方便的。由于是已經訓練過的版本,所以用起來就容易多了。GitHub上提供了所有這三個項目的代碼,Thomas自己的詞嵌入工作坊也是如此。你可以使用Jupyter Notebook運行她的程序,并嘗試不同的詞。

相似的詞,“puppy(小狗)”和“dog(狗)”或“queen(王后)”和“princess(王妃)”,在距離上非常接近。當然,不相關的詞,如“celebrity(名人)”和“dusty(滿是灰塵的)”或“kitten(小貓)”和“airplane(飛機)”的距離就比較遠。該程序使用了余弦相似度,而不是歐氏距離,因為你不會希望在高維空間中使用歐式距離。

你可以使用這種方法獲取語言的某些信息。你還可以找到距離特定目標單詞最近的10個單詞。例如,如果你查找距離“swimming(正在游泳)”最近的單詞,那么你會獲得類似“swim(游泳)”、“rowing(劃船)”、“diving(潛水)”、“volleyball(排球)”和“pool(池塘)”這樣的單詞。單詞類比也有用。它們捕獲類似“西班牙之于馬德里正如意大利之于羅馬”這樣的東西。不過,這里有許多地方會產生偏差。例如,“man(男性)”和“genius(天賦)”之間的距離比“woman(女性)”和“genius(天賦)”之間的距離小得多。

研究人員更系統(tǒng)地研究了詞籃。比如,他們有一籃或一組花:“clover(三葉草)”、“poppy(罌粟花)”、“marigold(萬壽菊)”、“iris(鳶尾花)”等,他們還有一籃昆蟲:“locust(蝗蟲)”、“spider(蜘蛛)”、“bedbug(臭蟲)”、“maggot(蛆)”等。他們有一籃令人愉快的詞(health、love、peace、 cheer等)和一籃令人不愉快的詞(abuse、filth、murder、death等)。研究人員會查看不同詞籃之間的距離,他們發(fā)現(xiàn),花和令人愉快的詞距離比較近,而昆蟲和令人不愉快的詞距離比較近。

到目前為止,所有這些似乎都是合理的,但是,研究人員查看了典型的白人名字和典型的黑人名字。他們發(fā)現(xiàn),黑人名字和令人不愉快的單詞距離更近,而白人名字和令人愉快的單詞距離更近,這是偏差。在所有的單詞組中,他們發(fā)現(xiàn)了許多種族和性別偏差,比如,“父親之于醫(yī)生正如母親之于護士”,“男性之于計算機程序員正如女性之于操持家務者”。這些類比是在Word2Vec和GloVe中發(fā)現(xiàn)的。

Thomas探討了另一個偏差的例子。在一個酒店評價系統(tǒng)中,墨西哥的酒店排名較低,因為“Mexican(墨西哥)”的詞嵌入有負面屬性。這些詞嵌入是用一個很大的文本語料庫訓練的。這些文本包含許多種族和性別偏差,在我們希望詞嵌入可以學習語義時,它們同時學習了這種聯(lián)系。

機器學習會放大偏差

實際上,機器學習會放大偏差。其中一個例子在文章“男性也喜歡購物:使用語料庫層約束減少性別偏差放大”中進行了討論,該文考查了一個數(shù)據集中圖片的可視化語義角色標簽。研究人員發(fā)現(xiàn),在人做飯的圖片中,67%的是女性,但是該算法把84%的圖片標注為女性。機器學習算法有放大我們在真實世界看到的東西的風險。

Thomas提到了Zeynep Tufekci的研究,他提供了有關技術與社會的交集的見解。Tufekci在推特中寫道,“許多人告訴我,不管起始點在哪,YouTube自動播放結束時都是白人至上主義者視頻,這真是令人吃驚。”下面是一些例子:

• “我在觀看一個葉風機視頻,三個視頻之后是白人至上論。”

• “我在觀看一個關于種植園奴隸制起源的學術討論,下一個視頻來自大屠殺否認者。”

• “我和女兒在看一個關于南非前總統(tǒng)曼德拉的視頻,下一個視頻是說一些類似‘南非黑人是真正的種族主義者和罪犯’這樣的內容。”

非?膳。

Renée DiResta是一名虛假信息及宣傳傳播專家,她幾年前注意到,如果你在Facebook上加入了一個反接種疫苗小組,那么該網站還會向你推薦有關自然癌癥療法、化學制劑、Flat Earth和各種各樣的反科學團體。這些網絡做了許多促進此類宣傳的工作。

Thomas提到了一篇學術論文,關于失控反饋循環(huán)如何用于預測執(zhí)法。如果軟件或分析預測一個地區(qū)將會有更多的犯罪活動,警察局可能向那里派出更多警官——但是,由于那里有了更多警官,所以他們可能會逮捕更多人,這可能會讓我們認為那里有更多犯罪,這又會讓我們向那里派出更多警官。我們很容易陷入這種失控反饋循環(huán)。

Thomas建議,我們把某些變量包含在模型中時要進行道德方面的思考。雖然我們可以訪問數(shù)據,即使那些數(shù)據可以提高我們模型的性能,但使用它合乎道德嗎?符合我們社會的價值觀嗎?甚至是工程師都需要就他們從事的工作提出道德問題,并且應該能夠回答與之有關的道德問題。我們將會看到,社會對此的容忍度會越來越低。

iRobot數(shù)據科學負責人Angela Bassa說,“不是數(shù)據可能會有偏差。數(shù)據就是有偏差。如果你想使用數(shù)據,那么你就需要了解它是如何產生的。”

解決詞嵌入中的偏差

即使我們在模型開發(fā)早期就消除偏差,但是,可以滲入偏差的地方如此之多,我們需要一直對偏差保持警惕。

使用更具代表性的數(shù)據集是一個解決方案。Buolamwini和Gebru發(fā)現(xiàn)了上述計算機視覺產品中的偏差缺陷,拼合出一個能更好的表示不同膚色男性和女性的數(shù)據集。Gender Shades提供了這份數(shù)據集。該網站還提供了他們的學術論文以及一段有關他們工作的短視頻。

Gebru和其他人最近還發(fā)表了一篇論文“數(shù)據集的數(shù)據表”。該論文提供了原型數(shù)據表,用于記錄數(shù)據集特征和元數(shù)據,可以反映出數(shù)據集如何創(chuàng)建、如何構成、做過什么處理、數(shù)據集維護需要做哪些工作以及任何法律或道德考慮。了解用于構建模型的數(shù)據集很重要。

Thomas強調,提前考慮意外的結果是我們的工作?紤]下流氓、騷擾者或者威權主義政府如何使用我們構建的平臺。我們的平臺如何用于宣傳或虛假信息?當Facebook宣布他們將開始威脅建模時,許多人問他們,為什么在過去的14年不那樣做。

還有一種觀點,就是不要存儲我們不需要的數(shù)據,那樣就沒人可以拿走那些數(shù)據。

我們的工作是,在這樣的情況出現(xiàn)之前,考慮我們的軟件可能如何被濫用。信息安全領域的文化就是以此為基礎的。從現(xiàn)在開始,我們需要更多地考慮事情會怎樣變壞。

有關AI的問題

Thomas列出了一些有關AI的問題。

• 數(shù)據有什么偏差?所有數(shù)據都有某種偏差,我們需要知道那是什么以及數(shù)據是如何創(chuàng)建的。

• 代碼和數(shù)據可以審核嗎?是開源的嗎?使用閉源的專有算法來做有關醫(yī)療保健、刑事司法及招聘誰或解聘誰的決定是有風險的。

• 不同子組的錯誤率是什么?如果我們沒有一個有代表性的數(shù)據集,那么我們可能注意不到我們的算法在某個子組上性能糟糕。對于數(shù)據集中的所有子組,我們的抽樣規(guī)模是否足夠大?對這一點進行檢查很重要,就像Pro Publica對于考慮種族的再犯算法所做的那樣。

• 一個簡單的、基于規(guī)則的可選方案的準確率是多少?有一個好的基準真得很重要,不管我們研究的是什么問題,這都應該是第一步,因為如果有人問,95%的準確率是否夠好,我們需要能夠回答。答案是否正確取決于語境。我想到了再犯算法,他不比一個雙變量的線性分類器更高效。知道簡單的可選方案是什么是有好處的。準備采用什么程序來處理申訴或錯誤?對于影響人們生活的東西,我們需要一個人性化申訴程序。在公司內,作為工程師,我們相對而言有更大的能力提出這些問題。

• 構建它的團隊多元化情況如何?構建我們的技術的團隊應該能夠代表將會受到它影響的人,逐漸地會變成我們所有人。

研究表明,多元化團隊表現(xiàn)更好,相信我們是精英的確會增加偏差。不斷地面談會花費許多時間和精力。Julia Evans的博文“進行小規(guī)模的文化變革”就有很好的借鑒意義。

先進技術代替不了好政策。Thomas談到,fast.ai世界各地的學生都在把深度學習運用到解決社會問題,如拯救熱帶雨林或改善對帕金森病患者的護理。

有一些相關的法規(guī),如1967年頒布的年齡歧視與就業(yè)法案和平等信用機會法案。這還不完善,但總比沒有任何保護好,因為我們真得需要考慮,作為一個社會,我們希望保護什么權力。

Thomas在演講總結中表示,檢查偏差是一項永遠也做不完的工作。我們可以按照一些步驟得出解決方案,但是偏差會從許多地方滲入進來。沒有一個檢查清單可以保證偏差已經消失,我們無須再擔心。對于那個東西,我們要一直保持警惕。

作者:Srini Penchikala 目前是德克薩斯奧斯汀的一名高級軟件架構師。

 

查看英文原文:Analyzing and Preventing Unconscious Bias in Machine Learning

 

標簽: 安全 代碼 谷歌 開發(fā)者 排名 搜索 網絡 信息安全

版權申明:本站文章部分自網絡,如有侵權,請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:用什么治療新型數(shù)據中心運維管理之“痛”?

下一篇:AI社區(qū)有多排外?「外行人」觀點引發(fā)爭議