中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

深度思考:從BERT看大規(guī)模數(shù)據(jù)的無監(jiān)督利用

2019-02-19    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

在擊敗 11 個 NLP 任務的 State-of-the-art 結果之后,BERT 成為了 NLP 界新的里程碑, 同時打開了新的思路: 在未標注的數(shù)據(jù)上深入挖掘,可以極大地改善各種任務的效果。數(shù)據(jù)標注是昂貴的,而大量的未標注數(shù)據(jù)卻很容易獲得。

在分類中,標簽表示訓練示例所屬的類; 在回歸中,標簽是對應于該示例的實值響應。 大多數(shù)成功的技術,例如深度學習,需要為大型訓練數(shù)據(jù)集提供 ground truth 標簽;然而,在許多任務中,由于數(shù)據(jù)標注過程的高成本,很難獲得強有力的監(jiān)督信息。 因此,希望機器學習技術能夠在弱監(jiān)督下工作。

這不可避免地導致我們重新考慮弱監(jiān)督學習的發(fā)展方向。 弱監(jiān)督學習的主要目標是僅使用有限量的標注數(shù)據(jù),和大量的未標注數(shù)據(jù),來提升各項任務的效果。

弱監(jiān)督最大的難點在于如何用少量的標注數(shù)據(jù),和為標注數(shù)據(jù)來有效地捕捉數(shù)據(jù)的流形。目前的一些解決方案在面對復雜的數(shù)據(jù)時,比較難準確地還原數(shù)據(jù)的流形。但是 BERT 通過大量的預訓練,在這方面有著先天的優(yōu)勢。

因而,BERT 憑借對數(shù)據(jù)分布的捕獲是否足以超越傳統(tǒng)半監(jiān)督的效果?又或者,BERT 能否有與半監(jiān)督方法有效地結合,從而結合兩者優(yōu)勢?

弱監(jiān)督

通常,有三種類型的弱監(jiān)督。第一種是不完全監(jiān)督,即只有一個(通常很小的)訓練數(shù)據(jù)子集用標簽給出,而其他數(shù)據(jù)保持未標注。 這種情況發(fā)生在各種任務中。 例如,在圖像分類中,ground truth 標簽由人類注釋者給出;很容易從互聯(lián)網(wǎng)上獲取大量圖像,而由于人工成本,只能注釋一小部分圖像。

第二種類型是不精確監(jiān)督,即僅給出粗粒度標簽。 再次考慮圖像分類任務。 期望使圖像中的每個對象都注釋;但是,通常我們只有圖像級標簽而不是對象級標簽。

第三種類型是不準確監(jiān)督,即給定的標簽并不總是真實的。 出現(xiàn)這種情況,例如當圖像注釋器粗心或疲倦時,或者某些圖像難以分類。

對于不完全監(jiān)督,在這種情況下,我們只給予少量的訓練數(shù)據(jù),并且很難根據(jù)這樣的小注釋來訓練良好的學習 然而,好的一面是我們有足夠的未標注數(shù)據(jù)。 這種情況在實際應用中經(jīng)常發(fā)生,因為注釋的成本總是很高。

通過使用弱監(jiān)督方法,我們嘗試以最有效的方式利用這些未標注的數(shù)據(jù)。有兩種主要方法可以解決這個問題,即主動學習和半監(jiān)督學習。兩者的明確區(qū)別在于前者需要額外的人為輸入,而后者不需要人為干預。

主動學習(Active Learning)

主動學習假設可以向人類從查詢未標注數(shù)據(jù)的 ground truth。目標是最小化查詢的數(shù)量,從而最大限度地減少人工標簽的工作量。換句話說,此方法的輸出是:從所有未標注的數(shù)據(jù)中,找到最有效的數(shù)據(jù)點,最值得標注的數(shù)據(jù)點然后詢問 ground truth。

例如,可能有一個距離決策邊界很遠的數(shù)據(jù)點,具有很高的正類可信度,標注這一點不會提供太多信息或改進分類模型。但是,如果非常接近分離閾值的最小置信點被重新標注,則這將為模型提供最多的信息增益。

更具體地說,有兩種廣泛使用的數(shù)據(jù)點選擇標準,即信息性和代表性。信息性衡量未標注實例有助于減少統(tǒng)計模型的不確定性,而代表性衡量實例有助于表示輸入模式結構的程度。

關于信息性,有兩種主要方法,即不確定性抽樣(Uncertainty sampling)和投票機制(query-by-committee)。 前者培訓單個分類器,然后查詢分類器 confidence 最低的未標注數(shù)據(jù)。 后者生成多個分類器,然后查詢分類器最不相同的未標注數(shù)據(jù)。

關于代表性,我們的目標是通常通過聚類方法來利用未標注數(shù)據(jù)的聚類結構。

半監(jiān)督學習(Semi-Supervised Learning)

另一方面,半監(jiān)督學習則試圖在不詢問人類專家的情況下利用未標注的數(shù)據(jù)。 起初這可能看起來反直覺,因為未標注的數(shù)據(jù)不能像標注數(shù)據(jù)一樣,直接體現(xiàn)額外的信息。

然而,未標注的數(shù)據(jù)點卻存在隱含的信息,例如,數(shù)據(jù)分布。新數(shù)據(jù)集的不斷增加以及獲得標簽信息的困難使得半監(jiān)督學習成為現(xiàn)代數(shù)據(jù)分析中具有重要實際意義的問題之一。

半監(jiān)督學習的最主要假設:數(shù)據(jù)分布中有可以挖掘的的信息。

圖 1 提供了直觀的解釋。如果我們必須根據(jù)唯一的正負點進行預測,我們可以做的只是隨機猜測,因為測試數(shù)據(jù)點正好位于兩個標注數(shù)據(jù)點之間的中間位置;如果我們被允許觀察一些未標注的數(shù)據(jù)點,如圖中的灰色數(shù)據(jù)點,我們可以高可信度地預測測試數(shù)據(jù)點為正數(shù)。雖然未標注的數(shù)據(jù)點沒有明確地具有標簽信息,但它們隱含地傳達了一些有助于預測建模的數(shù)據(jù)分布信息。

 

▲ Figure 1 為標注數(shù)據(jù)分布對分類的幫助 [12]所有半監(jiān)督算法都有兩個主要假設,即流形假設和聚類假設。前者假設數(shù)據(jù)位于流形上,因此,附近的實例具有類似的預測。 而后者假設數(shù)據(jù)具有固有的集群結構,因此落入同一集群的實例具有相同的類標簽。

 

簡而言之,類似的數(shù)據(jù)點應該具有相似的輸出,我們假設存在數(shù)據(jù)間點間關系,這些關系可以通過未標注的數(shù)據(jù)顯示出來。

Self-Training

下面我們詳細看一下各類的半監(jiān)督方法。說到半監(jiān)督學習,我們不得不提到自我訓練方案(Self-training)。

Self-training 通過自己的預測結果中信心最高的樣本來進行 Bootstrapping。也就是說,原始分類器首先對測試集進行一輪預測,并將最自信的預測添加到訓練集中。選擇最自信的預測通常基于預定義的閾值,然后使用新的擴大訓練集作為輸入重復訓練過程,并將整個過程迭代到某個終止條件。

我們可以參考圖 2 來對比 Self-training 和常規(guī)的 Expectation Maximisation (EM) 方法。

 

▲ Figure 2 Self-training 流程 [12]該方法是作為現(xiàn)有訓練流程的 Wrapper 實現(xiàn)的。然而,這種方法的缺點是它是啟發(fā)式的,這意味著它們可能會加劇錯誤。例如,第一個模型錯誤地預測樣本具有高可信度,可能是由于標簽噪聲等,這在現(xiàn)實世界的任務中非常常見。這將影響所有后續(xù)迭代,并且不會有自校正機制,因此錯誤將無論如何傳播。

 

除了自我訓練,半監(jiān)督學習的許多其他版本和類別得到發(fā)展,一些有著非常悠久的歷史。 還有四種其他主要類別的半監(jiān)督學習方法,即生成方法(Generative Methods),基于圖的方法(Graph-based Methods),低密度分離方法(Low-density Separation)和基于分歧的方法(Disagreement-based Methods)。我們將選取其中幾種方法進行深入研究,以及不同方法的發(fā)展。

下面可以看到幾種不同方法的發(fā)展歷程:

 

▲ Figure 3 生成方法的發(fā)展歷程

▲ Figure 4 圖方法的發(fā)展歷程

▲ Figure 5 Low-density Separation 的發(fā)展歷程

▲ Figure 6 Disagreement Methods 的發(fā)展歷程

▲ Figure 7 綜合方法的發(fā)展歷程Generative Methods

 

生成方法假設標注和未標注數(shù)據(jù)都是從相同的固有模型生成的。 因此,未標注實例的標簽可以被視為模型參數(shù)的缺失值并且通過諸如期望最大化(Expectation-Maximisation)算法的方法來估計。

Mixture of Experts

早在 1996 年,就已經(jīng)在半監(jiān)督學習領域進行了研究。學習基于總數(shù)據(jù)可能性的最大化,即基于標注和未標注數(shù)據(jù)子集。兩種不同的EM學習算法,不同之處在于應用于未標注數(shù)據(jù)的EM形式。 基于特征和標簽的聯(lián)合概率模型的分類器是“專家的混合”結構,其等同于徑向基函數(shù)(RBF)分類器,但是與 RBF 不同,其適合于基于可能性的訓練。

Hybrid Discriminative/Generative

現(xiàn)有的半監(jiān)督學習方法可分為生成模型或判別模型。而這個方法側重于概率半監(jiān)督分類器設計,并提出了一種利用生成和判別方法的混合方法。在原有的生成模型(標注樣本上訓練得到)新引入偏差校正模型;谧畲箪卦,結合生成和偏差校正模型構建混合模型。該方法結合了判別和生成方法的優(yōu)點。

Graph Based Methods

在圖 8 中,我么可以一眼看出問號代表的樣本,有很大的可能性為正樣本。這充分體現(xiàn)出未標注數(shù)據(jù)的分布對于分類效果提升的幫助。

 

▲ Figure 8 數(shù)據(jù)分布對分類的影響 [5]我們可以把分類任務定義為圖結構,構建連接相似數(shù)據(jù)點的圖,隱藏/觀察到的標簽為圖節(jié)點上的隨機變量(圖便成為 MRF)。類似的數(shù)據(jù)點具有相似的標簽,信息從標注的數(shù)據(jù)點“傳播”。如圖 9 所示:

 

 

▲ Figure 9 根據(jù)相似度建立圖 [7]各個樣本為圖的節(jié)點,鏈接相似的樣本。目標則是最小化整體能量,能量的定義如下圖所示:

 

 

 

給出的信息是 n×n 相似度矩陣。應該已經(jīng)有一些方法來確定所有樣本之間的相似性 - 并且已經(jīng)在這個階段給出。有許多不同的方法可以確定相似性,每種方法都有自己的優(yōu)點和缺點。

從圖 10 我們可以形象的看出優(yōu)化能量的過程,紅色邊為高能量,最終目的則是要減少高能量的邊。

 

▲ Figure 10 不同狀態(tài)的能量 [7]過程可以定義為離散馬爾可夫隨機場(Discrete Markov Random Fields)如圖 11:

 

 

▲ Figure 11 離散馬爾科夫隨機場 [7]Learning using Graph Mincuts

 

圖方法中比較早的研究,此研究相對于較早方法關鍵的突破在于可以在指數(shù)復雜度優(yōu)化問題上實現(xiàn)多項式運算時間。這里用的相似度為 Nearest Neighbour(NN),并優(yōu)化最近鄰的一致性。潛在的隨機場為我們的方法提供了一個連貫的概率語義,但是本此方法僅使用場的均值,其特征在于諧波函數(shù)和譜圖理論。

半監(jiān)督學習問題的關鍵是先驗假設的一致性,這意味著:(1)附近的點可能具有相同的標簽; (2)同一結構上的點(通常稱為簇或歧管)可能具有相同的標簽。值得注意的是第一點是 Local,而第二點是 Global。傳統(tǒng)監(jiān)督學習算法,例如 k-NN,通常僅取決于局部一致性的第一假設。

預訓練預訓練與多任務學習

通過以上對半監(jiān)督學習中不同方法的分析,我們可以看到,半監(jiān)督的核心問題是數(shù)據(jù)流形構成不準確,在樣本數(shù)量少的時候更是如此。如果我們可以準確地定義數(shù)據(jù)的分布,我們更有可能對未出現(xiàn)過的數(shù)據(jù)做出更好的預測。

BERT 通過大量的預訓練,空間相對穩(wěn)定,可以把流形更加清楚地構造出來。在半監(jiān)督任務中可以加入 BERT 提供的流形先驗,做整體的約束。我們可以用下圖來直觀地表示效果:

 

▲ Figure 12 BERT 理論上對數(shù)據(jù)流形的增強效果 [14]近日微軟發(fā)布的 MT-DNN,在 GLUE 的 11 項 NLP 任務中有 9 項超越了 BERT!MT-DNN 在 BERT 預訓練的基礎上,加入了多任務學習(Multi-task Learning)的方法,不像 BERT 只采用了未標注數(shù)據(jù)來做預訓練,MT-DNN 還利用了其他相關任務的監(jiān)督數(shù)據(jù),與 BERT 預訓練進行互補,并且減輕對特定任務的過擬合。

 

實驗

為了對比 BERT 在半監(jiān)督中的效果,我們做了一些實驗來對比:傳統(tǒng)的監(jiān)督 Naïve Bayes 分類器,半監(jiān)督 Naïve Bayes 分類器,BERT 和半監(jiān)督 BERT。

這里用到的半監(jiān)督方法是 Self-training/Label Propagation。我們使用相同的數(shù)據(jù)集 – 20 Newsgroups Dataset,并使用相同數(shù)量的訓練和測試集 1,200 和 10,000。實驗結果如圖 13 所示:

 

▲ Figure 13 20 Newsgroup 分類結果可以看到加入了 BERT 之后效果非常明顯,BERT-base 已經(jīng)在原有的半監(jiān)督方法的基礎上面提升了接近 10%,說明 BERT 本身可以更加好地捕獲數(shù)據(jù)流形。此外,加入了半監(jiān)督方法的 BERT 在原有的基礎上有更好的效果,半監(jiān)督跟預訓練的方法還有結合互補的潛力。

 

總結

在深入了解弱監(jiān)管的歷史和發(fā)展之后,我們可以看到這一研究領域的局限性和改進潛力。數(shù)據(jù)標簽成本總是很昂貴,因為需要領域專業(yè)知識并且過程非常耗時,尤其是在 NLP 中,文本理解因人而異。但是,我們周圍存在大量(幾乎無限量)未標注的數(shù)據(jù),并且可以很容易地提取。

因此,我們始終將持續(xù)利用這種豐富資源視為最終目標,并試圖改善目前的監(jiān)督學習表現(xiàn)。從 ULMFiT 等語言模型到最近的 BERT,遷移學習是另一種利用未標注數(shù)據(jù)的方法。通過捕獲語言的結構,本質上是另一種標簽形式。在這里,我們建議未來發(fā)展的另一個方向 - 將遷移學習與半監(jiān)督學習相結合,通過利用未標注的數(shù)據(jù)進一步提高效果。

參考文獻

[1] Blum, A. and Chawla, S. (2001). Learning from Labeled and Unlabeled Data using Graph Mincuts.

[2] Chapelle, O. and Zien, A. (2005). Semi-Supervised Classi?cation by Low Density Separation.

[3] Fujino, A., Ueda, N. and Saito, K. (2006). A Hybrid Generative/Discriminative Classifier Design for Semi-supervised Learing. Transactions of the Japanese Society for Artificial Intelligence, 21, pp.301-309.

[4] Gui, J., Hu, R., Zhao, Z. and Jia, W. (2013). Semi-supervised learning with local and global consistency. International Journal of Computer Mathematics, 91(11), pp.2389-2402.

[5] Jo, H. (2019). ?-training: Simple Semi-Supervised Text Classi?cation using Pretrained Word Embeddings.

[6] Kipf, T. (2017). Semi-Supervised Classification with Graph Convolutional Networks.

[7] Li, Q. (2018). Deeper Insights into Graph Convolutional Networks for Semi-Supervised Learning.

[8] Liu, X., He, P., Chen, W. and Gao, J. (2019). Multi-Task Deep Neural Networks for Natural Language Understanding.

[9] Miyato, T., Maeda, S., Ishii, S. and Koyama, M. (2018). Virtual Adversarial Training: A Regularization Method for Supervised and Semi-Supervised Learning. IEEE Transactions on Pattern Analysis and Machine Intelligence, pp.1-1.

[10] NIGAM, K. (2001). Text Classi?cation from Labeled and Unlabeled Documents using EM.

[11] Triguero, I., García, S. and Herrera, F. (2013). Self-labeled techniques for semi-supervised learning: taxonomy, software and empirical study. Knowledge and Information Systems, 42(2), pp.245-284.

[12] Zhou, Z. (2017). A brief introduction to weakly supervised learning. National Science Review, 5(1), pp.44-53.

[13] Zhu, X. (2003). Semi-Supervised Learning Using Gaussian Fields and Harmonic Functions.

[14] Zhuanlan.zhihu.com. (2019). [online] Available at: https://zhuanlan.zhihu.com/p/23340343 [Accessed 18 Feb. 2019].

標簽: 互聯(lián)網(wǎng) 數(shù)據(jù)分析

版權申明:本站文章部分自網(wǎng)絡,如有侵權,請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:全面了解大數(shù)據(jù)“三駕馬車”的開源實現(xiàn)

下一篇:2019年大數(shù)據(jù)發(fā)展將走向何方