- 產(chǎn)品
- 產(chǎn)品解決方案
- 行業(yè)解決方案
- 案例
- 數(shù)據(jù)資產(chǎn)入表
- 賦能中心
- 伙伴
- 關于
-
數(shù)據(jù)治理
-
醫(yī)療衛(wèi)生
制造
-
億信動態(tài)
時間:2019-02-20來源:億信華辰瀏覽數(shù):1868次
在擊敗 11 個 NLP 任務的 State-of-the-art 結果之后,BERT 成為了 NLP 界新的里程碑, 同時打開了新的思路: 在未標注的數(shù)據(jù)上深入挖掘,可以極大地改善各種任務的效果。數(shù)據(jù)標注是昂貴的,而大量的未標注數(shù)據(jù)卻很容易獲得。
在分類中,標簽表示訓練示例所屬的類; 在回歸中,標簽是對應于該示例的實值響應。 大多數(shù)成功的技術,例如深度學習,需要為大型訓練數(shù)據(jù)集提供 ground truth 標簽;然而,在許多任務中,由于數(shù)據(jù)標注過程的高成本,很難獲得強有力的監(jiān)督信息。 因此,希望機器學習技術能夠在弱監(jiān)督下工作。
這不可避免地導致我們重新考慮弱監(jiān)督學習的發(fā)展方向。 弱監(jiān)督學習的主要目標是僅使用有限量的標注數(shù)據(jù),和大量的未標注數(shù)據(jù),來提升各項任務的效果。
弱監(jiān)督最大的難點在于如何用少量的標注數(shù)據(jù),和為標注數(shù)據(jù)來有效地捕捉數(shù)據(jù)的流形。目前的一些解決方案在面對復雜的數(shù)據(jù)時,比較難準確地還原數(shù)據(jù)的流形。但是 BERT 通過大量的預訓練,在這方面有著先天的優(yōu)勢。
因而,BERT 憑借對數(shù)據(jù)分布的捕獲是否足以超越傳統(tǒng)半監(jiān)督的效果?又或者,BERT 能否有與半監(jiān)督方法有效地結合,從而結合兩者優(yōu)勢?
弱監(jiān)督
通常,有三種類型的弱監(jiān)督。第一種是不完全監(jiān)督,即只有一個(通常很小的)訓練數(shù)據(jù)子集用標簽給出,而其他數(shù)據(jù)保持未標注。 這種情況發(fā)生在各種任務中。 例如,在圖像分類中,ground truth 標簽由人類注釋者給出;很容易從互聯(lián)網(wǎng)上獲取大量圖像,而由于人工成本,只能注釋一小部分圖像。
第二種類型是不精確監(jiān)督,即僅給出粗粒度標簽。 再次考慮圖像分類任務。 期望使圖像中的每個對象都注釋;但是,通常我們只有圖像級標簽而不是對象級標簽。
第三種類型是不準確監(jiān)督,即給定的標簽并不總是真實的。 出現(xiàn)這種情況,例如當圖像注釋器粗心或疲倦時,或者某些圖像難以分類。
對于不完全監(jiān)督,在這種情況下,我們只給予少量的訓練數(shù)據(jù),并且很難根據(jù)這樣的小注釋來訓練良好的學習 然而,好的一面是我們有足夠的未標注數(shù)據(jù)。 這種情況在實際應用中經(jīng)常發(fā)生,因為注釋的成本總是很高。
通過使用弱監(jiān)督方法,我們嘗試以最有效的方式利用這些未標注的數(shù)據(jù)。有兩種主要方法可以解決這個問題,即主動學習和半監(jiān)督學習。兩者的明確區(qū)別在于前者需要額外的人為輸入,而后者不需要人為干預。
主動學習(Active Learning)
主動學習假設可以向人類從查詢未標注數(shù)據(jù)的 ground truth。目標是最小化查詢的數(shù)量,從而最大限度地減少人工標簽的工作量。換句話說,此方法的輸出是:從所有未標注的數(shù)據(jù)中,找到最有效的數(shù)據(jù)點,最值得標注的數(shù)據(jù)點然后詢問 ground truth。
例如,可能有一個距離決策邊界很遠的數(shù)據(jù)點,具有很高的正類可信度,標注這一點不會提供太多信息或改進分類模型。但是,如果非常接近分離閾值的最小置信點被重新標注,則這將為模型提供最多的信息增益。
更具體地說,有兩種廣泛使用的數(shù)據(jù)點選擇標準,即信息性和代表性。信息性衡量未標注實例有助于減少統(tǒng)計模型的不確定性,而代表性衡量實例有助于表示輸入模式結構的程度。
關于信息性,有兩種主要方法,即不確定性抽樣(Uncertainty sampling)和投票機制(query-by-committee)。 前者培訓單個分類器,然后查詢分類器 confidence 最低的未標注數(shù)據(jù)。 后者生成多個分類器,然后查詢分類器最不相同的未標注數(shù)據(jù)。
關于代表性,我們的目標是通常通過聚類方法來利用未標注數(shù)據(jù)的聚類結構。
半監(jiān)督學習(Semi-Supervised Learning)
另一方面,半監(jiān)督學習則試圖在不詢問人類專家的情況下利用未標注的數(shù)據(jù)。 起初這可能看起來反直覺,因為未標注的數(shù)據(jù)不能像標注數(shù)據(jù)一樣,直接體現(xiàn)額外的信息。
然而,未標注的數(shù)據(jù)點卻存在隱含的信息,例如,數(shù)據(jù)分布。新數(shù)據(jù)集的不斷增加以及獲得標簽信息的困難使得半監(jiān)督學習成為現(xiàn)代數(shù)據(jù)分析中具有重要實際意義的問題之一。
半監(jiān)督學習的最主要假設:數(shù)據(jù)分布中有可以挖掘的的信息。
總結
在深入了解弱監(jiān)管的歷史和發(fā)展之后,我們可以看到這一研究領域的局限性和改進潛力。數(shù)據(jù)標簽成本總是很昂貴,因為需要領域?qū)I(yè)知識并且過程非常耗時,尤其是在 NLP 中,文本理解因人而異。但是,我們周圍存在大量(幾乎無限量)未標注的數(shù)據(jù),并且可以很容易地提取。
因此,我們始終將持續(xù)利用這種豐富資源視為最終目標,并試圖改善目前的監(jiān)督學習表現(xiàn)。從 ULMFiT 等語言模型到最近的 BERT,遷移學習是另一種利用未標注數(shù)據(jù)的方法。通過捕獲語言的結構,本質(zhì)上是另一種標簽形式。在這里,我們建議未來發(fā)展的另一個方向 - 將遷移學習與半監(jiān)督學習相結合,通過利用未標注的數(shù)據(jù)進一步提高效果。
在線咨詢
點擊進入在線咨詢