倍可親

回復: 1

清華大學豈凡超:義原的介紹和義原的自動推薦 | AI研習社76期大講堂總結

[複製鏈接]

1萬

主題

3萬

帖子

6萬

積分

貝殼光輝歲月

倍可親決策會員(19級)

Rank: 6Rank: 6

積分
60345
新鮮人 發表於 2018-10-14 09:46 | 顯示全部樓層 |閱讀模式
  2018-10-13 16:16開發/視頻/大學

  義原(Sememe)在語言學中是指最小的不可再分的語義單位,而知網(HowNet)則是最著名的義原知識庫。近些年來,包括知網在內的語言知識庫在深度學習模型中的重要性越來越顯著,然而,這些人工構建的語言知識庫往往面臨新詞不斷出現的挑戰。知網也不例外,而且其只為中、英文詞標註了義原,這限制了它在其他語言的 NLP 任務中的應用。

  近日,在雷鋒網 AI 研習社公開課上,清華大學計算機系在讀博士豈凡超就分享了採用機器學習的方法為中文新詞自動推薦義原,並進一步為其他語言的詞語推薦義原。公開課回放視頻網址:http://www.mooc.ai/open/course/555?=aitechtalkqifanchao

  豈凡超:清華大學計算機系在讀博士,導師是孫茂松教授,主要研究方向為自然語言處理,其研究工作曾在 EMNLP 等發表。

  分享主題:義原的介紹和義原的自動推薦

  分享提綱:

  義原和知網介紹

  中文新詞的義原推薦 [IJCAI 2017, ACL2018]

  跨語言辭彙的義原推薦 [EMNLP 2018]

  AI 研習社將其分享內容整理如下:

  今天跟大家分享義原的介紹和義原的自動推薦 。

  義原和知網介紹

  首先講一下義原的基本概念。在自然語言處理中,我們會對語言中不同的語義單位進行分析和處理,語義單位包括從比較大的篇章、段落到比較小的句子、短語和詞。對一般的自然語言處理任務來說,最小的語義單位可能就是詞了,但實際上比詞更小的語義單位是存在的——義原。

  

  根據語言學家的定義,義原是最小的不可分的語義單位。有的語言學家認為,包括詞在內的所有概念的語義都可使用一個有限的義原集合去表示。而義原是比較隱含的語義單位,所以人們需要利用已經構建好的義原知識庫才能夠獲取一個詞所對應的義原。

  提到義原知識庫,最著名的就是知網(HowNet),它是由董振東和董強兩位先生花費了十幾年時間,通過人工標註而成的義原知識庫,大概使用了 2000 多個義原標註了約 10 萬個中文/英文詞或短語。左邊的圖就是知網中對一個詞的義原標註的例子。

  

  【關於更多對知網的詞的案例講解,請回看視頻 00:02:40 處,http://www.mooc.ai/open/course/555?=aitechtalkqifanchao

  知網對詞進行了更細粒度的義原標註,因而被廣泛用於各項自然語言處理的任務中。比如 2017 年的 Improved Word Representation Learning with Sememes 這篇論文,通過引入義原可以解決詞義消歧的問題,並進一步更細緻地捕捉到詞與詞之間的關係來學習更好的詞向量。另一例子是今年的一篇論文 Language Modeling with Sparse Product of Sememe Experts,它將義原作為我們稱之為「專家」的信息引入語言模型中,也可以更好地預測到一個詞出現後下一個詞以怎樣的方式出現,在義原層面又有一些怎樣的關係。

  

  

  實際上,上世紀 90 年代知網就已經發布,在零幾年的時候非常熱門,相關的論文也比較多。

  

  【關於兩篇論文及其他應用的詳細講解,請回看視頻 00:04:50 處,http://www.mooc.ai/open/course/555?=aitechtalkqifanchao

  剛剛我們也提到兩位語言學家花費了十幾年的時間為詞標註義原,然而,每年都有新詞不斷出現,同時也需要不斷去更新、糾正以及完善義原標註體系,而人工的方式非常耗時耗力,所以我們很自然地想到用機器學習來為新詞自動標註義原,這是我們做義原預測主要的 motivation。

  中文新詞的義原推薦 [IJCAI 2017, ACL2018]

  關於義原預測,我們組最早有一篇文章,定義了這項任務並提出了兩個效果還不錯的模型。我首先介紹一下這篇文章,它的核心思路是根據與待標註目標詞相似的已標註詞的義原標註信息來預測義原,其基本假設是:相似詞的義原標註也相似。基於這個思路,這篇文章提出了兩個基於推薦系統的模型:第一個是基於協同過濾(collaborative filtering )的方法 SPWE;第二個是基於矩陣分解(matrix factorization )的方法 SPSE。需要補充的是,這兩個方法都做了簡化,一是忽略了義原的層次結構;二是將詞的多義性忽略掉了。

  

  

  【關於這篇文章的兩個模型的具體介紹,請回看視頻 00:09:50 處,http://www.mooc.ai/open/course/555?=aitechtalkqifanchao

  但是,這篇文章還有很多問題沒有考慮到,比如剛剛提到的這兩個模型只考慮了外部信息——預訓練的詞向量,而詞向量是根據外部語料得到的。此外,它們對於語料中出現頻率比較少的詞的預測效果不好,另外這種方法也無法為語料中沒有出現的詞推薦義原。

  

  因此我們進行了第二項工作,本次工作考慮到大部分中文詞都是合成詞——詞最終的意義跟組成這個詞的各個字的意義緊密相關,比如「鐵匠」這個詞的合成性就非常明顯。由於這項工作利用的是詞的內部信息,它對於低頻詞來說是非常有用的。在這個工作中我們提出了字增強的義原預測(Character-enhanced Sememe Prediction )模型,將詞的內部信息和從語料中學到的外部信息(詞向量)都用上。

  

  【關於這篇文章的兩個模型的具體介紹,請回看視頻 00:09:50 處,http://www.mooc.ai/open/course/555?=aitechtalkqifanchao

  在利用詞內部信息的模型中,我們用到的第一個方法是 Sememe Prediction with Word-to-Character Filtering(SPWCF),它利用了詞到字的過濾來做義原預測,它認為詞有三個位置(Begin、 Middle、End),首先統計某個字在某個位置出現時對應的詞擁有某個義原的概率,將其作為該字在該位置出現時詞擁有該義原的置信度,再把待預測詞中各個位置的字所對應的義原置信度相加起來,得到當前待預測詞的義原置信度,從而根據義原置信度的排序實現義原預測。

  

  第二個方法是 Sememe Prediction with Character and Sememe Embeddings (SPCSE),這一方法採用了類似 SPSE 的矩陣分解的思路,但是用詞中某個字的字向量作為詞向量的代表參與分解,來得到義原向量。

  

  【關於 SPWCF 和 SPCSE 這兩個義原預測方法的具體講解,請回看視頻 00:23:18 處,http://www.mooc.ai/open/course/555?=aitechtalkqifanchao

  下面講一下實驗,我們在這個實驗中的設置有:

  第一,義原篩選,去掉知網中出現頻率低於 5 次的義原,剩餘 1400 個比較常見的義原;

  第二,選了知網中 6 萬個高頻詞;

  第三,訓練集、開發集 和測試集分別為 48000、6000 和 6000;

  第四,詞向量和字向量的學慣用的語料是 Sogou-T。

  第五,用 GloVe 的方法學習詞向量,用 2015 年的一篇文章 Cluster-based Character Embeddings 來學習字向量

  第六,做義原預測評價的指標是 Mean Average Precision (MAP)

  其他設置大家可以看一下論文進行了解。

  實驗結果如下:

  

  【關於實驗結果的講解,請回看視頻 00:37:00 處,http://www.mooc.ai/open/course/555?=aitechtalkqifanchao

  這裡對我們的這兩個工作做一下小結:

  首先,我們定義了義原預測任務並對該任務做了簡化。

  在第一篇文章中,我們用了推薦系統中兩個基本、主流的思路——協同過濾和矩陣分解做義原預測。

  在第二篇文章中,我們考慮到第一篇文章只使用了外部信息,而沒有用詞的內部信息,於是將詞的內部信息用到了義原預測中。

  我們將來的研究方向包括使用義原的結構,將義原擴展到更加通用性的應用,以及更充分地利用詞的內部信息——因為第二個工作使用的方法還是相對比較簡單。另外,我們的代碼都開源在Github(https://github.com/thunlp/sememe_prediction, https://github.com/thunlp/Character-enhanced-Sememe-Prediction )上了,大家可以去下載。


  
知之為知之,不知為不知,是知也

海納百川,  有容乃大

1萬

主題

3萬

帖子

6萬

積分

貝殼光輝歲月

倍可親決策會員(19級)

Rank: 6Rank: 6

積分
60345
 樓主| 新鮮人 發表於 2018-10-14 09:46 | 顯示全部樓層
跨語言辭彙的義原推薦 [EMNLP 2018]

  接下來講一下我們在跨語言義原預測方面所做的工作。這項工作的 motivation 是:大多數語言其實沒有像知網這樣的義原知識庫。剛剛我們提到,義原的標註需要「專家」信息,往往需要耗費很大的時間和人力成本,因此我們想要利用機器學習方法自動進行跨語言義原預測。在這項工作中,我們方法的主要思路是,將現有的知網義原知識庫遷移到其他語言。

  由於跨語言的義原預測是一個全新的任務,對我們來說存在一些難度,比如直接將知網翻譯成其他語言是行不通的,因為不同語言詞的語義不完全一致。

  我們在這個工作中採用的方法分為兩個大模塊:

  第一個模塊是雙語詞向量學習模塊。其目標是學習在同一個語義空間的源語言和目標語言的詞向量,其中源語言是指已知義原標註的語言,目標語言則是不知道義原標註的語言。該模塊又可以分成三個子模塊:單語詞向量的學習、雙語詞向量的對齊以及將義原信息融入源語言詞向量中,單語詞向量學習採用了經典的 Skip-gram 方法;雙語詞向量對齊採用了種子詞典作為跨語言信號,此外還借鑒了 Bilingual Lexicon Induction From Non-Parallel Data With Minimal Supervision 這篇文章中的匹配機制(Matching Mechanism);義原信息的融入子模塊中,分別採用了基於近義詞(即義原標註相近的詞)詞向量靠近的方法 CLSP-WR 和基於矩陣分解的方法 CLSP-SE。

  第二個模塊使目標語言的義原預測模塊。

  

  【關於這兩大模塊的具體講解,請回看視頻 00:42:05 處,http://www.mooc.ai/open/course/555?=aitechtalkqifanchao

  實驗的數據集如下:

  

  【關於實驗數據集的講解,請回看視頻 00:52:20 處,http://www.mooc.ai/open/course/555?=aitechtalkqifanchao

  跨語言義原預測主實驗結果:

  

  【關於跨語言義原預測主實驗結果的講解,請回看視頻 00:54:15 處,http://www.mooc.ai/open/course/555?=aitechtalkqifanchao

  然後我們也做了兩個子實驗。第一個是做了雙語詞典翻譯的實驗,因為模型中第一個模塊是學習在一個空間的雙語詞向量,很自然可以去做這樣中譯英、英譯中的翻譯實驗。第二個子實驗是單語詞相似度計算的實驗。從兩項實驗結果中可以看到,我們的模型比基線方法 BiLex 直接學習中文或英文的雙語詞向量的效果都要好一些。同時,這兩個子實驗的結果也可以解釋我們的模型為什麼能夠預測到更好的的義原。

  

  關於實驗,有兩個具體的案例:

  

  【關於兩個具體的案例的講解,請回看視頻 00:57:40 處,http://www.mooc.ai/open/course/555?=aitechtalkqifanchao

  最後總結一下,我們第三個工作也是定義了一個新的任務——為跨語言詞做義原推薦,提出了基於雙語詞向量學習的方法,並通過實驗證明了我們方法的有效性。

  將來的工作中,第一,我們會考慮到詞的多義性,這是在我們現在的工作中被忽略掉的一個方面;第二是將義原的結構信息利用起來;第三是在其他語言上做測試,我們這項工作是在英文上做測試,因為英文已有語言標註,而其他的語言則需要我們人工去做標註。我們工作的數據和代碼都放在了Github(https://github.com/thunlp/Character-enhanced-Sememe-Prediction )上,大家可以下載使用。

  以上就是本期嘉賓的全部分享內容。更多公開課視頻請到雷鋒網 AI 研習社社區(https://club.leiphone.com/)觀看。關注微信公眾號:AI 研習社(okweiwu),可獲取最新公開課直播時間預告。

知之為知之,不知為不知,是知也

海納百川,  有容乃大
回復 支持 反對

使用道具 舉報

您需要登錄后才可以回帖 登錄 | 註冊

本版積分規則

關於本站 | 隱私權政策 | 免責條款 | 版權聲明 | 聯絡我們

Copyright © 2001-2013 海外華人中文門戶:倍可親 (http://big5.backchina.com) All Rights Reserved.

程序系統基於 Discuz! X3.1 商業版 優化 Discuz! © 2001-2013 Comsenz Inc.

本站時間採用京港台時間 GMT+8, 2024-3-29 18:58

快速回復 返回頂部 返回列表