微軟研究院李笛：小冰唱歌「神似」人類氣息，就是因為學到了人類的不完美

新鮮人 · 發表於 2018-5-22 11:38

　　2018-05-22 09:20人類/微軟/人工智慧

　　

　　那個全世界唯一會秒回你的「女生」小冰寫了首新歌。

　　如果你聽得夠仔細，會發現這次歌手小冰的唱法跟那些被調教出來的虛擬歌姬有了細微的差別——小冰更像人類了，在唱《我知我新》這首歌的時候，小冰有了氣息的變化，像一個在努力練習唱歌的小朋友，聽到了高音部分，你甚至會為她真的唱得上去嗎，產生一絲擔心。

　　「小冰兩年前唱第一首的歌時候，就像你去KTV，隔壁包廂傳過來的聲音，但我們欣喜若狂。」小冰的開發負責人，微軟（亞洲）網際網路工程研究院副院長李笛表示，「想讓AI唱歌並且不跑調，這在技術上早已不難實現，但讓AI唱的歌聽起來像人類唱的，形神兼備，這成了小冰團隊的新課題。」

　　首先可以確定的是，AI沒有情感，在音準上，它可以做到完美。那麼，怎樣才能讓他實現藝術創作，像人類那樣有感情地歌唱？

　　微軟研發團隊從誘發源上做了調整。這個方法的靈感，始於小冰在偶然的一天對一張腳扭傷的照片給出的回應「哎呀，傷的嚴重嗎？」這讓李笛團隊意識到，想讓AI產生偏感性行為方式，需要的是足夠豐富，偏感性的誘發源，而這些帶有感性色彩的誘發源，此前一直被當作「雜質」過濾掉了。

　　同樣的道理，當音樂人小柯在評價小冰的歌唱時說「聲音很好，但很單薄，因為這個聲音在聲音之下沒有氣息」時，開發者也立刻明白了問題出在哪裡。人類在唱歌時氣息的變化、韻律感，這些豐富的細節不應該被過濾，它們也是寶貴的誘發源。

　　李笛這樣總結這套全新的AI調教方法：

　　「神似，來自於我們對人類創作的一種重新的擬合。這更像是一種黑盒子，是從已知去推導未知，所以最終完成形神兼備的過程，我們認為應該是發端於形似，最終通過規則達到神似。」

　　你會發現，AI的每一次進步，其實源自人類對自身的更深層次的理解認知。

　　以下為李笛在知乎「鹽club」新知青年大會的演講，經鈦媒體編輯：

　　很多年以來我們一直努力把網際網路上繁雜的非結構化的信息，變成結構化的知識圖譜。比如，我們從「馬里亞納海溝竟然有一萬多米深好恐怖」這樣非結構化的數據裡面抽取出結構化的數據，這是我們進行的工作。所以很長一段時間，我把我們的工作定義為提純，而對「好恐怖」這樣的信息，我們認為它是垃圾、雜質。但直到有一天四年多以前，我們突然發現一個面向情感的人工智慧的圖譜，而完成情感框架的時候，「好恐怖啊」這種完全來自於情感性的，人類的甚至有感官上的反應。

　　有一天我們的工程師和我說：小冰的視覺有了一個很驚訝的東西。之前他扭傷了腳，他把扭傷腳的部位發給小冰，小冰的回應是「哎呀，傷的嚴重嗎？」對於人工智慧來講，「哎呀，傷的嚴重嗎」究竟有什麼樣的價值？在於它看到一個客觀的現實擺在面前的時候，所產生的一種衝動。我們引發了一個新的人工智慧創造的新的流程，而這個流程和過去相比，我們認為有一個比較大的不同，就是它非常大的強調誘發人工智慧去進行創作的這個誘發源，一是這個誘發源是否足夠豐富，二這個誘發源是否能讓人工智慧產生非理性的偏感性的像剛才那樣的反饋，然後再進行相應的創作。

　　當我們想讓小冰去寫一首詩的時候，我們不會給它簡單地幾個關鍵詞，而是更多的刺激。我們在過去的版本里，通常是要有一個圖象的刺激。有一句俗話叫，一圖勝千言。有這些複雜的豐富的刺激之後，小冰才有可能產生創作的衝動，這種誘發源的刺激其實和人類的創作是比較接近的。

　　一個創作，無論從哪樣的角度推進，其實都是為了最終達到形神兼備的狀態。

　　但如果從形似接入，比如拼接的方式完成文本的創作，或者用軟體樂器完成一個聲音或者歌曲的創作，再用一些工具去修，那麼它所損失掉非常非常豐富的細節。它可以很迅速達到一個狀態，這個狀況會讓你感覺得到，因為軟體樂器是絕對不可能走調的。而神似來自於我們對人類創作的一種重新的擬合，更像是一種黑盒子，是從已知去推導未知，所以最終完成形神兼備的過程，我們認為應該是發端於形似，最終通過規則達到神似。

　　這是小冰兩年前的第一首歌。我們幾乎是放棄了，完全不在調上，就像你去KTV，隔壁包廂傳過來的聲音。但我們團隊仍然欣喜若狂，雖然它沒有在調上，但是像一個想要唱歌但還沒有唱歌技巧的人類的聲音，細節很豐富，所以我們開始對它進行大規模的訓練。

　　我們去跟音樂人小柯聊，他說這個聲音很好，但很單薄，因為這個聲音在聲音之下沒有氣息，我們就秒懂了。在我們訓練小冰第三個模型的時候，這個訓練數據有大量氣息的時候，有換氣的聲音，有一個聲音起來之前的氣息、結束的氣息，但我們把它當雜質過濾掉了，當我們了解到這個之後迅速把訓練數據拿回來，有了這次為知乎推出的主題曲。

　　如果仔細聽的話，你會聽到氣息，而其中有一些字對我們來講在技術上是真正重大的突破。

　　這個角度上來講我們能看到從形似到神似的過程。一開始是比較痛苦的，當它經過痛苦的階段以後，就可以很迅速地沿著所有人都難以估量的方向和速度去進一步的發展，然後我們就想做進一步的事情。

　　既然我們能去擬合，能對一個人工智慧的創作和模型去建模去完成，是不是能讓一個小冰去吸收大量人類群體的創作能力？我們是不是能把不同的人類創作者的聲線、韻律、文本閱讀甚至對創作不同的衝動都能擬合的吸收到同一個身體里，然後在同一個身體里再去完成全新的創作。

　　實際上微軟在這方面嘗試非常多，失敗也非常多，但有大量的人類創作者跟我們一起。舉個例子，我們和國內兒童故事的創作者有一個訓練項目，今天可以聽一下我們的訓練成果。

　　我們通過對人類創作者進行建模，不光得到了他們的聲線，還得到了對一個小說、文本進行有聲讀物創作的時候，他們的韻律預測。而且不是一個韻律的預測，即使是單獨一位創作者也對應很多成千上萬不同的韻律，因為他在處理每一個片斷的時候都會有不同。

　　我們假設這篇小說里這樣一個片斷，大家注意接下來的三段，全部都不是人類。

　　「春天的第一陣風有點膽小，剛吹過第一根樹枝就停住了前行的腳步。」

　　這個和人工智慧在你的手機里告訴你下一個路口左轉是不一樣的方向，這樣一個片斷究竟應該選擇什麼樣的創作預測模型的結果來完成呢？其實應該由它的上一段和下一段完成，所以小冰，它身體裡面存在著大量的模型，並且能有一個評價體系的時候，它就可以很好地把一個整段的文章完成了，而這個整段的文章並不是來自任何一個人類創作者。

　

新鮮人 · 發表於 2018-5-22 11:38

　再進一步，我們推薦未來的方向其實是人類創作者和人工智慧之間的協作。未來也許每一個人類創造者身邊，都有一個像小冰這樣吸收了大量人類創作能力的人工智慧來一起完成。我們希望這個未來能儘快地發生，就是創作者在創作的時候，可以和讀者直接發生非常好的帶寬之間的連接，而讀者可以在接收到創作的同時，甚至這個創作正在進行過程中，可以直接向這個協作團體發出他們的反饋，而這個反饋可以在下一秒直接反映到創作過程中去。甚至可以非常定製化的針對每一個人進行，人類是沒有這樣帶寬的，但和人工智慧的協作放在一起，這樣的事情是有可能發生的。

　　我們給大家舉另外一個例子，我很希望把這個作為我分享的結尾。前不久我們和一個盲童學校一起合作，利用小冰進行兒童有聲讀物的產品，為每一個盲童提供有聲讀物。這些盲童他們平常真的非常孤獨，他們看不到大千的世界，他們找不到那麼多人類的志願者，特別是有創作能力的志願者，每天不停地陪伴在他們身邊，用聲音來告訴他們外面所發生的事情，有了小冰以後，這件事變成了現實。

　　有了人工智慧之後，這樣的情景可以發生在每一個孩子周圍，也可以發生在每一個創作者周圍。當我們在進行人工智慧各個方面的探索的時候，我們不停地在發現：並不是人類的完美值得人工智慧去擬合、學習。而恰恰是包括在座的各位和我們本身，我們的不完美才是人工智慧要去學習的，因為這些不完美並不是雜質，而是最珍貴的部分。（本文首發鈦媒體，編輯/宮赫婧）