在網上的每個字，都在泄露你的身份

瘋瘋顛顛 · 發表於 2017-12-25 07:15

　　Mike Erard 發表於 2017-12-12 18:07

　　（譯 / 紅豬）他是天才、資產過十億、不願面對鏡頭：這些是我們對比特幣的創始人中本聰（Satoshi Nakamoto）略微知道的幾件事——但我們依然不知道中本聰到底是男是女，又或者到底是不是人。中本聰在金融界製造了一場振蕩，但是自2011年起他就不再露面了，許多人想要追查這個名字背後的真人，可是誰也沒有確切的證據。最近又有人稱，這個世界上最隱秘的富豪終於被揭開了面紗，這都是因為他的寫作風格。

　　2014年，在司法語言學家傑克·格里夫（Jack Grieve）的帶領下，英國阿斯頓大學的一組學生分析了中本聰在2008年發表的一篇關於比特幣的學術論文。他們統計了諸如「仍然」（still）、「只有」（only）之類不起眼的小詞出現的頻率，並分析了文中的標點模式，比如在「和」（and）和「並」（but）之前的逗號使用，從而發現了揭開作者身份的線索。他們指出，這篇論文的筆觸符合密碼貨幣領域的博學大師尼克·紹博（Nick Szabo）的風格。

　　

　　尼克·紹博剛剛開發了一種通過無線電傳輸比特幣的辦法。圖片來源：bitconnect.co

　　就在今年早些時候，美國企業家兼政治評論員亞歷山大·繆斯（Alexander Muse）也宣稱美國國家安全局運用類似技術破解了中本聰的身份，不過卻並未公布他們的分析是否也指向紹博。

　　對中本聰的追查引出了幾個有趣的問題，它們牽涉到每次我們寫下文字時是如何泄漏身份的。從一個作者的文章風格，我們能對他了解多少？隨著數字通訊的普及，我們的推特、電郵和簡訊中又暗含了多少可能出賣我們的線索？新興軟體已經能分析大量數據，從中找出模式。在它們面前，我們還能夠隱身嗎？

　　我們每次說話或者寫作時，都會泄露大量關於自己身份、職業和家鄉的信息。偵探利用文字破案已經有了千百年的歷史，但是在近幾十年中，計算機接過了一部分重任，負責在我們產出的大量數字信息中分析模式。

　　這種計量文體學分析（stylometric analysis）是計算機科學本科課程里的常見內容，也是大學和出版社每天都在使用的剽竊監察軟體的核心功能。另外，刑偵專家也利用罪犯在網上留下的文字確認他們的身份。

　　

　　一些軟體可以分析文本作者。圖片來源：temple.edu

　　這類分析最常見的用途，一是精確認定是誰寫了某段文本，二就是總結一個未知作者的文筆特徵：他的年齡、性別、教育程度、母語為何。分析的第一步一般是列出可能的作者和他們的文字樣本，再由專家或軟體從中提取出顯著的特徵。接著將待確認的文本與這些段落比對，任何匹配的作者都用概率表示，而不是一個絕對的「是」或「否」。最後，這些結果還要和案件涉及的其他證據一起考察，比如某某作者當時是否有不在場證明。「如果全部證據都指向同一個方向，你就能相當肯定地說出作者是誰了。」伊利諾伊理工學院的計算語言學家施洛莫·阿伽蒙（Shlomo Argamon）說道。

　　路邊草地透露的消息

　　所謂「顯著的語言學特徵」在不同的案件中可能也不相同。這方面有一個著名的例子：某綁匪寫了一封勒索信，要求人質的家屬把贖金放在「devil strip」上。警方找到華盛頓特區喬治城大學的語言學家羅傑·舒伊（Roger Shuy）幫忙。舒伊剛好知道「devil strip」指的是人行道和車道之間的那片草地，這個說法極其罕見，罕見到只有俄亥俄州阿克倫市（Akron）的居民才會用。他問警方是否有嫌犯來自阿克倫，他們驚訝得連嘴都合不攏了。他們果然有這麼個嫌犯，他後來也招供了。

　　

　　著名的「devil strip」勒索信里包含了許多揭示作者身份的線索。勒索信大意：你還想見到自己的寶貝女兒嗎？那就在一隻尿布包里裝一萬美元現金，放到18街和卡爾森街轉角處街邊草地上的那隻綠色垃圾箱里。不要帶別人來。不許報警！！要一個人來！我會一直監視你的。如果你帶上別人，那麼交易結束，你女兒死！！！圖片來源：Newscientist

　　如果你不想被自己的文字出賣，光是避免方言或其他特殊辭彙還是不夠的。因為暴露你身份的線索往往是那些容易受到忽視的文本特徵，而這些特徵又是我們不會有意控制的，比如哪些單詞大寫，標點后空幾格，段落前要不要縮進等等。「像『devil strip』之類的詞語是極少見的。」阿伽蒙說。「那次真是運氣。」

　　比文本特徵透露更多信息的，是所謂「功能詞」（function words）出現的相對頻次，它們的作用是將句子黏合在一起。阿伽蒙指出：「功能詞就是介詞、連詞和人稱代詞。這些詞語本身沒有意思，只發揮語法功能。」這些詞之所以對分析貢獻良多（至少在英語里）是因為它們的數量十分龐大：加到一起，它們超過我們所寫單詞的一半。

　　德州大學奧斯丁分校的詹姆斯·彭尼貝克（James Pennebaker）在研究中指出，這些看似沒有意義的語言成分能夠指出某人的人格類型、健康狀況、甚至會否自殺之類的將來行為。

　　還有人利用泄露身份的奇特語言特徵滲透網際網路上的犯罪網路。同樣來自阿斯頓大學的蒂姆·格蘭特（Tim Grant）訓練卧底警察在網上假扮已經被抓獲的戀童癖，以此引出其他罪犯，有時他們也會假扮成潛在的受害者誘使犯人上鉤。格蘭特歸納了這些罪犯的寫作風格，並訓練警官修正自己的模仿技巧。「那些人都在互不信任的環境中交流，你一旦說錯了話就會使他們很警惕。」他說，「如果你在詞語挑選或者溝通行為上出了錯，和他們的互動就會變得很不順利。」　

　　這些顯著的模式，無論是字詞選擇、句子結構還是作者無意間使用功能詞的頻率，都指明了語言的高度靈活性。語言學家曾經認為，我們都是先學會一套標準的語法，再從這套標準上偏離出來表達個性的。不過現在更加普遍的觀點卻認為，我們從一開始就對母語有了一套自己的心智模型，我們習得母語的社會環境和情緒環境各不相同，使這套模型也和他人有了細微卻重要的差別。

　　亞利桑那大學的計算機科學家陳炘鈞（Hsinchun Chen）指出，正是這個差別造成了富於個性的文筆，他還首次提出了「筆紋」（writeprint）的概念。所謂筆紋就是語言的指紋，它是我們寫作風格中的細微差異，包括辭彙、句長和段落鋪陳等的不同。

　　用看似沒有意義的語言成分（如所謂的「功能詞」）來揭示作者身份，這種分析方法已經有些年頭了。2013年，賓州杜肯大學的帕特里克·尤奧拉（Patrick Juola）用類似的方法指出J.K·羅琳是長篇小說《杜鵑的呼喚》的作者，使這項技術進入了大眾視野。

　　但如果作者已經死去，再要以此說服大眾就比較困難了。比如《聖誕前夜》（Twas the Night Before Christmas）這首十九世紀詩歌，歷來認為它的作者是克萊門·克拉克·摩爾（Clement Clark Moore）。但到了2016年，紐西蘭的文學學者麥克唐納·傑克遜 (Macdonald Jackson)卻發表了一份詳盡分析，通過「that」和「the」之類的單詞以及幾對音素的使用認定詩的作者是亨利·利文斯頓（Henry Livingston）。

　　這個結論不是所有人都接受的。研究梅爾維爾作品的專家司各特·諾斯沃西（Scott Norsworthy）就嘲笑了傑克遜（和他的電腦）對於「無意義成分的分析」，說這些成分「無關緊要，在文本中的分佈可能完全是隨機的。」

　　在風格中隱身

　　那麼，當有人想要採集你的語言指紋時，你又該如何脫身呢？阿伽蒙表示，從某種意義上說，這很容易做到。假設有100位作者，每人提交了一段文字，你身為其中的一員，不想讓別人知道哪一段是你寫的，那麼「你要做的，只是讓自己的文字看起來像那99位中的一位。」

　　這種做法有時候效果很好。薩迪亞·阿弗隆茲（Sadia Afronz）現在供職於加州大學伯克利分校的國際計算科學研究所，她在賓州的德雷塞爾大學工作期間曾和同事開展過一項研究，她們要求參與者寫下自己當天早晨的經歷，並模仿美國作家科馬克·麥卡錫（Cormac McCarthy）的文筆。結果這些文字騙過了一款已經學習過麥卡錫作品的計量文體分析程序：它認為這些都是麥卡錫的原作。

　　可惜的是，一般人在這一點上總顯得業餘，很少有人能用恰當的修改偽裝自己。比如在「devil strip」的案子里，那個勒索者故意拼錯了一些單詞（把「cop」拼成「kop」，「can」拼成「kan」），想以此偽裝成一個文化程度不高的人。但這個文字計謀並未得逞，因為他反倒把一些難詞拼對了，這個矛盾戳穿了他的偽裝。

　　阿伽蒙指出：「當一個人想要掩蓋自己的文風、模仿別人的筆觸時，他卻往往會在無意中流露出更多表明身份的特徵。」蒂姆·格蘭特回想了2003年和同事傑克·格里夫參與調查吉米·斯塔巴克（Jamie Starbuck）一案的經歷。斯塔巴克在近三年的時間裡週遊世界，其間用妻子黛比的郵箱給別人發送電郵，而實際上他已經在31個月前、也就是兩人結婚僅一周后殺死了黛比。直到黛比的親戚產生懷疑，他才開始模仿她的文體。「黛比很喜歡用分號，而且用的方式很古怪。」格蘭特說，「而吉米突然開始大量使用分號，但用的方式又和妻子不同。」他終於在返回英國后被捕，判處終身監禁。

　　那麼，我們可不可以用計算機本身來修改文本、騙過計量文體分析程序呢？可以，你只要上傳自己的文字，然後按照程序的指示修改就行了。這現在已經是一個蓬勃發展的領域，稱為「反向計量文體學」（adversarial stylometry），阿弗隆茲就是推動這個領域的研究者之一。她說，因為這項目工作，老是有人要求她揭開中本聰的真實面目，最後她在自己的網站上貼出了一則公告，表明拒絕。「我研究計量文體學的目的，一是向人們指出它的危害，二是考察機器學習的弱點，三是開發工具改善匿名性。」她這樣寫道。

　　

　　在網上保持匿名身份並不容易。圖片來源：anonews.co

　　保護匿名性可以是符合正當職業利益的，比如學界人士就希望能對基金和論文的同行評議保持匿名。而對那些檢舉者甚至程序員，匿名性可能同樣死攸關。

　　你或許認為計算機源代碼是純粹功能性的，但其實它們同樣會泄露編碼的人或者團體的許多信息。就像寫作者有「筆紋」一樣，編碼者也有獨特的「碼紋」（code print），因為同樣一段程序，編寫的方式卻有很多。

　　「根據程序員的舒適水平及編程技術的不同，他們也會選擇不同的編程方式。」加州大學伯克利分校國際計算科學中心的薩迪亞·阿弗隆茲說道。

　　碼紋中可能包含一些看似瑣碎的選擇，比如用空格鍵而不是製表鍵（tab）來縮進代碼，這些選擇都會留下獨特的數字痕迹。即便是對計算機下達的底層指令，也會因為編寫者的不同而呈現差異。

　　2015年，谷歌舉辦了一年一度的編程大賽（Google Code Jam），來自賓州德雷塞爾大學的一組計算機科學家也用軟體分析了1600名參賽者的編程風格。軟體考察了代碼中的關鍵字和句法等特徵，最後成功把近93％的代碼和它們的作者匹配了起來。

　　通過分析程序員在一段時間內的作品，這支團隊還發現了程序員們的編程風格會在幾年之內維持不變。碼紋的這種穩定性有時很有參考價值，因為可能某個程序員的已知代碼樣本都是幾年前獲得的。

　　可是，程序員又為什麼要保持匿名呢？我們或許立刻會想到那些惡意軟體的作者逃避法律制裁的例子，但實際上也有正派的程序員想要隱藏身份，而且理由完全正當。比如有的地區認定開源軟體非法，那麼這些軟體的開發者就可能不想公開身份。

　　因此，有人呼籲開發對文本做匿名化處理的軟體，也就順理成章了。

　　問題是，這類軟體真的有效嗎？

　　到今天為止，唯一向公眾發布的匿名工具只有「Anonymouth」，它由德雷塞爾大學的隱私、安全和自動化實驗室開發。這款工具於2012年發行，旨在將計量文體分析的準確性下降到隨機猜測的水平。為達到這個目的，Annonymouth使用了一款稱為「JStylo」的風格分析軟體，它能通過採集幾篇文章樣本，評估其中的句子長度、詞語選擇和某些字母的使用頻率等特徵，繪出一個作者的肖像。接著再由Annoymouth指導作者修改文字，告訴他怎樣才能讓作品不符合自己的肖像，比如把時態由過去時換成現在時，或者少用某個人稱代詞等等。

　　開發者宣稱，JStylo只要採集6500字的樣本，就能將一段文字和它已經研究過的一眾作者做對比甄別，結果能達到80％至85％的準確率。今年早些時候，另有開發者宣布了一個名叫「艾瑪身份」（Emma Identity）的人工智慧項目，號稱只憑8000字就能為一名作者建立肖像，在和匿名文本對比時的準確率達到85％。

　　這樣的成功率還遠談不上十全十美，但它們已經比隨機猜測高得多了。能有這麼高的成功率，是因為分析都是在類似實驗室的環境中進行的，軟體要尋找怎樣的計量文體特徵，都有明確的指導。然而現實世界就不同了，用來訓練JStylo或艾瑪的樣本可能只是一篇短文、或是匆匆打出的一封郵件，而需要甄別的匿名文本卻可能是一封認真撰寫的信件或是一篇科學論文。

　　在將來，我們或許還會見到「反向作者分析」（adversarial authorship）技術，一邊是識別作者的技術，一邊是為作者掩飾的技術，兩邊開展不斷加速的軍備競賽。北卡羅來納州立農業技術大學正在開發一款名叫「作者網路」（AuthorWeb）的工具，能用來幫助作者規避計量文體分析。它會給寫作者設立風格目標，以一塊視覺儀錶盤提供實時反饋，告訴他們寫下的文字和某些特徵的匹配程度。這應該能幫助寫作者在較長的時間內輕鬆而統一地隱藏自己的文風。

　　與此同時，阿伽蒙指出，躲避計量文體分析的最佳手段依然是聯合寫作：一個人寫下文本，再由另一個人編輯。你不必依靠機器幫忙或自己動手來修改文風，只要找人合作，那麼兩個或更多個作者的語言指紋就自然會相互抵銷。這或許也是令中本聰藏身如此之久的策略：已經有人猜想藏在比特幣背後不是一個人，而是一個群體。因為語言指紋互相覆蓋，他們或許還能安全地潛伏在暗處，繼續窺視那些追蹤者。（編輯：游識猷）

在網上的每個字，都在泄露你的身份

瀏覽過的版塊