忘掉斯諾登，人工智慧到底能在情報工作中幫上哪些忙？

大千世界 · 發表於 2017-11-16 12:14

　　2017-11-16 07:24人工智慧/視頻/無人機

　　

　　在最近的德州教堂槍機慘案中，有人把部分責任歸咎到美國空軍的頭上，因槍手曾在美國空軍服役，而美國空軍卻未能及時將槍手在服役期間的家暴獲罪情況提交到聯邦調查局，導致槍手的暴力前科沒能及時錄入資料庫，從而通過了槍支購買的背景審查。

　　把這樁慘案怪罪到美國空軍的頭上未免有點牽強，說到底還是公共治安情報系統的不完善。不過，相信未來這樣的情況會得到得到改善，最起碼在美國空軍中是這樣的。

　　據報道，五角大樓國防情報部部門主任、美國空軍中將傑克沙納漢正在嘗試在項目中加入人工智慧技術。在他啟動的Maven項目中，就利用了機器學習技術來檢視無人機拍攝視頻。

　　不僅僅是空軍，今年四月美國國防部還簽發了相關備忘錄，要成立「演演算法戰跨職能小組」（AWCFT），推動國防部加速融入人工智慧、大數據、機器學習等技術。

　　其實在國防、軍事中率先應用新技術並不是什麼新鮮事，反而在戰爭時期，還會刺激技術的發展。現在美俄兩國的IT技術，有很多都是靠冷戰時期打下的基礎。

　　戰爭與技術這一話題太過龐大，今天我們就單單從情報工作的角度來看，人工智慧能發揮出怎樣的作用。

　　聽起來就很技術范的情報工作都是幹嘛？

　　「情報」二字似乎天生和代碼有著聯繫，我們在科幻電影中經常能看到黑客在鍵盤上飛舞手指，插上一隻小小的U盤就盜取了影響世界格局的關鍵信息。現實生活中，處在稜鏡門風波中心的斯諾登也是一副技術宅的形象，滿足了人們對黑客間諜的所有幻想。

　　實際上間諜、黑客、駭侵這些關鍵詞只是情報工作中的一小部分，大部分情報工作的目的是為了保衛我們的安全而不是在拯救世界，在工作量上，檢閱各個渠道傳送來的數據，比傳說中的敲代碼黑系統要多得多。

　　而在近幾年，隨著移動網際網路基礎設施的普及，以及無人機、攝像頭等等感測器的發展，情報工作要處理的數據量發生了一場大爆炸。

　　

　　以往我們的獲知的情報信息大多是郵件、手寫文檔、電話錄音和照片等等，現在攝像頭和無人機正在源源不斷的向情報機構輸送著大量的圖片和視頻，社交網路上每分秒都在誕生著成TB的信息。如果能及時對這些信息進行處理，把很多社會安全事件遏制在萌發階段。

　　只可惜目前數據雖然在，我們卻沒有足夠的能力去處理，他們只能默默沉睡在雲端，甚至會因儲存空間不夠而被覆蓋掉。

　　在這其中，人工智慧能做些什麼？

　　讓計算機成為實習生，一個情報工作者的質樸夢想

　　在以上的情況中，我們能看到在情報工作中的第一步就是信息的處理——把大量的非結構化數據經過清洗和標註，把計算機採集的數據壓縮成能被人腦容納和理解的有用信息。

　　這些就可以利用上語音識別、文本識別、人臉識別等等較為基礎的技術。美國空軍正在研究的Maven項目，就是利用機器視覺識別無人機監控視頻的內容。實際在情報工作中，這些識別技術可以更加有的放矢——識別出某一類人的服裝面容、某些敏感信息的關鍵詞/發音等等。

　　當然這些只是低階的數據信息篩選工作，理想狀況是，機器學習技術並不只是盲目的對某一些關鍵詞和畫面做出屏蔽或警報，而是能夠對文本、視頻等等信息有一定的整體、動態化的理解，對現實情況有更加精準的理解，脫離機械的固化行為，成為情報工作人員的實習生。

　　繞不過稜鏡？或許可以問問神奇的開源數據

　　簡單設想一下，做到這些工作應該會利用一些能理解長文本、有回溯能力的演演算法，比如LSTM。但想讓機器學習在情報學方面發揮接近於人甚至超人的作用，光靠簡單的演演算法上的改變是不夠的。

　　我們可以想一想，真實的情報工作中，最能稱之為「神奇」的是哪一項？

　　答案是，靠開源信息推理出秘密信息。不竊取、不駭侵，僅僅靠公開的信息就能獲取到關鍵性情報。

　　比較知名的是我國一樁「照片泄密案」。1964年《中國畫報》封面刊出了一張照片，大慶油田的「鐵人」王進喜頭戴大狗皮帽，身穿厚棉襖，頂著鵝毛大雪，握著鑽機手柄眺望遠方，背後能依稀看到井架。

　　

　　而日本情報專家根據王進喜的衣著、手柄樣式、井架密度等等判斷出了石油基地在大慶，並研發出了適合大慶的設備，在中國政府採購設備時一舉中標。

　　接下來，我們可以再想一想，在當今的人工智慧領域中，最艱難的敏感的話題是什麼？

　　沒錯，就是數據的敏感性。想獲取人們的聊天記錄和通話記錄並不困難，可運用這種數據的合理性就很難說了。尤其在情報工作方面，取得那些非公開的數據不是難點，難點是數據脫敏，或者說是不讓別人知道自己侵犯了他們的隱私。

　　兩者結合，就得出了答案。

　　用知識圖譜把人工智慧變成人類專家

　　我們現在已經擁有很多空開的信息了，深度挖掘開源數據，發現數據與數據間的管理、信息與事實間的關聯，是當今人工智慧在情報學中能做出的最大貢獻。

　　曾經為搜索引擎做出貢獻的知識圖譜在這時就可以幫上忙——作為人工智慧大概念下的子集之一，知識圖譜的價值在於理解數據的內在含義，把以往的「名詞搜索」變成語義搜索，從而在離散的數據間建立聯繫。

　　現在不需要日本情報專家，只需要通過演演算法來尋找數據與描述之間的關係，也能發現中國的油田建在哪裡。

　　如果把這張照片做成數據集，舉辦一場目的是找到中國油田在哪裡的黑客馬拉松，過程大概會是這樣：首先對用計算機視覺技術對照片進行識別和挖掘，結合當時中國各地天氣情況就能圈定出大概的地理位置。再標註出背景中的高架數量、手柄樣式，和資料庫中的信息作比對，就能識別出油田的容量和規模。完成這些工作，大概只需要……5分鐘吧。

　　而利用上知識圖譜，情報工作能做到的不僅僅是找油田這麼簡單。中國一家數據機構曾經做過這樣一個針對公共安全的項目。這家數據機構整合了分散在各個公安系統的數據，從中挖掘了不少模型和規則。這意味著，把這些規則運用到新增數據之中時，可以識別出這些數據中的高危因素。

　　這樣的知識圖譜建立的越廣、越深，就越能達成讓人工智慧成為人類專家一樣情報工作者的願景。

　　今天所介紹的，只是人工智慧應用於情報工作的冰山一角，在真實情況中，人工智慧中的種種技術已經成為了情報工作中的基礎設施。

　　國防、公安這些元素不能被個人所左右，但值得留意的，是出現在商業情報中相似的邏輯和可能性。在最近熱播的職場戲《獵場》中，胡歌還要靠手機拍照來竊取商業機密。相信不久之後，商場鬥爭情節中的主角就不再是西裝革履的投行精英，而是穿著格子襯衫的碼農了。

忘掉斯諾登，人工智慧到底能在情報工作中幫上哪些忙？

瀏覽過的版塊