倍可親

IT是不是泡沫?- 聲音和圖像收索

作者:釣魚城  於 2016-9-16 04:31 發表於 最熱鬧的華人社交網路--貝殼村

通用分類:流水日記|已有5評論

關鍵詞:手機程序, 收索工具, 谷歌收索, 關鍵詞, 技術

谷歌收索(search)是現今最流行,最有效的收索工具。它主要進行的是文字(text)收索。就是你提供一個關鍵詞,它給出最接近你想要的收索結果。

 儘管它也提供基於圖像的收索。但是其結果很不精確,實用性不強。

最近接觸了兩款新穎的手機程序,是關於聲音和圖像收索的。在這兒和大家分享。

 一天開車出去,放了一盤中國蒙古族歌手德德瑪的DVD。女兒告訴我,有一個新的手機應用程序,叫SoundHound。能夠聽很短一段音樂,就給你找出這音樂的相關的信息, 包括歌名(title),作者或歌唱家(author,singer),專輯(album)等。

 

                                              

 

自己試了試,只要讓手機離聲源很近,收索準確的程度非常高。不僅一般西方的音樂很易找到,就是中國的一般民歌和歌唱家都能準確地以中文現出。自己也可以對著手機哼上兩句,它能知道你唱的是什麼曲子。有點喜出望外。

 猜想其背後就是所謂的音頻收索(audio search)。如果不是應用了傅里葉(Fourier)頻譜分析或聲音合成(Sound Synthesis)演演算法(algorithm的話,那麼其資料庫(database)里一定存了海量的包羅萬象的音樂剪輯,不僅是有名的,也有無名的,不僅是一國的,而是全世界的;其中既有嚴肅的,也有通俗的。為了快速收索出結果,一首曲子可能已被切成了很多很多的小段被存起來。只要有幾小段被對上(match),就能給出結果。不需要match整個曲子。

 另一個程序,就是谷歌的翻譯程序(translate)。自己用它好些年了,權當網上字典用。因為用它來翻譯一段英文成中文,譯出的中文可能會令人啞然失笑,是那種西方人學出來的中文味道。這西方人學中文那是很好玩的,很難掌握其字義語義隨時隨地的微妙變化。一個網上的笑話說,一個老外在中國的公司工作,年終了,老闆請員工到餐廳團聚吃飯,客氣道,請大家吃個便飯「。老外僱員一激動,馬上就說,這哪是便飯呢?要是,也不是小便飯,絕對是大便飯啊

 

以下舉幾個用谷歌翻譯句子的例子。

這一個還行,

Left brain has nothing left, right brain has nothing right

左腦已所剩無幾,右腦具有什麼都不對

 

這一個就有點好笑,這是KFC的廣告詞。

At KFC, we do chicken right

在肯德基,我們做正確的雞

 

這一個就完全不知所云了

A gentleman is rather than does

君子而不是做

 

可見如果你想成為一個朱生豪,傅雷那樣的翻譯家,像魯迅他老人家翻著俄文字典翻譯法捷耶夫的《毀滅》那樣,藉助谷歌的translate去翻譯 J. K. Rowling的《Harry Ptter》,那麼所謂的信達雅,跟以前一樣,還是很難達到的。

 但是最近玩它的手機版,發現界面上有一個小小的相機iconClick它,手機的相機打開了。用它對著任何英文,聚焦后,能自動把所見的英文立即翻譯成中文,而且不管這英文的字體是花體,美術體,或是廣告體,都能不管對錯,隨時隨地翻譯。這有點誇張了。知道這意味著什麼嗎?這意味著一機在手,不要其它的翻譯工具,即便一句英文不會,照樣能走天下,去全世界旅遊。到了異國他鄉,不認識那些標牌,用手機對上一照,馬上就顯現出中文,儘管有時文不對題,結果不準確,但不失為信手拈來的拐棍,壯壯膽子還是不錯的。

 

       

仔細想來,這當然是基於谷歌本身的圖像收索。它的收索的原理如果不是用什麼複雜的algorithm去真正做pattern match 的話,那麼其原理大致與音頻收索相似。這似乎很簡單,其實很複雜的。

 音頻收索似乎成熟一些,因為聲音總是能做傅里葉(Fourier頻譜分析。簡單地講,一首歌就是聲音隨時間的一個分佈。其曲線上每一點,不外乎是一系列諧波的疊加。理論上,不論是宋祖英像竹林里竹葉那樣尖尖的脆脆的,像空山裡畫眉鳥叫的湘西苗音,還是像德德瑪那樣的出自胸腔的而不是喉嚨,飽含著草原的宏大和遼遠的蒼穹迴聲,都可以很容易地被抽象成一個Fourier級數。而圖像就不能這樣處理的,從微觀上講,圖像里的一個像素(pixel),既有空間的定義,也有顏色的定義。在這兒,可以不考慮時間。那麼可以把空間看成時間。所謂圖像就是RGB(色素)隨空間的分佈。但是空間是2維或者3維的,能把它展開為簡諧色波的疊加?至少現在還不能用此類方式處理。

宏觀上講,字體變化多樣,字體的胖瘦不一,美術體可能還是手寫。這樣的話,似乎沒有更高級的algorithm,不能做到準確的match

 

 

 


高興

感動

同情

搞笑

難過

拍磚
1

支持
3

鮮花

剛表態過的朋友 (4 人)

發表評論 評論 (5 個評論)

回復 ziqiao 2016-9-16 05:54
Tried Google Translate with camera, it actually worked! Thanks!
回復 釣魚城 2016-9-16 09:26
ziqiao: Tried Google Translate with camera, it actually worked! Thanks!
  
回復 秋收冬藏 2016-9-16 09:46
  
回復 8288 2016-9-16 10:26
好玩的還很多
回復 釣魚城 2016-9-16 10:53
8288: 好玩的還很多
這是收索領域裡的兩個方向。要從text search過渡到multimedia search。就像Instant Messenger 從qq 發展到微信一樣。

facelist doodle 塗鴉板

您需要登錄后才可以評論 登錄 | 註冊

關於本站 | 隱私權政策 | 免責條款 | 版權聲明 | 聯絡我們

Copyright © 2001-2013 海外華人中文門戶:倍可親 (http://big5.backchina.com) All Rights Reserved.

程序系統基於 Discuz! X3.1 商業版 優化 Discuz! © 2001-2013 Comsenz Inc.

本站時間採用京港台時間 GMT+8, 2024-4-25 18:12

返回頂部