谷歌收索(search)是現今最流行,最有效的收索工具。它主要進行的是文字(text)收索。就是你提供一個關鍵詞,它給出最接近你想要的收索結果。
儘管它也提供基於圖像的收索。但是其結果很不精確,實用性不強。
最近接觸了兩款新穎的手機程序,是關於聲音和圖像收索的。在這兒和大家分享。
一天開車出去,放了一盤中國蒙古族歌手德德瑪的DVD。女兒告訴我,有一個新的手機應用程序,叫SoundHound。能夠聽很短一段音樂,就給你找出這音樂的相關的信息, 包括歌名(title),作者或歌唱家(author,singer),專輯(album)等。
自己試了試,只要讓手機離聲源很近,收索準確的程度非常高。不僅一般西方的音樂很易找到,就是中國的一般民歌和歌唱家都能準確地以中文現出。自己也可以對著手機哼上兩句,它能知道你唱的是什麼曲子。有點喜出望外。
猜想其背後就是所謂的音頻收索(audio search)。如果不是應用了傅里葉(Fourier)頻譜分析或聲音合成(Sound Synthesis)演算法(algorithm)的話,那麼其資料庫(database)里一定存了海量的包羅萬象的音樂剪輯,不僅是有名的,也有無名的,不僅是一國的,而是全世界的;其中既有嚴肅的,也有通俗的。為了快速收索出結果,一首曲子可能已被切成了很多很多的小段被存起來。只要有幾小段被對上(match),就能給出結果。不需要match整個曲子。
另一個程序,就是谷歌的翻譯程序(translate)。自己用它好些年了,權當網上字典用。因為用它來翻譯一段英文成中文,譯出的中文可能會令人啞然失笑,是那種西方人學出來的中文味道。這西方人學中文那是很好玩的,很難掌握其字義語義隨時隨地的微妙變化。一個網上的笑話說,一個老外在中國的公司工作,年終了,老闆請員工到餐廳團聚吃飯,客氣道,「請大家吃個便飯「。老外僱員一激動,馬上就說,「這哪是便飯呢?要是,也不是小便飯,絕對是大便飯啊」。
以下舉幾個用谷歌翻譯句子的例子。
這一個還行,
Left brain has nothing
left, right brain has nothing right
左腦已所剩無幾,右腦具有什麼都不對
這一個就有點好笑,這是KFC的廣告詞。
At KFC, we do chicken
right
在肯德基,我們做正確的雞
這一個就完全不知所云了
A gentleman is rather
than does
君子而不是做
可見如果你想成為一個朱生豪,傅雷那樣的翻譯家,像魯迅他老人家翻著俄文字典翻譯法捷耶夫的《毀滅》那樣,藉助谷歌的translate去翻譯 J. K. Rowling的《Harry Potter》,那麼所謂的信達雅,跟以前一樣,還是很難達到的。
但是最近玩它的手機版,發現界面上有一個小小的相機icon。Click它,手機的相機打開了。用它對著任何英文,聚焦后,能自動把所見的英文立即翻譯成中文,而且不管這英文的字體是花體,美術體,或是廣告體,都能不管對錯,隨時隨地翻譯。這有點誇張了。知道這意味著什麼嗎?這意味著一機在手,不要其它的翻譯工具,即便一句英文不會,照樣能走天下,去全世界旅遊。到了異國他鄉,不認識那些標牌,用手機對上一照,馬上就顯現出中文,儘管有時文不對題,結果不準確,但不失為信手拈來的拐棍,壯壯膽子還是不錯的。
仔細想來,這當然是基於谷歌本身的圖像收索。它的收索的原理如果不是用什麼複雜的algorithm去真正做pattern match 的話,那麼其原理大致與音頻收索相似。這似乎很簡單,其實很複雜的。
音頻收索似乎成熟一些,因為聲音總是能做傅里葉(Fourier)頻譜分析。簡單地講,一首歌就是聲音隨時間的一個分佈。其曲線上每一點,不外乎是一系列諧波的疊加。理論上,不論是宋祖英像竹林里竹葉那樣尖尖的脆脆的,像空山裡畫眉鳥叫的湘西苗音,還是像德德瑪那樣的出自胸腔的而不是喉嚨,飽含著草原的宏大和遼遠的蒼穹迴聲,都可以很容易地被抽象成一個Fourier級數。而圖像就不能這樣處理的,從微觀上講,圖像里的一個像素(pixel),既有空間的定義,也有顏色的定義。在這兒,可以不考慮時間。那麼可以把空間看成時間。所謂圖像就是RGB(色素)隨空間的分佈。但是空間是2維或者3維的,能把它展開為簡諧色波的疊加?至少現在還不能用此類方式處理。
宏觀上講,字體變化多樣,字體的胖瘦不一,美術體可能還是手寫。這樣的話,似乎沒有更高級的algorithm,不能做到準確的match。