自古希臘起,人們就一直希望從數學的角度,認識語言。計算語言的困難在於,無法找到合適的單位。語言的運作基本上是四個過程:1、說話人的大腦中產生思想,2、將這些思想分解成類似單詞或漢字的基本單體,3、傳遞出去,對方接收到,4、對方接收到后,將一個個基本單體連接成自己理解的意義。計算語言的唯一可行方法就是在第3個過程,也就是雙方傳遞與接受時,對那些單體的數量進行比較。這些文字元號的表現形式有形、音、義三種。只要能夠在三者之一找到通用的單位,那麼,問題就解決了。亞里士多德提出的『義語言』semantics 就是希望從『義』的角度,找到可以計算的單位;沒能成功,因為無法對每個單詞所代表的意思進行量化比較。近代,克勞德·艾爾伍德·香農Claude Elwood Shannon提出的『資訊理論』,希望從『形』的角度,將每一個英文字母做單位計算,結果不了了之,還是因為找不到每個字母到底包含有多少意思。在這兩人之間,有更多的人希望從聲音的角度找到語言的單位。相關的專著出了很多如,phonetics語音學,phonology音韻學,聲學 Phonics等等,依然沒有結果。我認為,歐美語言學找不到語言單位的原因,是因為拼音文字已經改變了人類語言最原始的樣貌。因此必須回到最原始的語言中去尋找。
當一個族群內部公認,某幾個聲音表達相應的某幾種意思后,語言便誕生了。為了討論方便,我們把這種能夠代表意思的聲音,稱為語音。最初,語音的產生是一個一個可數的。直到字母出現之後,才有了分不出個數的音節。音節的特點是,將某些聲音讀得輕一些,快一些,不把某些極短的母音寫出來,(音節的定義是,一個寫出來的母音,兩側無論有多少輔音,只要沒有寫出第二個母音,它就是一個音節;但要記住一點,沒有寫出母音,並不等於讀的時候沒有母音存在,只不過讀得很輕而已。)目的是,將總發音時間變短。接收的一方,不是根據完整的聲音獲得信息,而是根據習慣,以及上下文,猜出那些微弱的,雖然沒能聽清楚的語音是什麼。比如在spring、lift中,人們就是這樣獲取信息的。但是,原始人的發音沒有這麼複雜,就是一個個的CV(consonant,vowel)結或者一個單獨的母音來交流;這就是我提出的語言單位,它歷時四分之一秒。下面先做兩個鋪墊。第一、電腦是如何用兩個符號實現的?第二、古代是如何從單一的CV結,演變成拼音文字的。
首先,電腦使用的是二進位制符號;莫斯碼。兩個符號就能表達宇宙間的一切。那麼人為什麼不能也用兩個符號來表達宇宙,那該多簡單哪?答案也簡單,如果人也使用兩個符號當作語言,那麼,說起話來就會把你煩死,或者說,由於兩個符號的語言需要太長的時間表達一個單詞所代表的意思,因此,人類使用了遠遠超過兩個符號的語言來表達宇宙。由於,要表達的意思是無窮的,語音符號的數量就多多益善。這個問題,在萊布尼茲發明機械計算機的時候就考慮過了。他是二進位制數學的發明人,但是,他發明的機械計算機,使用的卻是十進位制。原因是,使用二進位數進行機械計算的時間太長。舉例來說,用二進位組成400個相互區分的符號,以代表400 種不同事物的時候,每個符號需要進行9次運作,因為,2的9次方才大於400。人類每發出一個可以被聽清楚的語音(CV結)便消耗四分之一秒,那麼,為了表達400種事物之一,使用兩個語音作語言的人,要用9x0.25=2.25秒的時間來發出或接收,這還只是限制在400種事物以內,超過400種事物的範圍,需要增加的時間就更多。電腦使用二進位數,是因為,電腦的計算速度幾乎可以無限的提高。但使用電來計算的缺陷是電壓不容易穩定,因此,統一將五伏的電壓代表1,而小於一伏的電壓代表0。前蘇聯曾經設想過一種用三個元素進行運算的計算機。因為,當年電腦的速度還不是很高,如果增加一個元素,那麼,不但會大大提高運算的速度,而且還能減少運算的次數,從而降低溫度等等。還是上面那個例子,由於3的6次方大於400,就是說,運算6次就達到要求,不需要9次。仿此,我們還可以推導出來,如果電腦使用的是5個基本元素,那麼,運算速度會更快。如果是400個基本元素呢?由此,我們得出結論:符號(單詞或漢字)數量是基本元素的數量與其指數的函數。這個結果告訴我們,完成同樣的信息任務時,基本元素越多,速度越快,越省力。語音就是語言的基本元素。
再說一說拼音文字的演變過程。所謂的拼音文字,其實都是來自古腓尼基語言。他們先是引進了埃及語言。由於埃及象形文字很難書寫,因此,腓尼基人將其複雜的符號,改造成22個字母的組合,在讀這些字母時,用22個輔音。這一來,在讀每個單詞時,只讀22個輔音就可以了。幾代人後,埃及語言中的母音和聲調便被忘記。全世界所有的人,發音器官和聽覺器官都一樣。所謂不同的語言,實際上是由於各種語言所承認聲音中的元素不一樣。目前人類承認過的聲音元素有三種。母音(韻母)、輔音(聲母)、聲調。腓尼基人只承認聲音中的輔音,因此,這種語言只有22個語音。由此得知,這種語言的表達速度很慢。古希臘人在引進腓尼基語的時候,感覺到了這個問題,因此,增加了幾個母音符號,從此,腓尼基人所忽略的母音,又被希臘人找了回來。這樣,CV結的種類不是增加幾個,而是增加了幾倍。比如,在腓尼基語中,M就是一個語音,無論它與什麼母音相結合,都把它當作M。但是,到承認母音的語言中,同樣的M,就可能變成ma、mi、mu、mai、mo、me、mei等一系列的語音。當初只能代表一件事物的M現在變成了可以代表很多事物的很多個語音。但是,當信息量繼續增加,需要語音種類做出相應的變化時,就遇到了困難。這就導致了音節的出現。音節是為了滿足拼音文字,在字母數量不變的條件下,加快口語表達的方法之一。加快表達速度的方法有三種,一是將原有的CV結讀得快一些(形成音節,前面討論過),二是在書寫符號不變的情況下,根據不同的單詞,更改發音方法。因此,我們看到在英語中,同一個『a』有八種發音,分別是:[eɪ][æ][ɑ:][ɒ][ɔ:][eə][ɪ][e]。三是,用語法來減少發音次數。舉例來說,表達一個過去的動作,漢語需要用一個副詞來修飾動詞,但是,英語中,只要在動詞後面加一個ed,就夠了。更有一些不規則動詞,連一次動作都不增加,僅僅改變一個母音,比如,take的過去式took。這裡要注意的是,雖然它沒有增加動作數量,但是增加了一個需要記憶的單詞。或者說,以增加記憶單詞的方式,減少口部動作。
各種文字的一切努力,都是為了節省口語表達的動作,就個體而言,省力是動因,就全體而言,生命是由時間決定的。在不變的時間內,獲得信息的總數量,主要由提高聲音表達的速度來決定。此外,思維的過程,是一種「心裡說」的過程,因此,語音表達的快慢也反應出思維速度的快慢。(趙元任《語言問題》中曾經提到過此事)
漢語從來沒有進行過真正的拼音化改造。它增加聲音種類的方法不受任何約束。因此,漢語承認的母音(韻母)有35個之多(國際音標中英語只有20個左右)。此外,漢語使用聲調進行區分后,使得CV結的種類又增加了數倍。比如上面所說的一個ma,變成了mā,má,mǎ,mà。
為了說明英語中也有聲調,比較兩個人名,川普Trump和拜登Biden。中文翻譯的都不正確。首先Trump在英語中是四聲,串普,而拜登應該是一聲掰登,不過,這個den的聲音在漢語中,只有四聲的『扽』掰扽。由於西方人很難理解什麼是『聲調』,我在英語論壇上,就用唱歌的音階來解釋它(趙元任首創用音階標註聲調)。普通話承認2500多個語音,但目前被利用的,不到50%。如果能夠被充分利用起來,將大大削減同音字,同音詞。英語的語音有400個左右,卻也沒有全部利用。
可以說,所有的語言都朝著一個方向發展;以最簡單的口語,表達最豐富的內容。但是,拼音字母的出現,干擾了這個進程;原因可能是,在古代,書寫工具落後,因此,需要簡化書寫,而近代,隨著信息的暴增,語音數量已經成了主要矛盾。正是由於在語音數量上的優勢,使得漢語毫無顧忌地用單字組詞。比如,豬肉這個詞,是由『豬』和『肉』兩個字組成了,英語的豬是pig,肉是meat,而豬肉就不能使用pig-meat而必須使用pork。這就等於增加了一個需要記憶的單詞pork,目的僅僅是為了減輕口部肌肉的壓力而已。因為使用pig-meat需要的時間長,動作多,使用pork的時間短,動作少。豬肉是日常用語,一位屠夫如果一天需要使用一千遍pork,就比一千遍pig-meat大大的減輕了面部、口部肌肉的負擔。讀者可以實驗一下,分別連續說20遍pork和pig-meat的感覺是不一樣的。假設每個中文單詞都是由兩個字組成的,那麼,三千漢字就能組成3000x3000=九百萬個單詞。更多的例證見https://sites.google.com/view/suchengzhong1/linguistic1正是這個原因使得今天的漢語與互聯網交流時,只需要記住數千個漢字,而英語做相同的事情,則需要掌握數百萬個單詞。這個差異將使得兩種語言的使用者在思維,認識,文化和創造方面出現很多不同。無論翻譯軟體,還是人工智慧,都無法彌補這個差異。
無論學習單詞還是漢字,都需要多次複習,從不同的上下文中對比同一個單詞或漢字。根據計算可知,漢字複習的概率是英語複習單詞概率的幾十乃至上百倍。隨著智能軟體的成熟,信息量的繼續增加,漢語的這個優點將越來越明顯。