|
|
黠之大者任何一個學科都需要從其它學科學習其精髓,對於在走向可計算化道路的社會科學,尤其是傳播學而言,這種開放性更是時代的壓力和必然的結果。因為網路時代的到來所帶了的傳播關係的變革、數字化的行為印記(digital traces or digital footprint)、大規模的網路數據的開放都推動著學科的變革。無疑對於傳播學而言,這是一個必須抓住的機遇。愛因斯坦在老年時在一個自述中討論了一個問題,即為什麼他念了物理沒有念數學。他說:「在數學領域裡,我的直覺不夠,不能辨別哪些是真正重要的研究,哪些只是不重要的。在物理領域裡,我很快學到怎樣找到基本的問題來下功夫。」我想這幾句話的意思應該是每一個大學教授,每一個大學研究生應該仔細想法體會的。如果思考重要的問題,自然做出的東西不容易瑣碎(trivial)。雖然最終問題的本質可以用一個美妙的數學形式表達(不應該是統計方程),但從那麼多的相(萬象)中找到基本的相,穩定的相(pattern)。依然是一個不容易的事情。到冪律分佈(power law)之類的發現依然是唯相的階段。社會科學的冒進在於每次都妄想一個理論框架。每次都拿理論發現來寬慰自己。殊不知己之理論與彼之理論,相差如同天壤。大數據(big data)引發了很多歡呼和爭論,雖然這是機遇,但也隱含著危險。大數據(big data)如果是無偏的,有代表性的,那麼就蘊含著機遇。常見的一個錯誤是誤以為google成功於海量數據,謬矣。信度和效度的問題,在我的理解里,這都是你選擇的測量的可計算性的問題。好的測量(measure)往往一針見血,如貨幣,如基因,如能量,如比特。在網際網路裡目前最成功的測量是什麼?我以為是pagerank。藉助用戶的評價,一下子就抓住了一個網頁的重要性!googe最成功的是pagerank這個好的測量。這樣好的測量才能賺錢,才有可計算性,基於茲的研究才有信度和效度。類似的測量當屬度了,度分佈的冪律分佈(power law)被無數的研究所發現,可以算到了唯相了。作者愚見,覺得擴散是最為普遍而重要的現象,它廣泛地存在於各個學科中,並幾乎都成為最重要也是研究的最徹底的、最吸引人注意力的領域。我自己對於擴散有著超乎直覺的興趣。借用古希臘哲學家的話:萬物皆流,萬物皆變。身在浩浩湯湯的洪流中的個體很容易對流產生興趣。因而,我將研究流的擴散,更具體的說信息的擴散,作為了自己博士研究的主要工作。而選擇研究信息擴散的一個驅動力就是巴克(Per Bak)的這本書《大自然是如何工作的》,這本書通過沙堆模型講自組織臨界性,對我的啟發很大。當我對信息擴散的數據浸淫日久之後,深感必須重返沙堆模型,才能真正理解信息的擴散,因此便有了本文。在本文當中,我將歸納關於擴散研究的三種路徑。一、描述式的社會科學套路如經典的新聞擴散(news diffusion)的研究、兩級傳播理論(two-step flow)、創新的擴散(diffusion of innovations)。這些研究主要是為了描述現實,沿著這條道路走下去,可以更真實地理解5w,卻很難理解1h(即how)。雖然社會科學因為無歷史包袱,所以視角更為多元,比如兩級傳播理論所揭示的媒介的直接影響非常不同於自然系統的擴散的特點, 經典的新聞擴散研究發現的J曲線指出人際作用和媒介作用的對立,以及其對傳播規模的非線性影響也很有想象力。但社會科學卻在可計算化方面做得並不好(讀者可參見本文作者在上一期雜誌上關於計算傳播學的文章)。比如經典的創新的擴散理論中所著重論述的s曲線實在是一個壞到家的定義。因為並未能給出s曲線的數學表達,而幾乎不管什麼曲線方程(如羅傑斯蒂方程,但注意s曲線不是羅傑斯蒂曲線),只要使用超過三個數學參數就可以擬合任何曲線,這使得大家即喜歡這個s曲線的比喻,又根本抓不住什麼才是s曲線。成為了難以比較,不可琢磨的臆測。二、微分方程的數學視角。比如Bass擴散模型(bass diffusion model), 這實在是一個了不起的工作。我寫一個的短評,如下:從bass diffusion model開始講,這個與生存(survival analysis)里的hazard rate息息相關。因為F'(t)/(1-F(t))被定義為hazard rate。其實是一個條件概率,就是沒有採納的人(沒被傳染的人)(1-F(t))在時間點t採納(被傳染)的概率。 關於hazard rate設置的方法導致Bass擴散模型(bass diffusion model),前幾天剛看了,h(t)=p+q*F(t)。解這個微分方程,可以求出F(t)和f(t)。這個東西可以預測增長曲線。p和q分別代表創新性和模仿性。感覺很好玩。p=0, 即沒有創新性的時候,是羅傑斯蒂增長(logistic growth);q=0, 即沒有模仿性,只有創新性的時候,是指數增長(exponential growth)。 講到謠言傳播的第一種模型的時候,hazard rate=d,這個時候就是指數增長;但這樣設置有些隨意(arbitrary),因為有些人拒絕傳播。就有了一個叫拒絕率r的東西,這個我還是第一次看到,因此它是在試圖修正hazard rate。那麼r是什麼呢?沒有講清楚。我試圖從R(t)=r*F(t)/(1-F(t))這個我自己構造的公式來理解。r*F(t)衡量的是已經知道謠言的人拒絕傳播的概率, 再除以1-F(t)就是不知道謠言的人受拒絕傳播的人影響的概率。 那麼就有h(t)=d-R(t)。 但這種工作有點arbitrary,因為你說p是創新性,q是模仿性,然後就開始推導了 (推導可見我的一篇博文, 另電子雜誌可以加鏈接於我而言是意見快樂的事情)下面沿著率方程的道路走下去的是一個偉大的傳統,即傳染模型(epidemic model)。最主要的是sis和sir。其主要思路是將傳染的過程分為3個階段:susceptible--->infectious---->recovered (and immune)。sir說一次恢復,永遠免疫,再也不怕了;sis則不然,好了還會被再次感染。傳染病模型中一個主要的工作是確定一個傳播率,它是感染率和治癒率的比值。這個傳播率一般存在一個threshold,當高於這個threshold的時候,能夠全局傳播;否則只能感染少輸人。網路科學開始考慮人際接觸關係(contact relationship)是如何受網路度分佈的影響的,加入度分佈的因素之後開始考慮統合門檻(threshold)的大小問題,一個著名的工作是Romualdo etc在2001年發表的一篇題為epidemic spreading in scale-free networks的論文,被廣泛引用,因為他們發現scale-free network里的感染門檻是0!!!沒錯,就是0,也就是說全局傳播不是問題。不過,要小心,這個模型是根據sis做的,如果是sir情況是如何呢?(留作思考,其實我也不知道)這一點很重要,因為當你把它用在信息的滲流的時候,是有風險的。舉例子說:Romero &Jon kleinberg (2011)等人研究hashtag(e.g. #ows)在twitter上的擴散,發現多次接觸具有很高的邊際作用,發現多次接觸信息對於信息轉發具有顯著效果(Repeated exposures to a hashtag on Twitter has significant effects)。那麼多次接觸單個的信息(repeated exposure to a specific tweet)呢?其情況會大有不同。因為hashtag是一個類別(category),下面有很多子類別。正如感冒細菌下面包含各種各樣的細菌一樣。加到一塊的影響,使得影響很大,但對於單個類別的感冒細菌來說,你得了一次,就不會再得第二次了。即對於單個信息來說,多次接觸沒有那麼大的影響。三、平均場理論視角下的門檻模型(threshold model)門檻模型(threshold model)最好的詮釋仍然是元胞自動機(cellular automaton), Thomas Schelling的分隔模型(Models of segregation)說每個人都有一個關於周圍鄰居膚色比例的偏好(peference),超過一定比例后,就會遷移。最簡單的就是Granovetter等提出的門檻模型了,計算每個個體(agent)行為改變時其朋友中行為改變比率,但按照平均場視角,這其實不重要,重要的是平均起來的總體效果,最簡單的就是門檻的數學分佈,按照格蘭諾維特的想法,這個數學分佈最終決定了擴散的規模。自組織臨界性最早是BTW sandpile model所提出的,沙堆理論是一個非常強大的metaphor,其主要提出者bak寫了另外一本非常強大的書籍介紹其核心思想:其所覆蓋的範圍真是超乎想象。 自組織的魅力在於可以對擾動做出最豐富的反應!反應是很平常的,難在最豐富的反應。那是什麼樣的呢?其實是空間和時間兩種分佈的冪律特徵。 沙堆模型(Bak等人1988年的論文)所描述的自組織系統中流的規模分佈(Size distribution,e.g., earthquake,financial markets,landscape formation;forest fires;landslides;epidemics; andbiological evolution)和流的持續時間分佈(Duration distribution)都滿足冪律的關係。 Bak曾說自己對自組織臨界性的理解是壓力和壓力的釋放。比如向沙堆上加沙子,這種動力推動系統重新演化到平衡狀態。這種釋放壓力的系統被稱為耗散系統(dissipative system。這是一個很好的概念和視角:其實森林火、地震、河流涌動,信息傳播,樹葉中的營養輸送,等可以以之概括。 自組織臨界可以按照平均場方法進行解析式的理解。平均場方法首先要確定的是phase transition的問題。第一步,便是要有一個穩定的pattern作為起點。因為相變是由一個序轉變為另外一個序。而用來標識這種轉變的變數稱之為「相變序參量」 (sigma),一個相到另一個相的轉變需要一個驅動,而這個驅動變數即稱為「相變驅動參量。比如鐵磁相變中: sigma=(t-tc)^r這種標度律的穩定的關係吸引著科學家的注意力。 平均場方法認為跨越一切尺度的個體的相互作用結果的總體效果(即」平均場"),而不簡單的是每個個體的局部信息(local information),決定著相變。結尾It puzzles me that geophysicists show little interest in underlying principles of their science. Perhaps they take it for granted that the earth is so complicated and messy that no general principles apply. ——Bak, How nature works本文開始引用了Bak在其書中的一句戲謔地理學研究的一句話。其實地理科學家們當中也有一些有先見者。比如hack』s law揭示的流的直徑和覆蓋面積之間的標度關係。 用C來表示單位時間的平均流,A表示網路覆蓋面積,之間也滿足標度關係關係。相反,這句話是留給社會科學家(不是哲學家或價值批判研究者)的,對於網路科學所刻畫的可計算性的傳播行為的研究,在通往可計算性傳播學研究的道路上,只有實在性是最好的美德。不能停留在表面,必須深入到簡單的相下面的基本規律中去。
|
|