前言:本站為你精心整理了復雜社會研究中計算及局限探析范文,希望能為你的創作提供參考價值,我們的客服老師可以幫助你提供個性化的參考范文,歡迎咨詢。
借助于互聯網、人工智能和計算機科學的發展,計算社會科學的興起確實為社會研究帶來了很大的技術和方法上的突破和拓展。利用網絡媒體和云計算等新方法來獲取與分析數據,尤其是實時獲取數據并通過“機器學習”賦能的“計算機算法”,為研究與解釋社會以及預測社會提供了一種前所未有的新范式或思維方式。這也是計算社會科學作為跨學科的新興領域發展如此迅猛的主要原因。然而,對復雜社會進行研究,計算仍然難以避免一些局限,理解這些局限對于利用計算來發展社會研究的理論和方法都有幫助。
第一,計算利用的數據難以涵蓋復雜社會的各個構成要素和要素之間的關系。在傳統的社會調查研究中存在數據難以涵蓋社會中各類人的問題,比如社會學家埃里克·奧林·賴特在其《后工業社會中的階級》一書序言中就專門指出,“具有諷刺意義的是,在馬克思主義傳統內,對資本主義的批判首先是直接對準資本家階級中最富有的部分,對資本主義的道德譴責很大程度上是基于它使貧窮永久存在”。而抽樣調查恰因條件有限,把階級結構內的兩個極端給漏掉了:資本的真正所有者大資本家)和邊緣的“底層階級”(失業者和喪失勞動能力的人)。這種遺漏重要樣本的情況,相信做數據調查的學者們不會陌生。
現在利用新的獲取數據的方法也存在這樣的問題,比如,窮人買車買房更需要借貸,但銀行里沒有他們的記錄,如果根據算法提供的信用來實施借貸,那么這些人就得不到貸款;對于不使用臉書、微博、推特、微信等社交媒體的人員,在利用這些社交媒體記錄的數據進行計算和分析時,同樣會被漏掉;雖然谷歌書庫已經有了世界多國數百年書籍的海量數據,但也只是其中的一部分,究竟有多大代表性,分析結果會有多大偏差依然是難以解決的問題。據《2021年全球數字概覽報告》(Digital2021:GlobalOverviewReport),截至2021年1月,全球有52.2億人使用手機,相當于世界總人口的66.6%,也意味著還有三分之一的人口沒有使用手機。全球使用互聯網的人數達到了46.6億,比手機使用者還少,社交媒體用戶數量占全球總人口的一半多一點。另外,有些社會特征很重要,但很難量化,也難以進入計算范圍。以互聯網為主要渠道搜集的信息,雖然樣本量大,但覆蓋范圍的代表性比傳統社會調查方法更難以把控。
第二,計算的算法是處理信息的邏輯,即使假定數據有了,采取何種算法依然是一大挑戰。傳統上的定量研究方法重在解釋某個自變量與因變量的關系,尤其是識別其因果關系。利用數據訓練獲得模型后進行預測,是大數據算法比較關注的。這種以預測為目的的算法會把模型的具體設置作為黑箱,只要對預測變量的預測越精準就越好。比如高科技產業的性別歧視問題,谷歌2017年給出的報告稱女性員工明顯比男性收入低,但控制了晉升和主觀業績評估變量后,谷歌員工的收入就沒有性別差異了。控制變量的增減也是模型不確定性的源泉。如果采用了不增加這兩個變量的算法,谷歌員工的收入性別差異出現了,增加后差異就消失了。性別歧視就在于晉升和主觀業績評估,同樣條件下男性更容易獲得晉升和好的主觀業績評價。如果要做性別歧視的因果分析,算法的目的就不僅僅是用擬合度最好的模型來預測員工的收入。報告人該如何選擇算法?評估和晉升這樣的預測收入很強的變量是否放進模型?這就涉及模型的不確定性。
模型的不確定性給一些研究者提供了“挑櫻桃”的機會。假定一個模型里有13個控制變量,與自變量進行不同的組合,會產生8192種不同模型,也就是8192種不同算法。假定我們要評估某個政策實施后的效果,如果有十來個控制變量,在數千個算法中,自變量系數可能有這樣兩種基本情況:(1)全部為正值(或者負值)且統計學意義上顯著(或者部分顯著);(2)有的估計系數是正值,有的是負值,有的顯著,有的不顯著。假定系數全部為正值且都顯著,那么報告人該選擇哪個報告?如果有正值有負值呢?康奈爾大學克里斯托巴·楊格發明了一個檢驗模型穩健性的辦法,即把所有系數分布公布出來,把報告模型的結果放在分布圖里,一并呈現給讀者。計算的邏輯需要人來解釋和賦予意義,數字和算法本身并沒有意義。除了模型選擇問題,算法的不確定性同樣存在于數據搜集、清洗和指標建構等全過程。克勞迪婭·瓦格納等人在《自然》雜志上《測量融入算法的社會》,討論當根據特征進行個人推送這類算法蔓延至社會后,對社會的測量受到(錯誤)測量后果影響,產生了測量質量欠缺問題。因此,計算社會科學也面臨著如何保證測量的效度和信度等問題的挑戰。
第三,算法與復雜社會的動態演化涌現的不確定性與預測算法背后的人的因素都帶來了計算在復雜社會研究上的局限。人工智能先驅赫伯特·西蒙研究人工智能的初心是解決人的決策問題。在經濟學領域獲得諾貝爾獎是源于他提出的有限理性和滿意理論,改變了經濟學原來對人的完全理性和尋求利益最大化假設。
復雜社會環境下,我們面臨的挑戰是看不見前方,不知身在何處;有危險因素;環境不是靜態的,而是動態的。這樣的復雜社會條件下,會發生涌現現象,任何細微變動可能導致不可預測的大的新現象的發生,且難以甄別因果關系。涌現現象不能簡化為底層規律,難以甚至無法預測。復雜的“系統”涉及的不僅僅是游戲規則(算法),還有行動者及其在每個選擇點上對大量可用選項做出的決策。復雜社會里,人們的有限理性和數據與算法的有限性的結果是,即使有實時數據也很難精準預測比較滿意的下一步(更無法知道是否最優)。我們知道步步看起來都最優的決策的“貪婪算法”并不可取,因為最后往往不是全局的最優解。有時候,人生就像一條有很多極值點的函數,站在導數為零的極大值點,雖然邁出哪一步看起來都像往下走,但往往是那看似不理性的、向下走的一步,能讓你發現更高的一座山峰。對于復雜性如此高的現代社會,看似理性的“貪婪算法”更不可取。在模型設置方面,哈佛大學克里斯托弗·溫士浦教授認為,直覺、理論和事實以及運氣都在幫助我們發現某種意義上最好的模型上發揮了作用。也即是說,雖然我們有很高級的計算技術,不斷開發新的計算軟件,但算法本身的決定因素中含有的運氣成分是難以完全掌控的。復雜社會里的偶然性因素或者稱運氣成分時刻存在,對社會研究中算法的設置造成了難以解決的不確定性。即使基于主體的建模,即ABM(agent-basedmodeling),作為一種為解決復雜性而提出的仿真技術,也只能是在主體互動游戲規則方面有限模仿。
算法只是可能幫助我們為不確定性尋找一定的確定性,其背后是人的情感和偏好。人生中每個決策都是利用人生閱歷作為數據,訓練出“模型”,即認知模式,從而每天做出決策并采取行動。算法就在我們的日常生活中。作為計算社會科學學人,我們要比普通人更理解計算在面對復雜社會進行研究方面的局限,才能更好地利用計算為社會科學方法和理論的創新服務,進而為建設美好社會作出應有的貢獻。
作者:陳心想 單位:中央民族大學民族學與社會學學院