CiteSpace分析原理

2020-03-10 20:20 作者:李杰-科學知識圖譜 0人讀過 | 我要投稿

CiteSpace分析原理

陳超美教授/美國德雷賽爾大學

不斷增長的科學，技術，和人文知識是人類的寶貴資產(chǎn)。新發(fā)現(xiàn)能擴展和深化現(xiàn)有的知識，也能淘汰原有的甚至是曾經(jīng)輝煌的認識。不論是活躍在科學研究前沿的對科學家，學者，或?qū)W生，還是每個關心科學對我們的社會產(chǎn)生什么樣的影響朋友，親屬，他們最關心的問題也許形形色色，但是都面臨著一個最核心最更本的問題：我們是否了解和如何了解一個知識領域的來龍去脈，它的現(xiàn)狀，和今后的發(fā)展前景。

傳統(tǒng)的研究和培養(yǎng)模式中，研究人員需要不斷地尋找相關文獻來建立自己對學術領域的系統(tǒng)認識。比如該領域中主要研究問題是什么，哪些是奠基式的研究，哪些是里程碑式的研究，哪些是最關鍵的理論，方法和技巧，哪些是當前最嚴峻的挑戰(zhàn)，等等等等?；卮疬@些問題的過程是個高度抽象的過程。這個過程需要不斷地分析，演繹，歸納。任何時間段里出現(xiàn)的文獻都可能起到關鍵作用，任何視角都有可能帶來新的靈感，任何細節(jié)都可能成為下一個突破的開端。

一個專家之所以成為專家在很大程度上取決于他對一個領域或者一個領域中幾個研究問題不但有透徹的了解和密切地關注著最新的動向，最重要的他有其獨到的見解。每個學術領域發(fā)展到一定階段都會有它的學術綜述和系統(tǒng)性地總結(jié)，回顧和展望。隨著領域自身的發(fā)展自然會出現(xiàn)新的綜述和新的評價。通常學術綜述或者由本領域知名專家來撰寫，或者由初出茅廬的學者撰寫而由此跨入新一代專家的行列。一個系統(tǒng)綜述可以幫助我們梳理我們對一個學術領域的認識，可以從眾說紛紜的學術文獻中理出另人興奮的頭緒。

我們對系統(tǒng)性學術綜述的依賴并非總能如愿以嘗。一個新興領域就可能沒有它的系統(tǒng)綜述。一個高歌猛進的領域里，任何現(xiàn)有的綜述都可能很快過時。即使一個領域里有足夠的沒過時的系統(tǒng)綜述，我們還是很有可能發(fā)現(xiàn)撰寫綜述的專家對我們所感興趣的問題一帶而過或者完全忽略。在這種情況下，我們很容易想到兩種選擇：一個是盼著能有個新綜述及時出現(xiàn)，而且新出現(xiàn)的綜述正好對我們的研究興趣有同樣的興趣。另一個是自己動手，量體裁衣，做出一個完全針對我們自己的研究問題的系統(tǒng)綜述。

自己動手有很多好處。我們可以自己掌握綜述的進度，范圍，深淺等等。我們還可以自己掌握綜述的頻率。但是自己動手的最大障隘是如何完成這一高度復雜而抽象的過程，如何完成從樹木到森林的飛躍，如何從窺一斑而見全豹的飛躍。完成如此飛躍的關鍵在于如何對紛至沓來的學術文獻作出準確，公正，和盡可能全面的鑒別。作出這樣的鑒別需要過硬的專業(yè)知識和豐富的經(jīng)驗。除了專家本人，還有什么渠道能讓我們源源不斷地獲取這類知識？

科學文獻本身提供了大量的信息。學術論文中的引文體現(xiàn)了專家學者們對現(xiàn)有文獻的選擇。不論這種選擇是出于何種動機及其具體原因，選擇本身提供的信息就很有價值?？茖W文獻可以大致氛圍三類。一類屬于經(jīng)典文獻，一類屬于曇花一現(xiàn)的文獻。這里經(jīng)典文獻的定義很廣，只要一篇論文不斷地被引用，那它就屬于經(jīng)典文獻，并非只有愛因斯坦的論文才能成為經(jīng)典文獻。曇花一現(xiàn)的文獻占了科學文獻整體中的絕大多數(shù)，他們出現(xiàn)幾乎立刻被學者們所遺忘，甚至根本沒有引起任何人的關注。第三類文獻往往是問題的關鍵。這些文獻從茫茫論文的海洋中產(chǎn)生了飛躍，給人們對科學知識的認識中留下了明確的印記。引文分析有少的弱點和不足，但是它所研究的信息是難以替代的。我們從學者的闡述論證中會學到很多很多，而我們從學術同仁對其優(yōu)劣的描述和評判中能學到的會更多更深刻。更重要的是，學術同仁作出其評判時所依據(jù)的邏輯推理和演繹過程。如果我們能把來自不同學派和不同視角的這種學術鑒定予以綜合歸納，那我們將會極大地減少專家撰寫的系統(tǒng)綜述中在所難免的個人偏見。這里所致的個人偏見沒有任何貶義，這是人類認識，興趣，經(jīng)驗，和觀念的必然結(jié)果。

CiteSpace的設計是在這個前提下給學者和任何對科學知識前沿的發(fā)展感興趣的人們提供一個自己動手時所需要的工具[1, 2]。CiteSpace的目的是利用學術領域里專家學者們在他們論文中對學術文獻所做的選擇來作為我們自己鑒別學術文獻潛力的基礎[3-5]。我們有什么理由相信如果把形形色色的論文中的引文分揀，提煉，整合到一起，我們就能得到我們做綜述所需要的信息呢?托馬斯·庫恩的科學革命的結(jié)構給CiteSpace提供了哲學基礎[6]。庫恩認為，科學的推進是建立在科學革命上的一個往復無窮的過程。這個過程中會出現(xiàn)一個又一個的科學革命，人們的認識通過科學革命而接納新的觀點。而新觀點的重要性在于對我們所觀察的對象能否作出更另人信服的解釋。庫恩的科學革命是新舊科學范式的交替和興衰?？茖W認識中會出現(xiàn)危機，而危機所帶來的新舊范式的轉(zhuǎn)換都將在學術文獻里留下印記。庫恩的理論給我們提供了一個具有指導意義的框架，如果科學進程真像庫恩所洞察的那樣，那我們就應該能從科學文獻中找出范式興衰的足跡。

CiteSpace的另一個設計靈感來源于一個叫做結(jié)構洞的理論。這個理論原本是芝加哥大學羅納德·Burt在研究社會網(wǎng)絡和社會價值時提出的[7, 8]。他研究的問題是人們在社會網(wǎng)絡中的位置和他們的主意和創(chuàng)意的質(zhì)量是否有什么聯(lián)系。他發(fā)現(xiàn)結(jié)構洞概念提供了這樣的證據(jù)。在一個完全連通的社交網(wǎng)絡中，每個人和所有的人都直接聯(lián)系。因此，各種信息可以隨意地從一個人傳播到另一個人。在這樣的網(wǎng)絡中，不存在結(jié)構洞。在另一類也是更常見的網(wǎng)絡中，社交網(wǎng)絡中不是每個人和所有其他人都有直接聯(lián)系，如果如此，便有了結(jié)構洞，即結(jié)構上的不完備。這種情況下，信息在網(wǎng)絡中的流動受到其結(jié)構上的約束。每個人在網(wǎng)絡中所能接觸到的信息內(nèi)容不再相同，傳遞和接受的時間也會出現(xiàn)差別。Burt發(fā)現(xiàn)，位于結(jié)構洞周圍的人往往具有更大的優(yōu)勢。而這一優(yōu)勢往往又可以歸結(jié)為他們所接觸到的各類不同信息導致了比其他人更大的想像空間。這個問題歸結(jié)為我們能接觸到信息，意見或觀點在多大程度上是廣譜的和多樣化的。社交網(wǎng)絡中的結(jié)構洞理論可以擴展到其它類型的網(wǎng)絡，尤其是引文網(wǎng)絡。Burt的結(jié)構洞和庫恩的范式轉(zhuǎn)換在CiteSpace中得到了具體體現(xiàn)。庫恩的范式體現(xiàn)為一個又一個時間段所出現(xiàn)的聚類。聚類的主導色彩揭示了他們興盛的年代。伯特的結(jié)構洞連接了不同聚類。我們可以從中更深入地了解一個聚類如何連接到另一個幾乎完全獨立的聚類，以及哪個具體文獻在范式轉(zhuǎn)換中起到了關鍵作用。結(jié)構洞的思想在CiteSpace中體現(xiàn)為尋找具有高度中介中心性的節(jié)點。這樣我們不在拘泥于具體論文的局部貢獻，而放眼于他們在學術領域的整體發(fā)展中的作用。這恰恰是系統(tǒng)性學術綜述所追求的飛躍。

節(jié)點的中介中心性能引導我們盡快地發(fā)現(xiàn)有潛力的工作和新穎的想法。在現(xiàn)實中，僅僅有好的想法往往可能還不夠。人們需要做出自己的判斷和決策。CiteSpace的發(fā)展中的到的第3個啟迪來自最優(yōu)信息覓食理論。該理論最初是由Pirolli提出來解釋信息搜索中人們是如何做出決定的[10]。最佳信息覓食理論本身是最佳覓食理論的延伸。當我們搜索信息時，我們需要做出一系列的決定，取舍。所有這些決定都服務于一個簡單的目的：我們需要付出最少的損耗來獲得最大的效益，也就是廣義的盈利最大化。毋庸置疑，這些考慮都應限制在道德倫理法律等等的約束范疇之內(nèi)。根據(jù)這一理論，我們在覓食過程的所有決定，有意識或無意識地，取決于如何將預期的增益和潛在風險之比最大化。高風險往往是相對的，新例證可能會減少我們最初對風險作出的評估。如果我們發(fā)現(xiàn)已經(jīng)有學者在研究相同或類似的問題，對其他學者來說研究同一問題的風險將會大大降低。我們在以前的研究中確實發(fā)現(xiàn)了這種效應。高風險的想法出版后通常會引來更多的研究。最初的嘗試導致了大家對效益/風險之比進行重新評估，從而使在新環(huán)境下更容易地作出決定。CiteSpace借鑒的第4個重要概念是如何對這種效應的強度和持久性作出明確地衡量。Kleinberg在2002年提出了探測頻率突增的算法[9]。如果一篇論文的引文頻次突然呈現(xiàn)急速增長，那么最穩(wěn)妥的解釋就是這篇論文切中了學術領域這個復雜系統(tǒng)中的某個要害部位。知識網(wǎng)絡中這樣的節(jié)點通常揭示一項很有潛力或很讓人感興趣的工作。

如果我們過多地注重局部細節(jié)，我們可能會舍本逐末以至忽視全局的結(jié)構和動態(tài)。CiteSpace通過計算機算法和交互式可視化把人們從一些費時費力的負擔中解脫出來，使得我們可以把我們的精力集中在更重要更關鍵的分析問題，抽象思維，和創(chuàng)造性思維上。基于引文所體現(xiàn)的信息不僅能使我們更了解過去，還有可能讓我們對未來有更明確的期待。

網(wǎng)絡的模塊化是對其整體結(jié)構的一個全局性量度。局部結(jié)構的變化可能會引起全局的改變，但是也同樣可能不會引起任何全局上的改變。前者將成為經(jīng)典，而后者將曇花一現(xiàn)。在CiteSpace的設計中，我們通過監(jiān)測知識系統(tǒng)如何對新論文可能作出的反應來探測新論文潛力。科學知識本身是一個自適應復雜系統(tǒng)。新發(fā)現(xiàn)和新想法可能會改變我們的信念和行為。它的輸入和輸出不是線性相關。如果一篇新論文可以看作是自適應復雜系統(tǒng)所收到的信號，如果我們測量系統(tǒng)的模塊化，模塊化的改變或沒有改變會給我們了解這篇論文的潛力提供非常有價值的信息。這是CiteSpace所遵循的結(jié)構變異理論的基礎[11, 12]。

CiteSpace作為一款可視化分析工具，獻給致力于自己動手積極追蹤學術領域發(fā)展動態(tài)的人們。

參考文獻

Chen, C., CiteSpace II: Detecting and visualizing emerging trends and transientpatterns in scientific literature. Journal of the American Society forInformation Science and Technology, 2006. 57(3):p. 359-377.
Chen , C., Searching for intellectual turning points: Progressive Knowledge DomainVisualization. Proc. Natl. Acad. Sci. USA, 2004. 101(Suppl.): p. 5303-5310.
Small, H., Cocitation in the scientific literature: A new measure of therelationship between two documents. Journal of the American Society for Information Science, 1973. 24: p.265-269.
Garfield, E., Citation indexes for science: A new dimension in documentation throughassociation of ideas. Science, 1955.122(3159): p. 108-111.
Kessler, M.M., Bibliographic coupling between scientific papers. AmericanDocumentation, 1963. 14: p. 10-25.
Kuhn, T.S., The Structure of Scientific Revolutions. 1962, Chicago: Universityof Chicago Press.
Burt, R.S., Structural holes and good ideas. American Journal of Sociology,2004. 110(2): p. 349-399.
Burt, R.S., Structural Holes: The Social Structure of Competition. 1992,Cambridge, Massachusetts: Harvard University Press.
Kleinberg, J., Bursty and hierarchical structure in streams, in Proceedings of the 8th ACM SIGKDDInternational Conference on Knowledge Discovery and Data Mining. 2002, ACMPress: Edmonton, Alberta, Canada. p. 91-101.
Pirolli, P., Information Foraging Theory: AdaptiveInteraction with Information. 2007, Oxford, England: Oxford UniversityPress.
Chen, C., Predictive effects of structural variationon citation counts. Journal of the American Society for Information Scienceand Technology, 2012. 63(3): p.431-449.
Chen, C., The Fitness of Information: Quantitative Assessments of CriticalEvidence. 2014: Wiley.

引用格式：陳超美，李杰主編. 科學知識前沿圖譜理論與實踐/陳超美. CiteSpace 的分析原理[C]. 高等教育出版社. ?2018. 1-4.

電子書下載地址：https://share.weiyun.com/5glc5Uz?

標簽：