文獻計量中，如何確定某一科學領域的核心作者？

pgl147258 2015-01-13

展開全文

【李貝的回答(8票)】:

如何確定某一（學科）領域的核心作者？我覺得每一個科技工作者都有一套自己獨特的方法和經驗法則。在這里，我主要是想介紹一下涉及到的“文獻計量學”這門學科的概念、一些主要理論、方法以及它在確定核心作者方面的應用。

1.文獻計量學的由來和概念

最早的文獻計量研究始萌于20世紀初，以1917年由文獻學家科爾（F.T. Cole）和伊爾斯（N. B. Eales）所進行的文獻統(tǒng)計研究為起點的。1922年，英國圖書館學家休姆（E. W. Hulme）在其編著的《統(tǒng)計目錄學與現(xiàn)代文明增長的關系》一書中首次使用了“統(tǒng)計目錄學”（Statistical Bibliography）的名稱。它代表的是：為了探明圖書資料的特性，常使用統(tǒng)計方法，從而產生的書目學的一個新的分支學科。1969年，英國著名情報學家阿倫·普理查德（Alan Pritchard）首次提出用術語Bibliometrics取代“統(tǒng)計目錄學”的名稱。他的建議很快得到圖書館學、情報學界的普遍承認。這一術語的出現(xiàn)標志著文獻計量學的正式誕生。

在這里，我們對“文獻計量學”定義的概念的是：以文獻或文獻相關媒介為研究對象，采用數(shù)學、統(tǒng)計學等的計量方法，研究文獻和文獻工作系統(tǒng)的規(guī)律與科學管理，以及探討科學技術動態(tài)特征的一門科學。（邱均平，1985）

2.文獻計量學中主要的理論和方法

①文獻作者分布規(guī)律——洛特卡定律

洛特卡定律（Lotka’s Law）揭示了科學生產率，以及作者與論文之間的數(shù)量關系。

20世紀是人類歷史上輝煌的一頁，這不僅表現(xiàn)在科學發(fā)展的快速，同時體現(xiàn)在科學領域更為深廣的方向發(fā)展。20世紀初以來，全世界的科學文獻呈現(xiàn)倍增態(tài)勢，科技期刊的增長也在加劇?？萍计诳脑鲩L造成了文摘雜志的相應增加。文摘雜志為適應這一發(fā)展，其結果是出版日益規(guī)范化，如普遍設立作者索引，這一變化引起學者對文獻規(guī)律研究的廣泛興趣。1926年，當時供職于保險公司的洛特卡，在美國著名期刊《華盛頓科學院學報》上，發(fā)表了題為《科學生產率的頻率分布》（The Frequency Distribution of Scientific Productivity）一文。在該文中，洛特卡從科學文獻作者與其撰寫的論文的紛亂現(xiàn)象中發(fā)現(xiàn)了“平方反比”的數(shù)量關系，提出了至今被人稱為“經典的”洛特卡定律，從而成為文獻計量學中最早的一個著名定律。

在收集數(shù)據(jù)的過程中，洛特卡采用了化學和物理兩個領域文獻載體中的數(shù)據(jù)。這是因為化學和物理學是20世紀發(fā)展速度最快、最全面的兩個學科，他們能夠全面地反映科學發(fā)展的整個過程。洛特卡選擇美國《化學文摘》和德國奧爾巴赫《物理學史一覽表》為數(shù)據(jù)源研究科技工作的論著數(shù)量分布。他統(tǒng)計分析了《化學文摘》1907-1916年10年累積索引中的部分作者，即姓氏以字母A和B開頭的6891位作者。分別列出發(fā)表過1篇，2篇，一直到346篇論文的人數(shù)?！段锢韺W史一覽表》包括了1900年前物理學領域內出現(xiàn)的1325位物理學家及其論著，取其全部數(shù)據(jù)進行統(tǒng)計。

利用上述數(shù)據(jù)，洛特卡以論文數(shù)（

）和作者數(shù)（

）的對數(shù)為橫坐標和縱坐標作圖，兩組數(shù)據(jù)都是直線（如圖1所示）。圖中虛線表示《化學文摘》數(shù)據(jù)，實線代表《物理學史一覽表》的數(shù)據(jù)。用最小二乘法計算擬合直線的斜率，近似為-2。

洛特卡分布曲線圖

根據(jù)洛特卡分析，在論文數(shù)

和作者數(shù)

之間，存在著下列一種關系：

上式中，

是發(fā)表了論文

篇的作者數(shù)，n和c是對應于這一典型數(shù)據(jù)集合而估計出來的兩個常數(shù)，n的數(shù)值在2上下波動。具體到洛特卡統(tǒng)計的實例，指數(shù)n近似為2.0。于是上式可改為：

因此，洛特卡定律的最原始表述是：在某一時間段內，寫了篇論文的作者數(shù)量占作者總數(shù)的比例與其所撰寫的論文數(shù)的平方成反比。這也就是文獻計量學中經典的“平方反比定律”。早期的洛特卡定律對于高產作者數(shù)據(jù)采取的是刪除處理，同時也不能反映合作者與科學論文之間的關系。后來的學者們在洛特卡定律的基礎上對其做了深度和廣度的拓展。

美國著名的科學史學家普賴斯（PriceD.S.）首先注意到，文獻作者分布領域內高產作者研究的重要性。他在研究中發(fā)現(xiàn)，有75%的科學家一生只發(fā)表了一篇論文，而另有10%的科學家在其一生中所發(fā)表的論文占所有論文的一半。這有些類似于管理學領域常說的“二八定律”或者“二八分布”。普賴斯在1969年發(fā)表的《小科學，大科學》一書中指出，撰寫全部論文一半的高產作者的數(shù)量，等于全部作者總數(shù)的平方根。

②引文分析與h指數(shù)

在科學文獻體系中，科學文獻之間并不是孤立的，而是相互聯(lián)系的?？茖W文獻的相互關系突出地表現(xiàn)在文獻之間的相互引證方面。

首先，應明確“參考文獻”和“引證文獻”兩個術語在概念上的區(qū)別。普賴斯在論及引證及被引證關系時曾建議：每一篇被引文獻，對于引證者（論文作者）來說，就是有了一篇參考文獻（Reference），而對于被引證者（引用作者），則是有了一篇引證文獻（Citation）例如，本文引證了普賴斯的一篇文章中的一段話，那么我們便有了一篇參考文獻；而對于普賴斯來說，就是有了一篇引證文獻。

所謂引文分析（Citation Analysis），就是利用各種數(shù)學及統(tǒng)計學的方法和比較、歸納、抽象、概括等邏輯方法，對科學期刊、論文、著者等各種分析對象的引證與被引證現(xiàn)象進行分析，以便揭示其數(shù)量特征和內在規(guī)律的一種文獻計量分析方法。（邱均平，1988）

2005年，美國科學家Hirsch提出用h指數(shù)來測評核心科學家，開創(chuàng)了學術評價新指標，立即引起了學術界的廣泛興趣和高度關注。Hirsch將h指數(shù)定義為：一位作者的h指數(shù)等于其發(fā)表了h篇至少被引h次的論文，即一個作者的h指數(shù)表明其至多有h篇論文被引用了至少h次。一般認為，h指數(shù)越高的科學家在其學科領域的影響力越大。

h指數(shù)的計算方法是：將作者發(fā)表的所有科學論文按被引次數(shù)從高到低排序，從前往后查找排序后的列表，直到某篇論文的序號大于該論文被引次數(shù)，所得序號減1即為h指數(shù)。需要注意的是，h指數(shù)的計算依賴于引文數(shù)據(jù)庫的選擇，由于不同引文數(shù)據(jù)庫的來源期刊數(shù)量和期刊的學科結構差異較大，因此某個科學家的h指數(shù)會因為所選取的數(shù)據(jù)庫的不同而有所變化，不同學科間的學者的h指數(shù)也有較大差異。

3.文獻計量在確定核心作者方面的一些應用

美國《基本科學指標》（EssentialScience Indicators, ESI）是由世界著名的學術信息出版機構美國科學情報研究所（Institute For Scientific Information, ISI）“研究服務組”于2001年推出的衡量科學研究績效（現(xiàn)為國際著名的學術信息出版提供商“湯森-路透集團”）、跟蹤科學發(fā)展趨勢的基本分析評價工具，是基于SCI（科學引文索引數(shù)據(jù)庫）和SSCI（社會科學引文索引數(shù)據(jù)庫）而建立的計量分析數(shù)據(jù)庫。ESI從引文分析的角度，針對22個專業(yè)領域，分別對國家、研究機構、期刊、論文以及科學家進行統(tǒng)計分析和排序。

在科學家排名中，運用的是引文排位（CitationRankings）的思想。被引頻次是同行認知的一種形式，通常反映的是科研群體對于科學家的依賴程度。所以可以理解為：高被引科學家形成科研群體的實質核心。

4.文獻計量的一些問題

引用行為是一種社會心理過程的反映，文獻被引與否不完全取決于文獻本身對知識的貢獻，而是必然地受到作者學術地位和發(fā)表平臺的學術聲望等社會因素的影響。因此，目前學術界對引用關系能夠取得的共識是：引用關系體現(xiàn)的是文獻之間的相關關系，被引次數(shù)可以反映出文獻的被關注程度。被關注的文獻就像新聞熱點一樣，在一個時間段內會被廣泛述及、討論、引用，該文獻的質量及其對知識的貢獻度仍然有待歷史的檢驗。

在理想情況下，文章被引用客觀地反映了其他科學家對文章的使用。但要注意，引用的原因有很多，采用、支持、證明、評價、駁斥、證偽等，都得引用。還有，不同類型的文章、不同學科領域，引用的情況也不一樣。比如綜述類文章引用率就比較高，某些學科的引用率也比其他學科高，人文科學引用往往比較少。

5. Reference

[1]王崇德. 科學論文作者的研究[J]. 情報學報, 1982, 2: 220-224.

[2]邱均平. 關于“文獻計量學” 術語及其定義[J]. 圖書情報知識, 1985,3: 007.

[3]邱均平.文獻計量學[M].北京：科技文獻出版社,1988.

[4]葉鷹. h 指數(shù)和類 h 指數(shù)的機理分析與實證研究導引[J]. 大學圖書館學報, 2008 (5): 2-5.

[5]姜春林, 劉則淵, 梁永霞. H 指數(shù)和 G 指數(shù)——期刊學術影響力評價的新指標[J]. 圖書情報工作, 2007, 50(12): 63-65.

[6]ESI簡介:http:///ESI[EB/OL].檢索時間：2014年9月9日.

[7]中國134名科學家入選全球“高被引科學家”: http://news.sciencenet.cn/htmlnews/2014/8/302417.shtm[EB/OL].檢索時間：2014年9月9日.

[8]劉宇.引文首先是一種修辭工具.檢索時間：2014年9月9日.

[9] 張曉林：如何看待全球高被引用率排名: http://news.sciencenet.cn/htmlnews/2014/8/301497.shtm. [EB/OL].檢索時間：2014年9月9日.

原文地址:知乎