来源:中国科学报作者:张 冬冬
字体大小:
谷歌学术搜索逐渐引起了研究人员的使用兴趣。图片来源:PCANZO
在过去一年中,Jonathan Eisen的阅读习惯发生了显著改变。在之前20年的大部分时间里,他主要通过梳理生物学摘要的在线数据库PubMei以了解科学文献。不过最近,身为美国加州大学戴维斯分校进化生物学家的Eisen不再从中搜寻资料,但却仍能找到与其工作相关的研究。
帮助Eisen实现这一效果的图书管理员就是谷歌学术搜索,即由加州谷歌公司所开发的自由学术搜索服务。谷歌学术搜索密切关注着Eisen的研究,它不仅能够跟踪到Eisen自己的300篇论文及其关键词——古生菌、疟原虫等,还能找到发表的论文、预印摘要、书籍。谷歌学术搜索就像一个科学版的电影推荐引擎,搜索互联网,提供所有其预测会令Eisen感兴趣的科学文档,然后每周向他发送推荐阅读的电子邮件。
Eisen是越来越多支持谷歌学术搜索的人群中的一员。西班牙格拉纳达大学的文献计量研究人员Nicolas Robinson-Garcia说:“谷歌学术搜索对研究人员的学术搜索行为有很大影响。”Robinson-Garcia认为,谷歌学术搜索中的文献纲要至少与领先的商业学术搜索资料库——汤森路透科学网和爱思唯尔的斯高帕斯数据库同样全面,在社会科学和人类学领域甚至比其做得更好。据说,谷歌学术搜索正在吞噬市场份额。牛津大学出版社高级编辑David Crotty说:“谷歌是在线期刊文章的主要推介来源,远远超过其他搜索工具。”
但研究人员并不只将谷歌学术搜索作为搜索引擎。其算法提供了引文指标,可以量化他们发表的作品的影响,而且这些数字逐渐成为了标准科学简历的一部分。谷歌学术搜索的这一副产品引发了一个新担忧:因为它涵盖了互联网上的数据来源,而不只来自审查期刊,但却没有管理者,因此谷歌学术搜索的量化引用很容易被人操纵。
Robinson-Garcia参与的一个团队通过在格拉纳达大学网站的一个网页上放置了6篇有着多次引用条目的假论文,从而证明了这一漏洞。谷歌学术搜索的算法忠实地记录了这些引用,在几周后,这些研究人员在谷歌学术搜索中的分数显著上升。该团队的发现于去年11月11日在线发表在《美国科学与技术信息学会期刊》上。
Robinson-Garcia称,如果谷歌学术搜索中存在对引文指标的分析,“那么我们的欺诈就应该很容易被检测到”。包括荷兰莱顿大学的Rodrigo Costas Comesana在内的文献计量研究人员曾因为谷歌学术搜索缺乏透明度而无法接受它,称谷歌学术搜索是针对引文分析的“一个难以管理的工具”。
谷歌反驳称,批评人士夸大了这一问题。引领这一项目的谷歌联合创始人Anurag Acharya将那些使引文分析数据出现偏差的数据称为“垃圾信息”。他说:“到目前为止,学术文章中垃圾信息的数量水平还是很低的。”Acharya将其归咎于学术界对操纵数据进行的“巨大惩罚”。他认为,如果社会规范无法抑制学术骗子,那么“我们可以并将会调整操纵垃圾信息的水平”。不过,他说,谷歌无意透露其算法,部分原因是这涉及到公司的核心搜索引擎。
谷歌学术搜索的优势地位可能很快会遇到挑战。“发表还是灭亡”的创建者Anne-Wil Harzing说:“微软也在攻克这一领域。”“发表还是灭亡”是使用谷歌学术搜索数据的一种引文分析工具。被称为微软学术搜索的服务器正在迅速扩张,试图覆盖所有学术领域。与此同时,汤森路透和爱思唯尔用强大财务激励以保持服务器的竞争力。许多大学都受保密协议限制,不过康奈尔大学的图书管理员John Saylor称,他所在的机构每年会支付15.5万美元以使用科学网数据库的资源。正如Harzing所说,“谷歌和微软进入这一领域必将会使汤森路透和爱思唯尔如坐针毡”。
专家称,竞争有另一个好处:让科学家有得选择,这样他们不用只依赖一个服务,例如谷歌学术搜索也许因公司裁员而受到影响。包括《科学》杂志在内的1300多种期刊的在线发布平台HighWire的创始董事John Sack表示,“有长期的传言称谷歌正在淡化甚至解散学术搜索团队”。虽然谷歌学术搜索并没有带来直接的收入,但Acharya仍对其未来持乐观态度。他拒绝透露使用的数据,但声称全球用户数量正在增长,尤其是在中国。而谷歌学术搜索的团队正在扩大,而不是收缩。“关于我们这一项目将会灭亡的谣言是极度夸张的。”