经济新常态下图书馆大数据应用研究分析

作者
作者

摘要:本文以中国知网收录的核心刊物和 CSSCI 数据库文献为数据来源,对 2019 年 5 月前发表的关于图书馆大数据研究的论文进行文献计量分析,采用文献计量分析法,可视化分析法和内容分析法等对文献进行梳理分析,从描述性特征和内容特征两个方面入手,分析了国内图书馆大数据领域研究的发展现状。

关键词:文献计量  图书馆  大数据

在 2011 年 5 月,世界着名的咨询公司麦肯锡(Mckinsey)发表了《大数据:创新、竞争和生产力的下一个前沿领域》[1]报告,第一次提出了「大数据」的概念,各个行业和领域的数据量的增长也极其迅速,美国的学术界和企业界也对这种现象的意义进行了激烈的探讨。「大数据」这个名词变得越来越流行,越来越重要,最后成为了国家和政府层面的发展战略[2]。

图书馆,可以说是一个社会信息服务的中心场所,不仅仅需要有较高的技术,而且还面临着较高的管理风险[3],不仅如此,图书馆还面临着来自内外部环境的激烈竞争与重重挑战。从内部环境来看,除了上面提到的主要挑战之外,还存在许多图书馆不得不面对的挑战因素,例如图书馆的基础设施,运营的经费,人力资源与管理制度等都是图书馆会面临的问题;从外部环境来看,各种信息服务机构和各大 IT 厂商都已经专注于对大数据应用的研究[4],图书馆在大数据的应用竞争中,已经落后与他们一步,尽管图书馆在资源方面占据优势,但是图书馆在技术应用方面的劣势使得其追上其他机构的步伐受到了极大的限制。如何提高技术水平,避免与其他竞争者的差距越来越大,将是图书馆必须要考虑的一大问题。

图书馆学界已经针对大数据开展了一定的学术研究与实践应用,都已经取得了显着的成功。本文将对中国知网(CNKI)中关于大数据在图书馆领域的应用方面的文献进行分析,采用文献计量分析法,可视化分析法和内容分析法对图书馆大数据的应用研究领域的期刊文献进行可视化分析,清晰全面的展现图书馆大数据研究的时空分布特征以及研究热点,其展示结果更直观也更具有科学性。通过分析结果,期望可以看清楚目前大数据在图书馆领域的应用研究现状以及研究的重点与存在的不足,为研究中遇到的困难提出建议,为以后的研究指明方向。

一、数据来源及研究方法

(一)数据来源

本文的研究数据来源于中国知网( CNKI)的核心期刊和 CSSCI 数据库,数据的获取时间为 2019 年 5 月 15 日,以「图书馆」与「大数据」为检索词进行主题检索,时间跨度为所有年份,共检索出截至 2019 年 5 月 15 日前发表的文献 376 篇,因为都属于核心期刊或 CSSCI 中的文献,有很强的代表性,经筛选最终得到的 360 篇文献符合本研究的研究范围。

(二)研究方法

本文从文献的描述性特征与内容特征两个方面进行了研究,一方面运用文献计量分析方法对与大数据图书馆应用领域的相关文献的发表的时间分布,作者以及发文机构等因素呈现出的描述性特征进行统计分析,另一方面采用内容分析法与可视化分析法对该领域文献的关键词与主题进行分析,探究该领域研究的重点以及研究热点。用到的可视化软件 Citespace 是一款基于 java 环境的用于计量和分析科学文献数据的信息可视化软件,是最近几年在信息分析的研究中用到的影响力最强最有特色的信息可视化软件。将以上三种方法结合在一起,对有关图书馆大数据应用的文献进行分析,能客观科学的得到该领域研究现状及发展趋势等信息[5]。

二、调研结果与分析

(一)文献发表年份分析

利用文献计量方法来分析某一领域的发展历程,根据文献的增长及老化规律,对相关论文发文量进行年度统计分析,在刚开始研究某个领域的时期,由于相关理论基础较为缺乏,所以文献数量较低。随着研究的深入,越来越多的研究者加入,研究成果增多,相关论文的发表量也会上升,渐渐地机构增加,发文量增长较快,研究成熟后,发文量趋于稳定[6]。通过对从 CNKI 中核心期刊和 CSSCI 数据库中检索得到的 360 篇有关图书馆大数据应用的研究文献进行年代分布统计分析,统计得到图一所示结果。(说明:2019 年的发文量是预测值)

由图 1 可以看出,大数据在图书馆的应用研究文献数量在核心期刊和 CSSCI 中发表的较少,最早始于 2006 年,发文量为两篇,该年发表的两篇文献分析探究了数字图书馆中常见资源特点和描述需求。可见大数据的概念还并没有开始普及。在接下来的几年时间中,关于该领域研究的文献几乎没有。直到 2012 年,发文量持续上升,该领域越来越收到关注。到目前为止,每年的发文量总体数量保持平稳,说明我国图书馆大数据研究进入相对稳定阶段,上述现象与我国大数据的发展有密切关系。大数据最贴切的概念是 2008 年提出的,2008 年以后,尤其是 2012 年以来大数据研究越来越受到重视,论文发表增长较快,成为当前研究热点,所以这与大数据在图书馆应用的发展是一致的。

(二)作者及发文机构分析

1.作者分析。某一领域的研究者往往会通过发表论文的方式把自己的研究成果公布并传播出去。通过对文献作者的分布情况进行分析,我们可以清楚地看到该领域研究者发表论文的总体情况[7]。在 2006 年到 2019 年之间,大数据在图书馆的应用研究领域呈现出了许多科研成果,这些成果浸透着众多科研工作者的心血。本文通过社会网络分析法对大数据在图书馆的应用领域的文献作者的分布情况与合作情况进行分析,得到了作者共现网络图谱(也可以称为作者与合作分布图谱,图 2)。

由图 2 可知,在大数据在图书馆的应用研究领域,形成以马晓亭,陈臣,熊太纯等为中心的作者聚类群,表明这些学者是该研究领域的领军人物。为了更加具体地显示在中国图书馆大数据研究领域主要研究学者的学术成就,统计发表文献量前十的学者名单,如表 1 所示。

从表 1 可以看出,马晓亭,陈臣是目前为止图书馆大数据研究领域的核心研究人员,经过统计他们共发表论文 52 篇,占该主题领域发文量的 14%。另外,可以看出,大部分作者的发文量是 4 篇、3 篇或者 2 篇,这说明该领域绝大多数的研究者进行的并不是长期研究。由此可以看出,我国大数据在图书馆的应用领域的研究已经具有影响力的代表作者出现,但是核心作者群还没有真正的形成,对该领域的研究人员还比较少,比较分散,研究成果也较少,因为大部分研究者都是短期研究,没有深入研究,没有对该领域长时间的关注。

2.发文机构分析。每个研究机构在研究领域方面都有一定的差异以及联系,研究机构的合作促进了相关领域的发展[8]。为了解图书馆大数据研究领域的机构合作情况,利用 Citespace 可视化软件生成研究机构共现网络图谱,如图 3 所示。

此次研究的数据也就是 360 篇文献共来自 37 个发文机构。由图 3 可知,研究大数据在图书馆应用的领先机构分别是兰州商学院信息工程学院和兰州财经大学信息工程学院,其次是兰州商学院信息中心,兰州商学院网络中心。几所机构对该领域的研究时期较长,尤其是兰州商学院信息工程学院和兰州财经大学信息工程学院,走在该领域的研究前沿。可以看出兰州的高校对该领域的研究比较重视,是该领域的代表机构。

表 2 列出了发文量前二十的研究机构。从表 2 可以看出,兰州商学院信息工程学院和兰州财经大学信息工程学院、兰州商学院信息中心、兰州商学院网络中心、兰州财经大学信息中心、南京大学信息管理学院等机构对大数据在图书馆的应用的研究较多,发表的论文相对较多,共占总数的 16.3%。仔细研究这些发文机构,发现绝大多数是高校的信息学院与图书馆,除此之外还涉及其他专业与研究中心等。

(三)图书馆大数据研究热点的分析(关键词分析)

论文的关键词是对文章思想的高度概括,某领域或主题论文的关键词频次能够反映学界对该领域或主题的关注度和重视度,也能够从中窥探该领域或主题研究的热点[9]。为了对我国大数据在图书馆的应用领域的研究热点有个更清楚的认识,运用词频统计分析法对该领域的 360 篇文献进行关键词统计,最终形成了该领域的关键词共现图谱(图 4)。表 3 出了频次在前 20 的关键词,通过分析,以期更清楚的认识该领域的研究热点和研究方向。

在纳入统计的 360 篇文献中出现了 622 个关键词,出现 3 次及以上的有 39 个,可见该领域研究角度较多,范围比较广泛。将所有的关键词进行处理,相同意思的关键词进行合并,并将「图书馆」与「大数据」这两个高频次但对研究意义不大的词语剔除,最终将频次至少 6 次的关键词共有 14 个绘制成表 3。从表 3 可以看出,在图书馆的大数据应用研究中,「高校图书馆」「数字图书馆」「大数据时代」「数据挖掘」「个性化服务」「知识服务」「数据分析」「云计算」等关键词的出现频次较高,说明该领域的研究者对大数据在图书馆的应用研究工作者中的研究主体,面向的对象和研究内容等的认识比较一致,关注点也比较集中。从关键词的词频统计,还可以看出大数据在图书馆的应用对象大多为高校的图书馆,公共图书馆相对较少。研究紧密结合时代特征和实际需要,利用大数据的相关技术,如数据挖掘,数据分析,云计算等,为图书馆用户提供符合时代的个性化知识服务。

(四)图书馆大数据研究主题研究前沿的分析(主题分析)

随着科技的进步,各种技术的发展应用,图书馆的大数据技术的应用也在不断的发展,研究热点也在不断的更新前进[10]。为了研究目前我国在该领域的研究热点与发展趋势,我们利用 Citespace 可视化软件中的 burst term 功能进行分析,得出了该领域的文献突变关键词的分析,如表 4 所示。表 4 所示是 8 个突变关键词的年代分布。通过观察突变词的年代分布,可以看出该领域随着研究热点、时间的变化前进。表 4 中红色的线段代表着突变关键词在这个时间段的使用频次突然增加,浅色的线段代表在该时间段突变关键词出现的频次较低。

由表 4 可知,该领域研究中突变的关键词有:数据主体、权属关系、数据立法、图书馆数据、数据挖掘、数据处理、知识服务、高校图书馆等。在 2006 年,突变的关键词有数据主体、权属关系、数据立法、图书馆数据,表明当时的研究前沿在数据的规范化方面。 2012、2013 年突变的关键词为:数据挖掘,数据处理,知识服务等,表明这个时期,大数据技术开始成熟,开始注重知识服务的重要性。2017 年突变关键词为:高校图书馆。表明各大高校开始把大数据技术引入高校图书馆,更好地为学生提供专业的服务,满足学生越来越高的需求。

表 4 图书馆大数据研究领域突变关键词的年代分布

三、 结论与不足

本文中以 CNKI 中「图书馆大数据」为主题的核心期刊和 CSSCI 数据库文献为数据源,利用文献计量分析法,可视化分析法和内容分析法等,对中国大数据在图书馆的应用研究领域近 13 年研究的历史成果和研究现状进行全面的梳理和总结分析,得出以下结论:一是以图书馆大数据为主题的文献数量呈曲线增长的趋势,这十几年来该领域的研究者和研究成果都有了很大的提升,表明越来越多的人开始关注该领域,在该领域的研究也在不断深入发展,尤其随着大数据技术的不断发展,该领域的研究也在不断发展。到目前为止,每年的发文量总体数量保持平稳,说明我国图书馆大数据研究进入相对稳定阶段;二是在图书馆大数据领域的研究中,比较早期的研究者以马晓亭为代表,并出现陈臣,何胜,熊太纯等在该领域中占有举足轻重地位的研究者;三是从研究机构来看,兰州商学院信息工程学院和兰州财经大学信息工程学院为主要的两个发文机构,他们与邻近城市的其他研究机构进行经常的沟通,互相学习,密切合作,共同推动中国图书馆的发展,将先进的大数据技术应用于图书馆,为人们提供更好的个性化服务。四是图书馆大数据研究领域的内容比较广泛,研究热点在高校图书馆、数据挖掘、数据处理、知识服务、个性化服务等方面,随着大数据技术的逐渐成熟,其在图书馆的应用也越来越深入,将相关的数据技术应用到图书馆中,包括高校图书馆与公共图书馆,是图书馆为用户提供更加专业的个性化信息服务与知识服务,推动我国图书馆的发展。

本文中的数据源为 CNKI 中核心期刊与 CSSCI 数据库中的中文期刊文献,没有涉及相关领域的外文文献,所以结果还有待补充完善。由于 CNKI 数据库自身的限制,没有办法运用 Citespace 可视化软件进行文献的引文分析,所以分析的结果并不完善,具有一定程度的局限性。另外,本文仅以图书馆大数据作为主题进行分析,可能忽略了其他该领域的主题,所以分析结果有待补充。

参考文献:

[1]韩翠峰.大数据带给图书馆的影响与挑战[J].图书与情报,2012(05):37-40.

[2]张文彦,武瑞原,于洁.大数据时代的图书馆初探[J].图书与情报,2012(06):15-21.

[3]柳益君,何胜,冯新翎,武群辉,熊太纯.大数据挖掘在高校图书馆个性化服务中应用研究[J].图书馆工作与研究,2017(05):23-29.

[4]袁红军.大数据时代下图书馆参考咨询服务创新机制探究[J].图书馆工作与研究,2017(01):16-19.

[5]苏新宁.大数据时代数字图书馆面临的机遇和挑战[J].中国图书馆学报,2015,41(06):4-12.

[6]杨利军,高军.图书馆个性化服务中的大数据可视化分析与应用研究[J].现代情报,2015,35(07):68-72.

[7]王红,袁小舒.基于文献计量的图书馆扶贫研究分析评价[J].晋图学刊,2018(05):44-49.

[8]王红,姚尧,段雨婕.基于知识图谱的中国地图制图研究领域的文献计量分析[J].湖北大学学报(自然科学版),2017,39(05):523-530.

[9]牟静.大数据环境下的高校图书馆阅读推广研究——利益相关者共赢视角[J].图书馆研究,2015,45(01):72-75.

[10]樊伟红,李晨晖,张兴旺,秦晓珠,郭自宽.图书馆需要怎样的「大数据」[J].图书馆杂志,2012,31(11):63-68+77.

作者单位:山西财经大学信息学院


作者 王芳