本文以CiteSpace软件做的关键词共现分析为例,进行关键词共现图谱含义详细解析。作者、机构、国家、学科(COOC软件可做)等网络分析与此类似。
关键词是一篇论文的核心概括,对论文关键词进行分析可对文章主题窥探一二。
而一篇论文给出的几个关键词一定存在着某种关联,而这种关联可以用共现的频次来表示。一般认为,词汇对在同一篇文献中出现的次数越多,则代表这两个主题的关系越紧密。
共词分析法利用文献集中词汇对或名词短语共同出现的情况,来确定该文献集所代表学科中各主题之间的关系。
统计一组文献的主题词两两之间在同一篇文献出现的频率,便可形成一个由这些词对关联所组成的共词网络。
CiteSpace做的图谱并不是用的原共现矩阵,而是在原矩阵的基础上通过COSINE,PMI,DICE和JACCARD标准化后的矩阵,然后利用它们进行网络可视化,至于具体使用哪种标准化,这里就要发挥人的主观能动性啦,即反复比较,观看图谱找出最符合实际情况的标准化方法。一般默认都使用COSINE余弦相似度。也有一些研究常用相异矩阵,此时可借助COOC软件计算。
所以,本质上你在做图谱前已经对该领域有所了解了,否则你无法对图谱进行有效解读,且你并不知道那个图更好! 对于刚进入领域的研究小白来说最快速的方法就是看几篇综述型文章,以达到对该领域有个大概印象。
那反过来说,既然你对该研究领域已经有了解了,为什么还要再做图谱呢?
个人认为你的图谱除了能发论文,写报告等任务外,还有两个原因:
其一从自身角度来看:做出的图谱会修正你之前对该领域的理解,因为你之前的理解可能并不全面,存在遗漏且较为主观。而以数据为驱动的方法能够客观的展示领域发展的现状、趋势和前沿,达到以主观去理解客观,再以客观去修正完善主观的功效,最后主观与客观相统一,从而让你对领域的认识更加科学、客观、全面。
其二从他人角度来看:做出的图谱能够让那些不了解本领域的人花费最少的时间精力入门本领域。
下面看图吧!
如下图所示,此图由CiteSpace生成的关键词共现网络。与利用Ucinet软件或者Gephi软件绘制出来的共现网络图本质是相同的,就是由节点和边构成的网络罢了。
首先,我们可以通过左上角的参数看到网络的节点数、边数和网络密度。
其中节点数就是图中的关键词个数,边数就是关键词之间的连线数。只要关键词在同一篇文献中出现过,两者之间就会有一条连线。【PS.当然与你设置的每个时间切片提取的关键词个数有关系。】
图中圆圈大小代表的是关键词频次,频次越大,圆圈越大。Ucinet软件或者Gephi软件可以很方便的使用点度中心性、接近中心性、中间中心性和特征向量中心性等属性表征节点大小。(NSS视频理论部分已经详细讲解这些中心性的含义:[软件+教程] NSS2.2一款用于网络科学与知识图谱服务的软件)
但是请记住:CiteSpace软件统计的这个频次并不是导入的数据中的总频次,而是阈值设置后的频次,所以列表中的频次应该小于等于真实频次,一般是小于。如果想统计真实准确的频次可以使用COOC软件。但是很多人并不清楚,在论文中错误地认为这个频次是总频次。
另外,特别注意,在利用CiteSpace进行分析时需要进行数据清洗工作,利用清洗后的数据做与不清洗直接做存在一定误差。可利用COOC软件进行清洗,然后再利用CiteSpace作图,结果就非常准确了。
线条代表关键词之间的联系,线条颜色与图中上方年份相对应,用于标志每一年有哪些主要关键词。
左侧列表除了关键词频次和中心性外还有关键词初次出现年份,这个时间非常重要,它会在时区图和时间线图密切相关。
从这个图中我们可以获取什么信息呢?
还是回到了共词分析的原理上:共词分析法利用文献集中词汇对或名词短语共同出现的情况,来确定该文献集所代表学科中各主题之间的关系。
我们目的是为了获得学科中各主题之间的关系,而主题使用关键词表示的,本质就是关键词之间的联系,所以又返回去了,我们本质就获得了关键词之间的联系。联系紧密的关键词会相对形成一个个小的团体,进而我们可以将这个小团体中的关键词进行归纳总结,总结出一个个主题,然后对主题进行详细论述。其实本质就是聚类分析啦!只是过程是人工的而已!
当然CiteSpace软件自身也具有聚类的功能,下节课再讲。
提醒一下:当人工已经可以很容易的进行归纳后,就不需要再利用CiteSpace聚类功能啦。
该功能是在你看不清,看不懂共现图谱的时候用一下,辅助你了解的。结果往往并不总是十分理想。但是人工往往很难辨别清楚,所以还需要利用CiteSpace的自动聚类功能。除CiteSpace可做聚类分析外,Ucinet、Gephi、VOSviewer、Pajek等软件均可做聚类图谱分析,效果也很好,如果要是做文献计量,往往需要结合COOC软件。
注意事项
关键词共现网络相当于你进入文献计量领域做出的第一个有点难度的图。
有哪些事项需要注意呢?
【1】文献检索问题
文献计量第一步就是检索文献数据,在此过程中我们要尽量找全目标领域的同义词,尽量提高查全率。当然,同时也要考虑查准率。这两个基本呈现对立关系,一般查全率提高了,查准率就会降低,需要检索人员反复测试,构建合适的检索式。
怎么才叫合适的检索式呢?
我的经验是:
如果文献量特别的大,可以选择标题OR关键词检索,此时查准率高;
如果文献量不是很多,可以选择主题检索,此时查全率高。
【2】数据清洗问题
做文献计量必须进行数据清洗,所有不进行数据清洗的文献计量就是ZJ。
计算机界有一个很有名的说法,叫“Garbage In Garbage Out),翻译成汉语就是“垃圾进、垃圾出”,即用胡乱选择的垃圾数据作分析,产生的研究结果自然也没有任何意义。
因为从中国知网、Web of Science等数据库里检索出的数据存在与目标领域不相关的文献或不是真正的论文,如有些是编辑部的通知、公告、选题指南等,如果不进行数据清洗将导致结果不准确。而目前已知软件(COOC除外),均不具备数据清洗功能。COOC软件可将清洗后的数据转化为CiteSpace和VOSviewer等软件可识别的格式。所以,以后再做文献计量所用的软件应该是COOC+CiteSpace或者COOC+VOSviewer。
【3】文献去重问题
中国知网、Web of Science等数据库中存在重复的数据,所以在进行文献计量分析时首先需要对数据进行去重,这也是文献计量中必不可少的一步,而很多研究中并没有这一步,可使用COOC软件进行解决。
【4】关键词合并与删除问题
不同的作者由于习惯常用不同的关键词表示同一个含义,如“科研数据管理”、“科学数据管理”、“研究数据管理”等是同义词关系,这种情况就需要合并同义词了;此外在做文献计量分析时网络中会出现一些无意义的词,如“综述”、“进展”等,此时需要进行删除。如何快速有效的批量进行关键词的合并与删除也是一大难题,可使用COOC软件进行解决。
【5】关键词缺失问题问题
这个问题很隐蔽,如果你的论文直接使用CiteSpace、VOSviewer等软件绘制图谱,那么你永远也不可能发现这个问题。因为这些软件是直接把下载的题录数据导入软件进行的分析,当文献缺失关键词时也不会有所提示,使用者无法判断下载的文献是否缺失关键词。
这个问题如何解决呢?
目前没有好的办法,其一:放任不管;其二:利用COOC软件找到这些缺失关键词的文献,然后一篇篇找到原文进行补充,当总数据量不多时,建议进行补充,否则会严重影像件结果。
那么问题来了,问什么会缺失关键词呢?
其一:有些论文真的本来就没有关键词;
其二:各大数据库收录统计时少部分缺失未完全统计
拓展
共现分析的方法论基础是心理学的邻近联系法则和知识结构及映射原则。心理学的邻近联系法则是指曾经在一起感受过的对象往往在想象中也联系在一起,以致于想起它们中的某一个的时候,其他的对象也会以曾经同时出现时的顺序想起。
我们常说的关键词共现、作者共现、机构共现、国家共现都是共现分析的一种。
只不过依据分析对象的不同,作者共现称为作者合作网络、机构共现称为机构合作网络、国家共现称为国家合作网络而已…
一句话,正如我们在课程中所讲的一样,上述所有的分析本质上就是共现分析。