统计资料的效度与信度的评估方法刍议

【摘要】统计资料的效度和信度关系到统计结果的准确性和科学性，对于统计资料的选择具有重要的参照意义。本文在界定了统计资料信度和效度的基础上，详细分析了评估统计资料信度与效度的具体方法。

【关键词】统计资料信度效度方法

一、统计资料效度和信度的概念

所谓统计资料的效度是指：（1）统计方法实际统计中的概念正是研究问题中的概念而不是另外的概念；（2）这些概念被精确地进行了测量。只有做到了第一步，才能作到第二步；而做到了第一步并不一定就作到第二步。所谓信度简单地说是指测量结果的一致性（无矛盾性）。

例如：要是你星期一量体重的结果是 60 千克，星期二量时也是 60 千克，测量就算有信度，即是说是余人相信的。如果星期一量时为 60 千克，星期二却为 65 千克，测量便叫无信度或不可信。根据信度测量的一致（无矛盾）性的这一见解，我们都允许测量尺度实际上不确实（无效度）但部一致，因而仍然有信度。例如：要是某人实重 60 千克，而在星期一和星期二的测量中都是 58 千克，这种测量就算可信。

必须注意的是，这种说法不能倒过来。即只能说有信度但无效度，不能说有效度而无信度。因为效度的规定是指每次测量的精确性，因而有效度也就一定可信。从这里可以看出，二者的关系是非对称的。

对测量的效度和信度的评估，其程度要直接依对测量要求的精确度为转移。例如：一个 50 千克重的人，如量体重时要求的精确度为正负 10 千克，那么第一次测量为 40 千克，第二次测量为 50 千克，两次测量都应被认为可信，因为都在规定的误差范围之内。

二、对统计资料效度估评的类别及方法

在社会学的研究中，学者们对怎样估评测验的效度提出了以下几种见解：

（一）表面效度

表面效度又叫内容效度或逻辑效度。它是评估人对于测量的效度作出的一种直接的割断性的估价。评估人对被测量的概念进行研究，在其最佳割断中决定测量手段到达这一概念是否合适。表面效度可以通过制断而被认可，但不能被征证明。

要判断一种测量手段是否具有表面效度，首先必须了解被测量概念的定义，其次需弄清收集的情报（资料）是否与该概念紧密相关。在这当中，如果发现测量手段所覆盖的正是设想中的概念而不是其他概念，该测量手段（如问卷所列条目）便有表面效度；否则，就无表面效度。在表面效度估计上产生的多数问题都是在以下情况中发生的：（1）对被测量的概念的定义不一致；（2）概念是一个包含着一些属概念的多元概念；（3）测量过程长而且复杂。

（二）准则效度

准则效度又叫做实用效度、共变效度或预测效度。它包括对同一概念的多种测量。「共变效度」这一术语多被用来描述那些对当时存在的特定现象进行的测量的效度。「预测效度」则用以表示那些预测未来事件的测量的效能。

准则效度的中心问题是要运用一个已有的对概念的测量尺度（手段）作为检验新的测量尺度（手段）是否有效度的标准。在进行新的测量中，如果新尺度测量的结果与作为标准的旧测量尺度的测量结果是相同或类似的，新的测量尺度就可以说右准则效度或共变效度（亦即突用效度）。而一种旧的测量尺度要作为核对新的测量尺度有无效度的标准，首先必须具有表面效度，并且必须已在使用中被证明是有效的：许多作为这样标准的测量尺度，是多次使用都获得成功的。

这里发生这样一个问题：既然旧的测量尺度是有效的，为什么研究者不照常用它而要追求新的呢？具体的原因很多，如果的测量尺度使用不易，包含的提问太多难以实行，或所列回答的种类贫乏难以回答，以及难以编码、甚至用语陈旧、过时等。由于不同的原因，使旧的测量尺度无法继续使用，于是便提出了设计新的测量手段的必要。必须具有表面效度，井且必须已在使用中被证明是有效的：许多作为这样标准的测量尺度，是多次使用都获得成功的。

（三）结构效度

结构效度是由两个相关的可以相互取代的测量尺度，对一定理论命题交互测量可取得同样的测量结果而构成的。当运用第一种尺度对理论、命题和概念进行测量而都被得到证明后，又用第二种尺度去代替第一种井取到同样结果，也就可以说新的测量尺度（第一种）有结构效度。

从表面效度到准则效度再到结构效度，可以被看成是递进的上升或累加过程。每一后继类型都包括了前面各种的一切成分井增添了新的特点。如同测量层次中的定距尺度要求比定序尺度、定序尺度要求照定类尺度有更多的关于变量的情报一样，结构效度也要求比准则效度、准则效度要求比袭面效度有更多的情报。因此，结构效度常常被认为是各种效度鉴别中的最高的一类。在实际的鉴别中，表面效度只涉及单个的概念和关于垓概念的单个测量尺度，而准则效度则需一个概念和测量它的两个或更多的测量尺度。至于结构效度，它不仅需涉及某一概念及其相对的两种以上的尺度（其中有一个是能在后续的效度检验中取代先前已用过的），而且要涉及另外的概念及它们的测量尺度。这些尺度是能够通过命题与问题中的概念相联系的。

三、对统计资料信度的估评方法

要核对测量是否可信是一件困难的事。因为要是将原测量用的问卷、提问对原来的解答人重复地再使用。研究者本是想以此来核对测量手段的信度，而接受回答问卷的人则可能会以为研究者对他们过去的回答不相信，要检验一下他们是否撒谎。因此，他们便可能有意地作出无矛盾的回答，虽然这样作并不可信。这种情况会破坏对一种测量手段和方法的重复使用。许多研究者也为此而抱怨。目前对信度检验的办法，一般采取以下两种方式：

（一）交替或平行法

交替或平行法有一点类似在浴室内用两个一样的秤在同一时间内测量同一个人的体重以相互印证它们的可靠性。例如：研究者可以设计由测量同一概念但具体条目不同的问卷，同时用于在序的一群研究对象，以从结果上相互印证它们的可靠性。这种方法又叫多形式法。

属于交替或平行法的还有一种方法又叫对半测试法。研究者使用此法只需设计出单一的测量手段。它包纳的提问条目需是研究者的实际需要的两倍，其中的一半作为多余的或者是对前一半的重复。这两半都同时在研究中使用，其结果如果高度相关，便可以说该测量手段是可信的；如果相反（两半的结果是矛盾的或不一致）便可以说该测量手段不可靠。

使用上述各种方法要解决的主要问题是要弄清设计的两种交替手段或两个对半测量条目确实测量的同一概念。如果情况不是这样，而是它们各自测量了不同的概念，研究者便不能对信度作出评价。就实际的意义上讲使用两种相互替代的测量手段，只能估计出它们是否测量了同一概念的程度。如果这两种测量结果是高度相关的，便可说明都测量了同一概念；如果是低相关，便说明测量了不同的既念。因此.有人会说，用交替方法井非是对信度的检验而是对准则效度的检验。

（二）对信度的反复检验。

由于对信度的规定指的是同一测量尺度其结果的一致或无矛盾，而不是说两种交替的测量手段其结果一致，因而对信度检验的办法最好是对同一测量手段的重复运用。这样作会面临许多问题。为充分了解这些问题，必须准确和仔细考察一种测量手段怎样才是不可信的。在日常生活中，一个人如果使用自己洗澡间的秆每日量一次体重，连续两个月，其最后测量的记录也许会比两月中多 5 千克。这并不一定是测量不可信的证明。因为他可能在这两个月中体重增加了 5 千克，因而精确的秤便显示超出原有的重量。一个有信度的测量手段精确的秤便显示超出原有的重量。一个有信度的测量手段，像前面所说的秤一样，也会在被测量对象的特征发生变化时，显示其特征值的变化。如果没有发生变化，就不会作相应的反映。

参考文献

[1]朱建平.Excel 在统计工作中的应用[M].北京：清华大学出版社，2013：121.

[2]贾俊平.统计学[M].北京：中国人民大学出版社，2014：68.

[3]符放勋.实用统计学[M].北京：国防工业出版社，2014：87.

作者侯家骏