信度

来自医学百科

信度系指测验结果的一致性、稳定性及可靠性,一般多以内部一致性来加以表示该测验信度的高低。信度系数愈高即表示该测验的结果愈一致、稳定与可靠。系统误差对信度没什么影响,因为系统误差总是以相同的方式影响测量值的,因此不会造成不一致性。反之,随机误差可能导致不致性,从而降低信度。信度可以定义为随机误差R影响测量值的程度。如果R=0,就认为测量是完全可信的,信度最高。

信度的定义

信度主要是指测量结果的可靠性、一致性和稳定性,即测验结果是否反映了被测者的稳定的、一贯性的真实特征。和信度相关的一个概念是效度,信度是效度的前提条件。

信度只受随机误差的影响,随机误差越大,信度越低。因此,信度可以视为测试结果受随机误差影响的程度。系统误差产生恒定效应,不影响信度。

每一个测试的实得分数(X)总是由真实分数(T)和误差(E)两部分构成的,用公式表示如下:

X=T+E

如果我们讨论一组测验分数的特性时,可用方差代表具体分数,得到公式:

S^2(x)=S^2(t)+S^2(e)

公式中,S^2(x)是实得分数的方差,S^2(t)是真分数的方差,S^2(e)是误差的方差

在测量理论中,信度被定义为:一组测量分数的真分数方差与中方差(实得方差)的比率。即:

r(xx)=S^2(t)/S^2(x)

由于真实分数的方差是无法统计的,因此转化为:

r(xx)=S^2(x)-S^2(e)/S^2(x)

=1-S^2(e)/S^2(x)

因此,信度也可以看做是总方差中非测量误差的方差所占的比例  

信度的指标

一、信度系数与信度指数

大部分情况下,信度是以信度系数为指标,它是一种相关系数。常常是同一被试样本所得到的两组资料的相关,理论上说就是真分数方差与实得分数方差的比值,公式为:

r(xx)=r^2(xt)=S^2(t)/S^2(x)

公式中r^2(xt)是真分数标准差与实得分数标准差的比值,称作信度系数,公式为:

r(xt)=S(t)/S(x)

可见信度指数的平方就是信度系数。

二、测量标准误

信度系数仅表示一组测量的实得分数与真分数的符合程度,但并没有直接指出个人测验分数的变异量。我们可以用一组被试两次测量结果来代替对同一个人的反复施测,于是有了信度的另一个指标,公式为:

SE=S(x)√1-r(xx)

公式中SE为测量的标准误,S(x)是所得分数的标准差,r(xx)为测验的信度系数,从公式我们可以看出测量的标准误与信度之间有互为消长的关系:信度越高,标准误越小,信度越低,标准误越大。  

影响信度的因素

一、样本特征

1、样本团体异质性的影响

2、样本团体的平均能力水平的影响

二、测量长度

一般来说,在一个测试中增加同质的题目,可以使信度提高。

需注意的是,增加测验长度的效果应当遵循报酬递减原则。通过斯皮尔曼-布朗公式的导出公式可以计算出最少应增加的题目:

K=r(kk)*(1-r(xx))/r(xx)*(r(kk)-1)

K为改变后的长度与原长度之比,r(xx)为原测试的信度,r(kk)为测验长度是原来的K倍时的信度估计。

三、测验难度

理论上说,只有测验难度为50%时,才能使测验分数分布范围最大,求得的信度也最高。事实上,难度为0.50只适合于简答型题目,对于选择题目由于猜测因素,难度值应当提高,洛德提出在学习成绩中,为了保证其可靠性,各类选择题的理想平均难度为:五择一测,0.70;四择一测,0.74;三择一测,0.77;是非题。0.85

在实际情况下,如果某个测验适用范围广,其难度水平通常适用于中等能力水平的被试,而对较高水平的被试和较低水平的被试可能较易或较难,使得分数分布范围缩小,信度水平降低,因此一个标准化的测验,应根据不同能力水平的报告测验的难度,以作为选择测验的参考

四、时间间隔

时间间隔只对重测信度和不同时测量时的复本信度有影响,对其余的信度来说,不存在时间间隔问题。

注:我们对一套问卷的信度检验值(一般是指克隆巴赫阿尔法信度系数)有时会出现过低的情况,可能的原因有:

1、试卷本身设计不合理,不是围绕一个主题或是有矛盾的题目。如果试卷中有题目让完全相同的人选择不同的答案,试卷的信度会降低。

2、题目区分度过低,特别指有对错之分的题目。如果一道题正确率或错误率达到90%,可以从新审视题目设计是否合理。区分度过低的题目中真实偏差的成分较少,随机偏差的成分相对较多,试卷的信度会降低。

3、无关变量进入信度检验。除了重测信度,其他信度检验方法都只考虑有序变量,无序变量,如出身城市,喜好颜色等,如果我们没有对城市或颜色排序的话,带入信度检验意义难明,可能会导致试卷的信度降低。

4、题目选项反序。对有序变量,如果变量值之间序的意义相反,会降低甚至得出负的信度。比如检验老师对学生评分的信度,如果一个老师的评分以10分为最高分,1分最低,另一个以1分最高,10分最低。如果不经处理带入信度计算,信度会降低。  

信度评估的方法

一、重测信度,又称为稳定性系数,它的计量方法是采用重测法:用同一测验,在不同时间对同一群体施测两次,这两次测量分数的相关系数即为重测系数。

重测信度所考察的误差来源是时间的变化所带来的随机影响。在评估重测信度时,必须注意重测间隔的时间。对于人格测验,重测间隔在两周到6个月间比较合适。

在进行重测信度的评估时,还应注意以下两个重要问题:⑴重测信度一般只反映由随机因素导致的变化,而不反映被试行为的长久变化。⑵不同的行为受随机误差影响不同。

二、复本信度,是以两个测验复本来测量同一群体,然后求得应试者在这两个测验上得分的相关系数。复本信度的高低反映了这两个测验复本在内容上的等值性程度。两个等值的测验互为复本。

计算复本信度的主要目的在于考察两个测验复本的题目取样或内容取样是否等值。复本信度也考虑两个复本实施的时间间隔。

复本信度的主要优点在于:⑴能够避免重测信度的一些问题,如记忆效果、练习效应等;⑵适用于进行长期追踪研究或调查某些干涉变量对测验成绩影响;⑶减少了辅导或作弊的可能性。☆复本信度的局限性在于:⑴如果测量的行为易受练习的影响,则复本信度只能减少而不能消除这种影响;⑵有些测验的性质会由于重复而发生改变;⑶有些测验很难找到合适的复本。

三、内部一致性信度,主要反映的是测验内部题目之间的关系,考察测验的各个题目是否测量了相同的内容或特质。内部一致性信度又分为分半信度同质性信度。

分半信度系数是通过将测验分成两半,计算这两半测验之间的相关性而获得的信度系数。测验愈长,信度系数愈高。同质性信度是指测验内部的各题目在多大程度上考察了同一内容。同质性信度低时,即使各个测试题看起来似乎是测量同一特质,但测验实际上是异质的,即测验测量了不止一种特质。同质性分析与项目分析中的内部一致性分析相类似。

四、评分者信度,是指不同评分者对同样对象进行评定时的一致性。最简单的估计方法就是随机抽取若干份答卷,由两个独立的评分者打分,再求每份答卷两个评判分数的相关系数。这种相关系数的计算可以用积差相关方法,也可以采用斯皮尔曼等级相关方法。

=  

信度 评介方法

信度

一般通过使用同一量表进行不同测量,分析各测量结果之间联系的方法来评价信度。如果联系密切,各测量结果具有一致性,则认为量表是可信的。评介信度的方法主要有:再预测量、替换形式、内部一致性方法。

再测信度

用同样的量表,对同一组访问对象在尽可量相同的情况下,在不同的时间进行两次测量。两次测量相距一般在两到四周之间。用两次测量结果间的相关分析或差异的显著性检验方法,可以评价量表信度的高低。结果越是相关,差异越不显著则信度越高。 用再次测量法评价信度存在一些问题。结果与时间间隔关系密切。在其他方面都相同的情况下,时间间隔越长,信度越低。其次,最初的测量可能会改变被测特征。例如,测量人们对低脂肪食品的态度可能会使他们更为关心健康问题,从而对低脂食品持更为肯定的态度。第一,实施重复测量有时是不可能的,例如测量消费者对某种新产品的反应。第二,第一次测量的答案可能会对以后测量有影响。受访者可能会图回忆第一次受测时给出的答案。第三,在两次测量之间一个有利的信息可能会使受访者的态度更为有利。最后,再测信度的相关系数可能会由于被测项目自身之间的相关而偏高。两次测量中,同一项目自身之间的相关性要比不同项目间的相关性高。因此,即使不同项目之间的相关性很差,也可能得以很高的再测相关系数。

替换形式信度

用两个形式不同的等价量表,对同一组受访者在不同的时间(通常间隔两到四周)进行测量。两次测量结果间的相关性被用来评价量表的信度。

这个方法存在两个主要问题。首先,构造等价的量表不但费时,而且花钱。其次,很难构造出完全等价的量表。两个量表在内容上应该等价。从严格的意义上说,两个量表的测量项目应具有相同的均值、方差和相关性,但即使这些条件都满足了,还是有可能出现内容不等价的情况。低相关可能是量表的信度不够造成的,也可能是由于量表形式不等价而造成的。

内部一致信度

内部一致信度用于评价累加量表的信度。在这种量表中,各个测量项目的得分被累加以得到一个总分,每个项目都测量整个量表所要测量对象的某个方面,项目之间就它们各自的特征而言应该是一致的。内部一致信度强调的是组成量表的一组测量项目内部的一致性。

折半信度是测量内部一致性是简单的方法。量表中的项目被分成两半并计算测量结果的相关系数。这两半相关系数高,则说明量表内部一致性高。量表的项目可按序号的奇、性分为两半,也可以随机地合。问题在于划分两部分的方法可能会影响到评价结果。克服这一问题的常用方法是采用X系数。

X系数,也称为克朗巴哈X系数,是量表所有可能的项目划分方法的得到的折半信度系数的平均值。X系数的值在0和1之间。如果X系数不超过0.6,一般认为内部一致信度不足。X系数的一个重要特性是它们值会随着量表项目的增加而增加。因此,X系数可能由于量表中包含多余的测量项目而被人为地、不适当地提高。还有一种可以和X系数同时使用的系数。系数能够帮助评价,在计算X系数的过程中,平均数的计算是否掩盖了某些不相关的测量项目。

有些具有多个项目的量表可能在结构上是多维的,那含有几组,每一组项目测量一个方面的特征。例如,商店的形象就是一种多维的结构,包括商品的、商品的花色种类、货与保修政策、人员服务、价格、商店位置、店面局等等。用于测量商店形象的量表就要包括测量以上每个维度(方面)的测量项目。这些维度之间是比较独立的,因此,在包含各个准度的整个表内部考察一致性是不适宜的。不过,如果每个准度是由几个测量项目组成,可以计算每个度的内部一致性。  

信度 效度和信度

信度

效度和信度的关系可以用测量值的构成公式O=T S R来理解。如果测量是完全有效的,即0=T,S=0,R=0,此时测量必然是完全可信的,若量表的信度不足,它也不可能完全有效,因为有O=T R。如果量表是完全可信的,可以达到完全有效,也可能达不到,因为有可能存在导致误差,虽然缺管信度必然缺乏效度,但信度的大小并不能体现效度的大小。信度是效度的必要条件,但不是充分条件。从理论的角度来看,量应具有足够的效度和信度;从实践的观点来看,一个好的量表还应该具有实用性。实用性指量表的经济性、便利性和可解释性。  

信度 分析

信度

信度是指一个衡量的正确性或精确性,信度包括稳定性以及一致性;学者 Kerlinger认为信度可以衡量出工具(问卷)的可靠度、一致性与稳定性。

测验信度越高,表示测验结果越可信,但也无法期望两次测验结果完全一致,信度除受测验质量影响外,亦受很多其它受测者因素的影响,故没有一份测验是完全可靠的。信度只是一种程度上大小的差别而已。一致性高的问卷便是只同一群人接受性质相同题型相同目的相同的各种问卷测量后,在各衡量结果间显示出强烈的正相关。稳定性高的测量工具则是指一群人在不同时空下接受同样的衡量工具时,结果的差异很小。一般信度的测量时容易产生误差的原因,是来自研究者的因素包括:测量内容(遣词用句、问题形式等)不当、情境(时间长短、气氛、前言说明等)以及研究者本身的疏忽(听错、记错等);而来自受访者的因素则可能是由于其个性、年龄、教育程度、社会阶层及其它心理因素等,而影响其答题的正确性。

检视信度的方法有很多种,其中,最常用的是第四种 Cronbach α系数,简介以下四种:

1、再测法:使用同一份问卷,对同一群受测者,在不同的时间,前后测试两次,求出者两次分数的相关系数,此系数又称为稳定系数。

需注意:相关系数高,表示此测验的信度高,前后两次测验间隔的时间要适当。若两次测验间隔太短,受测者记忆犹新通常分数会提高,不过如果题数够多则可避免这种影响;但若两次测验间隔太长,受测者心智成长影响,稳定系数也可能会降低。

2、复本相关法:复本是内容相似,难易度相当的两份测验,对同一群受测者,第一次用甲份测试,第二次使用乙份,两份分数的相关系数为复本系数或等值系数。若两份测验不是同时实施,亦可相距一段时间再施测,这样算出的相关系数为稳定和等值系数。复本相关法是测验信度量测的一种最好方法,但是要编制复本测验相当困难。而且复本相关法并不受记忆效用的影响,对测量误差的相关性也比再测法低。

3、折半法:与复本相关法很类似,折半法是在同一时间施测,最好能对两半问题的内容性质、难易度加以考虑,使两半的问题尽可能有一致性。

折半信度系数:将同一量表中测验题目(项目内容相似),折成两半(单数题、偶数题),求这两个各半测验总分之相关系数。

4、柯能毕曲α系数:1951年Cronbach提出α系数,克服部分折半法的缺点,为目前社会科学研究最常使用的信度。量测一组同义或平行测验总和的信度,如果尺度中的所有项目都在反映相同的特质,则各项目之间应具有真实的相关存在。若某一项目和尺度中其它项目之间并无相关存在,就表示该项目不属于该尺度,而应将之剔除。只要有做问卷就可以做信度分析,提供各项客观的指标,作为测验与量表良窳程度的具体证据。  

信度 测试信度

信度

测试信度也叫测试的可靠性,指的是测试结果是否稳定可靠。也就是说,测试的成绩是不是反映了受试者的实际语言水平。例如,如果同一套测试在对同一测试对象(即受试者本身没有变化)进行的数次测试中,受试者的分数忽高忽低的话,则说明该测试缺乏信度。测试的信度与测试的效度有着密切的关系。一般说来,只有信度较高的测试才能有较高的效度,但效度较高不能保证信度也一定较高。测试的信度主要涉及到试题本身的可靠性和评分的可靠性这两个方面。试题本身是否可靠主要取决于试题的范围、数量、试题的区分度等因素;评分是否可靠则要看评分标准是否客观和准确。

测试的信度通常用一种相关系数(即两个数之间的比例关系)来表示,相关系数越大,信度则越高。当系数为1.00时,说明测试的可靠性达到最高程度;而系数是0.00时,则测试的可靠性降到最低程度。在一般情况下,系数不会高到1.00,也不会降到0.00,而是在两者之间。对信度指数的要求因测试类别的不同而不同,人们通常对标准化测试的信度系数要求在0.90以上,例如“托福”的信度大致为0.95,而课堂测试的信度系数则以0.70-0.80之间为可接受性系数。测试信度的计算方法有很多种,以下仅介绍三种易于操作的方法:

1)重测法。用同一套试卷在两个不同时间内来测试同一批受试者,这样便获得两组分数,然后计算出两组分数的相关系数。当然,在两次测试中,学生第二次的测试成绩理应比第一次的要高,因为在第二次测试时学生已经有了进步而且临场经验也更丰富了。但是若该试题是比较可靠的,每个学生在两次测试中的排名次序应该是基本不变的。

2)交替形式法。对同一批受试者使用试题类型完全相同,难易程度相当,但具体题目不同的两套对等试卷先后进行两次测试,然后计算出两次得分的相关系数。

3)对半法。测试只进行一次,但将整份试卷的题目按单、双数分成两组来分别计分,算出两组分数的相关系数,然后再用Spearman-Brown的公式计算整份试卷的信度系数。具体计算步骤是:将两组分数的相关系数乘以2,再除以1加两组分数的相关系数。