效度
效度(Validity)即有效性,它是指测量工具或手段能够准确测出所需测量的事物的程度。效度是指所测量到的结果反映所想要考察内容的程度,测量结果与要考察的内容越吻合,则效度越高;反之,则效度越低。效度分为三种类型:内容效度、准则效度和结构效度。
简介[编辑 | 编辑源代码]
效度是测量的有效性程度,即测量工具确能测出其所要测量特质的程度。效度是科学的测量工具所必须具
备的最重要的条件。在社会测量中,对作为测量工具的问卷或量表的效度要求较高。鉴别效度须明确测量的目的与范围,考虑所要测量的内容并分析其性质与特征,检查测量的内容是否与测量的目的相符,进而判断测量结果是否反映了所要测量的特质的程度。
鉴定程序[编辑 | 编辑源代码]
从内容效度﹐到准则效度﹐再到构念效度﹐可视为一种累进﹐即构念效度需要比准则效度更多的信息﹐准则效度需要比内容效度更多的信息。
效度比信度有更高的要求﹐信度是效度的必要条件﹐没有信度的测量工具就谈不上具有效度﹐但信度高的测量工具未必具有高的效度。
测试维度[编辑 | 编辑源代码]
1)表面效度(face validity)。指测试应达到的卷面标准,即一套测试题从表面看来是否是合适的。例如,若一次阅读理解力的测试包括许多受试者没有学过的方言词汇,则可认为这次测试缺乏表面效度。表面效度是测试出受试者正常水平的一种保证因素。
2)内容效度(content validity)。指一套测试题是否测试了应该测试的内容或者说所测试的内容是否反映了测试的要求,即测试的代表性和覆盖面的程度。例如,如果某一套发音技能测试题仅仅考查发音所必须具备的某些技能,如只考单一音素的发音,而不考查重读、语调或音素在词语中的发音,那么,该测试的内容效度就很低。
3)编制效度(construct validity)。指一套测试题的诸项目对编制该测试所依据的理论的各个基本方面的反映程度。例如,以结构主义语言理论为基础,认为系统的语言习惯是通过句型而获得的,那么,强调词汇和语法环境的测试题目就失去了编制效度。
4)经验效度(empirical validity)。经验效度是一种衡量测试有效性的量度,通过把一次测试与一个或多个标准尺度相对照而得出。经验效度可分为两种:一是共时效度(concurrent validity),即将一次测试的结果同另一次时间相近的有效测试的结果相比较,或同教师的鉴定相比较而得出的系数;二是预测效度(predictive validity),即将一次测试的结果同后来的语言能力相比较,或是同教师后来对学生的鉴定相比较而得出的系数。
一般来说,对某次测试的效度进行检验时,除了要根据教学大纲的要求和观念有效性的理论对试卷的内容进行考查以外,还须采用计算相关系数的定量方法,即计算出本次试卷与另一份已被确定能正确反映受试者水平的试卷之间的相关系数。系数高则有效性大。课堂测试的效度应在0.4-0.7之间,规模较大的测试其效度应在0.7以上。
效度分析[编辑 | 编辑源代码]
效度分析有多种方法,其测量结果反映效度的不同方面。常用于调查问卷效度分析的方法主要有以下几种。
单项与总和相关效度分析[编辑 | 编辑源代码]
表面效度(Face Validity)。也称为内容效度或逻辑效度,指的是测量的内容与测量目标之间是否适合,也可以说是指测量所选择的项目是否“看起来”符合测量的目的和要求。主要依据调查设计人员的主观判断。
这种方法用于测量量表的内容效度。内容效度又称表面效度或逻辑效度,它是指所设计的题项能否代表所要测量的内容或主题。对内容效度常采用逻辑分析与统计分析相结合的方法进行评价。逻辑分析一般由研究者或专家评判所选题项是否“看上去”符合测量的目的和要求。统计分析主要采用单项与总和相关分析法获得评价结果,即计算每个题项得分与题项总分的相关系数,根据相关是否显著判断是否有效。若量表中有反意题项,应将其逆向处理后再计算总分。
准则效度分析[编辑 | 编辑源代码]
准则效度(Criterion Validity)。又称为效标效度或预测效度。准则效度是指量表所得到的数据和其他被选择的变量(准则变量)的值相比是否有意义。根据时间跨度的不同,准则效度可分为同时效度和预测效度。准则效度分析是根据已经得到确定的某种理论,选择一种指标或测量工具作为准则(效标),分析问卷题项与准则的联系,若二者相关显著,或者问卷题项对准则的不同取值、特性表现出显著差异,则为有效的题项。评价准则效度的方法是相关分析或差异显著性检验。在调查问卷的效度分析中,选择一个合适的准则往往十分困难,使这种方法的应用受到一定限制。
结构效度分析[编辑 | 编辑源代码]
建构效度(Construct Validity)。是指测量结果体现出来的某种结构与测值之间的对应程度。结构效度分析所采用的方法是因子分析。最关心的问题是:量表实际测量的是哪些特征?在评价建构效度时,调研人员要试图解释“量表为什么有效”这一理论问题以及考虑从这一理论问题中能得出什么推论。建构效度包括同质效度、异质效度和语意逻辑效度。有的学者认为,效度分析最理想的方法是利用因子分析测量量表或整个问卷的结构效度。因子分析的主要功能是从量表全部变量(题项)中提取一些公因子,各公因子分别与某一群特定变量高度关联,这些公因子即代表了量表的基本结构。通过因子分析可以考察问卷是否能够测量出研究者设计问卷时假设的某种结构。在因子分析的结果中,用于评价结构效度的主要指标有累积贡献率、共同度和因子负荷。累积贡献率反映公因子对量表或问卷的累积有效程度,共同度反映由公因子解释原变量的有效程度,因子负荷反映原变量与某个公因子的相关程度。
内部效度[编辑 | 编辑源代码]
内部效度的概念[编辑 | 编辑源代码]
研究的内部效度是指在研究的自变量与因变量之间存在一定关系的明确程度。如果自变量和因变量之间关系并不会由于其它变量的存在受到影响,从而变得模糊不清或复杂化,那么这项研究就具有内部效度。它所涉及的问题是:
(1)所研究的两个或多个变量之间是否存在一定的关系?
(2)是否确实是自变量的变化引起了因变量的变化?
研究设计要对可能涉及的各种变量进行有效的控制与消除,使与研究目标无关的变量对研究结果的影响很小或没有影响,,因而,研究变量之间(如自变量与因变量之间)的关系是确定的和真实的,意味着一项研究的内部效度高。
影响内部效度的因素[编辑 | 编辑源代码]
影响内部效度的因素比较多,归纳起来,主要有历史、研究被试、研究手段方法和程序、统计回归效应四方面因素。
内部效度的条件[编辑 | 编辑源代码]
研究的内部效度不会自动形成。内部效度的获得,主要是通过研究设计,认真细致地选择变量,切实控制好各种变量,保证研究变量之间的确定关系,消除与研究目标无关的变量对研究结果的影响。上述4种方面的因素,都是在研究中应特别注意控制的,最有效的途径是采用随机化程序。对于教育科学研究的各种具体情况(例如不同的研究活动),影响内部效度的因素种类、数量、作用大小会有一定的差别,应该根据具体情况加以分析、预估、识别、并采取适当措施予以控制或消除,以提高研究的内部效度。
外部效度[编辑 | 编辑源代码]
外部效度简介[编辑 | 编辑源代码]
研究的外部效度是指研究结果能够一般化和普遍适用到样本来自的总体和到其它的总体中的程度,即研究结果和变量条件、时间和背景的代表性和普遍适用性。外部效度可以细分为总体效度和生态效度两类。
总体效度指研究结果能够适应于研究样本来自的总体的程度与能力,或说对总体的普遍意义。要使研究结果适用于总体,就必须从总体中随机选取样本,使样本对总体具有代表性。如果研究所选样本有偏差或数量太小,不足以代表总体,其结果就难以对总体特征进行概括。
生态效度是指研究结果可以被概括化和适应于其它研究条件和情景的程度和能力。要使研究结果能够适用于其它研究条件和情景(例如,自变量与因变量、研究程序、研究背景、研究时间和研究者等方面的不同),就必须特别设计研究条件与情景,保证对其它条件、情景有代表性。
一般认为,内部效度是外部效度的必要条件,但不是充分条件。内部效度低的研究结果就谈不上对其它情景的普遍意义;可是内部效度高的研究,其结果却不一定能够一般化到其它总体和背景中去。教育科学研究的重要意义是要发现教育活动的普遍规律,指导教育工作的开展。因此,提高研究结果的外部效度十分重要。一项研究的内部效度再高,如果其结果仅适应于特定的范围,特定的测量工具、特定研究程序和特定的研究条件等,那么,从获取一般知识和揭示普遍规律的角度来看,其价值、意义不大。因此,研究的外部效度与内部效度在重要性上毫不逊色。
影响外部效度的因素[编辑 | 编辑源代码]
影响外部效度的因素主要有4个面:研究被试方面、变量的定义和测试方面、研究手段和程序方面、实验者方面。
外部效度的条件[编辑 | 编辑源代码]
上述4方面因素,有时单独存在,有时同时存在若干方面的影响。要提高研究的外部效度,必须注意在研究中消除和控制上述各种影响因素。外部效度的要求是研究能够符合客观情况,适用于更大的总体。其中,关键的一环就是做好取样工作。取样工作不但包括被试的取样,而且也包括有代表性的研究背景(工作场所、学校、家庭、实验室)、研究工具、研究程序和时间等的选择。取样的背景与实际情景越接近,研究结果的可用性、适用性、推广性就越强。一般来说,随机取样,提高模拟现实情景的程度,采用多种相关的研究方法,变化研究条件寻求具有普遍意义的结论,是获得外部效度、提高研究结果可应用性的重要条件。
统计结论效度[编辑 | 编辑源代码]
统计结论效度简介[编辑 | 编辑源代码]
统计结论效度是关于研究的数据分析处理程序的效度检验,或者说,它是检验研究结果的数据分析程序与方法的有效性的指标。统计结论效度的基本问题是研究误差、变异来源与如何适当地运用统计显著性检验,它不涉及系统性偏差的来源问题,而是研究误差变异情况和如何适当运用统计显著性检验的问题。例如,采用小样本的研究数据时,由于样本成份与测量数据都波动比较大,稳定性差,如果依赖统计显著性水平做出推论是不可靠的。在这种情况下,应该运用功效分析(power analysis),看看一定的样本范围、变异程度和α水平上能够检验出多大的效应。这就是统计结论效度所考虑的问题。
影响统计效度的因素[编辑 | 编辑源代码]
影响统计效度的因素主要有方面:统计功效低、违反统计方法的使用条件、测量信度低。
统计结论效度的条件[编辑 | 编辑源代码]
研究的统计结论效度主要取决于两个方面的条件:一是数据的质量,数据分析程序的效度是以数据的质量作为基础的,数据质量差的研究是谈不上统计结论效度的;二是统计检验方法,数据分析中所采用的各种统计方法,都有其明确的统计检验条件的要求,一项研究中统计检验条件不明确或者被违反,就会显著降低统计结论效度。
构思效度[编辑 | 编辑源代码]
构思效度简介[编辑 | 编辑源代码]
研究的构思效度是指理论构思或假设的合理性、科学性,及其转换为研究目标的恰当程度和可操作性。它涉及建立研究方案和测量指标的理论构思(或观察指标的理论设想)及其操作化等方面的问题,即理论构思及其转换的有效性。为了使研究具有较高的构思效度,研究的理论构思首先要结构严谨、层次分明,形成某种“构思网络”,其次对研究内容做出严格的抽象与操作性定义(如针对研究构思的特点,给予明确的操作定义)。
影响构思效度的因素[编辑 | 编辑源代码]
影响构思效度的因素主要有3方面:研究构思方面、研究手段和程序方面、实验者的主观期望和被试者对研究的猜测。
构思效度的条件[编辑 | 编辑源代码]
使研究具有较高的构思效度,应该满足以下4个条件:
(1)理论构思要结构严谨、符合逻辑、层次分明,形成某种“构思网络”。例如,将儿童的自我意识发展分为自我认识、自我体验和自我控制三方面,而自我认识进一步细分为对生理自我的认识、对心理自我的认识和对社会自我的认识。这样的理论构思,就比较严谨、完整,有层次,并且形成一种“网络”,便于理解和研究。
(2)清晰、准确的界定研究的环境条件和变量。例如,“小学五年级学生发散思维问题研究”这样一个课题,对研究被试的年龄段,生理智力发展,学习、生活、社会环境等需要明确界定范围,用文字和语言两种形式完整、准确地表述研究变量。
(3)对研究变量做出准确、严格的操作定义,并选择对应、客观的观测指标。
(4)避免采用单一方法或单一指标去代表或分析多维的、多层次的、多侧面的事物和活动,尽可能采用多种方法、多种指标,从不同角度分析研究相同的理论构思。
教育科学研究常常包含着复杂的、多维度的理论构思,如何提高研究的构思效度是进行研究设计时需要加以特别重视的问题,也是提高教育科学研究水平的重要内容。