任何企业都可以大大改进第二级评估而无需增加额外的投资。
合理的考核只比不合理的考核成本多一点点,却可以为个人和企业带来有重大意义的结果。考核的重要性在于它可以为学员提供自我能力的反馈,帮助企业决定某个人是否能够胜任某项工作,告知培训部门培训课程的效果如何,并且为第三级评估和第四级评估奠定基础。
认为复杂的考核花费过多的企业,至少应该考虑到他们当前投入考核的资源,很有可能被浪费了!而大多数情况下,得当的考试并不比不得当的考试耗资更多。
设计考核的五个基本步骤
在考虑设计第二级评估时,你首先要明白选拔型考试(NRTs)和标准参照型考试(CRTs)的不同。
选拔型考试旨在通过考试挑选出所需的人才,用于选拔和分级。当备选的人数很多,而职位或级别有限时,选拔型考试就发挥了它的作用。例如对于学业能力倾向考试(SAT)或美国大学考试(ACT)等,选拔型考试就非常适用。
设计一份有效的选拔型考试需要一套与企业普遍的做法不同的技巧和假设。将选拔型考试用于企业培训中的危险在于,如果没有明确的能力标准做参考,就无法验证考生真正能做什么。
与之相反,标准参照型考试可以参照某个明确的标准定义考生的绩效,例如“在适当的时间和高度开启了起落架”。在培训界我们期待所有参加培训的学员都能成功获得预期的效果。因此,我们想要设计的考试要能使我们衡量这一成果。
设计标准参照型考试所需的技巧不同于选拔型考试,在必须承担健康、安全或法律后果等高风险的情况下,理解和实施整个设计过程尤为重要。然而,即使标准参照型考试开发的整个模式没有或未能实施,对于标准参照型考试开发过程的基本理解是任何培训师或绩效改进技术专家必需的基础知识。图表1详细列举了整个过程。
图表1. 标准参照型考试的开发过程
流程文件:
分析工作内容---确定目标的内容有效性---设计认知型的考题---设计评级量表---确定考题内容的有效性---初次试用考题---操作型考题分析—设计并行表格---设定及格分数---确定认知型题目的可靠性---确定评定者间的可靠性---汇报分数
我们认识到,并非遇到的所有情况都需要使用整个模式,但是经验告诉我们,要想开发出一流的标准参照型考试,至少要从此模式中提取出五个能够产出最佳效果的步骤:
1. 分析——确定要考核什么;
2. 效度——确定考试是否衡量了原本要衡量的方面;
3. 构建——出考题;
4. 制定标准——确定一个合理的最低分数线或需要掌握的分数;
5. 可靠性——反映测试结果的一致性;
标准参照型考试不需要对考生的成绩进行排名。当然,对专业度的审核和法律风险的考虑进行文档记录要贯穿整个考题开发的过程之中。
那么,今天我们就介绍一些这五个步骤的前两步。
01 分析——确定要考核什么
考试的有效性完全取决于你确定要评估什么的能力。你的目标是设计一个类似于学员所从事工作的测验,而不是像我们在学校里通常参加的考试。建议采取以下两种策略:
■ 运用更多的操作型考核;
■ 从最高级别的技能开始考核;
操作能力考核
操作能力考核依靠评估者使用恰当的评分工具来观察和记录考生的操作或考查在考核过程中所生产的产品的质量。考官使用评定量表来辅助他们对操作或产品进行观察和评分。即使大多数人对认知型考试有更多的经验,然而操作型考试仍然优于认知型(即所谓的知识)考试。
两者之间选择的关键在于确定哪一种考试能更好地反映考生在工作中所必须做的事情。然而,随着技术的发展,有越来越多的工作,在认知考试设计和操作型考核的设计上的界限变得越来越模糊。
成功的绩效考核往往要求评分者认真准备,以确保所有的相关事宜,例如恰当的考核地点、考核材料等在评估之前就已安排妥当。如果你进行的是高风险的考试,而且安全性或者高成本与绩效挂钩,你要考虑以下三件事:使用不同的评分者、使他们得到很好的培训并验证他们是否可靠。
技能的最高级别
大多数人都十分熟悉运用等级来描述或形象呈现工作的组成部分。设计与工作相匹配的最具影响力、最有效地考试方法就是使考试基于更高学习层级的技能。关键是第二级评估是用来有效衡量这些学习层级的最高层级,而不是较低层级。
最高层级反映了通过考试的考生将要完成的工作的本质;因此,衡量最高层级能促进工作的关联性。而且,等级中更高的层级包括了较低的层级,因此如果我们衡量最高层级,我们就自动确定了较低层级的技能。例如,如果我们想要衡量信贷员的能力,我们给予他们贷款申请,请他们对“贷款”和“不贷款”做出回答。
相反,许多命题者都设计了需要考生想起规则才能做出回答的考题。事实上,在考题设计中所出现的一个最普遍的错误就是未经培训的命题者往往从等级中的最低层级出题。由于未经过培训,许多出题人所设计的题目就像他们求学时参加的大部分考试一样。这些考试往往是低水平的记忆考题,而不是评估诸如应用或分析等较高级别技能的考题。
02 效度——确定考试是否衡量了原本要衡量的方面
效度意味着考试衡量了原本要衡量的方面。尽管存在很多种效度,然而内容效度是最为重要的。内容效度由课题内容专家审议考题,以书面的形式确定考试衡量了所应该衡量的方面而得到确定。无论从培训的角度还是法律的角度来看,这是一种最重要的效度。
确定内容效度是大多数实施标准参照型考试的公司解决效度问题的最节约成本的方法。
确定内容效度是一个直接匹配的过程。首先确定内容专家,并且他们作为专家的资格都有据可查。然后,给予这些专家基于能力的考核陈述(或目标),考试题目或评定量表。对于每个题目,专家们都做出预期的能力是否得到衡量的评定。要不断修订考题直到专家们都认为其具备了内容上的效度。
内容上的效度有助于确保和记录考试与工作的相关性,这是可能引起法律诉讼的关键障碍。
03 创建——写考题
企业中普遍存在的倾向是当需要设计考试时,出题者由于没有经过考题设计和开发方面的培训而跳过了如下两个步骤:分析和确定效度。出题者的第一反应是写出考题或绩效量表。跳过这两个步骤,直接从出题开始好比盖一座大厦而事先没有设计蓝图。
建议列出支持操作能力考察的清单,写出认知型考题处于记忆层级的多项选择题。
操作能力考试需要工具来评估所观察到的技能或结果。描述型的(只有文字表述的等级,比如优秀,良好,一般或不好;)或数字型的(比如使用数字1-7表示的级别)评分标准不是很可靠,要避免。将过程或结果分成一系列的二选一的题目,例如“在”和“不在”的清单是最可信的分级工具。
记忆级别之上的多项选择题目。 对于传统的用纸和铅笔作答或者用电脑显示的考试而言,唯一最有用的技术就是用多选的方式来设计题目。多选题减少了猜测正确答案的几率;能用来评估诸如理解、运用、分析等高水平的思考能力;能够既容易又可靠地为分数汇报和题目质量的数据分析打分。
新的考题设计者最普遍的挑战是如何设计出不仅仅能够衡量记忆信息的能力的考题。确定所出的题目是否位于认知领域的最高层面——大多数工作的操作都属于这个层面——最简单的方法就是设计之前未遇到的情景事例、概念或者原则的题目。
学会出这些新题目对于考题设计新手来说绝非易事。通常,需要在能够阐明工作-目标-测验之间的相互联系的工作环境中实践和反馈。然而,一旦出题者掌握了这一技能,所花费的时间就是值得的,因为最终得出的测验将会运用于工作级别而不仅仅停留在记忆级别。(如果管理层因为员工通过了考试但却无法胜任期望的工作而开始怀疑培训的价值,最可能的原因是所出的考题是在记忆层级。管理层需要对培训进行三级和四级评估往往是由于二级评估中的课题设计得不合理。
04 标准制定——确定一个专业合理的分数线
标准参照型考试用来确定谁学会了学习材料和操作技能以及谁没有掌握。
标准参照型考试不允许对考生的分数仅作细微的区分,选拔型考试也同样如此。标准参照型考试对考生的唯一区分就是通过和未通过。
如果80分和85分属于同一级别,例如“掌握”,你很难确定这两个分数会有什么大的不同。(这样往往会给正在寻找员工等级排列方法的经理们造成一定的困扰。企业根据传统设定合格级别(通常是85%)的倾向无论从专业性还是从合法性上都不具有效用。
设定标准的三种常用方法是:判断、猜想和对比。这三种方法中,最常用的是安戈夫(Angoff)方法,它是猜想方法之一。安戈夫(Angoff)方法通过两个到三个课题内容专家来审议题目,估计水平最低考生通过考试的概率(请注意,水平低并不意味着能力低。例如,最低水平的专业飞行员的能力也是非常高的)。每个评审员的评估都用0到1.0之间的小数表示出来,然后评估求和确定初步的通过分数。然后评审员算出平均数,通过协商确定考试的最后通过分数。长期以来,安戈夫(Angoff)方法被证明是省力有效、具有法律的可辩解性的方法。它并非是一时的直觉过程,而是通过实践验证的,大多数课题内容专家似乎都掌握了其中的基本准则。
05 信度——显示测试结果的一致性
信度意味着一致;意味着如果情况类似,你将会得到相似的分数。信度是所有设计得当的考试最根本的特征;如果不可靠,所有的考试都是无效的。
对标准参照型考试而言,信度意味着对于掌握或者未掌握评判的一致性,理解这点至关重要。要避免使用一些传统的选拔型考试方法,如克朗巴克?阿尔发(Cronbach Alpha)或者库德一理查德森(Kuder-Richardson)法,因为这两种方法不符合标准参照型考试的观点。建议您跳过认知型考试对于信度的正式计算方法,通过计算评定者之间认同的百分比,来确定操作型考试评定者之间的信度。
跳过信度评估。任何传统的学校考试和评估专业人士都可能会畏惧此建议,但是也有很多关于跳过此阶段的有力论据。首先,受操作中一些因素的影响,例如练习或缺乏练习,人们的操作会随着时间而变化。在大多数企业环境中,想要建立一个信度的测验-再测验评估体系往往不能够得到保证。
其次,由于大多数标准参照型考试旨在评估不同的技能,而且往往与学习系统的设计相关,所以大多数考生都会考得很好,许多考生的得分都很高,导致绩效分布不准确。如果你采用传统的信度衡量方法,这两种情况将会导致低水平的信度评估,因为考题相互之间没有关联性,得分分布不均,出于统计的考虑,这将会负面影响到信度评估的质量。
计算认同的百分比。许多考官错误地认为好的评定量表是评定考生行为或产品可靠的全部所需。然而,操作型考试的信度是评定量表的质量和使用量表的观察者的准确度共同作用的结果。所有观察者应该用同样的方法来评定相似的行为或结果属性,这点很重要。因此,对于操作的考核来说最重要的一种信度类型就是评定者间的信度。
任何评定量表对量表上的每个评定点都有清晰简洁的定义。精确地描述量表的评分等级可以提高评定者判断的一致性,从而也提升了量表的信度。如果你正在设计一个被认为是具有高风险的测验,那么观察者必须要接受如何使用这种量表的培训,并且要确定判断的一致性。最简单的办法就是计算评定者之间认同的百分比。但是,如果认同度低于90%,也许还需要进行其他更细致的数据分析,而且还要重新检查清单,并对评定者进行培训。
来源:培训江湖微信公众号
原创:安迪曼