戴版《心理与教育测量》课后习题及解答11 南京廖华答案网

戴版《心理与教育测量》课后习题及解答11 下载本文

文章发布时间 : 2026/6/24 7:24:14星期三

练习与思考

第一章心理与教育测量概论>>练习与思考 1.与物理测量相比较，阐明心理测量的特点。

2.为什么人们不能象对物理测量那样容易接受心理测量？（此题为思考题） 3.如何才能证明心理测量的必要性和可能性？解答要点：

１.（1）从依据的法则来说，心理与教育测量依据的法则在很大程度上只是一种理论。（2）从测量的内容来说，心理与教育测量的内容是复杂的，内隐的，其测量只能是间接的。（3）相对与物理测量的定量分析的精确度而言，心理与教育测量定量分析的精确度很低。

３.（1）从心理与教育测量的理论基础来看，心理测量是可能的。（2）人的心理现象和知识水平如同其他一切物理现象一样是有差异的，这种差异既有质的方面，也有量的方面，因此有必要测定出这些差异的数量。第二章心理与教育测量的产生与发展>>练习与思考 1.简述古代中国对心理与教育测量的贡献及其特点。

2.心理与教育测量从卡特尔到比内的发展过程中可以看出什么特点？（此题为思考题） 3.推孟和韦克斯勒在智力测验发展过程中各有什么贡献？解答要点：

１.在古代中国，在测验实践和测验理论方面都对心理与教育测量作出了贡献并具有自己的特点。

一、在测验实践方面的贡献。1、在能力测量方面。早在2500年前，思想家和教育家孔子凭自己的经验观察，首先评定学生能力的个别差异，并将人的智力分成中上之人、中人和中下之人三个等级。董仲舒已论及到注意测验。刘邵把人的才能划分为12种类型。6世纪中叶，中国江南出现了类似现在的婴儿发展测验的\周岁试儿\习俗。出现于清代的益智图、九连环可以认为是最早的创造力测验。2、在人格测量方面。孔子把人分为狂者、狷者和中行3种。刘邵根据阴阳、五行和形体的关系及其人的行为表现，把人的性格划分成12种类型。3、在教育测量方面。世界上最早的教育测量出现于中国西周奴隶时期。据记载，在西周的\国学\中已经建立具有相当系统性的教育测量制度。在汉代，考试制度、考试类型和考试功能方面都作了重要的发展。除了学校内部测量的自身发展以外，取士制度自汉以来的发展，客观上也对我国的古代乃至西方的教育测量发展起了促进作用。

二、在测验理论方面的贡献。孔子后约150年，大思想家孟子就指出了测量人类心理的必要性和可能性。他说：\权，然后知轻重；度，然后知长短。物皆然，心为甚。\刘邵认为，人才鉴定对于知人善任、振兴国家事业具有重要意义。他说：\夫圣贤之所美，莫美乎聪明。聪明之所贵，莫贵乎知人。知人诚智，则众材得其序，而庶绩之业兴矣。\

三、古代中国心理与教育测量的特点。第一、中国古代社会的心理与教育测量思想都是描述性的，而非定量的；第二、中国古代社会的心理与教育测量是分类式的；第三、注重对人作整体的鉴定和评价，并倾向于和人的道德品质联系起来。第四、是与教育中的因材施教及人才使用有着密切的联系，它从一开始就具有强烈的应用性质。３. ①推孟在智力测验发展过程中的贡献是他采用了比率智商的概念来表示智力水平的高低。

②韦克斯勒在智力测验发展过程中的贡献是：第一，他用离差智商代替比率智商，克服了比率智商的局限；第二，他编制的智力量表分为言语量表和操作量表两部分，不仅能够获得总体智力水平的信息，而且可以获得手测者智力优势的信息。第三章经典测量理论的基本假设>>练习与思考

1.简述\心理特质\的含义。2.心理测量的误差来源主要包括哪些？3.CTT模型及其假设的重要内容是什么？答案要点：

１.心理特质指表现在一个人身上所特有的相对稳定的行为方式，就是人的心理特质。可以从下面几个方面来理解：①特质是一组具有内部相关的行为的概括，具有一定的抽象性。②特质是\一种一般的神经心理系统，??它可以综合不同刺激，使人对这些刺激做出相同的反应\。③特质是一个人身上比较稳定的特点。④一个人的精神面貌（人格）是由多种特质分多个层次有机组合而成的。⑤特质可以决定一个人对特定刺激的反应倾向，可以对人的行为进行某种预测。２.心理测量的误差主要来自3个方面：测量工具、被测对象和施测过程。

３.CTT模型是：经典测验理论假定，观察分数（记为X）与真分数（T）之间是一种线性关系，并只相差一个随机误差（记为E）。即：X=T+E

其主要内容为：

（1）若一个人的某种心理特质可以用平行的测验反复测量足够多次，则其观察分数的平均值会接近于真分数。即：E（X）=T或E（E）=0

（2）真分数和误差分数之间的相关为零。即：ρ（T，E）=0 （3）各平行测验上的误差分数之间相关为零。即：ρ（E1，E2）=0 第四章测量信度>>练习与思考 1.指出各种信度系数所对应的误差来源。

2.已知16人参加一次测验后在奇数题和偶数题上的得分情况，试用两种以上方法估计测量信度。(此题为思考题）被试 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

奇数题 32 40 42 28 35 30 41 28 32 34 26 34 36 25 40 41 偶数题 31 39 45 30 40 29 39 30 32 30 30 40 36 26 40 42

3.已知某态度量表用道题，被试在各题上得分的方差分别是0.80，0.81，0.79，0.78，0.80，0.82，测验总分的方差为16.00，求α值。（此题为思考题） 4.怎样提高测量信度？解答要点：

１.对重测信度来说，其对应的误差来源有：①所测量的心理特质不稳定；②遗忘和练习的效果没有相互抵消；③在两次施测的时间间隔里，所要测的被试的心理特质得到了学习和训练；④两次测查的时间间隔不同在信度不同。

对复本信度来说，其对应的误差来源有：①所用的复本不是真正的平行测验；②产生的迁移效应会影响信度的大小。对分半信度来说，其对应的误差来源有：分半的方法会影响测验的信度。

对同质性信度来说，其对应的误差来源有：①题目间的相关性；②测验所测内容的单一性与异质性。对评分者信度来说，其对应的误差来源有：

３. =6/6-1[1-（0.80+0.81+0.79+0.78+0.80+0.82）/16.00] =6/5×（1-0.3） =0.84

４.由于项目数量太少会降低测量的信度，所以，提高测量信度的一个常用方法是增加一些与原测验中项目具有较好的同质性的项目，增大测验长度。但是应该注意：1.新增项目必须与试卷中原有项目同质。2.新增项目的数量必须适度。 ①适当增加测验的长度。 ②使测验中所有试题的难度接近正态分布，并控制在中等水平。

当测验中所有试题的难度接近正态分布并控制在中等水平时，被试团体的得分分布也会接近正态分布，且标准差会较大，以相关为基础的信度值必然也会增大。努力提高测验试题的区分度。③努力提高测验试题的区分度。④选取恰当的被试团体，提高测验在各同质性较强的亚团体上的信度。⑤主试者严格执行实测规程，评分者严格按标准给分，实测场地按测验手册的要求进行布置，减少无关因素的干扰。第五章测量效度>>练习与思考

1.什么是测量的效度？它与信度的关系这样？

2.什么是内容效度？测验编制者和使用者应分别从哪几个方面来把握内容效度？ 3.什么是结构效度？测验编制者和使用者应分别怎样把握结构效度？ 4.什么的实证效度？它与内容效度和结构效度有何异同？ 5.什么是效标和效标测量？

6.已知若希望把效度系数提高到0.65和0.70，则测验长度要增加几倍？解答要点：

１.（1）效度是指一个测验或量表实际能测出其所要测的心理特质的程度。①信度高是效度高的必要而非充分条件。当随机误差的变异（）减小时，真实分数的变异数增加，测验信度（）随之提高。信度的提高只给有闲变异数的增加提供了可能）至于是否能提高效度，还要看系统误差变异数（的大小）。可见，信度高不一定效度就高。但一个测验要想效度高，真分数的变异数必须占较大的比重，即测验的信度必须高。②测验的效度受它的信度制约根据效度和信度的定义（）以及公式（）可得到：

２.（1）内容效度是指一个测验实际测到的内容与所要测量的内容之间的吻合程度。

（2）测验的编制者和使用者应该从以下几个方面来把握内容效度：①首先应该明确内容效度的含义；②应该明确内容效度的应用范围；③在使用时还要主要不要跟表面效度相混淆；④对测验的编制者来说应该懂得确定测验内容效度的方法，明确确定内容效度的步骤。

３.（1）结构效度是指一个测验实际测到所要测量的理论结构和特质的程度，或者说它是指测验分数能够说明心理学理论的某种结构或特质的程度。

（2）对于编制者和使用者来说应该从以下几个方面来把握结构效度：①首先应该明确结构效度含义；②其次也应该了解结构效度的特点；③应知道结构效度的应用范围；④对测验的编制者来说应该懂得确定测验结构效度的方法，明确确定结构效度的步骤。

４.（1）实证效度是指一个测验对处于特定情境中的个体的行为进行估计的有效性。（2）实证效度与内容效度和结构效度一样都用于估计测验效度。（3）实证效度与内容效度和结构效度的不同之处在于：①它们是估计测验效度的不同方面；②它们的应用范围不同；③确定它们的方法也不同。

５.（1）效标是衡量一个测验是否有效的外在标准，它是独立于测验并可以从实践中直接获得的我们所感兴趣的行为。（2）效标测量就是把我们所感兴趣的行为用数字或等级表达出来。

6.得当效度系数提高到0.65时，测验长度要增加6.4倍；当效度系数提高到0.70时，测验长度要增加20倍。第六章测验的项目分析>>练习与思考 1.测验项目分析的作用是什么？

1.因为用测验的项目分析可以解决以下问题：

（一）项目是否具有所预期的功能？对于常模参照测验，测题是否有足够的区分度？对目标参照测验来说，测题是否能充分地测量到教学的结果。（二）项目的难度是否得当？（三）项目是否有缺陷？第七章测验常模>>练习与习题

1.试比较各种导出分数的优缺点。2.列举你所了解的各种测验的分数合成方法，并评价它们的合理性。 3.选择常模团体与制定常模有什么关系？任何选择好常模团体？ 4.离差智商与比率智商的本质差异是什么？（此题为思考题）解答要点：1.常用的导出分数有百分等级、标准分数、T分数。百分等级

百分等级的优点：百分等级是一种相对位置量数，具有可比性，且具有易于计算、解释方便等优点，对一般教师、学生和家长来说，均能了解百分等级的意义，所以它较适用于不同的对象和性质不同的测验。另外，百分等级不受原始分数分布状态的影响，即使分数分配不是正态的，也不会改变百分等级常模的解释能力。

百分等级的缺点：（1）百分等级的单位不等，尤其在分配的两个极端。如果原始分数的分配是正态或近似正态分布，则靠近中央（平均数或中位数附近）的原始分数转换成百分等级时，分数之间的差异便夸大了，虽然原始分数比较靠近，但转换成百分等级后，却显示出很大的差异性；对接近两极端的原始分数，百分等级反应迟钝，即使原始分数发生较大的变化，也不能引起百分等级的相应变化，使得其差异被缩小了。（2）百分等级只具有顺序性，无法用它来说明不同被试之间分数差异的数量。它不适合计算平均数、相关系数及其它统计量数。

（3）百分等级只相对于特定的被试团体而言的。因此在解释时不能离开特定的参照团体。被试得分不变，但参照团体改变了，百分等级值就可能发生变化。所以在报告百分等级时，一定要说明是相对于什么参照团体来说的。标准分数

标准分数的优点：标准分数是一个抽象值，不受原始测量单位的影响，并可接受进一步的统计处理。具有可比性和可加性。标准分数的缺点：由于计算中经常出现负数和小数，且单位过大（一个标准差单位），所以，使用起来不够方便。 T分数

T分数的优点：（1）具有等单位特点，便于工作进一步的统计分析。（2）正态分布下，可以利用正态分布表将各种导出分数与百分数等级分数作换算。（3）正态分布下，运用某种变式分数可以将几个测验上的分数作直接的比较。即使是非正态分布，也可运用由正态化的Z分数转换而得的变式分数进行直接比较分析。 T分数的缺点：

（1）分数过于抽象，不易理解，正如在介绍麦柯尔的T分数时所提到的那样不为一般人所熟悉。

（2）在非正态分布下，分布形态不同的变式分数，仍然不可以作相互比较，也不能相加求和。

2.（1）临床诊断--直觉合成：在实际工作中，最常用的组合测验分数的方法是根据经验对测验分数作直觉的组合，这就好比临床医生，把各种化验、检验所获得的资料与实际观察所得的结果结合起来，根据经验作出诊断一样。象这种根据直觉的经验，主观地将各种因素加权，而获得结论或预测的方法叫作临床诊断。

临床诊断--直觉合成的合理性表现在：①具有高度的综合性。它允许我们从整体上来考察问题，充分考虑各测验所测特质间交互影响，各测验上所得分数的对比关系与组合类型的结构特点，测验分数与实际反应表现其中的生动关系等。

②具有灵活的针对性，能就特定的个人作具体的结论。而一般的统计方法具有常模性，常模性的统计模式难于适应每个个体所具有的独特性，更难于适应非典型的新颖形式。

（2）加权求和合成：如果各个测验所测特质间相互代偿作用，这些测验上的分数又是连续性资料，并能大体同时获得，那么可以采用加权求和的立法对分数进行合成。

加权求和合成的合理性表现在：将变量做了等量加权后适合于各测验对预测效标具有同等重要性的场合，根据各个变数与效标之间的经验关系作差异加权后适合于各测验对预测效标具有不相等的场合。

（3）多重回归：多重回归就是研究一种事物或现象与其他多种事物或现象在数量上相互联系和相互制约的统计方法。多重回归的合理性表现在：

（4）多重划分：多重划分就是在各个特质上都确定一个标准，从而把成绩划分为合格与不合格两类。在一个测验上合格了，不能保证总的要求一定能合格。只有每个测验都合格时，总要求才算合格。多重划分的合理性表现在：

3.选择常模团体与制定常模的关系：制定常模首先要确定出常模团体。应该这样选择常模团体：（1）群体构成的界限必须明确。

在确定常模团体时，必须清楚地说明所要测量的群体的性质与特征。虽然有关常模团体的一般规定取决于测验的目的与使用，且可能有多个常模团体。但对每个常模团体的性质和特征必须有一个简短而明确的描述，若群体过大，群体内部也许有许多小团体，它们在一个测验上的表现也时常有差异，假如这种差异较为显著，就必须对每个小团体分别建立常模。例如，艾森克个性预测（EPQ），就是分性别，以不同年龄组而建立常模的。（2）常模团体必须是所测群体的一个代表性样本。

当所要测量的群体较小时，将所有的被试逐个测量以得到常模。在群体较大时，则不可能如此，只能测量一部分被试作为群体的代表，此时就存在取样是否具有代表性的问题。如果常模团体缺乏代表性，将会使常模资料产生偏差，从而影响到测验结果解释的准确性。为了克服取样偏差，保证具有代表性，一般在抽样时应遵循随机化原则，采用统计学的方法抽取样本。关于具体抽样方法，可参阅有关统计学著作中的抽样推断部分。（3）取样的过程必须明确且有详尽的描述。

取样的过程必须明确且有详尽的描述，这主要是为了使测验的使用者不至于误用测验和错误地解释测验结果，所以在一般的测验手册中，都有相当篇幅详细介绍常模团体的大小、取样策略、取样时间以及其他有关情况。这些说明和描述越明确、越详尽夜好。

（4）样本大小要适当。

所谓\大小适当\并没有明确的指标。根据统计学原理，取样误差与样本大小成反比。所以，在其他条件相同时，样本越大越好。但是还应考虑到人力、物力等方面的因素，通常在决定样本大小时，应注意：

①总体的数目。总体数目小，样本相应可小些，但不应过小，若总体过小，则可将全部被试入选；当总体较大时，相应样本也大。

②群体的性质,如果群体性质单一，则样本不必太大，即可以反映群体性质；若群体性质复杂，则样本容量（n）就应大一些。 ③测验结果的精确度。根据统计学原理,抽样误差的大小与样本容量成反比，若要提高精确度，即是说减低抽样误差，就必须加大样本容量（n）。

（5）常模团体必须是近时的。由于当今教育发展迅速，所以建立的常模必须是近时的，过时的常模是不能作为参照标准的，一个常模不能一劳永逸地使用。

（6）注意一般常模与特殊常模的结合。测验手册上所列的常模通常为一般常模，它的使用范围比较广。有时对于某些特殊的群体不一定完全适用。因此，测验在希望使用更为具体的、适合特殊情况的常模。即特殊常模。将特殊常模与一般常模结

合起来，可使被试与最接近的群体进行比较。因为各个具体群体在某些方面是独特的，它的成员将与测验手册所列的常模团体成员不符。所以，依据一般常模解释所得的结论可能不够恰当，如果将两者结合使用，解释分数便会更加准确。但特殊常模只提供有关特殊信息，适用范围较窄。所得结论不能在广泛的背景作解释。第八章心理与教育测验的编制与实施>>练习与思考

1.结合实例简述编制一个心理测验的基本程序。2.阐述实施心理测验应注意的问题。 3.如何正确解释测验分数的意义。4.论述向当事人报告测验分数的基本原则。解答要点：

１.编制一个可供使用的标准化的心理与教育测验，一般要经过以下几个步骤：①确定测验目的。②制定编题计划。③编辑测验项目。④预测与分析。⑤合成测验。 ⑥测验标准化。 ⑦鉴定测验。 ⑧编写测验说明书。

2.①施测前应做好准备工作；②指导语应不要暗示受测者应该选什么；③进行测验时不能受到外界和施测者的干扰； ④评分时要客观公正。

3.①主试应充分了解测验的性质与功能。②对导致测验结果的原因的解释应慎重，谨防片面极端。③必须充分估计测验的常模和效度的局限性。④解释分数应参考其他有关资料。⑤对测验分数应以\一段分数\来解释，而不应以\特定的数值\来解释。⑥对来自不同测验的分数不能直接加以比较。

4.①使用当事人所理解的语言。 ②要保证当事人知道这个测验测量或预测什么，这里并不需要作详细的技术性解释。 ③如果分数是以常模为参考的，就要使当事人知道他是和什么团体在进行比较。④要使当事人认识到分数只是一个估计。⑤要使当事人知道如何运用他的分数。⑥要考虑测验分数将给受测者带来什么影响。⑦测验结果应向无关的人员保密。 ⑧对低分者的解释应谨慎小心。⑨报告测验分数时应设法了解当事人的心理感受，并采取适当的措施加以引导。第十章目标参照测验>>练习与思考

1.请根据表10.3中专家评定结果的平均数对表中14道题目的内容效度进行评定，并决定题目的取舍。 2.目标参照测验的题目区分度可以通过哪些方法来确定？

3.目标参照测验的信度与效度为何不适宜以相关系数作为评价指标？ 4.试比较目标参照测验与常模参照测验的异同。

5.试分析内容范围的界定在目标参照测验的标准化过程中的重要性。 6.试分析分数分界点在目标参照测验的质量评估中的作用。 7.试分析题目内容效度与目标参照测验的内容效度间的联系。解答要点：

１.首先进行专家的取舍。由于第二位专家在所有题目上所评等级与各等级平均数之间的差异之和较大，因此可以不考虑该专家的意见，只保留另外八位专家的评定结果，并重新计算这八位专家评定结果的等级平均数。

其次根据八位专家评定结果的等级平均数对每道题目进行评定，并决定题目的取舍。等级平均数越高，说明题目内容与其欲测量的目标内容之间的匹配程度越高，即内容效度越高。题目2、7、14、4、12、5、11的内容效度很高（等级平均值均在4以上），可以得到完整的保留；题目1、3、6、9的内容效度较高（等级平均值均在3-4之间），适当修改后即可；题目8、13、10的内容效度较差（等级平均值均在3以下），一般需做较大修改或直接删除。

２.目标参照测验的题目区分度可以通过计算题目的难度差值和题目得分与测验总分之间的相关系数来表示。难度差值包括掌握组-未掌握组鉴别指数和个人获得指数两种。

３.相关系数受到受测者团体异质性的影响，团体的异质性越高，测验分数的分布就越广，所计算出来的相关系数就接近真实值。由于目标参照测验的目的在于了解个体在所测内容上的掌握水平，因此大多数情况下，被试团体在目标参照测验上的分数分布比较集中，并且绝大多数被试都能够达到所要求的水平。如果用相关系数作为信效度指标，由于受到分数分布的影响，即使该测验本身具有较高的稳定性和一致性，所得的信度系数也会和低，所以目标参照测验的信度与效度不适宜以相关系数作为评价指标。

４.常模参照测验的目的在于度量和比较个体之间的差异，并以被试在团体中的相对位置来评价和解释测量结果。目标参照测验的主要目的则在于了解个体在所规定的测量内容上的行为水平，其出发点是个体本身的绝对水平，而不再是个体间的水平差异。由于测验性质的不同和受测人群可能存在的差异，两种测验的项目分析和信效度评估需采用不同的方法和评价指标。另外，目标参照测验通常要根据切割分数线对被试进行分类，所以在目标参照测验中对分数分界点的确定具有十分重要的意义。

５.从目标参照测验的定义来看，构成测验的各个项目是否合适，测验是否有效，测验的分数是否能够得到有意义而准确的解释，这一切的前提都在于测验有没有明确的目的以及与之相应的严格界定的内容范围。因此对于目标参照测验而言，测验编制的前期过程，尤其是内容范围的确定十分重要。

６.在目标参照测验的实际应用中，常常要根据分数分界点来判断某考生是否达到了升一个年级或毕业所要求掌握的最低知识技能水平，或者是否达到了从事特定专业工作所需的最低水平。这个分数分界点的确定科学与否，直接决定了我们最终决策的正确与否。因此分数分界点在目标参照测验的质量评估中具有十分重要的作用。

７.题目内容效度与目标参照测验的内容效度之间有着重要的联系。要确定目标参照测验是否有效，必须首先要对构成测验的每一个题目是否合适以及有效性进行分析，即检验题目与测验内容范围所要求的内容与目标的一致性。目标参照测验注重被试在其所测内容范围内的掌握程度，测验本身的题目组成对其欲测的内容范围的覆盖程度或代表性程度--即测验的内容效度-- 显得尤其重要。

第十一章学绩测验>>练习与思考

1.结合实际的测验例子试述学绩测验的性质和作用。

2.就《心理与教育测量》前10章内容，设计一份测验编制计划。(此题为思考题） 3.标准化学绩测验的标准化要求有哪些？如何才能做到？４.举例说明诊断测验如何实现它的诊断功能？（此题为思考题）５.题库的基本要求是哪些？你认为建设题库有些什么好处？６.就你的经验谈谈教师自编测验存在哪些不是？改进的途径是什么？解答要点:

1.学绩测验是对个体在一个阶段的学习或训练之后知识、技能的发展水平的测定，学绩测验与能力测验一样在测量学中属于最佳行为测验,其所测对象为个体的认知性心理品质，主要包括知识能力两个方面。学绩测验有时也用来预测被试在今后的学习或工作中的成就，但是它与一般的性向测验有所不同。

学校使用学绩测验鉴定学生的学绩成绩以及辅助本学校的教学管理；现代社会的人事管理中的人员取录、晋职提级常以学绩测验成绩作为重要的评价标准；教育科学研究工作者利用学绩测验信息评价教育决策、优选教育方案。 3.标准化学绩测验的标准化要求包括:

（一）命题组卷标准化。标准化试卷的试题测量目标明确，语词意义清晰、试题难度、区分度达到规定标准。全卷的结构与测量的目标一致，题型比例恰当，题量适度，试题难度分布符合规定要求，试卷的信、效度都达到规定标准。（二）施测标准化。标准化测验必须在统一标准的环境下施测，统一标准环境包括测验场所的标准统一、测验时间统一、测验的指导语统一、提供给考生的测验材料统一、材料出示的顺序统一。

（三）评分标准化。标准化测验的答案要正确、规范、唯一，评分规则应尽量细致、客观、最好是没有伸缩性。（四）测验分数解释标准化。对于常模参照测验，必须编制好测验常模；对于目标参照测验必须认真研究教材和教学大纲，分析合格标准的确切含义，通过调整试卷难度结构准确划定合格分数线。

5.题库的基本要求包括：（1）植基于一种科学的测量理论；（2）储备有一定数量的试题，所有试题品质优良，技术参数完备；（3）题库内容结构层次清楚、分类严谨，试题检索方便；（4）题库管理方便、可控性强、易于维护更新；（5）保密性强，应用题库组拼标准化学绩测验的试卷，具有经济、高效、保密性强等优点。

6.（一）教师要深入研究教材，深入调查学生。仅凭经验命题容易形成所测内容往往只涉及自己熟悉的或自己注重的内容，考试对象只以自己熟悉的或亲近学生为代表，这样会造成命题试卷内容部全面，或脱离学生实际。（二）要维护准确稳定的合格标准。所谓准确就是要保证凡被评为合格的学生

确实都是达到教学基本要求的人，凡被评为部合格的学生确实是未达到学科基本要求的人，要尽量减少误判之处；所谓稳定，就是在各次测验中都维持同一个合格标准，不能忽高忽低。

（三）要客观评价自己的命题技术，合理使用各种题型。定向反应型试题命题技术要求比较高，没有一定的命题经验和技术，编写定向反应型试题，有时反而会达不到预期的要求。

（四）要注意总结命题经验，提高命题技术。教师要通过不断总结成功、反思失败，逐渐掌握命题的各种技巧。总结命题经验还具体包括不断积聚优秀试题，不断充实个人的题库。

（五）要尽量控制评分误差，防止简单粗糙。教师自编测验应防止评分简单粗糙、草率从事，要防止简单地以对错判分，特别是对于自由反应型试题评分应详细分析学生的作答过程，评价他的思维方式和思维水平。

（六）要做一些定量分析研究。教师在自编测验施测后对试卷做一些定量的分析研究，比如计算试题难度、区分度、信度、效度等，可以逐步总结命题经验，提高命题技术。第十二章能力测验(上)>>练习与思考

1.试谈智力测验的效度问题。2.智力测验的功能是什么？3.为什么说\智力测验前并非人人平等\？ 4.试析智力测验存在的合理性。5.试析智力的形式与发展过程中的遗传与环境的关系。(此题为思考题）

解答要点：1.结构效度方面，传统的智力测验是在智力G因素论的基础上编制的，但G因素论仍存在很多问题。关于智力测验的结构效度，目前只能做狭义的解释，即以不同智力理论模型为基础的智力测验，其结构效度应具备不同的含义，并且最终对测验结果的解释也相应不同。

预测效度方面，智力测验对个体的未来成就进行预测时，首先假定所测的智力是个体相当稳定的特质。但事实上智力会因为某些因素而发生变化。由于智力的可变性，利用智力测验来预测个体今后的可能成功程度的效能有被夸大的可能。 2.传统智力测验的功能是对智力的个体差异的测量，在实际应用中常常行使将人群分类的功能。传统智力测验也常被用做预测源测验行使预测的功能。

3.智力测验存在着性别差异、职业差异文化和教育差异。

有研究表明男性和女性在不同的能力因素上存在着差异。而一般的智力测验都包括多种性质的题目，有些可能更适于男性，有些则更适于女性，因此智力测验本身的内容和结构对男女两性未必公平。

关于智力的职业差异的异类研究表明不同职业的人在智商上具有明显的差异，这可能是由于传统的智力测验并不能全面反映人的各方面能力的原因。而仅以智商高低来判断人的智愚也是不充分的。

智力测验结果反映出来的城乡差异和种族差异，并不能完全归因于城乡或种族本身由遗传引起的差异，事实上文化和教育因素可能在此起了主导作用。

4.智力具有稳定性，这种稳定性表现在个体智力在其相应团体中的相对位置长时期内保持稳定，个体智力的相对稳定性为智力测验具有一定预测效度提供了可能性；智力测验被实践证明对学生和职业等效标的预测具有较好的效度，可以有效地帮助决策者提高决策正确率；尽管智力测验对不同团体可能存在不公平，但我们更应该看重其预测效度；至尽仍无更有效的智力评估工具。

第十三章能力测验(下)>>练习与思考

1.能力倾向测验与智力才而言、成就测验之间有何不同？ 2.能力倾向测验与特殊能力测验在应用上有何区别？ 3.现在流行的创造力测验依据的理论基础是什么？

4.试分析社会发展与需要在能力测验的产生和发展中的影响。（此题为思考题） 5.试分析创造力的实质与表现。（此题为思考题）解答要点：

１.成就测验是对个体过去学习经验的总结；智力测验的主要目的是预测，但它所做出的预测比较笼统，针对性较弱。能力倾向测验则是对个体在不同能力因素上潜在的优劣倾向的测量，它的预测的目的性更强，试图说明个体在多种能力上的潜在优势。

２.能力倾向测验可以从不同能力因素上来评估个体，但如果只用于测量某一种特殊的能力，成套的能力倾向测验就显得有些累赘，而且不够充分。特殊能力测验是针对一种特殊能力所包含的各个方面因素进行测量，其性质介于成就测验和能力测验之间，测量的目的既想了解个体在此专业领域的既有水平，又想预测个体今后在此专业领域成功的可能性。

３.现在流行的创造力测验依据的理论基础是吉尔福特的关于智力结构的理论。吉尔福特认为在智力操作维度上存在着聚合与发散两种不同类型的思维，而创造力的核心正是发散思维能力。第十四章人格测量>>练习与思考

1.试综合比较自陈量表和投射测验的异同。

2.查阅有关人格心理学著作，讨论人格的理论研究对发展人格测量技术的作用。（此题为思考题）

3.查阅有关文献，分析中国人格测量研究的现状和特点，并论述你对开展人格测量与研究工作的看法。（此题为思考题）解答要点：1.自陈量表采用客观测验和纸笔测验的形式，事先根据操作性定义编制好许多有关某些人格特质的问题，要求受测者根据自己的实际情况逐一回答这些问题，并用此来衡量受测者在这些人格特质上的表现的一种人格测量工具。它的项目形式一般采用是非式，记分比较客观，施测较简单，测量分数容易解释。投射测验是向受测者提供一些未经组织的、意义模

糊的标准化刺激情景，让受测者在不受任何限制的情况下，自由地对刺激情景做出反应，然后分析这些反应，推断受测者的人格特征的一种人格测量手段。

投射测验的测验材料没有明确的结构和确切的意义，受测者对测验材料的反应不受限制，可以根据自己对测验材料的理解做任何想象式的解释。其测验的目的具有隐蔽性，测验结果的解释重在对受测者的人格特征获得整体性的了解，可广泛用于人格的跨文化研究。投射测验的最大局限在于记分上的困难，并难以进行定量分析。第十五章其他心理与教育测验>>练习与思考 1.如何理解焦虑？常用的焦虑测量工具有哪些？

2.职业兴趣测验的量表发展趋势是什么？如何评价职业兴趣测验在职业选择中的作用？ 3.态度和品德测量的常用方法有哪些？优缺点何在？解答要点：

1.焦虑是一种正常的、具有适应意义的负性情绪体验,它可以是一时的情绪状,也可以内化为稳定的个体情绪特质。严重的、持续的焦虑可能形成病态人格。常用的焦虑测量工具有《显性焦虑量表（MAS）》、《状态--特质焦虑量表（STAI）》、《测验焦虑量表（TAI）》、《贝克焦虑量表（BAI）》、《汉密顿焦虑量表（HAMA）》等。

2.职业兴趣量表后期主要是对先前的量表进行完善和修订，比如增加一些职业量表、增加问卷的有效性指标，寻求提高测验效度的办法等等。职业兴趣测验在职业选择中具有一定的指导和参考作用，其测验结果表示个体可能更适合于某类职业，而不适合于另一类职业。但注意兴趣是可以培养和改变的，所以职业兴趣测验的结果不能作为选择职业的唯一标准。 3.态度测量的常用方法有《等距量表》法、《利克特量表》法、《哥特曼量表》法等。

《瑟斯顿量表》在主题比较清楚、调查范围不广的态度问题调查上效果较好，其不足在于：制作过程复杂；用中位数代表态度等级不一定适合；专家的意见不一定能代表一般人；等距量表是否真正等距也不一定。《利克特量表》的优点是制作简单，而且能广泛接受与态度有关的项目；另外可通过增加项目提高效度，并允许受测者充分表达态度的强烈程度。不足在于相同的态度分数者可能持有不同的态度模式，从总分只能看出一个人的赞成程度，而无法对态度差异做进一步的解释。《哥特曼量表》法的优点是由单向性带来的态度分数与态度结构的一致性。缺点是编制困难。品德测量的常用方法有情景测验法和问卷测量法等。

情景测验法的优点在于受测者参与测验的兴趣较高，主动性强，能够较具体、较真实地反映品德的某个方面的特征。缺点是涉及面窄，难以反应品德的多方面内容。问卷测量法的优点在于施测简单，标准化程度高，能够测量品德的多方面内容。缺点是由于品德问题过于复杂，难以测量以及这方面研究不够深入给问卷的编制带来了很大困难。第十六章测量的综合应用>>练习与思考

1. 心理与教育测量在心理咨询中的应用有哪些主要的应用领域？有哪些测验可以利用？ 2.心理与教育测量在人事测评中有哪些主要应用领域？有哪些测验可以利用？ 3.心理与教育测量在教育评价中有哪些主要应用领域？有哪些测验可以利用？

4.我国心理与教育测量在三种应用领域还有哪些要完善或填补空白的地方？（此题为思考题）解答要点：

1. 心理与教育测量在心理咨询中主要应用于个人的自我认识、人生规划咨询以及心理障碍（神经症、人格障碍等）咨询等

领域。常用于个人的自我认识、人生规划咨询的测验主要有《卡特尔16种人格因素测验》、《YG性格测验》、《艾森克人格问卷》、智力测验、一般能力倾向成套测验和一些单项特殊能力测验。常用于心理障碍（神经症、人格障碍等）咨询方面的测验主要有《明尼苏达多项人格问卷》、《艾森克人格问卷》、《症状自评量表》等。

2.心理与教育测量在人事测评中主要应用于个人的心理特点的评估、人员培训后的心理特点评估和工作人员的效绩评估等领域。常用于个人的心理特点的评估的测验主要有《韦克斯勒智力测验》、《瑞文标准推理测验》、《斯特朗-坎贝尔兴趣问卷》、《库德兴趣调查表》、《卡特尔16种人格因素测验》、《YG性格测验》、《艾森克人格问卷》、以及一些专业知识技能测验和特殊能力测验。工作人员的效绩评估方面有PM量表。

3.心理与教育测量在教育评价中主要应用于测量学生的学习与发展状况、对教师与管理者的评价领域中。常用于测量学生的学习与发展状况的量表主要有哈特松的诚实测验、柯尔伯格的道德发展水平测验、成就动机量表、学习适应性量表、《韦克斯勒智力测验》、《瑞文标准推理测验》、《一般能力倾向成套测验》、《托伦特斯创造思维测验》、《学习能力测验》、《自我职业指导问卷》、《卡特尔16种人格因素测验》、《YG性格测验》、《艾森克人格问卷》等等。

心理与教育测量大纲/讲义

第一章心理与教育测量概论

一、识记：（一）测量的定义：P2测量是依据一定的法则，使用量具对事物的特征进行定量描述的过程。（二）测量的基本要素：P4任何测量都必须具备两个基本要素，即测量的参照点和测量的单位。

（三）心理与教育测量的定义：P6—7依据一定的心理学和教育学理论，使用测验对人的心理特征和教育成就进行定量描述的过程。

二、领会：（一）测量量表的4种类型：P5命名表、顺序量表、等距量表、比率量表

（二）心理测验的4个基本条件：P9—12：1、行为样本 2、标准化 3、难度或应答率 4、信度和效度（三）心理测验的5种不用分类：P12—14

1、按测量对象所作的分类：智力测验、能力倾向测验、成就测验、人格测验2、按测量方式所作分类：个别测量、团体测量3、按测验内容的形式所作的分类：文字测验、非文字测验4、按测验功能所作的分类：成就测验与预测测验、难度测验与速度测验、描述测验与诊断测验5、按评价所参照的标准分类：常模参照测验、目标参照测验、潜力参照测验第二章心理与教育测量的产生与发展一、识记：（一）高尔顿的主要贡献：P28

1、英国优生学的创始人。出版了《遗传的天才》一书，提出人的能力是由遗传而来的，其差异是可以测量的。 2、1884年，成立“人类测量实验室”，被视为第一个大规模系统测量人的个别差异的尝试。 3、发明了许多测量仪器；是应用评定量表、问卷法、自由联想法的先驱。 4、最重要的贡献之一是把统计方法应用到对个别差异资料的分析之中。（二）卡特尔的主要贡献：P28

美国心理学家，1890年，首次提出“心理测验”这一术语，他的许多观点都已成为测量学上的重要观点。（三）比内的主要贡献：P29

法国心理学家，1904年，与其助手西蒙合作完成了世界上第一个智力测验量表——比内—西蒙量表。二、领会：西方心理学与教育测量的发展：P30

1、智力测验的发展2、能力倾向测验的发展3、成就测验的发展 4、人格测验的发展第三章经典测验理论的基本假设

一、识记：（一）测量误差：P40指在测量过程中由哪些与测量目的无关的变化因素所产生的一种不确定或不一致的测量效应。（二）随机误差：P40 由与测量目的无关的、偶然因素引起的又不易控制的误差。（三）系统误差：P40 是那种由与测量目的无关的变因引起的一种恒定而有规律的效应。

（四）真分数：P42 把反映被试某种心理特质真正水平的那个数值称为该特质的真分数，简称T分数。

（五）平行测验：P43 如果两个题目不同的测验测的是同一特质，并且题目形式、数量、难度、区分度以及测查等值团体后所得分数的分布都是一致的，则这两个测验被称作平行测验。

二、领会：（一）测量误差的三个主要来源：P41测量工具、被测对象、施测过程（二）观察分数、真分数和随机误差之间的关系：P42—43

观察分数是指实测的分数，它们的关系是：观察分数被假定等于真分数与误差分数之和，二者关系被假定为线性关系，随机误差服从均值为零的正态分布，它独立与真分数。第四章测量信度

一、识记（一）信度的含义及测量学的定义：1、信度的含义：P45指测量结果的稳定性程度，也测量的可靠性。

2、信度的测量学定义：P46乃是一个X（A卷）与它的任意一个平行测验X/（B卷）的相关系数。即RXX=PXX’ （二）重测信度的含义：P48指用同一个量表对同一组被测试施测两次所得结果的一致性程度。（三）复本信度的含义：P49指两个平行的测验测量同一批被试所得结果的一致性程度。

（四）分半信度的含义：P50指将一个测验分成对等的两半后，所有被试在这两半上所得分数的一致性程度。（五）同质性信度的含义：P51指多个评分者给同一批人的答卷进行评分的一致性程度。

二、领会：（一）信度的作用：P471、信度是测量过程中所存在的随机误差大小的反映。2、信度可以用来解释个人测验分数的意义3、信度可以帮助进行不同测验分数的比较。

（二）重测信度的使用条件：P48 （三）复本信度的使用条件：P49 （四）分半信度的使用条件：P50—51 （五）同质信度的使用条件：P51 （六）影响信度的因素：P55被测、主试、施测情境、测量工具、两次施测的间隔时间（七）提高信度的方法：P561、适当增加测验的长度，2、使测验中所有试题的难度接近正态分布，并控制在中等水平，

3、努力提高测验试题的区分度，4、选取恰当的被试团体，5、主试者严格执行实测规程，评分者严格按标准给分，减少无关因素的干扰。

三、应用：（一）能用克龙巴赫系数计算项目的同质性信度：克龙巴赫α系数 P52 公式、例题（二）能用肯德尔和谐系数计算评分这信度：P53 公式 P54 举例（三）通过增加题目长度来提高测验的信度。P56 第五章测量效度

一、识记（一）效度的含义：P59指一个测验或量表时间能测出其所要测的心理特质的程度。

（二）效度的测量学定义：P60在一系列测量中，与测量目的有关的真实变异数与总变异数（实得变异数）的比率。即效度=SV2/RXY2 （三）内容效度的含义：P62指一个测验时间测到的内容与所要测量的内容之间的吻合程度。（四）结构效度的含义：P63是指一个测验实际测到所要测量的理论结构和特质的程度。（五）实证效度的含义：P66指一个测验对处于特定情境中的个体的行为进行估计的有效性。（六）效标的含义：P67就是衡量一个测验是否有效的外在标准。

二、领会（一）效度的特点：P591、效度是一个相对的概念2、效度是测量的随机误差和系统误差的综合反映 3、判断一个测量是否有效要多个方面搜集证据。

（二）效度与信度的关系：P611、信度是效度高的必要而非充分的条件2、测验的效度受它的信度制约

（三）三种效度的适用范围：1、内容效度的适用范围P62成就测验、职业测验2、结构效度的适用范围P63 智力测验、人格测验等3、实证效度的适用范围P67 诊断现状、预测个体将来的行为

（四）影响效度的因素P69：测验的构成、实施的过程、被试、所选效标的性质、测量信度（五）提高效度的方法P70：1、精心编制测验量表，避免出现较大的系统误差

2、妥善组织测验，控制随机误差 3、创设标准的应试情境，让每个被试都能发挥正常的水平三、应用：三种效度的估计方法

（一）内容效度的确定方法P63：主要是逻辑分析法（二）结构效度的确定方法P64：1、测验内部寻找证据法2、测验之间寻找证据法3、考察测验的实证效度法4、多种特质——多种方法矩阵法（三）实证效度的确定方法P68：1、相关法 2、区分法 3、命中率第六章测验的项目分析

一、识记（一）项目难度的含义：P72是指测验项目的难易程度。

（二）区分度的含义：P77是指测验项目对被试心理品质水平差异的区分能力。

二、领会：（一）难度对测验分数的影响：P761、测验难度影响测验分数的分布形态2、测验难度影响测验分数的离散程度（二）项目鉴别指数评价题目性能的标准P79 表6—1

（三）区分度的相对性：P851、不同的计算方法，所得区分值不同。2、样本容量大小影响相关法区分值的大小

3、分组标准影响鉴别指数值D 4、被试样本的同质性程度影响区分度值的大小（四）区分度和难度的关系：P841、难度越接近0.50，项目潜在的区分越大2、难度越接近1.00或0时，项目的潜在区分度越小三、应用（一）计算不同形式题目（是非题、选择题、论述题）的难度。P72—74 1、二分法记分形式项目的难度计算P72—73：公式、例题 2、非二分法记分项目的难度计算P73—74：公式、例题

（二）用鉴别指数法计算测验题的区分度P78：鉴别指数的计算P78：公式、例题（三）根据难度和区分度进行多重选择题的项目分析：P91 表第七章测验常模

一、识记：（一）原始分数和导出分数的含义 P93

1、被试在接受测验后，根据测验的记分标准，对照被试的反应所计算出的测验分数称作原始分数。

2、在原始分数转换的基础上，按照一定的规则，经过统计处理后获得的具有一定参考点和单位，且可以相互比较的分数。（二）百分等级的含义P94：是应用最广的导出分数，是指在一个群体的测验分数中，得分低于这个分数的人数的百分比。就是说，如果将某一被试群体分为一百个等级，则每位被试所占的等级数就是百分等级。（三）标准分数的含义和种类：P96

1、含义：又称公分数，是将原始分数与团体的平均数之差除以标准差所得的商数。公式。 2、种类：P97-100。T分数、其他形式、标准九分数。

（四）常模团体的含义：P106：是由具有某种共同特征的人所组成的一个群体，或是该群体的一个样本。二、领会：（一）标准分数的优缺点

优点：P96，它是一个抽象值，不受原始测量单位的影响，并可接受进一步的统计处理。缺点：公分数由于计算中经常出现负数和小数，且单位过大，因此使用起来不够方便。P97 （二）确定常模团体的注意事项P106-107：共六点

（三）制定常模的过程P108：1、确定测验将用于哪一个群体。2、对常模团体进行施测，获得团体成员的测验分数和分数分布。3、确定常模分数类型，制作常模量表，给出书面说明等。

（四）几种主要的常模参照分数P108-110：1、发展量表P108 2、商数P110分式三、应用：（一）比较几种导出分数的优缺点P94

1、百分等级分数的优缺点P95 2、标准分数的优缺点P96-97 3、T分数的优缺点P98下（二）计算未分组资料的百分等级P94：公式、例题第八章心理与教育测验的编制与实施

一、领会：（一）心理测验编制的一般程序P117：1、确定测验目的2、制定编题计划3、编辑测验项目4、预测与项目分析5、合成测验6、测验标准化7、鉴定测验8、编写测验说明书。（二）编辑测验项目的注意事项P120（共六点）

（三）测验标准化应注意的问题：P1221、测验内容2、施测过程3、测验评分4、测验分数的解释（四）测验实施过程中应注意的问题：P125

1、施测前的准备工作2、指导语3、测验情境4、测验焦虑5、与受测者建立良好的协调关系（五）测验焦虑的相关内容P126

二、应用（一）项目编排和制作复本的方法：1、项目编排的方法：P121并列直进式、混合螺旋式2、制造复本的方法P122（1）先将所有可用的项目按难度排列，其次序为1、2、3、4、5、6、??

（2）分成两个等值的测验本方法（3）分成3个等值的没测验本方法（二）解释测验分数意义时遵循的基本原则P129：共六点（三）向受测者报告测验分数时的注意事项P131-132共九点第九章测验等值

一、识记：（一）测验等值的含义P135：就是通过对考核同一种心理品质的多个测验形式作出测量分数系统的转换，进而使得这些不同测验形式的测验分数之间具有可比性。这样一套专门技术称为～

（二）锚测验的含义：P138在测验等值设计中，有时会采用一组测验试题来关联两个待等值的测验形式，以便寻找两形式的等值关系，这些测验试题被称为锚测验。

二。领会（一）测验等值的条件P136：1、同质性2、等信度3、公平性4、可递推性5、对称性6、样本不变性。（二）测验等值结果的表示方法：P140：1、表列法2、公式法3、图示法

三、应用：（一）等百分位等值的计算：P142例题（二）线性等值的计算P143、公式P144例题第十章目标参照测验

一、识记：（一）目标参照测验的含义：P154当一个测验是以某一明确界定的内容范围为基础编制而成，并且其分数是参照该内容范围所要求的绝对标准进行解释，我们便称这一测验为～

（二）分类一致性信度的含义：P161对测验的分类一致性的度量指标，称作～

二、领会（一）双向细目表的构成要素：P154-155 1、教学目标2、教学内容 3、在整个内容范围中每一类内容和每一种目标结合后，所占的比重（相对重要性）（二）测验项目区分度的两类指标P159：1、难度差值2、相关系数（三）目标参照测验的效度及其估计P163 1、内容效度及评估重要条件 2、效标关联效度的估计——决策效度。（四）目标参照测验分数分界点确定的几种方法P165：1、专家判是法2、效标组预测法

三、应用（一）根据测验项目的内容效度分析来决定项目的取舍P155-158

关键词：专家评定法、项目内容评定表、等级评定均值和中位数分析。（二）测验项目难度差值的计算分析P158

1、难度分析P158下 2、计算——与常模参照测验相同，以通过率表示。P159，难度差值。（三）比较目标参照测验和常模参照测验的异同。1、P152-P153 上，两者差异 2、相同点：P168 第十一章学绩测验一、识记

（一）学绩测验的含义P170是对个体在某一阶段的学习或训练之后知识、技能的发展水平的测定。（二）标准化学绩测验的含义P173

在心理与教育测量学原理指导下，遵循一定的程序所编制的各方面质量都达到规定标准的学绩测验，称为～（三）斯坦福成就测验P177：属于综合性学绩考查测验，也是一种供团体使用的常模参照性测验，历史比较长。二、领会：（一）学绩测验的分类P172：按测验的编制方法分：1，按测验的内容分2，按测验用途分3，按测验评分的参

照系分4，按测验的题型分

（二）标准化学绩测验的基本条件P174

1，命题组卷标准化2，施测标准化3，评分标准化4，测验分数解释标准化

（三）标准化学绩测验的编制过程P175-177。共五点

（四）教师自编课堂测验的特点P182 1，测验形式灵活多样，与测验目的完全一致2，测验内容与教材内容高度一

致3，测验难度切合学生实际水平4，测验编制简易快速。

第十二章能力测验（上）

一、识记

（一）几种智力理论的名称、主要代表人物和观点

1、智力的心理测量学理论P188 ①主要代表人物②主要观点 2、智力的生物学理论P189 ①主要人物质②主要观点 3、智力的认知心理学理论P190

（二）三种常用的团体智力测验名称P206 1，陆军测验2，瑞文推理测验3，认知能力测验二、领会：（一）比内量表的发展阶段P198-199

1、比内——西蒙量表的发展阶段2、斯坦福——比内量表的发展阶段

（二）韦氏成人智力量表修订本的构成P201 1、1981年修订版P201 2、中国修订本P202-203 （三）斯比量表和韦氏量表的信度估计 1、斯比量表的信效度估计P199 2、韦氏量表的信效度估计P202 （四）瑞文推理测验的三种水平及其优点P206 1、三种水平：标准推理测验，采图推理测验，高级推理测验 2、优点：P207

三、应用：评价传统智力测验存在的若干问题P192-195 共四大点第十三章能力测验（下）

一、领会：（一）能力倾向测验的特点：P211 1、测验的目的2、测验的编制3、测验结果的解释（二）创造力测验的理论基础P222 吉尔福特发散思维的研究第十四章人格测量

一、识记（一）人格测量发展过程中出现几个重要人物P228

1、英国学者高尔顿1884年首倡用科学方法测量人格2、1892年，克雷培林将联想测验用于临床诊断 3、1919年美国戴德沃斯发表第一个自陈人格量表 4、1920年，罗夏克墨迹测验问世，投射测验由此产生

（二）自陈量表的含义：P230就是根据要测量的人格特质，编制许多有关的问题，要求受测者根据自己的实际情况逐一回答这些问题，然后根据受测者的答案，去衡量受测者杂一这种人格特质上的表现程度。为完成自陈人格测量而编制的测量工具叫自陈量表。

（三）投射测验的含义：P241指向受测者提供预先编制的一些未经组织的、意义模糊的标准化刺激情境，让受测者在不受任何限制的情况下，自由地对刺激情境作出他的反应，然后通过分析受测者的反应，推断受测者的人格特质。

三、领会（一）自陈量表的编制方法和特点：P230

1、编制方法：是否式、二择一式、是否折中式、文字等级式、数字等级式

2、特点：①题量较大，多数用于测量人格的若干特质②通常采用纸笔测验③记分规则简单客观，施测手续简便，测量分数容易获得解释

（三）明尼苏达人格问卷概况P233（三）卡特尔16种人格问卷概况P235 （四）艾森克人格问卷简介P236 （五）投射测验的理论假设P242

1、人们对外部事物的解释性反应都是有其心理原因的，同时也是可以给予说明和预测的。

2、反应者过去形成的人格特征，他当时的心理状态以及他对未来的期望会渗透在他对外部刺激的反应过程及结果中。3、

个人的人格会无意识地渗透在对刺激情境的解释性反应中，因此可以通过测验得以解释。

（五）罗夏克墨迹测验的四个阶段P243 1、自由反应阶段2、提问阶段3、类比阶段4、极限测验阶段（六）罗夏克墨迹测验概况：P243（七）主题统觉测验简介：P245 第十五章其他心理与教育测验一、识记：（一）状态焦虑的含义P148

是指由紧张、担忧、神经过敏和忧虑所引起的主观感觉和由主性神经系统的唤醒所引起的生理反应。（一）物质焦虑的含义P249：是一种比较稳定的人格物质，它存在着个体差异，是一种习得的行为倾向。二、领会：（一）常用的焦虑测验P249

1、显性焦虑量表（MAS）2、状态——物质焦虑量表（STAI）3、测验焦虑量表4、其他临床焦虑量表（二）职业兴趣测验P253 1、斯特朗职业兴趣问卷2、库德职业兴趣调查表3、自我指导问卷（三）品德和态度测量的常用方法1、态度测量方法：P260等距量表法、克利特量表法、哥特曼量表法 2、品德测量方法：P265情境测验法、问卷测量法等第十六章测量的综合应用

一、应用：论述心理测量在三个领域中的应用情况及需要补充完善的地方。（一）心理测量在心理咨询中的应用：P271

1、在自我认识、人生规划咨询中的应用2、在神经症、人格障碍等咨询中的应用（二）心理测量在人事测评中的应用P275 1、在人的心理特点评估中的应用 2、人员培训后的心理特点评估3、工作人员的效绩评估（三）心理测量在教育评价中的应用P281

1、在测量学生的学习与发展状况中的应用2、在教师与管理者评价中的应用第十七章心理与教育测量理论的新发展本章不作考试要求附录题型举例

一、填空题1、按测量方式所作的分类，心理测量可分为个别测量和。 2、首次提出“心理测验”这个术语的人是。

二、单选题 1、在EPQ量表中，反映被试的社会朴实或者幼稚水平的分量表是（） A 、P量表 B、E量表 C、N量表 D、L量表

2、某一项目上高分组和低分组的通过率分别为0.83和0.43，则该项目的难度是（） A、0.43 B、0.40 C、0.59 D、0.75 三、名词解释

1、重测信度 2、结构效度四、简答题

1、简述信度和效度的关系。 2、简述投射测验的基本原理及其特点。五、计算和分析题

1、某人在一次由80人参加的成就测验中得76分，排名18，则该生成绩（76分）的百分等级是多少？

2、下表为一个由370人参加的测验中的4个题目的项目信息统计结果列表，请您对这4个题目进行项目分析和评价。

题组别选答人数正确难度P 区分度号高分组 1 低分组高分组 2 低分组高分组 3 低分组高分组 4 低分组 A 5 22 58 26 17 25 1 1 B 92 50 10 21 25 11 44 56 C 1 12 15 15 28 19 14 10 D 2 16 16 36 28 34 36 28 未答 0 0 1 2 12 11 5 5 答案 B A D C 0.71 Rpb 0.52 D 0.42 0.42 0.33 0.32 0.31 －0.04 －0.06 0.12 0.08 0.04 七、论述题：联系实际谈谈心理测验在实际工作中有哪些具体应用？

《心理与教育测量学》试题

一、填空题（每格1分）

1. 我国古代教育家孔子曾把人分为中人、中人以下、中人以上，这实际上相当于测量学中的命名量表和量表。 2.卡特尔于1890年发表了《心理测验和测量》一文，首创了这个术语。

3.著名美国学者波林指出：“在测验领域，19世纪80年代是高尔顿的十年，90年代是卡特尔的十年，20世纪头十年则是（）的十年。

4.卡特尔的学生桑代克等人利用心理测验原理，编制了第一批，被人称为教育测验的鼻祖。 5. 1905年，世界上第一个智力测验发表了，人们称之为量表。

6. 测验的编制首先要明确，也就是要编制的测验是用来测量那种心理特质的。 7. 测验的编制要明确，也就是该测验要用于何种团体。 8. 编制计划，是对测验的总体设计。包括。

9. 制订项目的过程包括写出、编辑、和修改等一系列过程。 10. 项目分析包括两个方面。

11. 最好的测验项目就是只测定所需要的特征，并能对该特征加以的难度合适的项目。 12. 测验使用的标准化包括施测过程、评分记分、的标准化三个环节。 13. 测验施测时，为了使测验条件相同，必须有统一的和时间限制。 14. 选择题中为平衡机遇对难度的影响，可用的矫正公式是 CP= 。 15. 论述题等不用二分法记分的项目，难度的计算公式是P= 。

16. 二分法记分的项目的难度通常用通过率来表示，即用该题人数的百分比作为指标。 17. 所谓误差就是在测量中的因素所产生的不准确的或不一致的结果。 18. 被试在应试前和测试中出现的紧张情绪体验称之为。 19. 根据一组被试在测验上的得分计算的相关系数即为复本信度。 20. 效度指的是测量的有效性，即一个测验对它所要测量的特质的程度。

21. 用同一个测验，对同一组被试前后施测两次，对两次测验分数求相关，其相关系数就叫。 22. 内容效度是指项目对欲测的内容或行为范围的适当程度。

23. 计算被试在新旧两个同类测验上的分数之间的相关，如果相关高，则说明两个测验所测的是相同的特质，这种确定构思效度的方法称为效度。

24.根据搜集效标的时间，可以将效标效度分为。

25. 常模参照分数是把受测者的成绩与具有某种特征的人组成的有关团体作比较，根据一个人在该团体内的相对位置来报告他的成绩。这里，用来作比较的参考团体叫。

26.将原始分数与平均数的距离以标准差为单位表示出来的量表称为量表。

27.在标准参照测验中，一个人在测验上的成绩不是和其他人比较，而是和某种比较。

28.主试实施心理测验的最基本的要求是熟悉并能流利地说出来。

29.指导语对被试的反应态度、反应方式及的行为方式、说话方式作了严格规定。 30.实施标准化测验的基本原则是努力减少对测验结果的影响。 31.韦氏儿童智力量表适用于。

32. 孟子曾对齐宣公说：“权，然后知轻重；度，然后知长短。物皆然，心为甚。王请度之。”这可以说是关于的最早的表述了。

33. 一个分数的百分等级可以定义为。 34．简单随机取样常用的具体抽取方式有。 35.所谓效标关联效度，是指。

36. 通过控制某些实验条件，观察其对测验分数的影响，也可以获得构想效度的证据。这种获得构想效度的方法称为。

37. 一个有效的测验不仅应与其他测同一构想的测验有关，而且还必须与测量不同构想的测验无关。用此种方法确定的效度称。

38.衡量测验有效性的外在标准叫做，通常是指我们所要预测的行为。

39.一个好的效标测量应该符合以下几个条件，它们分别是，，，。 40.测验的长度越长，测验的信度、效度越．二．选择题（每题1分）

1. 目的是测量受测者在某方面将来可能达到的水平和成就的测验叫做。 A．形成性测验 B．总结性测验 C．预测测验 D．诊断性测验 2. 由与测量目的无关的偶然因素引起的变化无规律的误差叫做( ) 。 A．随机误差 B．系统误差 C．被试产生的误差 D．主试产生的误差

3. 用同一个测验，对同一组被试前后施测两次，对两次测验分数求相关，其相关系数就叫( )。 A．复本信度 B．再测信度 C．等值稳定性系数 D．内部一致性系数

4. 用两个平行（等值）的测验对同一组被试施测，得到两组测验分数，求这两组测验分数的相关系数，这就是（）。 A．复本信度 B．再测信度 C．等值稳定性系数 D．内部一致性系数

5.用两个平行的（等值的）测验，间隔适当时距施测于同一组被试得到两组测验分数，求这两组测验分数的相关，其相关系数就是（）。A．复本信度 B．再测信度 C．等值稳定性系数 D．内部一致性系数

6. 指测验分数能够说明某一理论概念或特质的程度叫做（）。A．内容效度 B．构想效度 C．校标关联效度 D．表面效度 7. 通过考察测验( )，可以对测验的难度作出直观检验。A．分数的分布 B项目的难度 C分测验的多少 D项目的区分度 8.大多数适合普通人群的测验如果要有较大的区分能力，一般应选择接近( ) 难度的项目。 A．低 B．中等 C．高 D．无所谓

9.鉴别指数D的计算公式D= ( ) 。A．PH+PL B．PH-PL C．（PH+PL）/2 D．（PH-PL）/2

10.项目的区分度和难度有一定关系，一般难度越接近 ( )，项目的潜在区分度越大。A．0 B．0.2 C．0.8 D． 0.5 11 .要考查对事物的辨别和判断的能力，宜用的题型是 ( )。A．简答题 B．论文题 C．选择题 D．填空题 12.当被试人数较多，测验时间和经费又有限时，最好选用 ( ) 测验。A．个别 B．团体 C．速度 D．投射

13.项目分析时一般将总分最高和最低的( ) 的被试划分为高分组和低分组。 A．7% B．17% C．37% D．27% 14.通常所用的时限是使大约( ) %的被试在规定时间内完成全部测验。A．70 B．80 C．90 D．95 15.以下四项中不是引起误差的被试内因素是 ( ) 。A．应试动机 B．反应倾向 C．生理变化 D．评分记分 16.对于一个团体而言，实得分数（X）、真分数（T）和测量误差（E）之间的关系是( ) 。 A．SX2=ST2+SE2 B．ST2=SX2+SE2 C SE2=ST2+SX2 D．SV2=SX2+ST2+SE2

17.下面不属于影响测验信度系数的三个重要因素之一的是 ( ) 。A．被试样本 B．施测环境 C．测验长度 D．测验难度 18.下列中不是真正效度的是( ) 。A．内容效度 B．构想效度 C．表面效度 D．效标效度

19.所谓效标指的是衡量测验有效性的外在标准，通常是指我们所要预测的( ) 。A．行为 B．言语 C．学业成就 D．心理 20.下面四个概念中与效标效度无关的( ) 。A．同时效度 B．预测效度 C．效标测量 D．因素效度 21.下列不属于标准分数的是( ) 。A．比率智商 B．T分数 C．标准九 D．离差智商

22. 按照总体已有的某些特征，将总体分成几个不同的部分，再分别在每一部分中随机取样。这种抽样方法称为 ( ) 。 A．等距抽样 B．简单随机取样 C．分层随机取样 D．两阶段随机取样 23.在标准九量表中得1分的人占常模样本的百分之( ) 。A．4 B．7 C．11 D．12 24.离差智商115相当于( ) 的百分等级。A．50 B．70 C．84 D．95

25.一个人在智力测验上的得分高于平均值1.6个标准差，那么其离差智商为( ) 。A．130 B．124 C．116 D．66 26.如果原始分数的分布是常态的，那么z分数的范围大致是从( ) 。A．-1到+1 B．-2到+2 C．-3到+3 D．-4到+4 27.离差智商130的人的测验成绩高于平均值( ) 个标准差A．3 B．2 C．1 D．0 28.中国比内测验的适用对象为2-18岁，共有( ) 个项目。A．8 B．18 C．30 D．51 29.韦氏成人智力量表包含( ) 个分测验。A．10 B．11 C．12 D．13 30.希-内学习能力测验主要用于测量3-16岁的( ) 。

A．正常和聋哑儿的智力 B．正常人的学习能力 C．聋哑儿的学习能力D．正常与聋哑儿的学习能力 31.贝利婴儿发展量表是( ) 婴儿测验。A．适用年龄最小的 B．最早的 C．最好的 D．最复杂的 32.第一个团体智力测验是( ) 。

A．陆军甲种和乙种测验 B．多水平团体智力测验 C．瑞文测验 D．文化公平智力测验 33.韦克斯勒编制的第一个量表是。A．WAIS B．WISC C．WPPSI D．W-BI

34.对于成就测验，信度系数一般应在 ( )之间。A．0.50-0.60 B．0.60-0.70 C．0.70-0.80 D．0.80-0.90 35.职业测验主要涉及的两种效度是( ) 。A内容和构想效度 B构想和预测效度 C．预测和内容效度 D．内容和表面效度 36.第一个职业兴趣量表是( )年编制的斯特朗职业兴趣表。A．1915 B．1919 C．1927 D．1934

37.一个人在某个测验上的得分高于平均值1.6个标准差，那么其T分数为。A．130 B．124 C．116 D．66 38．下列 ( ) 量表属于发展量表。A．百分等级 B．标准分数 C．心理年龄 D．离差智商

39.CPI是( ) 量表的简称。A加州心理问卷 B爱森克人格问卷 C．明尼苏达多相人格问卷 D．卡特尔16种人格因素问卷 40.瑞文标准推理测验是测验。A．成就测验 B．言语智力测验 C．非言语智力测验 D．投射测验三、判断题（下列各题，正确的在题后的括号内打“√”，错误的打“Χ”，每小题1分） 1. 首先倡导测验运动的是卡特尔（J.M.Cattell）。（）

2. 操作测验既可弥补语言文字量表的缺陷又可用于文盲和有言语障碍者。（） 3. 凡有数量的东西都可以测量。（）

4. 心理测量是对人的心理现象的直接测量。（）

5. 心理测验经过了标准化，测验结果是完全正确、客观的。（） 6. 项目的区分度是选择项目的唯一标准。（）

7. 测验原理大体相同，因而可以概括出一套通用的编制程序。（）

8. 标准化就是控制无关因素对测验目的的影响，也就是测验使用的标准化。（） 9. 知道了测验的原始分数，就能对个人的测验结果作出有意义的解释。（） 10. 项目有难易之分，难度是项目本身客观存在的绝对的特征。（）

11. 选择项目主要根据测验的目的，有的要求难，有的要求易，有的可不考虑难度。（） 12. 随机误差只影响测量的准确性，系统误差既影响准确性又影响一致性。（）

13. 信度的定义是：一组测量分数的真变异数与总变异数（实得变异数）的比率。（） 14. 同质性信度也称内部一致性，指的是测验内部所有题目间的一致性。（） 15. 作为内部一致性系数，克伦巴赫系数不适用于项目多重记分的测验。( ) 16. 测量的效度只受系统误差的影响，不受随机误差影响。( ) 17. 构想效度是指测验对理论上的构想或特质的测量程度。 18. 常模团体的分数分布叫常模。

19. 只有所测特质的分数在实际上是常态分布的，才能转化为常态化标准分数。 20. T分数的平均值为50，标准差为10。 21. 离差智商的平均值为100，标准差为10。

22. 离差智商的优点是同样的智商分数在任何年龄水平上都代表同样的相对位置。

23. 标准分数量表属于等级量表。

24. 百分等级量表是常用的测验量表之一，它属于等距量表。 25. 只要测验符合心理测量学的要求，测验就可选来应用。 26. 根据测验的名称就可选择适用的测验。

27. 对被试的反应，主试可以作些点头、摇头等反馈性反应。 28. 由于测验经过了标准化，所以使用者只需受过初步训练即可。 29. 美国心理学家格塞尔是婴幼儿量表的创始人。

30. 新生儿行为评定量表是目前适于年龄最小的婴儿使用的行为量表。

31. 丹佛发展筛查测验（DDST）能对婴幼儿将来的适应能力和智力高低进行预测。 32. 韦氏学龄前期及学龄初期智力量表可以团体施测。

33. MMPI的主要功能是测查个体的人格特点，判别精神病患者和正常人。 34. MMPI中的效度量表说明了MMPI的有效性，是该测验的效度指标。 35. 在MMPI中若T分>70，常视为异常。

36. CPI是以MMPI为基础编制的着重于对正常人格的测量。 37. EPQ中的精神质得高分就是精神病。

38. 聪慧性、忧虑性和实验性是16PF中描述的三个人格特征。 39. 詹金斯活动性调查表主要用于评价个人的活动性程度。

40. 成就测验是一种相对直接的测量，这是成就测验与其它心理测验的不同之处。 41. 标准分数分为线性转换的标准分数和非线性转换的标准分数。 42. 表面效度高，内容效度也高。

43. 一个好的测验必须具有较高的内容效度和较低的表面效度。 44. 测验使用的标准化就是施测过程的标准化和评分记分的标准化。 45. 团体测验效率高，精确度也高。

46. 语言文字测验用于对不同语言背景条件下的个体的心理特质进行比较时存在着局限性。

47. 将受测者的测验分数与某种标准来进行比较，看受测者有没有达到这个标准。这种测验叫做常模参照测验。 48. 预测时应注意，预测对象应取自将来准备应用的群体，虽然人数不必太多，但仍要有代表性。 49. 测验的难度直接依赖于组成测验的项目的难度。

50.如果我们想使我们的所测验到的心理特质的分数分布呈正态，我们考虑难度选择项目时，应使项目的难度分布也呈正态分布。

四、名词解释（每小题3分） 1．心理测验 2．成就测验 3．能力测验 4．人格测验 5．能力倾向测验 6．常模参照测验 7．标准参照测验 8．团体测验 9．个别测验 10. 项目分析 11. 项目难度 12. 项目区分度 13. 27%规则 14. 指导语 15. 测验误差

16. 真分数 17. 测验焦虑 18. 标准化 19. 常模 20. 再侧信度 21. 复本信度 22. 等值稳定性系数 23. 内部一致性系数 24. 评分者信度 25. 并列直进式 26. 混合螺旋式 27. 效度 28. 构想效度 29. 效标效度 30. 观念校标和校标测量 31. 原始分数 32. 导出分数 33. 内容效度 34. 表面效度 35. 原始分数 36. 导出分数 37. 常模参照分数 38. 简单随机取样 39. 分层随机取样 40. 两阶段随机取样 41. 发展常模 42. 组内常模 43. 百分等级量表 44. 标准分数量表 45. T 量表 46. 比率智商 47. 离差智商 48. 心理年龄 49. 标准九分数 50. 瑞文标准推理测验 51. EPQ 52. 16PF 53. 成就商数 54. 心理健康诊断测验 55. 学习适应性测验五、简答题（每题6分）

1. 比内之后心理测验的迅速发展主要体现在哪些方面？ 2. 心理测验的三个主要特性是什么？ 3. 按对象分心理测验主要有哪几类？

4. 按测验的人数分心理测验可以分成哪几类，各有什么优缺点？

5. 按测验结果的解释模式分，心理测验可以分成哪几类？ 6. 简述心理与教育测验的用途？ 7. 简述测验编制计划的涵义及作用。 8. 心理测验编制的一般程序是什么？ 9. 测验手册一般应包括哪些内容？ 10. 如何设计心理与教育测验的项目？ 11. 简述判断题和选择题的优缺点。 12. 简述简答题和论述题的优缺点。 13. 编写测验项目应注意哪些问题？

14. 为项目分析所作的预测应注意哪些问题？ 15. 简述项目编排的原则和排列方式。 16. 复本等值必须符合哪些条件？ 17. 如何做到测验使用的标准化？ 18. 如何对选择题的选项进行分析？ 19. 简述施测过程引起误差的各种因素。 20. 信度系数的主要用途是什么？

21. 什么是信度？估计信度的方法有哪些？ 22. 简述影响信度的主要因素。 23. 影响效度的主要因素有哪些？

24. 一个测验要具有内容效度必须具备哪些条件？ 25. 如何用专家判断法确定内容效度？ 26. 原始分数为什么要转化为导出分数？ 27. 确定常模团体需要注意哪些问题？ 28. 简述百分等级量表的含义及优缺点。 29. 简述标准分数的优缺点。

30. 测验前的准备工作包括哪些方面？ 31. 如何建立主试与被试的关系？

32. 记分、评分的标准化应注意做到哪几点？ 33. 如何正确地等待测验？

34. 编制人格测验的常用方法有哪些？六、论述题（每题20分）

1. 什么是误差？误差主要来源于哪些方面？

2. 影响测验信度的因素有哪些？这些因素是如何影响测验的信度的？

3. 影响测验效度的因素有哪些？这些因素是如何影响测验的效度的？

4. 下表是一成就测验4道4重选择题的项目分析表，请对测题进行项目分析。题号组别选答人数正确答案难度鉴别力

A B C D 未答 1 高分组 5 92 3 0 0 0.36

低分组 30 50 20 0 0 2 高分组 32 20 21 26 1 0.09

P rb B 0.51 A 0.72 D

0.52

0.07 低分组 26 21 15 36 2

3 高分组 17 15 28 26 14 D 0.31 -0.05 -0.01

低分组 25 11 19 32 13

4 高分组 1 39 14 41 5 C 0.12 0.03 0.05

低分组 1 56 10 28 5 5.试述心理测验编制的全过程。

6.如何从项目的难度、区分度和项目的选项上考虑选择项目？ 7.试论述各种信度系数的意义、用途和计算方法。 8.试论述各种效度系数的意义以及收集这些效度的方法。 9.试论述各种组内常模及其优缺点。

10.在测验的使用过程中应如何选择测验、对被试进行施测以及如何对测验进行评分和解释？七、计算题（每题10分）

（为了便于计算，下列练习题都是小样组，实际应用时应采用大样组。）

1. 80人参加某一测验，其中第4题和第8题通过的人数分别为16人和48人，求第4题和第8题的难度。 2. 某政治测验第十题的满分为18分，这道题考生的平均得分为9.9分，问该题的难度是多少？

3. 200名学生参加某一次物理测验，按27％规则将被试分成高分组和低分组。其中高分组答对第一题的共有40人，低分组答对第一题的共有10人。请计算第一题的难度。 4. 分别求通过率为84％、67％、35％的测题的标准难度。

5. 某高中数学测验，被试共100人，高分组和低分组各取总人数的27％，第五题高分组20人全部答对，低分组只有5人答对，计算该题的鉴别指数。

6.下表是某学校的15名学生在一次英语测验中的总分和第六题的得分情况（其中第六题中0表示不通过，1表示通过。）请计算第六题的区分度。

学生 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

测验总分 90 56 78 89 86 84 78 55 45 46 87 75 70 65 60

第六题得分 1 0 1 1 1 1 1 0 0 0 1 0 1 0 0

7.下表是某学校的15名学生在一次政治测验中的总分和某一论述题的得分情况，论述题被人为地分成两种情况，10以上算通过（表中用1表示），10分以下算没有通过（表中用0表示）。请计算这一论述题的区分度。

学生 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

测验总分 85 65 78 89 88 78 92 56 55 64 78 61 88 50 40

论述题得分 1 0 1 1 1 1 1 0 0 0 1 0 1 0 0

8.下表是某大学学生的一次教育学期末考试的成绩总分和某一论述题的得分（满分为15分），请计算这一论述题的难度和区分度。

学生 1 2 3 4 5 6 7 8 9 10

测验总分 88 86 84 81 77 62 54 53 56 62

论述题得分 12 11 10 9 8 7 6 5 5 5

9. 假设有一份考试焦虑调查表，先后两次施测于10名学生，时间间隔为半年，结果如表所示，求该测验的重测信度。测验被试

1 2 3 4 5 6 7 8 9 10

X1 16 14 13 16 12 10 10 9 11 7

X2 16 15 15 12 11 13 11 10 6 5

10.假设用A、B两型智力复本测验对五年级10个学生施测。结果见下表。试求该测验的复本信度。测验被试

1 2 3 4 5 6 7 8 9 10

X1 16 17 18 14 15 13 12 20 11 9

X2 15 16 19 18 16 12 11 19 10 8

11.有一个由100题构成的量表施测于10个高三学生。测验一次后，应试者即毕业离校。现计算得应试者的奇数题总分（X1）和偶数题总分（X2），见下表。得分被试

1 2 3 4 5 6 7 8 9 10

X1 27 25 26 28 21 18 19 15 14 10

X2 28 26 25 27 20 17 15 14 12 8

试计算该测验的分半信度。

12. 有一种包含5个问题的测验，10个应试者的得分如下表（答对得1分，答错得0分），试估计应试者反应的一致性程度。被试题目得分

1 2 3 4 5 1 1 0 0 0 0 2 1 0 0 1 0 3 0 0 1 0 1 4 0 1 1 0 0 5 0 1 0 1 1 6 1 0 1 0 0 7 0 1 1 1 1 8 1 1 1 1 0 9 1 1 0 0 1 10 1 1 1 1 1

13.有一种包含5个论文式题目的测验，对4个应试者施行，得分见下表，试求该测验的信度。题号被试

A B C D 1 7 10 9 10 2 6 11 9 9 3 5 10 7 8 4 5 10 6 9 5 7 9 8 10

14.一创造力测验实施于某市全体初中生，其分数的标准差为12，信度系数为0.92，若将该测验施测于初二年级，其分数的

标准差为10。求初二年级的信度系数的估计值。

15. 有一个包括20个题目的测验，信度为0.60，若把测验增加到50个题目，其信度将增加到多少？ 16. 一个包含60个题目的测验信度是0.80，欲将信度提高到0.90，需要增加多少题目？

17. 一测验的信度系数为0.60，效度系数为0.40，现想其效度增长为0.60，问测验的长度应增长为原来的几倍？

18. 一位教师评阅10份试卷，评完一次并列出等级后，为慎重起见，重评一次。两次所评等级如下。问两次评分是否一致？试卷 A B C D E F G H I J 初评 1 3 5 2 4 7 6 10 9 8 再评 1 4 5 2 3 8 6 9 10 7 19.3位教师评阅4份试卷，所评等级如下表，问评分是否一致？阅卷者

（K=3）作文编号（N＝4） 1 2 3 5 张 2 3 4 1 王 1 4 3 2 李 1 3 4 2

20.下表是30个学生一次测验的分数，试计算第一题的难度和区分度。

学生 1 2 3 4 5 6 7 8 测验总分 85 55 62 68 89 45 42 85

第1题得分 1 0 0 0 1 1 0 1

学生 11 12 13 14 15 16 17 20

测验总分 96 40 53 82 79 50 53 65

第1题得分 1 0 0 1 0 0 1 1

学生 21 22 23 24 25 26 27 30

测验总分 51 80 90 50 80 48 81 60

第1题得分 0 1 1 0 1 0 1 0

2004年上《心理测量》试卷

一、单选

1. 心理测验的（B）是指编制的测验是测什么的，即测什么样的心理特征或人格特点 A 目的 B 目标 C 效度 D 信度

2. 将智力定义为“个体有目的的行动，理性的思考以及有效的适应环境的总体能力”的心理学家是（A） A 韦克斯勒 B 斯皮尔曼 C 比内 D 桑代克

9 10

76 70 1 1 18 19 78 75 1 1 28 29 76 40 1 0 3. 复本信度，又称等值性系数，其考虑的误差来源是（A） A 内容取样 B 时间取样 C 随机误差 D 评分者误差 4. 1960年修订的斯坦福--比内量表正式引入了（D）的概念 A 智力年龄 B 年级当量 C 比率智商 D 离差智商

5. 把一个量表分成一百个位置，对不同的得分给予相应的等级评价，称之为（B） A 百分位常模 B 百分等级常模 C 百分点常模 D 百分位数常模 6. 标准分数是（C），因此可以做加减运算，而不能做乘除运算 A 命名量表 B 顺序量表 C 等距量表 D 等比量表

7. 如果测验的效标资料是经过一段时间后获得的，这样所得的效度称（B） A 同时效度 B 预测效度 C 构想效度 D 内容效度

8. 公元1370年笔试成为科举取士的一部分，这可视为（C）的正式开始 A 智力测验 B 能力倾向测验 C 成就测验 D 人格测验

9. 如果某测验的信度系数为0.08，那么该测验中真分数造成的变异占（A） A 80% B 20% C 64% D 36%

10. 在心理测验中，通过将被试的反应与标准答案相比较而获得的测验分数叫（A） A 原始分数 B 导出分数 C 常模分数 D 掌握分数二、多选

11. 根据对被试的要求不同可以将测题分为提供型和选择型两大类，其中提供型重要包括（BCD） A 匹配题 B 简答题 C 论文题 D 填充题 12. 下列测验中，属于人格测验的是（ABCD） A EPQ B 16PF C MMPI D TAT

13. 下列哪一步属于记分的一般程序？（ABD）

A 记录被试反应 B 参考标准答案 C 建立常模标准 D 计算最后得分 14. 被试的反应定势可以具体分析为多种，其中包括（ABCD） A 求“快”定势 B 位置定势 C 喜好正面叙述的定势 D 长选项定势 15. 下列哪几项符合明尼苏达多项人格调查表的情况？（AC）

A 10个临床量表 B 3个效度量表 C 采用T分数记分 D 1989年推出了MMPI-2 16. 在参照常模的分数解释中，下列哪些是标准分常模？（AD） A T分数 B 比率智商 C 掌握分数 D 标准十 17. 能力倾向测验与智力测验的主要区别有（CD）

A 前者带宽更广 B 后者精确度要小些 C 后者可得到智能分数或IQ D 前者可得到某种特定的或多因素的组合

18. 心理测验的目标分析以测验不同而异，其具体包括（ABD）

A 工作分析 B 对特定的概念下定义 C 显示和预测分析 D 确定测验的具体内容 19. 计算内部一致性信度常用的指标包括（ABD）

A 分半信度 B 克伦巴赫a系数 C 肯德尔W系数 D K-R20

20. 按常模性质可以分为发展常模、百分位常模和标准分常模，其中发展常模包括（BCD）

A 智力商数 B 智力年龄 C 发展顺序量表 D 年级当量三、填空

21. 测验题目的来源可分为三个方面：已出版的（标准测验）、（理论和专家）的经验，以及（临床观察）和记录。 22. 选择题只要是由两部分构成的，即（题干）和（选项）。

23. 测题的编排方式很多，其中常见的是（并列直进式）和（混合螺旋式）。

24. 1924年，（陆志韦）先生发表了《订正比内西蒙智力测验说明书》，30年代又与（吴天敏）再次做了修订。 25. 罗伊认为，一个温暖、和谐的家庭会使儿童成为（）者，而一个冷漠、疏离家庭中的儿童则具有（）的特点。 26. 卡特尔利用因素分析将智力确定为两大因素，分别命名为（流体智力）和（晶体智力）。 27. （表面效度）是指一个测验看起来好象是测量所要测量的东西的程度。

28. 阿斯丁把效标细分为两个层次，一是理论描述水平的（观念效标），二是操作定义水平的（测量效标）。四、名解 29. 重测复本信度51.52 30. 记分标准化16 31. 能力倾向测验211 32. 学习障碍

33. 常模137五、简答题 34. 简述信度和效度的关系70

35. 简述项目难度与测验难度的确定95.96 36. 简述特殊群体智力测验的类型及应用范围 37. 简述心理测验的性质17六、论述题 38. 试述常见的影响效度的因素88

39. 画出项目鉴别力与项目难度的特征曲线，并据图加以说明110

Word文档下载：戴版《心理与教育测量》课后习题及解答11.doc

搜索更多:戴版《心理与教育测量》课后习题及解答11