生物学教学评价 68页

2.10 MB
2022-08-12 发布

生物学教学评价

关闭预览

68页
当前文档由用户上传发布，收益归属用户

1、本文档由用户上传，淘文库整理发布，可阅读全部内容。
2、本文档内容版权归属内容提供方，所产生的收益全部归内容提供方所有。如果您对本文有版权争议，请立即联系网站客服。
3、本文档由用户上传，本站不保证质量和数量令人满意，可能有诸多瑕疵，付费之前，请仔细阅读内容确认后进行付费下载。
网站客服QQ：403074932

生物学教学评价陈秉初著浙江师范大学生物学教育硕士讲稿\n目录第一章绪论第一节教学评价的基本问题一、教学评价的含义二、教学评价相关概念辨析第二节教学评价的发展历史一、科举制度和考试制度的形成二、教学测量学科的诞生三、教学评价理论的发展第三节教学评价的地位和作用一、在教育科学研究中的地位二、教育改革对教学评价的要求三、教学评价与教师素质的提高四、教学评价与教学质量的提高第二章教学评价的类型与功能第一节教学评价的类型一、按评价的运用次序分类二、按评价结果的参照分类三、按评价的内容分类四、其他分类第二节教学评价的功能一、促进教学判断功能二、促进教师教学功能三、促进学生学习功能四、促进教学管理功能五、促进教学改革功能第三章教学评价的质与量第一节教学评价的信度一、信度的含义二、信度的估计方法三、信度分析四、信度的误差五、评价者的信度第二节教学评价的效度一、效度的含义二、效度的统计方法三、内容效度的逻辑分析四、内容效度的量化分析五、信度与效度的关系第三节教学评价的难度一、难度系数的计算二、恰当难度与恰当难度分布第四节评价中的区分度\n一、区分度的意义二、区分度的计算三、区分度伪相关的校正第二章生物学教学评价的一般原理与过程第一节生物学教学评价的一般原则一、教学目标控制原则二、评价的客观性原则三、评价的科学性原则四、评价的可操作性原则第二节评价目标的制定一、教学目标是评价目标的依据二、评价目标的制定三、对评价目标的评价第三节评价方案的制定一、评价类型的确定二、评价方案的编制三、评价方案的反馈与修正第四节评价方案的实施一、信息收集与整理二、数据的处理三、数据的分析四、评价初步结果的得出第五节评价初步结果的修正一、初步结果的反馈二、对反馈意见的分析三、对评价初步结果的修正第六节评价结果的应用一、评价结果的反馈二、评价结果的应用三、对评价的评价第三章生物学教学评价中数据处理的方法第一节评价单位的确定一、百分制二、归1制三、定性描述第二节平均数与方差一、平均数二、方差三、置信区间第三节常用的几种方法一、成绩分布二、Z-检验三、综合达标度分析第四节应答曲线\n一、应答曲线的含义二、应答曲线的绘制三、应答曲线的分析第二节S-P表分析一、S-P表的含义二、S-P表的绘制三、S-P表的分析第二章学生课业发展的评价第一节对课业考评的认识一、课业考评的作用二、课业考评中的主要问题三、课业考评的改革第二节学生课业发展的内容一、学生课业发展的主要内容二、学生课业发展的参照体系第三节促进学生课业发展的主要评价方法一、客观题评价法与主观题评价法二、表现性测验评价法三、评定量表评价法四、同伴评定和事件记录评价法五、档案袋评价六、动态评价法七、学习能力平面图第四节成绩评定等级制的原理和应用一、绝对评级等级制二、相对评价等级制第三章学生智能发展评价第一节认知过程基本能力发展的评价一、观察能力发展的评价二、记忆能力发展的评价三、思维能力发展的评价四、想象能力发展的评价第二节智力发展的评价一、智力的经典定义二、经典智力发展的评价方法三、智力测验史第三节创新能力的评价一、创新的内涵二、创新能力的评价第四节能力倾向发展的评价一、学习能力倾向的测验二、职业能力倾向的测验第五节多元智能发展的评价一、多元智能理论的基本观点\n一、发展多元智能的生物学教学改革二、多元智能的评价第二章学生人格心理发展的评价第一节人格心理评价的意义一、人格的定义二、人格的基本内容三、健康人格的基本特征第二节生物学教学与学生人格一、人格心理评价的方法二、生物学教学与学生人格的发展第三章教学评价的发展趋势第一节经典评价理论的特点一、经典评价理论的优点二、经典评价理论的确局限性第二节现代评价理论的优势第三节教学评价的发展\n第一章绪论教育与教学评价是当今世界教育科学研究的三大领域之一。在整个教育科学体系中占有重要的地位，在教育教学实践中也有重要而广泛的应用价值。在学科教学中教学评价同样显示出十分重要的作用。因此，在我国新一轮课程改革中，教学评价成为改革的突破口，也是课程改革的支撑点。编制生物学教学评价教材，其目的就是要配合新课程改革，试图通过教学过程对相关问题有进一步的认识，并为研究配合新课程改革的生物学教学评价方法和体系打下基础，为一线教学工作者提供较好的参考，从而提高生物学教学质量。第一节教学评价的基本问题一、教学评价的含义“评价”(evaluation)一词在日常生活和工作中也经常用到，事实上，人们经常进行着有意或无意的各种各样的评价，如评价某人为人处世，评价居住的环境，评价人们的生活质量…，可见“评价”与我们每一个人都有着密切的关系。评价是指衡量、判断人物和事物的价值的活动。教学评价（instructionalevaluation）是指按照一定的价值标准和教学目标，利用测量和非测量的种种方法，系统地收集资料，对学生的发展变化及其影响学生发展变化的各种要素进行价值分析和判断，并为教学策略提供依据的过程。对于教学评价的定义至今教育界仍然存在着各种界定，较为典型的解释有：（１）格兰郎德（N.E.Gronlund）认为，教学评价是为确定学生达到教学目标的程度，收集、分析和解释信息的（课堂）系统过程；评价包括对学生的定量描述和定性描述两部分。　　　　　评价＝测量（定量描述）＋非测量（定性描述）＋价值判断（２）斯塔费尔比姆（L.D.Stufflebeam）认为，评价是一种划定、获取和提供叙述性或判断性信息的过程。这些信息涉及教学活动的目标、设计、实施和影响的价值及优缺点，以便指导如何决策、满足教学效能核定的需要，并增加对评价对象的了解。因此，他认为评价最重要的意图不时为了证明，而是为了改进。这种观点很大程度上和新课程改革中的评价观点类同。（３）美国教育评价委员会的定义：教学评价是对某些现象的价值如优缺点的系统调查，为教学策略提供依据的过程。（４）泰勒(R.W.tyler)提出：评价过程在本质上是确定课程和教学大纲在实际上实现教学目标的程度的过程。（５）德雷斯(P.Dressed)认为，教学评价就是决定教学活动、目标及程序的价值的过程。（６）桥本重治认为，评价是与教学目标和价值有明确关系的概念，是按教学目标和价值对学生的学习成果及教学计划的效果进行测量的过程。评价的重点在于以教学目标为标准的价值判断。（７）布卢姆(B.S.Bloom)\n作了两种解释，一是针对教育评价的，评价是系统收集证据用以确定学习者实际是否发生了某些变化，确定学生个体变化的数量和程度。二是针对教育目标分类的，他在将教育目标分为认知、情感和动作技能三大领域，并把认知领域的教学目标分为知识、领会、应用、分析、综合、评价六个学习水平的基础上，把教学评价定义为：为了某个目的而进行的，对各种想法、作品、解答、方法、资料等的价值判断的活动。评价涉及应用准则和规格来估量各种具体事物的准确性、有效性、经济性和令人满意的程度。判断可以是定量的，也可以是定性的；标准可以有学生决定，也可以向他们规定。以上定义所各种描述的教学评价有以下一些共同点：（１）强调以教学目标为标准进行价值判断。（２）强调有多种方法（测量和非测量）系统收集资料和信息。（３）教学评价的内容既可以是教学计划，也可以是课程，既可以是学生的学习结果，也可以是某种教学现象、教学活动、教学目的和程序；既可以是教学的全过程，也可以是教学活动的部分。（４）强调为学生发展服务，为教学策略服务。　二、教学评价相关概念辨析在教学实践中，教学评价的概念常常与教学测量、教学测验、教学考试、教学评估等概念混淆，交叉使用，并存在一些误解。有必要澄清模糊认识，弄清他们之间的关系。　　１、教学测量和教学评价教学测量是指针对教学效果和学生各方面的发展予以测量和描述的过程；旨在获得有说服力的数量事实，是一种以量化为主要特征的事实判断。教学评价是根据一定的标准，对教学事实或现象进行系统的调查，在获取足够的资料事实（定性或定量）基础上，作出价值分析和价值判断。两者的关系是：教学测量可以为教学评价提供价值判断的基本数据事实，是教学评价的基础；教学评价是教学测量的延伸，是对教学测量结果的解释和应用。教学评价比教学测量所包含的内容更广、更综合。２、教学评估和教学评价　教学评估（instructionalassessment）是对教学活动进行质量、价值、程度、数值等的估测判断。就教学评估和教学评价的区别而言，前者注重与对教学活动的质性的判断，后者注重与对教学活动的数量上的价值判断。当教学评估也进行价值判断时，两者就是同一回事。根据美国国家评估委员会的定义：评估是有一个组织机构对一所学校或科学是否符合某一事先确定的质量标准作出鉴定的过程。所以教学评估往往用于实验室评估、办学水平评估、课堂教学水平评估、认得心理评估等。教学评价、教学评估和教学测量三个概念两两之间既有联系，又有区别，既有交叉，又有相对独立的关系。3、教学测验和考试测验（test）是测量的工具，教学测验是教学测量的工具，在教学评价或教学评估的过程中，常被用来收集资料（如有关态度、民意测验、科学成就测验），是一个较为具体的评价活动中的部分。第二节教学评价的发展历史一、科举制度的形成\n我国是考试的故乡，是考试制度的发源地。《孟子》中就论述学校要衡量士子的学习成绩和文化知识水平，需要考试。西周时期就建立了“考校”与“选考”制度，是我国考试制度的萌生阶段。西汉时期，我国的考试制度正式建立。汉代的“察举制”就是一种承前启后的任官制，就是察其贤能，举以授官，出现了“对策”和“射策”两种考试方法，一般以“上书言事”和“口试、答辩”相结合。两汉时期多数官办学校设有各种考试科目，考得好的可以“补官”，考不好的“留级”，还有“补考”。科举制度始于隋炀帝大业二年（606），终止于清光绪二十九年（1903），在我国历史上纷纷扬扬、断断续续绵延近1300年。我国的科举考试制度对世界教育、政治、文化，尤其是考试制度的产生过重大的影响。法国大革命时期的资产阶级启蒙思想家伏尔泰（Voltaire）对中国的考试制度倍加赞扬“人类精神，肯定想象不出比这样的政府更好的政府。在这个政府里，重要的衙门彼此统属，任何事情都在那里决定，而其成员，都是先经过几场严格的考试”。欧美各国采用的考试办法选拔官吏，是18世纪末从我国学去的。二、教学测量学科的诞生欧美国家早期的学校教育的考试，大多采用口试，1720年剑桥大学才有笔试，比我国迟了一千多年。1840年美国波士顿在全市范围的学校中进行书面考试，对以后的教育测量科学的诞生打下了基础。欧美国家的一些学者为追求学校成绩评定的客观性和标准化而开展的理论研究和实践探索，使得教育测量科学的诞生。1864年费舍（G.Fisher）为收集和选择有代表性的学生作业样本，将收集来的作业按优劣分，形成《作业量表集》，作为教师以后评定学生各科成绩的参照标准。美国学者赖斯（J.M.Rice）主张用统一的测验去考查、比较、评定各校学生的成绩。他（1894）先后编制了算术、拼写、语言等测验，曾有数万名学生接受过他的测验。1904年，美国心理学家桑代克（E.L.Thorndike）出版了举世闻名的论著《精神与社会测量导论》，首次系统地介绍教育统计的方法及编辑测验的基本原理。此书是公认的教育统计学、教育测量学、教育评价学等科学的第一本书，它标记着以科学理论（包括统计学、教育学、心理学、哲学）为指导的教育测量学的诞生。桑代克的著名假说：“无论什么东西，总存在于数量之中”（Whateverexistenceatallexistsinsomeamount.）,教育测验专家麦柯尔（W.A.Mecall）接着说：“任何东西，存在于数量中的，都可以被测量”（Anythingthatexistsinamountcanbemeasured.）,人们将“凡存在的东西必有数量；凡有数量的东西都可测量”作为构成一切测验与量化评价的公理。三、教学评价理论的发展1.泰勒模式在30年代，泰勒向当时美国教育测验的权威人士伍德（Wood,B.）的思想提出挑战。伍德认为，测验只要能测量学生对事实和知识的回忆和认识就可以了。而泰勒证明，对高级智慧技能的测量和对知识的测量不是一回事。如果高级智慧技能是教育目标的话，这些技能必须直接加以测量。同时泰勒认为，起源于智力测验的常模参照测验是以区分考生为目的的，它对了解学生学习的进展并无多大价值。而与此相对应的目标参照测验，则可以判明学生学业的进展提供很多有用的帮助。目标参照测验至今在学业成就评价中占有重要的地位。泰勒方案评价原则规定的评价步骤包括下列几方面：\n（1）确定教育方案的目标（2）根据行为和内容对每一个目标加以定义（3）确定应用目标的情景（4）设计给出应用目标情景的途径（5）设计取得记录的途径（6）决定评价方式（7）决定获取代表性样本的方法。不足：如果评价以目标为中心、为依据，那么，目标的合理性又根据什么判断；教育活动除了达到预期目标外，还会产生各种非预期的效应效果，它们也应加以评价。教育乃是个人自我实现的过程，用统一的目标模式去统一一个人的自由发展，去评价教育、教学的确结果，从根本上说是不可接受的。2.CIPP模式1957年到1972年称为泰勒模式的批判期，1966年斯塔弗尔比姆(Stufflebeam,D.L.)首创CIPP模式。它由背景（context）评价、输入(input)评价、过程(process)评价和成果(product)评价组成的综合评价模式。他发现，学生们的需要是各种各样的，而且根本不可能找到一套共同的目标。所以作为评价中心和依据的目标本身是需要评价的。所以方案评价的第一步应该是背景评价，背景评价应是周期性的，其一个重要任务是“考察现存的目的与重点是否与使用者的需要相一致”，“背景评价的结果都应为调整现存的目的优先顺序所需的变革提供坚实的基础”。输入评价的本质是可以理解为方案、计划可行性的评价。它涉及的问题包括：实现目标的可能性，各种方案的潜在成本，它的优势和劣势，它的合法性与道德性，各种人员的利用以及对外界资源的需要等等。过程评价是对计划实施情况的不断检查，有关活动是否按预定计划加以实施，是否以一种有效的方式利用现有资源，最初的决定在以后是否被证明有缺陷，为修改计划提供指导。成果评价测量、解释和判断教育的成就，证明人们的需要被满足的程度。CIPP和泰勒模式的共同点是重视定量的目标。3.CSE模式美国加利福尼亚州州立大学评价研究中心（CenterforStudyofEvaluation）的简称。自60年代后期该中心在研究、实践和推广该模式上倾注了大量的心血。CSE包括需要评定、方案计划、形成性评价、总结性评价四个方面。i.需要评定就是调查人们有何种需要。它的核心问题是确定教育的目标。ii.方案计划是对各种备择方案在达到目标方面成功的可能性作出评价，包括对教学内容与教学目标一致性方面的分析以及设备、资金和人员配置方面情况的研究。iii.形成性评价的重点在于发现教育过程的成功和失败之处，在于修正教学活动中某些偏离预期目标的地方，从而保证教育目标的实现。iv.总结性评价是在一个阶段之后对教育质量的全面调查和判断\n4.反对者(Adversary)模式Owens,T.等人在70年代中叶提出的，该模式十分重视听取关于教育方案和教育活动的争议意见，尤其是反对者的意见。其特点是充分反映了各类人员“多元的”价值认识，是依靠人们直觉与经验的评价。反对者模式的另一种形式是瓦尔夫（Woff）在1973年提出的司法模式。印地安那大学用它来评价师范教育课程，效果较好。司法模式由下述四个阶段组成：（1）争论提出。这一阶段主要是确定需要加以评价的问题；（2）争论选择。这一阶段主要是从需要加以评价的问题中选择最重要的的问题。（3）辩论准备。由两组评价人员准备对各自的观点进行辩论，并为之收集信息；（4）听证。听证官员听取双方的辩论。赞成这一模式的人人为，反对者模式有助于决策者获得较为广泛的信息和各方面的意见，有助于克服各种偏见，澄清各种潜在的冲突意见。批评者认为，这种评价的结果有时易为辩论者的技巧所左右，而且评价费用很高。5、应答（Responsive）模式由斯塔克（Stake,R.E.）首先提出后由他人进一步发展而形成的。他认为，要使评价结果真正产生效用，评价人必须关心活动的决策者与实施者所关心的问题。具体的说，应答评价通过评价者与同教育活动有关的各种人员接触，了解他们的愿望，然后把它的实际活动进行比较，对教育决策或方案作出修改，对大多数人的愿望作出应答，以使教育能满足各种人的需要。于泰勒模式相比，应答模式强调了“多元现实性”和价值观念的发散性。方法上注重与科学主义相对的自然主义方法，强调了非正式的观察、交往及描述性的定性分析方法。6．消费者导向模式（Consumer—orientedevaluation）由斯克里文提出，消费者可以是教育活动的参与者或受教育者。评价者必须从消费者的观点来确认真正的成果，以及这一成果的价值。他认为，泰勒模式在于决定目标是否达成，这在根本上是有缺陷的，从本质上来讲，价值是中立的，因为方案编制提出者的目标可能是不道德的、不切实际的、不足以代表消费者的需要的，或者因目标过于狭隘，以至不能预示可能的重要效应。这种评价模式和泰勒、CIPP模式的最大区别就在于：它作出评价结论的依据不是方案制定者的目标，而是活动参与者的意图。西方的评论家认为，这是一种更为大民主性的评价模式。此外，在西方现代教育评价的理论中还有医疗模式、费用—效果分析、教育鉴赏和驾驭评论评价模式、元评价模式等等。教育评价注重评价结果的认同和进一步强调”质的分析”,提出评价标准的多元化,重视对评价方案效用的分析和评价方案本身的评价,重视评价过程多方人员的沟通、理解、互动、建构与合作。教育评价活动已经和教育评估、教育督导、教育调查等概念联系在一起，除了课程、教学、教师、学生进行评价外，涉及到对学校办学的各个层面，涉及到所有影响学生发展变化的因素，为教育决策提供可靠的依据。\n第三节教学评价的地位和作用一、在教育科学研究中的地位20世纪教育科学得到迅速发展，形成了一个庞大的教育科学体系，并形成了研究对象相对明确、研究内容相对独立、研究方法各有特色、研究成果相对完整的学科分支。如教育学、教学论、课程论、教育心理学、教育哲学、教育史、比较教育学、教育经济学、教育科学研究方法、教育实验设计、教育技术学、教育评估与监督、教育生态学等等。在这些教育学科中，教育与教学评价有着其重要的地位，综观世界各国的教育研究情况和发展趋势，教育和教学评价已经和教育基本理论、教育发展理论研究一起成为当今教育科学研究的三大领域。究其原因，我们人为主要是由于教育评价是众多教育研究的有利工具，任何一种教育理论和教育技术都需要评价来加以论证，并在评价的基础上加以修正与完善。从美国对教育评价的研究情况，我们不难发现其在教育科学研究中的地位。1、创办了大量有关教育评价的杂志，如《教育测量研究》、《教育测量评论》、《评价研究》、《教育评价和政策分析》、《评价与方案计划》、《评价信息》、《教育评价新趋势》、《教育测量理论模型研究》等，表明相关研究十分活跃。2、出版了大量相关的学术著作和教科书，如《教育测量》、《心理测量》、《心理与教育测量年鉴》、《教育评价》、《教育方案、计划评价》、《测验统计理论》、《教育目标分类》等著名的书籍。3、众多的教育和教学评价、评估机构，如全国教育测量委员会、全国教育进展评估中心、全国教育评价联合会等，其中有美国教师联合会、美国教育研究协会、美国全国教育测量学会、美国学校行政人员协会等12个全国性的专业组织与1981年组成的美国教育评价联合会最具有权威。这些组织每年都要开展各种学术会议，推动教育和教学评价、评估研究工作。1975年在瑞士日内瓦成立的国际教育评估协会（InternationalAssociationforEducationalAssessment,IAEA）是教育评价的性组织。还有国际教育成就评价协会（InternationalAssociationfortheEvaluationofEducationalAchievement,IEA）等组织，帮助世界各地的教育机构通过发展和应用评价技术来提高教育质量和促进教育机会均等。我国于1984年加入IEA。我国有关教育评价的杂志有《中国考试》、《中国高校招生考试》、《考试、目标、评价》、《教育评价》、《中国高等教育评估》、《教育督导与评估》、《教育统计与测验》、《考试报》《自学考试杂志》等。促进了我国教育和教学评估、评价的理论和实践研究。二、教育改革对教学评价的要求教育和教学改革是教育事业的永恒的主题，是推动教育事业进步的内动力。在进行教育和教学改革的时候，对改革的新思想、新观念、新内容、新方法、新技术的有效性、以及现实或潜在的价值，都要进行一系列的科学验证过程，在这些验证过程中，教育和教学评价理论、技术、方法都会起到决定性的作用。不可想象，一项新的教改措施不经过评价就对其作用加以肯定，并进行推广。回顾我国教育改革的历程，可以清楚地看到，凡是经过认真而科学的评价，并被证实是有效的改革措施的推行，对教育事业所起的推动作用就十分明显。新近高校的面向21世纪的课程体系和教学内容改革，基础教育的“九年制义务教育”\n等，都证明了这一观点。但是，我们也可以清楚的看到，在我国地方性的教育和教学改革中，普遍存在着对教育评价的重视度不够，对教育评价缺乏相应的规范，对教育改革措施和推广缺乏科学的论证的现象。长官意志、照搬照抄、留于形式的现象十分严重。“上面布置的”、“别人这样做的”、“国外就是这样的”等成为没有科学评价的有效借口。20世纪90年代，以信息技术为基础的现代教育技术在我国教育战线的推行中，不少学校就存在这样的怪论：现代教育技术在国外或我国其他地方被证明是很好的教学手段，我校（或我）用了现代教育技术，因此我校的教育质量是高的，我的课是高水平的。以至于使现代教学技术的使用与否成为衡量教育和教学质量的指标，而根本没有对具体的学校或具体的课程中使用现代教育技术的有效性进行科学的评价，也没有和不可能根据学校、课程、教师、学生、教学内容的具体情况，来选择合适的教学技术和方法，使得现代教学技术流于形式，处于一种低效率的使用和推广状态之中。我们讨论教育改革与教育评价的关系，以及经验教训，是由于我国的教育改革轰轰烈烈，以课程体系和教学内容改革为中心的基础教育改革已经在全国推开。在这种背景下，讨论教育评价在教育改革中的地位就显得更加有意义。例如，就探究性学习的思想、方法的推行而言，在高清楚探究性学习的真实思想和内涵的前提下，当我们积极地投入到这一工作中去的时候，一定要注意对探究性学习在我校、本课程中应用的有效性。这一方面要求我们重视有教学评价的方法和手段去检验我们所进行的探究性学习的有效性，和所得到的价值；另一方面，要求我们开展探究性学习的评价方法和体系的科学研究，为对探究性评价提供具体的方法。如果还是沿用现代教育技术应用时的思维模式，认为探究性学习在美国普遍推广、在我国正在大力推广，是一件时髦的事情，所以我（们）也就这样做。而根本没有根据具体的情况，结合本校、本课程的特色来开展工作，不仅会影响我们的教育改革的实施，而且这种改革成功的可能性也不会大。三、教学评价与教师素质的提高教学评价是每一个教师的基本素质。教师要教好书，要实现帮助学生得到全面的、最有效的发展，就必须学会教学评价，学会正确有效地评价学生的发展。对学生的情感、能力、成就、态度、兴趣、潜能及发展的全面了解，并且作出一系列的正确判断和决策，就需要采用教学评价的多种方法，以弥补教师非正式观察的不足。应该承认，现在我们的教师对教学活动的评价是在经常性地进行的，我们这里将教学评价与教师的素质联系在一起进行讨论，是因为对教学活动进行评价的时候，有一个科学性、有效性、可操作性的问题。如果对教学活动的评价仅仅停留在不断地对学生的考试，不断地检查学生对某些知识记住了没有，能不能背，不断地对学生进行分等级派名次的评价水平上，而不能对学生的发展和潜能进行系统的调查和评价，发现学生的优点和长处，指出学生的缺点和不足，鼓励学生的自主性学习和个性化发展，我们的评价就会显得惨白无力，教学评价就会成为可有可无的摆设，教学评价就会失去其应有的作用。真正确立以促进学生发展为中心，应有现代教学评价的思想方法，选择并合理使用科学的、实事求是的、可操作性强的教学评价方法和手段，并通过对教学活动的评价，不断地改进教学方法、调整教学策略、提高教学效果，从而促进学生的发展。是衡量教师基本素质的一个重要指标。四、教学评价与教学质量的提高\n教学质量的高低是以学生发展的程度，以教学目标的实现来衡量的。要了解学生的发展变化程度和教学目标的实现程度，就必须对教学活动作出相应的、科学的评价。通过教学评价活动，找到教学活动的正是效果，发现教学中的优点和缺陷，从而及时调整教学策略，改进教学方法和手段，找到适应教学实际的最有效的教学方法和策略，达到提高教学质量的目的。教学评价促进教学质量的提高，还表现在科学的、合理的教学评价活动，能够促进学生的学习积极性，从源头上解决学生自主性学习的问题。通过教学评价，帮助和鼓励学生的学习活动，不管对哪一个学习水平的学生，都可以通过一定评价活动，使他们的学习得到鼓励。值得指出的是，要到达鼓励学生学习，促进学生学习内动力的提高，科学合理的评价方法的选择，灵活多样的评价机制的建立是十分重要的，是促进教学质量提高的前提。就评价和教学质量的关系而言，正确的说法应该是，教学评价能够改变学生的学习状态，从而影响教学质量，因为这种影响是双向的，可以是促进，也可以是无效和反作用的。这就是为什么新课程改革中特别强调加强教学评价方法和机制的研究的原因，也是以往我们的教学中在评价这个问题上反应出的主要问题所在。那种靠不断地对学生进行考试，不断地进行分等级排名次的评价方法，对学生的全面发展是不利的，也是这次教育改革重点要进行改进的地方。这也正是我们今天反复强调教学评价的意义之所在。教学评价与教学质量的关系还表现在评价对教学管理的影响上，教学评价不仅仅是评价学生的学和教师的教，同时也应该评价教学的管理体系和管理效益。有效的教学管理是能够促进教学质量提高的，反之亦然。因此在进行教学评价的理论和方法研究中心，在教学评价的实际操作过程中都应该包含对教学管理的评价或评估。从这层意思上讲，教学评价决不是面向教师和学生，而面向整个教育界的所有活动的。\n第二章教学评价的类型与功能第一节教学评价的类型对于教学评价的分类，国内外的教育专家们有这样和那样的分类标准和方法，格朗兰德在《教学测量和评价》一书中指出，根据测量性质，可以将测量和评价分为最大成就和典型行为两大类；从课堂教学中运用的角度，可分为安置性测验（评价）、形成性测验（评价）、诊断性测验（评价）、和终结性测验（评价）；根据怎样解释测验和评价结果，可将测验和评价分为常模参照和标准参照两类。一、按评价的运用次序分类按评价在教学活动中运用的次序来分，常常分为形成性评价、诊断性评价、和终结性评价3类。1、形成性评价形成性评价是指评价活动在教学过程中实施，相当于单元测验。其目的是教师获得教学过程中连续性的反馈，了解学生的学习效果，学习历程、学习特点、学习困难等信息，作为今后修改教学策略的参考；同时使学生能够及时的了解自己的学习和同学们的学习效果，了解自己学习中的优点和存在的问题，明确今后学习的目标，修正自己的学习方式方法。2、诊断性评价诊断性评价是对经常表现出学习困难的学生所做的测量和评价，它的目的是对个人问题行为及其原因进行诊断。诊断性评价常在形成性评价之后实施，在形成性评价后发现学生有学习困难的情形，进行个别分析和辅导，在辅导中帮助学生改善学习方法和学习习惯，克服学习困难，并跟上班级教学进度。这种评价有时是学习方法和习惯问题，有时可能是学习心理问题。3、终结性评价终结性评价是在整个教学活动结束后所进行的教学评价，相当于期末考试，其目的是为了检验整个教学活动的效果，这种评价结果往往作为学生的学习总成绩，并反馈给家长和相关部门。因而，终结性评价常常存在着明显的甄别和选拔的功能。二、按评价结果的参照分类按对评价结果的参照点来分，有常模参照评价、标准参照评价和潜能参照评价。1、常模参照评价常模参照评价是将别试水平与测验常模相比较，以评价被试在团体中的相对地位的一种评价类型。其对学生的学习成就的评价和解释，是采用相对的观点的。如在某次考试中，一位学生的成绩是80分，这为同学的学习效果怎样，要一整个应试团体的水平做参照。如果全班的平均成绩是65分，那么他的学习效果是显著的，成绩是优秀的；如果全班的平均成绩是85分，那么他的学习效果是不显著的，成绩是较差的。以应试团体为参照的常模评价，普遍存在于现今的应试教育当中。以学生的考试成绩分等级排名次就是基于这种评价方法之上的。\n2、标准参照评价标准参照评价是将被试的表现与既定的教学目标或行为标准进行比较，以评价被试在多大程度上达到了教学目标，故又称为目标参照评价。学校的教学评价主要是检验学生达到教学目标的程度，因此这种评价已经被广泛的使用，在基础教育改革中，标准参照评价的使用程度将会进一步提高。3、潜力参照评价潜力参照评价是将被试的实际水平与其自身的潜在水平进行比较的评价类型。如同班同学中一人考了65分，另一人考了80分，老师表扬了考65分的同学，却批评了考察80分的同学，原因是老师是根据这两位学生的潜力来进行评价的。对考65分的同学而言，其当前的实际成绩已经达到或接近该生的“最近发展区”，而另一为同学则低于他的“最近发展区”。这种强调人性化、动态化、个别话教学评价理念，正是当前基础教育改革中大力提倡的。因为，这种评价对于激发学生的学习潜能，提高学习的兴趣，使每一位学生都能够得到最大程度的发展。三、按评价的内容分类1、智力评价智力评价的目的是测量被试的智力水平，并对其智力发展水平和特点作出评价。用于智力评价的标准量具有：“斯坦福—比纳智力量表“、”韦克斯勒智力量表“等2、能力倾向评价能力倾向评价是为了测量和评价个人的潜在能力，预测个人的能力发展倾向。可分为一般能力倾向评价和特殊能力倾向评价。后着如音乐能力、技巧能力、空间思维能力等。3、人格评价人格评价又称为个性评价，其目的是为了评价被试的人格心理特征，如气质、性格、兴趣、态度、价值观、动机适应性等。其涉及的内容十分广泛而丰富多彩。开展好人格评价，对进行“因材施教”十分有利。四、其他分类另外，根据被试的行为表现的性质可分为：最佳行为评价和典型行为评价；按测量的对象可分为：个别评价和团体评价；按测量的材料可分为：文字评价和非文字评价等等。第二节教学评价的功能在论述教学评价的地位是，我们实际上已经涉及到一些有关教学评价的功能，因为要论述评价的地位就必须从其能够起的功能来入手。为了更好地明确教学评价的功能，我们还是将其单独立出进行论述。一、促进教学判断功能\n教学评价的最基本、最原始、最现实、最普遍的功能就是对教学活动效果的判断。它包括以客观地评定学生的学习成绩，或为了给应试者的行为表现评定一个成绩（分数、等级）为目的的测量评定功能：利用测量和非测量的种种方法，系统收集资料，并在此基础上对被试的某种属性、行为表现等作出判断的教学判断功能；把事实判断的结果与外界的某种价值体系或价值标准联系在一起，对事物或人的属性做出价值分析、价值判断和价值描述的价值判断功能；以考试等手段，大量收集资料，经过对资料的分析，发现教学活动中存在的问题和不足，从而找到解决问题的策略的问题诊断功能；利用精心设计的、有一定客观性和科学性的教学测量和评价方案，选拔和区分人才的区分选拔功能等。二、促进教师教学功能教学评价对教师教学的促进主要表现在：[1]有利于教师了解学生的起点行为。通过教学评价，教师能够比较容易的了解学生的学习和发展的情况，有利于教师进行因材施教，找到和使用适合学生学习和发展的教学策略。[2]有利于教师及时了解自己的教学策略的有效性。经过一段时间的教学活动，教师有必要了解自己的教学策略和方法的效果，判断自己教学过程中的优点和存在的问题，以便即使改进工作，提高教学质量。[3]能够让教师对教学活动中的缺陷进行及时补救。采用特殊的评价方法，如S-P表分析等，能够让教师容易地发现教学中的缺陷，并进行有的放矢的补救。[4]能够确保教学目标的实现。通过综合达标度分析等教学评价，教师能够及时了解学生学习是否达到了教学目标，如果没有达标，还有多少差距，问题在什么地方，从而保证教学目标的有效实现。三、促进学生学习功能教学评价对学生学习的促进功能主要表现在：[1]通过评价激励学生的学习动机。一次有效的测验和评价，特别是标准参照评价和学生潜力评价等类型，能够较有效的激励各类学生的学习动机，为学生提供各自的短期学习目标，是他们明确所要学习的内容，提供相关的学习信息反馈，是他们具有正确的学习动机。[2]帮助学生的记忆和促进迁移。教学评价能够引导学生朝教学目标努力，因而帮助学生的学习记忆和迁移。特别是是对较高层次的教学目标，教学评价就更能够引导学生关注这些较复杂和深奥的学习内容，弥补教学期望的效果。[3]能够促进学生的自我评价。元认知理论认为，学生对自己的学习上的优点和缺点的认识程度，将很大程度上影响和决定着学生的未来学习效果。因此，让学生学会自我评价，是他们学会正确的选择适合自己的学习策略和方法，从而起到事半功倍的学习效果。四、促进教学管理功能由于教学评价的方案的设计是根据教育政策、教育法规、教育文件、教育目标等具体的要求来制定的，因此通过教学评价就能够较好体现国家、社会和教育管理者的意愿，使之具有控制、指挥、导向、计划、检查、考核、评估和监督的作用。对教师的管理。评价能够对教师资格的评定，保证教师达到基本的教学水平要求；能够对教师的教学艺术水平进行评定，保证教师的教学能力；能够对教师的管理水平的评定，保证教师对教学活动的有效管理；能够对教师的个性进行评定，保证有效地激励教师的教学积极性。对目标的管理教学评价是根据教学目标进行的，通过对现状和目标之间的差距的判断，能有效地促进评价的对象接近教学目标，保证办学和学科教学的目标的实现。对教学过程的管理。利用教学评价，能够全面及时地掌握教学的各种情况，以及这些情况的发展趋势，及时找到教学活动过程中存在的某些问题和不足，并及时提出改进的措施，从而保证教学活动沿着正确的途径进行。五、促进教学改革功能\n通过教学评价活动，能够及时的发现教学中与国家、社会和学校的具体教学改革的要求的差距，是教学活动的组织者和参与者能够及时改进教学策略，促进教学改革。同时，通过教学评价能够检验当前所进行的教学改革的有效性，从而保证我们的教学改革是科学的、符合实际的、有成效的。\n第三章教学评价的质与量第一节教学评价的信度一、信度的含义信度（reliability）是指测量和评价结果的稳定性程度，或者说，用同一测量工具或评价方法反复测量和评价同一种特质对象，其多次测量和评价的结果间的一致性程度。测量的工具和评价的方法不同，其结果会产生差异；而同一测量工具或评价方法，反复测量和评价同一特质对象，多次结果之间的差异是由测量工具或评价方法的稳定性所决定的。就教学评价而言，教学测量工具和测试环境、教学评价方法、评价者的心理（如不同的评价目的、与评价结果的相关性）和生理状况，都会影响评价的信度，但影响最大和最直接的则是评价对象的心理和生理因素。评价对象的心理和生理状况的多变性、不稳定性决定了教学评价的信度相对较低，也就是说，教学评价中的评价误差较大、不可避免。正是由于教学评价的信度较低，影响评价结果的因素多、变数大，我们研究教学评价中的信度才有意义。信度的追求就是对这种无系统的随机误差的控制，尽可能地减少这种误差，提高教学评价的信度。二、信度的估计方法1、重测信度（test-retestreliability）重测信度是指用同一个量表（测验或评价表）对同一组被试施测两次所得结果的一致性程度，其大小等于同一组被试在两次测验中所得分数的相关系数。重测是建立在某测验所要测量的潜在特质在短期内不会随时间推移而改变的基本假设之上的。因此，重测信度的用途也在于估计测验结果经过一段时间后是否维持稳定、一致的特性，所以又称稳定系数（coefficientofstability）。但是，教学评价中的重测信度由于人类有些潜在特质会随时间而改变，重测信度的高低与两次测量时间的间隔长短有密切关系。一般说来，时间间隔越长，由于被试的身心发展、遗忘、施测情景改变等因素，而容易使信度减低；时间间隔越短，被试的练习与记忆、施测环境未发生改变等因素，使信度提高。从理论上讲，间隔时间内被试遗忘和练习的效果基本相互抵消，这样的时间间隔是合适的。而实际测验中，没有一个固定的标准，应视测验结果的用途、测验种类、被试的年龄等因素而定。重测信度适用于异质性测验，即测验包括几个不同的部分，这几个部分分别测量几个不同的心理特质，他们之间可能并不存在相关或相关较低。重测信度适用速度测验而不是难度测验，也就是说，测验的题量很多，而且有一定的时间限制，被试很难记住前一次测验的内容，因此第二次测验较少受记忆的影响，第一次测验后，不做试题分析或无法做试题分析。重测信度还适用于运动技能或实验技能的测验，其测验成绩较少受到重复测验的影响。2、复本信度（alternate-formsreliability,equivalentformsreliability,parallelformsreliability）\n复本信度是指在试题格式、题数、难度、指导语说明、施测要求等方面都相当，并且都用来测验相同潜在特质或属性，但试题又是不同的测验的稳定程度。所以复本信度又叫平行测验信度。复本信度在教学实践中应用较多，通常有两种方式：一是在同一时间内连续施测，另一种是间隔一段时间后施测。前者主要反映出测验内容造成的误差的多少，也就是说可以反映两个测验是否真正的平行测验，所以这种复本信度称等值性系数（coefficientofequivalence）；后者不仅反映测验内容的抽样误差，也反映被试本身状况的改变，这种同时兼顾试题抽样与时间影响的信度称等值稳定性系数（coefficientofstabilityandequivalence）。复本信度不仅适用于难度测验，也是估计速度测验信度的好方法。在作追踪研究某些因素影响测验成绩时，大多使用复本信度分析。3、同质性信度（homogeneityreliability）同质性信度也叫内部一致性信度（internalconsistencyreliability），是指测验内部所有题目间的一致性程度。题目的一致性包括所有题目测的是同一种心理特质；所有题目得分之间都具有较高的正相关。同质性信度基于的假设是：当一个测验具有较高的同质性信度时，说明测验主要测的是某一个心理特质，由于众多的题目测试了同一心理特质，那么实测结果就是该特质水平的反映。在教学评价中，当我们要使用试题库测试来检验某些因素对测试成绩的影响时，对试题库中的题目的可信程度分析就是同质性信度分析。有分半信度分析、库德-理查逊信度分析、克龙巴赫α系数分析等。分半信度分析就是将题目按题号的奇偶分半、按题目的难度分半、按题目的内容分半进行测验，分析两次测验成绩的相关性。实际应用中，由于题目一般按难度大小排列，采用奇偶分半也反映难度分半的结果，因此常被采用。三、标准参照测验的信度分析标准参照测验就是通常的达标测验，其测验结果的真实性往往是教育工作者所关心的。在教育事业得到适度的发展的前提下，标准参照测验将越来越普遍。标准参照测验的信读分析有百分比一致性分析（percentagreement）、k一致性系数分析（Kappacoefficientagreement）和k2指数分析。1、百分比一致性分析百分比一致性（PA）分析是指同一测验或两平行测验先后两次施测，其对被试的分类结果一致的比例。后测掌握未掌握合计掌握60a5b65a＋b前测未掌握15c20d35c＋d合计75a＋c25b＋d100Na＋d60＋20PA=——=———=0.80N1002、k一致性系数\nk一致性系数是指实际被评定为一致的百分比与在理论上被评定为一致的最大可能次数百分比的比率。PA－PCa+ba+cc+db+dK=———PC=(——×——)+(——×——)1－PCNNNN式中，PA为百分比一致性指标，PC为理论上可能被评定为一致的百分比期望值，用上表的资料可以求得：65753525PC=（——×——）+（——×——）=0.581001001001000.80－0.58k=————=0.521－0.58PC=0.58的意义是指在这个被试团体中，可能被评为一致的百分比期望值，它在整个k系数计算公式中被当成是一种理论上的校正值，经过校正后，k一致性系数为排除被试团体的能力分配的预期影响，而单独贡献52%的分类一致性。四、测量的误差测量的误差是指测验中所得测值偏离真分数的程度（SE）是反应测量结果精确性和可靠性的一个指标，也是人们正确解释测量分数的科学依据。假如我们计算的SE值为2.68，那么当被试的分数为70分时，就意味着其真分数有95%的可能性落在[67.32～72.68]的区间内。五、评价者的信度1、评价者信度的含义评价者信度（scorerreliability）是指多个评分者给同一批人的答卷进行评分的一致性程度。在教学评价中，对客观题的评分差异是很小的，但对主观题的平分差异可能会很大。如生物学中对应用某种理论解释某种生命现象，或用某种理论解决某些社会或生产实际中的问题等类似的问答题、论述题，由于评分者的主观意愿、生活经验、心理或生理状态等因素的影响，评分的差异可能会很大。2、评价者信度的计算当平分者人数为两人时，评价者信度等于两个评分者个同一批被试的试卷所评分数的相关系数。当评分者人数多于两人时，评价者信度可用肯德尔和谐系数进行计算。肯德尔和谐系数（Kendallcoefficientofconcordance）是表示多列等级变量相关程度的一种方法。让K个平分者对N个被试的试卷进行等级评定，每个评分者都能对N份试卷排出一个等级顺序，得到K列等级顺序变量。其计算公式为：SW=———————1—K2(N3－N)12式中，W肯德尔和谐系数；K为评分者的人数；N为被试的试卷个数；S为每一个被试的K个等级之和的离均差平方和，Ri为第i个被试的K个等级之和。\n例：10个评委对7位参赛者所评等级见下表，问这10位评委的评分是否具有一致性？肯德尔和谐系数计算说明评分者K=10选手N=712345678910RiRi2A3523443243331089B6676757766633969C5457664454502500D111222211215225E4344335635401600F223111132117289G7765576577623844—∑Ri=280∑Ri2=1351628022316S=13516－—=2316W=——————=0.82771×102(73－7)12W=0.827（>0.75）表明10位评委的评价较为一致。严格地讲，W值是否达到显著性水平，应该进行统计学上的检验。当遇到两个或两个以上事物的等级相同时，肯德尔和谐系数的计算要进行修正。Sn3－nW=—————————K∑T=———112—K2(N3－N)－K∑T12\n第二节教学评价的效度一、效度的含义效度（validity）是指一个测验或量表实际测出其所要测量的特性的程度。测验或量表就是测量的使用工具。如果一次测量能够测出其所要测量的特性，那么我们就认为这一测验或量表是有效的。效度是测量质量的一个极其重要的方面，测量工具如果无效或低效，用该工具测量或评价就失去意义。任何测量都有效度问题，有教育和教学测量是间接测量，是被试内部心理特性的测量，测量工具是否真正能够真正测到要测的特性，常常是不直观的，也正是这一原因，研究和进行教学评价的效度才显得更有意义。1.效度始终是针对一定的测量目标的一项测量活动总是针对一定目的而实施的，其有效性如何，就是要看它能达到最初目的的程度。也就是说，测量效度是针对某种特殊用途而言的，不具有普遍性。如果一个测验被应用于多个方面，那么它就有多个效度，其中有的方面显得高效度，有的方面则显得较低。这种同一测验针对多个目的而使用的现象是十分普遍的，如学生的学业成就测验既可以作为选拔，也可以作为诊断；同一人格测验既可以用来鉴别被试的个性特征，也可以由来已久诊断其心理状态。2、效度只有程度上的差异尽管教育和教学测量的间接性决定了测量过程不可能百分之百的准确，但由于某一量表的编制总是针对一定目的的行为，所以在正常情况下，测量不会是“完全有效”或“完全无效”。如用用于测量学生实验能力和技能的量表来测量学生的认知情况，尽管量表可能是低效度的，但多少也能反映出学生的认知情况。3、效度是针对测量结果的测量效果如何，只有到实际测量之后才能表现出来，只有当测量结果真实而正确地反映测量的特性，才能认为测量的效度是高的。测量效读实际上就是测验所测到的结果与测量编制者想要测的心理特性之间的一致性程度。4、评价一个测量是否有效要多角度、多方面收集证据效度的统计方法内容效度的逻辑分析内容效度的量化分析信度与效度的关系\n第三节教学评价中题目的难度在教学评价中往往用一些题目来测验学习者对所要求的知识、技能的掌握程度，这是教学测量中最为常见的方法。为了检验测量和评价的有效性，是否真实地反映教学目标的实现程度。测试者对所使用的题目的难度必须有一个确切的了解。题目过难或过易都会是测量与评价失去意义。定量刻画被试作答一个题目的困难程度的量数，就称为题目的难度系数或难度值，用符号P表示。一、难度系数的计算方法1、以全体被试得分率为难度系数如果题目难度大，被试得高分的可能性小；反之，如果题目的难度小，被试得高分的可能性就大。因此，得分率可以作为难度系数的指标。起计算公式为：XP=———Xmax即难度系数为被试的平均得分除以该题目的满分。例：10名学生参加一个测验，其中两道题目的得分情况见下表，计算难度系数。学生ABCDEFGHIJ平均得分题目满分P第一题第二题111010101032.531.5201.5120.50.61.7130.60.57第一题是采用1、0二值记分题，被试只有答对和答错之分，其难度系数在本质上是正确作答人数的比率，即通过率。如果题目是选择题的话，还有猜对的成分，因此有人建议用以下公式进行校正。KP－1CP=————k－1CP表示校正猜测机遇后的题目难度系数，P表示未校正猜测机遇的题目难度系数，k表示每题可供选择的答案数目。如果第一题是5选1的选择题，则校正后的CP值为0.5。2、以全体被试失分率为难度系数直接建立在通过率基础上的难度系数，其取值范围在0.00---1.00之间，而且其值越大，试题越容易，这与人们平时生活习惯有所不同，为改变这种状况，有人提议用失分率q来表示难度，技术公式为：q=1-P所以，在报告难度系数时应该说明采用哪一种技术方法或表示方法。国内外大多数的文献中以P值表示。3、以两端组被试得分率的均值为难度系数该方法分别技术高分组被试和低分组被试的得分率，然后求取二者的平均值为难度系数：PH+PLP=————2\n两端组被试的得分率作为难度系数的计算方法是：[1]按被试的得分从高分到低分进行排序；[2]高分组从最高分开始往下找，低分组从最低分往上找，两组人数分别为总被试的27%；[3]分别计算两组在该题的平均得分；[4]分别计算高分组和低分组在该题的难度系数；[5]代入上式，计算该题的难度系数。应用两端组被试得分率的平均值来表示试题的难度系数，其意义有二。一是当被试的数量达到足够大时（如高考、中考、会考、联考等），可以减少统计的工作量；二是由于试卷本身的不连续性，出现部分题目偏难而另一部分题目偏易，没有出现正常的正态分布的情况。（我们在S-P表分析时将详细解释）二、恰当难度与恰当难度分布为了真实地、客观地反映测验或评价的情况，实现测验与评价的目标，用于测验的题目的难度取值应该尽可能地力求恰当，而且这些题目的难度分布状态也应合理。难度的恰当和难度分布的合理主要取决于测验和评价的目的和性质。一般的常模参考测验，目的是要尽可能地区分被试的个别差异，希望测验结果能够将被试的成绩拉开距离。这样。测验的题目的恰当难度，就应该使P值尽量接近0.50。如果被试的通过率为1.00或0.00，即所有被试办全部通过或全部不通过，则测验就失去意义。经验和研究都表明，如果题目的难度分布系数在0.30与0.70之间，并且整个测验的难度系数在0.50左右，可使测验对被试有较大的鉴别力，而且可以使测验的分数呈正态分布。在标准参照测验中，测验的目的是在于检验学生是否已经到达教学目标规定的程度，因此，教师所期望的是学生都能够在教学活动后掌握所有的教学内容。难度系数所反映出来的现象是教学质量好坏的成分多于试题质量好坏的成分。教学质量和学习效果成为影响标准参照测验难度系数的最直接因素。对于标准参照测验，考试与评价要切实改变过去强调区分和选拔的功能，教师不能按常模测验的难度评价标准，而是应该依据教材内容和实际教学情况来命题或选题。值得一提的是，新的课程改革十分强调标准参照测验，以减低过去的选拔和甄别功能。但是，这里有一个前提，在各类升学测验中，就是我们是否已经具备为所有的达标学生提供继续学习的机会，从教育的公平性原则看，凡是到达教学目标的，说明已经具备了再学习的基础的学生都应该提供机会。但实际上，由于我们的基础教育和高等教育的相对落后，特别是优质的高级中学或高等院校根本无法满足达标学生们的需求，一定程度的选拔和甄别测验必将还会存在下去。近年来，一些地区的中考试卷过分强调减低难度，造成考生间的分数很接近，两个考生在780总中相差5分就可能在名次上相差几十或上百位。这样做不仅不会减轻考生的负担，反而会加重负担，因为任何一为考生在做任何一张试卷时的偶然事件，就回决定该考生受教育的机会。因此，教育改革中一定要实事求是，看到了应试教育的弊病，要解决问题必须从根源着手，任何靠行政手段的干预对教育改革的真正实现都是值得商讨的。\n第四节评价中试题的区分度一、区分度的意义题目的区分度就是题目区别被试水平能力的量度，常记作D。测验多少会带有将被试的水平加以区分的意图，那么构成测验的每一个题目就应该为这一目标做贡献，区分度就是刻画试题的这种功能的质量指标。如果测验的题目能够是水平高的被试得到高分，水平低的被试分值较低，那么，我们可以说试题的区分度是高的；反之就是低的。从上述的概念中我们可以看出，要判断试题的区分度的高低，应该找到一个标准，以确定被试的实际水平的高低。只有被试的水平高低清楚了，才能判断测验题目对被试的区分是否正确。因此，从理论上讲，就是先找到一个客观标准（一个不依赖测验成绩的外部的客观标准），先把被试优劣顺序排好，然后看被试办在测验中的得分情况是否与被试的实际水平相一致。但是，这种测验的外部标准是很难找到的，如果很容易找到或确实存在着这样一个客观的标准的话，测验的进行就显得是多余的了。因此，在对测验试题进行区分度分析时，往往使用内部标准，即把考生在整个测验上所得的总分当成考生的实际水平。尽管这样的处理在逻辑上缺乏充分的依据，因为，总分的正确与可靠只有在分析工作结束后才能肯定。但由于测验的试卷通常是进行了一番精心设计的，其总分的区分度总是要比具体的某一道试题的区分度可靠，更接近被试的实际水平。区分度的值域范围在－1.00～+1.00之间，当D值为正时，称作积极区分；D值为负值时，称作消极区分；D值为0时，称作无区分。具有积极区分作用的题目，其D值越大，区分的效果越好。二、区分度的计算区分度的计算方法较多，各种方法的含义也有差别，在使用时应根据测验的目的以及题目的记分和测验总分的两个变量的性质不同，从而选择不同的计算方法。区分度的计算方法有相关法（包括：点双列相关系数、二列相关系数、积差相关系数）、高低分组法等。（一）相关法区分度的实质是题分与总分的相关，因此，各种计算相关系数的方法都可以用于计算区分度。点双列相关系数：适用于题目是0、1记分。而测验总分是连续变量的数量资料，其计算公式为：Xp－Xqrpbi=——————√pqStrpbi为点双列相关系数，Xp为通过该题目的被试的平均总分，Xq为未通过该题目的被试的平均总分，p为通过该题目的被试人数占总人数的百分比，q为未通过该题目的被试人数占总人数的百分比，S为全体被试总分的标准差。\n例：某班15名学生，参加一次测验后的总分及第一道题目的得分情况如下表，计算第一题的区分度。学生ABCDEFGHIJKLMNO第一题总分101111100010100908180787770696565504942353110由表中数值可以求出：p=8/15=0.5333q=1－p=0.4667Xp=68.50Xq=47.71St=22.48rpbi=0.4624结果表明，第一题的区分度为正值，为积极区分，其值为0.4654。（二）高低分组法被试在测验分数序列中两端高分、低分组被认为是两个极端效标组。着两个极端效标组在特定题目上反应差异程度可以刻画题目的区分能力。用高分组在特定题目上的得分率和低分组在相同题目上的得分率之差作为题目区分度的指标（高、低分组人数比例各占总人数的27%），被称为鉴别度指数，记作D。计算公式为：D=PH－PL式中，D为题目的鉴别度指数；PH、PL分别表示高分组和低分组在该题目上的得分率。为计算方便，也可采用以下公式：XH－XLD=——————F式中，D为题目的鉴别度指数；XH表示高分组在该题目上的平均得分；XL表示低分组在该题目上的平均得分；F为该题目的满分值。D值越大，说明该题目在测验中的区分的有效性越高。而且，使用于任何记分的方式，因此实际操作中常常被采用。1965年美国的测验专家R.L.Ebel根据长期经验提出鉴别指数评价题目区分性能的标准。区分度值评价区分度值评价0.40以上0.30～0.39优良合格0.20～0.290.19以下尚可、需修改应淘汰\n第四章生物学教学评价的一般原理与过程第一节生物学教学评价的一般原则教学评价和其它任何事情一样，在实际操作中都应该有其遵循的原则，这些原则制约着整个教学评价过程，是保证教学评价工作顺利而高效完成的基本前提。一、教学目标控制原则教学目标控制原则是指在教学评价中始终以教学目标的有效实现为中心。教学目标既是教学评价的依据，在教学评价中用以衡量教学效果的标准就是教学目标的实现程度；教学目标又是教学评价的出发点，我们前面所论述的教学的功能，归根到底就是通过教学评价促进教学目标的最有效的实现。任何离开教学目标的教学评价都是缺乏根据的，任何不能促进或妨碍教学目标的有效实现的教学评价都是无效的或低效的。教学目标控制原则应该贯穿与整个教学评价活动的始终，是教学评价工作应该紧紧围绕的一条主线。应该指出，在理论研究或书面谈讨论时，教学目标对教学评价活动的控制是比较容易被人们所接受的，容易形成比较一致的观点，但是在实际的评价过程中，由于评价者和被试者之间的各种关系，或某个（些）学术权威或行政官员的意见，在操作中往往最容易离开教学目标的控制，会冲淡教学目标这一唯一的教学评价的依据。二、评价的客观性原则教学评价的客观性是指教学评价应该反映教学的真实效果。只有客观地反映教学的真实效果，才能最有效地发挥教学评价的功能，才能实现教学评价的目标。我们强调客观性原则是从教学评价对教学活动的促进的角度出发的，是通过教学评价的各项功能的有效发挥来达到促进教学的目的的。因此，在评价过程中应该尽可能地遵循客观性原则，使评价结果成为教学活动的真实反映。必须指出，教学评价中的客观性是相对的，由于评价者和被试者的各种关系、由于评价者对客观事物的认识上的不一致性、由于评价过程中各种环境因素（包括人的因素）的影响和干扰，不可避免地会带上人们主观的因素，并且影响着教学评价的客观性。如果我们强调客观性而看不到人们主观因素的干扰和作用，那我们就是唯心主义的。但是，我们也不能由于教学评价中的主观因素的影响的不可避免，而放弃对客观性的追求。这大概正是我们反复强调教学评价的客观性原则的原因所在。三、评价的科学性原则教学评价的科学性是指教学评价应该有一套严密而科学的评价方法。只有掌握并运用了科学的评价方法，我们的教学评价结果才有说服力，教学评价的效果才能最有效的发挥，教学评价的功能和目的才能实现。判断评价方法是否科学，应该从以下三个方面来进行：1、评价的标准是否从教学目标的实现程度来判断，并且是否以教学目标的实现程度为唯一依据。2、是否有一系列收集客观信息的方法，因为教学信息收集的客观和全面是评价作出真实结果的基础和前提。3、是否有一系列有效处理收集到的教学信息的方法，只有应用有效地处理教学信息的方法，才能得到真正反映教学效果的结论。\n教学评价的科学方法的研究是教学评价工作的前提和保障。教育理论研究者和教育实际工作者都有义务和责任开展教学评价方法的研究和应用，特别是在当前全面开展基础教育改革的大背景下，开展适用于基础教育改革的教学评价方法和评价体系的研究，就更加显得十分重要。四、评价的可操作性原则教学评价的可操作性是指教学评价中所选择的评价方法和体系应该符合所评价的教学活动的实际情况。如果选择的教学评价方法和体系在评价的实际过程中不容易操作或根本无法操作，那么评价方法再科学、再先进，也是不可取的。因此，我们在选择评价方法是既要考虑到其先进性、科学性，又要考虑到其可操作性。我们强调评价的可操作性原则，是从教学评价的目标出发的，是基于能够最有效地发挥教学评价的功能为前提的。通过广大的教育工作者长期以来的艰苦工作，教学评价的具体方法很多，每一个评价方法都有其特有的功能和适应的范围，他们往往在一定的条件下是可操作的，而缺乏这个条件就会操作困难或无法操作。如要收集教学活动中学生对教学活动参与的主动性，就要求在我们的收集活动不会或尽可能减少影响学生参与教学活动的主动性为前提。如果我们的信息收集活动较大程度上刺激（促进或抑制）学生对教学活动的参与，那么，即使收集信息的方法再具体、再全面，都是不可取的。以上是四个教学评价中应该遵循的原则，它们有些方面是具有一致性的，是相互促进的；但有些方面有是相互矛盾和制约的。如教学目标的控制的有效性，在很大程度上可以反映其他三个原则的实现；而客观性原则、科学性原则、可操作性原则，有时会有一些冲突和矛盾。这就要求我们在教学评价中能够灵活地运用和遵循这些原则，在强调某一项原则时，要照顾到其他原则的执行。第二节评价目标的制定一、教学目标是评价目标的依据教学评价的目标制定是评价工作的第一步，评价目标的制定关系到整个评价工作的开展。教学评价的目标可以根据评价的需要而有所变化，按照评价的范围而变化。但是不管教学评价是针对教学活动的某一部分、几部分、还是全部，其最终的目标确定都是以教学目标为依据的。我们说教学目标是教学评价目标的依据，是因为教学评价是对已经开展的教学活动的一种评定和判断过程，从而评定和判断教学活动的好坏，总结教学活动中的经验教训，只有看已经开展的教学活动是否实现了原有的教学目标，实现的程度如何、效率怎样。是哪些因素在影响和左右着教学目标的实现程度，不管是正面还反面的因素，找到它们，都会对未来的教学工作带来促进。这也就是开展教学评价工作的目的所在。教学目标是教学评价目标的制定依据，但两者是有区别的，不能简单地将教学目标当成评价的目标。因为，两者是不尽相同的活动，尽管它们有着密切的联系，但毕竟是两件事情。教学评价是教学活动的一部分，也可以独立于常规教学活动而存在；教学评价可以对整个教学活动过程进行评定和判断，也可以只针对某一或某些教学活动过程尽心评定和判断，它们的目标所包含的内容可以是重叠的，也可以是交叉的。二、评价目标的制定\n教学评价目标的制定依据是教学目标，那么，评价工作的开始就要对教学目标进行分析。从教学目标控制论的角度看，教学目标分析几乎是任何教学活动的起点。评价工作开始对教学目标的分析应该是独立于被评价者,在开展教学活动之前所已经进行的教学目标分析。评价时的教学目标分析还包括着对被评价者已经作出的教学目标分析的评定和判断。从传统教学目标分类出发，教学评价的目标可以按认知目标、能力目标和情感目标来分，每一部分又需要在细化为若干级下属指标，并对每一项指标都给出具体的说明。　1、认知目标的确定认知目标的分类可依据布鲁母的认知目标分类法进行，将认知目标按识记、理解、应用、分析、综合、评价六个水平区分，对每一个知识点都给予一项水平要求，并给予一定的权重。评价6综合55分析444应用3333理解22222识记111111权重136101521表：认知目标的分类及权重分配上表中所给出的权重在以后的数据处理和分析时是十分有用和必不可少的。特别是在综合达标度分析中，将根据认知目标的权重计算达标度。认知目标的实现是教学活动的一项最为重要的目标。尽管由于我们以往的教学过于追求认知目标的实现，而忽视了能力目标和情感目标的实现，在新近进行的以课程改革为中心的基础教育改革中，又反复强调能力目标和情感目标实现的意义，但是我们认为，认知目标始终还是十分重要的。如果强调能力目标和情感目标的实现而忽视或削弱对认知目标的实现，是片面的、形而上学的。因为这是学校的职能所决定的，如果只强调能力目标和情感目标的实现，就不一定非要将孩子们送到学校进行教育，因为能力目标和情感目标在社会和家庭教育中同样可以实现。在教育与教学改革中切忌从一个极端走向另一个极端。\n2、情感目标的确定根据教学内容和评价目的的不同，情感目标的分级和权重的分配就会不同。如生物学的教学内容是生物与环境的关系，那么所涉及的情感目标分级就会侧重与对学生热爱大自然、对社会或生活环境的关注、对物种保护和环境保护活动的参与等。如果教学内容是细胞的发现或DNA双螺旋结构的发现，其情感目标可能会涉及到学生对科学研究的兴趣、对科学家人格魅力的崇拜、对科学研究中严谨的态度、对日常学习和生活中的行为等，而且，不同的评价者所选定的分级指标和权重分配都会有所差异。但是，只要评价涉及情感目标（应该是涉及的），就必须对目标的分级指标作出分析和说明。以“生长素的发现”一部分为例，对情感目标分级和权中分配。情感目标活动参与科学精神社会生活503020讨论15实验25小组10表达10行动10学习10问题10解决方法10不一积不一积不一积口文积一没努很不一积思有方案积积积变努积方极般极极般极积般极头字极般化力力极般极考案完善812151015252610810106381058106810也可以是表格式进行呈现。但是不管是何种形式，对每一个层次都应该有明确的说明或解释，并给予相应的权重。各个层次的区分和说明，应该根据所在单位或课程的具体情况，本着科学、合理、和可操作的原则，进行编排。应该将评价的量表尽可能地征求广泛的意见，并为大家所接受。在实际操作中，情感目标的确定往往是最难的，因为这些目标带有很大的主观性，他往往与评价的好恶密切相关，在不同的评价者中常常会有较大的差异。情感目标的确立和分级，应该充分考虑到学生的实际情况，如学生的年龄、性别、个性、学校的类别等，使我们的评价能够真正促进学生们的情感世界的发展；尽可能地从鼓励、激励的角度去评价学生的情感世界，帮助学生面对和解决实际问题，增强他们的学习积极性、能动性和自主性。对于情感目标的评价指标的确定，应该根据评价的面来进行。如果是对学生的综合评价，其指标应该从大到小，分细而全，尽可能地覆盖到学生情感领域的各个方面；如果是对某一节课程的教学活动进行评价，就应该针对这节课的实际，而不能将指标设的大而全（2002年首届生物学探究性学习的案例评比中，这个问题表现的尤为突出）。正是由于情感领域的评价指标的确定的困难，我们才有开展研究的必要性。\n讨不积极：能够参加讨论会，不发言。815一般：能够参加讨论会，不主动发言。12论积极：积极主动发言，是会议的组织者之一。15活情动实不积极：能够参加课外实验，但不动手。10参25一般：能够参加讨课外实验，不主动动手。15与验积极：积极参加课外实验，主动工作。25感50不积极：能够参加小组活动，但有时不来。5小一般：经常参加小组活动，但只是跟随，不主动。8组10积极：为小组活动献计献策，是组织者之一。10目表口头：能够在平常口语中表达对科学精神的向往。8科达10学文字：能在平常的文字（作文）中表达对科学精神的向往。精行积极：在行动上表现出对科学精神的追求10标神动10一般：在行动上表现出对科学精神的关心830很努力：学习上能克服困难，努力探索，强烈的好奇心10学努力：学习上能克服困难，对问题表现出好奇心8习10没有变化：和以往的努力程度一样6积极：非常关心社会生活中的相关问题10提出社问题10一般：能够关心社会生活中的相关问题8会不积极：对社会生活中的相关问题不关心4生完善方案：应用学习的知识，提出解决问题的完善方案活解决有方案：有解决问题的方案，但不够完善8问题10思考：对相关的问题有思考，试图加以解决3、能力目标的确定和上述两个目标的确定一样，能力目标的确定也是应该根据教学目标来确定，应该根据教学活动的实际情况来确定，根据学生的实际情况来确定。对与能力目标的设置，同样应该根据评价的面来确定，综合能力的评价应该尽可能地将指标设置的全而细，因为判断学生能力的情况必须考虑到他们的综合能力，包括的能力指标越多越具体，评价的效果越好，越能客观地反映学生的实际情况；而某一节课的能力评价则切忌大而全，对某一节课的教学而言，不可能做到对学生的各中能力的发展都有明显的促进，对一堂课的教学中学生能力的指标定的过高或过全，让学生觉得无法实现这些能力目标，就很容易会影响学生的情感目标的实现。下面举两个例子加以分析。例一：对植物细胞质壁分离几复原实验的能力评价（对照新课程标准）操作项目评价标准（100）\n检查材料器具（10）检查了，并能正确说出各材料器具的名称10进行粗略的检查，不能完整地说出各种材料器具的名称8没检查3临时装片20清洁玻片3用纱布朝一个方向擦，玻片清洁3用纱布来回擦，玻片基本清洁2没有操作该步骤0用滴管在载玻片中央滴一滴清水3滴水适中3滴水过多或过少2没有操作0取深色的洋葱表皮7表皮大小适中、较薄7表皮较厚、过大或过小5表皮过厚、过大或过小2盖盖玻片7符合操作要点，基本没有气泡7有少许气泡，但不影响观察5拿手直接随意盖盖玻片，有较多较大的气泡2显微镜观察30将低倍镜对准通光孔，根据光线选择反光镜和光圈，获得明亮适宜的视野10符合操作要点10按规范操作，但视野过亮或过暗7没有使用低倍物镜对光，视野过亮或过暗5放、压载玻片于载物台，从侧面观察镜筒下降到适当的位置10符合操作要点10进行了上述操作，但未从侧面调整镜筒，镜筒过高或过低7未用压片钳固定玻片，没有调整镜筒位置3通过目镜观察，用先粗后细调调整焦距，至图象清晰10符合操作要点10对焦时眼睛常离开目镜，细调使用不当，但图象清晰8粗、细调使用次序错误，未能得到清晰图象3质壁观察略略整理10清除废物，清洁器具并放回原处，摆放整齐、桌面保持清洁符合操作要点10进行整理，但器具不整齐，桌面不洁净7无此步操作0例2：资料收集能力二级指标三级指标四级指标五级指标权重\n资料收集能力收集方法50文献检索15能正确使用检索工具，检索速度快效率高15能使用检索工具查到相关内容12知道查阅方法，但实际操作差8不会进行文献检索3计算机检索15能快捷高效地进行计算机检索15能进行计算机检索12在别人的帮助下进行计算机检索8不能进行计算机检索3实际调查20能有效地进行实际调查，能独立或与同学合作完成，调查的组织者20能进行实际调查，并完成任务16在别人协助下完成调查12不会进行实际调查5资料收集的效果30相关性10与研究目的密切相关10与研究目的相关8与研究目的关系不大6与研究目的无关2新颖性10内容十分新颖10内容比较新颖8一般5内容陈旧2有效性10内容对探究很有帮助10内容对探究有帮助8基本没有帮助2资料整理20卡片10卡片整理熟练，快捷10会进行卡片整理8在别人帮助下能进行卡片整理6不会卡片整理2计算机整理10能熟练地使用计算机整理10回进行计算机整理8在别人帮助下进行6不会2三、对评价目标的评价\n对初步制定的评价目标要首先进行评价，因为如果有我们制定的评价目标存在着较大的问题，那么，用这样的目标去判断评价的结果，其可靠性就会大大下降。我们的评价目的、评价所应该发挥的功能就不可能达到。对评价目标的评价主要是将评价目标与原有的教学目标进行比较，也就是说，用教学目标来判断教学评价目标是否正确。同时，还应该根据被评价的学校、教学实际、学生的特点来判断评价目标的可行性。只有当评价目标符合教学目标、而且对被评价者和评价者而言都是可行的，评价目标才能被使用到教学评价之中。对评价目标的评价，除了评价活动的操纵者参与外，还应该尽可能地让被评价者参与进来，包括学校的领导、教师、和学生。其理由有：1、被评价的学校领导、教师、和学生是教学活动的当事人，他们最了解教学的实际，在教学活动中，他们已经对应该达到的教学目标进行了仔细的分析，并付诸实施。他们对教学目标的理解更切合教学实际，而且，在教学活动中对教学目标会有独到的见解。聆听他们的意见，无意是对教学评价目标的确定是最有帮助的。2、教学评价的最终目的是促进教学，提高教学质量。而教学的促进、教学质量的提高只能通过师生的实际教学活动，体现在未来的教学活动的各个方面。所以，一开始就让被评价的师生了解评价的目标，让他们清楚在以往的教学活动中，那些是好的，值得保持和推广的；那些还存在着不足，应该加以改进和提高的。只有让被评价者参与到评价活动中来，包括对评价目标的确定，我们的评价结果才能被他们所接受，才能达到促进教学的目的。对于涉及对学校的整体教学效果的评估，学生综合能力的评价，这样大范围的评价活动，评价目标的评价还应该尽可能的征求社会人士的意见，因为正如我们在目标控制论中反复强调的，学校的真正的教学效果的高低，最终是有社会的认可程度来确定的。只有当我们的毕业学生得到社会的欢迎，教学为社会和经济发展的服务功能才能得到体现。第三节评价方案的制定当确定了评价目标后，接下来的工作就是制定评价方案，评价方案就是在接下来的评价实践中的一个可行性报告或计划。一、评价类型的确定根据评价的目标，选择采用哪一评价类型。按评价在教学活动的次序，可选择形成性评价、诊断性评价、终结性评价。其中诊断性评价的方案可能比较简单，形成性评价方案可以简单，也可以较为全面，而终结性评价方案往往要求比较全面。按评价结果的参照的不同，可以选择常模参照、标准参照和潜能参照类型。其中常模参照适合选拔考试或升学考试，标准参照适合于达标考试如会考，潜能参照则更适合于以提高学生的学习兴趣为目的的评价。可以预见，随着我国新一轮的课程改革的展开和深入，标准参照和潜能参照类型的应用将越来越多。评价类型的确定有利于整个评价方案编制、有利于具体的评价方法的选择、有利于评价活动的监控。二、评价方案的编制\n评价方案的编制应该考虑到评价的目的、评价的目标、评价的类型或属性、评价的人员、评价的对象、评价的方法、评价的具体操作规程、预期的结果等等。因此，评价方案的编制在评价活动正式开始的前期工作中，将是花费时间与精力最多的一部分工作。对评价的组织着而言，评价方案编制的质量，应该是最需要关心的问题。就各种类型的评价方案而言，其编制的主要内容可能是对测验或测量方案的准备上，因为测验或测量方案是直接面向被评价者或调查者的，也就是说，测验或测量的方案一经使用就很难再在以后的工作中加以修改或弥补。其次，是对测验结果的处理方法的选择，因为对测验或测量中收集的相关数据的处理方法，将直接关系到评价结果。如果由于测量方案和数据处理方法的问题影响评价的客观性和公正性，将会影响评价目标的有效实现，将使评价应该发挥的功能打折扣。（一）、测验或测量方案的编制与组织1、测验材料的选定测验材料就是由相应的知识点、测验的内容、关心的问题所构成的表述形式。如考试卷的相关的知识点、问卷调查的内容、现场检查的问题、实际观察的内容和重点。下面以考试测验为例，说明应该注意的一些问题。[1]测验材料应与测验目标相符。选择材料时必须依据测验的目标，以确保测验的准确性。如中学毕业会考，其目标是考查学生是否掌握了中学阶段所学科目的基本知识，是否已具备了相应的基本能力，选材时应注意材料的代表性和广泛性，以全面性为准。[2]测验内容要能够代表该科教材的全部内容。测验内容愈广其效度愈高，但由于考试时间的限制，只能采用部分教材内容作为测验材料。因此，这部分内容必须是该科教材全部内容的一个良好的代表样本，必须有足够的覆盖面，能够突出基本内容和重点内容，各部分材料的比重恰当。[3]测验材料要有普遍性，要以统一的课程标准或教学大纲为选材的依据，应该是大部分或全部被试都已经学过的内容，从而对全体被试具有公平性。[4]测验材料要适合学生程度并能够鉴别学生的学习水平。选择的材料必须大部分适应相应年级学生的程度，同时，又能够将不同程度的学生区分开来，也就是说应该有适合的难度系数。有些材料应该比学生的程度稍低，使最低程度的学生也能够完成，促使其树立尽可能多做的信心；有些材料则要比学生的程度稍高，使程度高的学生也不容易完成，从而促使其进一步努力。[5]测验材料应该富有进取性，应该切合社会生活的实际。特别是对那些属于较高目标的试题，在材料选择是一定要真正切合社会或生活的实际，切忌单凭命题已有的知识水平，想当然地编制出与实际情况不符的试题。2、命题命题是一个较为复杂的过程，在这个过程中命题者需要对试题进行反复修改，其中包括订正意思不明确的词语，删除一些重复和不适合的试题，增加有关的试题。命题时要做到以下方面。试题内容的取样应有代表性，能够体现测验内容范围的要求，有较大的覆盖面，能够尽可能地照顾到全体学生；试题的数量要恰当，既要使大多数的学生能在规定的时间内完成解答，又使他们感到时间并不十分充裕；试题的难度要合适，必须适合大多数学生的水平，由易到难，有一定的分布\n范围，能测量出不同考生的知识、能力方面的差异，既要有反映课程基本要求的试题，又有用来检查学生灵活运用所学的知识的综合分析；各个试题之间应该保持相对独立性，不要使一个试题的题目成为另一个试题的答案或暗示；试题的表述必须清楚明白，不能用模棱两可的词，词句要简明扼要，对解题要求的叙述必须准确明了；题型要多样化，有客观题，也有一定量的主观题，各类试题的比重恰当；评分标准合理，应有清晰可辩、公平合理的评分标准。3、试测与试题分析对初编的试题应选择一个小样本进行试测，以鉴别试题的优劣。试测对象应该取自将来正式测验准备施用的群体，取样应有代表性，数量不宜过多；试测应力求按正规的要求进行，尽可能地保持与将来正式测验时一样的情境；实施中应有足够的时间让被试完成作业，以收集充分的资料使得统计分析的结果可靠；试测过程中，应将被试们的反映情况随时加以记录，如时间、题意的理解、容易产生误解的题目，长时间停顿的题目等，以便修改题目时参考。经过试测，我们能够拿到相关的数据和信息，经过统计分析后，确定题目的难度、效度、信度和区分度，分析测验结构的合理性，以期形成较为满意的测验题目。4、合成测验经过试测和题目分析，对各个题目的性能已有可靠的资料，从中选择出性能优良的试题，加以适当的编排，合成测验。编排时应先易后难，在测验开头安排几道较容易的题目，逐渐加深题目难度。这样可以使学生熟悉作答程序，减少紧张情绪，建立信心，较快进入应试的情境，使他们尽可能地避免在难题上耽误较多的时间，而使他们能够作答的题目由于没有时间作答，影响了评价的真实性。尽可能地将同类试题组合在一起，减少试题说明，学生能够用相同的反应方式来作答，也有利于以后评价工作中的统计和分析。5、编制复本为增加实际的效用，一种测验往往需要两份或多份等值性试题，份数越多使用起来越方便。复本的关键是等值。所谓等值应该符合以下两个条件。[1]各份测验具有相同的测验目标和测验内容，但题目不应有重复；[2]各份测验题型相同，题目数量相等，并且有大体相同的难度和区分度。在有足够数量的题目的前提下，复本编制的手续比较简单。先将题目按难度进行排序，按下法编制复本：A本：1，3，5，7，9，12…B本：2，4，6，8，10，11…如果要分成3个复本，则：A本：1，6，7，12…B本：2，5，8，11…C本：3，4，9，10…6、编写测验手册测验手册就是测验的说明书，对标准化测验而言，应该有测验手册向测验使用者说明如何实施测验。同时，测验手册也是测验实施者评价、比较测验优劣的依据。它应该包括以下一些内容：[1]本测验的目的和功能。[2]测验编制的理论背景和选择试题的依据。[3]测验的实施方法、时限和注意事项。[4]测验的标准答案和评分标准的规定。[5]测验分数解释的依据。[6]测验的信度系数、效度系数，以及这些数据是在什么情况下得到的。\n为了让大家能够更加方便和理解测验的编制工作，提供“教师自编课堂测验质量评价审查表”。（[美]格朗兰德：《教学测量与评价》，河北教育出版社，1991年版，153-154）教师自编课堂测验质量评价审查表A测验计划的适当性测验计划是否适当地表明了测量目标和内容的相对重点？测验计划是否清楚地表明了测量目标和内容的相对重点？B试题的适当性每道题目的题型是否适合所测量的学习成就？每道题目是否要求学生表现测量的学习成就所描述的行为？（相关性）每道题目是否提出了一个清楚、明确的任务？（清楚性）每道题目是否用简单、可读的语言提出要求并排除了多余的语言？（简洁）每道题目难度是否适当？每道题目是否有一个专家认可的答案？（正确性）每道题目是否排除了技术缺陷和无关线索？（技术可靠性）每道题目是否消除了种族、地域、性别偏见（文化公平）每道题目是否与其他题目独立？（独立性）每项学习成就，试题数量是否适当？（样品完满性）C测验形式和知道语的适当性同类试题是否放在一组？在每部分测验或全部测验中试题安排是否有易到难？试题是否按顺序编号？是否明确制定了答案位置（在试卷纸上或独立的答案纸上）？每个答案位置和相应的试题是否相关？\n正确答案是否随机分布？试卷是否备有空间，是否字迹清楚并无印刷错误？每部分试题和全部试题是否有指导语？指导语是否清楚简明？三、评价方案的反馈与修正评价方案的反馈是指将上述编制完成的评价方案反馈给相关人员，以征求他们的意见。通过与相关人员的交流和讨论，对已经形成的初步的评价方案中的不足之处或有争议的地方加以修正或解释。初步的评价方案的反馈对象可以是未来参与评价的实际操作者，也可以是将被评价的部分学校的领导、教职工和学生代表，还可以是相关的教育行政管理人员。通过和上述人员的讨论或说明，可以使未来参与评价的工作人员在实际的操作中，正确把握评价的目的、任务、和操作要点，是使评价工作顺利、高效的完成；也可以使被评价的学校领导、教职工和学生们了解评价的目的和意义，了解将进行的评价的具体内容和涉及的方面，更主要的是让他们消除对评价工作的不正确的顾虑，取得他们在评价工作中的支持和理解，使他们能够积极主动地配合评价工作，并成为评价工作中的一员，从而保证评价工作的顺利进行，也保证评价结果的真实和有效，真正实现促进教学，提高教学质量的目标；可以使相关的教育行政人员即使了解他们所管理的学校的教学的真实情况，让他们提供相关的教学资料和文件，配合评价工作的开展。教学活动的实践者，他们最了解教学活动的特色、优缺点，了解教学一线工作者的艰辛和努力程度，了解应该从哪些方面对教学活动进行评价才能反映教学的真实情况。就现代的评价观而言，他们就是教学评价的参加者。因此，在进行评价初案的反馈过程中，应该十分耐心地听取他们的意见，切忌以评价专家或评价官员自著，听不进别人的意见。如果我们明确评价的最终目的是对未来教学活动的促进，那么，得到未来教学活动的实施者们的理解、支持和拥护，将是十分必要的。对于由任课教师自行组织的，旨在了解自己的教学效果和学生的学习水平的小型评价或诊断性评价，也应该对将要评价的初步方案对学生们有个交代，让他们有相应的思想准备，让他们对自己的学习情况有一个自我的反思过程。就具体的评价方案中指标而言，也应该能够得到大多数学生们的认可、接受和支持。只有这样，我们的评价才能取得预期的效果。在《新课程与评价改革》（新课程实施过程中培训问题研究课题组编写，教育科学出版社）一书中的一个例子就很能说明问题。“老师请看我的闪光点”中说，一位学生对老师的评价不满意，老师说“原本你可以学得很好，你的好动，使你处处落后于班级同学，老师希望你在暑假中好好反省一下…”，学生则对老师的评价不认可，说“您为什么说我处处落后呢？虽然我有许多缺点，上课爱做小动作，作业做得慢，但我身上还是有些闪光点的，您没有发现吗？…”，然后他列举了他的闪光点，如吹笛子、朗诵诗词、写小诗、运动会上的表现、主持班会…。这是一个典型的由于\n老师进行评价时忽视评价项目和指标被学生接受所造成的矛盾。试想，如果这位老师接到学生的信的时候，没有认真的反思自己的评价中的问题，而是认为是学生对老师的不尊敬，学生不虚心地接受批评，而大为恼火，在开学的第一天的班级中，点名批评这位同学，那么，这位同学或其他同学的情绪将会更大，就失去了当初评价的意义了。这种例子对于我们第一线的教师而言，可能在有意或无意中都发生过。第一节评价方案的实施一、信息收集与整理教学评价信息收集的方法与形式包括各种类型的教学座谈会、问卷调查、口头调查、实际调查、听课、观模、教学设备调查、教学资料的收集（以往学生的学习记录、考试卷、作业、听课笔记等）、现场测量（考试、实验操作、现场表演或演示）等等。在信息收集中应该力求客观公正，保证相关的数据真实有效。不可否认，由于评价的结果与被评价者的利益或名誉，客观上存在着这样或那样的关系，有时这种关系可能会是十分密切的，如关系到学校的招生、评级、冠名、社会知名度、教师的职称评定、工资待遇、学生的评优评奖、升学、分班等。这些厉害关系的客观存在，使得收集到的相关数据的客观性、真实性受到影响。我们在承认这种影响存在的前提下，应该努力做好被评价的单位或个人的思想工作，力争得到他们的配合，尽可能地保证收集信息的客观性。信息收集还需要体现全面性，要尽可能地收集能够收集到的相关信息。可以说，信息来源的渠道越多越好。全面的信息收集是我们评价工作的得到公正的结果的保证，也是评价的客观性的保证。应该说，信息的收集工作是进行客观公正的评价的必须条件，评价的结果就是从对收集到的信息的统计处理、逻辑推理后得到的。但是，在实际的评价工作中，信息的全面客观的收集是一件比较困难的事情，它不仅需要工作者的耐心和毅力，还需要必要的技巧和策略，以得到其他人包括被评价者的理解和配合。收集信息的过程中要养成及时记录的习惯。及时的记录本身就是全面收集信息的一个前提条件。记录包括文字记录、实物或样品记录、录音记录、图像记录等。在有条件的时候，应该尽可能地记录第一手信息，如照片、录像、录音、原始凭证、实物等，以便提高对评价结果的解释的真实和可信。信息的整理有两个目的，一是将收集到的信息进行归类，以便于接下来的数据处理，也便于原始信息的保存；二是对收集到的信息进行筛选，确定哪些信息或数据用于数据处理和分析。去去处除那些与评价目标的实现关系不紧密或无关的信息，因为，在信息收集时，由于时间和当时的场景的限制，信息收集者不可能在当场对信息的有用或作用的大小作出客观的判断，这就需要在信息整理时对信息有所选择。信息的整理包括文字信息的整理（如打印）、照片的选择、录音和录像的编辑。应该说明的是，对信息的整理是根据这些信息是否能够反映评价目的，与评价目的的相关性有多大，二不是看这些信息是否有利于反映评价者原来所期望的结果。如果只根据信息是否有利于反映评价者的期望来进行整理与选择，那么，这无疑与科学研究中篡改实验数据的性质相同，也离开了我们反复强调的客观与公正的原则。信息的收集可以由评价者直接操作，也可以由被评价者提供。但信息的整理一般由评价人员进行。二、数据的处理\n数据处理是指将收集到的信息，通过整理的信息，应用合适的处理方法进行处理，以求能够从众多的信息中找到某些能够反映评价目的的规律性的结论。我们前面所提到的评价方法，从广义上讲可以是整个评价方案或评价的手段；而从狭义上讲，更多的是指对信息的数据处理的方法。数据处理的方法主要是涉及统计学的一些方法。我们前面已经提到过一些，在后续的章节中还要有选择的讲述。由于数据处理的方法很多，不同的处理方法可能会得出不同的结论，所以，选择合适的数据处理方法对评价而言显得十分重要。我们应该在分析评价目标和了解数据处理方法的特性与功能的前提下，选择数据处理的具体方法。三、数据的分析与初步结论的得出数据分析是将通过数据处理的相关信息，从归纳、演绎的角度进行逻辑推理分析，从而得出规律性的东西。归纳就是通过对一些个别的事例或感性材料进行概括和总结，从中抽象出一般的结论、原理、公式或原则的一种推理方法。它包括完全归纳和不完全归纳。完全归纳：　　　　Ｓ１具有（或没有）Ｐ属性　　　　Ｓ２具有（或没有）Ｐ属性　　　　　Ｓ３具有（或没有）Ｐ属性　……Ｓn具有（或没有）Ｐ属性结论：所有一切Ｓ具有（或没有）Ｐ属性不完全归纳：Ｓ１具有（或没有）Ｐ属性Ｓ2具有（或没有）Ｐ属性Ｓ3具有（或没有）Ｐ属性S1、S2、S3…都是（或都不是）S类型结论：所有一切Ｓ具有（或没有）Ｐ属性演绎是指从一般到个别的推理方法，是从已知的一般原理、定律、法则或学说出发，推出新的结论的一种逻辑思维方法。演绎的推理主要形式是三段论法：凡是老马都能认得归途这匹是老马结论：所以这匹马能认得归途。通过对处理后的相关数据的分析和逻辑推理，得到的结论就是教学评价的初步结论第一节评价初步结果的修正一、初步结果的反馈\n　　通过上述的数据收集、数据处理、数据分析和推理，我们得到了教学评价的初步结果。根据教学评价的目的的不同，对评价的初步结果的处理方式会有些不同。如果是对某一个学校的教学效果或某一种教学模式、教学方法与手段的评价，也就是说基本上是进行诊断性的评价，就必须将评价结果详细具体的反馈给被评价的学校或教师，并对评价结果作出某些解释与说明，但这种解释和说明比起形成性评价的结果的解释和说明，可以更多的从宏观的角度来进行。因为，诊断性评价的真正目的在于通过评价，对现行的教学活动中的各个因素进行分析，以便找到影响教学效果的正面或负面的因素，并为被评价的学校或教师提出未来的教学策略，最终达到提高教学质量，有效实现教学目标的目的。如果是对教学活动的过程进行形成性评价，其目的就是通过对前面进行的一段教学活动的评价，为接下来进行的教学活动提出相应的教学策略，以期提高下一步教学活动的效率，因此，必须对评价的初步结果作出较为详细的解释和说明，这种解释和说明有时可能会涉及到某一具体教学细节，对教师的指导性是十分强的。如果是用于以选拔、评优评奖、等级评定等为主要评价目的的评价，也应该对评价的初步结果作出说明，当然，这种解释可能从更加宏观的层面来进行。例如，对考试给出标准答案、对评优评奖或评级给出评定的标准，以增加评价工作的透明度。总之，不管是处于何种教学评价的目的，都应该将评价的初步结果进行反馈。二、对反馈意见的分析将评价的初步结果进行反馈后，特别是进行较为详细的解释和说明后，总是会或多或少地得到人们的反馈意见，包括被评价者的反馈意见。对于这些反馈意见，评价者都应该进行认真的分析和研究。反馈的意见中不外乎２种类别，即合理或不够合理，真正无理的反馈意见是很少的。对于前一种反馈意见，我们应该在对评价结果的修整中加以充实和补充。这种反馈意见不仅有利于我们得到较为公正合理或客观的评价结果，从而实现我们进行教学评价的目的；而且，还会对我们今后的评价工作有较大的借鉴作用。对于后一种反馈意见，我们应该得出其不合理或不够合理的理由，首先要做到能够说服自己，同时，再将这些反馈意见的不合理性分析给反馈者，和他们进行交流，了解他们提出这些意见的原因所在，让他们能够接受整个评价结果。我们强调认真对待评价初步结果的反馈意见，原因有两方面。一是我们已经知道教学评价工作客观上存在着不可避免的主观性和不公正性，这就要求我们应该反复全面地听取各方面的意见，以使评价工作尽可能地做到客观公正，这也是评价的目的之一；二是教学评价的最终目的就是不断地改进教学方法和手段，提高教学质量，而任何好的教学策略都是靠教学第一线的师生去实践和实现的，离开他们将无法实现我们的评价目的，因此，我们的评价结果必须能够被师生们所接受，从而才能够在未来的教学活动中化为他们的实际行动，才能真正达到最有效的目的。因此，评价的初步结果的反馈可能是多次的。三、对评价初步结果的修正通过对反馈意见的分析，我们已经知道了反馈结果中的合理性的一面，就应该及时将这些反馈意见充实到我们的评价结果，让这些意见使我们的评价结果更具有客观和公正性。\n对评价初步结果的修整有时可能只是一小部分，有时可能会是很多部分，甚至可能会涉及到我们通过教学目标分析、评价方案的设计后得出评价方法和评价指标，也就是说，一开始我们的评价方案就已经存在着较为严重的问题，所以，由这样的评价方案和方法得到的评价初步结果就不可避免的会有较为严重的问题。这个时候，对评价者来说，其影响可能是十分大的。试想，经过辛辛苦苦的评价工作居然由于开始时的评价方案存在问题，而使整个前期的评价工作前功尽弃，情绪上的影响是不可避免。但是，当我们静心分析后，如果我们从评价的最初目的来分析，也会是变得比较容易接受。这不仅可以使这次的评价变得更为客观公证，更能实现评价目的；更重要的是，我们可以通过多次类似的评价，使我们的评价水平得到快速的提高。所以，从另一种角度看，通过评价的反馈能够提高评价的客观性和公正性，能够更为有效地实现评价的目的；同时提高我们的评价水平，应该是一件好事情。第一节评价结果的应用一、评价结果的反馈经过了上述的评述工作，得到了本次评价的最终结果。对评价者来说，评价结果的最终得出并不意味着整个评价工作的结束。而应该将评价结果进行反馈，反馈的对像包括被评价者、评价的组织者、当地的地方行政机关、以及一定范围内的社会人士。评价结果的反馈和初步评价结果的反馈的目的基本一致，但最终评价结果的反馈包含的目的更广，它涉及的面会更广。其主要的目的是听取来自各方面对评价工作的意见或认可程度。这种反馈意见有的将会是对未来评价工作的开展具有指导意义的。认真听取来自各方面的反馈意见，对评价者来说是十分有益的。决不能以为评价的结论已经得出，反馈意见是多余的，反正无法改变评价的结果，更不能将不同的意见视为无理取闹，是被评价者不虚心的表现。二、评价结果的应用　　评价结果的得出还应该及时将其应用于教学活动的实际中去。根据不同的评价目的，评价结果的应用会有些区别。就终结性评价而言，就是将评价结果用于各类评级、选拔、评奖之中；对形成性评价来说，要将评价结果（主要是教学策略）应用到接下来的教学活动中，使未来的教学活动更具有成效；对诊断性评价而言，应该及时的将以往教学活动中好的经验加以推广应用，对不足的地方加以改进。特别是对某种教学方法、教学技术、教学理念的诊断性评价结果，就很有必要通过相关的行政部门加以推广应用，使师生们创造的好的教学经验得以在更大的范围内加以应用，从而推动整个教学活动的质量提高。三、对评价的评价对评价的评价是整个教学评价工作的最后一个环节。这种评价可以是来自多方面的。就评价者而言，对评价的评价实际上是对评价工作的总结。通过总结，得到本次评价工作的经验教训，为今后的评价工作的更好的开展提供相关的建议。对被评价者而言，主要是对评价结果和评价活动的意见和建议，同时表明他们对评价结果的接受程度。对其他人员来说，对评价的评价主要从第三方的眼光来评价这次评价活动，他们提出的意见会更具有公正性，因而，也更具有参考价值。对评价的评价通常是包含在评价结果的反馈和评价结果的应用之中，特别是在应用中，对评价结果的评价可能会在一个较长时间段内来进行。第五章数据处理方法第1\n第2\nDi3\n\nDi4\nDi5\nDi6\nDi7Di8\nDi9\nDi10\nDi11\nD12\nDi13\nDi14\nDi15\nDi16\nDi17\n　Ｍ－Ｔ表分析　　　　Ｍ－Ｔ表就是集应答成绩和应答时间于一个二维表格的统计方法，下表就是Ｍ—Ｔ—表的一个实例：　ＴＭ　１２３４５６７８９１０-１０-２０-３０-４０-５０-６０-７０-８０-９０-１０００１２３４５６７８９９０－１００８０－８９７０－７９６０－６９５０－５９４０－４９３０－３９２０＝２９１－１９０１１２１３１２２４３２１３５８１１２４２２１３１８\nDi18\nDi19\nDi20\nDi21\nDi22\n\n综合达标度分析综合达标度分析是指通过学生考试的结果，按各个知识点进行分析计算，然后与教学目标对这些知识点的要求进行比较，计算出每位学生达到教学目标的程度的评价方法。综合达标度分析比较多的应用于认知领域的评价之中，是一种典型的目标参照评价的方法，在新课程改革的情景中将应用更为广泛。如果能够将能力目标和情感目标进行量化处理，该方法也同样适用于这些领域的评价。以高中生物学多媒体组合教学研究中的“植物的矿质营养”的内容为例，解释如下：知识内容预期学习水平目标系数实际学习水平得分率达标度识记理解应用识记理解应用123123HT必需大量、微量元素种类√10.831.661.66植物吸收矿质元素的过程√√√60.920.930.784.860.85矿质元素吸收与根细胞呼吸作用的关系√√√60.550.590.874.340.72植物对离子的选择吸收√√31.000.982.960.98第六章　　学生课业发展的评价第一节　对课业考评的认识一、课业考评的作用所谓课业考评是指对学生的课程学业所取得的发展进步的程度进行考核与评价的活动。在课业考评过程中，用于测量学生学业水平的方式主要是考试。在新课程改革的形势下，考试作为测量学生学业的手段将长期存在，只是，考试的目的、方式方法可能会发生根本性的转变。也就是说，将从以选拔甄别为主要目的的考试方式，更多的成为检验学生学业水平是否达到教学目标要求的目标参照考试；以及以测量学生学业发展潜能，帮助学生树立学习信心，促进学生主动的发展为目的的潜能考试。对学生学业发展考核与评价，有以下一些主要的作用。\n１、合理的课业考评制度为学生发展提供明确的目标和努力方向。确立教学目标，以目标的实现程度来评价教学活动的质量是现代课程教学的重要特点，也是教学评价活动的起点。尽管课本或主要的教学参考书中都已经将教学目标进行了解释和说明，但就对学生的学习而言，其指导的功能仍然不够具体，特别是对不同学生的学习指导，就更不可能做到根据每个学生的具体情况给出具体的指导。因而，通过阶段性的学生课业考评，使我们的任课教师能够即使了解每个学生的学习情况，掌握他们的发展水平，就能够做到有针对性的指导和帮助。对学生来说，通过考评能够使每个学生了解自己的学习情况，了解自己的发展水平离教学目标的要求的距离，从而激发学生的学习积极性，让他们在未来的学习活动中能够有针对性的进行努力，使每一个学生的学习都有明确的目标（包括近期和远期的目标）。２、合理的课业考评制度有助于评价学生的发展进步，从而对教学双方活动起着重要的控制、调节和促进作用。就课业评价本身而言，评价过程包含了对学生的学习活动和行为变化的全面、客观的信息收集和整理的内容，因而提出的未来教学的策略将更能够接近教学的实际情况，也将能够受到更为明显的效果。因为，掌握学习策略的一个主要论题就是通过诊断性测验和经常性的形成性测验，构成课堂教学活动的信息反馈系统，以便在班级授课制下产生的学习差异以及学生学习困难的根源被揭示出来后，可适时加以补救和矫正，以收到缩小学习差异、大面积提高教学质量和学生学习积极性的效果。采用各种测量和非测量的方法，可以对学生的高级心理技能、动作技能、实验技能、态度、兴趣、适应、欣赏、思想和思维品质等方面的发展作出较全面的评价，对学生的全面发展起指导、教育和促进作用。3、课业考评为学生心理发展和学习进步创造必要的背景和空间，诱发学生的学习动机和自主发展的动力。通过动态评价、个体化评价和教学与评价之间的整合，瞄准学生的“最近发展区”，形成学生已有基础和预期目标之间的矛盾，促进学生的心理需求和可能发展之间矛盾的运动与转化，引导学生积极向上和自我发展。同时，通过科学的测量和评价，了解学生的个性心理，贯彻“因材施教”的教学原则，从而有效地促进每一个学生的心理发展，有效地激发学生的学习积极性。4、课业考评在中小学生个体社会化进程中起控制、调节、促进和加速的作用。现代和未来社会都要求人们存在着明显的个性化成课业考评中的主要问题课业考评的改革第二节　学生课业发展的内容学生课业发展的主要内容学生课业发展的参照体系第三节　促进学生课业发展的主要评价方法客观题评价法与主观题评价法表现性测验评价法\n评定量表评价法同伴评定和事件记录评价法档案袋评价动态评价法学习能力平面图成绩评定等级制的原理和应用绝对评级等级制相对评价等级制

生物学教学评价 68页

生物学教学评价

您可能关注的文档

相关文档

最近下载