- 202.50 KB
- 2022-09-07 发布
- 1、本文档由用户上传,淘文库整理发布,可阅读全部内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,请立即联系网站客服。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细阅读内容确认后进行付费下载。
- 网站客服QQ:403074932
第一章引言1.1理论背景社会生活的信息化和经济的全球化,使英语的重要性日益突出。英语作为最重要的信息载体之一,已成为人类生活各个领域中使用最广泛的语言。许多国家在基础教育发展战略中,都把英语教育作为公民素质教育的重要组成部分,并将其摆在突出的地位。改革开放以来,我国的英语教育规模不断扩大,教育教学取得了显著的成就。然而,英语教育的现状尚不能适应我国经济建设和社会发展的需要,与时代发展的要求还存在差距。主要表现在学生实际语言运用能力的薄弱,尤其表现在口语能力方面(邵永真,1998;马天泽,1998;井升华,1999;姜澎,2001)。口语能力较弱有语言学习固有特点的所造成的客观原因。有研究表明,在听、说、读、写四种语言技能中,说的技能最难掌握。语言学家海霍(Hayhoe,R)认为:听、说、读、写从易到难的顺序应该是读一写一听一说.‘读是最容易的,说是最难的。(转引自贾冠杰,1996)韩晓惠(1998)的调查表明:30“个受调查者中,大多数人认为即使在英语学习上花费了多年时间,英语口语仍然是最难掌握的能力。邱东林、季佩英(2004)对复旦大学2002级学生入学时的口语水平进行了抽样调查,在调查的408名学生中,52%的学生认为最薄弱的技能是说。上述事例虽然反映大学生英语口语能力状况,但实质上是国内(大中小学)英语教学存在的共性问题。整个社会大环境对学生的口语能力普遍感到不满意,对学生英语口头表达能力较弱提出了强烈批评,自然会引出对英语测试的批评。刘润清(2000)认为,“在听、说、读、写四种语言技能中,说的技能无论怎么强调恐怕也不过分,因为学习语言的最终目的是把它作为一种工具来进行交际,而交际首先指的是口头交际。语言教学今天所强调的文际教学,首先是口头交际。从社会对外语人才的需求来看,一个人的口语能力无疑是十分重要的。所以说,没有口语测试的语言测试是不全面的,或者说不能称其为语言测试。”科学的语言测试包括口语测试。,全社会已经充分认识实施口语测试的重要意义,因而提出了加强英语口语教学和口语测试的强烈的呼声。由于各种原因,在过去相当长的一段时间,无论是教学还是考试,对于口语考试都没有给予足够的重视。当前义务教育阶段的英语课程特别强调培养学生的口语能力。《课程标准》对学生的英语口语技能有明确的要求;按照《课程标准》编写的各种版本的教材从内容设计到建议的教学方法也都非常重视学生的口语能力。当前快速发展的社会需求对英语学习者的口语能力也提出了一定的要求,进行口语考试的环境和条件正在逐步形成。从外语教学所走过的历程看来,每次重大改革起关键作用的就是考试这根强效的指挥棒。口语测试的重要性在于它对口语教学所具有的极其重要的反拨作用,促进口语教学的发展。1.2现实背景江苏省教育厅1999年15号文件《关于改革和加强中小学外语教学的意见》(以下简称《意见》)要求重视英语考试方法的研究和改革。《意见》认为“从全省范围来看,外语考试中‘重知识,轻能力;重笔试,轻口试和听力测试’的问题仍较突出,严重制约了外语教学的改革和外语教学效益的提高。因此必须进一步研究和改革考试方法。”《意见》明确提出,从2000年起,江苏省实行中学生英语口语等级测试制\n度,着重考查学生的口头表达能力。教育部2001年制订的九年义务教育全日制初级中学《英语教学大纲》(试用修订版)第五部分“教学评价”中提出:“终结性评价的方式应包括听力、口试等在内的期中、期末考试等。“一考试形式要包括听力测试、笔试和口试。”全日制义务教育普通高中《英语课程标准》(实验稿)第四部分“实施建议”也指出:终结性评价(如期末考试、结业考试等)是检测学生综合语言运用能力发展程度的重要途径,也是反映教学效果、学校办学质量的重要指标之一。终结性评价必须以考查学生综合语言运用能力为目标,力争科学地、全面地考查学生在经过一段学习后所具有的语言水平。测试应包括口试、听力考试和笔试等形式,全面考查学生综合语言运用能力。1.3存在的问题口语测试属于主观性测试。作为主观性考试,口语测试能够有效地测试、评估学生的运用英语进行口头表达的能力。与其他几种语言技能测试相比,口语测试是最难进行的。由于对测试结果的评判是主观性的,对考生口语水平的评价取决于测试员的主观判断,要求测试员更多地应用主观判断能力,而他们的业务水平、测试经验和个性特点等方面存在差异,这些差异必然影响测试员的判断并反映到所评的分数上,评分标准的掌握很难完全一致。甚至同一测试员也会受多种因素影响,对评分标准的控制缺乏稳定性,同一测试员者对同一口语测试样本在不同时间也会做出不同的判断。因此,过去“许多教师和测试专家都承认,口语测试评分很难做到客观公正。根本原因是其中要注意的成分太多,而且无法进行定量分析。”(刘润清,1991)GillianB~和GeorgeYule(1983)也指出:一直以来,英语老师为口语能力评价伤透脑筋。即使许多非常成熟的考试也没有口语测试,似乎只有用书面考试的形式,才能对语法、词汇进行准确评价。希顿(1988)认为口语测试对教学产生积极的反拨作用,有利于促进教学,促进学生口语能力的提高,应该尽可能坚持。但是,他也认为口语测试可能没有信度(信度低).上述观点主要认为口语测试评分主观性强,信度难以得到有效保证,因而阻碍口语测试的广泛实施。为了提高口语测试的信度,使测试结果更加公平、公正,提高口语测试对外语教学的反拨作用,有必要对口语测试中评分者信度及其影响因素进行研究,以促进口语测试及中小学英语教学健康发展,推动课程改革顺利实施。1.4章节安排本文共分为六部分,包括:引言、理论基础与文献综述、研究问题与设计、研究过程、结论与建议、结语。第一章在英语教育教学改革的背景下,从研究的理论现实背景和存在的问题,论述了研究口语测试信度研究的意义。第二章介绍了口语测试信度研究的基本概念、分类以及计算方法,比较详细地论述了影响评分者信度的相关因素,以及国外内已有的研究与实践。第三章简要介绍研究的问题和使用的工具、数据分析方法。第四章详细论述了如何保证试题信度、创造公平的测试条件重点就测试员的选择与培训、测试的监督机制、测试过程的细节安排等过程充分论述提高评分者信度的实践过程。第五章讨论了本次研究的成果及其对口语测试研究的意义,并就进一步提高初中口语测试质量提出了一些建议,也思考提高本研究深度与广度的改进意见。第二章理论基础与文献综述\n2.1语言测试的发展阶段国内学者(文秋芳、杨惠中等)一般把语言测试的发展大致分为三个阶段:前科学时期((Pre-scientificPeriod),结构主义语言学时期(ThePeriodofStructuralLinguistics)和交际法语言测试时期(CommunicativeTestingPeriod)。从口语测试信度角度分析,这三个阶段表现出如下特点:2.1.1缺乏信度和效度、无口语测试的阶段前科学时期((19403以前)的测试以传统对比语言学(Traditional&ComparativeLinguistics)为理论基础。以HermannPau.为代表的语言学家认为:书面语言是最纯净的,而口头语言是第二性的。这一时期的考试只有书面测试,考试方式以翻译、写作为主,没有口语测试。因为这一时期的考试没有明确的理论指导,与练习没有明确区分,缺乏信度和效度,称为前科学时期。2.1.2注重口语的准确性和技能的熟练性的阶段这一阶段为结构主义语言学时期,指1950至1960年。这一时期的结构主义语言学认为:语言是由语音、词汇、语法构成的一个系统,这一系统是可以分解的。因此,可以设计出离散的题目(discreteitems),以逐项测验学生是否掌握了这些分解的元素。结构主义测试的典型题型为多项选择题。行为主义心理学对这一时期的语言学习、测试理论也有较大影响。行为主义心理学认为语言是一套习惯,语言测试就是对这种习惯的客观、科学的评价。这一时期口语测试开始出现,但由于“结构主义测试深受行为主义心理学的影响,强调测试的科学性、准确性和可靠性”(文秋芳,1999)。而口语测试从测试方法到评分标准都不可避免地受人的主观影响,被认为是不客观,不科学的,因而不受重视。这一时期的口语测试的题型为了能符合行为主义的科学、客观的要求,以朗读(readingaloud)、复述(retelling),补全对话(completingdialogue),看图说话(picture-cuedconversation)、口头报告(individualpresentation)和问答(answeringquestions)为主.结构主义口语测试通常采用的模式为单向表达和双向单回合表达,比较机械,而缺乏真实性和交际性。其评分方法通常采用从语音语调、语法、词汇、流利程度和内容等方面项目打分的分析法。结构主义口语测试评分的侧重点是语言的准确性和技能的熟练性(文秋芳,,1999).2.1.3重视交际功能阶段二十世纪八十年代,口语测试进入交际法语言测试时期。“自七十年代中期起,语言测试界开始重视所谓总体综合法的研究”(Alderson,2000)。这一时期被称为语言测试的心理语言学和社会语言学时期(Psycholinguistic-sociolinguisticera)”.英国的语言学家韩礼德((Halliday)提出了语言的七项基本功能:工具功能((theinstrumentfunction)、调节功能((theregulatoryfunction)、代表功ft(therepresentationfunction)、互动功能((theinteractiionalfunction)、个性功能((thepersonalfunction)、启发功能((theheuristicfunction)、想象功能((theimaginativefunction)。自此,人们对语言的功能,特别是交际功能的研究越来越重视,交际法测试理论也随之出现。交际法测试理论指出,掌握一门语言指在一定的语境中能够使用所学语言进行有效的交际、交流思想,达到互相沟通的目的.巴克曼(LyleF日achman)的交际语言能力模式(Bachman,1990)被国际语言测试界广泛接受.口语作为最基本的交际方式,因而这一时期的口语测试受到了越来越多的关注。比较两个阶段的口语测试,可以发现他们不同的特点。结构主义口试的最大优点是:命题容易,对测试员本身的英语水平要求不高,评分相对客观、可靠。而交际性测试能准确反映学生的交际能力,体现交际的真实性和交互性,但是命题和评分方法不易实施。也就是说,结构主义的口试信度可以更好的控制,而交际性测试\n的效度会更理想一些。在我国现阶段的实际外语教学中、外语测试中,没有绝对的结构主义、交际性口试之分。由于我国的现实条件和已有传统,这两种测试方式是混杂在一起的。结构主义口试以测试说的技能以及与说相关的项目技能为宗旨,试题通常比较机械、呆板,脱离语言环境,缺少信息交流,但评分比较客观、可靠。江苏省中学生英语口语等级测试、上海市高考英语口试都是比较典型的结构主义口试。2.2口语测试的信度与其他学科一样,外语测试传的统评价标准是信度(reliability)、效度(validity)难度(difficulty)、区分度(discrimination)、可行性(practicality)和反拨作用(backwasheffect)。20世纪90年代以来,根据教育测量学和外语测试的特点,一些专家指出,外语测试的评价应增加真实性、互动性等内容。然而,外语测试界一致认为,信度、效度与可行性仍是评价测试的主要标准。2.2.1测试的信度考试的信度是指考试测量学生语言能力一致性的程度,是测试结果的可信、可靠的程度,即考试结果不受考试时间、监考人员、场地等因素的影响。著名心理测验专家阿纳斯塔西(1996)给信度下的定义是:同一个人在不同场合参加同一测试或参加内容与难度相当的不同测试其成绩保持一致的程度。刘润清(1991)认为语言测试的信度是指考试结果的可靠性和稳定性。而左焕琪(2002)则认为信度的基本概念是避免测试误差的程度。徐强((2000)从操作的角度,就如何判断信度下了定义:信度是指同一考生在不同的考试条件下(如不同的考场、不同的考官)参加同一项考试后所达到的分数是一致的。信度是测试的分数所反映的被试的表现的可信、可靠程度。信度高的测试,有很好的一致性(consistency)和稳定性(stability)。讲信度必须有比较,无比较则无信度可言,例如比较若干次测试的结果(分数)。大量测试实践表明,像TOEFL这样的考试,信度很高,一致性和稳定性好。尽管对测试信度的语言表述不同,一致性、稳定性与可靠性是测试信度的本质特征。2.2.2评分者信度在口语测试等主观性测试中有多个评分者,他们在评分过程中不可避免地受到主观因素的影响,对试题答案、评分标准常有不同的判断,从而导致标准不统一而产生误差。因此评分者信度研究就是针对评分者所评分数进行探讨,最大限度提高,评分准确性和一致性,减少评分者主观因素对分数客观性的影响。王孝玲(1989)认为,评分者信度是两个或几个评分者之间对同一组测试结果评定的一致性程度。就口语测试而言,评分者信度指口语测试中,两个或几个测试员之间对同一组测试结果评定的一致性程度。’2.2.3评分者信度的分类评分者信度(scorerreliability)可分为两类:评分者之间信度(inter-scorerreliability)和评分者自身信度((intea-scorerreliability).对于大规模语言测试来说,还有评分点之间信度((Inter-centerreliability),大规模考试的评分点不止一个.就口语测试而言,评分者之间信度指不同评分者对同一口试样本是否给出同一个正确的分数;评分者自身信度指同一评分者对同一口试样本在不同场合出现是否判定同样的分数。2.2.4信度的计算方法\n‘(1)再测信度(Test-retestreliability)将同一份试卷两次测试同一批考生,两次测试间隔一段时间,考生在间隔期间受到平等影响,即他们在语言能力上的进步基本一致,那么,通过两次测试结果的相关分析得出该测试的再测信度。再测信度的主要缺点是两次测试之间产生的一些因素。如果间隔时间太短,被测试者对第一次的内容还有一定记忆,会提高第二次测试的答题能力,从而影响测试结果的稳定性。如果两次间隔时间过长,考生水平进步明显不一致,也会影响测试结果的稳定性。(2)复本信度(Alternate-formreliability或parallel-formreliability)同一组被试者在复本测试(复本测试指测试性质、内容、题型、难度等方面一致或相等的两份或多份考试)所得结果相关系数就是复本信度。使用复本信度的问题是技术上难以使两套(多套)测试试题内容与难度完全相当。在重大考试中,计算再测信度和复本信度的条件不具备,因此,随着时间的推移,这两种计算信度的方法已经很少采用。(3)内在一致性信度(Internalconsistencyreliabil勺)内在一致性信度是检验一个考试内部试题一致性的程度,内在一致性信度从一次测试的内部计算信度系数(reliabilitycoefficient),避免两次测试的弊端。2.2.5评分者信度的计算方法传统的的评分者一致性计算方法主要有:相关法和百分比法。相关法中包括皮尔逊(Pearson)级差相关、斯皮尔曼(Spearman)等级相关、肯德尔(Kendall)等级相关以及克龙巴赫(L.J.Cronbach)a系数等组内相关法;百分比法包括简单一致性百分比法和开帕(Kappa)法。计算评分者信度简便的方法就是计算由两个或两个以上评分者评定同一口语测试样本的成绩之间的相关系数。2.3主要研究与实践文秋芳等人用口语测试成绩与笔试成绩相关分析的方法,评价口语测试的信度。1994年进行英语专业四级口试研究了第一次试点工作,他们将学生的口语测试成绩于四级统测笔试成绩的分数做了相关分析,相关系数达.66.P值是.000.结果与香港考试局规定的口试和笔试成绩的相关系数(.65)相差无几,因而判定“所给的口试成绩从总体上看是可靠的”。(文秋芳,1999)1995年进行了第二次试点工作,他们又将学生的口语测试成绩与四级统测笔试成绩的分数做了相关分析,相关系数达.60.判定“这次评分的信度总体上是有保障的”.(文秋芳,1999)聂建中、王正仁对山西省1995年高考外语专业口试进行了评分者信度研究。该研究首先对口语测试的评分的一致性进行统计。实验研究发现,测试员在“朗读与回答,在0.01水平呈显著性差异,“口头作文”在0.05水平呈显著性差异,“自由问答,无显著性差异(p>0.05).研究者认为,七个口试小组“朗读与回答”和“口头作文即的两项评分缺乏一致的标准,因而各组测试员在这两项上评分差异明显。“自由问答”的评分虽含有主观因素,但测试员所期待的答案基本上是客观的,所以差异不大。其次,研究者从评分的相关角度,计算七个口试小组克龙巴赫a系数,五个小组a系数比较理想(0.70-0.79);另三组中,一组偏低,其他两组偏高,该研究结论是各组的评分者信度存在不一致性,信度不理想。上海市教育考试院对2000-2004年上海市高考英语口语测试的信度进行了定量研究,并得出结论:上海市的高考英语口语测试有较好的信度(徐欣幸,2005)。通\n过一系列措施:(1)给考生提供公平的考试条件;(2)命题对不同场次的试卷的内容和难度进行控制;(3)评分一致性的控制,减少误差,提高考试的信度。测试信度比较理想。年份’20002001200220032004.7079Alpha信度系数.7385.7226.7278.7461近几年,部分省、市的中考或高考等一些重大考试中新增了英语口试。各地在总结此项工作时,一般对测试效度、反拨作用进行比较详细的总结、分析。至于口语测试的信度,大多数地区的分析报告没有涉及,少数涉及的往往比较含糊,只是简单定性的结论,一带而过,没有具体的数据统计与分析,因而缺乏说服力。2.4影响评分者信度的因素命题、施测、评分过程中有一系列的因素会影响口语测试的信度。试题信度、评分者信度、以及评分的操作方式都会影响英语口语测试信度。作为主观性测试,对测试信度影响最大的,应是评分者自身因素对测试评分者信度的影响。2.4.1评分者自身因素2.4.1.1评分者的语言观a)口语测试的评价取向在口语测试过程中,评分者的语言观直接影响者的测试观,影响评分者对测试的价值取向。首先表现在口语的准确性与流畅性之间、语言形式与语言内容之间的取向。流利程度与准确性使用时概念模糊,标准时常不一,严重时会对口语教学与测试产生误导。口语的流利程度即口语表达的流畅性,就是自然与恰当控制口语节奏的能力。第二语言流利程度差的描述是:语速慢,且不恰当的停顿、犹豫和重复而影响意义的表达。口语的准确性指表达语言内容与运用语言知识的正确程度。外语教学中一些关于口语准确性的传统观念是不全面的。一是过分注重语言知识与形式的正确性,忽略了恰当表达语言内容是准确性的主要方面,二是不重视日常使用的、不符合传统语法的口语。传统教学中,片面强调语言知识与形式(特别是语法)的准确性,忽视语言内容与流利程度的教学,不注意口语的更新,影响了学生语言交际能力的全面提高。受上述的有些片面观念影响,有些评分者在评分过程中会下意识将这些观念带入评分过程之中。外语教学史上,语法翻译法强调语言的准确性,忽视流利程度,使学生缺乏实际使用语言的能力。听说法恰恰相反,注重语言的流利程度,对使用语言的准确性不够重视,影响学生的语言交际能力。文秋芳等人(2001)所著的《全国英语专业四级专业口试指南》一书中把口语能力的内容分为三大块:语言形式、语言内容和交际规则。传统的英语测试仅仅注重考语言知识,只注意语音、语法、词汇,很片面的,缺乏效度,因而信度也受到影响。确定英语口语测试评分方法,拟写答案、评分标准的时候,应从多方面来考虑。特别要考虑语言的交际功能,考虑准确性(correctness)、流利程度(fluency)和得体性(appropriateness)三个方面.李筱菊(1997)是这样解释的:“准确性指语言符合语法(广义的语法,包括语音、语法、词汇)规则。这只关系到语言形式系统本身。流利,有些人以为就是讲话讲得快。其实这主要不是速度问题,而是效率问题。流利就是能用语言熟练地、不受拖延、不受阻滞地达到要达到的目的。”“得体性,指所用的语言是否适合于\n具体的语境和情景。,按照这样的标准,可以从以下三方面要求,评价学生的口语能力。(1)信息组织是否合理,表达与交流是否流畅。学生在组织语言进行表达时,可能有语法和词汇方面的错误,影响表达的准确性,但基本信息应能得到有效传递;(2)语音、语调和节奏是否自然,是否能使对方听懂;③是否能使用恰当的交际策略。口语表达中,学生应能使用简单的交际策略,如重复、澄清、使用表情和手势等,使交流活动得以顺利完成。总体上看,初中英语口语测试强调准确性与流利性的结合,而不同题型对准确性与流畅性有所侧重。回答问题可以加强口语的准确性,自由谈话、讨论都能提高口语的流利程度。强调准确性与流利程度的结合,教学质量就能有显著提高。对初学者而言,一开始重视准确性有利于打好牢固的语言基础。过分强调流利程度,不注意语言的准确性,可能会导致形成不良的语言习惯。长期以来,口语教学有重语言形式、轻语言内容与意义的倾向。这些倾向都会对测试员的评分产生影响。(2)口语能力的技能构成语言学家Wei雨日ygate(19如)认为口语能力由三种技能构成:首先,语言微技能(micro-linguisticskills)。指语言形式,包括:语音、语法和词汇等知识。对语言的准确性,不宜过于苛求,否则会导致学生不开口。但也不能一味强调语言的交际功能,而忽视了语言的正确性,致使某些语言结构的错误固化在学生的语言体系中,难以纠正。同时要注意语言形式的多样性,通过口语的训练,帮助扩大语言的词汇量和改进句子的结构。不注意丰富词汇量和掌握多样的表达方式,学生的口语水平只能停留在低层次水平上。其次,常用表述技能(routineskills)。指典型的日常交际用语和传递信息的技能,其中包括:①运用“问候、介绍、告别、感谢、道歉、邀请、请求允许、祝愿和祝贺、提供帮助、约会、打电话、就餐、就医、购物、问路、谈论天气、语言交际困难、提醒注意、劝告、建议、态度、同意和不同意”等日常交际用语的能力(初中英语教学有关的“功能意念项目”,详见全日制义务教育普通高中《英语课程标准》(实验稿)附录三)。②描述或叙述事件、事物和人物等的技能,包括:个人情况,家庭、朋友与周围的人,周围的环境,日常活动,学校生活,兴趣与爱好,个人情感,人际关系,计划与愿望,节假日活动,购物,饮食,健康,天气,文娱与体育等方面(初中英语教学话题,详见全日制义务教育普通高中《英语课程标准》(实验稿)附录四)。第三,交际应变技能((improvisationskills)。指交际过程中解决问题以完成沟通的技能。例如,引出话题、维持交谈、插话、转移话题、话轮转换、澄清与查证特殊意义、预示和结束谈话的技能,改变措词的技能,纠正口译中的错误技能和保证语言交际中参与得体的技能。语言微技能是口语能力的基础,没有一定的语言结构知识是无法进行口头交际的,仅有语言知识,而不知道哪些是日常交际用语和交际的规则,仍然没法进行交际。交流过程中随时会出现出乎意料之外的情况,比如,说话者被误解,对方对你所说的东西不感兴趣,或说话者突然被别人打断正在说的话,要回答别人所提出的问题等。交际应变能力在语言交际显得甚为重要。2.4.1.2评分者的经验和能力初中英语口语测试属于高厉害的考试,考试的成绩高低直接影响学生的升学,\n学生、家长、学校和社会高度关注。因此,口语测试工作要求高,压力大,没有过硬的英语学科素质,没有丰富的英语教学实践经验,就不能保证测试工作高质量。评分者要具备扎实的英语教学基本功、要熟练掌握测试内容、口语清楚流利。要具备较高的考场管理能力,对待考生态度亲切、耐心,善于发现学生的困难,并在考试规则允许的范围内给予必要的帮助;遇到突发事件,沉着冷静,妥善处置,确保测试工作有序进行。2.4.1.3评分者的年龄、性别、学历、职称口语测试工作面广量大,评分者的组成应符合基本要求,例如,年龄结构合理互补性强,学历层次高、职称结构合理,评分者的性别应达到基本比例(如不低于30%)等,以适应测试的需要。2.4.1.4评分者的健康状况、心理稳定水平口语测试的组织与实施工作要求高、持续时间长、强度大、面对各方压力,测试过程中,评分者和考生均会发生偶发事件,评分者良好的健康状况、稳定的心理水平尤为重要。2.4.2试题信度实际测试中,命题在先,测试在后,试题信度的高低首先影响评分者信度。较高的试题信度是保证评分者信度的前提条件。试题信度是指一种测验的得分是否前后一致。例如,如果一种测验有两套平行试卷,同一个人连续两天做这两套试卷,而得分几乎相同,这种测试就具有试题信度。受客观条件限制,一般重大考试无法用重测信度的方法评价试题信度。从命题者的角度来出发,如果要提高信度,需要考虑以下因素:(1)试题的量是否足够大。虽然主观题评分误差较大,但是所占分数不宜过多,以免对总分产生太大影响,但适度的题量是口语测试的必要条件。一般来说,10-15分钟可以测试出初中学生的口语能力。(2)题目是否属于同一性质,即试题是否属于同一范畴,有无较高的内容效度。(3)题目的区分度是否高。题目的区分度越高,测试信度越高。(4)考试之间的差异性是否大。这是指考生的分数分布情况是否呈现正态分布。(5)题目难易是否适中。过难或过易的题目的区分度较低,测试信度也较低。(6)评分是否客观。客观测试的评分由于不受评分者的影响,因而信度较高。影响评分者信度的因素很多,虽然考生考试心理状态、考场内外环境以及社会对考试的关注程度都有可能影响测试的信度,但就影响程度而言,试题信度和评分者信度是影响主观性测试质量的关键因素。试题信度相对容易控制,因为命题机构可以选择精通测试理论与实践的专业人员,有充裕的时间、科学的命题技术手段控制试题质量,把试题对测试信度的不利影响降到最低,而评分则成为最难控制而对测试信度影响最突出的关键因素。2.4.3操作方式2.4.3.1口语测试的形式在口语测试的门类上,Clark(1975)将口语测试分为直接口试和间接口试。现在,口语水平测试可分为以下三大类:直接型口试、间接型口试和半直接型口试(录音机或计算机辅助口试)。(1)间接口试通常通过笔试的方式来测量考生的口语水平。如通过辨音、多项选择题和文字填空题形式测试学生的音素、语调、重音等语音知识和常用交际用语等。实践证明,间接口试由于不能考查到学生口头交际的实际能力,考试效度低,口试一般不采取这种形式。\n(2)现代语言测试理论的原则之一就是要测什么就考什么。要测量学生的口语水平,必须让考生开口说话,通过让考生开口说话来对其口语能力作出判断。常用的直接口试的题型有:模仿(由测试员读或播放录音,学生跟读),朗读(考生准备数分钟,看着文字朗读),对话(考生回答就短文所提出的问题,学生就听到的日常交际用语做出相应的回答或反应,考生也可以就语言材料对测试员提问或分角色对话等),独白‘(考生看图说话,按中英文提示描述或叙述事件、人物和物件等),讨论或争论(考生之间根据试题的提示,进行讨论或辩论),面试(考官通过多种提问技巧,多层次多角度地观察学生的口语能力,也允许学生向考官提问)。直接口试旨在尽可能多地重视语言运用情景及其可能真实的口语样本,效度比较高。但由于直接口试的瞬间性较强,考官水平因人而异,评分标准较难统一,考试的信度会受到一定的影响。(3)一些大规模考试中,由于考生多,测试员少,直接对所有考生口试做不到,因而采用半直接口试。半直接口试的题型与直接考试的题型和方法相近似,要求考生按录音带的提示进行录音。这种考试的优点是:实施时省时、省力、效率高;可以避免测试员不一致对考生造成的成绩影响;不直接面对测试员,更有利于发挥水平。但无法采用“讨论”或“辩论,、“面试斤等直接进行考试的方法。由于口语交际基本上是一个相互交流的过程,根据上述标准,一个较为理想的直接口试形式应为面对面的交流。面试型口试被认为较能代表直接口试特点的形式(Clark,1975;Raatz,1981)。根据初中英语教学的实际情况,常用的口语测试的方式有:提问与获取信息,描述事物与事件,角色扮演,讨论,情景交谈,口头作文,朗读,跟读和复述.‘2.4.3.2口语测试的评分方式徐强(1991)认为科学的评分标准主要指评分方式的科学性。与写作评分一样,口语测试的评分方法评分通常有两种:综合法(holisticapproach)和分析法(ana丫icapproach)。综合法是测试员从总体上把握考生的口试表现,凭测试员对考生的总体印象打分,速度相对较快。分析法是把口试表现分解为若干要点,如语法、内容、语音语调、流利程度、准确度和词汇的使用等。不同的要点可作不同的加权处理,各要点得分总和为口试的总成绩,速度相对慢一些,但评分结果要相对准确一点。分析法侧重于语言结构和语法规则的正确性,综合法则强调语言的交际功能和交际效果。目前口语测试中,一般采用了综合法与分析法相结合的方法来评分,这样一来,既可以保持总体印象,也不忽视口语能力中的各个要素。为了减少评分的误差,可以采用双人评分((doublemarking)或者多人评分(multiplemarking),就是两人或者两人以上分别为同一名学生评分,得分取评分人给的分数的平均分。如果教师有较高的水平,能够掌握评分标准,而且搭配适当,可以明显提高评分质量。2.4.3.3考试的组织、管理影响信度的因素不仅在于命题方面,在很大程度上还受考试的组织、管理等方面的影响。陈福华((2003)在《英语口语测试的研究》中指出,大规模英语口试大概可以‘分三个阶段进行:第一阶段是按命题双向细目表及复检表进行命题,第二阶段是进行口试,第三阶段是总结与调整。各个步骤的具体做法如下:(1)明确目的。命题者要明确考试的性质是什么,是学业成绩考试(achievementtest),还是水平考试((proficiencytest)。(2)确定考试的对象和考试的能力层次。命题者要了解考生的年级或年段,要求\n考生要通过什么级别的英语口语考试(详见《课程标准》中第三部分的内容标准中的“语言技能”)。确定考试的层次,指口试准备考查学生的认知水平的层次,是“知识”和“理解”为主,还是以“应用”、“分析,和“综合”能力为主。(3)确定考试的形式。英语口试有三种形式:直接口试形式(人人对话),间接口试形式(以笔试的形式进行口试)和半直接形式(人机对话)。(4)制定命题双向细目表。命题双向细目表包括考试内容和语言能力要求,双向细目表应根据考试的目的和学生的认知水平而定。另外,还应设计一个测试项目复检表,以检查试题是否落实双向表的内容和语言能力,克服随意性。(5)编制试题与评分标准。命题者根据双向细目表和复检表,编制试题及相应的评分标准。评分标准应包括语言的内容和语言的表达技能在内。试题分“学生用卷”和“教师用卷”两类。由于英语口试是分批进行的,因此要命制多套难度和效度相一致的试卷,以免泄题。(6)制定考务管理细则。与笔试和听力考试相比,英语口试的考务管理要复杂得多。参加考务管理工作的人数较多(除了负责英语口试的测试员外,还要得到学校行政领导的重视及其他学科教职员工的配合),测试员要交换学校进行口试(不能考本校的学生),每一时间段能考多少学生,分多少批进行考试,每批学生在什么时候进入考场等,应在考试前作周密的安排。(7)模拟考试。正式考试前提前数月选定不同类型的中学的学生进行模拟考试,模拟考试时要拍摄录像,供考官上岗前培训使用。(8)进行测试员岗前培训。测试员在考试前要学习有关的评分标准和考务要求。测试员的业务水平和思想素质对考试起到关键的作用,语言学家Raatz(1981)认为,口试中最大的问题在于考官的标准化(standardizationoforalraters/examiners)。(9)进行大规模的口试。与笔试和听力考试所不同的是,由于考试要分批进行,大规模考试要分多个时段进行。比如南京市初中毕业生每年约8万人,口试需用2至3天内完成,组织实施的难度大。0N撰写考试质量分析报告和建立题库。通过电脑抽样(或全样)分析考试的信度、效度、难度、区分度等,然后提出改进测试的意见,并建立口语测试的题库。第三章研究问题与设计3.1研究问题建立口语考试评分的质量监控体系,以提高口语考试结果的信度。这是教育改革对考试评价的要求。提高测试的信度,使测试结果更加公平、公正,能充分发挥口语测试对外语教学的反拨作用,所以有必要对口语测试中评分者信度及其影响因素进行研究。各级各类考试(国外、国内大中小学都增加了口语测试或加大了口语测试的力度)为研究提高了依据和实施的可能性。江苏省初中英语口语等级测试是省级考试,全省每年有100万左右的学生参加考试,本次研究以南京市沿江工业开发区2004年英语口语测试为研究样本。本次研究严格按照省市有关要求,通过对初中英语口语等级测试的全过程的调控,记录测试流程中可能影响测试信度的环节的实施情况,重点是测试员的选择、培训、测试的实施,以及其他环节,统计、分析测试数据,得出研究结论。国内有几例关于专业英语口试、高考英语口试信度的研究,而初中英语口语测试评分者信度的研究尚无先例。本研究主要研究以下问题:分析有哪些影响初中英语口语测试评分者信度的因素;控制影响初中英语口语测试评分者信度因素:分析\n控制初中英语口语测试评分者信度的研究结果(相关系数、信度系数、差异分析);提出完善研究的改进意见。本研究尝试开展口语考试信度研究,有利于明确提高英语口语测试质量努力方向,充分发挥口语测试的导向功能,以促进英语教学及口语测试健康发展,推进课程改革顺利实施,推动英语教育教学的发展。3.2方法本次研究采取实证研究的方法,在南京市2004年中考英语口语测试的实施过程中,研究初中英语口语测试评分者信度。3.2.1工具本次研究的工具包括南京市2004年中考英语口语测试评分表,SPSS(12.版)统计软件。3.2.2数据分析口语测试评分者信度的效果评价包括口语测试与笔试成绩的相关分析,克龙巴赫Cronbacha系数计算,简单一致性百分比统计分析。还计算了均分、难度系数、区分度、标准差等。3.3研究计划本次研究开展于2004年2月至6月,分三个主要阶段:第一阶段是口语测试前的情况调查、动员与制定实施计划阶段;第二阶段是口语测试的实施与对影响评分者信度因素的监控:第三阶段是口语测试评分者信度的效果评价。(1)口语测试前情况调查与制定实施计划阶段。在总结2000-2003四年测试工作的基础上,进行广泛调查,听取基层学校、任课教师的建议和意见,思考进一步提高测试质量(重点是评分者信度)的途径与方法。不断健全与完善测试员的选择与培训机制,加强对影响评分者信度相关因素的控制,制定本次研究的具体实施计划。②口语测试的行动实施与过程监控本阶段包括测试员的选择,测试员的培训,口语测试的实施等阶段。测试员的选择需要考虑英语口语水平、年龄、测试经历、管理能力、应变与协调能力等因素;测试员培训包括学习(2004年江苏省中学生英语口语等级测试纲要(试行)》(初中部分)、(2004年江苏省中学生英语口语等级测试实施办法(试行)》(初中部分)、《南京市2004年初中生英语口语等级测试实施细则》等文件,学习评分标准,熟悉测试操作程序,模拟测试等阶段:实施口语测试包括测试分组,确定主考与副主考,实际测试与评分,成绩统计与各场次小结等。(3)口语测试评分者信度的效果评价本阶段主要完成以下工作:①计算口语测试成绩与书面考试成绩的相关系数,分析其相关程度的高低,计算克龙巴赫。系数,解释信度的可接受性;②通过对可比场次之间测试结果的方差分析,分析测试结果的一致性程度;③测试结果有显著性差异的场次各测试项目一致性统计,分析比较各项目对测试结果的影响情况:④提出完善研究的改进意见及对教学的思考。第四章研究过程口语测试包括命题、施测和评分等主要阶段,每一阶段又有一系列的环节,每一环节都会影响测试的信度。要达到理想的口语测试信度,命制高质量的试题是首要环节。命题质量高低直接关乎测试的成败。理想的试题信度是进行评分者信度研究的前提条件,否则评分者信度研究则无从谈起。4.1试题信度的一致性测试是一种测量的方法,任何测量方法都会出现误差。误差大,测量的结果就\n更可能不一致、不稳定,信度就可能更低。为了尽可能减少测量误差,江苏省中小学教研室采取了以下措施,以控制不同场次试卷的内容和难度,保持各套试卷(24套)的一致性,提高各套试卷的信度。(1)严格依据《纲要》确定的测试目的、测试要求和测试内容出题,测试的语言功能与语言能力、选材的要求与范围、测试题型全部在《纲要》规定范围之内,以更好地实现考试目标。也保证了命制的试题在内容和难度上的尽可能一致。②试题的题量适中,占中考英语学科总分的10%左右,测试时间合理。全卷共分四大题,包括朗读短文、回答问题(5小题)、情景对话和话题简述。先将原始分转换为等级,再将等级按不同的分值记入英语学科的中考成绩,一级按7分,二级按10分,达不到一级的按4分计入总分(中考英语满分为120分)。测试时间共10分钟,其中准备时间(熟悉试题)5分钟,接受测试时间5分钟。(3)各场次的试题均依据《纲要》所确定的标准命制,测试内容涵盖所要测试的功能项目与话题,所有试卷的朗读短文、回答问题、情景对话和话题简述的试题属于同一范畴,有较高的内容效度。各套试题力求同质性,在测试目标、测试内容、题型、题量、指导语、试卷编排方式、时间安排、施测方式、评分方法、评分标准等方面都做到一致。口语测试需要多人评分的考试,《纲要》拟写了比较详细的评分说明,阐明评分方法、评分标准,控制评分宽严的措施,教师得以充分领会规则,按章办事。4.2考试条件的公平性考试条件的公平与否也是影响考试质量的重要因素之一,考试条件是否一致,如路途的远近、测试场所的熟悉程度等,都会对考生造成生理和心理影响,从而造成测试误差。英语口试的考务管理要比笔试和听力考试复杂得多,必须通过制定考务管理细则,坚持考试流程的规范性,注意营造体现人本关怀的考试氛围。(1)按照位置适中,交通便利,环境优美,考场分布合理,有利于考试管理的要求,确定在区教师进修学校设置考点。考点在本区中心位置,周边环境安静,校内建筑设施布局合理、区域相对独立且衔接顺畅,多次成功举办过全区性大型教学活动,考试组织经验丰富。(2)考点设置与考生有关的设施。如场所平面图、医务室、茶水室和休息室。(3)在醒目处张贴考场指示标记,并安排专人引导学生进入等候室、准备室和考场。(4)反复向有关人员宣传注意事项,再三强调考试的场次、时间、换场顺序和交通安全等细节。4.3提高评分者信度的方法评分者对评分标准达成一致的理解和把握,是保证口语测试信度的重要因素。提高口语测试信度的关键就是如何最大限度保证评分者之间、评分者自身和评分点之间评分一致性。而提高口语测试信度关键是挑选和培训测试员,制定科学、客观公正的测试管理机制。4.3.t测试员选择江苏省初中英语口语测试采用直接测试的形式,即测试员与考生进行面对面的口头交流,并当场判定其得分。测试员既是测试的组织者,“情景对话”时充当某一角色,还是评分者。要求评分者(测试员)在很短的时间内做出判断,对评分标准的掌握比较难以完全一致,与半直接口语测试相比,评分者信度会受到一定的影响因此,此类测试对测试员的素质要求较高。根据口语测试的特点,应按以下三方面标准挑选的测试员:\n(1)综合素质过硬,口语水平高。测试员自身的业务素质对考试能否成功起到十分重要的作用。担任初中英语口语测试测试员应为初中英语骨干教师,有扎实的语言素质,有一定的发音质量,语音、语调清晰、自然,没有本族语口音,能对较广泛的话题进行流畅、灵活的、连贯的交谈,有丰富的教学实践经验,以及较好的测试组织能力。(2)身体健康,精力充沛,能胜任口语测试工作。根据《细则》的要求,初中英语口语测试每天测试4场,每场测试16名学生,每位考生测试时间为5分钟(不包括5分钟准备时间),每天需要测试64名学生,共需要5个半小时左右;再加上调试录音设备器材、熟悉试题、填写表格等相关工作,连续工作时间长。测试员每天上午7:20到达工作岗位,下午5:00结束工作,中午只有1小时用以吃饭休息。工‘作中测试员必须注意力高度集中,工作负荷明显强于日常教学,没有健康的身体与充沛的精力,很难胜任此项极度耗费脑力与体力的工作。(3)认真负责,责任心强。考生的口语水平的发挥容易受周围环境、测试员态度的影响:尽管测试员对各场次的操作流程、评分标准把握准确熟练,但长时间的测试也容易产生疲乏、困倦、甚至厌倦烦躁等情绪。测试员只有保持高度责任心,精神饱满,态度和蔼亲切,才能及时发现考生的语言困难,帮助考生消除紧张心理,使每个考生都能发挥应有水平。按照上述条件,以及工作量的测算,口语测试组织结构(区教研室)报主管部门审核并批准,推荐44名符合条件的教师参加培训,作为测试员的推荐人选。基本情况如下表:测试员基本情况表学历年龄(平均32.9)测试经历大专本科40岁以下40-50岁有首次12人34人38人6人28人16人4.3.2测试员培训直接口试虽有较高的表面效度,但评分过程却存在着缺陷,即“直接口语测试的评分信度通常较低,(Shohamyetal,1986)。原因之一是测试员的专业素质。初中英语口语测试测试员担负组织测试和评分的双重任务,“情景对话”时充当某一角色,测试员必须经过系统培训,保证测试和评分的公正、客观。另一个原因是评分的瞬间性。初中口语测试的施测与评分同步进行,因而,口试对评分人员的压力大,对他们工作要求高。在听取考试样本口试的同时,测试员要对样本的等级当场作出快速、准确的判断,如果没有较高的专业素质实在难以做到公正、客观地评分。第三个原因是直接口试的标准化问题。主要指口语测试的主观性和交流过程中的非预测性两大因素。口试的主观性主要指测试员或评分人员无法与评分过程完全分离。按照Raats的话“测试员是考试的一个组成部分气结果测试员在“看到与听见考生时把个人的看法与偏见一起带进口试的情景内”(Raatz,1981)。因此,口试分数很有可能部分反映了考生的口语水平,部分反映了测试员或评分人的个人看法。应通过培训使测试员统一评分标准,客观、公正组织测试与评分。测试员素质的高低是影响口试信度的关键。测试员自身的业务素质对考试成功与否起到十分重要的作用,高素质的测试员在大规模的英语口语考试中十分重要,在选择测试员的基础上,测试员的培训是大规模口试最重要的环节,区教研室于2004年3月下旬组织进行了测试员培训,测试员培训主要包括以下内容:\n(1)了解考试背景及其意义。介绍国内外外语教学的发展趋势,从推进素质教育的高度认清口语测试的重要性,充分认识口语测试的导向作用、激励作用,从构建和谐社会、维护社会稳定的角度认识提高口语测试质量的意义。(2)学习评分标准,研究评分方式.南京市教研室总结了前几年口语测试的实施情况,对江苏省教研室制定的评分标准进行了微调(评分方式未变),设计了评分表,并详细规定了评分的程序,使评分标准更加科学合理,评分过程简便,操作性强,易于实施。(见附表III)(3)统一施测要求。测试员的现场精神状态、发音、语调、语速和提问,引导技术运用等可变因素会对测试产生影响。测试员态度、语气的和蔼有利于消除考生的紧张焦虑心理:测试员的发音清晰、语速适中和音量适宜有利于考生的问题理解和回答,而语气生硬、语速过快或发音含糊就可能给考生造成听力困难;另外测试员提问次数多少,引导考生回答问题的技术的娴熟程度也会影响考生水平的发挥。(4)观看口语测试的样带,依据评分标准试评样带,讨论试评的反馈信息,进一步统一把握评分标准尺度。1999年底至2000年初,江苏省教研室依据《纲要》组织省市英语教研员、中学英语骨千教师命制样题,选取了不同层次的学生进行口语测试,并依据评分标准当场评分,同时将测试全过程录像,制作了口语测试的样带。样带制成后,又广泛征求意见,组织专家反复讨论,确定学生的最终成绩,并以此为标准,下发至各测试员培训机构,作为培训的依据。测试员根据评分标准,观看样带,独立为样带中每一样本评分,然后汇总试评的反馈信息与标准评分逐一对照,重新观看有争议的样本,分析样本的各部分的测试成绩,说明评分依据,达成一致意见,进一步统一把握评分标准尺度。培训测试员时,统一评分标准后立即计算评分者信度。可多次随机抽查两至三人或多人在评定同一份试卷时的相关系数,直至它的值达0.6以上。(5)模拟测试,经历测试流程,获取测试体验。模拟测试是培训测试员的重要训练,是学习领悟评分标准和实习评分的活动,目的在于提高测试员评分一致性。测试员在交流评分标准的时候,就有可能出现不同的理解,通过模拟考试,使测试员进一步熟悉和灵活把握评分标准,发现测试过程中存在的容易引发争议的问题,比如:发音不准与发音错误的界定,话题简述中相同错误的扣分尺度的掌握等。通过交流、议论,统一对评分标准的理解,以提高测试员评分的一致性和稳定性。模拟测试过程录音,以检查测试过程中是否有内容遗漏,并对评分进行复审。4.3.3测试管理机制(1)回避制度:《意见》规定,有直系亲属参加口语测试的教师不参与测试工作(包括候考室、准备室、过道等岗位),本校教师不测试本校学生,不从参考学校抽调工作人员(测试员除外),以保证测试的公正性。(2)监督制约机制:根据多次口语测试积累的经验,比较理想且符合实际的方法是每场安排两名由不同学校的教师担任正、副主考。正、副主考的确定以及考场安排于考前30分钟公布,每半天调换一次。测试员交替主持测试,考生的测试成绩由两人分别评分,然后综合评议而定。意见不一致时,以主考教师的评分为准。也可以设定一个明确具体的允许的差异范围,在此范围内,计算平均分;如果超出允许的差异范围,则请组长或其他人员评分。考生的考试场次提前公布,同一时间段有若干考场同时测试,每位学生的具体考场则现场抽签决定。(3)抽检制度:口语测试期间,市口语测试领导小组安排巡视员前往各区县现场督查,巡视员查看测试全过程的实施,还监听测试员的评分过程。口语测试结束后\n市招生办公室、市教研室抽调考试录音,了解把握评分标准情况。(4)仲裁制度:《细则》要求各考点成立仲裁小组,考生如对测试成绩有异议,可以拒绝签字,并按仲裁程序申请仲裁。2002年起,南京市将口语测试成绩记入中考成绩,测试员对各自所在考场测试全程录音。仲裁小组有权抽调学生的评分表和录音磁带,评判测试结果是否公正合理,对不需更正的测试成绩向考生书面说明,对需更正的测试成绩应征得市测试领导小组的同意。仲裁结果须有文字记录。本次考试所有学生都签字认可自己的考试成绩,没有考生提出仲裁申请。4.3.4测试日程根据全区学校数、学生人数、候考室的容量规模、考场数量和可以抽调测试员数量等实际情况,全区设置一个考点(区教师进修学校),21个考场,考试时间为2004年3月26,27日两天.4.3.5测试程序(1)测试开始前20分钟,考点主任、副主任在考务办公室当众拆分试卷袋,每个考场正副主考一起领取试卷一套,到考场后一起拆分试卷。(2)考生应按成绩卡(准考证)规定时间前到达考点,由各校送考人员安排集中统一入场。开考后迟到学生不得参加本场测试。(3)测试前,工作人员按建档号顺序点名,抽签确定测试考场和试题。(4)考生进入准备室,先出示成绩卡(准考证),然后按要求准备5分钟。⑤准备完毕后,考生按工作人员指示进入考场,先出示成绩卡(准考证),再进行测试。(6)测试员当场公布考生的测试成绩,考生无异议须签字认可。考生如对测试成绩有异议,并拒绝签字,须按仲裁程序申请仲裁。否则视为认可测试成绩。(7)测试结束后,测试员填写评分表、磁带封面、成绩卡和密封袋等有关栏目,交考点主任查验无误后密封,交考务办公室保密员验收。4.3.6考点工作流程考点工作流程对考点各岗位(包括:门卫、保密室、总务、等候室、考务办、楼道、准备室和考场等)的各时间段的职责进行明确规定,做到分工明确,衔接顺畅,考点主任巡视调度,确保考点测试工作平稳有序开展,测试员和考生心态平稳,从容不迫完成测试。,:阅7:加下1犯,:犯7:书,:508:009:30,:知10:0011:3012:3012:5013:冈13:1013:巧13:2D13:315:叨15".2015:3017:00谈考生凭准考证、送考考生凭准考证、送考人员凭送考通行证入场。考生门卫清场人员凭送考通行证及送考人员的交通工具不得进入考点。入场当场试封存当封存当拆试卷交考务办保密室卷送至场成绩场成绩人员分发考务办袋袋录音机、磁带及封磁带及封协助调试设备:供\n总务面、龟、秒表送至琉散考生离场面送至考硫故考生离场应茶水各考场、准备室场点名、抽点名、抽坟写下领取材安排考介绍考试程序及拾放考签、坟写开始考签、坟写开始考等候室一场座料生就座考场分布生须知考场号、试考场号、试位安排试卷编号试卷编号考务办布盆任分发试枪查各岗位运行情脸收成脸收成考务办巡视巡视集中务卷况统记录绩记录梭道安排考生入场协助侧试员准备到尚开始联络协调交流幽开始联络协调交流肖·位运转·位运转准备室安排考生入场协助侧试员准备到肉维持准备室运转情况维持准备室运转情况整理并整理并考务办领取试调试器材考场熟悉试卷、侧试器材辞侧试上交成侧试上文成集中卷2+3等绩记录绩记录4.3.7测试成绩统计区口语测试领导小组安排专门人员录入考生口语测试成绩卡上的中考成绩,录入采取四人两机的操作模式,一人报分,一人监督,另二人异机录入,并进行比对,如有不一致计算机自动提示,录入人员检查修改,再次比对,确保成绩录入正确无误。考试结束后一周内,录入成绩经考生核对无误后,书面确认,该生的口语成绩生效。为研究需要,另组织专人分别录入了考生口语测试的各题的原始分数,还了考生2004年4月底的全区统一组织的书面考试(中考模拟考试)成绩,以供本之用,两次考试间隔时间在一个月之内,能反映考生在同一时期的英语水平,度高,有研究意义。第五章结论与启示5.1结论5.1.1本次英语口语测试具有比较理想的信度口语测试具有比较理想的信度,是分析评分者信度的前提条件。如果口没有比较理想的信度,则已没有进一步分析评分者信度的可能与必要。根据有件规定,考生参加江苏省初中英语口语等级测试的成绩即为考生参加所在市考英语口语测试的成绩。用SPSS(12.0版本)对沿江工业开发区参加南京市年中考学生的英语口语测试(原始分数)的信度进行统计,主要过程如下:(1)按朗读短文((readingaloud)、回答问题(answeringquestions)、情景(dialogue)和话题简述(presentation)确定四个变量,分别输入变量视窗(VaView);(2)在数据视窗(DataView)下输入所有考生的口语测试的各部分数值:(3)点击主菜单的Analyze,出现菜单后将光标移至Scale,出现次级菜单\n并点击ReliabilityAnalysis;(4)出现Reliabil勺Analysis对话框后,分别点击“readingaloud","ansquestions气"dialogue,和“presentation",将他们输入到Items框中:(5)点击OK.输出结果。结果显示口语测试信度系数Alpha=0.7876.拉多(1961)认为“口语测试理想的信度系数为0.70-0.79",本次英语口语测试的信度系数在理想的信度系围之内,具有比较理想的信度。黄素华(1998)指出,可以利用测试员评分的相关性来监控评分质量,即员对考生所评的口语测试得分与考生书面考试得分的相关系数应达到一个可以的标准(如0.4)。香港考试局规定的口试和笔试成绩的相关系数为..65。对考口语测试成绩与同期进行的统一的书面考试成绩进行相关分析,相关系数为.呈现显著性相关,结果如下表:口语测试成绩与书面考试成绩相关统计表考试类别!相关书面考试IIPearsonCorrelation.614(哟.000一口语侧试1Sig.(2-tailed)**在0.01水平上呈现显著相关本次口语测试的信度系数Alpha=0.7876,口语测试成绩与书面考试成绩的相关系数为.614,两类分析结果都表明南京市2004年中考英语口语测试有较高的质量,信度比较理想。与试题信度相比,口语测试信度的高低主要取决于评分者信度。口试测试信度比较理想,即说明评分者信度比较理想。进行评分者信度研究,须对评分者与评分者之间的一致性程度作统计分析。5.1.2评分者信度(评分一致性)较高口语测试信度和试题信度均比较理想,具备了进行评分一致性的分析研究的条件。对于大规模语言测试而言,评分者信度包括评分者之间信度、评分者自身信度和评分点之间信度,本研究主要分析评分者之间信度。(1)评分者信度(评分一致性)高低的判定方法为避免评分者以外的因素对测试信度可能产生的影响,本研究对研究范围与研究方法作了进一步的界定,将同时符合两个条件①使用相同试卷、②考场的考生英语总体水平一致并无显著差异等两个条件的考场的测试结果进行差异分析,根据一致性程度,从而判定评分者的信度高低。条件“使用相同试卷”很容易满足,但如何保证条件“考场的考生英语总体水平一致并无显著差异”?根据测试管理规定,测试前根据测试工作总量的大小,预先确定考场数量及考生参加测试的场次,而试题及具体考场(测试员)的选择由考生当场抽签确定,确保测试的公平性。测试过程中,同一学校的各班学生只能在所确定的若干考场内(无本校老师担任测试员)依次抽签,决定各人测试的具体考场。随机确定考场,可使同一学校覆盖的各考场之间的学生具有同质性,考场之间的学生英语总体水平应当一致,无显著差异。对考生参加全区统一模拟考试的书面考试成绩进行差异检验显示,随机分配到各考场的学生英语总体水平的确一致,无显著差异。(见附表I)在考场的学生英语总体水平一致,口语测试试题相同的前提条件下,如果各可\n比考场学生的口语测试成绩一致,无显著差异,则可判断测试员较好领悟评分标准,测试过程中运用评分尺度合理,评分者信度高。反之,如果考场学生的口语测试成绩明显不一致,差异显著,则可判断测试员未能充分领会评分标准,把握评分尺度明显不合理,评分者信度低。(z)评分者信度(评分一致性)结果统计对使用相同试卷且考生英语总体水平一致的考场的口语测试成绩差异检验结果(全部信息见附表I):人校F值显著意义试题测试分类F值显著意义试题测试分类.286.886口语测试.532.713口语测试AlC1.988.503.734书面考试.080书面考试1.424.247口语测试.937.429口语测试D1Bi.300.826书面考试..709.551书面考试上表显示A校选用4套不同试卷,用相同试卷的各考场之间的学生英语水平一致,各场次之间的口语测试成绩均无显著性差异。8校试题测试分类F值显著意义试题测试分类F值显著意义.210.的6.962口语测试1.559口语测试人C1.015.998书面考试.912.441书面考试.952.175.840口语测试.050口语测试BiD1.842.028.972.172书面考试书面考试.543.050.952.621口语测试口语测试AZq2.129.133书面考试.028.972书面考试3.725.064\n口语测试1.258.294口语测试B2’D2.815书面考试.暇M.670书面考试.056上表显示B校选用8套不同试卷,用相同试卷的各考场之间的学生英语水平一致,各场次之间的口语测试成绩均无显著性差异。0校显著意义试题测试分类唯显著意义试题测试分类F值.256.9101.343口语测试.013口语测试AlC1.046.831书面考试1.091.305书面考试.974.263.770口语测试.027口语测试BiD11.176.318书面考试.537.588书面考试.160.958口语测试1.753.167口语测试凡q.704.592书面考试.805.496书面考试.027'.012"口语测试2.926口语测试3.985B2D2.985.422书面考试1.005.398书面考试上表显示C校选用8套不同试卷,用相同试卷的各考场之间的学生英语水平一致,BZ和D2的各自场次之间有显著性差异,其它各场次之间的口语测试成绩均无显著性差异。D校试题测试分类F值显著意义试题测试分类F值显著意义.056.550.652口语测试2.687口语测试A3C31.606.204书面考试.203.894书面考试口语测试4.335.008'"口语测试1.456.243B3D3.178\n书面考试1.277.291书面考试1.729上表显示D校选用4套不同试卷,用相同试卷的各考场之间的学生英语水平一致,B3的场次之间有显著性差异,其它各场次之间的口语测试成绩均无显著性差异。E校试题测试分类F值显著意义试题测试分类F值显著意义1.181.326口语测试1.117.358口语测试凡C,书面考试.757.印5书面考试.236.945口语测试1.181326口语测试1.081.375B,几.479.792书面考试.236.945书面考试2.276.093口语测试2.924.041"口语测试C,A,.927.436书面考试1.608.197书面考试.492口语测试1.609.211口语测试.725B4D4.074.929书面考试1.565220书面考试上表显示E校选用8套不同试卷,用相同试卷的各考场之间的学生英语水平一致,人的场次之间有显著性差异,其它各场次之间的口语测试成绩均无显著性差异。F校试题测试分类F值显著意义试题测试分类F值显著意义口语测试.959.391口语测试.065.937A4C4.097.908书面考试3.173.051书面考试口语测试10.846,000*s口语测试6.848.003二B4D43.212.051书面考试1.740.187书面考试上表显示F校选用4套不同试卷,用相同试卷的各考场之间的学生英语水平一气致,氏和D。的各自场次之间有显著性差异,其它各场次之间的口语测试成绩均无显著性差异。G校试题测试分类F值显著意义试题测试分类F值显著.299.7431.000.37口语测试口语测试A2q.056.94\n.049书面考试.953书面考试.656.5243.932.030口语测试口语测试B2D2.152.8602.778.07书面考试书面考试上表显示G校选用4套不同试卷,用相同试卷的各考场之间的学生英语水平一D2的场次之间有显著性差异,其它各场次之间的口语测试成绩均无显著性差异汇总所有可比场次之间的差异情况,统计结果如下表:可比场次的差异情况统计表无显著性差异显著1生差异,,令it-p>0.05p<0.05p<0.01数量403343百分比100%82.5%10%7.5%上表一致性统计结果显示,可比场次之间的评分一致性程度较高,评分者信度较高:具有可比性(使用相同试题,学生的英语总体水平一致、无显著性差的40分析样本中,33个(占82.5%)样本在0.05显著性水平上无显著性差异,4个10%)样本在0.05显著性水平上有显著性差异,3个(占7.5%)样本在0.01显著平上有显著性差异。如果再对7个有(极)显著性差异的样本进行深入分析,即项目(朗读短文、回答问题、情景对话、话题简述)分别进行方差分析,可以各项目的评分者信度差异的分布情况。当然,0.05显著性水平上无显著性差异的场次各项目之间也有显著性差异的能,因为没有导致中考成绩产生显著性差异,故不作进一步分析。(3)各项目评分差异分析初中英语口语测试有四个项目,分别是朗读短文、回答问题、情景对话和简述,其中任何一个(或多个)项目上的评分者信度的显著性差异,都可能导语测试的评分者信度的显著性差异。‘’有显著性差异的考场的各测试项目差异检验结果(全部信息见附表n):C校试题测试分类F值显著意义试题测试分类F值显著意义9.464.000k03.114.021'朗读短文情景对话BZ12话题简述4.733.002'情景对话5.071.004""上表显示,评分者对C校使用Dz1-4卷的5个考场之间的情景对话的评分,有显著差异;对使用氏试卷的4个考场之间的朗读短文和情景对话等项目的评分,使用D,卷的5个考场之间的情景对话的评分,有显极著性差异。D校试题测试分类F值显著意义试题测试分类F值显著意义3.421.025'回答问题4.663.《洲)6"'情景对话B3B3\n4.849.005"'/ll话题简述上表显示,评分者对D校使用B,4卷的4个考场之间的情景对话的评分,有显著差异,朗读短文和话题简述等项目的评分,有极显著性差异。E校试题测试分类唯显著意义试题测试分类F值显著意义2.879.以3"A4朗读短文//ll上表显示,评分者对E校使用凡试卷的4个之间考场的朗读短文的评分,有显著差异。F校试题测试分类F值显著意义试题测试分类F值显著意义.以洲)..12.735.000**B4朗读短文52.50B4话题简述上表显示,评分者对F校使用B,试卷的3个之间考场的朗读短文和话题简述等项的评分,有极显著性差异。e校试题测试分类唯显著意义试题测试分类F值显著意义7.741.002"8.586.001"朗读短文话题简述DZDZ回答问题3.899.031*lll上表显示,评分者对G校使用Dz试卷的3个考场之间的回答问题的评分,有显著差异,朗读短文和话题简述等项目的评分,有极显著性差异。对全部有显著性差异场次的各项目进行差异分析,有显著性差异的项目统计结果如下表:显著性差异场次的显著性差异项目结果统计表合计朗读短文回答问题情景对话话题简述次数百分比}Z},1}921llllll2753.8%B2D2D2B2D2D2D233lB3B3B323.1%4323.1%A4B4llB4次数423413100%合计百分比30.8%15.4%23.1%30.8%100%l上表统计显示,半数以上(53.8%)的显著性差异出现在3月26日下午的场次,3月27日上、下午的场次各出现23.1%的显著性差异,3月26日上午的场次没有出现显著性差异。从项目方面分析,阅读短文和话题简述出现显著性差异的比例最高,\n达到30.8%:其次是情景对话,达到23.1%:显著性差异的最低是回答问题,为15.4%e综合培训与测试期间测试员反馈的信息,可以从以下几方面原因分析上述统计数据。回答问题部分的试题客观性较强,变化较小,测试员能较好的把握标准,因而考场之间的差异较小。而朗读短文部分的出现显著性差异的比例高,与朗读材料相对容易、区分度较低有直接关系,同时测试员对语音正确、语调自然等一些描述性的标准把握,难以做到长时间一致。这些分析结果与聂建中等人的研究结果一致。部分一级试题(朗读短文、回答问题)的特点导致一级部分信度低较低,Alpha=.6414;二级部分试题的难度系数适当降低,提高了信度,Alpha二..7694.因此需要测试员准确把握每一项目的评分标准,力求评分程序规范,掌握评分标准公正、合理,确保每一位测试员都有较高的评分者信度。5.1.3试题难度、区分度对评分者信度的产生一定影响试题信度比较高是分析评分者信度的另一个前提条件。通过对对测试题进行项目分析,评判试题信度,可以发现试题对信度的影响情况。(1)朗读短文和情景对话的区分度0.3208和0.3666,区分度良好。章兼中(1991)认为0.30-0.39区分度较好(如能改进更好)。回答问题和话题简述的区分度0.4447和0.4981,区分度优秀,全卷题目的区分度比较高,全卷的试题信度比较理想。口语测试各项目区分度统计表一级二级题目朗读短文回答问题情景对话I话题简述区分度0.32080.中料70.3666!0.4981根据《办法》规定,没有通过一级测试的学生不能参加二级测试,所以一级与二级的考试人数不同,因而无法计算全卷区分度。(2),!}--卷题目难易度的高低也是影响测试信度的重要因素。口语测试作为合格性考试,难度系数通常较高,一般在0.80左右,与书面考试相比(初中升学0.70左右),本次测试题目难度系数略高,因而信度会一定受影响。口语测试各项目难度系数、标准差统计表一级二级题目朗读短文回答问题情景对话话题简述难度系数0.7910.8280.8080.687标准差1.4922.2722.0902.471人数23742129由于部分基础弱的学生没有通过一级测试,因而失去参加二级测试的资格,所以一级与二级难度系数没有可比性。5.2建议江苏省教研室对初中英语口语测试进行了认真总结,认为:口语等级测试得到社会强烈反响。一致认为口语等级测试要求明确、组织周密、管理严格:口语等级测试是推进英语学科素质教育的重要举措,符合英语教学方向,对提高学生的英语综合运用能力起到推进作用:口语等级测试促进了英语课堂教学的改革,老师自身的英语素质得到提高:口语测试使大多数学生的口语成绩得到提高,学生在学习英语过程中获得了成就感,进一步树立了学习英语的自信心,学习英语的兴趣越来越浓厚。\n初中英语口语测试也给教育行政部门、各级各类学校、教学研究机构带来了很多启发与思考。5.2.1改进评分方式截至2005年,江苏省初中英语口语测试的现行评分方式已经使用6年,测试人员等已经准确熟练地进行测试、评分,确保了测试的质量,赢得了很高的社会声誉。上海高考英语口试、广东中考英语口语测试都已采用计算机辅助英语口语测试,实践证明,这种考试方法对提高口语测试的质量产生显著效果。南京市在全程录音、巡视组监控等措施基础上,可以进行计算机辅助口语测试的尝试,不断提高测试质量。(1)能在短时间内测试许多考生,节省人力和物力,提高工作效率。按目前的测试要求,每场次的考试时间只需15分钟左右,对监考教师的安排较为自由,同时教师的阅卷时间也有很大的自主性,疲劳时可适当放松,自己调节好时间,以保证阅卷的质量。(2)客观公正可靠。由于测试员不直接面对考生,考生口语水平的发挥不会受测试员情绪或水平差异的影响;可以避免测试员评分时受考生的衣着和仪表等外在因素的影响:评分可以由经过培训的专业人员统一在合适的时间和舒适的地点进行,可以按项目阅卷,而且在阅卷过程中考生是匿名的,这样就减少了主观印象因素。此外,阅卷时教师也可以反复听,做比较,修正评分,有利于提高评分的准确性。因此,增加考试的信度。③借助计算机技术,口语测试的评分质量得到了适时监控和调整,与江苏省高考英语作文阅卷一样,可以提高评分信度。(4)数据处理方便。考试的各种数据资料可以很方便的保存和处理。阅卷结束后,可以按照要求对原始声音进行各种分析,为以后的考试、科研和教学提供参考和依据。尽管半直接考试也有不足:测试员无法了解考生的体态语言和面部表情;当发现考生说得不清楚或说得太少时测试员不能适时干预;当录音设备出了问题或录音带听不清楚时,评分工作就难以进行。但是,从提高评分者信度的角度考虑,推行计算机辅助英语口语测试,利大于弊。5.2.2调整测试内容及形式口语技能指学生用英语进行口头表达的能力,特别是在真实语境中沟通信息、描述事物与情感、发表观点和意见的能力。模仿能力、句型转换能力是口语能力的基础,但它们不应构成口语技能考试的主要内容。有些题型,如朗读“是最基础的一类口语测试,主要测试学生的语音基础,不能代替口语表达能力的测试。这类测试方法一般适用于初学者(舒运样,2000)。”刘润清、韩宝成也认为:“朗读水平不错,并不能证明口头表达能力就强。朗读只是口头表达能力的一个方面,只能作为综合口试的一个组成部分。”《英语课程标准》规定了语言技能五级标准(初中毕业),其中说的技能应达到以下要求:(1)能就简单的话题提供信息,表达简单的观点和意见,参与讨论;②能与他人沟通信息,合作完成任务;(3)能在口头表达中进行适当的自我修正:(4)能有效地询问信息和请求帮助;(5)能根据话题进行情景对话:(6)能用英语表演短剧;仍能在以上口语活动中语音、语调自然,语气恰当。初中英语口语测试较多使用的形式有朗读、复述和回答问题等,这些形式可以继续适当采用。但是《课程标准》有些技能要求,本次口语测试没有能够覆盖。口语考试应该主要考查口头表达的实际效果,兼顾流利性和准确性。可以尝试一些更具有交际意义的口语考试形式,给学生创造更多真实表达的机会,如描述图片的内容并发表观点或看法,这样能够保持口语测试的较高效度。口试时,给学生一张图画或照片,也可以是图表或广告材料等,让考生准备几分钟,然后根据这些图片提问。图片可以是单幅的,也可以是多幅的。“用图画来\n让学生说话是一种很有效的口语测试方式。它通过一种非常直接的方式让考生开口,充分展现其口头表达能力和想象力(刘润清、韩宝成,2000)。分看图说话与其它口试形式相比,至少有三大优点:(1)考试成绩不受听力或阅读能力的影响,因此是纯粹的口语考试;(2)提供了直观的说话内容,避免因主题不熟而无话可说的尴尬,使测试目标集中于语言的表达而非内容的构思;(3)图片内容控制了说话的范围,使各考生的答案有更大的可比性,从而提高了评分的客观性(舒运强,1999).从测试理论角度,测试追求信度的完美,越接近1.00越理想。但主观题的信度是不是越高越好?主观题的信度过高,可能因试题的效度所致,本次口语测试的信度接近于理想信度的上限,反映初口语测试的试题题型设置的不足。受初中学生的语言水平的限制,口语测试的部分试题虽然以主观题的形式出现(如:回答问题),但是效度并不高,没有真正反映学生的口语表达能力,机械应答的成分多,客观性较强,因而信度略微偏高。5.2.3发挥口语测试研究的反拨作用口语测试评分者信度研究表明,口语测试的信度是比较理想的,评分是可靠的,需要坚定实施口语测试的信心,应当重视口语教学与口语测试,坚持推广口语测试,发挥其正面的反拨作用。英语口语测试不论采取直接面试还是人机对话,都力求从各个层面、各个角度测试考生的英语口语能力,都将对中学的英语课堂教学产生直接的影响。因此,如何在课堂教学中提高学生的口语能力,改变学生的英语“聋哑即状况,是迫切要解决的问题。口语对英语语言技能的发展有很大作用。口语要求学生综合运用语言知识,在短时间内把想说的内容很快表达出来,迫使学生不通过母语媒介而直接用外语思维,逐渐培养外语思维习惯。口语是一种自觉或不自觉运用所学的词汇、语法规则和语篇结构,按一定的节奏、语调和正确发音来口头表达思想的技能,从而能使学生巩固语法知识、增加积极词汇量,提高语言能力。口语包含听和说两个部分。在教学和测试中,通常将听单列为听力,而口语则主要是说。口语和听力均以语音为媒介,口语的训练能增强语音、语调的分辨能力,增强对语流形成的语篇的理解。因此,口语可以促进听力的提高,口语产生于书面语之前,因而它也是书面语的基础,也带动书面语的学习5.3有待继续研究的问题5.3.1评分者自身信度本次研究的是评分者之间的评分一致性程度,受条件限制,评分者自身信度研究没有涉及。如果采用计算机辅助测试,评分采用二人背靠背方式评分,可以不定时间地将已评阅的录音发回测试员重评,或观察测试员评分曲线的变化情况,以分析评分者不同时间段的评分者自身信度。可以从评分者角度,思考本次考试26日下午场次评分差异较大的现象,可能由于测试员自身信度不稳定造成的。5.3.2评分点之间信度作为大规模口语测试,初中口语考试共有四个项目。若采用计算机辅助测试,\n可以先将每个学生的各项分割,实行项目评阅,有利于提高评分信度,也可研究评分点之间信度。5.3.3试题信度对评分者信度的影响尽管对本次试题做了简单的分析,论证了本次口语测试的试题信度,但是由于各场次考生的水平之间的差异,无法确定24套试题之间难度是否等值,试题之间信度的研究没有能够直接进行。部分场次的测试结果的显著性差异的比例较高(例如D2和B3),而有些场次(Ai,Bi,Ci,Di)试题的没有出现显著性差异,可能与试题的信度有一定关系,也可能因评分者自身评分缺乏稳定性,有待于研究。5.3.4试题效度对评分者信度的影响一个考试可以具有较高的信度,但可能缺乏效度。然而,一个考试要具有效度的话,首先必须具有信度.只有当考试结果可靠,考试才能有效地测试出所选定的语言技能或能力,不可靠的数据无法用来确定考试的效度,信度是保证效度的基础没有效度只谈信度是没有实际意义的,决不能为了追求信度而忽视效度,也不能为了追求效度而放弃信度。目前初中口语测试的效度需要进一步提高,测试中注重语言形式和语言内容,学生机械应答的成分较多,忽视对学生交际能力的检测,因而导致部分教师、学生注重语言的语音、语调、语法等微技能,忽视得体性。结语口语测试对外语教学的积极的反拨作用越来越强烈,尝试研究口语测试的质量,不断提高口语测试的实施水平,有利于推动外语教学的健康发展,促进外语教学改革的深入开展。外语测试是一个跨学科的领域,它的理论和应用涉及语言学、心理测验、教育测量和计算机科学等多种学科。信度又是难以解释的。本次研究的视野比较狭窄,技术手段也较简单,因而非常稚嫩,希望得到来自外语测试与评价相关领域的专业指导,以增强英语口语测试信度评价的深度与广度,提升研究的实际应用价值。参考文献1.AldersonJ.Charles.etal.LanguageTestConstructionandEvaluation.ShanForeignLanguageTeachingandResearchPress,2000.2.AnasitasiA.PsychologicalTesting.PrenticeHall,1996.3.ClarkJLD.Theoreticalandtechnicalconsiderationsinoralproficiencytesting.CentreforAppliedLinguistics,1975.4.FredGenesee,JohnaA.Upshur.Classroom-basedEvaluationinSecondLanEducation.ForeignLanguageTeachingandResearchPress,2000.5.GillianBrown&GeorgeYule.TeachingtheSpokenEnglish.CambridgeUniversPress,1983.6.Hymes,D.Oncommunicativecompetence.玩PrideandHolmes,1972.7.HeatonJB.WritingEnglishLanguageTests.LongmanGroupLimited,1988.8.Hughes,A.TestingforLanguageTeachers.ForeignLanguageTeachingandResPress,2000.9.JamesDeanBrown.UnderstandingResearchinSecondLanguageTeaching.ForLanguageTeachingandResearchPress,2000.10.LadoR.LanguageTesting.LongmanGroupLimited,1961.\n11.LyleFBachman,AdrianSPalmer.LanguageTestinginPractice.ShanghaiForeignLanguageEducationPress,1999.12.PaulR,Kinnear&Colind,Gray.SPSS12MadeSimple.PsychologyPress,200413.RattzU.Areoralteststests.PracticeandProblemsinLanguageTesting,1981.14.Oller,J.LanguageTestsatSchool.APragmaticApproach.Longman,1979.15.Shohamyetal.Introducinganewcomprehensivetestoforalproficiency.EL,1940.16.Underhill,N.TestingSpokenLanguage.CambridgeUniversityPress,1989.17.WeirCJ,BygateM.Meetingthecriteriaofcommunicativenessinaspokenlangtest.PaperpresentedattheRELCConferenceonTestingandEvaluation.Sing1990.18.WeirCJ.CommunicativeLanguageTesting.PrenticeHall,1991.19.蔡基刚:“输入与输出对口语发展的影响,《外语界》,2002年第1期。20.陈福华:“英语口语测试的研究”,《中小学外语教学》,2003年第5期。21.陈宁:“潜论交际性外语口试气《中小学外语教学》,2003年第3期。22.高兰生,陈辉岳:《英语测试论》,广西教育出版社,1996年。23.葛文山,高美兰:“科学、公正地评价中学生的英语口语能力”,《中小学外语教学》,2003年第2期。24。韩晓惠:“鱼待加强的听说教学”,《外语界》,1998第1期。25.贾冠杰:《外语教育心理学》,广西教育出版社,1996年。26.姜彭:“咱说英语老外不懂”,《文汇报》,2001年6月12日。27.江苏省中小学教研室:《江苏省中学英语口语等级测试纲要》,译林出版社,200年。28.教育部:全日制义务教育英语课程标准(实验稿),北京师范大学出版社,20029.井升华:“我国大学英语教学费时低效的原因”,《外语教学与研究》,1999.30.李庆安,李洪玉,辛自强:《英语教学心理学》,北京教育出版社,2001年。31.李筱菊:《语言测试科学与艺术》,湖南教育出版社,1997年。32.李勇武:“目前中国高校毕业生英语口语能力的探究”,《中美英语教学》,200年第1期。33.刘润清,韩宝成:《语言测试和它的方法》(修订版),外语教学与研究出版社2000年.34.马丁·韦德尔,刘润清:《外语教学与学习-理论与实践》,高等教育出版社1996年.35.马广惠:《外国语言学及应用语言学统计方法》,西北农林科技大学出版社,20年。36.马天泽:《上海市大学英语教学论文集》,上海外语教育出版社,1998年。37.聂建中,王正仁:“评分员的信度与口语能力测量”,《山西大学学报》,199年第2期。38.牛强:“现行高校英语测试中的问题”,《外语教学与研究》,2001年第2期39.邱东林,季佩英:“改革大学英语测试内容,提高学生英语口语水平”,《外界》,2004年第1期。40.人民教育出版社英语室:九年义务教育全日制初级中学英语教学大纲(试用修版),人民教育出版社,1999年.41.邵永真:“大学英语教学大纲修订说明”,《大学外语教学通讯》,1998年第\n期。42.舒运祥:《外语测试的理论与方法》,世界图书出版公司,1999年.“’43.孙晓敏,张厚梁:“表现性评价中评分者信度估计方法的比较研究一从相关法、百分比法到概化理论”,(,C,理科学》,2005年第3期。44.孙艳,王大伟:输入与输出对口语发展的影响,《外语界》,2003年第3期45.王才仁:《英语教学交际论》,广西教育出版社,1996年5月。46.王孝玲:《教育测量》,华东师范大学出版社,2001年。47·文渤燕:“大学英语口语测试探讨”,《外语界》,2000年第3期.48.文秋芳:《英语口语测试与教学》,上海外语教育出版社,1999年9月。49.文秋芳,赵学熙,王文宇:《全国英语专业四级口试指南》,上海外语教育出版社,2001年.50:.徐强:《英语测试的理论与命题实践》,安徽教育出版社,1992年。51.徐强:《交际法英语教学和考试评估》,上海外语教育出版社,2000年。5.徐欣幸:“探索大规模英语口语测试的可行之路气《中小学外语教学》,2003年第1期。5k'..徐欣幸:“上海市计算机辅助高考英语口试的实践研究”,《上海教育科研》,2005年第10期。54.曾坤熔:"2004年广州市中考英语口试的反思.,加p://www.chedu.gov.cn/j炸ngflsht2005-03/29/ics759.htm55.章兼中:《外语教育学》,浙江教育出版社,1993年。56.邹申:“试论口语测试的真实性”,外语界,2001年第3期。57.邹申:《英语语言测试一理论与操作》,上海外语教育出版社,1998年。58.左焕琪:《外语教育展望》,华东师范大学出版社,2002年。