提高测验信度的途径用标准化考试课件.ppt_163文库

资源描述

1、新课改始于2004年（广东，山东，海南，宁夏）2007年陕西开始，几年来，新课改在批评与责难声中蹒跚前进。2001年1月，美国总统布什推出“一个都不能少”，2004年获得连任，有人称，是成功的教育改革使布什战胜了大比分高于他的克里，小布什承继了老布什的“绝招”，老布什曾标榜他是一个教育总统（等值研究），尽管媒体对中国新课改批评多于赞扬（如教育理论学者主持课改，教材不适应，等）但新课改方向不会变，近年来为了挽救众多小“范进”，也有“老范进”，许多中学教师辛辛苦苦进行“新课改”，但考试形式及评价制度不改，这些努力是徒劳的。“轰轰烈烈搞课改，扎扎实实抓应试”，在中学普遍存在，因而对高考不实施“刮骨去

2、毒”式的“关公”疗法，新课改最终流于形式。河南一位中学校长曾问杨学为（原教育部考试中心主任）高考已经走进了死胡同，你怎样看？杨反问：有更好的办法吗？他答：没有，故而很多人认为高考改革没有出路。2007年3月“两会”上，宁波人大代表范谊教授议案关于废除高考，创新高校招生制度引起了轩然大波。他认为：高考使我国教育迷失了方向，失去了教育的本性和灵魂。使儿童失去了天真，幻想，热情和能力；使青年套上了思维的枷锁，扼杀了对生活的热爱和创造冲动。只能对规定的知识反复记忆和辨析，使我们的民族习惯于接受和模仿。这是一种悲哀。作家舒云发表了长篇报告文字高考殇指出：一些人认为，“高考是地狱”，是“悬在中小学头上的剑

3、”认为高考“偷”走了中小学生的健康，“偷”走了中国人的创造力，主张将高考送进坟墓。与范谊看法相佐，出席两会的原教育部副部长张保庆接受媒体采访时说：废除高考将天下大乱，在没有找到更好，更公平办法之前不能废除，该阶段只能以国家统考选拔人才。范谊看法表明：现行应试正在摧残儿童好奇心，造成普遍厌学。张保庆观点表明：今天社会缺乏诚信的背景下，取消统考会使公平公正受到伤害。现行高考最不合理的是高中教师没有发言权他们对学生最了解（3年），那么如何改革现行模式：一种是有人提出以高中校内成绩作为招生的主要依据，以统考作为这种成绩的参照点，使统考成绩完全与考生脱钩。这种方案的特征：以长期“形成性评价”取代“一次性

4、终结评价”，以笔试和面试结合，因为学生口头表达，应变能力很难笔试，而统考中面试不好操作，故应由中学教师参与，另一特点是将非智力因素融与评价之中，有利于高校招到一些潜质好的学生，（因为忽视非智力因素，这是中国大学与世界一流大学的重要差距，如比尔盖茨，达尔文，钱仲书，毛泽东等伟人）今天，新课改自2001年启动以来，许多人正在逐步接受，中学许多老师真心认同新课改，但是面对残酷的“高考”甚至“中考”，他们又不得不“扎扎实实抓应试”。教育部基教司朱慕菊司长曾说：“要用新课改来冲击高考，来逼迫高考改革”，但愿能收到实效，否则中学生“厌学”，不久的将来，老师们“厌教”，恐怕就不可避免了。课改与高考是什么关系

5、？父子关系还是兄弟关系？课改与高考是合还是分？众说纷云。近年来关于高考改革的研究和讨论甚多，主要集中在考试环节的“统分之争”与录取环节的“刚柔之辨”方面。所谓“统”者，即强调应坚持统一考试；所谓“分”者。即主张分区、分省或分校考试。所“谓”刚者，即强调录取中要有硬性指标；所谓“柔”者，即强调录取中要有适度弹性。首先，在考试环节上的改革应遵循统分结合原则，也就是坚持和完善统一高考的的基础由，慎重推进分层、分类与分校考试的改革与试验。客观、冷静地分析我国高考改革的历程，不难发现，现行的统一高考制度仍具有一定的合理性；统一组织命题能够集中优势进行系统的命题设计，保证了高质量的考试题目和国家对考试的规

6、范管理，使考试具有较高的科学性与权威性；统一考试在相当程度上摒弃了权力，出身和人际关系等因素对公平竞争的干扰。能够得到社会较高的认可，在一定程度上体现了客观性和公正性；统一考试作为一种大规模的考试，标准和要求统一、组织严密、简洁高效，具有很强的操作性与较大的效益性。但统一高考的弊端如考试功能的片面化、考试内容的教材化、考试方式的单一化等。不仅极大地影响了高校对人才的有效选拔，而且在一定程度上误导了学生的学习目的，抑制了学生的个性发展，阻碍了学生的创新思维。因此，必须通过改革考试内容、丰富考试形式、增加考试次数及提高考试效度等措施来革除现行高考制度中的不合理成分。我国已进入高等教育大众化阶段（高

7、等教育毛入学率已由1999年前的14%左右到现在的24%左右，发达省份已达到30%），高等教育大众化必然要求高等教育形式的多样化，而多样化的高等教育在选择新生时也必须有多样化的要求。传统的大一统考试是让多类型的高校通过单一类型的考试来选择不同的学生，其效度并必然受到质疑。实行分层、分类型考试，亦即让同层瘩同类型的高校来组织相应的统考，应该是提高考试的效度与效益的一条较为现实的路径。近年来兴起的高校自主考试更值得肯定和鼓励，它对于促进学生的个性发展与潜能开发，对于落实高校的办学自主权和实现对学生的有效选拔，对于促进整个教育体系的全面开放和素质教育的全面实施，都有着极为重要的意义。但分类与分校考试

8、只能是统一考试的必要补充，因此在试行之初必须特别慎重。如果盲目推行。就会适得其反。从我国当前情况看。社会对高校自主考试的公平性、科学性与效率性都存在着较多的疑虑。这就需要高校在获得考试自主权的同时，更要增强自己的责任感，大胆改革，稳步推进，依法治考，阳光操作，妥善处理好选拔效率与考试公平、主观评价与客观成绩、灵活多样与简便易行等矛盾，不断增进社会的理解度。提高社会的信任度，使自主考试与统一考试相互补充、相得益彰。正确地发挥其社会导向功能。其次，在录取环节的改革上应遵循刚柔相济原则，也就是高校招生既要有刚性指标，又要不拘一格。现行的高考录取制度之所以能得到社会广泛认可，除了它具有激励学生学习、促

9、进社会流动、有效选拔人才等正面效应外。最重要的原因就在于它在录取中坚持了刚性指标。强调程序规范，能让老百姓感到公平。感到放心。尤其在社会诚信度不太高的情况下，一旦失去刚性的指标。就很容易使高考异化。诚然，凡事都具两面性。传统录取制度的最大“缺陷”也就在于刚性有余而弹性不足：“以分定取舍”不能正确衡量一个考生的全面素质；“高考定终身”，难免不发生“漏才”现象。高校自主招生是扩大高校自主权、深化高校录取制度改革的重要举措。也是对选拔优秀创新人才的新探索。它体现的是更高层次上的人文关怀，实现的是更高层次上的社会公平。高校自主招生是高考制度改革的必由之路，但不是唯一之路。要走好这条路，当务之急是要正确

10、理解“不拘一格”。不拘一格的前提是先要有“格”。这个“格”主要是指考生必须具有“德智体美劳”全面发展的综合素质。为了保证不出“格”，必须强调考生的高考成绩应达到基本要求不能过分偏科；无论是统一考试还是自主考试，都应加强对考生的核心知识、学习能力与综合素质的考核。录取中的不拘一格主要体现为三个“不拘泥”：一是不拘泥于单一的评价尺度高考分数，要注重考生高中阶段的学习、文体、社会实践等活动记录及其成果等的调查材料，要对考生进行多元评价；二是不拘泥于单一的选拔方法笔试，要运用多种方法考察学生的各种能力、兴趣特长与发展潜力；三是不拘泥于某一次的考试高考，应适当弱化高考成绩在决定考生是否录取时所占的权重，

11、提高已获得一定认可程度的各种考试的综合成绩的权重。1 1、教育测量的概念、教育测量的概念教育测量学的创始人桑代克（E.L.Thomdike）以及麦柯尔（W.Q.Mecall）曾先后指出：“凡客观存在的事物都有其数量”，“凡有数量的事物都可以测量”一、教育测量概述随着科学技术的发展和进步，人们不仅能对长度、重量、温度、电流以及时间空间等物理现象作出了精确的测量，而且也逐步能对人的记忆、思维、想象以及能力、性格、兴趣等心理特性进行测量，教育测量也正是基于这一事实而得以产生和发展1 1）测量的定义）测量的定义测量是按照某种法则对测量对象的某种属性给出数值表达的过程所谓“法则”是指测量时采用的规则、原

12、理或方法比如，我们依据杠杆原理来测量物体重量；依据热胀冷缩规律借助温度计测量温度等所谓“事物”就是指测量对象及其属性和特征所谓“数字”是比数值意义更广泛的概念，它具有区分性、顺序性、等距性和可加性在测量过程中，一个数字可具有不同特性，这取决于事物性质和确定数字的原则2 2）什么是教育测量）什么是教育测量世界上的事物有物质和精神两类现象：对物质现象的测量叫物理测量；对精神现象的测量叫心理测量所谓心理测量，就是依据一定的法则，用数字对人的心理特质的行为表现加以确定教育测量有广义和狭义之分：广义的教育测量几乎包括心理测量的所有方面；狭义的教育测量只包括学业成绩测量，也就是对学习结果即知识和技能的测量

13、教育测量属于心理测量的范畴所谓教育测量，是指与人的受教育活动直接相关的某些心理属性为对象的数字指派过程，它是心理测量的原理和方法在教育领域的应用，通俗地说，教育测量是指依照某种法则，通过测验，运用统计的工具，对教育现象的属性化性质予以量化的过程形成的学科3）测量的要素单位单位用来表示测量数值的多少，必须有明确的意义和相同的价值，即每一单位只有一种解释且不随测量数值的改变而不同在教育测量中有百分制单位、标准分单位、等级分数单位等，但这些单位都不是绝对等价的参照点任何测量都需要有一个计算起点，这个起点叫参照点参照点如果选得不同，测量结果就无法直接比较在教育测量中有各种参照点，可以根据需要进行选择：

14、百分制以零分为参照点，标准分采用团体的平均分为参照点，T分数以平均分以下三至五个标准差为参照点，使用时要注意不同分数的相互转换，还要慎重地对分数进行解释，如零分不等于一无所知量距量距是测量工具的量程，测量范围的大小要受测量工具量程的限制，在教育测量中，测量工具的量程以能够测量全体被测对象差异而略有剩余为2、教育测量的工具测验 1 1）测验的定义）测验的定义测验是指编制试卷并施测于考生以引起其心理反应，再据此估计考生的学业、智力等的全部过程测验是教育测量的工具，而且是主要的工具，此外，调查、观察、评定、实验等方法也可作为教育测量的工具2 2）测验的分类）测验的分类依据测验的使用规模分类依据测验

15、的使用规模分类：可分为小规模的学校测验和大规模的：可分为小规模的学校测验和大规模的社会测验社会测验学校教育中的测验又分为：学校教育中的测验又分为：（1）配置性测验：学年、学期开始时举行的多是配置性测验，目的学年、学期开始时举行的多是配置性测验，目的是了解学生是否具有新的教学目标所要求的基础知识与能力，摸清情况是了解学生是否具有新的教学目标所要求的基础知识与能力，摸清情况以便编班分组、安排教学计划，提出恰当的教学要求以及选用适当的教以便编班分组、安排教学计划，提出恰当的教学要求以及选用适当的教学方法学方法（2）形成性测验：教学过程中进行的多是形成性测验，常以阶段考试、单元测验的形式出现，其目的在

16、于了解教学效果、诊断学生的学习缺陷、探求教学中存在的问题，以便及时调整教学工作，形成良好的教学过程，故又称诊断进步性测验（3）总结性测验：学期或学年末进行的多是总结性测验，目的是了解学生一学期（学年）的学习是否过到教学目标以及达标情况，所以又叫成就测验或终结性测验大规模的社会考试主要有：水平考试（如自学考试、托福考试，四级、六级外语考试等）、选拔性考试（如高、中考）、竞赛考试依据测验分数解释的参照标准划分依据测验分数解释的参照标准划分（1）目标参照性测验某种目标为依据来进行命题和分数解释的考试叫目标参照性考试，其及格的参照点是最基本的教学要求水平，其分数解释是依达标情况和能力水平进行的，达标的

17、完满程度愈高则分数和愈高，这种测验要淡化区分度如各类水平测验，都属于目标参照性测验.（2）常模参照性测验：依据测验集体的常模（平均分、标准差等）来解释分数的测验叫常模参照性测验，其目的在于把个体的成绩与他人作出比较，着眼于集体中学生成绩的区分.如高考、中考、研究生入学考试和各类竞赛考试都属于常模参照性测验.搞清测验的属性和类别，对于命题原则确定以至考试制度的改革都有指导意义依据测验功能分类依据测验功能分类（1）能力倾向测验能力倾向测验即目的在于发现学生的潜在才能，了解其特长和发展倾向的测验此类测验又可分为一般能力倾向和特殊能力倾向测验，前者测量学生的多方面潜在能力，后者偏重于某些特殊能力如音乐

18、、绘画、体育方面的能力和测验，此类测验是贯彻因材施教原则的必要前提（2）学业成绩测验学业成绩测验即目的在于衡量学生经教育训练后学业成绩的测验，又称成就测验此类测验又分为学科测验和综合测验，前者测量学生某学科的知识和技能，后者测量学生多门学科的知识和技能，学业成绩测验通常也称为考试（3）品格品德测验即目的在于衡量情绪、意志、思想、动机、性格、态度等方面行为的测验以测验的对象分，有团体测验和个体测验：若以测验的材料分，有文字测验和操作性测验；若以测验的作用分，有预测测验、难度和速度测验、普通测验与诊断测验等（3）教育测验的作用辨别智愚、因材施教：测出全年级学生的智力高低，可作为编班时的科学依据，以

19、便因材施教选拔人才、指导就业：各种职业需要不同的智能，特殊职业需要特殊的才能，所以职业上取得成功的条件之一是所选择的职业符合学生的能力特征，可以根据测量结果指导学生选择适合的职业和专业评定成绩、实验分组：教育测验能为学生成绩的评定提供客观依据，并由此合理编组以实施教育教学实验，减少由于编组时的不等性而给教育教学实验带来的人力性误差诊断困难、预测发展：经测验可能了解学生在知识、能力等方面存在的困难，能够提供调整、改进被测对象智育过程的信息（4）测验的实施方法学业成就测验的实施方法有面试、笔试和实践考核等面试具有提问的灵活机动性，能考查学生的能力品质，对知识理解的深度、广度，但它费时较多，管理复杂

20、，所以适用于论文答辨或需要个别考查的场合笔试是高效率的考试方法，能用来举行大规模考试，且考试结果具有可比性，被广泛应用实践考核的方法多用于需要实际操作的学科，如理、化、生的实验，体育的运动技能，艺术学科的表演技巧等此外，平时作业、实验报告、毕业论文、调查报告等也都是学业成就测验的重要实施方法3、教育测量的误差教育测量同物理测量一样，由于各种原因造成测量结果与真实情况有不同程度的差异，因此，控制和减小测量过程中各个环节的误差，是教育测量学的重要任务之一所谓误差就是在测量中与目的无关的因素所产生的不准确或不一致的结果简单地说，误差是测量值与真实值之差，反映了测量值偏离真实值的大小和方向也称为绝对误

21、差在教育测量中，我们把测验数据与学生真实水平之间的差距称为测验误差误差有两种形式，一种是由偶然因素引起的不稳定的误差，称为随机误差，它使得多次测量结果不一致，误差大小和方向是随机变化的例如，某次测验由于考场环境、试卷质量等因素引的误差就是随机误差，另一种是系统误差，它是与测验目的无关的稳定因素引起的，它存在于每次测验中，便得测验结果恒定而有规律的偏离正确值比如，在同一条件下多次对同一对象测量，会出现其数据保持不变的误差，系统误差是由测验方法和测验条件决定的，方法和条件一旦确定，系统误差保持恒定，另外，还有一种抽样误差，它可以包括在随机误差中从上面可以看出，随机误差既影响测验结果的准确性，又影响

22、一致性；而系统误差只影响测验结果的准确性测验的误差主要有两方面：一是测验所要考核的知识、技能和能力，并不能完全被解答题目这种测验方式反映出来；二是考生解答题目的成绩，并不完全决定于所要测量的知识、技能和能力这些因素，还受到其他因素的影响测验自身引起的误差，是由于测验这种测量工具是间接的测量人脑中潜在的知识、技能和能力，考生对试题的解答并不完全是考生知识、技能和能力的精确反映，因而是只能通过改进和完善测验方法，才能控制或减小误差另外，测验编制过程中，也会产生误差，如试题数量少、取样不随机、分布不合理，用语不当，叙述不清楚等测验环境、测验时间、考场纪律、意外干扰以及评分不客观、计分出现错误，这些都

23、会引起误差，应在考试前周密计划并设法予以消除另外，被试的动机的强弱会影响作答态度、注意力、主动性和持久性，从而影响测验结果，动机效应既可能引起随机误差，也可能引起系统误差，考试的焦虑会影响被试的反应一般来说，适当焦虑会使考生维持一定的兴奋、注意力增强，反应速度加快但过度焦虑会降低效率，注意力分散，反应速度减慢，大大影响考试成绩，考生的考试经验、身体状况和疲劳程度都会对测验结果产生误差，只有实施考试标准化，才能有效控制各类误差二、高考试题试卷分析的主要质量指标（1）高考：常模参照性考试（2）信度（可信性，一致性）测验的信度是指测验结果的可靠性或可靠程度。可靠性是指对同一组对象进行两次相同测量所得

24、结果的一致性和稳定性程度。3 3、提高测验信度的途径、提高测验信度的途径2 2）用标准化考试：）用标准化考试：尽量减少各环节的测验误差，特别是提高命题质量，试题难度中等，区分度要大.3 3）消除考生焦虑情绪：）消除考生焦虑情绪：充分作好考前指导，试卷编排应由易到难，以利稳定考生情绪使其智能得到正常发挥。4 4）测验内容具有同质性：）测验内容具有同质性：不要在一个测验中按排许多性质不同的内容，这样会降低一致性，影响信度三、效度、（有效性、准确性）2 2、效度的估算、效度的估算1 1）内容效度）内容效度内容效度内容效度是指测验内容对所要测验的全部内容的取样代表性程度。一个测验具备良好的内容效度应满

25、足两个条件：测验内容范围要明确，对学生成绩测验来说，就是试题要符合教材内容和教学大纲，试题不应该超出确定的范围。试题应是已界定的内容范围的代表性样本，它应该覆盖所测验内容的主要方面，并使各部分题目所占比例适当。确定内容效度的常用的方法是由专家对试题及所涉及的范围进行符合性判断。内容效度适合于评价学业成绩测验和职业选拔测验，对目标参照测验更为重要，因为在目标参照测验中，我们主要关心的是考生在一定范围内的知识技能掌握得如何。2 2）效标关联效度）效标关联效度效标关联效度是指测验分数与作为效标的另一独立测验结果之间的一致性程度，一般是用本测验分数与效标测验结果之间的相关系数表示。所谓效标，是用来检测

26、效度的参照标准，效标关联效度可分为以下两种：同时效度：是一种测验的结果与另一大约同时获得的测验结果（即效标）之间的一致程度，并用两个测验结果的相关系数来估算，同时效度常用于标准化测验的建立。例如，用教师自编的测验施测之后，让考生短期内很快再参加一次被公认是标准化的测验，如果两次考试成绩的相关系数很高，则可以认为教师编制的测验也是标准化测验。例1取10名考生参加摸底考试与全区统一考试的成绩记录于表7.3中，求摸底考试的效标关联效度。表3四、难度（难易程度）表7五、区分度（鉴别力大小）表9四格表六、区分度对测验的影响2 2、区分度与信度的关系、区分度与信度的关系一个良好的测验，信度必须要高。艾伯（

27、R.L.Ebel）的研究表明，整个测验中各试题的区分度D值的平均数越高，测验的信度就越高。信度是随区分度的提高而增长的，且信度增长的速度比区分度增长还快，所以，要想使得测验信度达到理想的值，提高各试题区分度是一个好的途径。但是，也必须指出，区分度的大小应根据测验的性质和目的而定，对于以选拔和比较为目的的常模参照测验，区分度越大越好，它便于选拔和比较，而对于以考察被试对知识掌握情况为目的的目标参照测验，区分度已没有多大意义不必过多考虑。凡是符合现代教育测量学对测验作出的科学性、客观性要求，并对各个环节的误差作了严格控制的各种考试都可称为标准化考试。一、传统考试与标准化考试 1 1、传统考试及其弊

28、端、传统考试及其弊端传统考试是从科举制发展起来的主观性、经验性考试方法，由主讲教师根据教学内容和自己的教学经验出几道或十几道试题让学生作答，然后按评分标准、答案情况评定分数。传统考试存在如下弊端：命题的科学性难以保证；试题的难度水平难以保持稳定；题型单调，知识覆盖面窄，易导致猜题押宝、死记硬背；缺乏有效的办法保证评分质量、评分误差大；主观题难以使用电子计算机阅卷，使大型考试的评卷工作费时费力。高考设计的基本结构高考设计的基本结构考试的标准化考试的标准化2 2、标准化考试的特征、标准化考试的特征标准化考试是一种具有统一标准的、按照系统的科学程序组织并对误差做了严格控制的考试。二、标准化考试的主要

29、环节1 1、试卷命题的标准化、试卷命题的标准化根据考试的目的、性质，对命题提出以下原则性要求：对知识与能力的要求；对重点非重点内容之关系的处理；命题的覆盖面，各种题型的比例；对难度、区分度的要求；对整个试卷信度、效度的要求等。2 2、考试实施的、考试实施的标准化标准化标准化考试对考试的实施手续与条件给予严格控制，以保证施测条件与手续的客观化和公平性，排除考场环境与各种偶然因素对考试真实成绩的影响。3 3、阅卷评分的标准化、阅卷评分的标准化评分是标准化考试的重要环节，要求客观、准确。采用大量的选择题等客观性试题，可消除由评卷者的主观因素带来的评分误差；对于主观性试题，采取措施对评分的平等性进行控

30、制。4 4、分数组合与解释的、分数组合与解释的标准化标准化阅卷评分所得的分数叫原始分数，将它按一定的原理和方法进行转化即可得导出分数，常用的导出分数有标准分、T分数、C分数等高考设计的基本结构高考设计的基本结构考试的设计考试设计的任务：要确定考试目标、制定考试大纲和考试蓝图（双向细目表），再由大纲和蓝图编写或征集试题，最后编制试卷。对考试设计的基本要求：要使测验具良好的可靠性、有效性和实用性。一、考试目标的分类1956年，美国心理学家布卢姆(B.B.Bloom)提出一种教育目标分类方法，把人的认知水平从简单到复杂分为如下六个层次：1、识记（Knowledge）：是对所学具体事实、材料或理论观念

31、的再认识或回忆。2、领会（Comprehension）：指抓住材料意义的能力，或对知识的意义进行初步理解的能力。3、应用（Application）：指将学过的材料（规则、方法、概念、原理、定理等）用到具体情境中去解决问题的能力。4、分析（Analgsis）：指把材料分解成各个组成部分，弄清各部分相互关系及其构成方式的能力。5 5、综合（、综合（SynthesisSynthesis）：）：综合指将某些因素或部分组合成整体的能力，是与分析互逆的能力。6 6、评价（、评价（EvaliationEvaliation）：）：指根据一定目的对材料的价值作出判断的能力。二、考试大纲的制定考试大纲是指导考试的

32、纲领性文件，是制订命题双向细目表的原则依据，是教学大纲的具体化，但又不能等同于教学大纲和复习大纲。具体地说，考试大纲应主要规定：1、考试的目的：即本次考试要解决的问题。2、考查的目标和内容：根据学科特点，确定本次考试的目标层次及知识内容。3、考试的方式：即闭卷还是开卷，笔试还是口试等。4、题型：即主观题型或客观题型。5、评分与计分的方法。考试大纲要经学科专家共同拟定，报教育主管部门批准后公布，目的是使广大考生和学校都能明确考试的方向和要求，都向同一目标努力，利于减少随机误差而测出考生的实际水平，此外，考试大纲还能对平时教学起到参照和促进作用。三、双向细目表及其要素双向细目表是根据考试大纲对考查

33、的目标与内容的规定而制定出来的考试蓝图，它实质上是考查目标与考查内容的联列表，是进行科学命题的具体依据。双向细目表的制定要考虑三个要素：1、考查目标：一般都是参照布卢姆的认知领域教育目标的层次分类原则，并结合本学科的具体特点来进行制定。2、考查内容：指教学内容的大、中、小三类知识单元，其大知识单元在考试大纲中公布，中知识单元作为制定双向细目表的依据，小知识单元则在命题时作抽样之用。3、考查目标和考查内容的比例：确定比例的依据有：各个知识单元在整个学科领域中的重要性；分配给各知识单元的教学时数的比重；需要着重考虑的知识与能力项目等。表1硫、硫酸总结性考试命题双向表表2初中平面几何15章命题双向细

34、目表可以看出，双向细目表的三要素实际上就是两个维度和一个配分，亦即应该编哪些内容哪种水平的题目、各编多少以及每类试题各占分数的具体分配和确定。四、试题设计四、试题设计1 1、确定题型和题量、确定题型和题量试题的类型可分为两大类：即客观性试题与主观性试题，前者也称为供答型题，后者也叫做自由反映型试题，这两种试题各有所长和所短，应将二者结合起来使用。一般地说，选择题型时，要依据目的性原则、经济性原则和适用性原则，即要依据考试目的、内容和目标灵活采用不同类型试题，在同一考试中类型不宜太多。一次考试的总题量以多少为宜，这取决于多种因素，要综合各方面的要求，正确确定题量。此外，还要考虑考生年龄和能力水平

35、。据测算，一般学生回答一道简单事实性选择题或是非题大约需要3045秒；回答比较复杂的选择题则需75100秒，这些数据也可供确定总题量时参考。试卷总题数确定之后，就可以依据双向细目表中规定的目标和内容的百分比来确定蓝图中每一网格的试题数目，若试卷总题数目为n，而某一目标和内容的百分比为15%，则该项的试题数为n15%。2、确定试题难度和区分度试题难度和区分度在经典测量理论中，是由考试结果的统计计算而得到，在编制测验时还是未知的，因此，只能用测前估算的方法或根据教师的经验来确定。难度和区分度的选择首先应考虑不同性质和不同目的的考试有不同的值;其次，难度与考查目标层次有关，对于简单目标，如记忆、了解

36、等的难度要小一些，对于考查复杂目标，如综合、探究等的难度要大一些；再次，试题难度与题型也有关，不同类型试题的恰当难度可见表5，这些数据可供编制测验时参考。3、拟定试题根据蓝图的要求拟定试题，可以是教师自编的，也可以是从试题集或题库中挑选的，但是，都必须保证内容的正确性，不能出现任何科学性和知识性的错误，同时，试题取样必须有代表性。因为，试题实际上是所要考核内容的一个样本，如果它的代表性不强，必然产生较大的抽样误差，从而降低测验的信度和效度，考试也就失去了本身的意义和作用。表5不同类型试题的恰当难度教师必须对本门课程有深入了解，对本学科有较高造诣，有丰富教学经验，才能编写出高水平试题。平时要多收

37、集有关试题资料，并掌握试题编拟技巧。五、试卷的编制试卷编制是指将拟定的试题进行科学搭配，最后组织成一个完整试卷的过程。1、将收集的试题进行认真检查。2、对试题进行编排的原则是：将测验认知目标相同的试题编排在一起，将同一类型的试题编排在一起；由易到难编排试题。3、要编写答题说明：一般包括的内容有：测验的目的；测验的时间限制；回答试题的方法；记分的方法等。4、确定分值：试卷编好后，还要确定每一试题的满分值以多大为宜，这就是试题赋分问题。试题赋分时应考虑：考核内容在知识体系中的地位；掌握目标层次要求；试题难度和解题所需时间；分数组合时方便等。一般情况下，同一大题中的每个小题，赋予相同分值，这样可以简

38、化题分组合成总分过程中的手续。同时，对于主观性试题，还要考虑分步给分问题。三、高考试卷难度的总体设计与误差控制我国目前高校录取新生主要依据高考成绩，这就进一步加大了社会各方面对高考试卷难度的关注程度。又由于我国绝大多数省市的高考成绩报告制度采用原始分表示，这就使得式卷难度的设计与控制问题更为突出。1影响高考难度设计的社会因素历年高考，考生、家长、教师对高考命题质量的第一反应即试卷的难度如何？而影响难度的社会因素有以下几点：（1）一般要求命题人员应根据学生解题过程反映的心理特征来确定试题的难度，过难则导致学生的心理负担加重故而学科试卷中过难题目的命题相当谨慎。（2）要求命题人员应结合当前中学教学

39、实际，即应试在相当一段时间内影响仍存在，故在有利于素质教育的前提下，应注重中学复习应考的导向性，即不要过于注重追求难度，否则会加重考生备考负担。（3）每年高考试卷难度波动不宜过大，否则会带来考生志愿填报产生偏差，因为人们对各批次录取分数线已有了基本心理认同，故要求命题难度每年应保持相对稳定。2影响高考试卷难度的技术因素难度系数值越小试卷难度越大（1）由于学科特点，题型特点不同，其误差大小也不同，一般文科类及主观题特别是开放题其估计误差偏大，而理科类，客观题其估计误差较小。（2）阅卷以机器阅卷一般不会产生明显误差，而主观题误差较大。3试卷难度的设计高考改革既要坚持有利于高校选拔人才，也要坚持有利

40、于中学实施素质教育。所以，高考命题的难度设计要从教育测量技术的角度考虑，也要从社会角度考虑；既要满足高校选拔新生的需要，也要充分考虑对中学教育教学的影响。PPP)10(（1）难度系数一般高考，试题相对难度应调控在使考生成绩接近正态分布，如数学满分150分，则群体的平均分应控制在半满分位置即75分左右，标准差应控制在1/6满分位附近，即25分左右，整卷难度系数要求在0.5左右，才能保证较大区分性以达到选拔目的，当然随录取率的增大，应加以调整，难度素数应相应增大。全国高考平均录取率近几年已超过50%，故要求命题人员应调整难度，适当降低难度。教育部考试中心主任戴家干2007年6月26日在教育部的新闻

41、发布会上表示，目前我国高考试题的难易程度控制在0.55至0.65之间，今后几年这个难度系数也不会有大的变化。高考的目的主要是为高校选择新生提供决策依据。上海教育考试院雷新勇博士认为：分数线应该尽量远离考试的平均分。在第一批本科招生人数或投档人数将近30%，本科招生人数略微超过50%左右时，难度系数在0.55至0.6左右比较合适。如果难度系数偏小，虽然分数线的信度比较高，但可能会加重考生的复习负担，也可能会导向学校加重下一届考生的学习负担；如果过高，第二批本科分数线的可靠性也会明显降低。另外，从录取工作实际看，越是高端大学竞争越激烈，对于考生成绩区分的程度也就相对越高。一批录取的高校中还有985

42、工程院校、211工程院校之分，层次比较分明，相应对考生成绩的区分要求也是越到高分端区分程度要求越好。二批高校一般是以地方院校为主，学校之间的差异性没有一批院校明显，学生填报志愿时更倾向于专业的选择。显然，对报考二批院校的考生成绩的区分就没有对报考一批院校考生成绩的区分要求高。近几年数学学科随着录取比率变化，难度系数一般保持在60%左右或偏下，符合陕西情况。（2）试卷的难度结构高考试卷难度结构应注重综合性及全面性。首先是要设计好文、理科的录取分数线，主要是二本录取分数线。根据经验，每年高考考生的能力分布和上一年相比不会发生大的变化，因此可以假定上一年录取分数线和高考平均分的差值今年也不会发生大的

43、变化，这样就可以根据所设计的录取分析线推算今年的高考文、理科平均分的设计值。由于目前录取工作多数仍采取志愿优先的规则，第一志愿填报的是否恰当至关重要，因此，录取分数线应尽量保持相对的稳定，即使准备作出调整，也要循序渐进。其二是根据文、理平均分的设计值考虑各学科的平均分设计值。一般来说，各学科试卷的度难应大体一致但也要兼顾各科自身的特点。例如，语文一般放在第一科来考，相对其他学科而言，语文的区分度不太高，标准差一般在12至17之间，命题也不宜太难，难度系数一般应大于0.6。由于学科特点，数学易于区分不同能力层次的学生，难度系数一般应小于0.6。报考理科的考生要数倍于报考文科的考生，因此，对理科考

44、生的区分程度就要求更好一些其三是设计好各学科试卷内部的难度结构。高考试卷应以中等难度试题为主，易、中、难试题的比例一般为3:5:2。一般试题难度参数分布的峰值可以略高于考生能力参数分布的峰值，因为这样，在试题难度平均值附近的试题数目相对较多，而考生的能力分布一般也是在平均值附近较多，为了提高考试对人数最多的中间部分考生的区分能力，中间难度的试题略多是合理的。其四是应设计好难度坡度。一般来说应由易到难排列。其目的是为了使考生产生良好的心理效应，适应考试环境，很快进入考试状态。再者就是设计好分值高的难题的坡度，难题应体现“切入容易深入难”，难度层层递进。这样的设计，即使是比较难的题，多数考生也可以

45、拿到一定的分值。特别是数学实行分项给分，更能体现这一设计要求。4试卷难度的整体结构准确把握命题标准和要求是关键。由于高考的选拔功能，故由教育部考试中心制定的普通高等学校招生全国统一考试大纲是高考命题的纲领性文件，考试大纲对高考的性质、能力要求、内容、形式以及试卷结构作出了说明，这是高考命题的标准和依据，必须按照考试大纲的要求进行命题。同时也要考虑到中学使用教材的情况。此外，一些省市还制定了考试说明，提供了考试形式与试卷结构、参考试卷和参考答案等，这也是本省市自行命题的依据。高考命题应把握标准性原则，确保试题内容与学科测量目标相一致。高考命题应严格按照考试大纲和考试说明规定的考试范围和考核要求设

46、计命题蓝图、编制试题。考查的知识内容不超出考试大纲所规定的范畴，考查的能力要求不超出“考试大纲”所规定的能力层次和目标要求，试卷结构、组卷方式、基本题型题量、综合科目中各学科比例、试题难度分布等应以考试大纲或考试说明为依据。四、关于高考改革与评价恢复高考三十年来，国家通过颁布一系列政策推行高考改革，特别是20世纪90年代后，高考制度进入了改革的密集期。招生规模上，1999年推行扩招政策高等教育毛入学率由20世纪末的10.5%增长到2005年的21%。为了适应考生数量不断增加的录取形势，节约招生成本，保证招生录取的公平，广西、天津等地率先试行网上录取方式。目前，各省、自治区、直辖市招生已全部实现

47、计算机网络化，全国招生网上录取系统逐渐建立。同时，为了减轻高考“共性过多、个性太少”的负面影响，国家不断推进招考的多元化改革，部分重点高校参与了自主选拔录取试点，由单纯采用统考成绩的单一录取转变为自主选拔与统考成绩录取相结合的多元化考试和多渠道招生模式。此外，为了加强对高考科目、内容及形式的指导，促进高考命题的科学性，国家从20世纪80年代开始推进标准化考试，改变过去完全采用经验型考试的命题方式，对组考、命题、评分等各个流程进行更为科学的管理。在考试科目上，实行的“3+X”改革，使得部分考生和高校有一定的选择权。其间，命题改革成为高考内容改革的核心，90年代末的改革提出将高考命题立意由“知识立

48、意”逐渐向“能力立意”过渡，淡化陈述性知识的考查，突出考查考生利用已有学科知识分析和解决问题的能力。同时，为了适应各地基础教育的发展水平，促进素质教育的开展，分解全国统一命题的安全压力，改变命题组织形式，由全国统一命题转为为“统一考试，分省自行命题”。总之，与三十年前相比高考制度已发生了巨大的变化，目前教育部已确立了统一与多元相结合的改革思路，即逐步建立起以全国普通高校招生统一考试录取为主，与多样化考试评价和多样化选拔录取相结合，高校自我约束，政府和社会有效监督的高校招生制度。（1）关于高考改革1“十五”、“十一五”期间理论研究，随着考试学中数量化方法的渗透，教育统计测量理论也在高考中得到了广

49、泛的应用。如项目反应理论即IRT理论（解决了经典测量过于依赖假设和样本的局限）同时在题库中用IRT方法生成试卷是发展方向，又如概化理论（是在经典测量理论基础上，利用实验设计和方差分析的思想方法而发展起来的一种测验理论，与经典测验理论对比，其控制考试误差具有多样化特点，已在国外得到广泛应用）又如用结构方程，多元分析等数学方法进行考试评价。从1996年开始考试中心在部分省推行等值研究，（主要解决一年考两次、多次录取时如何保持公正性，考试期间如何保证试卷的平衡）美国最早从1946年开始，每年的考试可等值到1946年（美国前总统布什标榜是一个教育总统，第二次竞选让ETS拿出一个等值曲线，上升）我国二次

50、考试如何录取，会不会出现不公平，则需要等值、即加试一个公共题（锚题）在许多省实验如江西师大进行了研究。2命题技术及命题误差控制，题目功能差异研究，目前高考仍是专家题库，并不是真正意义上的题库，即人可以对题目进行微调，规律是如当年某种题型难，次年则调整为易，如2003年数学题偏难（已受到批评）次年肯定会微调，又如1993年物理难，则1994年就易，题型的变化主要体现在主观题的增加（为考察创新性）题量在减小（保证考生有更充分的思考空间），有的题目更趋重于开放性，不过分追求知识层面，如2002年数学最后一题拼图，不是学的很好的学生也可能得到高的分数，主要考察探究能力。根据北京最新调查，近几年高考仍偏

展开阅读全文