1、建立學科評量量尺之理論基礎第二組第二組OMS096125 康金雲康金雲OMS096102 羅文虹羅文虹OMS096111 歐瑞蘭歐瑞蘭大綱 一、序論 二、IRT為基礎的試卷等化原理 三、學科評量量尺之建立 四、如何應用與執行等化設計於國內大型 測驗計畫 五、學生成就量尺之應用 六、結論序論一、問題背景 1.傳統聯招一試定終生 一年多試的機會 2.記分方式以原始分數(或加權分數)加總極具 爭議性。等化各科量尺 數學超難,大部分分數集中在1030分;國文簡單,大部分分數集中在6090分。對於數學好但是國文差的學生不利各學科原始分數所參照量尺的刻不同。二、建立評量量尺之重要性:美國教育測驗社(ETS
2、)之模式 以美國SAT(scholastic aptitude test)為例:SAT:美國各大學申請入學的重要參考條件之一 A生數學能力中等,語文中上 B生數學能力中上,語文中等B生數學比A生好 數語文A夏500580 B秋600500A生語文比B生好SAT量尺的潛在意義 1.由不同時段所獲得的分數高低,其評量量尺之意 義大抵上是一致的。(隔一段時間後,兩生重測得分不會有太大變化,除非是“非常”賣力地準備與複習。)2.評量量尺之分數高低是具意義的。3.各學科評量量尺之刻度大抵上是一致的。4.分數相當可靠。試卷等化程序試卷等化程序SAT量尺的潛在意義 1995年SAT評量量尺定為平均數500,
3、標準差110(以1990年考生為參照群體)。以後每年的數學和語文以此為設定標準。年與年間考生得分高低的比較需謹慎行之,假如年代差距太遠,比較考生在該次樣本中的百分等級高低可能較有意義。ETS不鼓勵把SAT的數學和語文分數加總,表面上評量單位相同,但實際上卻不一樣 IRT為基礎的試卷等化原理一.常用的幾種試題反應理論模式簡介二.測驗資料之搜集與設計三.重新調節IRT統計參數之單位四.非等化係數的等化方法五.應用IRT等化兩試卷之原始分數常用的幾種試題反應理論模式簡介 單一參數模式(one-parameter logistic model)二參數模式(two-parameter logistic
4、model)三參數模式(three-parameter logistic model)多分計分法模式(partial credit model,PCM)一般性多分計分法模式(generalized partial credit model,GPCM)多分計分法模式(partial credit model,PCM)(Masters,1982)為Rasch模式的延伸。假設試題 i 的計分由0分到m分之間,當受試者 j 之潛在能力為,回答試題 i 而被評k分的機率以公式一表示:(公式一)(公式二)mccvjivkvjivZZjPjik000)(exp)(exp)()()()(dbbZkijikjj
5、ik是考生在題目 i 得k分而非得k-1分的難度值,被界定為0,是題目 i 的難度值,代表考生在題目 i 分別得k分的相對難度值。bikbidkbi0一般性多分計分法模式(Muraki,1992)(generalized partial credit model,GPCM)針對Master之模式修改而成。允許每題的鑑別度值不一樣。可用於問答題。)()()(dbDabDaZkijiikjijik測驗資料之搜集與設計1.單一平衡樣本(Single Group with Counterbalancing)2.隨機等組設計(Random Equivalent Groups)3.共同試題-不等組樣本(C
6、ommon Items-Nonequivalent Groups)4.試卷內編輯涵蓋經被刻度過之試題(Precalibrating Items)單一平衡樣本(Single Group with Counterbalancing)只選擇一組樣本,這組樣本必須施測A和B兩份試卷。缺點:考生同時接受兩份試卷,厭倦的因素將影響表現,並可能左右等化的結果。可使用於等化兩份不是很長的試卷,很少用於大型測驗計畫。隨機等組設計(Random Equivalent Groups)基本假設:從母群體裡隨機抽取數組樣本,這些樣 本能力的分布狀態應是相似的。必要條件:採行大的樣本(如3000位考生的樣本大小)應用:在
7、這些施測版本中,通常在這些施測版本中,通常一版本一版本已在前一次施測中被使用過,而已在前一次施測中被使用過,而此此 版本版本將作為建立新版本分數量尺之橋樑。考生在新版本中的得分必將作為建立新版本分數量尺之橋樑。考生在新版本中的得分必 須轉化為舊版本之分數量尺。須轉化為舊版本之分數量尺。生1、生2、生3、生4、生5、生6 卷A 卷B 卷C 卷D共同試題-不等組樣本(Common Items-Nonequivalent Groups)同時編輯數份不同版本之試卷,每一份試卷裡須編輯部份(大約四分之一以上)共同試題。編製共同試題的原則:1.應是整份試卷的縮影。2.在試卷裡的位置必須一樣或非常相似。3.
8、計算分數時,通常不併入計分。在這些施測版本中,通常一(或二)版本中有部分題目已在前一次施測中被使用過,而這些題目將作為建立新版本分數量尺之橋樑。考生在新版本中的得分必須轉化為舊版本之分數量尺。試卷內編輯涵蓋經被刻度過之試題(Precalibrating Items)在每一份被等化的試卷裡,編輯部份(大約四分之一以上)已被刻度過之試題,再以這些被刻度過之試題為橋樑,將每一不同能力的樣本在每一試卷所產生的分數,轉化到這些已被刻度過的試題之量度上。測驗資料之搜集與設計原則試卷間有相同試題試卷間有相同試題(或部分題目已被刻度過)施測之樣本相同施測之樣本相同(或施測樣本能力大抵相同)重複考生在兩份不同試
9、卷的反應是否可為試卷等化之重複考生在兩份不同試卷的反應是否可為試卷等化之資料收集方法之一資料收集方法之一?作者認為:重複考生在第二次(後來)試卷的反應表現深受能力、成長、試卷難度、評量誤差等因素所左右,而其中成長與試卷難度因素對試卷反應所產生之影響無法被明確分離,將造成等化試卷的困擾。重新調節IRT統計參數之單位-1即使在對任何一測驗資料作試題刻度時,每一受試樣本之能力評量單位通常都被標準化為平均數等於零和標準差等於一,然而原來每一組樣本之能力評量單位亦可能不同。所以當同一組題目被施測在能力不同的兩組考生並分別作試題刻度時,所得之兩組試題統計參數估計值並不同,此乃歸因其對應到不同的量尺。解決方
10、法:強制每組試題參數估計值對應於共同的能力單位上。在兩組樣本之條件下,此共同能力之單位乃依據以下的線性轉換步驟而成BAjRjE*A為等化係數之斜率 B為等化係數之截距R代表基礎的樣本 E代表被等化的樣本*代表從等化樣本之量尺轉換成基礎樣本之量尺重新調節IRT統計參數之單位-2 IRT三參數模式的線性轉換:一般性之多分計分模式:經過以上之轉換其等化組的能力單位已反映至基礎組的經過以上之轉換其等化組的能力單位已反映至基礎組的能力單位上。能力單位上。可知可知IRT參數估計值之單位參數估計值之單位可再被重新調節可再被重新調節,其基本條,其基本條件為件為 採用之採用之IRT模式模式能適切地解釋測驗資料能
11、適切地解釋測驗資料。BAiRbbiE*AiRaaiE*cciEiR*)-(BAikRdbbbbikiikikE*註:或ddikEAikRAiRaaiE*BAiRbbiE*非等化係數的等化方法1.同時校準法2.連接業經刻度之試題參數3.設定各隨機樣本之能力單位相同同時校準法 定義定義:藉由測驗資料的收集設計與IRT電腦軟體所提供之功能之結合,將所收集之數筆測驗資料同時執行試題校準。校準後,從任何一份試卷之題目參數估計值皆能被刻度在相同的評量單位上。優點優點:與其他等化方法相比,使用最多的試題參數訊息,以及共同試題參數估計值之變異數共變數矩陣,因此可能產生較小的誤差。缺點缺點:若施測樣本間之能力分
12、布狀態差異太大,則可能 1.無法得到收斂。無法得到收斂。2.有些試題,無法找到合適的參數估計值。有些試題,無法找到合適的參數估計值。3.得到的參數估計值其標準誤可能偏高。得到的參數估計值其標準誤可能偏高。共同試題-不等組樣本使用Bilog等化樣本試 題 題 號兩份試卷的共同試題A試卷B試卷12345678910678910甲樣本1000甲樣本對共同試題的反應甲樣本對A試卷中非共同試題的反應假定甲樣本亦施測B試卷這些題目,然而未能夠完成乙樣本1000乙樣本對共同試題的反應假定甲樣本亦施測B試卷這些題目,然而未能夠完成乙樣本對B試卷中非共同試題的反應連接業經刻度之試題參數 前提:在一份試卷中某些題
13、目已有參數值 而部份則無的情況。目的:設定此無參數題目與有參數題目之 評量單位相同。方法:執行IRT電腦程式的過程中將有參數 題目之參數值固定不變且不再被重 新估計。設定各隨機樣本之能力單位相同 隨機等組設計隨機等組設計:兩份不同的試卷被施測於兩組隨機之樣本上,在”分別“估計兩份試卷之試題參數時,只要將能力的單位共同訂為一樣,經刻度後,兩份試卷所得到的試題參數值之單位是相同的。且兩組樣本的能力估計值之單位也是相同的。單一樣本設計單一樣本設計:兩份不同的試卷被施測於單一樣本之情境,可視同兩份不同的試卷被施測於兩組隨機之樣本上。應用IRT等化兩試卷之原始分數 介紹介紹IRT-真實分數等化法的原因真
14、實分數等化法的原因:1.與IRT-原始分數法比較,計算過程較簡易。2.無須依賴考生能力之分布狀態。3.已被測驗公司(如ETS)所採用。IRT-真實分數等化法的兩個主要步驟真實分數等化法的兩個主要步驟:1.將兩試卷試題參數值對應在相同之量尺上。2.使用IRT分數為橋樑,試圖製造兩份試卷間真實分數之對應表。學科評量量尺之建立一、測驗資料之收集與等化技術之結合 1.隨機等組樣本與等化技術之結合 (1)連接不同之舊版本 (2)連接相同之舊版本 (3)同時連接兩份舊版本 2.共同試題不等組樣本與等化技術之結合 計畫一、二、三、四二、設計連接計畫之參考準則隨機等組樣本與等化技術之結合 定義:一版本已在前一
15、次施測中被使用過,而此一版本將做為建立與新版本之橋樑。新版本之原始總分需轉化為舊版本之原始總分。大樣本下,此法可同時等化數種不同版本試卷。方法有:連接不同之舊版本 連接相同之舊版本 同時連接兩份舊版本連接不同之舊版本 每一次施測試卷皆連接至不同的舊版本。優點:每次選用的舊版本不同,題目的保密性周全。缺點:四次等化誤差。I卷等化到A卷需經過四次程序。等化程序施測次數試卷樣本建立量尺1AB,C 等化到A2ABCD,E 等化到C3CDEF,G 等化到E4EFGH,I 等化到G5GHI 為何同時等化試卷之版本,總是為二,可以增加嗎為何同時等化試卷之版本,總是為二,可以增加嗎?連接相同之舊版本 每一次施
16、測的試卷接連接到相同的舊版本 優點:只產生一次等化誤差。缺點:欠缺保密性,因為同樣的舊版本重複被使用。等化程序施測次數試卷樣本建立量尺1AB,C 等化到A2ABCD,E 等化到A3ADEF,G 等化到A4AFGH,I 等化到A5AHI同時連接兩份舊版本 起始連接階段時僅連接單一舊版本,經過數次後則轉換為同時連接兩份舊版本。可修正連接不同之舊版本方法所帶來的等化誤差。若實務上之考量可行的狀況下,此為較佳的選擇。等化程序施測次數試卷樣本建立量尺1AB,C 等化到A2ABCD,E 等化到C3CDEF,G 等化到B&E4B&EFGH,I 等化到D&G5D&GHI兩次等化結果可能不太相同,若僅有微些差異
17、,則取兩者之平均;差異甚大時,須深入探討可能影響之因素(許多考生已練習過版本B)筆者之意見 以上三種連接方法,皆不適合目前國內的施測環境。(補教業盛行,凡考過必留下痕跡)實務上,為了使考生的平均數、標準差,甚至分布狀態也相同,所以相同百分等級等化法,常被用來再次等化。當資料為單一樣本設計的等化法同隨機等組樣本等化技術,然而,同時等化試卷之版本數量有限,通常為二。共同試題不等組樣本與等化技術之結合 ETS採用IRT-真實分數等化法,將IRT分數之單位轉化為類似原始分數之單位。其優點:製造試卷間原始分數轉化表(A卷10分B卷12分)從題庫裡選了試題樣本後,即可開始製造試卷 間之分數轉化表,無須等待
18、取得考生對試卷的 作答反應矩陣。注意:雖共同試題不等組設計不要求樣本能力分布狀態需相同,但能力分布差太大,可能使等化結果不可靠。第一連接計畫 同樣季節之試卷版本應等化至同樣季節之版本 其中只有一次例外,如第一年秋季版等化至第一年春季版 優點:考慮到春秋兩季考生能力分布狀態的不同 缺點:同年代不同季節版本的測驗分數難於做比較年連接計畫(一)春季秋季1AB2CD3EF第二連接計畫 將新版本等化至前一次之舊版本 優點:考慮到盡量減少鄰近版本間之連接次數,使鄰近版本之分數易於比較 缺點:忽略兩季考生能力分布狀態可能不同而影響等化結果年連接計畫(二)春季秋季1AB2CD3EF第三連接計畫 每一施測版本皆
19、等化至第一年第一次版本。強調未來的新版本中所使用之量尺與與原來第一次第一版本所建立之量尺單位相同。年連接計畫(三)春季秋季1AB2CD3EF第四連接計畫 混合第一和第二連接計畫 考慮到兩季考生能力分布狀態之不同可能造成的等化偏誤。有時則著重於減少鄰近版本間之連接數,使鄰近版本之分數易於比較。年連接計畫(四)春季秋季1AB2CD3EF二、設計連接計畫之參考準則 盡量減少鄰近版本間之連接數,使得鄰近版本之分數易於比較。(計畫一違反)以季節相同之試卷版本等化至季節相同之版本。(計畫一符合,計畫四部份符合)盡量減少連接至“用以建立量尺之版本”次數【盡量減少等化誤差】(連接相同之舊版本,計畫三符合)避免
20、重複連接相同之舊版本【增加保密性】(連接相同之舊版本,計畫三違反)魚與熊掌難以兼得 任何連接計畫皆難以完全符合此四項準則。主要以測驗目的來加以衡量與抉擇。若測驗目標在於了解學生學習成就之高低趨勢,那準則三即為適當且重要的考量。如何應用與執行等化設計於國內之大型測驗計畫不作等化試卷的潛在問題難度考生成長分數考生進步分數試卷一試卷二考生一考生一505047475 58 8考生二考生二505053535 52 2考生三考生三505053532 2-1-1 當考生在第二次施測之平均分數低於低第一次施測情況下,才考慮作試卷等化,會較遲緩而無法事先做全盤統整之規劃。一年多試的考試計畫必須藉助試卷等化技術。
21、國內之大型測驗計畫草案 試卷等化設計:1.隨機分配考生受測於某一試卷版本 2.編輯部份共同試題於每份試卷佳試題連接與分數等化程序 設計一份主試卷及三份次試卷。三份次試卷為主試卷之縮影,長度為主試卷的四分之一。三份次試卷編入主試卷中,形成三份不同試卷。施測計分後,主試卷計分且公佈,次試卷不被計分並保密。國內之大型測驗計畫草案S1F:S(計分(計分score)1(第一年)(第一年)F(月份)(月份)L11F:L(連接試題(連接試題link)1(第一年)(第一年)1(第一份次試卷)(第一份次試卷)F(月份)(月份)年年次次月份月份第一份試卷第一份試卷第二份試卷第二份試卷第三份試卷第三份試卷1二(二(
22、F)S1F(計分)(計分)L11FS1F(計分)(計分)L12FS1F(計分)(計分)L13F七(七(J)S1J(計分)(計分)L11JS1J(計分)(計分)L12JS1J(計分)(計分)L13J2二(二(F)S2F(計分)(計分)L21FS2F(計分)(計分)L22FS2F(計分)(計分)L23F七(七(J)S2J(計分)(計分)L21JS2J(計分)(計分)L22JS2J(計分)(計分)L23J*如何執行國內之大型測驗計畫 建議由教育評量專家來掌管參與考試事務 執行試卷等化工作:(一)統計技術 (二)設定考試法令與規則 執行試卷等化工作統計技術 選擇等化係數之考生樣本(約3000位)1.去
23、除重複考生2.去除主、次試卷得分相關低,且在次試卷 百分等級相對高的考生 刪除不適用的題目 1.估算連接試題在兩次理想考生樣本的難度,並計算其相關係數 2.若相關值極低且它在最近的試卷中為極容易 的題目則刪除執行試卷等化工作設定考試法令與規則 法令部份 1.避免補習班利用不正當手段取得不計分試題 2.避免大學考試中心的人員洩題 報考規則報名時簽切結書表明非補習班僱用的職業考生,如有違背處以重罰。考場規則嚴禁考生攜帶任何草稿離開考場。難難以以實實現現還是要堅持:應用試卷等化原理 全心去執行法令 以統計技術偵察約十分之一的理想考生或去除不適用之試題學生成就量尺之應用考招分離政策 考試事務:執行試卷
24、等化之設計,使考生選擇適合自己的時段參加考試與重複評量能力之機會。招生事務:一、每一學系自行決定各學科之決斷分數二、學系自行決定各學科的加權係數招生事務每一學系自行決定各學科之決斷分數 試卷等化所產生的分數有助於各大學建立每年標準一致的學科決斷分數。以量尺分數為決斷分數可使申請入學的成績不一定要最近一次的考試分數。申請者任何一科不符合決斷分數之標準則給予拒絕。各科分數達到決斷分數的人數多於招生名額時,則以全部學科總分之高低做為決定錄取的標準。招生事務學系自行決定各學科的加權係數 Wang和Stanley(1970)提出加權方法:當各科量尺刻度一致時,加權係數計算如下 為試卷與試卷之相關係數 加權係數=1+該科與其他學科相關係數之累加11jijiW1.不同時段所獲得某學科分數的高低,其評量量尺意義大抵是一致的。不同時段所獲得某學科分數的高低,其評量量尺意義大抵是一致的。2.評量量尺分數的高低是具有意義的。評量量尺分數的高低是具有意義的。3.各學科評量量尺之刻度大抵是一致的。各學科評量量尺之刻度大抵是一致的。4.分數是相當可靠的。分數是相當可靠的。結論試卷等化技術整合現代評量理論(如:IRT)建立學科評量量尺測驗資料收集方法落實理想考試制度堅信考試改革堅信考試改革 實現真正公平實現真正公平報告完畢 謝謝大家