1、2022/8/4教學評量1信度的意義與原理信度的意義與原理信度的意義與特性信度的意義與特性2022/8/4教學評量2信度的意義信度的意義測量的一致性:相同的人在不同的時間,以相同的測驗測量,或以複本測驗(相等的試題)測量,或在不同的情境下測量,所得結果的一致性。測量的誤差性:指測驗或測驗的分數反映出真實量數的程度;即信度在於估計測量的誤差有多少。2022/8/4教學評量3信度的特性信度的特性心理測驗與教育測驗的信度比自然測驗的信度為低。其原因:自然科學採直接測量,但心理與教育只能採間接測量。自然科學使用的測量工具精確性相當高自然科學測量的特徵相當穩定2022/8/4教學評量4信度不是一種普遍的
2、特質,測驗分數不可能在任何情境下都是可靠或一致的。各種不同的信度,代表某種特殊類型的一致性或可靠性,故信度的考慮需是測驗的用途而定。如欲瞭解學生未來的智力發展,測驗的穩定性就非常重要。如欲瞭解創造能力測驗分數的可靠性,即需考慮測驗分數在評分上的一致性。2022/8/4教學評量5信度是一種統計的概念,採用邏輯的分析,無法提供信度有效的證據。確定測驗信度主要有兩種方法:採用相同的測驗重複測量單一受試者很多次,分析受試者本身的內在差異,這個差異通常用測量標準誤表示。使用相同的測驗測量一群受試者兩次,根據分數在團體中的相對位置,分析受試者相互間的變異量,用來表示此變異情形的是相關係數。2022/8/4
3、教學評量6使用第一種方法時,實際上不可能重複測量一個人很多次,故無法直接得到受試者內的變異,而只能利用團體資料,從受試者間相互的變異加以估計。第二種方法教育與心理測驗信度最常用的方法。測驗的信度愈高愈好(0 信度 1)信度指測驗的分數或結果,而非指測驗本身。2022/8/4教學評量7信度的原理信度的原理2022/8/4教學評量8真實分數與測量誤差真實分數與測量誤差 XTEX:實得分數 T:真實分數 E:誤差分數 實得分數為測驗中所得到的分數真實分數又稱普遍性分數,其無法正確被測量到。誤差分數表測量誤差,為個人實得分數與真實分數之差。2022/8/4教學評量9測量誤差可分為下列兩種:非系統誤差(
4、來自隨機因素)系統誤差2022/8/4教學評量10真實分數與信度真實分數與信度 S2xS2tS2e S2x:實得分數的總變異量 S2t:真實分數的變異量 S2e:測量誤差的變異量2022/8/4教學評量11相關係數相關係數yxxyxySSCNYYNXXNYXXYr2222)()(2022/8/4教學評量12222222xextxSSSSSSx22xtxxSSr2222xexxxxSSSSr22xexxSSr 2022/8/4教學評量13信度的類型信度的類型估計信度的方法估計信度的方法2022/8/4教學評量14重測法重測法採同一個測驗在不同的時間,重複測量相同的一群受試者兩次,根據這兩次分數求
5、得的相關,稱為重測信度係數或稱再測信度。此係數可表明測驗結果經過一段時間的穩定性,故又稱穩定係數。2022/8/4教學評量15造成重測信度係數非系統變異誤差的原因:受試者本身情況的改變測驗情境的改變主試者的影響(重測的主試者要一樣)主、受試者的交互作用再測信度的高低與兩次間隔時間的長短有密切關係:間隔時間愈長,信度愈低;間隔時間愈短,信度愈高。解釋重測信度時宜將兩次間隔時間列入考慮重要因素。2022/8/4教學評量16測驗年齡幼小的兒童,其間隔時間要比年齡大的短。較適用於動作與人格測驗,不適用於認知測驗。重測信度的優點:施測方便可作為預測的參考重測信度的缺點:易受記憶的影響重複作答,亦引起厭煩
6、特殊的考試不能用兩次情境很難相同2022/8/4教學評量17複本方法複本方法複本測驗:兩份測驗在內容、型式、題數、難度、指導說明、時間限制與例題等方面,必須相似或相等。複本信度:兩個複本測驗實施於一群相同的受試者,依據所測量到的分數求相關。2022/8/4教學評量18實施兩個複本測驗的方式有兩種:在同一時間連續實施:可反映出測驗工具的所造成的誤差,但無法反映出受試者本身狀況所造成的誤差,故又稱等值係數。間隔一段時間實施:可反映出測驗工具的所造成的誤差,又可反映出受試者本身狀況所造成的誤差,故又稱穩定與等值係數。2022/8/4教學評量19複本方法的優點:可同時反映出測驗內容與時間所導致的誤差,
7、故為估計測驗信度的最好方法。不受情境的干擾適合追蹤研究減少作弊、應付測驗所做的訓練複本方法的缺點:複本測驗的編製不易,不但費時,而且成本高易受練習影響測量行為作答的動機亦會減弱2022/8/4教學評量20內部一致性方法內部一致性方法折半方法庫李方法 係數霍意特變異數分析法2022/8/4教學評量21折半方法折半方法憑一次測驗結果,求兩半分數的相關,故其信度係數有時被稱為內部一致性係數。最常用的兩種方法:依照隨機方法將題目分為兩半依照隨機方法將題目分為兩半依照奇數題和偶數題分為兩半依照奇數題和偶數題分為兩半在其他條件相等情況下,測驗愈長(題數愈多),其可靠性愈高,故半個測驗的信度比原來整個測驗的
8、信度要低。2022/8/4教學評量22rnnrrxx)1(1hhhhxxrrr12r rxxxx:估計的信度:估計的信度 r r:原測驗的信度:原測驗的信度 n n:測驗加長或縮短的倍數:測驗加長或縮短的倍數r rxxxx:全測驗的信度:全測驗的信度r rhhhh:兩半測驗的相關:兩半測驗的相關2022/8/4教學評量233Y60.0Y80.0yS7X80.0 xS4.1X132X6YX52Y)()(2222YYNXXNYXXYNrhh56.)3()5(5)7()13(5)3)(7()6)(5(222022/8/4教學評量24折半信度愈高表示兩半測驗的測驗的內容愈一致或相等,亦即內容的取樣愈適
9、當。此信度僅能說明測驗的內容取樣的誤差,不能提供時間取樣的誤差。上述公式假定兩半測驗的變異數相等。若違反此假定,會導致高估測驗的信度。2022/8/4教學評量25另一折半信度的估計方法(Flanagan):前者實際上就是測量誤差,此誤差變異量被總分的變異量除,即為誤差變異量所佔的百分比,以1減去誤差變異量比率,即為真實分數的變異比率。)1(2222xeoxxSSSrrxx:估計的信度:估計的信度So2:奇數題分數的變異數:奇數題分數的變異數Se2:偶數題分數的變異數:偶數題分數的變異數Sx2:測驗總分的變異數:測驗總分的變異數2022/8/4教學評量2672.)414.1()80(.)80(.
10、1(2)1(2222222xeoxxSSSr72.)414.1()75(.112222xdxxSSr2022/8/4教學評量27庫李方法庫李方法主要依據受試者對所有題目的反應,分析題目間的一致性,以確定測驗中的題目是否測量相同的特質。題目間的一致性主要受兩種誤差的影響:內容取樣取樣內容的異質性內容的同質性係指測驗中所有題目均測量同樣的性質2022/8/4教學評量28內容的異質性係指測驗中的題目所測量的特質超過兩種以上庫李公式對題目的基本假定:題目的計分均屬非對即錯題目沒有明顯受到速度的影響題目是同質的,亦即測量一個共同的因素2022/8/4教學評量29)(1 11 1221220 xKRxKR
11、nSxnxnnrSpqnnr:測驗總分的變異量百分比的總乘積:全部題目答對與答錯率:答錯某一題的人數比率:答對某一題的人數比:測驗的題數:測驗信度220 xKRSpqqpnr:測驗分數的平均數:測驗總分的變異量:測驗的題數:測驗信度xSnrxKR2212022/8/4教學評量3080.)414.1(80.1 1441 12220 xKRSpqnnr67.)414.1(4)24(21 144221KRr2022/8/4教學評量31庫李21號公式所估計的信度總是低於20號公式,且其正確性亦較差,除非所有的題目均有相等的難度。2022/8/4教學評量32係數係數庫李信度適用於計分非對即錯的測驗,對於
12、Likert式的多點量表,則採用Cronbach 係數。係數乃由庫李20號公式發展出來。1 122xiSSnn測驗總分的變異量量每一個題目分數的變異:題數:估計的信度:22xiSSn2022/8/4教學評量3399.6)47.1()36.1()10.1()33.1(22222iS96.)5(99.61 1441 1222xiSSnn2022/8/4教學評量34評分者方法評分者方法採不同評分者評閱測驗卷,而估計評分者一致性,稱為評分者信度。評分者信度愈高,表示評分間的評分愈一致。若資料為等級資料宜使用Speaman 等級相關;若為連續資料則使用Pearson積差相關。若評分者為兩位以上則使用肯德
13、爾和諧係數。2022/8/4教學評量352022/8/4教學評量36信度的類型與測量誤差信度的類型與測量誤差2022/8/4教學評量37各種信度類型及其誤差來源各種信度類型及其誤差來源信度類型解答的主要問題誤差來源重測信度一、測驗情況的影響1.1.相關內容樣本所得分數受到不同相關內容樣本所得分數受到不同測驗情境的影響如何測驗情境的影響如何?2.2.在不同測量時間所得分數的穩定在不同測量時間所得分數的穩定性如何性如何?時間取樣時間取樣複本信度1.1.不管使用的複本測驗或實施的情不管使用的複本測驗或實施的情境怎樣,測驗的一致性如何境怎樣,測驗的一致性如何?2.2.在不同測量時間所得分數的穩定在不同
14、測量時間所得分數的穩定性如何性如何?時間取樣與時間取樣與內容取樣內容取樣2022/8/4教學評量38信度類型解答的主要問題誤差來源複本信度(同時實施)二、不同內容取樣的影響1.1.測驗分數在相同情境下,是否受測驗分數在相同情境下,是否受不同內容取樣的影響不同內容取樣的影響?2.2.兩份仔細配合的複本測驗是否相兩份仔細配合的複本測驗是否相等、平行或可交互使用等、平行或可交互使用?內容取樣內容取樣折半信度1.1.測驗分數在相同情境下是否受不測驗分數在相同情境下是否受不同內容取樣的影響同內容取樣的影響?2.2.複本形式的信度係數為多少複本形式的信度係數為多少?內容取樣內容取樣庫李信度1.1.測驗分數
15、在相同情境下是否受不測驗分數在相同情境下是否受不同內容取樣的影響同內容取樣的影響?2.2.測驗的同質性如何測驗的同質性如何?3.3.每一個題目的反應一致性如何每一個題目的反應一致性如何?內容取樣與內容取樣與內容異質內容異質2022/8/4教學評量39信度類型解答的主要問題誤差來源庫李信度(21號公式)1.1.測驗分數在相同情境下是否受不測驗分數在相同情境下是否受不同內容取樣的影響同內容取樣的影響?內容取樣與內容取樣與內容異質內容異質係數霍意特信度1.1.測驗分數在相同情境下是否受測驗分數在相同情境下是否受不同內容取樣的影響不同內容取樣的影響?內容取樣與內容取樣與內容異質內容異質評分者信度 三、
16、不同評分者的影響三、不同評分者的影響1.1.如果使用不同評分者,分數差異如果使用不同評分者,分數差異的程度如何?的程度如何?2.2.測驗的客觀程度如何?測驗的客觀程度如何?3.3.不同評分者所得的結果是否可替不同評分者所得的結果是否可替換?換?評分者誤差評分者誤差2022/8/4教學評量40信度主要關心的是實得分數與真實分數的符合程度,此兩者間的相關(rot)稱為信度指數,事實上我們不可能得到此相關,僅能以上述方法來估計,此相關(rxx)稱為信度係數。信度指數等於信度係數的平方根信度係數亦即決定係數,可以直接來解釋測驗分數的總變異中,有多少變異的比率真實特質的所造成變異。xxotrr 2022
17、/8/4教學評量41標準參照測驗與速度測標準參照測驗與速度測驗的信度驗的信度標準參照測驗的信度標準參照測驗的信度2022/8/4教學評量42常模參照測驗的目的在於區別或比較學生間不同成就水準,所關心的是學生個別差異,故其分數有較大的變異性。其信度係數受到團體變異所影響,團體變異愈大,測驗信度係數愈高。標準參照測驗目的在於依據一項標準,評量學生的學習屬於精熟或非精熟,而不是區分成就水準,故測驗的變異性不會存在。2022/8/4教學評量43傳統的相關方法不適於估計標準參照測驗的信度。估計決定的正確性可採下列方法:百分比一致性柯恆的K係數2022/8/4教學評量44百分比一致性百分比一致性兩個複本測
18、驗的精熟人數測驗甲精熟非精熟測驗乙精熟30a3b33(a+b)非精熟2c15d17(c+d)32(a+c)18(b+d)502022/8/4教學評量45504550155030AAPNdaNdNaP百分比一致性(Percent Agreement,PA)是分析分類決定一致性。求得百分比一致性為.90,表分類決定的一致性為90%。影響PA的大小,主要來源:測驗品質(複本)團體成分2022/8/4教學評量46柯恆的柯恆的K K係數係數柯恆的K係數(Cohens Kappa coefficient)目的是從PA中除去團體成分(Pc)的機會影響,以估計由測量程序所造成的決定一致性。)()(1NdbNd
19、cNcaNbaPPPPKcccA78.54.154.90.54.)50185017()50325033(KPc2022/8/4教學評量47Pc=.54的意義:在此團體中,依據團體組成性質的影響,可預期有54%的一致性分數。將此影響取消後,得到K係數.78,此係數的意義是:除了團體組成所預期的影響外,測驗可貢獻78%的一致分類。百分比一致性與K係數的選用須視所強調的重點而定,若強調團體一致性的分類,而不顧一致性的過程,就選用百分比一致性;若重點關心測量程序對一致性分類的貢獻程度,則以選用K係數為宜。2022/8/4教學評量48速度測驗的信度速度測驗的信度2022/8/4教學評量49速度測驗的信度
20、不適宜採用根據一次測驗的實施加以估計,因會產生假性的高相關現象。其信度估計宜採兩次的測驗實施方法,故重測信度與複本信度為適當的方法。2022/8/4教學評量50影響信度的因素影響信度的因素2022/8/4教學評量51測驗的長度測驗愈長其信度愈高:測驗愈長,內容愈具代表性,分數受到猜測的影響亦愈小。團體的變異量在其他條件相等下,團體的變異性(異質性)愈大,其信度愈高。測驗的難度難易適中的測驗,可使測驗的分佈範圍變大,而提高測驗信度。測驗的客觀性評分題目的代表性2022/8/4教學評量52信度估計的方法2022/8/4教學評量53信度的解釋與應用信度的解釋與應用2022/8/4教學評量54理想的信
21、度係數理想的信度係數用來作個人決定的測驗,其所需的信度係數比用來做團體決定的測驗要高。穩定等值等值穩定認知.90.95.80.85.70.75情意比認知低.20.30之間2022/8/4教學評量55測量標準誤測量標準誤信度係數適合於比較不同測驗的信度,測量標準誤則適合於解釋個人的分數。測量標準誤的意義測量學生100次智商和真實分數會有一個差,此差稱為測量誤差,測量誤差分配的標準差,就是測量標準誤。xxxmeansrSSE1.SEmeans:測量標準誤Sx:測驗的標準差rxx:測驗的信度係數2022/8/4教學評量56測量標準誤與信度係數的關係當信度係數為1時,測量標準誤為0;信度係數為0時,測
22、量標準誤等於測驗分數的標準差。信度愈高,測量標準誤愈小。測量標準誤的應用個人分數的解釋。比較不同測驗的分數差異2022/8/4教學評量57測驗的效度測驗的效度歐慧敏2022/8/4教學評量58效度的意義與原理效度的意義與原理效度的意義與特性效度的意義與特性2022/8/4教學評量59效度的意義效度的意義測驗分數的正確性;一個測驗測量到它所想要測量的特質程度。2022/8/4教學評量60效度的特性效度的特性效度無法直接測量,但可從其他資料推論效度的判斷,主要依據測驗分數的使用目的,或測驗結果的解釋。故效度屬於測驗的結果,而非測驗工具本身。效度是程度上的差別,而非全有或全無的問題。效度在使用的目的
23、和情境上具有特殊性,不宜視為普遍性的特質。2022/8/4教學評量61效度包含邏輯分析和統計分析效度愈高愈好效度愈高,信度愈高效度不考慮界線2022/8/4教學評量62效度的理論效度的理論2022/8/4教學評量63222222222222xexspxcoxxespcoxSSSSSSSSSSSS:誤差變異量:獨特變異量:共同因素變異量總變異量2222:espcoxSSSS其中 是屬於效度的部分。效度是指共同因素所造成的變異量比率。共同因素指某個測驗的變異量和其他測驗的變異量所共同分享的部分。兩個或兩個測驗以上所有的共同因素。22xcoSS2022/8/4教學評量64APA出版之教育與心理測驗之
24、標準一書指出,測驗的目的有三:確定學生目前對於測驗中所呈現的代表性樣本的表現程度。(內容效度)預測學生未來的行為,或估計學生在測驗中無法直接測量到的某些特質的目前狀況。(效標關聯效度)推論學生具有某些特質的程度。(構念效度)除上述三者外,宜加入結果的考量2022/8/4教學評量65內容效度內容效度指測驗內容的代表性或取樣的適切性。主要採取邏輯分析。適用於成就測驗,特別是標準參照測驗。表面效度缺乏邏輯分析,僅只測驗給人的第一印象好像測量什麼東西,而不是指測驗事實上能測到什麼東西,故與內容效度不同。2022/8/4教學評量66效標關聯效度效標關聯效度2022/8/4教學評量67以經驗性的方法,研究
25、測驗分數與一些外在效標間的關係,故又稱經驗效度或統計效度。效標效度愈高,測驗分數愈能預測外在效標。外在效標係指測驗所要預測的某些行為或量數。2022/8/4教學評量68同時效度與預測效度同時效度與預測效度同時效度指測驗分數與實施測驗同一時間所取得的效標之間的相關。旨在使用測驗分數估計個人在效標方面的目前實際表現。同時效度的效標是在做測驗的同一時間所取得,不必等待一段時間,故較易於考驗。預測效度指測驗分數與實施測驗後一段時間所取得的效標之間的相關。旨在使用測驗分數預測個人在效標方面未來的表現。2022/8/4教學評量69同時效度與預測效度的不同:效標取得的時間不同:效標取得的時間不同:同時效度同
26、時效度 在測驗在測驗的同時間收集效標;預測效度是在測驗實的同時間收集效標;預測效度是在測驗實施後,等待一段相當長的時間再收集效標施後,等待一段相當長的時間再收集效標 。測驗的目的不同:測驗的目的不同:同時效度同時效度 在評估目前在評估目前情況;預測效度是在預測未來的行為。情況;預測效度是在預測未來的行為。2022/8/4教學評量70效標的特性與種類效標的特性與種類效標的特性:適切性:效標資料能反映出測驗所欲測量的重適切性:效標資料能反映出測驗所欲測量的重要特徵。要特徵。可靠性:效標資料本身須具有可靠性。可靠性:效標資料本身須具有可靠性。客觀性:良好的效標必須能避免偏差和效標混客觀性:良好的效標
27、必須能避免偏差和效標混淆。淆。可用性:在選擇效標時,經常遇到的困難為效可用性:在選擇效標時,經常遇到的困難為效標資料的取得是否容易和方便。標資料的取得是否容易和方便。效標的種類2022/8/4教學評量71效標的種類:學業成就學業成就特殊化的訓練成績特殊化的訓練成績實際工作成績實際工作成績對照團體對照團體精神病學的診斷精神病學的診斷評定成績評定成績先前的有效測驗先前的有效測驗預期表2022/8/4教學評量72構念效度構念效度2022/8/4教學評量73指測驗能測量到理論上的構念或特質的程度。獲得構念效度證據的方法:相關研究相關研究團體差異性的分析團體差異性的分析實驗研究實驗研究內部一致性分析內部
28、一致性分析對照團體法對照團體法相關法相關法計算分測驗與總分間相關計算分測驗與總分間相關因素分析因素分析2022/8/4教學評量74多項特質多項方法矩陣多項特質多項方法矩陣相同方法測量相同特質相同方法測量相同特質相同方法測量不同特質相同方法測量不同特質不同方法測量相同特質不同方法測量相同特質不同方法測量不同特質不同方法測量不同特質2022/8/4教學評量75影響效度的因素影響效度的因素2022/8/4教學評量76測驗的品質測驗的實施受試者的因素效標的品質團體的性質2022/8/4教學評量77效度的解釋與應用效度的解釋與應用2022/8/4教學評量78效度與效標分數的預測效度與人員的選擇錯誤的接受與拒絕基準比率選擇比率效度、選擇比率與正確選擇的關係2022/8/4教學評量79效度與信度的關係效度與信度的關係2022/8/4教學評量80信度是效度的必要條件而非充分條件信度是效度的必要條件而非充分條件2022/8/4教學評量81效度與信度的變異關係效度與信度的變異關係22222222222222222222222222xspxtxcoxspxexxxcoxexspxcoxxespcoxSSSSSSSSSSSSSSSSSSSSSSSSSS2222xextxxSSSSr2022/8/4教學評量82
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。