ChaseDream
搜索
返回列表 发新帖
查看: 563|回复: 0
打印 上一主题 下一主题

谁能帮我解释一下啊?难度标准设定的数学原理 - logits

[复制链接]
楼主
发表于 2008-4-6 10:34:00 | 只看该作者

谁能帮我解释一下啊?难度标准设定的数学原理 - logits

https://www.ncsbn.org/02_18_05_brief.pdf

谁能帮我解释一下啊?我要参加的考试 考纲中说

in Dec.2006, the Board decided that the test passing standard should be increased from -0.2800 logits to -0.2100 logits.

先介绍一下情况,这个考试的形式是在电脑上答题,基本都是单选,少数多选和填空,考生考试最多6小时,答题数最少75题,最多265题,这种考试被称为电脑适应性考试,也就是电脑根据你答对答错的情况给出后面的题目。比如先答一题,如果你答对了,就给再难一点的,如果答错了,给简单一点的,这样一直做到75题时,如果电脑分析觉得你一直答得不错就能通过,如果在水平线下,就不通过。另一种情况是考生水平不稳定,电脑就继续出题,一直到265题为止,但是如果当中任何一题答好后能达到通过水平,电脑就会停止,或是答得太差电脑也会停。

考纲还说75题或是265题中,15题不算分。(我猜是前15不算分,因为如果你用光6小时,但是题目没答好,据说之看最后60题。)

我的问题是,请问 passing standard should be increased from -0.2800 logits to -0.2100 logits 应该如何理解

是不是说算分的那60题中,要答对95%以上

谢谢!

我在google查到的文章 不知道有没有关联:试题反应理论    能力量尺 The ability scale

 測驗的最終目的往往在於給考生打分數,該分數便代表考生習得(或熟習)某種技能的程度。因此,謹慎地打分數以及小心翼翼地解釋測驗分數,便成為教育或心理測量中一個重要的課題。
  在古典測驗理論裡,考生在某份測驗上答對(或正確反應)的題數和,即代表他在該測驗上的真實分數(true score)的不偏估計值(unbiased estimate),亦即他在該測驗所測量之技能上的表現程度。而在試題反應理論裡,考生的能力並不是由答對的題數和來表示,而是必須估計的;亦即經由某種適當模式以及考生的反應組型(response pattern),來估計出考生應有的能力估計值。
  一般說來,決定考生能力估計值大小的常用步驟,如下所述:

  1. 先取得考生在一組試題上的反應資料,答對者給1分,答錯者給0分。

  2. 若試題參數(如:難度、鑑別度、及猜測度)為已知時,可用前文所提到的最大近似值估計法(maximum likelihood estimation)來進行估計考生的能力。

  3. 若試題參數為未知時,則試題與能力參數就必須一起同時進行估計,此時亦可用最大近似值估計法來估計。

  4. 再將估計好的能力估計值,經由直線或非直線轉換,以便換算成較為一般大眾所熟悉的量尺分數,增加解釋測驗分數的便利;例如:TOEFL分數便一例。

  經由上述步驟,我們可以獲得考生的能力分數,有助於我們解釋考生在某份測驗上的表現好壞。然而,在考慮解釋能力分數的意義之前,能力分數的本質什麼?什麼樣的分數轉換才有意義?該用何種量尺來表示?我們也必須要有所瞭解才行,方不致誤用或濫用了試題反應理論的優點。

能力量尺的本質

  前面說過,答對題數和分數图片点击可在新窗口打开查看真實分數图片点击可在新窗口打开查看的不偏估計值,亦即

图片点击可在新窗口打开查看(公式一)

答對題數和分數图片点击可在新窗口打开查看除以總題數(亦即經過直線轉換),即可獲得一個比例正確分數(proportion-correct score)。當某測驗包含許多分測驗,且每一個分測驗都包含不同的題數,測量到不同的目標時,使用比例正確分數則較具有意義與適當性。這種情形通常出現在效標參照測驗(criterion-referenced test)裡,而在常模參照測驗(norm-referenced test)裡,往往需要使用別種直線轉換,才能獲得所需的標準分數。當然,答對題數和分數图片点击可在新窗口打开查看也可以透過非直線的轉換,以換算成標準九分或百分位數等分數,以便於進行比較考生在某測驗上的表現差異情形。
  然而,分數图片点击可在新窗口打开查看有個天生的缺點,那就是它不是一種試題獨立的分數,因此,經過轉換過的分數也不一種考生族群獨立的分數,亦即它會受到不同試題與不同考生的反應的影響。另一方面,能力分數图片点击可在新窗口打开查看卻具有試題獨立與樣本獨立等不變性的特質(請參考前文關於試題反應理論的基本概念之說明),它與图片点击可在新窗口打开查看分數不同。所以,我們可以使用图片点击可在新窗口打开查看分數來比較回答不同試題的考生能力,而图片点击可在新窗口打开查看分數所用的量尺(scale)也可以被看成測量特質或能力的絕對量尺。
  其實,測驗試題所欲測量的特質或能力,可以被廣義的定義成態度或成就、一種狹義的成就變項(如:四則運算的能力)、或一種人格變項(如:自我概念、成就動機等),它們未必天生的、或一成不變的。事實上,能力或特質一詞被看成考生的一種固定特徵時,多少都有一點不恰當或誤導的意味在裡頭。在許多情境裡,使用精熟程度(proficiency level)一詞,也許會比較恰當些。
  另者,定義图片点击可在新窗口打开查看分數所用的量尺,又具有什麼樣的本質呢?很明顯的,觀察分數图片点击可在新窗口打开查看不是定義在比率量尺(ratio scale)上,也不定義在等距量尺(interval scale)上,充其量,它最多僅被定義在次序量尺(ordinal scale)上。同樣的,图片点击可在新窗口打开查看分數亦被定義在次序量尺上。然而在某些情境中,图片点击可在新窗口打开查看量尺被作為有限的比率量尺的解釋,也是有可能的。

图片点击可在新窗口打开查看量尺的轉換
  轉換可分成兩種:直線轉換和非直線轉換。轉換的目的在於使測驗分數的解釋和涵義的瞭解,能廣被一般大眾所接納。以下就以這兩種轉換來說明图片点击可在新窗口打开查看量尺的涵義。
  讀者們可還記得:在試題反應理論裡,正確反應的機率以試題反應函數图片点击可在新窗口打开查看來表示。以二個參數模式為例:

图片点击可在新窗口打开查看(公式二)

若將图片点击可在新窗口打开查看图片点击可在新窗口打开查看、及图片点击可在新窗口打开查看加以轉換成:图片点击可在新窗口打开查看图片点击可在新窗口打开查看,和

图片点击可在新窗口打开查看,則

图片点击可在新窗口打开查看(公式三)

  亦即經過直線轉換後,一個正確反應的機率不會改變;它意謂著,只要試題參數也經過適當的轉換,我們便可針對图片点击可在新窗口打开查看量尺進行直線轉換,而仍不改變其正確反應的機率值。
  例如,Woodcock(1978)的心理教育測驗庫(Woodcock-Johnson Psycho-Educational Battery)所用的量尺,便以一個參數模式求得之图片点击可在新窗口打开查看值,經轉換成以9為底的對數量尺:

图片点击可在新窗口打开查看(公式三)

图片点击可在新窗口打开查看(公式四)

因此,它一種直線量尺(linear scale)。同理,試題難度也可以轉換成

图片点击可在新窗口打开查看(公式五)

图片点击可在新窗口打开查看量尺的特性之一便图片点击可在新窗口打开查看的差值,其正確反應的機率分別剛好.90, .75, .50, .25和.10。Wright(1977)曾把這個量尺修改成

图片点击可在新窗口打开查看(公式六)

並把它叫作「智慧」量尺(WITs scale)。

  有時候在某些情境裡,進行非直線轉換(nonlinear transformation)反而有助於我們對參數的估算和解釋。茲以一個參數模式為例,說明如下:

图片点击可在新窗口打开查看(公式七)

如果我們把图片点击可在新窗口打开查看图片点击可在新窗口打开查看值經由非直線方式轉換成新的图片点击可在新窗口打开查看图片点击可在新窗口打开查看值如下:

图片点击可在新窗口打开查看(公式八)

則公式七可以轉變成

图片点击可在新窗口打开查看

图片点击可在新窗口打开查看

图片点击可在新窗口打开查看(公式九)

因此,

图片点击可在新窗口打开查看(公式十)

公式十即Rasch模式(1960)對成功的機率所下的原始定義。

  正確反應機率既如上述定義在图片点击可在新窗口打开查看量尺上的图片点击可在新窗口打开查看所示,不正確反應機率則為图片点击可在新窗口打开查看,亦即

图片点击可在新窗口打开查看(公式十一)

因此,成功的勝算(odds for success)O可以定義成

图片点击可在新窗口打开查看

图片点击可在新窗口打开查看(公式十二)

假設有兩位考生在某一試題上的能力各為图片点击可在新窗口打开查看图片点击可在新窗口打开查看,且其成功的勝算各為图片点击可在新窗口打开查看图片点击可在新窗口打开查看,則他們的成功的勝算比為

图片点击可在新窗口打开查看(公式十三)

公式十三意謂著,在图片点击可在新窗口打开查看量尺上,若某考生的能力另一考生能力的兩倍,則他答對某一試題的機率也是另一考生的兩倍。同理,若同一考生在兩題不同難度值(如图片点击可在新窗口打开查看图片点击可在新窗口打开查看)的試題上成功的勝算各為图片点击可在新窗口打开查看图片点击可在新窗口打开查看,則該考生答對該二試題的勝算比為

图片点击可在新窗口打开查看(公式十四)

由公式十四可以知道,假設第二題試題的難度第一題難度的兩倍(如:图片点击可在新窗口打开查看),則該考生答對第一題較簡單的試題的機率他答對第二題較困難試題的兩倍。

  上述图片点击可在新窗口打开查看图片点击可在新窗口打开查看量尺所具有的比率量尺的特性,僅適用在一個參數模式裡。關於二個參數和三個參數模式,則量尺又必須另外定義,有興趣的讀者可自行參考Hambleton & Swaminatlian(1985)的詳細說明。
  一個參數模式中另外一種較有意義的非直線轉換,便採「對數勝算」(lag-odds)的轉換。例如,兩位考生對同一試題的成功的勝算比為

图片点击可在新窗口打开查看(公式十五)

公式十五取自然對數後,則變成

图片点击可在新窗口打开查看(公式十六)

如果兩位考生的能力相差一個單位,即

图片点击可在新窗口打开查看

图片点击可在新窗口打开查看

亦即,在能力量尺上相差一個單位,則相當於在图片点击可在新窗口打开查看量尺上的成功的勝算相差約2.72的量。同樣的道理,如果同一考生回答兩個不同難度的試題,則

图片点击可在新窗口打开查看(公式十七)

亦即,在試題難度上相差一個單位,即相當於在成功的勝算上相差約2.72的量。

  在對數勝算量尺上的單位,即稱作「洛基」(logits)。洛基單位可以由下列程序直接求得,亦即

图片点击可在新窗口打开查看(公式十八)

則取自然對數後,公式十八的單位即洛基:

图片点击可在新窗口打开查看(公式十九)

轉換成真實分數量尺
  其實,图片点击可在新窗口打开查看量尺最主要的轉換用途將它轉換成真實分數量尺(true-score scale);因為真實分數量尺的範圍由0到图片点击可在新窗口打开查看图片点击可在新窗口打开查看為測驗的題數,而图片点击可在新窗口打开查看量尺的範圍卻介於正負無窮大之間(亦即图片点击可在新窗口打开查看),若將图片点击可在新窗口打开查看量尺轉換成真實分數量尺,不僅有助於我們陳報考生的能力高低,更有助於我們解釋測驗分數和作為對換測驗(test equating)之用。
  前面曾經說過,真實分數答對題數和分數之期望值,以數學公式表示如下:

图片点击可在新窗口打开查看(公式二十)

其中,图片点击可在新窗口打开查看為真實分數,图片点击可在新窗口打开查看為答對題數和分數,图片点击可在新窗口打开查看代表第图片点击可在新窗口打开查看個試題上的反應分數(即答對者給1分,答錯者給0分),图片点击可在新窗口打开查看代表求期望值的運算符號。若根據期望值的運算方法,公式二十可以展開如下:

图片点击可在新窗口打开查看

图片点击可在新窗口打开查看

图片点击可在新窗口打开查看(公式二十一)

亦即,真實分數即能力為图片点击可在新窗口打开查看的考生在一堆試題上的試題特徵曲線(item characteristic curves)之和。由此看來,真實分數其實就是考生在某一測驗上的測驗特徵曲線(test characteristic curves),當然,這種說法也僅有在試題反應模式適用於該資料的條件下才成立。
  真實分數可以被看成图片点击可在新窗口打开查看的一種非直線轉換,因為图片点击可在新窗口打开查看图片点击可在新窗口打开查看間具有一種依序遞增的函數關係。另一種常用的轉換,便图片点击可在新窗口打开查看轉換成真實比例正確分數(true proportion correct score)或內容範圍分數(domain score)如下:

图片点击可在新窗口打开查看(公式二十二)

可見图片点击可在新窗口打开查看的值介於0與1之間,如同百分比一般介於0%到100%之間。在一個參數和二個參數模式下,图片点击可在新窗口打开查看的下限值為0;而在三個參數模式時,由於图片点击可在新窗口打开查看趨近於图片点击可在新窗口打开查看,所以图片点击可在新窗口打开查看趨近於最低的漸近線图片点击可在新窗口打开查看,故图片点击可在新窗口打开查看的下限值為图片点击可在新窗口打开查看,與之相對的图片点击可在新窗口打开查看的下限值則為图片点击可在新窗口打开查看
  將图片点击可在新窗口打开查看轉換成真實分數或內容範圍分數有許多好處:第一,負的分數可以被消除,便利於大眾的理解能力;第二,新量尺的範圍介於0與图片点击可在新窗口打开查看之間(或0%到100%之間),分數本身即具有解釋涵義在裡頭;第三,內容範圍分數比图片点击可在新窗口打开查看量尺更好決定區別精熟與否的切割分數(cut-off score),便利於精熟測驗(mastery testing)的實施;第四,將真實分數對照其相對應的图片点击可在新窗口打开查看值,畫成一個雙向度的分佈圖,有助於判定切割分數的位置。
  為了說明起見,茲舉表一的五個試題的基本資料為例,分別計算图片点击可在新窗口打开查看時,三個參數模式的正確反應機率,並合併這些機率值為真實分數,及算出其相對應的內容範圍分數,並畫出內容範圍分數與图片点击可在新窗口打开查看值的分佈圖,如表二及圖一所示。

表一 五個試題的試題參數值

試題

難度图片点击可在新窗口打开查看

鑑別度图片点击可在新窗口打开查看

猜測度图片点击可在新窗口打开查看

1

2

3

4

5

-2.00

-1.00

0.00

1.00

2.00

0.80

1.00

1.20

1.50

2.00

0.00

0.00

0.10

0.15

0.20

表二 图片点击可在新窗口打开查看图片点击可在新窗口打开查看图片点击可在新窗口打开查看之間的關係

图片点击可在新窗口打开查看

图片点击可在新窗口打开查看

图片点击可在新窗口打开查看

图片点击可在新窗口打开查看

图片点击可在新窗口打开查看

图片点击可在新窗口打开查看

图片点击可在新窗口打开查看

图片点击可在新窗口打开查看

-3

-2

-1

0

1

2

3

.20

.50

.80

.94

.98

.99

1.00

.03

.15

.50

.85

.97

.99

1.00

.10

.11

.20

.55

.90

.99

1.00

.15

.15

.16

.21

.58

.94

1.00

.20

.20

.20

.20

.22

.60

.96

.69

1.12

1.85

2.75

3.65

4.51

4.96

.14

.22

.37

.55

.73

.90

.99

图片点击可在新窗口打开查看

圖一 图片点击可在新窗口打开查看图片点击可在新窗口打开查看關係之分佈圖

  由圖一可以看出图片点击可在新窗口打开查看图片点击可在新窗口打开查看之間具有依序遞增的關係(monotonically increasing relationship),而與图片点击可在新窗口打开查看相對應的图片点击可在新窗口打开查看量尺上的分數,即可作為判斷精熟與否的切割分數*Hambleton & deGruitjer, 1983)。

參考書目

  1. Hambleton, R. K., & deGruijter, D. N. M. (1983). Application of item response models to criterion-referenced test item selection. Journal of Educational Measurement, 20, 355-367.

  2. Hambleton, R. K., & Swaminathan, H. (1985). Item response theory: Principles and applications. Boston, MA: kluwer.

  3. Hambleton, R. K., Swaminathan, H., & Rogers, H. J. (1991). Fundamentals of item response theory. Newbury Park, CA: SAGE.

  4. Rasch, G. (1960). Probabilistic models for some intelligence and attainment tests.Copenhagen: Danish Institute for Educational Research.

  5. Woodcook, R. W. (1978). Development and standardization of the Woodcook-Johnson Psycho-Educational Battery.Hingham, MA: Teaching Resources Corporation.

  6. Wright, B. D. (1977). Solving measurement problems with the Rasch model. Journal of Educational Measurement, 14, 97-116.


[此贴子已经被作者于2008-4-6 10:53:36编辑过]
您需要登录后才可以回帖 登录 | 立即注册

Mark一下! 看一下! 顶楼主! 感谢分享! 快速回复:

手机版|ChaseDream|GMT+8, 2025-7-7 03:06
京公网安备11010202008513号 京ICP证101109号 京ICP备12012021号

ChaseDream 论坛

© 2003-2025 ChaseDream.com. All Rights Reserved.

返回顶部