當前人才測評技術開發與應用的幾個問題 補充——項目反應理論
項目反應理論(Item Response Theory)簡介 雖然項目反應理論的某些基本思想可以追溯到本世紀三四十年代,乃至比納和西蒙的時代,但是人們普遍認為項目反應理論的興起和發展首先應歸功于F。M。洛德。1952年...
項目反應理論(Item Response Theory)簡介
雖然項目反應理論的某些基本思想可以追溯到本世紀三四十年代,乃至比納和西蒙的時代,但是人們普遍認為項目反應理論的興起和發展首先應歸功于F。M。洛德。1952年洛德在其博士論文《關于測驗分數的一個理論》中,第一次對項目反應理論作了系統的闡述(當時他稱其為項目特征曲線理論,后改名為項目反應理論)。通常將此看作是項目反應理論誕生的標志。由于洛德理論的數學復雜性,以及人們對理論本身的懷疑,因而這一新型的測量理論在當時并沒有引起人們的關注。洛德本人在此后10多年中也未能在項目反應理論上取得多大進展。直到1965年洛德通過大規模的調查研究,證實了他所提出的項目反應理論的假設與現實生活中的測驗問題相符,由此而引發項目反應理論的研究和應用。值得一提的是,正當洛德苦于驗證其假設的同時,丹麥數學家G。拉徹于1960年獨立地提出了含有一個參數的“樣本無關”的心理測驗模型,這就是以后項目反應理論中重要的單參數模型。
此后,項目反應理論獲得了迅速發展。1968年洛德和諾維克在伯恩波姆的名著《心理測驗分數的統計理論》中以四章的篇幅詳細地闡述了項目反應理論中具有二、三參數的常態卵形模型和邏輯斯蒂模型的數學問題,至此,構成了項目反應理論的基本體系。在70~80年代,項目反應理論吸引了眾多的教育和心理測驗學者,從而使得項目反應理論取得了突破性進展。這一方面表現在一系列項目反應理論問題的專輯的發表,例如,洛德《項目反應理論在實際測驗問題中的應用》(1980年版),C。L。赫林、F。德雷斯哥和C。K。帕森斯《項目反應理——在心理測量中的應用》(1983年版),R。漢布爾頓和H。斯沃米納塞《項目反應理論:原理和應用》(1985年版);美國《教育測雜志》(JEM)于1977年秋夏季號刊登了“潛在特質理論應用”專輯,共有六篇研究報告,美國《應用心理測量》雜志于1982年秋季號發表了“項目反應理論和應用中的進展”專輯,另一方面,表現為項目反應理論在技術上和應用上的進展。早先困擾項目反應理論的數學模型復雜性,在近20多年的計算機技術協助下,得到了較好的解決,先后產生了計算機程序BISCA和LOGIST,它們都較成功地實現了項目反應模型的參數估計,為項目反應理論在實踐中的應用掃清的障礙。目前,美國大多數教育行政機構、考試服務機構都進行項目反應理論的研究或應用,甚至美國國家行政事務委員會還將采用項目反應理論的應用成果定為一項官方政策。
除了美國之外,在加拿大、新西蘭、瑞典和奧地利等國也對項目反應理論進行了廣泛的研究和應用。近年來,在中國,項目反應理論也引起了人們的重視,有些學者在進行理論研究的同時,也嘗試性地進行了應用?梢灶A見,隨著項目反應理論研究隊伍的不斷壯大,項目反應理論將會越來越完善,越來越得到更廣泛的應用。
一、基本理論假設。
目前,大多數的項目反應理論模型都假設在某一項目反應上只有一個單一人潛在特質起作用,并且可以采用數學模型來描述這一潛在特質水平與項目反應之間的函數關系。有鑒于此,可以歸納出項目反應理論的三條基本假設:
第一,一維性假設。指測驗只測量被試的某一種能力(如計算能力),而可以忽略其他能力對測驗結果的影響(如閱讀能力)。也就是說,被試對測驗結果的反應只受一種能力水平支配,而不受其他能力水平的束縛。極大多數的項目反應模型是基于這一假設之上的。也正是由于這一假設,項目反應理論受到了反對者的攻擊,因為顯而易見的是,在測驗實踐中完全滿足一維性假設是較困難的。
第二,局部獨立性。事實上,這是與一維性假設相等同的,它是指被試對測驗中不同題目的反應在統計上是互相獨立的。也就是說被試在測驗中對某題目上的正確反應概率不依賴于他在其他題目上的正確反應概率。
第三,項目特征曲線形成的假設。這主要是指被試對項目所作反應的概率遵循一定的函數關系,這種函數關系可以用項目特征曲線形式表示出來。
二、項目反應模型。項目反應模型眾多,對于兩級評分系統而言,較常用的項目反應模型有以下幾種:
第一,常態卵形模型。使用常態卵形模型來表示項目特征主要有以下幾種:單參數常態卵形模型、雙參數常態卵形模型、三參數常態卵形模型。
第二,邏輯斯蒂模型。與常態卵形模型相類似,邏輯斯蒂模型也主要有以下三種:單參數模型(又稱拉希模型)、雙參數模型、三參數模型。
三、信息函數。針對經典測驗理論通常只能提供一種對所有被試而言而不管其能力水平變化的唯一的測量有效性指標,1986年伯恩鮑姆提出了使用信息函數來描述在每一種被測量的能力水平上一個測驗或測題的測量有效性。因而在項目反應理論中信息函數有項目信息函數和測驗信息函數兩種。
四、應用
項目反應理論用來解決實際問題的首先一步是選擇一種項目反應函數模型,并且獲得對項目參數和能力水平θ的估計,這種估計可以利用計算機程序而完成。項目反應理論在實踐中有較多的應用,下面簡潔地描述一些。
1、測驗構建。運用項目反應理論對測題庫中的題目進行校正,爾后就可以從這些題目庫中選擇項目以構建成預先詳細闡述了其測量屬性的測驗。
2.等值。等值對于那些編制了許多不同形式的測驗而又希望在同一量表水平匯報測驗分數的測驗編制者而言,是一個值得研究的測量課題。
3.項目偏差。具有一維性的測驗題目,對于該測驗所實施的總體中的所有子體而言,也必須是測量了該同一特質,否則,可以認為該題目對某個具體子體有偏差。由于在項目反應理論中項目反應函數并沒有依賴被試組而對項目進行校準,因而項目反應理論提供了一種尋找題目偏差的方法。
五、爭議和趨勢
項目反應理論是建立在一種數學模型基礎上的,那么如何確定充分模擬被試與測驗題目交互反應所需的必要成分的數目,則是測量學家們爭論的問題。
提倡單參數項目反應模型的人認為,只需要一個人的參數(即能力水平θ)和項目的一個參數(即項目難度b)即能設計項目反應模型。而反對者認為,除了在模型中包含難度參數外,還需考慮項目的區分度參數和被試對項目猜測的參數,也即認為項目反應模型應是三參數的。這種爭論表面上只是涉及各自對項目反應模型的假設,即前者認為,具有相同能力的被試對同樣難度的測題有著同等成功的可能性,而后者認為結果并非如此。這似乎是項目反應理論的內部爭論。實質上,這種爭論涉及兩者在測量基本原理上存在的分歧,這也可以進一步說是在測驗編制和評定中使用項目反應理論方法的提倡者和反對者之間的差異。這里的中心問題是測量方法與測量內容的關系問題。
項目反應理論的支持者認為:科學通過尋求能促使經驗產生的最簡單方法之中實現了進步。當一個人回答測題時,這情形具有潛在的復雜性,許多方面因素影響了個體對該測題所作出反應的結果,因而不能不以一種可起作用的人的反應理論加以說明。為了達到一種可操作的狀況,則必須發明一個簡單思想,并盡力編好測題和測試個體,以便它們之間的相互反應受制于這一思想,最后將其統計結果輸入到數據庫中來看這種發明是否有用。
相反,項目反應理論的懷疑者認為:一個良好的教育成績測驗必須自身界定了被測量的目標。這意味著,不應允許評定的方法來決定測驗的內容或更改測驗中所暗示的目標的定義。從測驗編制者的立場出發,目標的定義是不可侵犯的,他不能在定義上作手腳。通過那些對教育目標作出決定且負責的社會機構,將目標傳遞給測驗編制者;并且測驗編制者必須做的是,努力在他們組成的測驗中盡可能清楚地、精確地體現目標的定義。
盡管存在著爭議,但項目反應理論還是對教育和心理測量領域產生了極大的影響,并且朝著完善和成熟而不斷前進著。由于目前還不可能徹底查明使用數據滿足假設的精確度,因為對于表面上滿足了假設的數據而言,只有當從項目反應理論中所作出的預言能獨立地加以證實后,這才令人心安。同時,項目反應理論的應用通常比經典測驗理論的相似應用在代價上更昂貴,并且許多情況下要借助于計算機工具。因而,如何較好地解決這兩個問題,是項目反應理論自身發展的趨勢之一。此外,項目反應理論發展的另一趨勢就是如何在多級評分體制下構造項目反應模型。