計(jì)算機(jī)自適應(yīng)測驗(yàn)

CAT與傳統(tǒng)紙筆測驗(yàn)的很大差別在于：在CAT中，不同的被試做不同的題目；而在紙筆測驗(yàn)中，所有的被試做同樣的題目。在CAT施測過程中，計(jì)算機(jī)程序會根據(jù)被試當(dāng)前的作答表現(xiàn)，不斷在題庫中選擇與被試水平相匹配的試題進(jìn)行測試。換句話說，對于不同被試的

水平，測驗(yàn)會被調(diào)整，使得高水平被試避免做過多簡單的題目，而低水平的被試避免做太多過難的題目。因此，CAT不僅可以做到因才施測精確估計(jì)被試能力，而且可以節(jié)省許多施測時(shí)間和成本。

簡史

適應(yīng)性測驗(yàn)的應(yīng)用，最早開始于1908年法國心理學(xué)家A.比奈關(guān)于智力測驗(yàn)的研究。他抽取不同年齡組的兒童進(jìn)行試驗(yàn)性測試，從而找到代表各年齡組水平的典型性項(xiàng)目。這些項(xiàng)目按年齡水平高低加以排列后，不同被試從哪一處開始接受測驗(yàn)，施測過程中作答的對錯(cuò)有了結(jié)果后再繼續(xù)選擇什么水平項(xiàng)目施測，以及測驗(yàn)要到什么狀況予以結(jié)束，都要取決于被試的實(shí)際表現(xiàn)和水平，不同對象不同對待。韋氏智力測驗(yàn)也采用了適應(yīng)性測驗(yàn)的思想。韋氏智力測驗(yàn)施測時(shí)，首先選擇一個(gè)較易的題目讓被試作答，然后選擇一個(gè)稍難一點(diǎn)的題目讓被試作答，如果被試無法作答，則選擇一個(gè)更容易的題目測試；如果連續(xù)幾個(gè)題目都無法作答，則中止該部分內(nèi)容的測試，以被試已經(jīng)作答的最難題目作為其水平衡量標(biāo)準(zhǔn)；如果被試正確作答，則選擇一個(gè)更難的題目繼續(xù)測試。這種測試形式最初被稱為量身定制式測試。

真正的CAT施測必須借助計(jì)算機(jī)。最早的CAT大規(guī)模應(yīng)用是計(jì)算機(jī)版本的武裝部隊(duì)職業(yè)能力傾向測驗(yàn)（ASVAB）。紙筆測驗(yàn)版本的ASVAB測試要花3小時(shí)，而CAT版本的只要90分鐘。通過CAT測驗(yàn)，被試的分?jǐn)?shù)可以快速與各個(gè)職位所需的能力條件相匹配。在美國，CAT已成為流行的評估方法，除ASVAB之外的內(nèi)容，大規(guī)模CAT測驗(yàn)還包括研究生入學(xué)考試（GRE）、管理類研究生入學(xué)考試（GMAT）等。

施測過程

大體分為兩個(gè)階段。①試驗(yàn)性探查階段。也就是估計(jì)被試起始能力值的階段。測驗(yàn)開始時(shí)，一般沒有被試真實(shí)水平的有關(guān)信息，因此應(yīng)設(shè)置一批題目，初步估計(jì)其水平。一般做法是，從題庫中隨機(jī)調(diào)取一組（3～5題不等）難度水平中等的試題施測，等被試作答后，計(jì)算機(jī)根據(jù)這些作答反應(yīng)資料，估計(jì)出被試的初始能力的估計(jì)值（

）。②精確估計(jì)真值階段。在這一階段，計(jì)算機(jī)根據(jù)被試的初始能力估計(jì)值，從現(xiàn)有題庫中，挑選出一題最能對能力水平估計(jì)發(fā)揮最大貢獻(xiàn)力量的試題，再將這道試題給被試作答；等被試再作出反應(yīng)之后，計(jì)算機(jī)估計(jì)該被試的能力估計(jì)值，并從題庫中再挑選下一個(gè)適合的試題給該被試作答；這種選題、作答、估計(jì)能力、再選題、再作答、再估計(jì)能力的施測過程，會一直持續(xù)下去，直到事先預(yù)定的施測題數(shù)測完，或者能力估計(jì)達(dá)到了預(yù)定的測量精確性為止。

測驗(yàn)編制過程

CAT的編制除要遵循一般測驗(yàn)的編制原則外，也有特殊之處，其過程一般包含5個(gè)步驟：①反應(yīng)模型選擇。CAT的編制與實(shí)施都建立在IRT基礎(chǔ)上，因此，測驗(yàn)編制的首要問題是反應(yīng)模型的選擇?？晒┻x擇的模型主要適用于0、1計(jì)分資料的拉希模型，邏輯斯諦雙參數(shù)和三參數(shù)模型，以及適用于多級計(jì)分資料的等級計(jì)分模型、分部評分模型和多維度模型等。②題庫建設(shè)。大容量、高質(zhì)量、參數(shù)表達(dá)在共同量尺上的題庫，是進(jìn)行CAT的核心基礎(chǔ)。若沒有一個(gè)符合要求的題庫，則無法進(jìn)行CAT。題庫建設(shè)中有兩個(gè)突出的技術(shù)問題，就是項(xiàng)目參數(shù)估計(jì)和等值，也就是每個(gè)題目除了要有內(nèi)容等維度的標(biāo)識外，還必須有難度、區(qū)分度等測量學(xué)的指標(biāo)，并且各題的測量學(xué)指標(biāo)是在同一量尺上，是可以比較的。③施測程序編制。編制CAT施測程序，首先要解決的問題是被試特質(zhì)水平的估計(jì)方法問題。也就是CAT施測時(shí)，計(jì)算機(jī)必須在測試完每道題目之后即時(shí)估計(jì)被試當(dāng)前的特質(zhì)水平，作為從題庫中挑選下一道測試題的依據(jù)。主要運(yùn)用的被試特質(zhì)水平估計(jì)方法有條件最大似然估計(jì)（MLE）、加權(quán)最大似然估計(jì)（WMLE）、貝葉斯期望估計(jì)（EAP）、最大后驗(yàn)估計(jì)（MAP）等。由于在CAT中估計(jì)被試特質(zhì)水平時(shí)，題目參數(shù)是已經(jīng)標(biāo)定好且儲存在題庫中，所以對特質(zhì)水平的估計(jì)相對較易。編制CAT施測程序時(shí)，還包括起點(diǎn)確定、選題算法和終止規(guī)則3個(gè)需要解決的關(guān)鍵問題。其中，選題算法是CAT最重要的部分，是量身定制式測試的根本保證。終止規(guī)則主要有兩種方法：一是固定測驗(yàn)長度，當(dāng)施測項(xiàng)目數(shù)累加到預(yù)設(shè)值時(shí)（如30個(gè)項(xiàng)目）即停止。這種規(guī)則有利于社會公眾接受，但預(yù)設(shè)的長度不易于使所有被試水平都得到恰當(dāng)精度的估計(jì)，或者使一些被試在恰當(dāng)估計(jì)出水平后還要額外增加作答，所以并不理想。二是按預(yù)設(shè)估計(jì)標(biāo)準(zhǔn)誤要求終止測驗(yàn)。這種方法能克服方法一的缺點(diǎn)，但是估計(jì)標(biāo)準(zhǔn)誤要求過嚴(yán)時(shí)，測驗(yàn)可能會過長。④結(jié)果報(bào)告。CAT結(jié)果所得的被試特質(zhì)水平的估計(jì)值，常采用標(biāo)準(zhǔn)分?jǐn)?shù)（Z分?jǐn)?shù)）的形式，這是需要向被試提供報(bào)告的內(nèi)容。由于Z分?jǐn)?shù)存在負(fù)數(shù)和小數(shù)，為了易被大眾接受，可按公式進(jìn)行轉(zhuǎn)換：

。式中

是轉(zhuǎn)換后的被試特質(zhì)水平的估計(jì)值；

是被試特質(zhì)水平的估計(jì)值。⑤評價(jià)檢驗(yàn)。跟所有測驗(yàn)的編制一樣，CAT的評價(jià)檢驗(yàn)也很重要，也需要評價(jià)測驗(yàn)的效度、信度。CAT的效度，仍應(yīng)從內(nèi)容效度、構(gòu)想效度、效標(biāo)關(guān)聯(lián)效度等方面進(jìn)行深入考察。CAT的信度，可直接使用估計(jì)標(biāo)準(zhǔn)誤，或者說測驗(yàn)信息函數(shù)來考察。

需要解決的問題

①題目的曝光率與題庫的安全性問題。題目曝光率（題目的使用頻率）指題目施測的次數(shù)與應(yīng)試者的總數(shù)量的比例?？刂祁}目曝光率是保證題庫案例的重要手段之一。由于CAT會在一定的時(shí)間間隔內(nèi)對不同的被試施測，做過測驗(yàn)的應(yīng)試者可能會把信息分享給將要應(yīng)試的人，這會使題目被曝光的風(fēng)險(xiǎn)加大。因此必須控制項(xiàng)目曝光率。題庫的大小與題庫安全也密切相關(guān)。高風(fēng)險(xiǎn)的CAT必須有很大的題庫。如果題庫非常大，對很多項(xiàng)目進(jìn)行過練習(xí)的被試能獲得的優(yōu)勢相對較小；如果題庫很小，那么優(yōu)勢會很大。在開發(fā)CAT時(shí)，構(gòu)建一個(gè)較大的題庫是很有必要的，通過使用從未選擇的項(xiàng)目也能在一定程度上解決這個(gè)問題。因此，使題庫更大以及均勻地選擇題庫中的項(xiàng)目都能加強(qiáng)測驗(yàn)安全。②CAT和紙筆測驗(yàn)結(jié)果的互換性問題，以及題目泄題問題。在CAT實(shí)際應(yīng)用中發(fā)現(xiàn)，有一些應(yīng)試者在CAT測試中的成績比紙筆測驗(yàn)的成績低很多。2000年，教育考試服務(wù)中心（ETS）發(fā)現(xiàn)，GRE的CAT系統(tǒng)不能為幾千人互換分?jǐn)?shù)，ETS只有讓他們免費(fèi)重考。另一個(gè)重要的問題是，測試安全和大規(guī)模測驗(yàn)項(xiàng)目被盜用問題。2002年8月，在中國大陸、香港、臺灣以及韓國，ETS暫停GRE的CAT測驗(yàn)，并且再次使用紙筆測驗(yàn)，因?yàn)榻?jīng)過調(diào)查，在許多網(wǎng)站發(fā)現(xiàn)GRE的CAT現(xiàn)場測驗(yàn)版本。③測試的內(nèi)容效度問題。IRT本來是一個(gè)完備空間，但在實(shí)際中卻并不能解決人們的疑問：如果所測試題內(nèi)容分布有偏，結(jié)果是否可信。為解決這一問題，也可以在選用試題時(shí)同時(shí)配上內(nèi)容分布原則。當(dāng)然如果兩個(gè)選題原則同時(shí)符合，則所選試題的信息量在同內(nèi)容范圍內(nèi)是最大的，因此，會增加測試題量。

擴(kuò)展閱讀

漆書青，戴海琦，丁樹良．現(xiàn)代教育與心理測量學(xué)原理．北京：高等教育出版社，2002．

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊舉報(bào)。

开心六月综合激情婷婷|欧美精品成人动漫二区|国产中文字幕综合色|亚洲人在线成视频

簡史

施測過程

測驗(yàn)編制過程

需要解決的問題

擴(kuò)展閱讀