CAT與傳統(tǒng)紙筆測驗(yàn)的很大差別在于:在CAT中,不同的被試做不同的題目;而在紙筆測驗(yàn)中,所有的被試做同樣的題目。在CAT施測過程中,計(jì)算機(jī)程序會根據(jù)被試當(dāng)前的作答表現(xiàn),不斷在題庫中選擇與被試水平相匹配的試題進(jìn)行測試。換句話說,對于不同被試的
適應(yīng)性測驗(yàn)的應(yīng)用,最早開始于1908年法國心理學(xué)家A.比奈關(guān)于智力測驗(yàn)的研究。他抽取不同年齡組的兒童進(jìn)行試驗(yàn)性測試,從而找到代表各年齡組水平的典型性項(xiàng)目。這些項(xiàng)目按年齡水平高低加以排列后,不同被試從哪一處開始接受測驗(yàn),施測過程中作答的對錯(cuò)有了結(jié)果后再繼續(xù)選擇什么水平項(xiàng)目施測,以及測驗(yàn)要到什么狀況予以結(jié)束,都要取決于被試的實(shí)際表現(xiàn)和水平,不同對象不同對待。韋氏智力測驗(yàn)也采用了適應(yīng)性測驗(yàn)的思想。韋氏智力測驗(yàn)施測時(shí),首先選擇一個(gè)較易的題目讓被試作答,然后選擇一個(gè)稍難一點(diǎn)的題目讓被試作答,如果被試無法作答,則選擇一個(gè)更容易的題目測試;如果連續(xù)幾個(gè)題目都無法作答,則中止該部分內(nèi)容的測試,以被試已經(jīng)作答的最難題目作為其水平衡量標(biāo)準(zhǔn);如果被試正確作答,則選擇一個(gè)更難的題目繼續(xù)測試。這種測試形式最初被稱為量身定制式測試。
真正的CAT施測必須借助計(jì)算機(jī)。最早的CAT大規(guī)模應(yīng)用是計(jì)算機(jī)版本的武裝部隊(duì)職業(yè)能力傾向測驗(yàn)(ASVAB)。紙筆測驗(yàn)版本的ASVAB測試要花3小時(shí),而CAT版本的只要90分鐘。通過CAT測驗(yàn),被試的分?jǐn)?shù)可以快速與各個(gè)職位所需的能力條件相匹配。在美國,CAT已成為流行的評估方法,除ASVAB之外的內(nèi)容,大規(guī)模CAT測驗(yàn)還包括研究生入學(xué)考試(GRE)、管理類研究生入學(xué)考試(GMAT)等。
大體分為兩個(gè)階段。①試驗(yàn)性探查階段。也就是估計(jì)被試起始能力值的階段。測驗(yàn)開始時(shí),一般沒有被試真實(shí)水平的有關(guān)信息,因此應(yīng)設(shè)置一批題目,初步估計(jì)其水平。一般做法是,從題庫中隨機(jī)調(diào)取一組(3~5題不等)難度水平中等的試題施測,等被試作答后,計(jì)算機(jī)根據(jù)這些作答反應(yīng)資料,估計(jì)出被試的初始能力的估計(jì)值(
CAT的編制除要遵循一般測驗(yàn)的編制原則外,也有特殊之處,其過程一般包含5個(gè)步驟:①反應(yīng)模型選擇。CAT的編制與實(shí)施都建立在IRT基礎(chǔ)上,因此,測驗(yàn)編制的首要問題是反應(yīng)模型的選擇??晒┻x擇的模型主要適用于0、1計(jì)分資料的拉希模型,邏輯斯諦雙參數(shù)和三參數(shù)模型,以及適用于多級計(jì)分資料的等級計(jì)分模型、分部評分模型和多維度模型等。②題庫建設(shè)。大容量、高質(zhì)量、參數(shù)表達(dá)在共同量尺上的題庫,是進(jìn)行CAT的核心基礎(chǔ)。若沒有一個(gè)符合要求的題庫,則無法進(jìn)行CAT。題庫建設(shè)中有兩個(gè)突出的技術(shù)問題,就是項(xiàng)目參數(shù)估計(jì)和等值,也就是每個(gè)題目除了要有內(nèi)容等維度的標(biāo)識外,還必須有難度、區(qū)分度等測量學(xué)的指標(biāo),并且各題的測量學(xué)指標(biāo)是在同一量尺上,是可以比較的。③施測程序編制。編制CAT施測程序,首先要解決的問題是被試特質(zhì)水平的估計(jì)方法問題。也就是CAT施測時(shí),計(jì)算機(jī)必須在測試完每道題目之后即時(shí)估計(jì)被試當(dāng)前的特質(zhì)水平,作為從題庫中挑選下一道測試題的依據(jù)。主要運(yùn)用的被試特質(zhì)水平估計(jì)方法有條件最大似然估計(jì)(MLE)、加權(quán)最大似然估計(jì)(WMLE)、貝葉斯期望估計(jì)(EAP)、最大后驗(yàn)估計(jì)(MAP)等。由于在CAT中估計(jì)被試特質(zhì)水平時(shí),題目參數(shù)是已經(jīng)標(biāo)定好且儲存在題庫中,所以對特質(zhì)水平的估計(jì)相對較易。編制CAT施測程序時(shí),還包括起點(diǎn)確定、選題算法和終止規(guī)則3個(gè)需要解決的關(guān)鍵問題。其中,選題算法是CAT最重要的部分,是量身定制式測試的根本保證。終止規(guī)則主要有兩種方法:一是固定測驗(yàn)長度,當(dāng)施測項(xiàng)目數(shù)累加到預(yù)設(shè)值時(shí)(如30個(gè)項(xiàng)目)即停止。這種規(guī)則有利于社會公眾接受,但預(yù)設(shè)的長度不易于使所有被試水平都得到恰當(dāng)精度的估計(jì),或者使一些被試在恰當(dāng)估計(jì)出水平后還要額外增加作答,所以并不理想。二是按預(yù)設(shè)估計(jì)標(biāo)準(zhǔn)誤要求終止測驗(yàn)。這種方法能克服方法一的缺點(diǎn),但是估計(jì)標(biāo)準(zhǔn)誤要求過嚴(yán)時(shí),測驗(yàn)可能會過長。④結(jié)果報(bào)告。CAT結(jié)果所得的被試特質(zhì)水平的估計(jì)值,常采用標(biāo)準(zhǔn)分?jǐn)?shù)(Z分?jǐn)?shù))的形式,這是需要向被試提供報(bào)告的內(nèi)容。由于Z分?jǐn)?shù)存在負(fù)數(shù)和小數(shù),為了易被大眾接受,可按公式進(jìn)行轉(zhuǎn)換:
①題目的曝光率與題庫的安全性問題。題目曝光率(題目的使用頻率)指題目施測的次數(shù)與應(yīng)試者的總數(shù)量的比例??刂祁}目曝光率是保證題庫案例的重要手段之一。由于CAT會在一定的時(shí)間間隔內(nèi)對不同的被試施測,做過測驗(yàn)的應(yīng)試者可能會把信息分享給將要應(yīng)試的人,這會使題目被曝光的風(fēng)險(xiǎn)加大。因此必須控制項(xiàng)目曝光率。題庫的大小與題庫安全也密切相關(guān)。高風(fēng)險(xiǎn)的CAT必須有很大的題庫。如果題庫非常大,對很多項(xiàng)目進(jìn)行過練習(xí)的被試能獲得的優(yōu)勢相對較小;如果題庫很小,那么優(yōu)勢會很大。在開發(fā)CAT時(shí),構(gòu)建一個(gè)較大的題庫是很有必要的,通過使用從未選擇的項(xiàng)目也能在一定程度上解決這個(gè)問題。因此,使題庫更大以及均勻地選擇題庫中的項(xiàng)目都能加強(qiáng)測驗(yàn)安全。②CAT和紙筆測驗(yàn)結(jié)果的互換性問題,以及題目泄題問題。在CAT實(shí)際應(yīng)用中發(fā)現(xiàn),有一些應(yīng)試者在CAT測試中的成績比紙筆測驗(yàn)的成績低很多。2000年,教育考試服務(wù)中心(ETS)發(fā)現(xiàn),GRE的CAT系統(tǒng)不能為幾千人互換分?jǐn)?shù),ETS只有讓他們免費(fèi)重考。另一個(gè)重要的問題是,測試安全和大規(guī)模測驗(yàn)項(xiàng)目被盜用問題。2002年8月,在中國大陸、香港、臺灣以及韓國,ETS暫停GRE的CAT測驗(yàn),并且再次使用紙筆測驗(yàn),因?yàn)榻?jīng)過調(diào)查,在許多網(wǎng)站發(fā)現(xiàn)GRE的CAT現(xiàn)場測驗(yàn)版本。③測試的內(nèi)容效度問題。IRT本來是一個(gè)完備空間,但在實(shí)際中卻并不能解決人們的疑問:如果所測試題內(nèi)容分布有偏,結(jié)果是否可信。為解決這一問題,也可以在選用試題時(shí)同時(shí)配上內(nèi)容分布原則。當(dāng)然如果兩個(gè)選題原則同時(shí)符合,則所選試題的信息量在同內(nèi)容范圍內(nèi)是最大的,因此,會增加測試題量。