Welcome to Infelligent
張貼日期:2025/7/7
ChatGPT and the Future of Assessments
中文撰寫:陳淑婷 睿信管理顧問有限公司 資深引導顧問
過去幾年來,機器學習(ML)和人工智慧(AI)的快速發展,已在各行各業引發了變革。這些技術不再是新興趨勢,而是深刻影響日常運作、決策和創新策略的核心。人才選拔與發展測評也不例外。從自適應測試到自動評分,AI正在重塑我們評估知識與表現的方式,也將讓測評更有效率、更個人化。
但是,這種進步同時帶來新的挑戰。隨著AI功能越來越強大且普及,錯用的機會也隨之增加,例如利用AI來作弊,輔助通過就業前的測評。AI能產生類似人類的回答、解決邏輯難題,甚至回答性格測評題目,這不禁讓人質疑:有人會利用AI來作弊嗎?如果有,我們能否可靠地偵測並予以防範?
這份技術研究將討論我們針對是否有人使用ChatGPT作弊進行的調查。
首先,我們設計演算法來確認是否有人使用ChatGPT作弊,接著分析ChatGPT推出前後的測評趨勢,並從中判斷分數是否有顯著變化。
客戶常擔心是否有人利用ChatGPT作弊,用以完成Hogan測評。我們的初步策略是設計演算法來偵測答題者是否用ChatGPT完成Hogan性格量表(HPI)。
首先,我們進行一系列試驗,觀察ChatGPT是否會對HPI題目給出一致的答案。初步研究中,我們找到22個HPI項目,ChatGPT在多次測試中會穩定給出相同回答。但由於ChatGPT模型頻繁更新,這套初期偵測演算法很快失效。新版ChatGPT能根據工作描述調整回答,我們因此測試在指示ChatGPT針對特定職位族群完成測評時,它是否仍會給出一致答案。
我們選取三個職務族群的工作描述進行評估:經理、專業人士與銷售人員。透過ChatGPT 4o Mini模型,我們讓ChatGPT模擬應徵這三類工作,並完成HPI。對每種情境,我們多次記錄題目回答,找出回答模式一致的題目。
在13次測試中,結果顯示ChatGPT在不同職務模擬情境下,給出一致回答的題目比例為:
經理(Managers)情境中,66%的HPI題目回答一致
專業人士(Professionals)情境中,12%的HPI題目回答一致
銷售(Sales)情境中,18%的HPI題目回答一致
為了檢驗誤判(false positives)的可能性,我們將演算法套用在ChatGPT發布前所蒐集的歷史測評資料。結果顯示,沒有任何一位受測者的回答模式與ChatGPT相符,這表示我們所識別的模式具有ChatGPT特有性,不太可能誤判真誠作答的受測者。
儘管前兩次開發的演算法初期表現良好,但隨著ChatGPT模型持續更新,我們最新的演算法也隨之失效。這讓作弊偵測演算法的維護成為一大挑戰。
考量到這些限制,我們將焦點轉向評估此作弊問題的普及程度。我們特別調查了ChatGPT公開發布後,個人人格與認知測評分數是否有廣泛的變動,這可能反映AI工具在測評中的使用情況。
為了調查AI作弊的普遍性,我們比較了2022年11月ChatGPT發布前後的評估平均分數變化。我們分析了約30萬筆HPI資料、2萬筆Hogan商業推理測驗(HBRI)資料和4千筆判斷力(Judgement)測驗資料。所有歷史資料涵蓋2020年8月至2025年2月,前後共約2年7個月的期間。下圖爲各項認知測驗的整體平均分差異。
*Judgement 數理推理原始分數範圍:0-18;Judgement語文推理原始分數範圍:0-48:HBRI 整體原始分數範圍: 0-15
分析結果顯示,ChatGPT推出前後,所有認知測驗的平均分數差異都非常微小(Cohen’s d ≤ 0.02)。
接著,我們檢視了HPI各主量表的平均分數差異。以下是ChatGPT發布前後各HPI主量表的平均分數比較。
我們發現所有HPI維度分數的差異都非常微小(Cohen’s d數值介於小於0.01到0.05之間)。
要在測評中偵測使用AI的痕跡(如ChatGPT)相當具有挑戰性,但目前的數據顯示這並非普遍現象。我們相信大多數應試者誠實且以誠心的態度填寫測評。不過,我們會持續監測未來的變化。對於擔心人工智慧在高風險測試中被濫用的客戶,我們建議可以在有監考環境下施測。