泰國律師考試自由寫作評分:LLM 評分員與人類考官之穩定性研究
arXiv - Computers and SocietyPawitsapak Akarajaradwong, Wuttikrai Lertprasertphakorn, Chompakorn Chaksangchaichot, Sarana Nutanong
研究發現 LLM 評分員會傾向於追隨人類多數意見,卻無法複製人類專家之間存在的意見分歧。
AI 幫你先抓重點
AI 重點 1
警惕「高一致性」背後的評分偏差風險
滑鼠懸停看 AI 判斷理由
當我們使用 LLM 作為評分工具時,高一致性(Agreement)可能並非代表評分精準,而是 LLM 抹平了人類專家之間必要的專業辯論與多元解讀,這會導致評分系統失去捕捉複雜性與爭議性的能力。
AI 重點 2
LLM 評分無法完全取代具備批判思維的人類專家
滑鼠懸停看 AI 判斷理由
研究顯示 LLM 在面對模糊準則時無法模擬人類的「少數派觀點」,這意味著在需要高度專業判斷與多維度思考的領域(如法律、人文),LLM 僅能作為多數意見的趨勢工具,而非全面的評估替代方案。
核心研究發現
- 1
在評分準則明確的題目中,26 個 LLM 與 3 位人類考官展現出高度一致的評分趨勢。
- 2
當評分準則不明確時,人類考官會出現意見分歧,但 26 個 LLM 中完全沒有任何一個模型能複製少數派人類考官的評分邏輯。
- 3
LLM 評分面板與人類多數派的一致性極高,這反映了 LLM 傾向於系統性地收斂於多數解讀,而非平衡地呈現多元觀點。
對教育工作者的啟發
在設計自動化評分系統(Automated Grading Systems)時,教育者不應僅以「與人類一致性」作為衡量 AI 評分能力的唯一指標。若評分準則存在灰色地帶,過高的 AI 一致性可能掩蓋了評分中的偏見或對多元觀點的忽視。建議在實務應用中,應針對「爭議性題目」建立人工複審機制,並在開發 AI 評分模型時,刻意測試其是否具備捕捉不同專業解讀的能力,而非僅追求與多數意見的趨勢收斂。
原始文獻資訊
- 英文標題:
- A Two-Phase Stability Study of LLM Judges and Bar Council Examiners on Thai Bar-Exam Free-Form Essays
- 作者:
- Pawitsapak Akarajaradwong, Wuttikrai Lertprasertphakorn, Chompakorn Chaksangchaichot, Sarana Nutanong
- 來源:
- arXiv - Computers and Society
- AI 摘要模型:
- /models/gemma-4-26B-A4B-it
每週精選研究電子報
每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。