ai assessment higher education edtech nlp

泰國律師考試自由寫作評分：LLM 評分員與人類考官之穩定性研究

arXiv - Computers and SocietyPawitsapak Akarajaradwong, Wuttikrai Lertprasertphakorn, Chompakorn Chaksangchaichot, Sarana Nutanong2026年5月26日

研究發現 LLM 評分員會傾向於追隨人類多數意見，卻無法複製人類專家之間存在的意見分歧。

AI 幫你先抓重點

AI 重點 1

警惕「高一致性」背後的評分偏差風險

滑鼠懸停看 AI 判斷理由

當我們使用 LLM 作為評分工具時，高一致性（Agreement）可能並非代表評分精準，而是 LLM 抹平了人類專家之間必要的專業辯論與多元解讀，這會導致評分系統失去捕捉複雜性與爭議性的能力。

AI 重點 2

LLM 評分無法完全取代具備批判思維的人類專家

滑鼠懸停看 AI 判斷理由

研究顯示 LLM 在面對模糊準則時無法模擬人類的「少數派觀點」，這意味著在需要高度專業判斷與多維度思考的領域（如法律、人文），LLM 僅能作為多數意見的趨勢工具，而非全面的評估替代方案。

核心研究發現

1
在評分準則明確的題目中，26 個 LLM 與 3 位人類考官展現出高度一致的評分趨勢。
2
當評分準則不明確時，人類考官會出現意見分歧，但 26 個 LLM 中完全沒有任何一個模型能複製少數派人類考官的評分邏輯。
3
LLM 評分面板與人類多數派的一致性極高，這反映了 LLM 傾向於系統性地收斂於多數解讀，而非平衡地呈現多元觀點。

對教育工作者的啟發

在設計自動化評分系統（Automated Grading Systems）時，教育者不應僅以「與人類一致性」作為衡量 AI 評分能力的唯一指標。若評分準則存在灰色地帶，過高的 AI 一致性可能掩蓋了評分中的偏見或對多元觀點的忽視。建議在實務應用中，應針對「爭議性題目」建立人工複審機制，並在開發 AI 評分模型時，刻意測試其是否具備捕捉不同專業解讀的能力，而非僅追求與多數意見的趨勢收斂。

原始文獻資訊

英文標題：: A Two-Phase Stability Study of LLM Judges and Bar Council Examiners on Thai Bar-Exam Free-Form Essays
作者：: Pawitsapak Akarajaradwong, Wuttikrai Lertprasertphakorn, Chompakorn Chaksangchaichot, Sarana Nutanong
來源：: arXiv - Computers and Society
AI 摘要模型：: /models/gemma-4-26B-A4B-it

閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。