想法闡述對自動評估創意原創性的影響

arXiv - Human-Computer InteractionUmberto Domanti, Moritz Mock, Sergio Agnoli, Antonella De Angeli

研究發現,當控制想法闡述後,LLM的自我偏好消失,與人類評分更一致。

AI 幫你先抓重點

AI 重點 1

自我偏好偏差揭示LLM在創意評估中需加入人類風格參考

滑鼠懸停看 AI 判斷理由
此洞察顯示LLM可能過度評價與自身風格相符的答案,若不加以調整,會導致評估結果偏頗。加入人類風格參考可提升評估的公平性與有效性。
AI 重點 2

想法闡述是消除LLM偏差的關鍵變數,提示評估設計需考慮內容深度

滑鼠懸停看 AI 判斷理由
控制闡述程度後,LLM評分與人類高度一致,說明評估時若忽略闡述深度,可能會產生偏差。此結果促使設計者在評分指引中加入闡述指標,以降低自動評估的不確定性。

核心研究發現

  1. 1

    LLM在自動評估創意原創性時,偏好與自身風格相似的人工生成答案,顯示自我偏好偏差。

  2. 2

    在考慮想法闡述程度後,LLM與人類評分高度一致,偏好差異消失。

  3. 3

    本研究分析4,813份替代用途任務答案,包含高低創造力人類與ChatGPT-4o產出,並以訓練人類評分者與微調機器評分系統進行對照。

對教育工作者的啟發

教育工作者在使用自動創意評估工具時,應先評估工具對不同風格的偏好,並加入想法闡述指標;設計評分指引時,明確要求學生提供具體闡述,避免僅依賴表面創意;對於高階創意課程,可結合人類評分與LLM評分,利用兩者互補提升評估準確度。

原始文獻資訊

英文標題:
The Effect of Idea Elaboration on the Automatic Assessment of Idea Originality
作者:
Umberto Domanti, Moritz Mock, Sergio Agnoli, Antonella De Angeli
來源:
arXiv - Human-Computer Interaction
AI 摘要模型:
openai/gpt-oss-20b
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。