想法闡述對自動評估創意原創性的影響
arXiv - Human-Computer InteractionUmberto Domanti, Moritz Mock, Sergio Agnoli, Antonella De Angeli
研究發現,當控制想法闡述後,LLM的自我偏好消失,與人類評分更一致。
AI 幫你先抓重點
AI 重點 1
自我偏好偏差揭示LLM在創意評估中需加入人類風格參考
滑鼠懸停看 AI 判斷理由
此洞察顯示LLM可能過度評價與自身風格相符的答案,若不加以調整,會導致評估結果偏頗。加入人類風格參考可提升評估的公平性與有效性。
AI 重點 2
想法闡述是消除LLM偏差的關鍵變數,提示評估設計需考慮內容深度
滑鼠懸停看 AI 判斷理由
控制闡述程度後,LLM評分與人類高度一致,說明評估時若忽略闡述深度,可能會產生偏差。此結果促使設計者在評分指引中加入闡述指標,以降低自動評估的不確定性。
核心研究發現
- 1
LLM在自動評估創意原創性時,偏好與自身風格相似的人工生成答案,顯示自我偏好偏差。
- 2
在考慮想法闡述程度後,LLM與人類評分高度一致,偏好差異消失。
- 3
本研究分析4,813份替代用途任務答案,包含高低創造力人類與ChatGPT-4o產出,並以訓練人類評分者與微調機器評分系統進行對照。
對教育工作者的啟發
教育工作者在使用自動創意評估工具時,應先評估工具對不同風格的偏好,並加入想法闡述指標;設計評分指引時,明確要求學生提供具體闡述,避免僅依賴表面創意;對於高階創意課程,可結合人類評分與LLM評分,利用兩者互補提升評估準確度。
原始文獻資訊
- 英文標題:
- The Effect of Idea Elaboration on the Automatic Assessment of Idea Originality
- 作者:
- Umberto Domanti, Moritz Mock, Sergio Agnoli, Antonella De Angeli
- 來源:
- arXiv - Human-Computer Interaction
- AI 摘要模型:
- openai/gpt-oss-20b
每週精選研究電子報
每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。