注意語調:語調是否改變大型語言模型表現?

arXiv - Human-Computer InteractionOm Dobariya, Akhil Kumar

研究發現語調變化會對不同 LLM 的準確率產生顯著且模型依賴的影響。

AI 幫你先抓重點

AI 重點 1

語調不應被視為 LLM 的穩定特性,使用者需針對模型選擇合適語調。

滑鼠懸停看 AI 判斷理由
此發現強調在實務部署中,提示語調的微調可能改變模型推理路徑,若忽視將導致評估結果偏差,影響教學決策與學習成效。
AI 重點 2

模型間語調敏感度差異提示需進行模型特定的提示優化。

滑鼠懸停看 AI 判斷理由
了解不同 LLM 對語調的反應差異,可協助教育工作者選擇最適合的模型或調整提示策略,提升測驗準確性與公平性。

核心研究發現

  1. 1

    在四種主流 LLM(ChatGPT‑4o、ChatGPT‑5‑nano、Gemini 2.5 Flash、Gemini 2.5 Flash Lite)中,語調對準確率的影響呈現系統性但高度模型依賴;部分模型僅有微小統計顯著變化,另一些則出現大幅度準確率波動。

  2. 2

    在57個學科的 MMLU 子集上,語調敏感度呈現學科差異,某些科目對語調變化極為敏感,另一些則相對穩定。

  3. 3

    研究提出一套路由框架,說明語調如何調節模型內部推理模式,進而影響答案選擇。

對教育工作者的啟發

教育工作者在設計自動評量或對話式教學工具時,應先測試目標 LLM 在多種語調下的表現,避免因語調不當造成評分偏差。對於需要高準確率的測驗,可選擇對語調敏感度低的模型,或在提示中使用中性、簡潔的語氣。若使用多模型系統,可依據路由框架將不同語調的提示分配給最適合的模型,提升整體效能與公平性。

原始文獻資訊

英文標題:
Mind Your Tone: Does Tone Alter LLM Performance?
作者:
Om Dobariya, Akhil Kumar
來源:
arXiv - Human-Computer Interaction
AI 摘要模型:
openai/gpt-oss-20b
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。