PolicyLLM:提升大型語言模型對公共政策的理解

arXiv - Computers and SocietyHan Bao, Penghao Zhang, Yue Huang, Zhengqing Yuan, Yanchi Ru, Rui Su, Yujun Zhou, Xiangqi Wang, Kehan Guo, Nitesh V Chawla, Yanfang Ye, Xiangliang Zhang

提出跨國政策理解基準與專門化混合模型,揭示LLM在政策應用與推理上的局限。

AI 幫你先抓重點

AI 重點 1

LLM在政策應用層面表現優於記憶與理解,顯示專家模組對實務推理的關鍵作用。

滑鼠懸停看 AI 判斷理由
此洞察指出僅靠大量政策資料訓練不足以提升實務決策能力,將模型專家對齊至不同認知層級能顯著提升真實情境推理,對未來AI設計具有指導意義。
AI 重點 2

PolicyBench提供跨國、跨領域的大規模基準,為評估與比較不同LLM在政策領域的能力提供客觀標準。

滑鼠懸停看 AI 判斷理由
有了此基準,研究者與實務者能精準定位模型弱點,進行針對性改進,並以證據為基礎調整AI輔助決策流程,提升政策制定的可靠性。

核心研究發現

  1. 1

    PolicyBench包含21,000個案例,涵蓋美中兩國多領域政策,並以Bloom分類評估記憶、理解與應用三項能力。

  2. 2

    PolicyMoE模型在應用導向的政策任務上表現優於記憶與概念理解,顯示專門化專家模組提升實務推理。

  3. 3

    在結構化推理任務中,PolicyMoE達到最高準確率,證明混合專家架構能有效處理複雜政策推理。

  4. 4

    研究發現現有LLM在政策理解方面仍有顯著限制,尤其在概念推理與實務應用層面,提示需進一步優化。

對教育工作者的啟發

教育工作者可利用PolicyBench作為案例庫,設計跨領域政策推理練習;開發者可採用PolicyMoE架構,將專家模組與學習任務對齊;政策制定者可參考模型評估結果,調整AI輔助決策流程。

原始文獻資訊

英文標題:
PolicyLLM: Towards Excellent Comprehension of Public Policy for Large Language Models
作者:
Han Bao, Penghao Zhang, Yue Huang, Zhengqing Yuan, Yanchi Ru, Rui Su, Yujun Zhou, Xiangqi Wang, Kehan Guo, Nitesh V Chawla, Yanfang Ye, Xiangliang Zhang
來源:
arXiv - Computers and Society
AI 摘要模型:
openai/gpt-oss-20b
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。