ai edtech higher education assessment knowledge building

AppellateGen：上訴法院判決生成基準

arXiv - Computers and SocietyHongkun Yang, Lionel Z. Wang, Wei Fan, Yiran Hu, Lixu Wang, Chenyu Liu, Yu Zeng, Shenghong Fu, Lei Gong, Zhengxin Zhang, Haoyang Li, Jiexin Zheng, Xin Xu2026年3月31日

提出 AppellateGen 基準與多代理系統，促進模型在上訴審中從初審判決推理生成合法判決，揭示 LLM 在複雜辯證推理上的局限。

AI 幫你先抓重點

AI 重點 1

多代理系統將判決生成拆分為三階段，提升邏輯一致性。

滑鼠懸停看 AI 判斷理由

此設計模擬司法工作流程，讓模型聚焦於單一任務，減少錯誤累積，對於提升生成品質與可解釋性至關重要。

AI 重點 2

AppellateGen 數據集包含初審判決與證據更新，提供真實的上訴推理場景。

滑鼠懸停看 AI 判斷理由

該數據集填補了現有法律 AI 研究對上訴階段的空白，使模型能學習因果依賴，對於推進法律推理模型的實用性具有關鍵意義。

核心研究發現

1
AppellateGen 整合 7,351 對案件，涵蓋初審判決與證據更新，為上訴判決生成提供真實且具挑戰性的數據集。
2
任務要求模型在保留初審結論的同時，根據新證據重新推理，模擬實際法庭的因果依賴關係。
3
提出基於司法 SOP 的多代理系統（SLMAS），將生成流程拆分為問題識別、檢索與撰寫三階段，提升邏輯一致性。
4
實驗顯示 SLMAS 在邏輯一致性上有顯著改善，但 LLM 在處理上訴推理的複雜性仍面臨挑戰。
5
公開數據與程式碼促進社群可重現性與後續研究，為法律 AI 研究提供可擴充的基準平台。

對教育工作者的啟發

對於法律科技開發者而言，AppellateGen 提供了一套可直接使用的上訴判決生成基準，能快速驗證模型在真實案件中的推理能力。多代理系統的三階段設計提示，將複雜任務拆分為問題識別、證據檢索與撰寫，可作為其他領域（如醫療診斷、合約審查）生成任務的參考架構。實務工作者可利用公開數據進行模型微調，並透過人工審查確保判決合法性與倫理合規，進一步推動司法自動化與透明化。

原始文獻資訊

英文標題：: AppellateGen: A Benchmark for Appellate Legal Judgment Generation
作者：: Hongkun Yang, Lionel Z. Wang, Wei Fan, Yiran Hu, Lixu Wang, Chenyu Liu, Yu Zeng, Shenghong Fu, Lei Gong, Zhengxin Zhang, Haoyang Li, Jiexin Zheng, Xin Xu
來源：: arXiv - Computers and Society
AI 摘要模型：: openai/gpt-oss-20b

閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。