少數優質條款:LLM與小型模型在合約提取上的比較

arXiv - Computers and SocietyNicole Lincoln, Nick Whitehouse, Jaron Mar, Rivindu Perera

本研究證明領域訓練的小型語言模型在合約結構化提取上可超越大型LLM,並大幅降低成本與降低幻覺率。

AI 幫你先抓重點

AI 重點 1

小型領域模型可超越大型LLM,並顯著降低成本與幻覺率。

滑鼠懸停看 AI 判斷理由
此發現顛覆了「模型越大越好」的觀念,讓資源有限的機構能以更低成本部署高效合約提取系統,並減少因幻覺產生的審查負擔。
AI 重點 2

高精度與低幻覺率對法律工作流程至關重要,因錯誤提取會增加審查負擔與風險。

滑鼠懸停看 AI 判斷理由
了解此點可幫助實務者將精度置於首位,避免因幻覺或不準確提取造成的合約風險與額外審查成本,從而提升決策效率。

核心研究發現

  1. 1

    Olava Extract 在五大前沿模型中取得最高宏觀F1 0.812與微觀F1 0.842的表現。

  2. 2

    與前沿模型相比,Olava Extract 的推理成本降低了78%至97%。

  3. 3

    最高精度使其產生較少幻覺與不支持的提取,降低法律工作流程中的操作風險。

對教育工作者的啟發

對於法律科技公司與企業內部合約部門,本文示範可透過領域微調的小型模型實現高精度合約提取,並大幅降低雲端推理成本。實務者可先評估現有合約資料,選擇適合的領域模型,並在部署前進行精度與幻覺率測試,確保提取結果符合審查標準。此策略不僅節省資金,亦降低審查人力負擔,提升決策速度與合約風險管控。

原始文獻資訊

英文標題:
A Few Good Clauses: Comparing LLMs vs Domain-Trained Small Language Models on Structured Contract Extraction
作者:
Nicole Lincoln, Nick Whitehouse, Jaron Mar, Rivindu Perera
來源:
arXiv - Computers and Society
AI 摘要模型:
openai/gpt-oss-20b
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。