中國中央政府適應性政策溝通語料庫(CAPC-CG)

arXiv - Computers and SocietyBolun Sun, Charles Chang, Yuen Yuen Ang, Ruotong Mu, Yuchen Xu, Zhengxin Zhang, Pingxu Hao

推出首個開放式中文政策指令語料庫,結合五色分類與專家標註,為政策溝通 NLP 研究提供高質量基礎資料。

AI 幫你先抓重點

AI 重點 1

高一致性的專家標註為 NLP 模型訓練提供可靠基礎

滑鼠懸停看 AI 判斷理由
Fleiss kappa 0.86 表明標註質量高,能減少模型學習噪音,提升預測準確度,對於需要精準政策語義分析的應用至關重要。
AI 重點 2

五色分類揭示政策語言的清晰度與模糊度差異

滑鼠懸停看 AI 判斷理由
此分類框架可幫助研究者量化政策文本的可理解性,進而評估政策溝通效果,對政策制定者調整表述風格具有實務指導意義。

核心研究發現

  1. 1

    該語料庫涵蓋 1949-2023 年 3.3 萬萬段落,包含國家法律、行政規章與部門規則,總計 3.3 萬萬單位。

  2. 2

    採用兩輪標註框架與專家訓練編碼者,指令標籤的 Fleiss kappa 最高達 0.86,顯示高度一致性。

  3. 3

    基於 LLM 的基線分類結果顯示,現有大型語言模型在此五色分類上已具備可用性,並揭示不同政策時期語言風格變化。

對教育工作者的啟發

對於教育科技開發者而言,CAPC-CG 提供的高質量標註資料可直接用於訓練自動化政策文本分析工具,協助教師與課程設計者快速辨識政策變遷與關鍵語句,進而設計符合政策要求的教學內容。對政策制定者而言,五色分類可作為評估政策語言清晰度的量化指標,幫助調整表述以提升公眾理解度。對 NLP 研究者,基線模型結果揭示現有 LLM 在中文政策語料上的表現,為後續模型優化與跨語言比較提供參考。

原始文獻資訊

英文標題:
CAPC-CG: A Large-Scale, Expert-Directed LLM-Annotated Corpus of Adaptive Policy Communication in China
作者:
Bolun Sun, Charles Chang, Yuen Yuen Ang, Ruotong Mu, Yuchen Xu, Zhengxin Zhang, Pingxu Hao
來源:
arXiv - Computers and Society
AI 摘要模型:
openai/gpt-oss-20b
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。