文本語料庫作為概念場：黑盒幻覺與新奇度測量

arXiv - Computers and SocietyNicholas S. Kersting, Vittorio Castelli, Chieh Ting Yeh, Xinzhu Wang, Saad Taame2026年5月7日

提出概念場模型，利用句子嵌入差分估計文本漂移，並以黑盒方式評估語料庫的幻覺與新奇度，驗證於法規與古典文學資料集。

AI 幫你先抓重點

AI 重點 1

概念場提供輕量、可解釋的黑盒信號，補充LLM判斷，降低幻覺風險。

滑鼠懸停看 AI 判斷理由

它不依賴重型檢索或模型內部結構，能以概率方式直接解釋每個句子是否可信，且在不同領域間保持一致的覆蓋-風險特性，讓實務者能快速做出可信度判斷。

AI 重點 2

對概念場的發散與旋度分析揭示語義結構，提供無標籤的假說生成。

滑鼠懸停看 AI 判斷理由

透過幾何分析可辨識語料中的邏輯來源、吸收點與隱含主題，證明即使在缺乏標籤的情況下，模型也能捕捉有意義的語義模式，對課程設計與內容策劃具有啟發性。

1
概念場定義為句子嵌入空間中相鄰句子差分的局部漂移場，並以點位不確定性估計；
2
建立向量序列資料庫（VSDB）儲存嵌入、序列位置與下一差分資料，實現高效計算；
3
在美國聯邦法規與Project Gutenberg兩大資料集上，概念場在幻覺與新奇度的選擇性分類中，達到與檢索式基準相似的覆蓋-風險曲線，並顯示更強的跨域可轉移性。

實務工作者可將概念場作為輔助工具，快速篩選文本是否可信或具備新意；在課程設計中，可用於挑選符合學習目標的閱讀材料；在 AI 評估中，可作為輔助判斷，降低模型幻覺風險。

英文標題：: Text Corpora as Concept Fields: Black-Box Hallucination and Novelty Measurement
作者：: Nicholas S. Kersting, Vittorio Castelli, Chieh Ting Yeh, Xinzhu Wang, Saad Taame
來源：: arXiv - Computers and Society
AI 摘要模型：: openai/gpt-oss-20b

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。