ai edtech srl learning design higher education

最後的指紋：Markdown 訓練如何塑造 LLM 散文

arXiv - Computers and SocietyE. M. Freeburg2026年4月1日

本研究揭示大型語言模型（LLM）中 em 破折號的過度使用，源於其在 Markdown 格式訓練資料中的結構性遺留，並透過實驗驗證了其抑制與模型微調程序的關聯。

AI 幫你先抓重點

AI 重點 1

LLM 的文本風格受訓練資料影響深遠。

滑鼠懸停看 AI 判斷理由

此研究揭示了 LLM 並非完全自主生成，而是受到訓練資料的潛在影響，這對於理解 AI 生成內容的可靠性及避免潛在偏見至關重要，有助於教育者評估 AI 工具在教學上的應用。

AI 重點 2

Markdown 格式在 LLM 學習中扮演結構性角色。

滑鼠懸停看 AI 判斷理由

了解 LLM 如何內化訓練資料的結構，有助於設計更有效的訓練資料，以引導模型生成更符合預期目標的文本，這對於開發更精準的 AI 輔助寫作工具具有重要意義。

核心研究發現

1
LLM 中 em 破折號的頻繁出現，並非隨意生成，而是源於其在 Markdown 格式訓練資料中學習到的結構性模式。
2
當 LLM 被指示避免 Markdown 格式時，標題、項目符號等明顯格式會被消除，但 em 破折號仍然存在，顯示其更深層次的內化。
3
Meta 的 Llama 模型幾乎不產生 em 破折號，這表明其訓練過程與其他模型存在差異，未內化 Markdown 的結構。
4
即使明確禁止使用 em 破折號，某些模型仍然會生成，表明其在 LLM 內部存在潛在的生成傾向。
5
em 破折號的頻率和抑制抗性因模型而異，反映了特定微調程序的影響，可作為模型特徵的標誌。

對教育工作者的啟發

教育工作者應意識到 AI 生成文本可能帶有隱藏的格式偏好，例如 em 破折號的使用，這可能影響文本的清晰度和可讀性。在利用 AI 工具進行教學時，應仔細審查生成內容，並進行必要的修改，以確保符合教學目標和學術規範。此外，研究結果提示，在評估不同 LLM 的性能時，應考慮其訓練資料的組成和微調策略，以避免因格式偏好而產生的誤判。

原始文獻資訊

英文標題：: The Last Fingerprint: How Markdown Training Shapes LLM Prose
作者：: E. M. Freeburg
來源：: arXiv - Computers and Society
AI 摘要模型：: ISTA-DASLab/gemma-3-27b-it-GPTQ-4b-128g

閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。