從標準英語到新加坡式英語:利用檢索增強生成實現大型語言模型的語碼轉換

arXiv - Human-Computer InteractionFoong Ming Lai, Yujin Tan, Han Meng, Yi-Chieh Lee

提出一種檢索增強生成(RAG)框架,透過外部詞彙表實現受控且高語義保真度的語碼轉換生成。

AI 幫你先抓重點

AI 重點 1

外部化知識庫優於模型內部的參數化知識

滑鼠懸停看 AI 判斷理由
對於演化快速的語言變體(如 Singlish),透過外部詞彙表進行 RAG 比起重新微調模型更具成本效益,且能提供更高的可審計性與控制力。
AI 重點 2

最小化改寫程度有助於維持語義完整性

滑鼠懸停看 AI 判斷理由
研究顯示 RAG 透過精準替換而非大規模改寫來達成目標,這對於需要精確傳達原意且僅需調整語氣或方言風格的應用場景至關重要。

核心研究發現

  1. 1

    研究發現 RAG 框架能透過稀疏詞彙替換實現語碼轉換,其語義保真度(餘弦相似度 0.978)高於 Zero-shot 提示法(0.926)。

  2. 2

    在自動化分析中,Zero-shot 提示法會導致大量的改寫(中位數 23 個 token 變動),而 RAG 僅需極少量的替換(中位數 1 個變動)。

  3. 3

    透過 164 名新加坡參與者的真人評估顯示,RAG 生成的內容在自然度與適切性上與 Zero-shot 提示法相當。

對教育工作者的啟發

對於開發語言學習工具或文化敏感型 AI 的設計者而言,此研究提供了重要啟發:當面對具有強烈文化特性、快速演變或數據稀缺的語言(如方言、俚語)時,不應僅依賴模型本身的預訓練知識,而應建立「外部知識庫(Lexicon)」並結合 RAG 技術。這種做法不僅能降低模型幻覺,還能確保生成內容在保持原意(Semantic Preservation)的同時,精準地切換語言風格,這對於開發具備在地文化感知能力的教育科技產品具有高度實務價值。

原始文獻資訊

英文標題:
From Standard English to Singlish: A Retrieval-Augmented Approach for Code-Switched Creole Generation in Large Language Models
作者:
Foong Ming Lai, Yujin Tan, Han Meng, Yi-Chieh Lee
來源:
arXiv - Human-Computer Interaction
AI 摘要模型:
/models/gemma-4-26B-A4B-it
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。