ai edtech higher education assessment learning design

Vibe Coding 是否是未來？對建築安全的 LLM 生成代碼的實證評估

arXiv - Human-Computer InteractionS M Jamil Uddin2026年4月15日

研究顯示 Vibe Coding 生成的建築安全代碼，雖執行率高達 85%，但 45% 以上出現靜默失敗，56% 的 GPT-4o-Mini 代碼數學錯誤，證明現階段 LLM 缺乏安全工程所需確定性。

AI 幫你先抓重點

AI 重點 1

Vibe Coding 的高執行率掩蓋了邏輯缺陷，導致實際安全風險被低估。

滑鼠懸停看 AI 判斷理由

許多使用者將語法成功視為安全保證，忽視了靜默失敗可能造成的實際危害；此洞察提醒實務者必須加入多層驗證機制，才能確保安全性。

AI 重點 2

使用者提示語氣的正式程度直接影響代碼安全性，非正式提示更易產生缺失變數。

滑鼠懸停看 AI 判斷理由

此發現強調提示工程的重要性，說明在建築現場培訓人員時需教授如何撰寫嚴謹、具體的自然語言指令，以降低 AI 產生錯誤的機率。

核心研究發現

1
450 篇 Python 程式碼中，約 85% 能語法編譯成功，但 45% 以上存在靜默失敗，其中 GPT-4o-Mini 的數學錯誤率高達 56%。
2
使用者提示的正式程度顯著影響代碼安全性，非正式提示更易產生缺失安全變數，導致 AI 產生假資訊。
3
三種前沿模型均缺乏防禦式程式設計，無法自動檢測邏輯缺陷，顯示目前 LLM 無法獨立完成安全工程任務。

對教育工作者的啟發

本研究指出，雖然 Vibe Coding 可快速產生可執行代碼，但高達 45% 的靜默失敗率與 56% 的數學錯誤顯示單純依賴 LLM 生成的程式碼不可行。實務工作者應先採用 deterministic AI 包裝器，將 LLM 產出的程式碼送入多層驗證流程：1）語法與執行性檢測；2）邏輯與安全性審核（可利用專業安全規範或自動化測試）；3）人工審查。其次，對施工人員進行提示工程訓練，教導其撰寫正式、具體的自然語言指令，並建立安全變數清單，避免 AI 產生假資訊。最後，建議制定治理框架，明確責任分工、審核標準與風險評估流程，確保在實際工地部署前已經完成充分驗證。這些措施將降低因 AI 生成代碼而導致的安全事故風險，並提升建築現場的數位化效率。

原始文獻資訊

英文標題：: Is Vibe Coding the Future? An Empirical Assessment of LLM Generated Codes for Construction Safety
作者：: S M Jamil Uddin
來源：: arXiv - Human-Computer Interaction
AI 摘要模型：: openai/gpt-oss-20b

閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。