Vibe Coding 是否是未來?對建築安全的 LLM 生成代碼的實證評估

arXiv - Human-Computer InteractionS M Jamil Uddin

研究顯示 Vibe Coding 生成的建築安全代碼,雖執行率高達 85%,但 45% 以上出現靜默失敗,56% 的 GPT-4o-Mini 代碼數學錯誤,證明現階段 LLM 缺乏安全工程所需確定性。

AI 幫你先抓重點

AI 重點 1

Vibe Coding 的高執行率掩蓋了邏輯缺陷,導致實際安全風險被低估。

滑鼠懸停看 AI 判斷理由
許多使用者將語法成功視為安全保證,忽視了靜默失敗可能造成的實際危害;此洞察提醒實務者必須加入多層驗證機制,才能確保安全性。
AI 重點 2

使用者提示語氣的正式程度直接影響代碼安全性,非正式提示更易產生缺失變數。

滑鼠懸停看 AI 判斷理由
此發現強調提示工程的重要性,說明在建築現場培訓人員時需教授如何撰寫嚴謹、具體的自然語言指令,以降低 AI 產生錯誤的機率。

核心研究發現

  1. 1

    450 篇 Python 程式碼中,約 85% 能語法編譯成功,但 45% 以上存在靜默失敗,其中 GPT-4o-Mini 的數學錯誤率高達 56%。

  2. 2

    使用者提示的正式程度顯著影響代碼安全性,非正式提示更易產生缺失安全變數,導致 AI 產生假資訊。

  3. 3

    三種前沿模型均缺乏防禦式程式設計,無法自動檢測邏輯缺陷,顯示目前 LLM 無法獨立完成安全工程任務。

對教育工作者的啟發

本研究指出,雖然 Vibe Coding 可快速產生可執行代碼,但高達 45% 的靜默失敗率與 56% 的數學錯誤顯示單純依賴 LLM 生成的程式碼不可行。實務工作者應先採用 deterministic AI 包裝器,將 LLM 產出的程式碼送入多層驗證流程:1)語法與執行性檢測;2)邏輯與安全性審核(可利用專業安全規範或自動化測試);3)人工審查。其次,對施工人員進行提示工程訓練,教導其撰寫正式、具體的自然語言指令,並建立安全變數清單,避免 AI 產生假資訊。最後,建議制定治理框架,明確責任分工、審核標準與風險評估流程,確保在實際工地部署前已經完成充分驗證。這些措施將降低因 AI 生成代碼而導致的安全事故風險,並提升建築現場的數位化效率。

原始文獻資訊

英文標題:
Is Vibe Coding the Future? An Empirical Assessment of LLM Generated Codes for Construction Safety
作者:
S M Jamil Uddin
來源:
arXiv - Human-Computer Interaction
AI 摘要模型:
openai/gpt-oss-20b
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。