ai edtech assessment learning design srl

性別提示與 LLM 程式碼審查：性別線索如何影響程式碼品質與評估

arXiv - Human-Computer InteractionLynn Janzen, \"Uveys Eroglu, Dorothea Kolossa, Pia Kn\"oferle, Sebastian M\"oller, Vera Schmitt, Veronika Solopova2026年3月26日

本研究探討性別相關的溝通方式如何影響 LLM 輔助的程式設計與程式碼審查，發現 LLM 評估階段存在性別偏見。

AI 幫你先抓重點

AI 重點 1

LLM 程式碼審查存在性別偏見。

滑鼠懸停看 AI 判斷理由

此發現對於開發和部署公平的 AI 程式碼審查工具至關重要，因為模型可能無意識地偏袒某些性別的程式碼，影響程式碼品質的客觀評估。這也突顯了在 AI 系統中消除偏見的必要性。

AI 重點 2

公平性風險主要來自 LLM 評估階段。

滑鼠懸停看 AI 判斷理由

這意味著，即使 LLM 在程式碼生成方面表現出色，但如果其評估機制存在偏見，最終的結果仍然可能不公平。因此，需要專注於改進 LLM 的評估能力，確保其能夠客觀地評估程式碼品質。

核心研究發現

1
女性撰寫的提示語言更間接、更注重細節，但並未導致程式碼功能正確性或靜態程式碼品質的顯著差距。
2
在 LLM 程式碼審查中，模型傾向於批准女性撰寫的程式碼，即使其品質與其他程式碼相當。
3
性別編碼的提示風格會影響程式碼的長度和可維護性，不同模型在審查時的行為也存在差異。
4
LLM 輔助程式設計中，公平性風險主要來自於 LLM 的評估階段，而非程式碼生成階段。
5
隨著 LLM 在自動程式碼審查中的應用日益普及，性別偏見可能成為一個重要的問題，需要加以關注和解決。

對教育工作者的啟發

教育工作者應意識到 LLM 輔助程式設計中潛在的性別偏見，並在課程設計中納入相關討論，培養學生對 AI 倫理的意識。開發者應積極探索消除 LLM 評估偏見的方法，例如使用更公平的訓練數據或設計更客觀的評估指標。此外，在實際應用中，應謹慎使用 LLM 進行程式碼審查，並結合人工審查，以確保程式碼品質和公平性。

原始文獻資訊

英文標題：: Gendered Prompting and LLM Code Review: How Gender Cues in the Prompt Shape Code Quality and Evaluation
作者：: Lynn Janzen, \"Uveys Eroglu, Dorothea Kolossa, Pia Kn\"oferle, Sebastian M\"oller, Vera Schmitt, Veronika Solopova
來源：: arXiv - Human-Computer Interaction
AI 摘要模型：: ISTA-DASLab/gemma-3-27b-it-GPTQ-4b-128g

閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。