ai assessment digital inclusiveness edtech global south

利用大型語言模型評估數位農食工具的包容性：人機評估之比較分析

arXiv - Computers and SocietyGithma Pewinya, Carolina Martins, Garcia Mariangel2026年4月7日

本研究探討 LLM 是否能輔助人類專家，快速且有效地評估數位農食工具的數位包容性指標。

AI 幫你先抓重點

AI 重點 1

生成式 AI 可作為大規模包容性監測的加速器

滑鼠懸停看 AI 判斷理由

傳統的人類專家評估（如 MDII 框架）極度耗時且資源密集，透過 AI 輔助評估，能讓資源匱乏或時效性要求高的環境（如全球南方國家）更快速地進行數位發展監測。

AI 重點 2

AI 評估並非完全取代專家，而是互補關係

滑鼠懸停看 AI 判斷理由

由於模型可靠性隨情境波動，讀者不應盲目信任 AI 的評分，而應將其視為一種初步篩選或輔助工具，以維持評估的嚴謹性與準確度。

核心研究發現

1
研究比較了 Grok、Gemini、GPT-4o 與 GPT-5 四種模型在評估數位包容性時與人類專家評分的對齊程度。
2
研究結果顯示，LLM 在某些維度上的評估輸出能接近專家判斷，但在不同模型與情境下的可靠性存在差異。
3
研究探討了模型對溫度參數（temperature settings）的敏感度，以及在評估過程中可能產生的偏見來源。

對教育工作者的啟發

對於致力於數位包容性的開發者與研究者，本研究提供了一個將 AI 整合進評估流程的雛形。實務上，可以利用 LLM 進行初步的數位工具審查，以縮短評估週期並降低成本，但必須建立「人機協作」的機制：先由 AI 進行快速掃描，再由專家針對 AI 判斷模糊或高風險的維度進行深度審核。此外，在部署 AI 評估系統時，應特別注意模型參數（如溫度設定）對結果穩定性的影響，並持續監控 AI 是否帶入新的數位偏見。

原始文獻資訊

英文標題：: Evaluating Digital Inclusiveness of Digital Agri-Food Tools Using Large Language Models: A Comparative Analysis Between Human and AI-Based Evaluations
作者：: Githma Pewinya, Carolina Martins, Garcia Mariangel
來源：: arXiv - Computers and Society
AI 摘要模型：: /models/gemma-4-26B-A4B-it

閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。