利用大型語言模型評估數位農食工具的包容性:人機評估之比較分析

arXiv - Computers and SocietyGithma Pewinya, Carolina Martins, Garcia Mariangel

本研究探討 LLM 是否能輔助人類專家,快速且有效地評估數位農食工具的數位包容性指標。

AI 幫你先抓重點

AI 重點 1

生成式 AI 可作為大規模包容性監測的加速器

滑鼠懸停看 AI 判斷理由
傳統的人類專家評估(如 MDII 框架)極度耗時且資源密集,透過 AI 輔助評估,能讓資源匱乏或時效性要求高的環境(如全球南方國家)更快速地進行數位發展監測。
AI 重點 2

AI 評估並非完全取代專家,而是互補關係

滑鼠懸停看 AI 判斷理由
由於模型可靠性隨情境波動,讀者不應盲目信任 AI 的評分,而應將其視為一種初步篩選或輔助工具,以維持評估的嚴謹性與準確度。

核心研究發現

  1. 1

    研究比較了 Grok、Gemini、GPT-4o 與 GPT-5 四種模型在評估數位包容性時與人類專家評分的對齊程度。

  2. 2

    研究結果顯示,LLM 在某些維度上的評估輸出能接近專家判斷,但在不同模型與情境下的可靠性存在差異。

  3. 3

    研究探討了模型對溫度參數(temperature settings)的敏感度,以及在評估過程中可能產生的偏見來源。

對教育工作者的啟發

對於致力於數位包容性的開發者與研究者,本研究提供了一個將 AI 整合進評估流程的雛形。實務上,可以利用 LLM 進行初步的數位工具審查,以縮短評估週期並降低成本,但必須建立「人機協作」的機制:先由 AI 進行快速掃描,再由專家針對 AI 判斷模糊或高風險的維度進行深度審核。此外,在部署 AI 評估系統時,應特別注意模型參數(如溫度設定)對結果穩定性的影響,並持續監控 AI 是否帶入新的數位偏見。

原始文獻資訊

英文標題:
Evaluating Digital Inclusiveness of Digital Agri-Food Tools Using Large Language Models: A Comparative Analysis Between Human and AI-Based Evaluations
作者:
Githma Pewinya, Carolina Martins, Garcia Mariangel
來源:
arXiv - Computers and Society
AI 摘要模型:
/models/gemma-4-26B-A4B-it
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。