面向螢幕行為預測的架構敏感式監督微調:PiSAR 基準測試

arXiv - Human-Computer InteractionRahul Bissa, Abhishek Vyas, Yash Jain

對比零射擊基線與微調模型,證明高參數模型需更強微調或更多資料以提升螢幕行為預測精度

AI 幫你先抓重點

AI 重點 1

高參數模型在零射擊與微調時表現差異顯著,顯示微調策略需針對模型特性調整

滑鼠懸停看 AI 判斷理由
此洞察指出,單一微調流程對不同架構的模型效果差異大,實務上必須根據模型容量與結構調整正則化、學習率等參數,否則即使微調也難以突破基線
AI 重點 2

同一訓練資料在不同模型上表現不一,提示資料與模型結合的相容性是關鍵

滑鼠懸停看 AI 判斷理由
這提醒研究者與開發者在選擇微調資料集時,需考慮資料分佈與模型預訓練語料的相似度,避免因資料不匹配而導致微調失效

核心研究發現

  1. 1

    前沿零射擊基線(Claude Opus 4.7 與 GPT-5.5)在 661 行 PiSAR 切片上分別達到語義相似度 0.459 與 0.482

  2. 2

    微調 Qwen3-VL-8B-Instruct 取得 0.783,79% 行列達到 0.7 以上,較零射擊提升 0.30 的絕對差距

  3. 3

    同一訓練資料與微調流程在 Gemma-4-26B-A4B-IT 上僅得 0.441,與零射擊基線相近,顯示模型與微調方案不匹配

對教育工作者的啟發

研究顯示,對於螢幕行為預測,單純套用同一微調流程並不能保證所有大型模型都能提升性能。教育科技開發者應先評估模型架構與資料相容性,再選擇合適的微調策略;若使用高參數模型,可能需要增量資料或更強的正則化方法;同時,評估指標應包含語義相似度與實際行為覆蓋率,以確保模型在實務應用中的可靠性。

原始文獻資訊

英文標題:
Architecture-Sensitive Supervised Fine-Tuning for Screen-Conditioned Action Prediction: A PiSAR Benchmark
作者:
Rahul Bissa, Abhishek Vyas, Yash Jain
來源:
arXiv - Human-Computer Interaction
AI 摘要模型:
openai/gpt-oss-20b
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。