CAMO:針對不平衡資料的類別感知少數優化集成方法

arXiv - Computation and LanguageMohamed Ehab (Faculty of Computer Science, October University for Modern Science & Arts, Giza, Egypt), Ali Hamdi (Faculty of Computer Science, October University for Modern Science & Arts, Giza, Egypt), Khaled Shaban (Department of Computer Science and Engineering, Qatar University, Doha, Qatar)

提出 CAMO 集成框架,透過分層投票、置信校準與模型不確定性動態提升少數類別,於兩個極度不平衡語料庫上達成最高宏觀 F1 分數。

AI 幫你先抓重點

AI 重點 1

CAMO 的分層投票與置信校準機制能在少數類別上自動調整權重,避免傳統集成的多數類別偏差。

滑鼠懸停看 AI 判斷理由
這一機制使得模型在面對極度不平衡資料時仍能保持高精度,對於需要準確識別稀有事件的教育評量系統具有直接應用價值。
AI 重點 2

CAMO 的效能與模型本身特性相互影響,最佳集成選擇需考慮模型的預測分佈與不確定性。

滑鼠懸停看 AI 判斷理由
了解這一關係可幫助實務者在選擇或微調模型時,針對特定領域調整集成策略,提升評量準確度。

核心研究發現

  1. 1

    CAMO 在 DIAR-AI/Emotion 與 BEA 2025 兩個極度不平衡資料集上,無論零樣本或微調設定,均取得最高 strict macro F1 分數,顯示其對少數類別的提升效果顯著。

  2. 2

    CAMO 的三階段流程:投票分佈、置信校準、模型不確定性融合,能動態調整權重,避免傳統集成偏向多數類別。

  3. 3

    與七種傳統集成演算法比較,CAMO 在八種語言模型(三大模型、五小模型)中,無論模型屬性如何,始終保持領先,證明其框架的通用性。

對教育工作者的啟發

對於教育評量與學習分析工作者而言,CAMO 提供了一套可直接套用於不平衡資料集的集成框架。實務者可先將目標資料集分為多數與少數類別,使用 CAMO 的分層投票機制為少數類別動態提升權重;再透過置信校準調整模型輸出分數,確保置信度與實際預測一致;最後結合模型不確定性評估,將高不確定性樣本進一步加權或排除。這樣的流程不僅能提升少數類別的 F1 分數,亦能維持整體模型的穩定性。建議在實際部署前,先以小樣本進行驗證,確認不同語言模型(如 LLM 與 SLM)在 CAMO 下的表現差異,並根據領域特性調整投票權重比例。透過這些步驟,教育工作者可在評量、成績預測或學習行為分析中,更準確地捕捉稀有事件與個別差異,進而設計更具個人化與公平性的學習方案。

原始文獻資訊

英文標題:
CAMO: A Class-Aware Minority-Optimized Ensemble for Robust Language Model Evaluation on Imbalanced Data
作者:
Mohamed Ehab (Faculty of Computer Science, October University for Modern Science & Arts, Giza, Egypt), Ali Hamdi (Faculty of Computer Science, October University for Modern Science & Arts, Giza, Egypt), Khaled Shaban (Department of Computer Science and Engineering, Qatar University, Doha, Qatar)
來源:
arXiv - Computation and Language
AI 摘要模型:
openai/gpt-oss-20b
閱讀原文

每週精選研究電子報

每週五信箱收到精選 5 篇教育科技重點研究摘要,零時間壓力掌握學術前沿。