大規模觀察候選人：Instagram視覺政治傳播的多模態LLM

arXiv - Computers and SocietyMichael Achmann-Denkler, Mario Haim, Christian Wolff2026年4月22日

本研究比較傳統電腦視覺模型與 GPT‑4o 在 2021 年德國聯邦選舉 Instagram 內容中辨識政治人物與人數的效能，證明多模態 LLM 在視覺政治傳播分析上具備更高準確度。

AI 幫你先抓重點

AI 重點 1

多模態 LLM 能同時處理圖像與文字，顯著提升政治人物辨識與人數統計的準確度。

滑鼠懸停看 AI 判斷理由

傳統模型只能處理單一模態，缺乏語境理解，導致錯誤率較高；GPT‑4o 透過語言模型的語境推理與圖像特徵融合，能更精準辨識臉部與人數，對於大規模社群媒體分析具有實務價值。

AI 重點 2

研究提供了可重複的案例研究框架，說明如何將多模態 LLM 應用於政治傳播研究。

滑鼠懸停看 AI 判斷理由

此框架可幫助研究者快速評估不同模型在特定領域的效能，降低實驗設計成本，並促進跨領域方法的標準化。

1
GPT‑4o 在臉部辨識的宏觀 F1 分數達 0.89，顯著高於 FaceNet512、RetinaFace、Google Cloud Vision 等傳統模型。
2
GPT‑4o 在 Instagram 故事中人數統計的宏觀 F1 分數為 0.86，亦優於傳統模型。
3
研究顯示多模態 LLM 能在政治傳播視覺內容分析中擴大規模與精細化，並提出未來研究的方法學考量。

教育工作者可將 GPT‑4o 應用於政治媒體素養課程，讓學生透過實際 Instagram 故事辨識候選人與人數，培養批判性媒體閱讀與數據分析技巧；此外，教師可利用其自動標記功能，快速評估學生對圖像內容的理解，節省批改時間，並可將結果作為反饋，促進學習成效。

英文標題：: Seeing Candidates at Scale: Multimodal LLMs for Visual Political Communication on Instagram
作者：: Michael Achmann-Denkler, Mario Haim, Christian Wolff
來源：: arXiv - Computers and Society
AI 摘要模型：: openai/gpt-oss-20b

每週五信箱收到精選 5 篇教育科技重點研究摘要，零時間壓力掌握學術前沿。