[CL]《Multimodal Analysis of State-Funded News Coverage of the Israel-Hamas War on YouTube Shorts》D Miehling, S Kuebler [Indiana University] (2026)
在冲突报道的信息生态中,短视频平台如何塑造地缘政治认知,至今缺乏系统性的实证检验。 现有研究要么聚焦于用户评论,要么局限于单一模态,无法捕捉算法驱动的短视频中文字、视觉与情感如何协同构建叙事——而这正是国家媒体影响力渗透受众的关键通道。
本文的核心洞见是:把"短视频分析"重新看作一个可拆解的多模态流水线问题。 由此,将Whisper语音转文字、依存句法解析的方面情感分析(ABSA)与VLM视觉场景分类三条流水线串联,使跨媒体、跨时间的系统性比较得以实现。值得注意的是,针对领域精调的DeBERTa-v3-base(F1=81.9)显著超越体量更大的LLM,揭示了"适配"比"规模"更具决定性的边界条件。
这项工作真正留下的遗产是一套可复用的开源分析框架,首次将地缘政治冲突的视觉话语与情感极化纳入同一量化视野。 它为后来者打开的新门是:将相同流水线平移至TikTok、Instagram等平台,或扩展至非英语内容的跨语言比较研究。但尚未跨过的门槛是:文本情感与视觉场景的融合分析仍停留于并列呈现,两种模态之间的因果与互动机制尚待更精细的建模。
arxiv.org/abs/2604.00994 机器学习 人工智能 论文 AI创造营






