[CL]《AssessingtheCapabilitiesofLLMs

爱生活爱珂珂 2025-11-16 05:59:51

[CL]《Assessing the Capabilities of LLMs in Humor:A Multi-dimensional Analysis of Oogiri Generation and Evaluation》R Sakabe, H Kim, T Hirasawa, M Komachi [Hitotsubashi University] (2025) 在笑点的世界里,AI的大脑究竟能走多远?本文给出了深刻洞见:1. 笑点多维度:传统研究多用单一“好笑”评价,本文提出六维度评估体系——新颖性、清晰度、相关性、智慧、共情与整体幽默感,全面捕捉幽默的丰富层次。2. 数据与方法:利用日本独特的即兴喜剧“Oogiri”数据集,融合两个平台(Bokete与Oogiri-Chaya)的样本,剔除偏见和不当内容,构建高质量、多样化幽默语料库,并用人类与当前顶尖大语言模型(GPT-4.1、Gemini 2.5 Pro、Claude Sonnet 4)分别生成及评估笑话。3. 生成能力发现:LLM的幽默生成水平介于人类中低到中等之间,Gemini 2.5 Pro表现最佳。它们在“新颖性”和“相关性”上表现不错,但在“共情”维度严重不足,这成为限制AI产生真正打动人心幽默的关键瓶颈。4. 评估能力观察:LLM与人类评判幽默的标准差异巨大。人类最看重共情,感受笑话的情感共鸣;而LLM更偏重新颖性,追求意料之外的创意。这导致AI常高估无关内容的幽默价值,且对自身生成的回答也偏爱有加,显现出“积极偏见”和“自我偏好”。5. 文化与认知鸿沟:这种差异揭示了AI幽默感的“异域感”,它们并非简单模仿人类,而是拥有独特的幽默偏好。未来AI要真正懂笑,不仅要提升创造力,更要加强对人类情感和文化的深度理解。6. 实践意义:本研究公开了多维度标注语料和评价框架,为打造更有情感智慧、更自然幽默的对话系统奠定基石,推动AI在社交互动和智能陪伴领域迈向新高度。一句话总结:AI能“讲笑话”,但难以“懂笑话”。幽默的灵魂在于共情,唯有跨越这道情感壁垒,人工智能才能真正成为让人会心一笑的伙伴。深入阅读请戳 arxiv.org/abs/2511.09133,洞察AI幽默的现状与未来。

0 阅读:0
爱生活爱珂珂

爱生活爱珂珂

感谢大家的关注