[CL]《AssessingtheCapabilitiesofLLMs

爱生活爱珂珂 2025-11-16 05:59:51

[CL]《Assessing the Capabilities of LLMs in Humor:A Multi-dimensional Analysis of Oogiri Generation and Evaluation》R Sakabe, H Kim, T Hirasawa, M Komachi [Hitotsubashi University] (2025) 在笑点的世界里，AI的大脑究竟能走多远？本文给出了深刻洞见：1. 笑点多维度：传统研究多用单一“好笑”评价，本文提出六维度评估体系——新颖性、清晰度、相关性、智慧、共情与整体幽默感，全面捕捉幽默的丰富层次。2. 数据与方法：利用日本独特的即兴喜剧“Oogiri”数据集，融合两个平台（Bokete与Oogiri-Chaya）的样本，剔除偏见和不当内容，构建高质量、多样化幽默语料库，并用人类与当前顶尖大语言模型（GPT-4.1、Gemini 2.5 Pro、Claude Sonnet 4）分别生成及评估笑话。3. 生成能力发现：LLM的幽默生成水平介于人类中低到中等之间，Gemini 2.5 Pro表现最佳。它们在“新颖性”和“相关性”上表现不错，但在“共情”维度严重不足，这成为限制AI产生真正打动人心幽默的关键瓶颈。4. 评估能力观察：LLM与人类评判幽默的标准差异巨大。人类最看重共情，感受笑话的情感共鸣；而LLM更偏重新颖性，追求意料之外的创意。这导致AI常高估无关内容的幽默价值，且对自身生成的回答也偏爱有加，显现出“积极偏见”和“自我偏好”。5. 文化与认知鸿沟：这种差异揭示了AI幽默感的“异域感”，它们并非简单模仿人类，而是拥有独特的幽默偏好。未来AI要真正懂笑，不仅要提升创造力，更要加强对人类情感和文化的深度理解。6. 实践意义：本研究公开了多维度标注语料和评价框架，为打造更有情感智慧、更自然幽默的对话系统奠定基石，推动AI在社交互动和智能陪伴领域迈向新高度。一句话总结：AI能“讲笑话”，但难以“懂笑话”。幽默的灵魂在于共情，唯有跨越这道情感壁垒，人工智能才能真正成为让人会心一笑的伙伴。深入阅读请戳 arxiv.org/abs/2511.09133，洞察AI幽默的现状与未来。

0 阅读：0

爱生活爱珂珂

感谢大家的关注

作者最新文章

1

做作业遇到难题，查资料、刷题效率低？打滑作业是一个开源 AI 驱动的家庭作业解答

2

《Brainwash Your Agent: How We Keep The M

3

很多技术爱好者和开发者想快速跟上AI领域的发展，但面对海量资料往往无从下手。AI

4

Cloudflare开源了一个革命性的AI编码平台VibeSDK，任何人都能用自

5

一位拥有15年经验的资深工程师分享了他如何利用AI辅助编码的实际流程，远非简单的

6

关于浮点数最直观解释的讨论总结，灵感来自Fabien Sanglard的精彩讲解

7

反汇编和二进制分析离不开强大且易用的工具。ImHex 是一款为逆向工程师、程序员

8

Branko分享了他们创业公司从传统部署迁移到Kubernetes的真实经历，给

9

[人人能懂] 更少数据、更小大脑、更强智能本期节目，我们将一起探索几个让AI

10

Kimi.ai团队最新发布了开源思考代理模型K2 Thinking，带来多项突破

热门分类

科技TOP

1

这是做什么工作的？电脑上也看不懂

2

昨天小鹏科技日最出圈的就是机器人全网都在找它是披着皮的真人的证据确实相比今年4月

3

为啥股价会跌？没看明白。单从步态讲小鹏机器人是全球走得最好最像人的。我平时研究临

4

科技发展真是越来越离谱啦！近日，浙江温州街头，一个人形机器人稳稳牵着机器狗遛弯，

5

我预感红米k90可能会卖爆！这外观设计颜值一点不输小米17系列，再加上旗舰级别

6

老美开心了，终于让英伟达倒闭了！刚刚英伟达总裁黄仁勋对外宣布：中方市场份额降

7

陈奕迅将现身K90发布会今晚陈奕迅会携新版《K歌之王》空降K90系列发布会现场，

8

中国移动你是良心发现了吗？中国移动你是良心发现了吗？18年的老用户了，每个月就

9

这下你用iPhone的控制中心不会迷茫了。

10

小鹏机器人“猫步”惊艳全场！网友疑是真人，何小鹏四字回应暗藏玄机昨日，第七届小

科技最新文章

1

【荣耀400Pro这波价格，是清仓还是真香？】12+512G版本直接到位，

2

看到第二个关于Mate80系列的爆料，提到原来都Pro+变成了ProMax。

3

前几天我就说过，华为Mate80会有3D结构光面部解锁，硬件国产，算法是华为自己

4

数据出来了，没有对比就没有伤害1，iPhone17系约947.1万2，小米1

5

走量大头1+3+4架构的就叫麒麟9030，顶级折叠旗舰上1+4+4架构的叫麒麟9

6

没想到华为Mate80系列这么猛会有非常多其他家没有的东西Mate80标

7

看到Y500Pro这个外观，只想说“又是这个奥利奥”，从X系列到Y系列已经用过

8

这次华为Mate80系列，五款全系列都是搭载麒麟9030处理器，连标准版可能上麒

9

手机厂商终于听懂人话了朋友想买个小屏中端机，结果看了一圈要么处理器不行，要么影

10

不装了！余承东摊牌了，给下马威，24GB+等效5nm芯片，统统给齐！华为Mate