[CL]《SemanticRegexes:Auto-Interpreting

爱生活爱珂珂 2025-10-10 08:36:37

[CL]《Semantic Regexes: Auto-Interpreting LLM Features with a Structured Language》A Boggust, D Ren, Y Assogba, D Moritz... [MIT CSAIL & Apple] (2025)

用结构化语言自动解释大型语言模型特征

1/ 目前自动解释大语言模型(LLM)特征的方法多用自然语言描述,但自然语言模糊、不一致,且需人工反复标注。

2/ 本文提出“语义正则表达式”(semantic regexes),用结构化语言精确描述LLM特征。它结合了原子成分——符号(symbol)、词素(lexeme)、语义域(field),及修饰符——上下文、组合和量化,形成表达力强且明确的语言。

3/ 语义正则表达式既能描述简单的词汇匹配,也能表达复杂的语义组合,如“政治头衔后面的姓氏”。

4/ 评测显示,语义regexes在准确度上不输自然语言描述,且显著更简洁、一致,有助于快速识别功能相似或冗余特征。

5/ 结构化特点使得语义regexes可作为衡量特征复杂度的指标,发现模型越深层,特征表达越复杂,且多采用抽象成分。

6/ 用户研究表明,语义regexes帮助使用者更准确地理解LLM特征激活模式,减少歧义,提高人机协作效率。

7/ 总结:语义正则表达式作为一种中间语言,有效桥接了机器特征与人类理解,促进自动化解释的规模化和精细化,未来可扩展以适应更多模型解释需求。

🔗 原文链接:arxiv.org/abs/2510.06378

AI解释性 LLM 结构化语言 语义正则表达式 自动化理解

0 阅读:0
爱生活爱珂珂

爱生活爱珂珂

感谢大家的关注