2023年夏天,Claude2发布之后,我搞了一个自己的测试集。内容都是我

特别快数码 2026-05-09 23:18:44

2023 年夏天,Claude 2 发布之后,我搞了一个自己的测试集。内容都是我设计的,而且我搜索确认了之前网上没有类似内容,也就是说模型的训练数据里没有直接答案。其中有个编程任务,我将其难度调整为 GPT3.5 恰好能勉强完成,也就是第一次大概率会出点小错,但反馈出错信息后 3 轮以内能改对,而 GPT4 一遍能给出正确结果。

大约 2024 年夏天,国内的模型陆续开始能完成这个编程任务。

到今天,所有国内的模型都能完成这个任务了。

0 阅读:11
特别快数码

特别快数码

感谢大家的关注