不圆 发自 凹非寺
量子位 | 公众号 QbitAI
DeepSeek V3.1和V3相比,到底有什么不同?
官方说的模模糊糊,就提到了上下文长度拓展至128K和支持多种张量格式,但别急,我们已经上手实测,为你奉上更多新鲜信息。

我们比较了V3.1和V3,注意到它在编程表现、创意写作、翻译水平、回答语气等方面都出现了不同程度的变化。
不过要说最明显的更新,大概是DeepSeek网页端界面的【深度思考(R1)】悄悄变成了【深度思考】。
手机端还在慢慢对齐(笑)

更新后,问V3.1同样的问题,则得到了这样的结果:


翻译水平我们向V3和V3.1输入了同一篇生物学论文的摘要(含专有名词),并要求它们将其翻译成中文。
摘要选自Nature最新研究:《独特毛颚动物体型的基因组起源》。
两个版本模型的输出结果如下:

可以看出,相比起V3喜欢用括号来补充说明,V3.1对长难句的理解程度更高;但V3.1出现了没有翻译出several这种简单词的情况。
冷门知识结合同事的专业和最近在小红书上刷到的内容,我们问了一个比较“偏门”的问题:
构树的单个果实(不是由花序组成的聚花果)是核果还是瘦果?
这个问题的答案在不同教材上存在分歧,V3和V3.1分别给出了以下回答,均认为其属于核果:

网友们也在使用后得到了一些有趣的发现。
Reddit就有人测试,DeepSeek V3.1在aider上得分71.6%,拿下了非推理模型的SOTA。

这可能和V3.1的配置有关?
有网友察觉到它增加了四个特殊的token,并注意到现版本的V3.1在关闭搜索状态下也会自动搜索。

此外,它的物理理解能力似乎有所提升,下面两个GIF图分别是V3.1和V3对于”在旋转六边形内弹跳的球“的呈现。

但也有人发现了一些问题,多与线上API相关……嗯,已经有人开骂了。


不过,最让人好奇的是,V3.1发布了,R2呢?
参考链接:[1]https://x.com/deepsseek/status/1957886077047566613[2]https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base[3]https://venturebeat.com/ai/deepseek-v3-1-just-dropped-and-it-might-be-the-most-powerful-open-ai-yet/[4]https://old.reddit.com/r/LocalLLaMA/comments/1muq72y/deepseek_v31_scores_716_on_aider_nonreasoning_sota/
— 完 —
量子位 QbitAI · 头条号
关注我们,第一时间获知前沿科技动态签约
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263552 电子证书1157 电子名片68 自媒体91237