2026火山引擎FORCE大会发布Doubao-Seed-2.1系列,强化Coding与Agent能力 · AI HOT
数字生命卡兹克@Khazix091878
2026-06-23 14:09·22小时前
AI 摘要豆包正式发布基模Doubao-Seed-2.1-pro和turbo。Coding能力接近Opus 4.7,Agent工具调用及长程任务大幅进化,多模态保持国际领先。价格¥6/¥30每百万token,上下文256k。模型已在火山引擎、Trae、豆包上线,兼容所有Agent框架。豆包办公模式基于Seed-2.1-Pro升级,可执行文件访问、文档编辑等Agent任务,现场演示自动汇总210张发票至飞书多维表格。
智能体多模态模型发布
数字生命卡兹克@Khazix0918 · X78
2026-06-23 14:09·22小时前
AI 摘要豆包正式发布基模Doubao-Seed-2.1-pro和turbo。Coding能力接近Opus 4.7,Agent工具调用及长程任务大幅进化,多模态保持国际领先。价格¥6/¥30每百万token,上下文256k。模型已在火山引擎、Trae、豆包上线,兼容所有Agent框架。豆包办公模式基于Seed-2.1-Pro升级,可执行文件访问、文档编辑等Agent任务,现场演示自动汇总210张发票至飞书多维表格。
但这个总结和评分,其实是丢信息的,因为原文里面是有图片的,甚至很多的模型里面,是有视频的。
而我背后用的模型,是两个没有多模态能力的纯文本模型,一个小一点的,用来翻译+总结和摘要,一个大一点的,用来评分。
因为丢失了多模态的信息,特别是这个评分,有的时候是不公平的,比如说X上的一些信息,可能只是发了个质量很高的播客视频,但是只简单配了两句话,那就很有可能,是会被我的精选系统过滤掉的。
很多发图片比较多的内容也是如此,比如,小红书和B站,这些上面的一些信息我过去一直没有监控,不是因为我监控的技术手段做不到,是过去我找不到一个比较好的支持多模态的评分模型,所以一直就没干。
那Doubao-Seed-2.1上了之后,我觉得完全可以把背后的这个模型,换成用Doubao-Seed-2.1-turbo来进行摘要,用Seed-2.1-Pro来进行评分,支持我AIHOT上多模态内容的生态。
说干就干,我直接把Claude Code里面的模型,用CC switch换成了Seed-2.1-Pro,让他自己来开发自己。
然后把我上面说的那段话,直接当做Prompt,扔了进去,先让他做摘要和总结这块的迭代,因为精选评分那块改模型整体改动太大了,Promtp、阈值、公式算法什么的都需要调整,还要做全量的线上数十万条数据的全量回测,不是一时半会就能干完的。
这个任务开发难度不算很高,但是也没有那么简单,就是我的那个代码,因为后端流程有点复杂了,乱七八糟的细节太多了,而且过去没有把图片扔进去推理的先例,图片缓存和持久化啥的全都没做,所以要考虑的细节还是很多的。
在思考了十几分钟以后,Doubao-Seed-2.1-pro给了我一个详细的方案。
考虑的还是比较全面的,一些对抗性审查的方案还有风险的应对措施,基本都考虑到了。
基本没啥问题,前面的图片缓存、抓取、压缩流程啥的都能跑通,整体都还不错。
但是出现了一个很诡异的BUG,就是莫名其妙的,跑一个文字+多图的摘要,失败了一大半,长的甚至要几分钟之多,我都干懵了,我以为火山的API这么慢??
结果让它找了半天原因,发现是Doubao-Seed-2.1默认开了深度思考,所以本来就慢,然后自己又给自己写了个300秒超时,然其中一个图片的包装函数又写错了。
改了两轮,搞了10分钟,才把这个事解决,然后让他给我列了一个100条数据的回测报告,这一次,发现推理速度变得极其牛逼,延迟几乎只要3.5s就能直接出。
回测报告的UI展示上,我觉得中规中矩,前端审美是能看的,干净清爽,也没啥特别的错位BUG。
我感觉我的AIHOT在信息质量上,又要迈向新一波质量的升级了。
然后还有两个点我觉得还是需要说一下,价格和上下文长度。
首先是价格,这个价格相比海外,确实不算贵了,¥6 / ¥30每百万token(输入/输出),但是相比国内DeepSeek这种直接干到个位数级别的爹,感觉还是有优化空间。
上下文还是卡在了256k,没有到达主流的1M,这个还是比较可惜的。
因为Doubao-Seed-2.1-Pro正式发布了,所以,还有一个很重要的功能应该也要即将正式上线了。
这其中专业版我觉得最核心的功能,我觉得就是我这两天一直在测的,基于Doubao-Seed-2.1-Pro的豆包办公模式,也是豆包的Agent。
因为我已经提前拿到了内测资格,当你打开豆包客户端之后,就能在下面看到这个东西。
基于Doubao-Seed-2.1-Pro的办公任务。
Agent时代下驱动的通用办公场景,也是所有厂子我觉得不可能放弃的一环。
豆包的办公模式其实之前就有了,但是之前的体验,坦诚的讲,我自己体验下来,说实话确实一般。
核心原因还是基模,因为之前跑的是Seed 2.0 Pro,这个模型多模态能力很强,理解力也不差,但是在Agent和Coding能力上的短板,导致它在执行一些稍微复杂办公任务的时候,就表现比较一半了。
不要小看这个"换底座"三个字。对于一个AI产品来说,底座模型的能力升级,可能比产品本身做任何改进都更有效,真的,产品团队搞半年的交互优化、流程重构,在现在,我觉得可能不如底座模型在Agent能力上提升个20%来得实在。
打开豆包的桌面客户端,在输入框下侧选择办公任务,就能进入。
办公任务下,我们直接选中本地电脑,它就能够去访问到你本地电脑环境中的各种文件。
豆包自己也自带了一堆skills,Agent在执行任务的时候会自动调用。
我测试了一些任务,在豆包办公模式的表现上,Seed-2.1-Pro整体能力发挥的还不错。
我让它来做我们财务同事之前跟我讲的他们一个工作流。
月底报销的时候,她需要把全公司所有人的发票都汇总到一个飞书多维表格上。
打开办公模式,我直接在收集了全公司发票的目录下,让他去汇总所有人的发票的信息,按照报销人的格式填到多维表格里面。
然后就能看到,它把公司各个部门按照每一个报销人,一共210个发票上的信息都提取出来,填到了我指定的多维表格里。
基本上没有什么问题,这个就体现出Agent能力和多模态模型的省心省力了。。。
正好过几个月我们办公室的租期就到了,再加上越来越多的小伙伴加入我们,现在的办公室确实有点坐不下了。
目前行政那边,根据预算和交通方面的要求,实地也跑了一些,最后选了3个备选方案。
正好昨天下午给我的,我也不太懂,我就把这3个地方丢给豆包,把要求告诉它,让它帮我出一个对比方案,如果有它觉得更合适的地方,也可以推荐。。
它就去网上搜了一大堆资料,最后给了一份很详细的报告。
先从各个维度全面对比了3个地方,然后分别介绍优缺点,还额外给出了几个推荐的地方。
这个租金报价预估,居然基本都是真实的,跟我昨天行政拿给我的报价,几乎就没差个多少钱。。。
一轮直出的效果,只能说,能看。这块我盘了一下,大概率是skill的原因。
这块我建议可以加归藏的PPT skill,可能视觉效果会更好一点。
我自己也拿我之前测一些通用办公任务的30个题目的测试集,在基于Doubao-Seed-2.1-Pro之上的豆包办公任务跑了下回测。
数据分析那边跟Gemini有点像,有时候会自作主张,踩中一些陷阱,比如其中的一道数据分析的题目。
但是整体来说,在有了Seed-2.1-Pro的加持之后,豆包的办公任务,也终于变得还不错了,能在Agent这个通用办公场景上,跟其他家正面开战了。
Seedance这块,作为字节的王者,这次也迎来了一波更新。
Seedance 2.0拥有4K了,而且是原生4K。
注意,是原生4K,跟后期超分是两回事,现在市面上有不少4K视频,其实就是先生成个720p或者1080p的底子,然后拿超分模型往上拉。
Seedance 2.0模型的质量,配合上4K,基本是可以达到影视级了。
而且,现在,还支持在支持在保持画面一致性的同时做局部调整了。
Seedream 5.0 pro,7月初上线。核心升级在于交互式精准编辑,你可以直接在画面上点选、圈选、用箭头标注来表达编辑意图,不需要再用文字去描述空间关系了,还有多图层分离和高密度信息表达能力的提升,一整页PPT的信息量都能准确呈现。
支持用文字、声音参考生成音频、全要素直出(人声+音效+背景音一条Prompt搞定),单次可以生成2分钟音频并且支持延长到几十分钟保持一致性。
然后,火山方舟CLI也正式发布了,这对我这种后端几乎都在火山上的开发者来说是个大利好。
字节,也在向Coding和Agent,全面进军了。