AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「模型发布」清除
5月29日周五
08:39StepFun64SGLang宣布提供Day-0支持
08:39StepFun79阶跃星辰 Step-3.7-Flash 模型发布,vLLM 当日支持
08:09StepFun75阶跃星辰 Step 3.7 Flash 发布,聚焦智能体效率
08:02公众号:阶跃星辰(Step)61同事件精选阶跃发布 Step 3.7 Flash,面向生产级 Agent 的高效率 Flash 模型同一事件,精选展示《在 NVIDIA GPU 上运行面向企业级就绪的多模态 AI——Step 3.7 Flash》
08:00HuggingFace Daily Papers(社区热门论文)62Mellum2 技术报告
07:48MarkTechPost(RSS)59Liquid AI 发布 LFM2.5-8B-A1B:一款支持设备端部署的混合专家架构模型,总参数 8.3B,活跃参数 1.5B
07:40ginobefun78Anthropic 连发三弹:模型、融资、智能体框架全面升级
07:40ginobefun76Anthropic 发布 Claude Opus 4.8
07:21IT之家(RSS)64Claude Opus 4.8 上线:提升 AI 编程可靠性,减少无依据结论
06:18Artificial Analysis79Claude Opus 4.8重夺Artificial Analysis智能指数第一
06:18MarkTechPost(RSS)72Anthropic发布Claude Opus 4.8,同步推出动态工作流与更便宜的快速模式,工作流最多支持1000个子智能体
05:49🚨 AI News | TestingCatalog63Google 宣布 Nano Banana 2 与 Nano Banana Pro 模型现已达到通用可用状态
05:42The Decoder:AI News(RSS)71Anthropic 发布 Claude Opus 4.8:被称作"小幅但实在的改进",在多数基准测试中超越 GPT-5.5
03:18Artificial Analysis64xAI发布新图像模型grok-imagine-image-quality,榜单排名第五且价格更具竞争力
02:42xAI:News(网页)82精选Grok Build 0.1 on API
02:42Google AI Developers71Nano Banana Pro与Nano Banana 2正式发布
01:51Boris Cherny88Claude Opus 4.8发布,编码能力与诚实度提升
01:44Chubby♨️53Mythos级模型即将向所有用户开放
01:44Chubby♨️66字节跳动开源7B多模态模型BAGEL
01:44Rohan Paul76Claude Opus 4.8发布,性能显著提升并推出"动态工作流"
01:42Google AI Developers71精选Nano Banana Pro与Nano Banana 2正式发布
01:38宝玉76Anthropic 发布 Claude Opus 4.8,推出 fast mode 与 dynamic workflows
01:36Thariq76Claude Opus 4.8发布:更智能更协作
01:36OpenRouter80Claude Opus 4.8上线,性能提升价格不变
01:31AYi72Claude Opus 4.8发布:更敏锐更诚实更持久
01:19ClaudeDevs83Claude Opus 4.8现已登陆Claude Code
01:19🚨 AI News | TestingCatalog82Claude Opus 4.8 全面推送,新增思考强度选项
01:19🚨 AI News | TestingCatalog69Claude Opus 4.8发布,SWE-bench Pro得分提升
01:18Artificial Analysis80Anthropic 发布 Claude Opus 4.8,成为 GDPval-AA 基准新领导者
01:14Chubby♨️75Opus 4.8 已上线,德国也可用
01:14Chubby♨️83Opus 4.8发布,智能体编码能力大幅提升
01:14Chubby♨️70Claude Opus 4.8上线,可自定义推理强度
01:14Chubby♨️51Anthropic发布Claude Opus 4.8,对话更自然协作更强
01:14The Verge:AI(RSS)68Claude 的新模型在"出错时更'诚实'"
01:14TechCrunch:AI(RSS)72同事件精选Anthropic 发布 Opus 4.8 并推出新型"动态工作流"工具同一事件,精选展示《Claude Opus 4.8 发布:在编码、智能体技能与推理方面实现全面升级》
01:12Yuchen Jin62Opus 4.8 发布,性能惊人
01:12Yuchen Jin72Opus 4.8发布,SWE-Bench Pro得分创新高
01:12Ethan Mollick57Opus 4.8与GPT-5.2 Pro同台:单次生成创意Shader对比
01:08Hacker News 热门(buzzing.cc 中文翻译)87克劳德 作品4.8
01:06Claude82Claude Opus 4.8发布,判断力与自主性提升
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月29日
08:39
StepFun@StepFun_ai
64
SGLang宣布其推理框架现已对阶跃星辰(StepFun AI)的新模型Step 3.7 Flash提供Day-0支持。该模型是一个专为高吞吐量智能体工作负载设计的198B稀疏MoE视觉语言模型,具备原生多模态感知能力。它在SimpleVQA评测中以79.2分排名第一,V*得分为95.3。在智能体工作流方面,它在ClawEval-1.1上以67.1分领先,展现出可靠的长期工具编排能力;在软件工程任务中,于SWE-Bench PRO上以56.3分位列第二。模型支持256K上下文,并提供3种推理级别以平衡速度、成本与深度。

LMSYS Org: 🎉 Meet Step 3.7 Flash from @StepFun_ai, a 198B sparse MoE vision-language model built for high-throughput agentic workl...

智能体多模态模型发布编码
08:39
StepFun@StepFun_ai
79
阶跃星辰发布了 Step-3.7-Flash 模型,vLLM 在模型发布当天即提供支持。该模型是一个 198B 参数的稀疏 MoE 视觉语言模型,每个 token 约有 11B 激活参数,支持原生图像与文本输入。其上下文窗口达到 256K,适用于长文档、多文件代码库及密集视觉界面。模型提供 FP8 和 NVFP4 量化权重版本,并内置 MTP 推测解码、原生工具调用及推理解析功能。

vLLM: 🎉 Congrats to @StepFun_ai on releasing Step-3.7-Flash, with day-0 support in vLLM. - 198B sparse MoE vision-language mo...

多模态推理模型发布部署/工程
关联讨论 3 条X:阶跃星辰 StepFun (@StepFun_ai)X:OpenRouter (@OpenRouter)IT之家(RSS)
08:09
StepFun@StepFun_ai
75
阶跃星辰 Step 3.7 Flash 发布,聚焦智能体效率

阶跃星辰(Step)发布了开源大模型 Step 3.7 Flash,主打智能体(Agent)工作流的效率。该模型在 ClawEval-1.1(67.1分)和 SimpleVQA Search(79.2分)评测中排名第一。其架构为 198B 参数的 MoE,约 11B 为活跃参数,支持 256K 上下文。模型具备多模态理解能力,能处理图像、文档并生成代码或调用工具执行任务。在工具使用方面,它致力于高可靠性,τ²-bench 得分超过 98%。Step 3.7 Flash 兼容 Claude Code、MCP 协议等工具链,并支持在 Mac Studio M4 Max 等设备上本地运行。模型权重以 Apache 2.0 许可开源。

智能体多模态开源生态推理
关联讨论 3 条X:阶跃星辰 StepFun (@StepFun_ai)X:OpenRouter (@OpenRouter)IT之家(RSS)
08:02
公众号:阶跃星辰(Step)
同事件精选61
阶跃发布 Step 3.7 Flash,面向生产级 Agent 的高效率 Flash 模型

阶跃星辰发布并开源 Step 3.7 Flash,采用稀疏 MoE 架构(总参数 196B+1.8B,激活 11B),最高生成速度 400 Tokens/s。围绕原生多模态理解与执行、联网与视觉搜索增强、高可靠工具调用与编排、Agent 生态兼容优化四大能力优化。在 Toolathlon 达 49.5%,ClawEval-1.1 达 67.1%,GDPval 达 45.8%,τ²-bench Telecom 通过率超 98%。兼容 Claude Code、KiloCode 等主流架构及 MCP/Skills 协议,支持云端与本地部署,已在 Kilo Code 等生态中完成接入验证。

智能体MCP/工具多模态开源生态
同一事件,精选展示《在 NVIDIA GPU 上运行面向企业级就绪的多模态 AI--Step 3.7 Flash》
推荐理由:Step 3.7 Flash 用激活仅 11B 的 MoE 架构把 Agent 工作流稳定性做透了,兼容主流框架还开源,对需要低延迟、高可靠性的生产环境 Agent 是真正可用的选择。
08:00
HuggingFace Daily Papers(社区热门论文)
62
Mellum2 技术报告

Mellum 2 是一个开源的 12B 参数 MoE 大语言模型,每个 token 有 2.5B 活跃参数,专注于软件工程任务,是 Mellum 的后继版本。其架构基于 64 专家、8 激活的 MoE,并融合了分组查询注意力、滑动窗口注意力和多 token 预测头。模型在约 10.6 万亿 token 上进行三阶段预训练,并通过 YaRN 扩展至 128K 上下文窗口,之后经过监督微调与 RLVR 后训练,发布了直答式(Instruct)和带推理链(Thinking)两个变体。在多项基准测试中,其性能可与 4B-14B 范围的开源模型竞争,而计算成本仅相当于 2.5B 稠密模型。所有检查点以 Apache 2.0 许可证发布。

开源/仓库推理模型发布编码
07:48
MarkTechPost(RSS)
59
Liquid AI 发布 LFM2.5-8B-A1B:一款支持设备端部署的混合专家架构模型,总参数 8.3B,活跃参数 1.5B

Liquid AI 发布了 LFM2.5-8B-A1B 模型。这是一款混合专家架构模型,总参数量为 8.3B,每次推理仅激活其中的 1.5B 参数。该模型支持 128K 上下文窗口,具备推理和工具调用能力,可在消费级硬件上本地运行。

模型发布端侧
07:40
ginobefun@hongming731
78
Anthropic 连发三弹:模型、融资、智能体框架全面升级

Anthropic 同日发布三项重要进展。旗舰模型 Claude Opus 4.8 在代码与诚实度方面提升显著,代码能力与回答诚实度提升四倍。公司完成 650 亿美元 H 轮融资,估值逼近万亿美元。此外,Claude Code 推出动态工作流,支持在单次会话中调度数百个并行子智能体以处理超大规模任务。

AnthropicMCP/工具模型发布编码
关联讨论 2 条Anthropic:Newsroom(网页)X:邵猛 (@shao__meng)
07:40
ginobefun@hongming731
76
Anthropic 发布 Claude Opus 4.8

Anthropic 发布旗舰大语言模型 Claude Opus 4.8,作为 Opus 4.7 的全面升级版,其在编程、智能体、推理和知识工作等基准测试中均超越前代。最显著的改进是模型诚实度大幅提升,对自身有缺陷代码视而不见的概率降低约四倍。同步推出三项新功能:Claude Code 支持动态工作流,可启动并行子智能体处理复杂任务;claude.ai 提供“努力控制”功能,允许用户调整模型思考深度;API 支持任务执行中实时更新指令。早期测试者反馈模型在判断力和可靠性上改善明显,价格与 Opus 4.7 保持一致。

Claude: Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...

Anthropic推理模型发布编码
关联讨论 2 条Anthropic:Newsroom(网页)X:邵猛 (@shao__meng)
07:21
IT之家(RSS)
64
Claude Opus 4.8 上线:提升 AI 编程可靠性,减少无依据结论
Anthropic推理模型发布编码
06:18
Artificial Analysis@ArtificialAnlys
79
Claude Opus 4.8重夺Artificial Analysis智能指数第一

Anthropic发布Claude Opus 4.8,在Artificial Analysis智能指数上以61.4分超越GPT-5.5(xhigh)1.2分,重新登顶。该模型在真实世界智能体任务和前沿学术推理上均有提升,在主要智能体评测GDPval-AA上以1890 Elo分取得约67%的胜率。在科学推理方面,Claude首次在Humanity's Last Exam基准上领先OpenAI和Google。其模型幻觉率维持在35.9%,显著低于竞品。上下文窗口仍为100万token,定价为输入$5、输出$25每百万token。

智能体Anthropic推理模型发布
关联讨论 2 条Anthropic:Newsroom(网页)X:邵猛 (@shao__meng)
06:18
MarkTechPost(RSS)
72
Anthropic发布Claude Opus 4.8,同步推出动态工作流与更便宜的快速模式,工作流最多支持1000个子智能体

Anthropic推出Claude Opus 4.8,在Claude Code中引入动态工作流和更便宜的快速模式,目前处于研究预览阶段。工作流最多可调用1000个子智能体执行任务。

Anthropic模型发布编码
关联讨论 2 条Anthropic:Newsroom(网页)X:邵猛 (@shao__meng)
05:49
🚨 AI News | TestingCatalog@testingcatalog
63
Google 宣布 Nano Banana 2 和 Nano Banana Pro 模型现已通过 API 达到通用可用状态。其中,Nano Banana 2 新增了支持将视频文件作为输入提示的功能。在输出方面,两款模型的 1K 和 2K 输出能力已正式发布,而 4K 输出功能仍处于预览阶段。达到通用可用意味着这些模型由企业级的基础设施和安全体系提供支持。它们可通过 Gemini Enterprise Agent Platform 集成,使开发者能够将高质量的图像生成与编辑功能整合到其应用与工作流中。

Thomas Kurian: Nano Banana 2 and Nano Banana Pro are now generally available via Gemini Enterprise Agent Platform. Backed by enterprise...

Google图像生成多模态模型发布
05:42
The Decoder:AI News(RSS)
71
Anthropic 发布 Claude Opus 4.8:被称作"小幅但实在的改进",在多数基准测试中超越 GPT-5.5

Anthropic 发布其最新模型 Claude Opus 4.8。该模型在大多数基准测试中超越了 GPT-5.5 和 Gemini 3.1 Pro。其代码错误自动捕获能力是前代产品的四倍。同步推出动态工作流功能,可启动数百个并行子智能体来处理跨代码库迁移等任务。

Anthropic推理模型发布
关联讨论 2 条Anthropic:Newsroom(网页)X:邵猛 (@shao__meng)
03:18
Artificial Analysis@ArtificialAnlys
64
xAI发布新图像模型grok-imagine-image-quality,榜单排名第五且价格更具竞争力

xAI发布了新图像模型grok-imagine-image-quality。该模型在Artificial Analysis的文本生成图像与图像编辑两个榜单中均位列第五,是除OpenAI与Google外排名最高的模型。它支持2K($70/1k images)和1K($50/1k images)两种输出分辨率,编辑功能最多支持3张参考图。其定价显著低于主要竞品:GPT Image 2为$211/1k images,Nano Banana Pro为$134/1k images,但高于xAI自身的标准版模型grok-imagine-image($20/1k images)。该模型已通过xAI原生API、Grok应用及第三方API提供服务。

xAI图像生成模型发布
02:42
xAI:News(网页)
精选82
Grok Build 0.1 on API

xAI 的最新编码模型 Grok Build 0.1 已通过 xAI API 进入公开测试阶段。该模型专为智能体编码任务训练,支持网页开发、调试和 MCP,同时也是驱动 Grok Build CLI 的同一模型。其推理速度超过 100 tokens/秒,定价为输入 $1/m tokens,输出 $2/m tokens。除编码外,它也适用于通用智能体及工具调用场景,并可通过 OpenRouter 和 Vercel AI Gateway 获取。

xAI模型发布编码
关联讨论 4 条X:xAI (@xai)X:Elon Musk (@elonmusk, xAI)X:阿易 AI Notes (@AYi_AInotes)X:Testing Catalog (@testingcatalog)
推荐理由:xAI 把编码模型卷到了 100+ t/s 和 $2/M 输出,专攻 agentic coding,这是直接在叫板 Claude Code 和 Cursor,做开发工具的同行该重新算账了。
02:42
Google AI Developers@googleaidevs
71
🍌 Nano Banana Pro 【gemini-3-pro-image】 和 Nano Banana 2 【gemini-3.1-flash-image】 现已正式发布,可通过 Gemini API 投入生产使用。查看这些优秀的社区示例,了解两个模型的实际能力 🧵↓
Google图像生成模型发布
01:51
Boris Cherny@bcherny
88
Claude Opus 4.8今日发布。这是我们迄今最强的编码模型:在SWE-bench Pro上得分提升(从64.3到69.2),并且对自己的工作更加诚实。它会在不确定时告诉你,并能发现自己的错误,而不是过早宣布成功。价格与4.7版相同。

Claude: Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...

Anthropic模型发布编码
关联讨论 2 条Anthropic:Newsroom(网页)X:邵猛 (@shao__meng)
01:44
Chubby♨️@kimmonismus
53
太棒了!!"Mythos级模型将在未来几周内向所有用户开放"!! 天啊,我们正在加速!!

Chubby♨️: Thank god! I can turn off adaptive thinking and set reasoning effort myself. Finally!

推理模型发布
01:44
Chubby♨️@kimmonismus
66
字节跳动开源多模态模型BAGEL,单一7B参数模型即可执行图像生成、编辑、风格转换与视觉理解,采用Apache 2.0许可。引用推文显示,该公司此前已发布首个去中心化训练的视频生成模型Paris 2.0,其在FVD基准上性能约为同等数据与算力单体模型的2倍。

bidhan: We're releasing Paris 2.0, which, to our knowledge, is the world's first decentralized trained video generation model. W...

多模态开源生态模型发布
01:44
Rohan Paul@rohanpaul_ai
76
Claude Opus 4.8发布,性能显著提升并推出"动态工作流"

Anthropic发布Claude Opus 4.8模型。其快速模式速度提升2.5倍,同时成本降低3倍。在agentic终端编码基准测试上,性能从66.1%大幅提升至74.6%,成为GDPval-AA基准的新领导者。新推出“动态工作流”功能,可通过Claude Code将大型工程任务分解为数十至数百个并行子任务,由多个AI智能体协同处理并互相验证。官方介绍称,该版本在判断力、诚实度以及独立工作能力上均有提升,今日起以相同价格提供服务。

Claude: Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...

智能体Anthropic模型发布编码
关联讨论 2 条Anthropic:Newsroom(网页)X:邵猛 (@shao__meng)
01:42
Google AI Developers@googleaidevs
精选71
🍌 Nano Banana Pro 【gemini-3-pro-image】 和 Nano Banana 2 【gemini-3.1-flash-image】 现已正式发布,可通过 Gemini API 投入生产使用。查看这些优秀的社区示例,了解两个模型的实际能力 🧵↓
Google图像生成模型发布

推荐理由:Google 把 Gemini 图像生成能力打包进 Nano Banana 系列并正式 GA,开发者现在可以稳定调用 Pro 和 Flash 级别的生图 API,对做图像应用的团队是个实在利好。
01:38
宝玉@dotey
76
Anthropic 发布 Claude Opus 4.8,推出 fast mode 与 dynamic workflows

Anthropic 发布 Claude Opus 4.8,价格与 Claude Opus 4.7 持平。该模型核心改进是更诚实,能更真实地判断自身进度并承认不确定性,更适合长时间独立运行。同步推出 fast mode,在同一模型上实现约 2.5 倍速度提升且价格降低三倍。重要新功能是 Claude Code 的 dynamic workflows(动态工作流),它能将大型任务拆解,并行派出大量子智能体执行与验证,适用于跨文件的大规模代码任务。官方以用其将 Bun 从 Zig 移植到 Rust 作为案例。需注意,该功能消耗的 token 远多于普通会话。

Claude: Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...

智能体Anthropic模型发布编码
关联讨论 2 条Anthropic:Newsroom(网页)X:邵猛 (@shao__meng)
01:36
Thariq@trq212
76
我觉得你会非常喜欢 Opus 4.8。 它和基准测试显示的一样聪明,但以温暖协作的方式表达和运用这种智能。 工作流是利用它的绝佳方式--我已沉迷其中。相关文章即将推出。

Claude: Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...

Anthropic推理模型发布
关联讨论 2 条Anthropic:Newsroom(网页)X:邵猛 (@shao__meng)
01:36
OpenRouter@OpenRouter
80
Opus 4.8 已在 OpenRouter 上线! 价格与 4.7 相同,在智能体编码、推理和计算机使用方面均有提升。 代码缺陷未被发现的概率比 4.7 低约 4 倍。 Opus 4.8 Fast Mode 也已上线--现在只需 2 倍价格,即可获得 2.5 倍速度。
智能体Anthropic推理模型发布
关联讨论 2 条Anthropic:Newsroom(网页)X:邵猛 (@shao__meng)
01:31
AYi@AYi_AInotes
72
Claude Opus 4.8发布:更敏锐更诚实更持久

天啊,Claude Opus 4.8!!! 他来了!他终于来了!!! 时隔37天 Anthropic打出了本赛季最漂亮的一次反击, 更敏锐的判断力, 更诚实的自我认知, 更长时间的独立工作, 关键是加量不加价!加量不加价!!! 伟大的Anthropic! 他继承了大语言模型的光荣传统! 在这一刻他不是一个模型在战斗! 他不是一个人!!!

Claude: Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...

Anthropic模型发布
01:19
ClaudeDevs@ClaudeDevs
83
Opus 4.8今日已在Claude Code上线。 几点值得了解:🧵

Claude: Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...

Anthropic推理模型发布编码
关联讨论 2 条Anthropic:Newsroom(网页)X:邵猛 (@shao__meng)
01:19
🚨 AI News | TestingCatalog@testingcatalog
82
ANTHROPIC 🔥:Claude Opus 4.8 正在向所有用户推送。 此次发布还包含更新的思考强度选择器,提供低、中、高、额外和最大选项。 > 切换到 Opus 4.8 来完成你最具雄心的工作--现在你可以设置思考强度,以平衡深度或速度。
Anthropic推理模型发布
关联讨论 2 条Anthropic:Newsroom(网页)X:邵猛 (@shao__meng)
01:19
🚨 AI News | TestingCatalog@testingcatalog
69
ANTHROPIC 🔥: Claude Opus 4.8 在 SWE-bench Pro 上取得 69.2% 的分数,而 Opus 4.7 为 64.3%。 Benchmarks 👀

🚨 AI News | TestingCatalog: ANTHROPIC 🔥: CLAUDE OPUS 4.8 IS ROLLING OUT TO ALL USERS. The release also includes an updated Thinking effort selector...

Anthropic推理模型发布评测/基准
01:18
Artificial Analysis@ArtificialAnlys
80
Anthropic 发布 Claude Opus 4.8,成为 GDPval-AA 基准新领导者

Anthropic 正式发布了 Claude Opus 4.8 模型。该模型在人工智能分析公司的 GDPval-AA 基准(专注于智能体的现实工作任务)上,以“max”努力设置获得了 1890 分。这一成绩比前代 Opus 4.7 高出 137 分,并以 121 分的优势领先于次优模型 GPT-5.5 xhigh。在直接对比中,这意味着 Opus 4.8 对 GPT-5.5 xhigh 拥有约 67% 的胜率。Anthropic 在模型公开发布前,为人工智能分析公司提供了早期访问权限以进行评测。

智能体Anthropic模型发布评测/基准
关联讨论 2 条Anthropic:Newsroom(网页)X:邵猛 (@shao__meng)
01:14
Chubby♨️@kimmonismus
75
Opus 4.8 已上线!甚至在德国也能用了!!
Anthropic推理模型发布
关联讨论 2 条Anthropic:Newsroom(网页)X:邵猛 (@shao__meng)
01:14
Chubby♨️@kimmonismus
83
Opus 4.8 已上线。基准测试显示其在智能体编码方面有显著提升,但更重要的是: "Opus 4.8 现已提供快速模式。这是同一个模型,速度提升约 2.5 倍,且价格比之前降低了三倍。"

Claude: Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...

智能体Anthropic模型发布
关联讨论 2 条Anthropic:Newsroom(网页)X:邵猛 (@shao__meng)
01:14
Chubby♨️@kimmonismus
70
太好了!我可以关闭自适应思考并自行设置推理强度了。 终于!

Chubby♨️: Opus 4.8 is live! Even in Germany!!

Anthropic推理模型发布
01:14
Chubby♨️@kimmonismus
51
Anthropic发布了Claude Opus 4.8版本。据官方(@alexalbert__)介绍,这是基于用户对4.7版本反馈的改进,重点修复了问题。4.8模型在理解细微差别方面表现更好,对话感觉更自然,在编程(coding)到知识工作(knowledge work)等各种任务中都是更强大的协作者。

Alex Albert: Excited to release Opus 4.8 today! We heard your feedback on 4.7 and have made many fixes for 4.8. 4.8 understands nuanc...

Anthropic大佬观点模型发布
01:14
The Verge:AI(RSS)
68
Claude 的新模型在"出错时更'诚实'"

Anthropic 在周四发布了其最新模型 Claude Opus 4.8。新模型在生成错误内容时,更倾向于主动标示不确定性,并减少做出无根据的断言。在内部评估中,其产出未经证实断言的可能性比前代模型降低约 4 倍。

Anthropic安全/对齐模型发布
01:14
TechCrunch:AI(RSS)
同事件精选72
Anthropic 发布 Opus 4.8 并推出新型"动态工作流"工具

Anthropic 发布了最新的 Opus 4.8 大语言模型,并为该模型引入了一个名为“Dynamic Workflows”的新工具。该工具旨在协调由多个子代理组成的群组,以执行复杂任务。

智能体Anthropic推理模型发布
同一事件,精选展示《Claude Opus 4.8 发布:在编码、智能体技能与推理方面实现全面升级》
推荐理由:Opus 4.8 是 Anthropic 对 Opus 4.7 失望反应的快速回应,亮点不在跑分而在模型能主动标记不确定性,这比正确率更实用。动态工作流让跨子 agent 的代码迁移成为现实,开发团队值得关注。
01:12
Yuchen Jin@Yuchenj_UW
62
Opus 4.8 发布了。 天啊!
Anthropic模型发布
01:12
Yuchen Jin@Yuchenj_UW
72
Opus 4.8在SWE-Bench Pro上得分69.2%,比GPT-5.5高出10分。 发布博客中最有趣的部分是"动态工作流": "这项新功能(目前处于研究预览阶段)允许Claude在Claude Code中承担更大的任务。Claude可以规划工作,然后在单个会话中运行数百个并行子智能体(使用Opus 4.8时,智能体可以运行更长时间)。它在向用户报告之前会先验证其输出。"
智能体Anthropic模型发布编码
01:12
Ethan Mollick@emollick
57
Opus 4.8与GPT-5.2 Pro在相同任务上展示了其代码生成能力。两者均通过"一次性生成"(single shot)的方式,为twigl平台创建可运行的视觉shader。具体任务为:用数学生成一个"无限的新哥特式塔楼城市部分淹没于巨浪汹涌的暴风雨海洋中"的场景。这则推文通过并列展示,体现了两个顶级大语言模型在创意编程领域的直接对比。

Ethan Mollick: Had early access to GPT-5.2. Its an impressive model. Here is GPT 5.2 Pro's version of "create a visually interesting sh...

Anthropic多模态模型发布
01:08
Hacker News 热门(buzzing.cc 中文翻译)
87
克劳德 作品4.8

Anthropic 发布了新版模型 Claude Opus 4.8。该模型的具体技术参数、性能基准与定价等详情暂未提供。本文提供了其官方公告页面的链接,并记录了该新闻在 Hacker News 上的讨论热度。

Anthropic推理模型发布
关联讨论 2 条Anthropic:Newsroom(网页)X:邵猛 (@shao__meng)
01:06
Claude@claudeai
82
介绍 Claude Opus 4.8:它在 Opus 4.7 基础上,拥有更敏锐的判断力、对自身进展更诚实,并且能比前代更长时间独立工作。 今日发布,价格不变。
Anthropic推理模型发布
关联讨论 2 条Anthropic:Newsroom(网页)X:邵猛 (@shao__meng)
‹ 上一页
1…1920212223…43
下一页 ›