🎉 Meet Step 3.7 Flash from @StepFun_ai, a 198B sparse MoE vision-language model built for high-throughput agentic workl...
🎉 Meet Step 3.7 Flash from @StepFun_ai, a 198B sparse MoE vision-language model built for high-throughput agentic workl...
🎉 Congrats to @StepFun_ai on releasing Step-3.7-Flash, with day-0 support in vLLM. - 198B sparse MoE vision-language mo...
关联讨论 4 条X:阶跃星辰 StepFun (@StepFun_ai)X:OpenRouter (@OpenRouter)IT之家(RSS)公众号:阶跃星辰(Step)阶跃星辰(Step)发布了开源大模型 Step 3.7 Flash,主打智能体(Agent)工作流的效率。该模型在 ClawEval-1.1(67.1分)和 SimpleVQA Search(79.2分)评测中排名第一。其架构为 198B 参数的 MoE,约 11B 为活跃参数,支持 256K 上下文。模型具备多模态理解能力,能处理图像、文档并生成代码或调用工具执行任务。在工具使用方面,它致力于高可靠性,τ²-bench 得分超过 98%。Step 3.7 Flash 兼容 Claude Code、MCP 协议等工具链,并支持在 Mac Studio M4 Max 等设备上本地运行。模型权重以 Apache 2.0 许可开源。
关联讨论 4 条X:阶跃星辰 StepFun (@StepFun_ai)X:OpenRouter (@OpenRouter)IT之家(RSS)公众号:阶跃星辰(Step)Anthropic 同日发布三项重要进展。旗舰模型 Claude Opus 4.8 在代码与诚实度方面提升显著,代码能力与回答诚实度提升四倍。公司完成 650 亿美元 H 轮融资,估值逼近万亿美元。此外,Claude Code 推出动态工作流,支持在单次会话中调度数百个并行子智能体以处理超大规模任务。
关联讨论 6 条Anthropic:Newsroom(网页)TechCrunch:AI(RSS)Hacker News 热门(buzzing.cc 中文翻译)The Decoder:AI News(RSS)MarkTechPost(RSS)X:邵猛 (@shao__meng)Anthropic 发布旗舰大语言模型 Claude Opus 4.8,作为 Opus 4.7 的全面升级版,其在编程、智能体、推理和知识工作等基准测试中均超越前代。最显著的改进是模型诚实度大幅提升,对自身有缺陷代码视而不见的概率降低约四倍。同步推出三项新功能:Claude Code 支持动态工作流,可启动并行子智能体处理复杂任务;claude.ai 提供“努力控制”功能,允许用户调整模型思考深度;API 支持任务执行中实时更新指令。早期测试者反馈模型在判断力和可靠性上改善明显,价格与 Opus 4.7 保持一致。
Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...
关联讨论 6 条Anthropic:Newsroom(网页)TechCrunch:AI(RSS)Hacker News 热门(buzzing.cc 中文翻译)The Decoder:AI News(RSS)MarkTechPost(RSS)X:邵猛 (@shao__meng)Anthropic发布Claude Opus 4.8,在Artificial Analysis智能指数上以61.4分超越GPT-5.5(xhigh)1.2分,重新登顶。该模型在真实世界智能体任务和前沿学术推理上均有提升,在主要智能体评测GDPval-AA上以1890 Elo分取得约67%的胜率。在科学推理方面,Claude首次在Humanity's Last Exam基准上领先OpenAI和Google。其模型幻觉率维持在35.9%,显著低于竞品。上下文窗口仍为100万token,定价为输入$5、输出$25每百万token。
关联讨论 6 条Anthropic:Newsroom(网页)TechCrunch:AI(RSS)Hacker News 热门(buzzing.cc 中文翻译)The Decoder:AI News(RSS)MarkTechPost(RSS)X:邵猛 (@shao__meng)Nano Banana 2 and Nano Banana Pro are now generally available via Gemini Enterprise Agent Platform. Backed by enterprise...
xAI发布了新图像模型grok-imagine-image-quality。该模型在Artificial Analysis的文本生成图像与图像编辑两个榜单中均位列第五,是除OpenAI与Google外排名最高的模型。它支持2K($70/1k images)和1K($50/1k images)两种输出分辨率,编辑功能最多支持3张参考图。其定价显著低于主要竞品:GPT Image 2为$211/1k images,Nano Banana Pro为$134/1k images,但高于xAI自身的标准版模型grok-imagine-image($20/1k images)。该模型已通过xAI原生API、Grok应用及第三方API提供服务。
Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...
关联讨论 6 条Anthropic:Newsroom(网页)TechCrunch:AI(RSS)Hacker News 热门(buzzing.cc 中文翻译)The Decoder:AI News(RSS)MarkTechPost(RSS)X:邵猛 (@shao__meng)Thank god! I can turn off adaptive thinking and set reasoning effort myself. Finally!
We're releasing Paris 2.0, which, to our knowledge, is the world's first decentralized trained video generation model. W...
Anthropic发布Claude Opus 4.8模型。其快速模式速度提升2.5倍,同时成本降低3倍。在agentic终端编码基准测试上,性能从66.1%大幅提升至74.6%,成为GDPval-AA基准的新领导者。新推出“动态工作流”功能,可通过Claude Code将大型工程任务分解为数十至数百个并行子任务,由多个AI智能体协同处理并互相验证。官方介绍称,该版本在判断力、诚实度以及独立工作能力上均有提升,今日起以相同价格提供服务。
Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...
关联讨论 6 条Anthropic:Newsroom(网页)TechCrunch:AI(RSS)Hacker News 热门(buzzing.cc 中文翻译)The Decoder:AI News(RSS)MarkTechPost(RSS)X:邵猛 (@shao__meng)Anthropic 发布 Claude Opus 4.8,价格与 Claude Opus 4.7 持平。该模型核心改进是更诚实,能更真实地判断自身进度并承认不确定性,更适合长时间独立运行。同步推出 fast mode,在同一模型上实现约 2.5 倍速度提升且价格降低三倍。重要新功能是 Claude Code 的 dynamic workflows(动态工作流),它能将大型任务拆解,并行派出大量子智能体执行与验证,适用于跨文件的大规模代码任务。官方以用其将 Bun 从 Zig 移植到 Rust 作为案例。需注意,该功能消耗的 token 远多于普通会话。
Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...
关联讨论 6 条Anthropic:Newsroom(网页)TechCrunch:AI(RSS)Hacker News 热门(buzzing.cc 中文翻译)The Decoder:AI News(RSS)MarkTechPost(RSS)X:邵猛 (@shao__meng)Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...
关联讨论 6 条Anthropic:Newsroom(网页)TechCrunch:AI(RSS)Hacker News 热门(buzzing.cc 中文翻译)The Decoder:AI News(RSS)MarkTechPost(RSS)X:邵猛 (@shao__meng)天啊,Claude Opus 4.8!!! 他来了!他终于来了!!! 时隔37天 Anthropic打出了本赛季最漂亮的一次反击, 更敏锐的判断力, 更诚实的自我认知, 更长时间的独立工作, 关键是加量不加价!加量不加价!!! 伟大的Anthropic! 他继承了大语言模型的光荣传统! 在这一刻他不是一个模型在战斗! 他不是一个人!!!
Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...
Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...
关联讨论 6 条Anthropic:Newsroom(网页)TechCrunch:AI(RSS)Hacker News 热门(buzzing.cc 中文翻译)The Decoder:AI News(RSS)MarkTechPost(RSS)X:邵猛 (@shao__meng)ANTHROPIC 🔥: CLAUDE OPUS 4.8 IS ROLLING OUT TO ALL USERS. The release also includes an updated Thinking effort selector...
Anthropic 正式发布了 Claude Opus 4.8 模型。该模型在人工智能分析公司的 GDPval-AA 基准(专注于智能体的现实工作任务)上,以“max”努力设置获得了 1890 分。这一成绩比前代 Opus 4.7 高出 137 分,并以 121 分的优势领先于次优模型 GPT-5.5 xhigh。在直接对比中,这意味着 Opus 4.8 对 GPT-5.5 xhigh 拥有约 67% 的胜率。Anthropic 在模型公开发布前,为人工智能分析公司提供了早期访问权限以进行评测。
关联讨论 6 条Anthropic:Newsroom(网页)TechCrunch:AI(RSS)Hacker News 热门(buzzing.cc 中文翻译)The Decoder:AI News(RSS)MarkTechPost(RSS)X:邵猛 (@shao__meng)Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...
关联讨论 6 条Anthropic:Newsroom(网页)TechCrunch:AI(RSS)Hacker News 热门(buzzing.cc 中文翻译)The Decoder:AI News(RSS)MarkTechPost(RSS)X:邵猛 (@shao__meng)Excited to release Opus 4.8 today! We heard your feedback on 4.7 and have made many fixes for 4.8. 4.8 understands nuanc...
Had early access to GPT-5.2. Its an impressive model. Here is GPT 5.2 Pro's version of "create a visually interesting sh...
Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...
http://x.com/i/article/2057668634579714048
SenseNova-U1-8B-MoT-Infographic 是一个升级后的8B参数信息图表生成模型。其核心提升在于:增强了文本的准确性与可读性,减少了重复和不自然的放大;改进了布局的一致性与合理性,背景更稳定;提升了图表与示意图的渲染质量;并新增了学术内容的渲染支持。
同一事件,精选展示《商汤发布信息图生成模型升级,增强多项核心能力》OpenCode x MiMo V2.5 - Free for a limited time 1M context • reasoning • text • image
同一事件,精选展示《小米 MiMo 与 TileRT 联合发布 UltraSpeed 模式,1T 模型输出突破 1000 tokens/s》商汤科技介绍了其升级后的信息图生成模型 SenseNova-U1-8B-MoT-Infographic。该模型参数为8B,在四个关键维度进行了优化:文本准确性与可读性增强,减少了重复和不当放大;布局的一致性与合理性提升,背景更稳定;图表与示意图的质量提高;并新增了学术内容的渲染支持。推文提供了在 Hugging Face 上的模型页面链接及能力展示页面。
关联讨论 1 条X:商汤 SenseTime (@SenseTime_AI)Opus 4.8 has been found staged in the claude code model selector on the desktop app. It should be releasing today! lets ...
微软计划在下周的 Build 大会上发布其自研 AI 模型,旨在成为 OpenAI 和 Anthropic 的更廉价替代方案。据报道,依赖 Anthropic 的 Claude 迫使微软提高了 GitHub Copilot 的价格并限制了开发者的实际使用量。尽管通过协议在 2032 年前可免费使用 OpenAI 模型,但微软正投入巨资以期在协议到期后减少依赖。负责 AI 模型的 Suleyman 团队两年来未在任何基准测试中领先,其解释称是受与 OpenAI 的协议限制,直至今年四月才可训练前沿模型。此次发布时机值得关注。
Opus 4.8 has been found staged in the claude code model selector on the desktop app. It should be releasing today! lets ...