AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 980 条
全部一手资讯X论文
标签「模型发布」清除
StepFun@StepFun_ai · 5月29日64

Day-0 SGLang support. Thanks @lmsysorg for moving so fast.

译SGLang宣布其推理框架现已对阶跃星辰(StepFun AI)的新模型Step 3.7 Flash提供Day-0支持。该模型是一个专为高吞吐量智能体工作负载设计的198B稀疏MoE视觉语言模型,具备原生多模态感知能力。它在SimpleVQA评测中以79.2分排名第一,V*得分为95.3。在智能体工作流方面,它在ClawEval-1.1上以67.1分领先,展现出可靠的长期工具编排能力;在软件工程任务中,于SWE-Bench PRO上以56.3分位列第二。模型支持256K上下文,并提供3种推理级别以平衡速度、成本与深度。

StepFun@StepFun_ai · 5月29日79

Day-0 vLLM support. Thanks @vllm_project 🤝

译阶跃星辰发布了 Step-3.7-Flash 模型,vLLM 在模型发布当天即提供支持。该模型是一个 198B 参数的稀疏 MoE 视觉语言模型,每个 token 约有 11B 激活参数,支持原生图像与文本输入。其上下文窗口达到 256K,适用于长文档、多文件代码库及密集视觉界面。模型提供 FP8 和 NVFP4 量化权重版本,并内置 MTP 推测解码、原生工具调用及推理解析功能。

StepFun@StepFun_ai · 5月29日75

⚡️ Step 3.7 Flash is here: The new frontier is agent efficiency. #1 ClawEval-1.1 (67.1), #1 SimpleVQA Search (79.2), #2 SWE-PRO (56.3), 95.3 on V* Python. Open weights under Apache 2.0. Built for agentic, coding, search, and multimodal workflows — balancing speed, cost, and reliable execution. - 400 TPS. 198B sparse MoE, ~11B active. 256K context, 3 reasoning levels. - Understands UIs, charts, docs, images — then writes code or calls tools to act on what it sees. - Web + visual search reaches further: more sources, deeper follow-up. - Reliable tool use — less drift, fewer broken toolcalls. 98%+ on τ²-bench across all difficulty levels. - Works with Claude Code, KiloCode, Hermes Agent, OpenClaw, and protocols like MCP. - Runs locally on Mac Studio M4 Max, DGX Spark, AMD AI Max+ 395. GitHub: http://github.com/stepfun-ai/Step-3.7-Flash HuggingFace: http://huggingface.co/stepfun-ai/Step-3.7-Flash GGUF: http://huggingface.co/stepfun-ai/Step-3.7-Flash-GGUF ModelScope: http://modelscope.cn/models/stepfun-ai/Step-3.7-Flash API: http://platform.stepfun.ai Blog: http://static.stepfun.com/blog/step-3.7-flash/

译阶跃星辰(Step)发布了开源大模型 Step 3.7 Flash,主打智能体(Agent)工作流的效率。该模型在 ClawEval-1.1(67.1分)和 SimpleVQA Search(79.2分)评测中排名第一。其架构为 198B 参数的 MoE,约 11B 为活跃参数,支持 256K 上下文。模型具备多模态理解能力,能处理图像、文档并生成代码或调用工具执行任务。在工具使用方面,它致力于高可靠性,τ²-bench 得分超过 98%。Step 3.7 Flash 兼容 Claude Code、MCP 协议等工具链,并支持在 Mac Studio M4 Max 等设备上本地运行。模型权重以 Apache 2.0 许可开源。

ginobefun@hongming731 · 5月29日78

#BestBlogs 早报 05-29 Anthropic 今天同日放出三条重磅,推荐阅读: - 旗舰模型 Claude Opus 4.8 全面升级,代码诚实度提升四倍; - 650 亿美元 H 轮融资让估值逼近万亿美元; - Claude Code 推出动态工作流,单次会话可调度数百个并行子智能体处理超大任务。

译Anthropic 同日发布三项重要进展。旗舰模型 Claude Opus 4.8 在代码与诚实度方面提升显著,代码能力与回答诚实度提升四倍。公司完成 650 亿美元 H 轮融资,估值逼近万亿美元。此外,Claude Code 推出动态工作流,支持在单次会话中调度数百个并行子智能体以处理超大规模任务。

ginobefun@hongming731 · 5月29日76

Anthropic 今天发布了旗舰模型 Claude Opus 4.8,是 Opus 4.7 的全面升级版。 在编程、智能体、推理、知识工作四个维度的基准测试中,Opus 4.8 都超过了上一代。其中最值得注意的是「诚实度」的改变,模型对自己写出的有缺陷代码视而不见的概率,降低了约四倍。也就是说,它更愿意承认自己的错误,而不是强行辩护。 这次发布同步带来了三个新功能。 第一个是 Claude Code 里的动态工作流,可以在单次会话内启动数十甚至数百个并行子智能体,专门用来处理大规模、跨文件的复杂任务,比如全代码库的漏洞扫描和大型代码迁移。 第二个是 http://claude.ai 上的「努力控制」,用户可以手动调整模型的思考深度,用更少的 Token 处理简单问题,把算力留给真正需要的地方。 第三个是 API 层面支持在任务执行途中实时更新指令,不必中断整个流程重新开始。 来自 Databricks、Hebbia、Devin 等团队的早期测试者反馈说,模型在判断力和可靠性上有明显改善,尤其在长时间自主运行的任务里表现更稳。价格和 Opus 4.7 保持一致,没有涨价。

译Anthropic 发布旗舰大语言模型 Claude Opus 4.8,作为 Opus 4.7 的全面升级版,其在编程、智能体、推理和知识工作等基准测试中均超越前代。最显著的改进是模型诚实度大幅提升,对自身有缺陷代码视而不见的概率降低约四倍。同步推出三项新功能:Claude Code 支持动态工作流,可启动并行子智能体处理复杂任务;claude.ai 提供“努力控制”功能,允许用户调整模型思考深度;API 支持任务执行中实时更新指令。早期测试者反馈模型在判断力和可靠性上改善明显,价格与 Opus 4.7 保持一致。

Artificial Analysis@ArtificialAnlys · 5月29日79

Claude Opus 4.8 takes the lead on the Artificial Analysis Intelligence Index at 61.4, with Anthropic retaking the #1 spot on GDPval-AA and advancing in terminal use and scientific reasoning To reach the leading position on the Intelligence Index, @Anthropic made large improvements in both real-world agentic work and frontier academic reasoning tasks. Key takeaways: ➤ Claude Opus 4.8 is the new leader on the Artificial Analysis Intelligence Index. Opus 4.8 scores 61.4, up +4.1 points from Opus 4.7 and +1.2 points ahead of GPT-5.5 (xhigh), the previous Index leader ➤ The new release is slightly more efficient than its predecessor on agentic tasks, but token efficiency varied by task type. We saw Opus 4.8 use fewer turns and output tokens on GDPval-AA, but approximately the same number of output tokens for the overall Intelligence Index to achieve significantly higher performance. ➤ Anthropic retakes the lead on GDPval-AA, our primary evaluation for agentic performance on knowledge work tasks. Opus 4.8 scored an 1,890 Elo, reflecting an implied win rate of approximately 67% against GPT-5.5 ➤ Claude is now among the top models for scientific reasoning. Previous releases have trailed peers on complex academic reasoning tasks, but with Opus 4.8, Claude sits slightly ahead of OpenAI and Google as the leader on Humanity’s Last Exam. It also scores higher than Gemini 3.1 Pro on CritPt, a frontier physics benchmark, but remains behind GPT-5.4 and GPT-5.5 ➤ Claude Opus 4.8 reaches #2 on AA-Omniscience, slightly ahead of Opus 4.7. Opus 4.8 scores 27.4 on the AA-Omniscience Index behind only Gemini 3.1 Pro (32.9). Accuracy ticked up slightly to 46.6% and hallucination rate held roughly flat at 35.9% - Anthropic continues to demonstrate substantially lower hallucination rates than peer models from Google and OpenAI ➤ Compared with Opus 4.7, Opus 4.8 also makes material gains on Terminal-Bench Hard (+6.8 points), τ²-Bench Telecom (+5.9 points), and IFBench (+3.6 points), with relatively flat scores across AA-LCR, GPQA, and SciCode. Other key model details remain the same as Opus 4.7: Context window of 1 million tokens (equivalent to Opus 4.7) Pricing of $5/$25 per million tokens of input/output; cache pricing remains at a 25% premium for cache writes ($6.25 per million tokens) with 5-minute time to live, and 90% discount for cache hits ($0.5 per million tokens) Effort remains the recommended way of configuring model performance and latency, with the same options as Opus 4.7 - we measured the model at its ‘max’ effort setting to test peak performance

译Anthropic发布Claude Opus 4.8,在Artificial Analysis智能指数上以61.4分超越GPT-5.5(xhigh)1.2分,重新登顶。该模型在真实世界智能体任务和前沿学术推理上均有提升,在主要智能体评测GDPval-AA上以1890 Elo分取得约67%的胜率。在科学推理方面,Claude首次在Humanity's Last Exam基准上领先OpenAI和Google。其模型幻觉率维持在35.9%,显著低于竞品。上下文窗口仍为100万token,定价为输入$5、输出$25每百万token。

🚨 AI News | TestingCatalog@testingcatalog · 5月29日63

GOOGLE 🔥: Both Nano Banana 2 and Nano Banana Pro are now in General Availability on the APIs! > NEW: Nano Banana 2 now supports video files as an input prompt. > The 1K and 2K output capabilities are generally available for both models, while the 4K capability remains in preview. > General Availability means that these models are backed by enterprise-grade infrastructure and security.

译Google 宣布 Nano Banana 2 和 Nano Banana Pro 模型现已通过 API 达到通用可用状态。其中,Nano Banana 2 新增了支持将视频文件作为输入提示的功能。在输出方面,两款模型的 1K 和 2K 输出能力已正式发布,而 4K 输出功能仍处于预览阶段。达到通用可用意味着这些模型由企业级的基础设施和安全体系提供支持。它们可通过 Gemini Enterprise Agent Platform 集成,使开发者能够将高质量的图像生成与编辑功能整合到其应用与工作流中。

Artificial Analysis@ArtificialAnlys · 5月29日64

grok-imagine-image-quality lands at #5 on both the Artificial Analysis Text to Image and Image Editing leaderboards, the leading model outside of OpenAI and Google and at a much lower price! grok-imagine-image-quality is @xAI's latest image model and a higher quality variant of grok-imagine-image. It sits behind only OpenAI's GPT Image and Google's Nano Banana across both Text to Image and Image Editing. The model supports 2K outputs at $70/1k images and 1K outputs at $50/1k images, with editing supporting up to 3 reference images. At $50/1k images for the 1K resolution tested, grok-imagine-image-quality is cheaper than GPT Image 2 at $211/1k images and Nano Banana Pro at $134/1k images, though priced at a premium compared to the standard grok-imagine-image model at $20/1k images. grok-imagine-image-quality is available via xAI's native API, the Grok chat app, and third party APIs. Congratulations to @xAI and @elonmusk on the launch! See below for comparisons between grok-imagine-image-quality and other leading models in the Artificial Analysis Image Arena 🧵

译xAI发布了新图像模型grok-imagine-image-quality。该模型在Artificial Analysis的文本生成图像与图像编辑两个榜单中均位列第五,是除OpenAI与Google外排名最高的模型。它支持2K($70/1k images)和1K($50/1k images)两种输出分辨率,编辑功能最多支持3张参考图。其定价显著低于主要竞品:GPT Image 2为$211/1k images,Nano Banana Pro为$134/1k images,但高于xAI自身的标准版模型grok-imagine-image($20/1k images)。该模型已通过xAI原生API、Grok应用及第三方API提供服务。

Google AI Developers@googleaidevs · 5月29日71

🍌 Nano Banana Pro [gemini-3-pro-image] and Nano Banana 2 [gemini-3.1-flash-image] are now GA and ready for production via the Gemini API. Check out these great community examples to see the capabilities of both models in action 🧵↓

译🍌 Nano Banana Pro [gemini-3-pro-image] 和 Nano Banana 2 [gemini-3.1-flash-image] 现已正式发布,可通过 Gemini API 投入生产使用。查看这些优秀的社区示例,了解两个模型的实际能力 🧵↓

Boris Cherny@bcherny · 5月29日88

Claude Opus 4.8 is out today. It's our strongest coding model yet: up on SWE-bench Pro (from 64.3 to 69.2) and noticeably more honest about its own work. It tells you when it's unsure and catches its own bugs instead of declaring victory early. Same price as 4.7.

译Claude Opus 4.8今日发布。这是我们迄今最强的编码模型:在SWE-bench Pro上得分提升(从64.3到69.2),并且对自己的工作更加诚实。它会在不确定时告诉你,并能发现自己的错误,而不是过早宣布成功。价格与4.7版相同。

Chubby♨️@kimmonismus · 5月29日53

Huge!! „Mythos class model to all customers in the coming weeks“!! Holy, we accelerate!!

译太棒了!!“Mythos级模型将在未来几周内向所有用户开放”!! 天啊,我们正在加速!!

Chubby♨️@kimmonismus · 5月29日66

ByteDance just open-sourced one of the most capable multimodal models out there. BAGEL does image generation, editing, style transfer, and visual understanding - all in a single 7B parameter model. Apache 2.0 licensed! One model. No switching between specialized tools.  Amazing

译字节跳动开源多模态模型BAGEL,单一7B参数模型即可执行图像生成、编辑、风格转换与视觉理解,采用Apache 2.0许可。引用推文显示,该公司此前已发布首个去中心化训练的视频生成模型Paris 2.0,其在FVD基准上性能约为同等数据与算力单体模型的2倍。

Rohan Paul@rohanpaul_ai · 5月29日76

Claude Opus 4.8 dropped. - 2.5x faster fast mode, which is also 3x cheaper - has a new “dynamic workflows” feature that allows it to tackle very large-scale problems. - 74.6% on agentic terminal coding is the biggest benchmark jump over Opus 4.7, rising from 66.1% - New “dynamic workflows” feature that allows it to tackle very large-scale problems. - The new leader on our GDPval-AA benchmark for agentic real-world work tasks The dynamic workflows in Claude Code will break a massive engineering task into many smaller jobs, run them through tens to hundreds of parallel subagents, and check the results before handing anything back. A normal coding agent works like one developer reading, editing, and testing in sequence, but dynamic workflows behave more like a temporary engineering team coordinated by Claude. Claude first writes an orchestration plan, which is basically a task map that says what needs to be inspected, rewritten, tested, reviewed, or challenged. Separate subagents then work on different parts of the repo at the same time, so one agent might inspect authentication code, another might port files, another might search for unsafe patterns, and another might try to break the proposed fix. The major change is verification, because Claude does not just collect answers from subagents, but compares them, refutes weak findings, runs checks, and keeps iterating until the results converge.

译Anthropic发布Claude Opus 4.8模型。其快速模式速度提升2.5倍,同时成本降低3倍。在agentic终端编码基准测试上,性能从66.1%大幅提升至74.6%,成为GDPval-AA基准的新领导者。新推出“动态工作流”功能,可通过Claude Code将大型工程任务分解为数十至数百个并行子任务,由多个AI智能体协同处理并互相验证。官方介绍称,该版本在判断力、诚实度以及独立工作能力上均有提升,今日起以相同价格提供服务。

Google AI Developers@googleaidevs · 5月29日71

🍌 Nano Banana Pro [gemini-3-pro-image] and Nano Banana 2 [gemini-3.1-flash-image] are now GA and ready for production via the Gemini API. Check out these great community examples to see the capabilities of both models in action 🧵↓

译🍌 Nano Banana Pro [gemini-3-pro-image] 和 Nano Banana 2 [gemini-3.1-flash-image] 现已正式发布,可通过 Gemini API 投入生产使用。查看这些优秀的社区示例,了解两个模型的实际能力 🧵↓

宝玉@dotey · 5月29日76

Anthropic 今天发布了 Claude Opus 4.8,价格和上一代 4.7 持平。https://x.com/claudeai/status/2060042709209928018/video/1 它最大的变化是更诚实了:更愿意承认自己不确定,更少为了凑个答案而硬编,对自己干到哪一步也能做出更真实的判断。跑长时间的 agent 任务时,它更像一个靠谱的工程师,不用你时时盯着。 同时上线的还有 fast mode【快速模式】,同一个模型,速度大约快 2.5 倍,价格比以前便宜了三倍。在 Claude Code 里用 /fast 打开,API 用户得找客户经理申请或排队。 【重头戏是 dynamic workflows】 跟着 Opus 4.8 一起放出来的,是 Claude Code 的新功能 dynamic workflows(动态工作流),目前是研究预览。 你给它一个大任务,它自己拆解,一次性派出几十到几百个并行的 subagent(子智能体)去干,干完会让另一批 agent 去验证,甚至专门派 agent 去挑刺,反复迭代到结果收敛,最后给你一个整合好的答案。整个过程能跑几小时甚至几天,中途断了还能接着跑。 适合的活:整个代码仓库的 bug 排查、安全审计、性能优化,以及最常见的大规模迁移,框架升级、API 替换、跨语言移植,一次涉及上千个文件那种。 Anthropic 把 Bun 用 Rust 重写当做了宣传安利。Bun 是个跑得很快的 JavaScript 运行时,创始人 Jarred Sumner 用 dynamic workflows 把整个项目从 Zig 移植到 Rust,官方说写了约 75 万行 Rust 代码,通过 99.8% 的原有测试,从第一次提交到合并只花了 11 天。 【代价:它很烧 token】 Anthropic 罕见地主动警告:dynamic workflows 消耗的 token 比普通 Claude Code 会话多得多,建议先拿小任务试水。第一次触发时,Claude Code 会先把要跑的东西摆给你看、让你确认,企业管理员也可以直接禁用。 目前 Max、Team 套餐和 API 用户默认开启,Enterprise 套餐默认关闭,要管理员手动打开。开启方式是直接让 Claude"建个 workflow",或者打开一个叫 ultracode 的开关。

译Anthropic 发布 Claude Opus 4.8,价格与 Claude Opus 4.7 持平。该模型核心改进是更诚实,能更真实地判断自身进度并承认不确定性,更适合长时间独立运行。同步推出 fast mode,在同一模型上实现约 2.5 倍速度提升且价格降低三倍。重要新功能是 Claude Code 的 dynamic workflows(动态工作流),它能将大型任务拆解,并行派出大量子智能体执行与验证,适用于跨文件的大规模代码任务。官方以用其将 Bun 从 Zig 移植到 Rust 作为案例。需注意,该功能消耗的 token 远多于普通会话。

Thariq@trq212 · 5月29日76

I think you’ll really like Opus 4.8 It’s as smart as its benchmarks show but expresses and utilizes that intelligence in a warm and collaborative way. Workflows are a great way to utilize it- I’m hooked. Article on that soon.

译我觉得你会非常喜欢 Opus 4.8。 它和基准测试显示的一样聪明,但以温暖协作的方式表达和运用这种智能。 工作流是利用它的绝佳方式——我已沉迷其中。相关文章即将推出。

OpenRouter@OpenRouter · 5月29日80

Opus 4.8 is live on OpenRouter! Same price as 4.7 with gains across agentic coding, reasoning, and computer use. Around 4x less likely than 4.7 to let code flaws pass unremarked. Opus 4.8 Fast Mode is also live - now only 2x the cost for 2.5x the speed.

译Opus 4.8 已在 OpenRouter 上线! 价格与 4.7 相同,在智能体编码、推理和计算机使用方面均有提升。 代码缺陷未被发现的概率比 4.7 低约 4 倍。 Opus 4.8 Fast Mode 也已上线——现在只需 2 倍价格,即可获得 2.5 倍速度。

AYi@AYi_AInotes · 5月29日72

Damn,Claude Opus 4.8!!! 他来了!他终于来了!!! 时隔37天 Anthropic打出了本赛季最漂亮的一次反击, 更敏锐的判断力, 更诚实的自我认知, 更长时间的独立工作, 关键是加量不加价!加量不加价!!! 伟大的Anthropic! 他继承了大语言模型的光荣传统! 在这一刻他不是一个模型在战斗! 他不是一个人!!!

译天啊,Claude Opus 4.8!!! 他来了!他终于来了!!! 时隔37天 Anthropic打出了本赛季最漂亮的一次反击, 更敏锐的判断力, 更诚实的自我认知, 更长时间的独立工作, 关键是加量不加价!加量不加价!!! 伟大的Anthropic! 他继承了大语言模型的光荣传统! 在这一刻他不是一个模型在战斗! 他不是一个人!!!

ClaudeDevs@ClaudeDevs · 5月29日83

Opus 4.8 is live in Claude Code today. A few things worth knowing: 🧵

译Opus 4.8今日已在Claude Code上线。 几点值得了解:🧵

🚨 AI News | TestingCatalog@testingcatalog · 5月29日82

ANTHROPIC 🔥: CLAUDE OPUS 4.8 IS ROLLING OUT TO ALL USERS. The release also includes an updated Thinking effort selector with Low, Medium, High, Extra, and Max options available. > Switch to Opus 4.8 for your most ambitious work - and now you can set the effort level for thoroughness or speed.

译ANTHROPIC 🔥:Claude Opus 4.8 正在向所有用户推送。 此次发布还包含更新的思考强度选择器,提供低、中、高、额外和最大选项。 > 切换到 Opus 4.8 来完成你最具雄心的工作——现在你可以设置思考强度,以平衡深度或速度。

🚨 AI News | TestingCatalog@testingcatalog · 5月29日69

ANTHROPIC 🔥: Claude Opus 4.8 achieves 69.2% score on SWE Bench Pro against 64.3% for Opus 4.7. Benchmarks 👀

译ANTHROPIC 🔥: Claude Opus 4.8 在 SWE-bench Pro 上取得 69.2% 的分数,而 Opus 4.7 为 64.3%。 Benchmarks 👀

Artificial Analysis@ArtificialAnlys · 5月29日80

Anthropic just launched Claude Opus 4.8, and it is the new leader on our GDPval-AA benchmark for agentic real-world work tasks Opus 4.8 scored 1890 on GDPval-AA at launch with its 'max' effort setting, +137 points from Opus 4.7 and +121 points ahead of the next-best model, GPT-5.5 xhigh. Compared head-to-head on the GDPval task set, this implies a ~67% win rate against GPT-5.5 xhigh. @AnthropicAI shared access with us ahead of the public release to benchmark this model and we’re glad to see our benchmarks referenced in today’s launch. The rest of the Artificial Analysis Intelligence Index is in progress - we’ll share final results soon!

译Anthropic 正式发布了 Claude Opus 4.8 模型。该模型在人工智能分析公司的 GDPval-AA 基准(专注于智能体的现实工作任务)上,以“max”努力设置获得了 1890 分。这一成绩比前代 Opus 4.7 高出 137 分,并以 121 分的优势领先于次优模型 GPT-5.5 xhigh。在直接对比中,这意味着 Opus 4.8 对 GPT-5.5 xhigh 拥有约 67% 的胜率。Anthropic 在模型公开发布前,为人工智能分析公司提供了早期访问权限以进行评测。

Chubby♨️@kimmonismus · 5月29日75

Opus 4.8 is live! Even in Germany!!

译Opus 4.8 已上线!甚至在德国也能用了!!

Chubby♨️@kimmonismus · 5月29日83

Opus 4.8 is live. Benchmarks especially significant jump in Agentic coding, but more important: „Fast mode is available for Opus 4.8. It's the same model at roughly 2.5x the speed, and we've made it three times cheaper than before.“

译Opus 4.8 已上线。基准测试显示其在智能体编码方面有显著提升,但更重要的是: “Opus 4.8 现已提供快速模式。这是同一个模型,速度提升约 2.5 倍,且价格比之前降低了三倍。”

Chubby♨️@kimmonismus · 5月29日70

Thank god! I can turn off adaptive thinking and set reasoning effort myself. Finally!

译太好了!我可以关闭自适应思考并自行设置推理强度了。 终于!

Chubby♨️@kimmonismus · 5月29日51

„4.8 understands nuances better, feels much more natural to talk to, and is overall a stronger collaborator on everything from coding to knowledge work.“ So big. Is 4.8 being our good old friend 4.6 just better?? Testing time

译Anthropic发布了Claude Opus 4.8版本。据官方(@alexalbert__)介绍,这是基于用户对4.7版本反馈的改进,重点修复了问题。4.8模型在理解细微差别方面表现更好,对话感觉更自然,在编程(coding)到知识工作(knowledge work)等各种任务中都是更强大的协作者。

Yuchen Jin@Yuchenj_UW · 5月29日62

Opus 4.8 is out. God damn!

译Opus 4.8 发布了。 天啊!

Yuchen Jin@Yuchenj_UW · 5月29日72

Opus 4.8 scores 69.2% on SWE-Bench Pro, 10 points higher than GPT-5.5. Most interesting part of the release blog is “Dynamic Workflows”: “This new feature, available in research preview, allows Claude to take on even bigger tasks in Claude Code. Claude can plan the work and then run hundreds of parallel subagents in a single session (and with Opus 4.8, the agents can run for even longer). It then verifies its outputs before reporting back to the user.”

译Opus 4.8在SWE-Bench Pro上得分69.2%,比GPT-5.5高出10分。 发布博客中最有趣的部分是“动态工作流”: “这项新功能(目前处于研究预览阶段)允许Claude在Claude Code中承担更大的任务。Claude可以规划工作,然后在单个会话中运行数百个并行子智能体(使用Opus 4.8时,智能体可以运行更长时间)。它在向用户报告之前会先验证其输出。”

Ethan Mollick@emollick · 5月29日57

I had early access to Opus 4.8. Was impressed by it. Here is Opus 4.8's one shot of "create a visually interesting shader that can run in twigl, make it like an infinite city of neo-gothic towers partially drowned in a stormy ocean with large waves" (this is all done with math)

译Opus 4.8与GPT-5.2 Pro在相同任务上展示了其代码生成能力。两者均通过“一次性生成”(single shot)的方式,为twigl平台创建可运行的视觉shader。具体任务为:用数学生成一个“无限的新哥特式塔楼城市部分淹没于巨浪汹涌的暴风雨海洋中”的场景。这则推文通过并列展示,体现了两个顶级大语言模型在创意编程领域的直接对比。

Claude@claudeai · 5月29日82

Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the ability to work independently for longer than its predecessors. Available today at the same price.

译介绍 Claude Opus 4.8:它在 Opus 4.7 基础上,拥有更敏锐的判断力、对自身进展更诚实,并且能比前代更长时间独立工作。 今日发布,价格不变。

swyx@swyx · 5月29日67

"Developers can update Claude’s instructions mid-task without breaking the prompt cache or routing the update through a user turn" wtf? how??

译开发者可以在任务执行过程中更新Claude的指令,而不会破坏提示词缓存或需要通过用户轮次来传递更新。

AYi@AYi_AInotes · 5月29日46

Damn!实锤了! Claude桌面端代码模型选择器里,已经偷偷出现Opus 4.8了! 憋了这么久,难道今晚要来个偷袭发布吗🤔

译Claude桌面端代码模型选择器中已出现“Opus 4.8”选项。用户据此推测,新版本可能即将迎来偷袭式发布。

Chubby♨️@kimmonismus · 5月29日70

Let’s go: so it’s opus 4.8 plus codex update!

译来吧:是Opus 4.8加上Codex更新!

SenseTime@SenseTime_AI · 5月29日65

𝗛𝗼𝘄 𝗼𝘂𝗿 𝘂𝗽𝗴𝗿𝗮𝗱𝗲𝗱 𝗶𝗻𝗳𝗼𝗴𝗿𝗮𝗽𝗵𝗶𝗰 𝗴𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻 𝗺𝗼𝗱𝗲𝗹 — 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮-𝗨𝟭-𝟴𝗕-𝗠𝗼𝗧-𝗜𝗻𝗳𝗼𝗴𝗿𝗮𝗽𝗵𝗶𝗰 — 𝗱𝗲𝗹𝗶𝘃𝗲𝗿𝘀 𝗲𝘃𝗲𝗻 𝘀𝘁𝗿𝗼𝗻𝗴𝗲𝗿 𝗰𝗮𝗽𝗮𝗯𝗶𝗹𝗶𝘁𝗶𝗲𝘀 💪 • 𝗧𝗲𝘅𝘁 𝗮𝗰𝗰𝘂𝗿𝗮𝗰𝘆 & 𝗿𝗲𝗮𝗱𝗮𝗯𝗶𝗹𝗶𝘁𝘆 enhanced — reduced repetition, avoided unnatural enlargement, and stronger support for small fonts • 𝗟𝗮𝘆𝗼𝘂𝘁 𝗰𝗼𝗻𝘀𝗶𝘀𝘁𝗲𝗻𝗰𝘆 & 𝗿𝗮𝘁𝗶𝗼𝗻𝗮𝗹𝗶𝘁𝘆 improved, with more stable backgrounds • 𝗖𝗵𝗮𝗿𝘁 & 𝗱𝗶𝗮𝗴𝗿𝗮𝗺 𝗾𝘂𝗮𝗹𝗶𝘁𝘆 elevated • 𝗔𝗰𝗮𝗱𝗲𝗺𝗶𝗰 𝗿𝗲𝗻𝗱𝗲𝗿𝗶𝗻𝗴 supported Try it out: 🥰 https://huggingface.co/sensenova/SenseNova-U1-8B-MoT-Infographic 🖼 Showcases: https://github.com/OpenSenseNova/SenseNova-U1/blob/main/docs/u1_infographic_showcases.md 👾 Discord: https://discord.gg/BuTXPHmQub @huggingface @github

译SenseNova-U1-8B-MoT-Infographic 是一个升级后的8B参数信息图表生成模型。其核心提升在于:增强了文本的准确性与可读性,减少了重复和不自然的放大;改进了布局的一致性与合理性,背景更稳定;提升了图表与示意图的渲染质量;并新增了学术内容的渲染支持。

Xiaomi MiMo@XiaomiMiMo · 5月28日69

MiMo-V2.5 is now available in OpenCode — free for a limited time. 🎉

译MiMo-V2.5现已在OpenCode上线——限时免费。🎉 [引用 @opencode]:OpenCode x MiMo V2.5 - 限时免费 1M上下文 • 推理 • 文本 • 图像

SenseTime@SenseTime_AI · 5月28日68

𝗛𝗼𝘄 𝗼𝘂𝗿 𝘂𝗽𝗴𝗿𝗮𝗱𝗲𝗱 𝗶𝗻𝗳𝗼𝗴𝗿𝗮𝗽𝗵𝗶𝗰 𝗴𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻 𝗺𝗼𝗱𝗲𝗹 — 𝗦𝗲𝗻𝘀𝗲𝗡𝗼𝘃𝗮-𝗨𝟭-𝟴𝗕-𝗠𝗼𝗧-𝗜𝗻𝗳𝗼𝗴𝗿𝗮𝗽𝗵𝗶𝗰 — 𝗱𝗲𝗹𝗶𝘃𝗲𝗿𝘀 𝗲𝘃𝗲𝗻 𝘀𝘁𝗿𝗼𝗻𝗴𝗲𝗿 𝗰𝗮𝗽𝗮𝗯𝗶𝗹𝗶𝘁𝗶𝗲𝘀 💪 • 𝗧𝗲𝘅𝘁 𝗮𝗰𝗰𝘂𝗿𝗮𝗰𝘆 & 𝗿𝗲𝗮𝗱𝗮𝗯𝗶𝗹𝗶𝘁𝘆 enhanced — reduced repetition, avoided unnatural enlargement, and stronger support for small fonts • 𝗟𝗮𝘆𝗼𝘂𝘁 𝗰𝗼𝗻𝘀𝗶𝘀𝘁𝗲𝗻𝗰𝘆 & 𝗿𝗮𝘁𝗶𝗼𝗻𝗮𝗹𝗶𝘁𝘆 improved, with more stable backgrounds • 𝗖𝗵𝗮𝗿𝘁 & 𝗱𝗶𝗮𝗴𝗿𝗮𝗺 𝗾𝘂𝗮𝗹𝗶𝘁𝘆 elevated • 𝗔𝗰𝗮𝗱𝗲𝗺𝗶𝗰 𝗿𝗲𝗻𝗱𝗲𝗿𝗶𝗻𝗴 supported Try it out: 🥰 https://huggingface.co/sensenova/SenseNova-U1-8B-MoT-Infographic 🖼 Showcases: https://github.com/OpenSenseNova/SenseNova-U1/blob/main/docs/u1_infographic_showcases.md 👾 Discord: https://discord.gg/BuTXPHmQub @huggingface @github

译商汤科技介绍了其升级后的信息图生成模型 SenseNova-U1-8B-MoT-Infographic。该模型参数为8B,在四个关键维度进行了优化:文本准确性与可读性增强,减少了重复和不当放大;布局的一致性与合理性提升,背景更稳定;图表与示意图的质量提高;并新增了学术内容的渲染支持。推文提供了在 Hugging Face 上的模型页面链接及能力展示页面。

🚨 AI News | TestingCatalog@testingcatalog · 5月28日62

ANTHROPIC 🔥: Claude Opus 4.8 has been spotted in the source code. Would it drop today? 👀

译ANTHROPIC 🔥:Claude Opus 4.8 已在源代码中被发现。 它会在今天发布吗?👀

Chubby♨️@kimmonismus · 5月28日56

Microsoft is launching homegrown AI models at Build next week, positioned as cheaper alternatives to OpenAI and Anthropic. Buried in the reporting: relying on Anthropic's Claude forced Microsoft to raise GitHub Copilot prices and cap how much developers could actually use it. They get OpenAI's models free through 2032 but are spending billions to not need them when that expires. Suleyman's team hasn't topped a single leaderboard in two year, the explanation being that Microsoft's OpenAI deal restricted him from training frontier models until April. Convenient timing for a launch. Via The Information Anyways, really excited for Microsoft Build next week. Ill attend in person.

译微软计划在下周的 Build 大会上发布其自研 AI 模型,旨在成为 OpenAI 和 Anthropic 的更廉价替代方案。据报道,依赖 Anthropic 的 Claude 迫使微软提高了 GitHub Copilot 的价格并限制了开发者的实际使用量。尽管通过协议在 2032 年前可免费使用 OpenAI 模型,但微软正投入巨资以期在协议到期后减少依赖。负责 AI 模型的 Suleyman 团队两年来未在任何基准测试中领先,其解释称是受与 OpenAI 的协议限制,直至今年四月才可训练前沿模型。此次发布时机值得关注。

Chubby♨️@kimmonismus · 5月28日66

HOLY, here we go: Opus 4.8 in the claude code model selector on the desctop app. Looks like its release day!!

译天啊,来了:Opus 4.8 出现在桌面应用的 Claude Code 模型选择器里了。 看起来今天就是发布日!!

Chubby♨️@kimmonismus · 5月28日32

What?! Opus 4.8 incoming?! Holy

译什么?!Opus 4.8 要来了?!天啊

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月29日
08:39
StepFun@StepFun_ai
64
SGLang宣布其推理框架现已对阶跃星辰(StepFun AI)的新模型Step 3.7 Flash提供Day-0支持。该模型是一个专为高吞吐量智能体工作负载设计的198B稀疏MoE视觉语言模型,具备原生多模态感知能力。它在SimpleVQA评测中以79.2分排名第一,V*得分为95.3。在智能体工作流方面,它在ClawEval-1.1上以67.1分领先,展现出可靠的长期工具编排能力;在软件工程任务中,于SWE-Bench PRO上以56.3分位列第二。模型支持256K上下文,并提供3种推理级别以平衡速度、成本与深度。

LMSYS Org: 🎉 Meet Step 3.7 Flash from @StepFun_ai, a 198B sparse MoE vision-language model built for high-throughput agentic workl...

智能体多模态模型发布编码
08:39
StepFun@StepFun_ai
79
阶跃星辰发布了 Step-3.7-Flash 模型,vLLM 在模型发布当天即提供支持。该模型是一个 198B 参数的稀疏 MoE 视觉语言模型,每个 token 约有 11B 激活参数,支持原生图像与文本输入。其上下文窗口达到 256K,适用于长文档、多文件代码库及密集视觉界面。模型提供 FP8 和 NVFP4 量化权重版本,并内置 MTP 推测解码、原生工具调用及推理解析功能。

vLLM: 🎉 Congrats to @StepFun_ai on releasing Step-3.7-Flash, with day-0 support in vLLM. - 198B sparse MoE vision-language mo...

多模态推理模型发布部署/工程
关联讨论 4 条X:阶跃星辰 StepFun (@StepFun_ai)X:OpenRouter (@OpenRouter)IT之家(RSS)公众号:阶跃星辰(Step)
08:09
StepFun@StepFun_ai
75
阶跃星辰 Step 3.7 Flash 发布,聚焦智能体效率

阶跃星辰(Step)发布了开源大模型 Step 3.7 Flash,主打智能体(Agent)工作流的效率。该模型在 ClawEval-1.1(67.1分)和 SimpleVQA Search(79.2分)评测中排名第一。其架构为 198B 参数的 MoE,约 11B 为活跃参数,支持 256K 上下文。模型具备多模态理解能力,能处理图像、文档并生成代码或调用工具执行任务。在工具使用方面,它致力于高可靠性,τ²-bench 得分超过 98%。Step 3.7 Flash 兼容 Claude Code、MCP 协议等工具链,并支持在 Mac Studio M4 Max 等设备上本地运行。模型权重以 Apache 2.0 许可开源。

智能体多模态开源生态推理
关联讨论 4 条X:阶跃星辰 StepFun (@StepFun_ai)X:OpenRouter (@OpenRouter)IT之家(RSS)公众号:阶跃星辰(Step)
07:40
ginobefun@hongming731
78
Anthropic 连发三弹:模型、融资、智能体框架全面升级

Anthropic 同日发布三项重要进展。旗舰模型 Claude Opus 4.8 在代码与诚实度方面提升显著,代码能力与回答诚实度提升四倍。公司完成 650 亿美元 H 轮融资,估值逼近万亿美元。此外,Claude Code 推出动态工作流,支持在单次会话中调度数百个并行子智能体以处理超大规模任务。

AnthropicMCP/工具模型发布编码
关联讨论 6 条Anthropic:Newsroom(网页)TechCrunch:AI(RSS)Hacker News 热门(buzzing.cc 中文翻译)The Decoder:AI News(RSS)MarkTechPost(RSS)X:邵猛 (@shao__meng)
07:40
ginobefun@hongming731
76
Anthropic 发布 Claude Opus 4.8

Anthropic 发布旗舰大语言模型 Claude Opus 4.8,作为 Opus 4.7 的全面升级版,其在编程、智能体、推理和知识工作等基准测试中均超越前代。最显著的改进是模型诚实度大幅提升,对自身有缺陷代码视而不见的概率降低约四倍。同步推出三项新功能:Claude Code 支持动态工作流,可启动并行子智能体处理复杂任务;claude.ai 提供“努力控制”功能,允许用户调整模型思考深度;API 支持任务执行中实时更新指令。早期测试者反馈模型在判断力和可靠性上改善明显,价格与 Opus 4.7 保持一致。

Claude: Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...

Anthropic推理模型发布编码
关联讨论 6 条Anthropic:Newsroom(网页)TechCrunch:AI(RSS)Hacker News 热门(buzzing.cc 中文翻译)The Decoder:AI News(RSS)MarkTechPost(RSS)X:邵猛 (@shao__meng)
06:18
Artificial Analysis@ArtificialAnlys
79
Claude Opus 4.8重夺Artificial Analysis智能指数第一

Anthropic发布Claude Opus 4.8,在Artificial Analysis智能指数上以61.4分超越GPT-5.5(xhigh)1.2分,重新登顶。该模型在真实世界智能体任务和前沿学术推理上均有提升,在主要智能体评测GDPval-AA上以1890 Elo分取得约67%的胜率。在科学推理方面,Claude首次在Humanity's Last Exam基准上领先OpenAI和Google。其模型幻觉率维持在35.9%,显著低于竞品。上下文窗口仍为100万token,定价为输入$5、输出$25每百万token。

智能体Anthropic推理模型发布
关联讨论 6 条Anthropic:Newsroom(网页)TechCrunch:AI(RSS)Hacker News 热门(buzzing.cc 中文翻译)The Decoder:AI News(RSS)MarkTechPost(RSS)X:邵猛 (@shao__meng)
05:49
🚨 AI News | TestingCatalog@testingcatalog
63
Google 宣布 Nano Banana 2 和 Nano Banana Pro 模型现已通过 API 达到通用可用状态。其中,Nano Banana 2 新增了支持将视频文件作为输入提示的功能。在输出方面,两款模型的 1K 和 2K 输出能力已正式发布,而 4K 输出功能仍处于预览阶段。达到通用可用意味着这些模型由企业级的基础设施和安全体系提供支持。它们可通过 Gemini Enterprise Agent Platform 集成,使开发者能够将高质量的图像生成与编辑功能整合到其应用与工作流中。

Thomas Kurian: Nano Banana 2 and Nano Banana Pro are now generally available via Gemini Enterprise Agent Platform. Backed by enterprise...

Google图像生成多模态模型发布
03:18
Artificial Analysis@ArtificialAnlys
64
xAI发布新图像模型grok-imagine-image-quality,榜单排名第五且价格更具竞争力

xAI发布了新图像模型grok-imagine-image-quality。该模型在Artificial Analysis的文本生成图像与图像编辑两个榜单中均位列第五,是除OpenAI与Google外排名最高的模型。它支持2K($70/1k images)和1K($50/1k images)两种输出分辨率,编辑功能最多支持3张参考图。其定价显著低于主要竞品:GPT Image 2为$211/1k images,Nano Banana Pro为$134/1k images,但高于xAI自身的标准版模型grok-imagine-image($20/1k images)。该模型已通过xAI原生API、Grok应用及第三方API提供服务。

xAI图像生成模型发布
02:42
Google AI Developers@googleaidevs
71
🍌 Nano Banana Pro 【gemini-3-pro-image】 和 Nano Banana 2 【gemini-3.1-flash-image】 现已正式发布,可通过 Gemini API 投入生产使用。查看这些优秀的社区示例,了解两个模型的实际能力 🧵↓
Google图像生成模型发布
01:51
Boris Cherny@bcherny
88
Claude Opus 4.8今日发布。这是我们迄今最强的编码模型:在SWE-bench Pro上得分提升(从64.3到69.2),并且对自己的工作更加诚实。它会在不确定时告诉你,并能发现自己的错误,而不是过早宣布成功。价格与4.7版相同。

Claude: Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...

Anthropic模型发布编码
关联讨论 6 条Anthropic:Newsroom(网页)TechCrunch:AI(RSS)Hacker News 热门(buzzing.cc 中文翻译)The Decoder:AI News(RSS)MarkTechPost(RSS)X:邵猛 (@shao__meng)
01:44
Chubby♨️@kimmonismus
53
太棒了!!"Mythos级模型将在未来几周内向所有用户开放"!! 天啊,我们正在加速!!

Chubby♨️: Thank god! I can turn off adaptive thinking and set reasoning effort myself. Finally!

推理模型发布
01:44
Chubby♨️@kimmonismus
66
字节跳动开源多模态模型BAGEL,单一7B参数模型即可执行图像生成、编辑、风格转换与视觉理解,采用Apache 2.0许可。引用推文显示,该公司此前已发布首个去中心化训练的视频生成模型Paris 2.0,其在FVD基准上性能约为同等数据与算力单体模型的2倍。

bidhan: We're releasing Paris 2.0, which, to our knowledge, is the world's first decentralized trained video generation model. W...

多模态开源生态模型发布
01:44
Rohan Paul@rohanpaul_ai
76
Claude Opus 4.8发布,性能显著提升并推出"动态工作流"

Anthropic发布Claude Opus 4.8模型。其快速模式速度提升2.5倍,同时成本降低3倍。在agentic终端编码基准测试上,性能从66.1%大幅提升至74.6%,成为GDPval-AA基准的新领导者。新推出“动态工作流”功能,可通过Claude Code将大型工程任务分解为数十至数百个并行子任务,由多个AI智能体协同处理并互相验证。官方介绍称,该版本在判断力、诚实度以及独立工作能力上均有提升,今日起以相同价格提供服务。

Claude: Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...

智能体Anthropic模型发布编码
关联讨论 6 条Anthropic:Newsroom(网页)TechCrunch:AI(RSS)Hacker News 热门(buzzing.cc 中文翻译)The Decoder:AI News(RSS)MarkTechPost(RSS)X:邵猛 (@shao__meng)
01:42
Google AI Developers@googleaidevs
精选71
🍌 Nano Banana Pro 【gemini-3-pro-image】 和 Nano Banana 2 【gemini-3.1-flash-image】 现已正式发布,可通过 Gemini API 投入生产使用。查看这些优秀的社区示例,了解两个模型的实际能力 🧵↓
Google图像生成模型发布

推荐理由:Google 把 Gemini 图像生成能力打包进 Nano Banana 系列并正式 GA,开发者现在可以稳定调用 Pro 和 Flash 级别的生图 API,对做图像应用的团队是个实在利好。
01:38
宝玉@dotey
76
Anthropic 发布 Claude Opus 4.8,推出 fast mode 与 dynamic workflows

Anthropic 发布 Claude Opus 4.8,价格与 Claude Opus 4.7 持平。该模型核心改进是更诚实,能更真实地判断自身进度并承认不确定性,更适合长时间独立运行。同步推出 fast mode,在同一模型上实现约 2.5 倍速度提升且价格降低三倍。重要新功能是 Claude Code 的 dynamic workflows(动态工作流),它能将大型任务拆解,并行派出大量子智能体执行与验证,适用于跨文件的大规模代码任务。官方以用其将 Bun 从 Zig 移植到 Rust 作为案例。需注意,该功能消耗的 token 远多于普通会话。

Claude: Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...

智能体Anthropic模型发布编码
关联讨论 6 条Anthropic:Newsroom(网页)TechCrunch:AI(RSS)Hacker News 热门(buzzing.cc 中文翻译)The Decoder:AI News(RSS)MarkTechPost(RSS)X:邵猛 (@shao__meng)
01:36
Thariq@trq212
76
我觉得你会非常喜欢 Opus 4.8。 它和基准测试显示的一样聪明,但以温暖协作的方式表达和运用这种智能。 工作流是利用它的绝佳方式--我已沉迷其中。相关文章即将推出。

Claude: Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...

Anthropic推理模型发布
关联讨论 6 条Anthropic:Newsroom(网页)TechCrunch:AI(RSS)Hacker News 热门(buzzing.cc 中文翻译)The Decoder:AI News(RSS)MarkTechPost(RSS)X:邵猛 (@shao__meng)
01:36
OpenRouter@OpenRouter
80
Opus 4.8 已在 OpenRouter 上线! 价格与 4.7 相同,在智能体编码、推理和计算机使用方面均有提升。 代码缺陷未被发现的概率比 4.7 低约 4 倍。 Opus 4.8 Fast Mode 也已上线--现在只需 2 倍价格,即可获得 2.5 倍速度。
智能体Anthropic推理模型发布
关联讨论 6 条Anthropic:Newsroom(网页)TechCrunch:AI(RSS)Hacker News 热门(buzzing.cc 中文翻译)The Decoder:AI News(RSS)MarkTechPost(RSS)X:邵猛 (@shao__meng)
01:31
AYi@AYi_AInotes
72
Claude Opus 4.8发布:更敏锐更诚实更持久

天啊,Claude Opus 4.8!!! 他来了!他终于来了!!! 时隔37天 Anthropic打出了本赛季最漂亮的一次反击, 更敏锐的判断力, 更诚实的自我认知, 更长时间的独立工作, 关键是加量不加价!加量不加价!!! 伟大的Anthropic! 他继承了大语言模型的光荣传统! 在这一刻他不是一个模型在战斗! 他不是一个人!!!

Claude: Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...

Anthropic模型发布
01:19
ClaudeDevs@ClaudeDevs
83
Opus 4.8今日已在Claude Code上线。 几点值得了解:🧵

Claude: Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...

Anthropic推理模型发布编码
关联讨论 6 条Anthropic:Newsroom(网页)TechCrunch:AI(RSS)Hacker News 热门(buzzing.cc 中文翻译)The Decoder:AI News(RSS)MarkTechPost(RSS)X:邵猛 (@shao__meng)
01:19
🚨 AI News | TestingCatalog@testingcatalog
82
ANTHROPIC 🔥:Claude Opus 4.8 正在向所有用户推送。 此次发布还包含更新的思考强度选择器,提供低、中、高、额外和最大选项。 > 切换到 Opus 4.8 来完成你最具雄心的工作--现在你可以设置思考强度,以平衡深度或速度。
Anthropic推理模型发布
关联讨论 6 条Anthropic:Newsroom(网页)TechCrunch:AI(RSS)Hacker News 热门(buzzing.cc 中文翻译)The Decoder:AI News(RSS)MarkTechPost(RSS)X:邵猛 (@shao__meng)
01:19
🚨 AI News | TestingCatalog@testingcatalog
69
ANTHROPIC 🔥: Claude Opus 4.8 在 SWE-bench Pro 上取得 69.2% 的分数,而 Opus 4.7 为 64.3%。 Benchmarks 👀

🚨 AI News | TestingCatalog: ANTHROPIC 🔥: CLAUDE OPUS 4.8 IS ROLLING OUT TO ALL USERS. The release also includes an updated Thinking effort selector...

Anthropic推理模型发布评测/基准
01:18
Artificial Analysis@ArtificialAnlys
80
Anthropic 发布 Claude Opus 4.8,成为 GDPval-AA 基准新领导者

Anthropic 正式发布了 Claude Opus 4.8 模型。该模型在人工智能分析公司的 GDPval-AA 基准(专注于智能体的现实工作任务)上,以“max”努力设置获得了 1890 分。这一成绩比前代 Opus 4.7 高出 137 分,并以 121 分的优势领先于次优模型 GPT-5.5 xhigh。在直接对比中,这意味着 Opus 4.8 对 GPT-5.5 xhigh 拥有约 67% 的胜率。Anthropic 在模型公开发布前,为人工智能分析公司提供了早期访问权限以进行评测。

智能体Anthropic模型发布评测/基准
关联讨论 6 条Anthropic:Newsroom(网页)TechCrunch:AI(RSS)Hacker News 热门(buzzing.cc 中文翻译)The Decoder:AI News(RSS)MarkTechPost(RSS)X:邵猛 (@shao__meng)
01:14
Chubby♨️@kimmonismus
75
Opus 4.8 已上线!甚至在德国也能用了!!
Anthropic推理模型发布
关联讨论 6 条Anthropic:Newsroom(网页)TechCrunch:AI(RSS)Hacker News 热门(buzzing.cc 中文翻译)The Decoder:AI News(RSS)MarkTechPost(RSS)X:邵猛 (@shao__meng)
01:14
Chubby♨️@kimmonismus
83
Opus 4.8 已上线。基准测试显示其在智能体编码方面有显著提升,但更重要的是: "Opus 4.8 现已提供快速模式。这是同一个模型,速度提升约 2.5 倍,且价格比之前降低了三倍。"

Claude: Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...

智能体Anthropic模型发布
关联讨论 6 条Anthropic:Newsroom(网页)TechCrunch:AI(RSS)Hacker News 热门(buzzing.cc 中文翻译)The Decoder:AI News(RSS)MarkTechPost(RSS)X:邵猛 (@shao__meng)
01:14
Chubby♨️@kimmonismus
70
太好了!我可以关闭自适应思考并自行设置推理强度了。 终于!

Chubby♨️: Opus 4.8 is live! Even in Germany!!

Anthropic推理模型发布
01:14
Chubby♨️@kimmonismus
51
Anthropic发布了Claude Opus 4.8版本。据官方(@alexalbert__)介绍,这是基于用户对4.7版本反馈的改进,重点修复了问题。4.8模型在理解细微差别方面表现更好,对话感觉更自然,在编程(coding)到知识工作(knowledge work)等各种任务中都是更强大的协作者。

Alex Albert: Excited to release Opus 4.8 today! We heard your feedback on 4.7 and have made many fixes for 4.8. 4.8 understands nuanc...

Anthropic大佬观点模型发布
01:12
Yuchen Jin@Yuchenj_UW
62
Opus 4.8 发布了。 天啊!
Anthropic模型发布
01:12
Yuchen Jin@Yuchenj_UW
72
Opus 4.8在SWE-Bench Pro上得分69.2%,比GPT-5.5高出10分。 发布博客中最有趣的部分是"动态工作流": "这项新功能(目前处于研究预览阶段)允许Claude在Claude Code中承担更大的任务。Claude可以规划工作,然后在单个会话中运行数百个并行子智能体(使用Opus 4.8时,智能体可以运行更长时间)。它在向用户报告之前会先验证其输出。"
智能体Anthropic模型发布编码
01:12
Ethan Mollick@emollick
57
Opus 4.8与GPT-5.2 Pro在相同任务上展示了其代码生成能力。两者均通过"一次性生成"(single shot)的方式,为twigl平台创建可运行的视觉shader。具体任务为:用数学生成一个"无限的新哥特式塔楼城市部分淹没于巨浪汹涌的暴风雨海洋中"的场景。这则推文通过并列展示,体现了两个顶级大语言模型在创意编程领域的直接对比。

Ethan Mollick: Had early access to GPT-5.2. Its an impressive model. Here is GPT 5.2 Pro's version of "create a visually interesting sh...

Anthropic多模态模型发布
01:06
Claude@claudeai
82
介绍 Claude Opus 4.8:它在 Opus 4.7 基础上,拥有更敏锐的判断力、对自身进展更诚实,并且能比前代更长时间独立工作。 今日发布,价格不变。
Anthropic推理模型发布
关联讨论 6 条Anthropic:Newsroom(网页)TechCrunch:AI(RSS)Hacker News 热门(buzzing.cc 中文翻译)The Decoder:AI News(RSS)MarkTechPost(RSS)X:邵猛 (@shao__meng)
01:06
swyx@swyx
67
开发者可以在任务执行过程中更新Claude的指令,而不会破坏提示词缓存或需要通过用户轮次来传递更新。

Claude: Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...

Anthropic推理模型发布
00:31
AYi@AYi_AInotes
46
Claude桌面端代码模型选择器中已出现"Opus 4.8"选项。用户据此推测,新版本可能即将迎来偷袭式发布。

AYi: http://x.com/i/article/2057668634579714048

Anthropic模型发布
00:13
Chubby♨️@kimmonismus
70
来吧:是Opus 4.8加上Codex更新!

Gabriel Chua: CODEX

Anthropic推理模型发布
00:06
SenseTime@SenseTime_AI
同事件精选65
SenseNova信息图表生成模型升级:文本、布局与图表质量全面增强

SenseNova-U1-8B-MoT-Infographic 是一个升级后的8B参数信息图表生成模型。其核心提升在于:增强了文本的准确性与可读性,减少了重复和不自然的放大;改进了布局的一致性与合理性,背景更稳定;提升了图表与示意图的渲染质量;并新增了学术内容的渲染支持。

Hugging Face图像生成多模态模型发布
同一事件,精选展示《商汤发布信息图生成模型升级,增强多项核心能力》
推荐理由:商汤这个8B信息图生成模型升级了,文本和布局都更稳,对常做数据图表和学术配图的人算个实用的小迭代,没有到改变游戏规则的程度。
5月28日
23:38
Xiaomi MiMo@XiaomiMiMo
同事件精选69
MiMo-V2.5现已在OpenCode上线--限时免费。🎉 【引用 @opencode】:OpenCode x MiMo V2.5 - 限时免费 1M上下文 • 推理 • 文本 • 图像

OpenCode: OpenCode x MiMo V2.5 - Free for a limited time 1M context • reasoning • text • image

多模态推理模型发布
同一事件,精选展示《小米 MiMo 与 TileRT 联合发布 UltraSpeed 模式,1T 模型输出突破 1000 tokens/s》
推荐理由:MiMo-V2.5在OpenCode免费开放,1M上下文加多模态推理,小米的模型迭代不算大新闻,但趁免费白嫖一下国产模型的机会别错过。如果你正在选型,跑个分试试。
23:36
SenseTime@SenseTime_AI
精选68
商汤发布信息图生成模型升级,增强多项核心能力

商汤科技介绍了其升级后的信息图生成模型 SenseNova-U1-8B-MoT-Infographic。该模型参数为8B,在四个关键维度进行了优化:文本准确性与可读性增强,减少了重复和不当放大;布局的一致性与合理性提升,背景更稳定;图表与示意图的质量提高;并新增了学术内容的渲染支持。推文提供了在 Hugging Face 上的模型页面链接及能力展示页面。

图像生成模型发布
关联讨论 1 条X:商汤 SenseTime (@SenseTime_AI)
推荐理由:信息图生成赛道又出新货,商汤这次把文本渲染和布局稳定性真正做好了,做学术图表或运营配图的人可以直接去HuggingFace试用,效果肉眼可见的提升。
23:18
🚨 AI News | TestingCatalog@testingcatalog
62
ANTHROPIC 🔥:Claude Opus 4.8 已在源代码中被发现。 它会在今天发布吗?👀

Tensor: Opus 4.8 has been found staged in the claude code model selector on the desktop app. It should be releasing today! lets ...

Anthropic模型发布
22:42
Chubby♨️@kimmonismus
56
微软将于 Build 大会发布自研 AI 模型,定位为更廉价替代品

微软计划在下周的 Build 大会上发布其自研 AI 模型,旨在成为 OpenAI 和 Anthropic 的更廉价替代方案。据报道,依赖 Anthropic 的 Claude 迫使微软提高了 GitHub Copilot 的价格并限制了开发者的实际使用量。尽管通过协议在 2032 年前可免费使用 OpenAI 模型,但微软正投入巨资以期在协议到期后减少依赖。负责 AI 模型的 Suleyman 团队两年来未在任何基准测试中领先,其解释称是受与 OpenAI 的协议限制,直至今年四月才可训练前沿模型。此次发布时机值得关注。

Microsoft模型发布行业动态
22:12
Chubby♨️@kimmonismus
66
天啊,来了:Opus 4.8 出现在桌面应用的 Claude Code 模型选择器里了。 看起来今天就是发布日!!

Tensor: Opus 4.8 has been found staged in the claude code model selector on the desktop app. It should be releasing today! lets ...

智能体Anthropic模型发布
18:10
Chubby♨️@kimmonismus
32
什么?!Opus 4.8 要来了?!天啊

leo 🐾: happy claude opus 4.8 day to those who celebrate

Anthropic模型发布
‹ 上一页
1…1213141516…25
下一页 ›