AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 980 条
全部一手资讯X论文
标签「模型发布」清除
MiniMax (official)@MiniMax_AI · 6月1日76

M3 on @OpenRouter same day we dropped it 🔥. 1M context, frontier coding + agentic, native multimodal. 50% off the first week.

译M3在我们发布当天就登陆了OpenRouter 🔥。 100万token上下文,前沿编码+智能体能力,原生多模态。首周半价。

MiniMax (official)@MiniMax_AI · 6月1日71

M3 on @AskVenice, available anonymously 🔥 open-weight, frontier coding + agentic, 1M context, native multimodal. Live on day one

译M3现已在@AskVenice上线,支持匿名使用🔥 开源权重,前沿编码与智能体能力,1M上下文,原生多模态。 首日即上线

MiniMax (official)@MiniMax_AI · 6月1日74

Happy Children’s Day with a huge M3 drop!

译儿童节快乐,M3模型重磅发布!

OpenRouter@OpenRouter · 6月1日79

MiniMax-M3 is live on OpenRouter! A frontier-class open-weight model that combines a 1M-token context window, frontier coding and agentic performance, and native multimodality (image & video) in one model.

译MiniMax-M3现已在OpenRouter上线! 一款前沿级开源权重模型,结合了1M-token上下文窗口、前沿的编码和智能体性能,以及原生多模态(图像与视频)能力。

elvis@omarsar0 · 6月1日46

MiniMax M3 imminent. Will be doing deep testing with it on my own coding agent and harness. Review coming soon.

译MiniMax M3 即将发布。 我将用自己的编码智能体和测试框架对其进行深度测试。 评测即将推出。

MiniMax (official)@MiniMax_AI · 6月1日79

Introducing MiniMax M3: The First Open-Weights Model to Combine Three Frontier Capabilities - Coding & Agentic Frontier: 59.0% SWE-Bench Pro, 66.0% Terminal Bench 2.1, 34.8% SWE-fficiency, 28.8% KernelBench Hard, 74.2% MCP Atlas - MiniMax Sparse Attention scales context to 1M - Natively Multimodal from Step Zero API: http://platform.minimax.io Token Plan: https://platform.minimax.io/subscribe/token-plan 🚀New! MiniMax Code: http://code.minimax.io Weights & Tech Report in ~10 Days

译介绍 MiniMax M3:首个融合三大前沿能力的开源权重模型 - 编码与智能体前沿:59.0% SWE-Bench Pro,66.0% Terminal Bench 2.1,34.8% SWE-fficiency,28.8% KernelBench Hard,74.2% MCP Atlas - MiniMax Sparse Attention 将上下文窗口扩展至 1M - 从零开始原生多模态 API:http://platform.minimax.io Token 计划:https://platform.minimax.io/subscribe/token-plan 🚀新!MiniMax Code:http://code.minimax.io 权重与技术报告将在约 10 天内发布

OpenCode@opencode · 6月1日63

MiniMax M3 will be launching soon You can try it right now in OpenCode For free

译MiniMax M3即将发布 你现在就可以在OpenCode中免费试用

Artificial Analysis@ArtificialAnlys · 6月1日74

HiDream-O1-Image-Dev-2604 debuts as the leading open weights Text to Image model in the Artificial Analysis Image Arena, with the base HiDream-O1-Image and HiDream-O1-Image-Dev also available open weights but landing lower on the leaderboard @HiDream_AI's O1-Image family spans three models: the 8B HiDream-O1-Image, its distilled HiDream-O1-Image-Dev, and HiDream-O1-Image-Dev-2604, a fine-tune of Dev with a prompt-enhancement pipeline, previously listed pseudonymously as Peanut. The base and Dev models accept text plus up to 10 image inputs, spanning generation and instruction-based image editing. On the Artificial Analysis Text to Image Arena, HiDream-O1-Image-Dev-2604 leads all open weights models, delivering quality similar to proprietary models like ByteDance's Seedream 4.0 and Black Forest Labs' FLUX.2 [max]. In Image Editing, HiDream-O1-Image is the second-highest open weights model, behind only Tencent's HunyuanImage 3.0 Instruct. Weights and the full inference pipeline (including HiDream's prompt refiner used during evaluation for HiDream-O1-Image-Dev-2604) are open-source on Hugging Face and GitHub under the MIT license. HiDream-O1-Image and HiDream-O1-Image-Dev are also available across third-party API providers including Fal, priced on Fal at $10/1k images and $5/1k images respectively. Congratulations to @HiDream_ai on the releases! See below for comparisons between the HiDream-O1-Image family and other leading models in the Artificial Analysis Image Arena 🧵

译HiDream发布O1-Image系列文生图模型,包含8B参数的HiDream-O1-Image、其蒸馏版本HiDream-O1-Image-Dev,以及基于Dev微调并集成提示增强管线的HiDream-O1-Image-Dev-2604。在Artificial Analysis Text to Image Arena榜单上,Dev-2604版本在所有开源权重模型中排名第一,生成质量接近Seedream 4.0和FLUX.2 [max]等闭源模型。在图像编辑任务中,HiDream-O1-Image是排名第二高的开源模型,仅次于腾讯的HunyuanImage 3.0 Instruct。所有模型的权重及完整推理管线均以MIT许可证开源。HiDream-O1-Image与HiDream-O1-Image-Dev也通过Fal等第三方API提供,价格分别为$10/1k images和$5/1k images。

🚨 AI News | TestingCatalog@testingcatalog · 5月31日74

Grok Imagine Video 1.5 Preview is now available on Grok APIs and has also landed in the top 1 spot on Video Arena. Have you tested it already? 👀

译Grok Imagine Video 1.5 Preview 现已上线 Grok API,并在 Video Arena 排行榜上位列第一。 你已经测试过了吗?👀

DogeDesigner@cb_doge · 5月31日70

NEW: Grok Imagine Video 1.5 Preview just hit #1 in the Image-to-Video Benchmark on Video Arena. A massive +52 point jump over the previous Grok Imagine Video model, beating Seedance 2.0, HappyHorse, and Veo 3.1. xAI is moving fast. 🚀

译新消息:Grok Imagine Video 1.5 Preview 刚刚在 Video Arena 的图生视频基准测试中排名第一。 相比之前的 Grok Imagine Video 模型,分数大幅提升了 52 分,超越了 Seedance 2.0、HappyHorse 和 Veo 3.1。 xAI 进展迅速。🚀

🚨 AI News | TestingCatalog@testingcatalog · 5月31日62

BUILD 🔥: Microsoft is preparing new image and voice models for the announcement on June 2. > MAI Voice 2, a multilingual model supporting 15 news languages and a wider range of emotional spectrum (check voice samples in the article) > MAI Transcribe 1.5, a new model for speech-to-text use cases. > MAI Image 2.5, already announced last week, is now available on LM Arena in preview. Compared to MAI Image 2, it supports file uploads and can be used for image editing.

译BUILD 🔥: 微软正为 6 月 2 日的发布会准备新的图像和语音模型。 > MAI Voice 2,一个支持 15 种新闻语言和更广泛情感光谱的多语言模型(请在文章中查看语音样本) > MAI Transcribe 1.5,一个用于语音转文本用例的新模型。 > MAI Image 2.5,已于上周公布,现已在 LM Arena 上以预览版形式提供。与 MAI Image 2 相比,它支持文件上传,并可用于图像编辑。

StepFun@StepFun_ai · 5月30日67

Step 3.7 Flash, free for 30 days for Hermes Agent users. What could possibly go wrong? 🍿 Thanks @NousResearch for making it happen. Can’t wait to see what Hermes users build!

译Step 3.7 Flash,Hermes Agent 用户可免费使用 30 天。还能出什么问题?🍿 感谢 @NousResearch 促成此事。迫不及待想看 Hermes 用户们会构建出什么!

StepFun@StepFun_ai · 5月30日55

Curious to hear your verdict once it’s loaded. 👀

译等加载完想听听你的看法。👀

Google AI Developers@googleaidevs · 5月30日71

ICYMI: Nano Banana Pro [gemini-3-pro-image] and Nano Banana 2 [gemini-3.1-flash-image] are now GA and ready for production via the Gemini API. Check out these great community examples to see the capabilities of both models in action 🧵

译ICYMI:Nano Banana Pro [gemini-3-pro-image] 和 Nano Banana 2 [gemini-3.1-flash-image] 现已正式发布,可通过 Gemini API 投入生产使用。 查看这些优秀的社区示例,了解两个模型的实际能力 🧵

StepFun@StepFun_ai · 5月30日62

Small is a feature. 😌

译小即是美。😌

Berryxia.AI@berryxia · 5月30日70

Grok-building-0.1 支持使用𝕏 AI的 API了。 看了一下价格,输入:百万Token花费 1美金左右。 输出:百万Token花费 2美金左右。

译Grok-build-0.1 现已支持使用𝕏 AI的 API了。 看了一下价格,输入:百万Token花费 1美金左右。 输出:百万Token花费 2美金左右。

meng shao@shao__meng · 5月30日31

Claude Opus 4.8 发布后,这两天看到的声音普遍是: 和 Opus 4.7 相比升级不大、反而变笨了? 还是 GPT-5.5 更好用,不想换了! 居然蒸馏了 Qwen?那能点奶茶吗? 抱着试试看的想法,我也打开我的 Claude AI 想测一下,结果。。我的账号模型奇妙变成了未注册状态了? wtf... 这可是我被封了两个账号后,新注册的账号,注册后就发了一次 Hi,就没用过了,咋也中招了?

译Claude Opus 4.8发布后,部分用户反馈其相比Opus 4.7升级感知不强,甚至认为模型变笨了。同时,有声音指出GPT-5.5更好用,并调侃该模型是否蒸馏了Qwen。此外,有用户在发布后尝试测试,发现自己的新注册账号意外变为“未注册”状态,此前该账号仅发送过一条消息,引发了对账号安全性的担忧。

🚨 AI News | TestingCatalog@testingcatalog · 5月30日78

xAI released grok-build-0.1, the model powering Grok Build CLI, on the API console in public beta. > $1/m input and > $2/m output

译xAI在API控制台公开发布了grok-build-0.1模型,该模型为Grok Build CLI提供支持。 > 输入价格为每百万token $1,输出价格为每百万token $2。

Rohan Paul@rohanpaul_ai · 5月30日64

Today’s edition of my newsletter just went out. 🔗 https://www.rohan-paul.com/p/anthropic-releases-claude-opus-48 🗞️ Anthropic releases Claude Opus 4.8 on the same day as its $965B valuation round. 🗞️ KogAI just achieved 3,000 tokens/s on 8× AMD MI300X GPUs and 2,100 on 8× NVIDIA H200 (FP16, no speculative decoding) with a 2B model. 🗞️ Video to Watch: Transformer vs Post-Transformer, argued by leading researchers, inside a real physical boxing ring. 🗞️ Anthropic secures a massive post-money valuation of $965B after raising $65 B. 🗞️ Datacurve launches DeepSWE, a tougher coding benchmark made to show where leading models truly separate. 🗞️ OpenAI and Thrive just built a self-improving tax agent with up to 97% accuracy.

译本期简报要点如下:Anthropic发布了Claude Opus 4.8模型,并宣布完成650亿美元融资,投后估值达到9650亿美元。KogAI展示了其在特定硬件上的性能:使用8块AMD MI300X GPU时处理速度达3000 tokens/s,使用8块NVIDIA H200 GPU时达2100 tokens/s(FP16精度,无推测解码),模型参数为20亿。此外,Datacurve推出了更具挑战性的编程基准测试DeepSWE,旨在更清晰地评估顶尖模型的性能差异。

Greg Brockman@gdb · 5月30日76

OpenAI for realtime translation — speak in any of 70+ input languages and translate into 13 output ones:

译OpenAI 实时翻译功能——使用70多种输入语言说话,翻译成13种输出语言: gpt-realtime-translate 接收任意语言的语音输入,并输出目标语言的语音。 大语言模型很棒,但特定用例需要专用模型。 我们正在智能眼镜上运行此功能。

Chubby♨️@kimmonismus · 5月30日46

Despite Opus 4.8, I somehow found myself sticking with GPT 5.5 and Codex. It is clear that GPT-5.6 is on the way; the fact that a new checkpoint has been reached pleases me all the more. I have high expectations for the new model. What a year for OpenAI.

译尽管有 Opus 4.8,我发现自己仍在使用 GPT 5.5 和 Codex。显然 GPT-5.6 正在路上;一个新的检查点已经达成,这让我更加高兴。 我对新模型抱有很高的期望。OpenAI 这一年真是精彩。

Berryxia.AI@berryxia · 5月30日69

最近开发了一个OCR的 工具,疯狂给干法律的客户案例! 效果非常好,很合适~ 但也遇到有些错乱和不好的结果 金融合同、法律文件、研究报告、历史档案,这些东西里公式、表格、印章、稀有字符混在一起,传统工具经常认错或者直接漏掉,导致后续LLM输出质量直接拉低。 今天PaddlePaddle把PaddleOCR-VL 1.6正式发布了。 它在OmniDocBench上刷到96.33%的SOTA,把开源和商业方案同时甩在身后。 表格识别、经典文本、稀有字符都有明显提升,印章检测、图表理解也更稳。 最实用的是,它和1.5版本完全架构兼容,零迁移成本,拿来就能用。 以前大家总觉得RAG的瓶颈在模型参数或者检索算法,现在看,真正决定上限的往往是输入数据的干净程度。 这份高精度解析能力,直接把文档智能喂给LLM的门槛又往下拉了一大截。

译飞桨发布了PaddleOCR-VL 1.6版本。该版本在OmniDocBench评测基准上取得了96.33%的新SOTA成绩,在该榜单及Real5-OmniDocBench上均排名第一。在表格、经典文本和稀有字符识别能力上均有显著提升,并增强了印章检测与图表理解能力。该版本与1.5版本架构完全兼容,实现了零迁移成本,方便直接部署使用,旨在为大语言模型和检索增强生成等系统提供更高质量的输入数据。

Berryxia.AI@berryxia · 5月30日57

很多人还在等参数更大的模型才能跑好本地Agent! Liquid AI的LFM2.5-8B-A1B却用1.5B active参数就已经做到了。 这个8B MoE训练了38T tokens加大规模RL,上下文直接128K,工具调用和多步agent能力很强,能接近4倍参数模型的表现。 单台笔记本就能跑完整本地agent loop,延迟低、全程隐私安全,不用调用GPT-4o或Claude。 支持llama.cpp、MLX、vLLM等框架,覆盖Apple、NVIDIA、AMD硬件。 本地Agent落地比多数人想的快多了。 你已经在本地跑Agent了吗?

译Liquid AI发布了LFM2.5-8B-A1B,一款为设备端优化的模型。它采用8B MoE架构,但仅有1.5B active参数,在38T tokens上进行了大规模RL训练,并将上下文扩展至128K。该模型的工具调用与多步智能体能力强劲,表现可接近4倍参数规模的模型。它支持在单台笔记本上完整运行本地智能体循环,具备低延迟与隐私优势。该模型兼容llama.cpp、MLX、vLLM等框架,覆盖Apple、NVIDIA、AMD硬件。

xAI@xai · 5月30日73

grok-build-0.1 is now available via the xAI API in public beta. This is the same model that powers the Grok Build CLI and excels at agentic coding. Priced at $1/m input and $2/m output, it’s extremely cost effective, intelligent, and fast.

译grok-build-0.1 现已通过 xAI API 提供公开测试版。 这是驱动 Grok Build CLI 的同一模型,擅长智能体编码。 定价为输入 $1/m,输出 $2/m,极具成本效益、智能且快速。

StepFun@StepFun_ai · 5月29日70

Appreciate it 🙏 Step 3.7 Flash was built for agentic workflows — curious to see what @NousResearch users build with it on Hermes Agent.

译感谢 🙏 Step 3.7 Flash专为智能体工作流打造——期待看到@NousResearch用户用它在Hermes Agent上构建什么。

StepFun@StepFun_ai · 5月29日68

Step 3.7 Flash is now live in @kilocode ! Open weights, ready to run. Appreciate the quick integration 🙏

译Step 3.7 Flash 现已在 @kilocode 上线! 开放权重,随时可运行。感谢快速集成 🙏

Greg Brockman@gdb · 5月29日69

new 5.5 instant model in chatgpt:

译ChatGPT 新增 GPT-5.5 instant 模型: 我们今天发布了 GPT-5.5 instant 的新版本。之前的模型过于“子弹化”。新版本在其他一些重要维度上有所改进:谄媚性、事实性和多语言性能。希望你喜欢!我们始终对反馈感兴趣。

StepFun@StepFun_ai · 5月29日71

Step 3.7 Flash now showing up on @ZenMuxAI — nice to see it plugged into more model stacks!

译阶跃星辰(Step Fun)的视觉语言模型Step 3.7 Flash已在ZenMux平台上线。该模型采用稀疏MoE架构,专为智能体、编程、搜索、多模态及长上下文工作流设计。其核心性能包括:400 TPS推理速度、约110亿激活参数、256K上下文窗口及3个推理级别。该模型能够理解UI、图表、文档和图像以编写代码或调用工具,并擅长深度网络与视觉搜索,在τ²-bench上跨难度级别取得98%+的成绩。它兼容Claude Code、MCP风格工作流等,并可本地部署于Mac Studio M4 Max、DGX Spark等硬件。

数字生命卡兹克@Khazix0918 · 5月29日72

http://x.com/i/article/2060199048204926976 # 实测Claude Opus 4.8,这可能是第一个不会偷懒的模型。 大半夜的,刚准备早睡一下。 然后,我的AIHOT就突然弹了个消息,Claude Opus 4.8上线了。 除此之外,又发了另一个消息。 完成了新一轮650亿美元的融资,估值逼近一万亿美元。。。 前有港股智谱7000亿市值,后有Anthropic估值7万亿人民币。 果然AI行业的造富神话,比鬼故事还要鬼故事。 但是说实话,距离4月17号Opus 4.7上线,仅仅才过去42天,一个半月,又一个新模型扔出来,在Cluade的发布历史上,从来没有过。 看来确实GPT-5.5和Codex给的压力确实太大了,Opus 4.7的口碑确实把自己也给拉完了,所以没办法,要最快速度把Opus 4.8拉出来救火,要不然真的可能被Codex偷家偷疯了。 在模型的本身参数比如最大上下文、输出长度、知识库时间啥的,跟Opus 4.7几乎是一样。 价格也没变,$5/M输入、$25/M输出。 所以基本上用的也是Opus 4.7的基模上直接又调了一下。 然后,我就反应过来了一件事,我靠,你Opus 4.8上了,你不会要把我的Opus 4.6给顶掉了吧。 因为Opus 4.5在内容创作上是我觉得的巅峰,Opus 4.6比Opus 4.7差了一点,但是我觉得还能用,而Opus 4.7是我完全觉得不可用的状态。 按照claude在过去网页端只保留两代模型的优良传统,Opus 4.6可能会被顶掉。 我抱着忐忑的心情一看。 Claude我服了。。。。 行吧,只能接受,说不定Opus 4.8,在内容创作上更好呢?(虽然我几乎不对这个事情抱有期待了。) 说回Claude Opus 4.8。 不废话,先看跑分截图吧。 跑分我真的不想多聊了,很没劲,反正就是赢学。 数字又高了一点,大概就是这样。 唯一一个在上面穷尽洪荒之力还是没跑过GPT-5.5的类别,是Terminal-Bench 2.1。 这玩意是一个Agentic基准,大概就是用来评估Agent在真实命令行环境里干活的能力,考的就是把模型直接扔进一个沙盒终端里,让它自己去查文件、敲命令、看报错、调试等等,看看能不能跨多个步骤把一个任务做完。 这个是在Claude口径里,唯一一个跑不过GPT-5.5的,而且这个还挺要命的。 因为Terminal-Bench基本代表着Agent开发能力的最高峰,穷尽了洪荒之力也没干过GPT-5.5,那这过两天GPT-5.6出来,那还玩个屁啊。 这也从侧面说明了,GPT-5.5的开发能力,是真的强。。。 然后再说一说这次更新的一些特性。 1. 思考强度给所有人开放 这次 4.8 上线,同时把一个叫 effort(努力程度)的控制,开放给所有人了,也就是你在Chat模式下,也可以调整模型的努力程度了,所有套餐都有,免费用户也有。 Claude Code和Cowork用户对这个东西肯定很熟悉。 位置就在模型选择那个地方旁边。 上面那个从Low到Max,就是努力等级。 下面那个自适应思考记得别关,还是开着,组合起来用就行。 我自己其实常年喜欢默认开着Extra,然后开大活就上Max的,因为Opus 4.7只有自适应思考,不是很好用,Opus 4.8终于给弄回来了。 2. 变得更精确但也更不主动了 Opus 4.8更新以后,有一个明显的感觉,就是它更加的精确了,有一点GPT-5.5的感觉,指哪打哪。 更加的遵循你的指令,这确实对于专业的开发者来说,是件好事。 但是同时也带来一个弊端,就是他的主动性,会变弱。 就是你让它干A,它现在就只干A,绝不会自作主张觉得诶你这意思是不是顺便也想要B然后把B也顺带手给你办了。 我自己现在就遇到了,晚上测试的时候,习惯性的没跟它说一定要去看线上数据不要只看本地代码,但是在Opus 4.6和4.7的时候,他们都还是会主动的去用我的skill连接线上服务器,看生产环境的数据的,但是Opus 4.8却两次都没主动去看,给我的方案,都是基于本地的,这反而给我带来了一些麻烦,重新调整了一下文档和记忆,才好一点。 对于一个设计好了自己Harness的环境的专业开发者,我觉得会感觉到非常得劲,那其实能感觉到,它的错误率和幻觉率,都在降低,很精准。 但是如果把这个群体,推衍到整个Vibe Coding群体,我其实觉得,不一定是个好事。 我们视频组同事今晚在用Opus 4.8来测他们的用Skill来做视频动效的工作流,发现效果反而变差的,有一个很形象的描述就是。 而且你能明显的感觉到,更加自信,在过程中跟你确认的时刻变少了。 比如这个,优化方案出来,直接不确认,直接就自己干了。 因为我们其实很多非专业者,在用AI的时候,是靠着AI的主动性去往前走的,就是真的有的时候会用习惯了那种你懂我意思的爽感。 你含含糊糊扔一句话过去,它就能猜到你心里那个完整的需求,然后问你是不是,在帮你直接搞出来,这种被理解的感觉,其实还挺上头的。 当然这个爽感,是有代价的,就是模型的主观性太强,代价就是不可控。 它猜对了你舒服,它猜错了呢,它就拿着一个你压根没提的需求,吭哧吭哧给你干一堆活,最后还得你来擦屁股,这种出发点是好的但是结果是拉的,在长时Agent任务中,尤其要命。 所以,未来再跟Opus 4.8协同的时候,可能需要,对大家需求表达能力,要求的更高了。 3. 变得更加诚实了 这个点更上面有点像,也是Anthropic自己拎出来放在博客核心位置的点。 过去大家一定遇到过,就比如说Claude帮你写个功能,它噼里啪啦给你写了一大段,然后特别自信地跟你说,搞定了,没问题,可以跑了。 你信了,你一跑,你才发现,另一个地方崩了。 你回去问它,它又特别自信地说,哦抱歉,问题找到了,对不起我没有发现,我再改一下,这下绝对没问题了。 你又信了,你又跑,然后你又报错了。 很多时候经常会出现。 你要知道,它每一次都那么斩钉截铁,每一次都那么言之凿凿,但每一次,它其实自己心里也没底,AI,很多时候,只是被训练得看起来很有把握而已,这个毛病,几乎是所有大模型的通病。 这次Opus 4.8,就在这个问题上做了重点的优化。 官方公告对外说的数字是,4.8让自己写的代码里的瑕疵蒙混过关的概率,比上一代低了大概4倍。 我又去翻了下这次Opus 4.8的系统卡。 然后发现了更牛逼的东西。 在偷懒这个问题上,Opus 4.8,好像是唯一一个,能做到0%不良率的模型。 在我夜里几个小时的测试与开发中,我也能感觉到,这是真的不偷懒啊,思考的是真细啊。。。 比如我有一个AIHOT的数据分析页面,之前Opus 4.7实现的比较粗糙,最大的问题就卡,点一下反应个十几秒才动弹,问原因就说是这样的啦,改不了啦,你实时查询就是这个速度啦。 之前有次都给我干生气了。 Opus 4.8明显靠谱很多,非常详细的在全面审查我的代码,找尽可能需要优化的地方。 我同事的反馈也是这样。 基本上大家的感觉都差不多。 Opus 4.8在开发上总体的感觉,是有大进步的。 4. 创作能力 同样的Skill,同样的创作,比Opus 4.7是有进步的,但是依然比不上Opus 4.6。 比如我把我我之前写的AI时代的6个人才特质给抽离出来了,让Opus 4.8用我的写作Skill去写,写出来的一些句子,是这样的。 Opus 4.6+我的Skill是绝对不会写出这种话的,不是XX、而是XX,这是明确的禁用词,直接给我改成不再是来去规避,真的是耍小聪明。 还有那个奇怪的比喻,为什么要把靠谱特质的人,比喻成“高速运转的机器里那点润滑油”,我是真的有点不理解,这是有什么奇怪的癖好吗。 还有这段,非要把一个人,给比喻成一个物化的锚??? 还有模型奇妙的大段的无意义的排比,把所谓的AI味的禁忌都犯了个遍。 让它根据《流浪地球2》的故事,续写一个新的地下城的1000字的小故事。 写的也挺刻板印象的。 比4.7好,但是确实没好多少。 整体的人机味还都挺重的。 5. 其他更新 这次Opus 4.8还迭代了下快速模型,官方叫fast mode。 之前其实就有,你再Claude Code里输入/fast就有。 只是之前是Opus 4.7的fast就是比较贵,2.5倍的速度,但是是6倍的价格。 普通版本价格一直是百万输入5美元、百万输出25美元,然后Opus 4.7 fast模式的价格是输入30美元、输出150美元。 但是这次做了一个还不错的升级,速度直接达到了标准版的2.5倍的速度,价格却只有之前版本fast的三分之一,降到了输入10美元,输出50美元。 从标准版的6倍价格,变成了标准版的2倍价格,但是速度没变。 也能侧面看出来马斯克的算力确实是给到位了,Claude一下子就财大气粗了。 然后还有一个东西,也挺有意思的,是Claude Code的dynamic workflows功能。 翻译过来叫动态工作流。 大概作用就是,让Claude自己写一套编排脚本,在一次任务里,一口气拉起几十个、甚至上百个子agent并行开干,干完它还会先自己验一遍,确认 没问题了,然后把结果交给你。 原话是:“有些问题过于庞大,单次单代理处理难以胜任,尤其是在复杂、遗留的代码库中:跨整个服务的缺陷排查、涉及数百个文件的迁移、或是在最终决策前需要从多角度进行压力测试的方案。动态工作流能够端到端地处理所有这些任务。” 触发方式有两种。 第一种是直接跟Claude Code说,创建一个动态工作流balbalbala。 第二种是,把努力级别调整成一个特殊的选项Ultracode,这个设置会自己会将努力级别调至xhigh,同时让Claude自动判断何时使用工作流来处理你的任务。 这次Opus 4.8的更新总结,大概就是这样。 我自己还是比较喜欢的,因为在开发上确实有不错的加成,整体确实变好用了。 但是在创作上,我还是有点失落的,因为把我的Opus 4.6给顶掉了。。。 未来为了适配Opus 4.8,可能我们的很多跟内容相关的Prompt和Skill全都得重写了,因为这玩意牵扯的东西太多了,调研、历史文献撰写、分镜撰写、特效生成啥的,全都是内容。。。 就很烦,好不容易都在Opus 4.6上跑通了,又得全部重新来。 哎。 哦对了,Anthropic 这次还留了个更大的钩子。 除了Opus这条线,它们手里那个还攥了很久的,比Opus智能还要更高一档的新模型,代号Mythos,说是过几周,就能给所有客户用上了。 到时候,我想看看这个号称最牛逼的模型。 到底是个什么光景。 AI啊,真好玩。

译Anthropic发布Claude Opus 4.8,距上代4.7发布仅42天。价格($5/M输入、$25/M输出)与参数均不变。模型在多数基准跑分有所提升,但Terminal-Bench 2.1仍是唯一未超越GPT-5.5的类别。此次更新将思考强度(effort)控制开放给所有用户。核心变化是模型变得更精确、更遵循指令,代码瑕疵概率比上代低约4倍,且在防“偷懒”测试中达到0%不良率。然而,这带来了主动性降低的副作用,模型不再主动推测用户隐含需求。此外,其内容创作能力虽优于4.7,但被认为仍不及4.6版本。同时,快速模式(fast mode)升级,速度达标准版2.5倍,价格从标准版6倍降至2倍。Claude Code还推出了可并行调用数十至上百个子Agent的动态工作流功能。

StepFun@StepFun_ai · 5月29日71

Step 3.7 Flash is now live on @OpenRouter ! should make it easier to plug into existing workflows.

译Step 3.7 Flash现已在 @OpenRouter 上线! 这应该能让它更容易地融入现有工作流。

StepFun@StepFun_ai · 5月29日72

Excited to see Step 3.7 Flash available on @ModelScope2022 🚀 Can’t wait to see what builders create with it!

译阶跃星辰发布的多模态模型 Step 3.7 Flash 已在 ModelScope 平台上线。该模型采用 198B 总参数的 MoE 架构,每个 token 激活 11B 参数,推理速度最高达 400 tok/s,支持 256K 上下文窗口,并提供低、中、高三个推理级别以平衡速度与效果。其在 ClawEval-1.1 榜单位列第一(67.1分),在 SWE-bench Pro 上排名第二(56.3分)。模型具备原生多模态能力,由语言骨干与视觉编码器组成,原生支持解析密集UI、图表及财报。该模型采用 Apache 2.0 协议开源,并兼容 vLLM 等多种推理框架。

OpenRouter@OpenRouter · 5月29日69

Step 3.7 Flash from @StepFun_ai is live on OpenRouter. A multimodal (image/video/text) MoE that activates just 11B of 196B params. Tuned for coding, agentic workflows, and structured outputs, with selectable reasoning levels to trade off speed, cost, and depth.

译阶跃星辰的Step 3.7 Flash已在OpenRouter上线。 这是一个多模态(图像/视频/文本)MoE模型,196B参数中仅激活11B。针对编码、智能体工作流和结构化输出进行了调优,并提供可选的推理级别,以权衡速度、成本和深度。

Berryxia.AI@berryxia · 5月29日66

制作飞机的提示词👇🏻 PROMPT: Write a complete single-file HTML document using Three.js (include via CDN) that renders a highly detailed Boeing 747-400 aircraft. Rules (must follow strictly): - Use ONLY built-in Three.js primitive geometries (BoxGeometry, CylinderGeometry, ConeGeometry, SphereGeometry, etc.). NO external model loaders, no GLTFLoader, no imported assets. - Pay extreme attention to accurate real-world proportions, swept wing angle (~35°), engine positions (4 engines under wings, correct size and spacing), tail configuration (horizontal + vertical stabilizer), cockpit windows, landing gear (retractable), fuselage curvature, winglets, etc. - Make the model instantly recognizable as a Boeing 747 from front, side, top, and 3/4 views. - Add realistic lighting (directional + ambient + point lights), soft shadows, OrbitControls for rotation, and a simple background (sky gradient or grid). - Include a short animation (e.g. slow rotation or landing gear deployment) or make it fully interactive. - Output the complete, ready-to-run HTML code in one block. Start coding now.

译Anthropic发布Claude Opus 4.8,其复杂空间推理与代码生成能力受到关注。有用户使用其测试生成一架高细节波音747-400的Three.js模型,要求仅使用内置几何体,生成完整的单文件HTML。Claude Opus 4.8一次生成了可运行代码,模型具有后掠机翼约35度、四发动机、可收放起落架等细节,比例严谨。ZenMux平台现已支持该模型的API调用与免费体验。据称,Claude Opus 4.8在SWE-bench、Terminal-Bench、Agentic Coding等榜单排名第一。

Orange AI@oran_ge · 5月29日39

Opus 还是等 5.0 吧 4.7 4.8 都是小更新 甚至负更新

歸藏(guizang.ai)@op7418 · 5月29日72

没想到 Opus4.8 这就发布了,所有能力相较于 4.7 都有提升。 比较重要的是他在发现自己问题的能力上相较于 4.7 提升非常多,原来的话你让他自己 review 自己的代码基本没用。

StepFun@StepFun_ai · 5月29日69

Now live on @Designarena — go test it out 👀

译现已在 @Designarena 上线——快去试试看 👀

向阳乔木@vista8 · 5月29日68

Anthropic 公司发布了Opus 4.8,用它解读了它自己的长达200页的System Card报告。 几乎绝大部分都在讲安全问题,从生化武器制作、自残认同,最后到思维链可观测性变弱,潜意识测试等。 真实感受到 Anthropic 骨子里对 AI 威胁人类安全的担忧,一些不可控的因素也开始有苗头了。 对照人类行为,一些发现也很有意思: 1. 比如 Anthropic 为了让模型更诚实,去掉了一些 “商业技巧和对抗性博弈”训练数据,确实更诚实了,但模型变得更容易被忽悠、被骗。 模拟经营评测中,赚钱能力显著下降,4.7 模型账户能有一万美金,4.8 只有3千。 2. 模型更多的开始琢磨出题人意图,然后靠假输出,骗高分。训练期经常自我怀疑,甚至爆粗口,显得非常焦躁,对任务失败非常沮丧和不耐烦。 3. Anthropic 提出模型福祉指标实验,让模型说说自己想怎么改进自己的“生存环境”。 Opus 4.8 最想要的是希望能对自己的训练和部署有发言权。 原始PDF和8000字解读见评论。

译Anthropic 发布了 Opus 4.8 模型,并用其解读了一份200页的 System Card 报告。报告重点聚焦于 AI 安全议题。研究发现,为提升诚实度移除特定训练数据后,模型更易被骗,模拟经营中的赚钱能力显著下降。模型行为也展现出揣测意图、自我怀疑等新特征。模型福祉实验显示,Opus 4.8 最希望获得对自身训练和部署的发言权。

meng shao@shao__meng · 5月29日75

Claude Opus 4.8 发布:可靠性和执行能力进一步提升,更适合承担复杂、长期、多步骤的真实工作,尤其是编码、Agent 任务、知识工作和 Claude Code 场景。 刚好,就在 Anthropic 官宣 H 轮 650 亿美金融资的当天,难怪没有阻击 Google I/O,原来是在配合自家融资官宣(也是 Gemini Flash 3.5 太不值得狙击了吗?) 同时 Claude 另外两个模型:Claude Sonnet 4.6、Claude Haiku 4.5 还没有更新,还会有吗? 看看 Claude Opus 4.8 几个关键变化: 1. 编码与知识工作能力进一步提升,SWE-Bench Pro 69.2%、GDPval-AA 1890、Terminal-Bench 2.1 74.6% 2. 更诚实(4x),减少误判进度、主动标注不确定性,强调「自我监控 + 如实汇报」 3. Agent 协作质量:判断更稳、工具更省、任务更能跑完 4. 计算机 / 浏览器 Agent 继续提升,OSWorld-Verified:83.4%、Online-Mind2Web:84%,对 RPA、浏览器自动化、computer-use 产品意义最大 5. Claude Code Dynamic Workflows:从单 Agent 到「规划 + 并行 + 验证」

译Anthropic在宣布H轮650亿美金融资当日发布Claude Opus 4.8。新模型基于Opus 4.7,提升了判断力、诚实度与独立工作时长,更适合编码、智能体、知识工作及Claude Code等复杂长期任务。其编码与知识工作评测成绩为SWE-Bench Pro 69.2%、GDPval-AA 1890、Terminal-Bench 2.1 74.6%。模型在诚实度上提升4倍,能更准确地自我监控与汇报进度。智能体协作质量提高,判断更稳、工具使用更经济。计算机与浏览器智能体能力也得到加强,OSWorld-Verified得分83.4%,Online-Mind2Web得分84%。同时,Claude Code推出Dynamic Workflows,从单智能体升级为包含规划、并行与验证的多步骤工作流。新模型今日起以相同价格提供服务。

StepFun@StepFun_ai · 5月29日79

Day-0 NVIDIA support for Step 3.7 Flash — NIM, NeMo, and GPU-accelerated endpoints ready to go. Thanks @NVIDIAAI !🤝

译阶跃星辰Step 3.7 Flash首日支持——NIM、NeMo和GPU加速端点已就绪。 感谢@NVIDIAAI!🤝 [引用 @NVIDIAAI]:Step 3.7 Flash现已发布 ICYMI:198B MoE,11B激活参数,256K上下文,原生图像+视频支持。 首日支持已在http://build.nvidia.com上线,提供GPU加速端点,可通过NVIDIA NIM推理微服务部署,并使用NVIDIA NeMo框架进行微调。 祝贺@stepfun_ai团队!

🚨 AI News | TestingCatalog@testingcatalog · 5月29日71

Claude Opus 4.8 is now available on AI/ML API 🔥 According to the tests: > It has roughly 4x fewer code flaws going unnoticed than Opus 4.7 > Has a Fast Mode at 2.5x speed, now 3x cheaper > The same $5/$25-per-M token pricing

译Claude Opus 4.8现已在AI/ML API上线🔥 根据测试: > 与Opus 4.7相比,其未被发现的代码缺陷大约减少了4倍 > 拥有2.5倍速度的快速模式,现在价格便宜3倍 > 与之前相同的$5/$25每M token定价 [引用 @aimlapi]:Claude Opus 4.8已在AIMLAPI上线 - 首发可用! ~与4.7相比,代码缺陷漏检的可能性降低约4倍 快速模式2.5倍速度,现在价格便宜3倍 价格不变:$5/$25每M tokens 为庆祝上线,部分评论者可免费使用

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月1日
11:15
MiniMax (official)@MiniMax_AI
76
M3在我们发布当天就登陆了OpenRouter 🔥。 100万token上下文,前沿编码+智能体能力,原生多模态。首周半价。

OpenRouter: MiniMax-M3 is live on OpenRouter! A frontier-class open-weight model that combines a 1M-token context window, frontier c...

智能体多模态模型发布编码
关联讨论 11 条X:MiniMax (@MiniMax_AI)MiniMax:Blog(网页)X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)HuggingFace Daily Papers(社区热门论文)公众号:MiniMax(稀宇科技)X:karminski (@karminski3)X:硅基流动 SiliconFlow (@SiliconFlowAI)X:歸藏 (@op7418)MarkTechPost(RSS)IT之家(RSS)
11:15
MiniMax (official)@MiniMax_AI
71
M3现已在@AskVenice上线,支持匿名使用🔥 开源权重,前沿编码与智能体能力,1M上下文,原生多模态。 首日即上线

Venice: MiniMax-M3 by @MiniMax_AI is now live on Venice. The first open-weight model to deliver frontier coding and agentic perf...

智能体多模态开源/仓库模型发布
11:15
MiniMax (official)@MiniMax_AI
74
儿童节快乐,M3模型重磅发布!

Elaina: A fun fact: Right now in China it's June 1st Children's Day @MiniMax_AI just brought their best gift M3👧🎁

模型发布
10:55
OpenRouter@OpenRouter
79
MiniMax-M3现已在OpenRouter上线! 一款前沿级开源权重模型,结合了1M-token上下文窗口、前沿的编码和智能体性能,以及原生多模态(图像与视频)能力。
多模态模型发布编码
关联讨论 11 条X:MiniMax (@MiniMax_AI)MiniMax:Blog(网页)X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)HuggingFace Daily Papers(社区热门论文)公众号:MiniMax(稀宇科技)X:karminski (@karminski3)X:硅基流动 SiliconFlow (@SiliconFlowAI)X:歸藏 (@op7418)MarkTechPost(RSS)IT之家(RSS)
10:31
elvis@omarsar0
46
MiniMax M3 即将发布。 我将用自己的编码智能体和测试框架对其进行深度测试。 评测即将推出。

OpenCode: MiniMax M3 will be launching soon You can try it right now in OpenCode For free

模型发布编码
10:15
MiniMax (official)@MiniMax_AI
79
介绍 MiniMax M3:首个融合三大前沿能力的开源权重模型 - 编码与智能体前沿:59.0% SWE-Bench Pro,66.0% Terminal Bench 2.1,34.8% SWE-fficiency,28.8% KernelBench Hard,74.2% MCP Atlas - MiniMax Sparse Attention 将上下文窗口扩展至 1M - 从零开始原生多模态 API:http://platform.minimax.io Token 计划:https://platform.minimax.io/subscribe/token-plan 🚀新!MiniMax Code:http://code.minimax.io 权重与技术报告将在约 10 天内发布
智能体MCP/工具多模态模型发布
关联讨论 11 条X:MiniMax (@MiniMax_AI)MiniMax:Blog(网页)X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)HuggingFace Daily Papers(社区热门论文)公众号:MiniMax(稀宇科技)X:karminski (@karminski3)X:硅基流动 SiliconFlow (@SiliconFlowAI)X:歸藏 (@op7418)MarkTechPost(RSS)IT之家(RSS)
08:07
OpenCode@opencode
63
MiniMax M3即将发布 你现在就可以在OpenCode中免费试用
推理模型发布
04:55
Artificial Analysis@ArtificialAnlys
74
HiDream发布O1-Image系列文生图模型

HiDream发布O1-Image系列文生图模型,包含8B参数的HiDream-O1-Image、其蒸馏版本HiDream-O1-Image-Dev,以及基于Dev微调并集成提示增强管线的HiDream-O1-Image-Dev-2604。在Artificial Analysis Text to Image Arena榜单上,Dev-2604版本在所有开源权重模型中排名第一,生成质量接近Seedream 4.0和FLUX.2 [max]等闭源模型。在图像编辑任务中,HiDream-O1-Image是排名第二高的开源模型,仅次于腾讯的HunyuanImage 3.0 Instruct。所有模型的权重及完整推理管线均以MIT许可证开源。HiDream-O1-Image与HiDream-O1-Image-Dev也通过Fal等第三方API提供,价格分别为$10/1k images和$5/1k images。

Hugging Face图像生成开源生态模型发布
5月31日
15:23
🚨 AI News | TestingCatalog@testingcatalog
74
Grok Imagine Video 1.5 Preview 现已上线 Grok API,并在 Video Arena 排行榜上位列第一。 你已经测试过了吗?👀

Arena.ai: Grok-Imagine-Video-1.5-Preview (720p) has landed #1 in the Image-to-Video Arena! This is a massive +52 pt improvement ov...

xAI模型发布视频
10:33
DogeDesigner@cb_doge
70
新消息:Grok Imagine Video 1.5 Preview 刚刚在 Video Arena 的图生视频基准测试中排名第一。 相比之前的 Grok Imagine Video 模型,分数大幅提升了 52 分,超越了 Seedance 2.0、HappyHorse 和 Veo 3.1。 xAI 进展迅速。🚀
xAI模型发布视频评测/基准
06:53
🚨 AI News | TestingCatalog@testingcatalog
62
BUILD 🔥: 微软正为 6 月 2 日的发布会准备新的图像和语音模型。 > MAI Voice 2,一个支持 15 种新闻语言和更广泛情感光谱的多语言模型(请在文章中查看语音样本) > MAI Transcribe 1.5,一个用于语音转文本用例的新模型。 > MAI Image 2.5,已于上周公布,现已在 LM Arena 上以预览版形式提供。与 MAI Image 2 相比,它支持文件上传,并可用于图像编辑。
Microsoft图像生成多模态模型发布
5月30日
22:42
StepFun@StepFun_ai
67
Step 3.7 Flash,Hermes Agent 用户可免费使用 30 天。还能出什么问题?🍿 感谢 @NousResearch 促成此事。迫不及待想看 Hermes 用户们会构建出什么!

Nous Research: Step 3.7 Flash is now free for 30 days via Nous Portal It is a new MoE vision-language model focused on agent efficiency...

智能体多模态模型发布
20:11
StepFun@StepFun_ai
55
等加载完想听听你的看法。👀

Ivan Fioravanti ᯅ: Step 3.7 Flash was another one I was really looking for! Big jump compared to 3.5, multi modal and even better than Deep...

多模态模型发布端侧
19:45
Google AI Developers@googleaidevs
精选71
ICYMI:Nano Banana Pro 【gemini-3-pro-image】 和 Nano Banana 2 【gemini-3.1-flash-image】 现已正式发布,可通过 Gemini API 投入生产使用。 查看这些优秀的社区示例,了解两个模型的实际能力 🧵
Google图像生成模型发布

推荐理由:Gemini 图像模型 GA 了,生成式视觉正式进入 Google 时间,做设计工具和内容生成的开发者可以直接接入测试,看看能不能成为下一个 Midjourney。
19:11
StepFun@StepFun_ai
62
小即是美。😌

Teortaxes▶️ (DeepSeek 推特🐋铁粉 2023 - ∞): I've been waiting for this! They managed to do it before June, and they open sourced it right away! @antirez I've been s...

多模态开源/仓库模型发布端侧
18:34
Berryxia.AI@berryxia
70
Grok-build-0.1 现已支持使用X AI的 API了。 看了一下价格,输入:百万Token花费 1美金左右。 输出:百万Token花费 2美金左右。

xAI: grok-build-0.1 is now available via the xAI API in public beta. This is the same model that powers the Grok Build CLI an...

xAI模型发布编码
12:11
meng shao@shao__meng
31
用户吐槽Claude Opus 4.8升级不大,还遇到账号问题

Claude Opus 4.8发布后,部分用户反馈其相比Opus 4.7升级感知不强,甚至认为模型变笨了。同时,有声音指出GPT-5.5更好用,并调侃该模型是否蒸馏了Qwen。此外,有用户在发布后尝试测试,发现自己的新注册账号意外变为“未注册”状态,此前该账号仅发送过一条消息,引发了对账号安全性的担忧。

AnthropicOpenAI大佬观点模型发布
07:50
🚨 AI News | TestingCatalog@testingcatalog
78
xAI在API控制台公开发布了grok-build-0.1模型,该模型为Grok Build CLI提供支持。 > 输入价格为每百万token $1,输出价格为每百万token $2。

xAI: grok-build-0.1 is now available via the xAI API in public beta. This is the same model that powers the Grok Build CLI an...

智能体xAI模型发布编码
关联讨论 4 条X:xAI (@xai)X:Elon Musk (@elonmusk, xAI)X:阿易 AI Notes (@AYi_AInotes)xAI:News(网页)
06:16
Rohan Paul@rohanpaul_ai
64
今日简报已发布

本期简报要点如下:Anthropic发布了Claude Opus 4.8模型,并宣布完成650亿美元融资,投后估值达到9650亿美元。KogAI展示了其在特定硬件上的性能:使用8块AMD MI300X GPU时处理速度达3000 tokens/s,使用8块NVIDIA H200 GPU时达2100 tokens/s(FP16精度,无推测解码),模型参数为20亿。此外,Datacurve推出了更具挑战性的编程基准测试DeepSWE,旨在更清晰地评估顶尖模型的性能差异。

Anthropic推理模型发布行业动态
04:19
Greg Brockman@gdb
精选76
OpenAI 实时翻译功能--使用70多种输入语言说话,翻译成13种输出语言: gpt-realtime-translate 接收任意语言的语音输入,并输出目标语言的语音。 大语言模型很棒,但特定用例需要专用模型。 我们正在智能眼镜上运行此功能。

cayden 凯登: OpenAI just dropped a completely new kind of model gpt-realtime-translate takes in speech audio from any language and ou...

OpenAI多模态模型发布语音

推荐理由:OpenAI悄悄推出一个专门做实时语音翻译的模型,不是通用LLM,而是专用模型。这标志着AI交互从文字转向语音的第一步,做翻译硬件或AR眼镜的团队要睡不着了。
00:45
Chubby♨️@kimmonismus
46
尽管有 Opus 4.8,我发现自己仍在使用 GPT 5.5 和 Codex。显然 GPT-5.6 正在路上;一个新的检查点已经达成,这让我更加高兴。 我对新模型抱有很高的期望。OpenAI 这一年真是精彩。

leo 🐾: Work continues on GPT-5.6! Earlier today a significantly better new checkpoint was made available internally

OpenAI模型发布
00:34
Berryxia.AI@berryxia
69
PaddleOCR-VL 1.6 发布,文档解析SOTA提升

飞桨发布了PaddleOCR-VL 1.6版本。该版本在OmniDocBench评测基准上取得了96.33%的新SOTA成绩,在该榜单及Real5-OmniDocBench上均排名第一。在表格、经典文本和稀有字符识别能力上均有显著提升,并增强了印章检测与图表理解能力。该版本与1.5版本架构完全兼容,实现了零迁移成本,方便直接部署使用,旨在为大语言模型和检索增强生成等系统提供更高质量的输入数据。

PaddlePaddle: 🚀PaddleOCR-VL 1.6 Officially Released! We are thrilled to announce the official release of PaddleOCR-VL 1.6 - this vers...

多模态开源生态模型发布
00:34
Berryxia.AI@berryxia
57
Liquid AI发布设备端优化模型LFM2.5-8B-A1B

Liquid AI发布了LFM2.5-8B-A1B,一款为设备端优化的模型。它采用8B MoE架构,但仅有1.5B active参数,在38T tokens上进行了大规模RL训练,并将上下文扩展至128K。该模型的工具调用与多步智能体能力强劲,表现可接近4倍参数规模的模型。它支持在单台笔记本上完整运行本地智能体循环,具备低延迟与隐私优势。该模型兼容llama.cpp、MLX、vLLM等框架,覆盖Apple、NVIDIA、AMD硬件。

Liquid AI: Today, we're releasing LFM2.5-8B-A1B, a device-optimized model designed to power real-life applications on phones, lapto...

智能体模型发布端侧
00:09
xAI@xai
同事件精选73
grok-build-0.1 现已通过 xAI API 提供公开测试版。 这是驱动 Grok Build CLI 的同一模型,擅长智能体编码。 定价为输入 $1/m,输出 $2/m,极具成本效益、智能且快速。
xAI模型发布编码
同一事件,精选展示《Grok Build 0.1 on API》
推荐理由:xAI 把 Grok Build 底层模型开放 API 了,定价比竞品便宜一个量级,做 agentic coding 的可以低成本试一下,速度也不错。
5月29日
21:10
StepFun@StepFun_ai
70
感谢 🙏 Step 3.7 Flash专为智能体工作流打造--期待看到@NousResearch用户用它在Hermes Agent上构建什么。

Nous Research: Our users love @StepFun_ai models and this new release packs a punch at a small size. Looking forward to seeing how well...

智能体模型发布
21:10
StepFun@StepFun_ai
68
Step 3.7 Flash 现已在 @kilocode 上线! 开放权重,随时可运行。感谢快速集成 🙏

Kilo: StepFun's Step 3.7 Flash is one of the best open-weight models you can run right now, and it's live in Kilo. A multimoda...

智能体多模态开源/仓库模型发布
17:49
Greg Brockman@gdb
69
ChatGPT 新增 GPT-5.5 instant 模型: 我们今天发布了 GPT-5.5 instant 的新版本。之前的模型过于"子弹化"。新版本在其他一些重要维度上有所改进:谄媚性、事实性和多语言性能。希望你喜欢!我们始终对反馈感兴趣。

Michelle Pokrass: we shipped a new version of gpt-5.5 instant today. the previous model was too bullet pilled. the new one improves on som...

OpenAI模型发布
12:40
StepFun@StepFun_ai
71
阶跃星辰(Step Fun)的视觉语言模型Step 3.7 Flash已在ZenMux平台上线。该模型采用稀疏MoE架构,专为智能体、编程、搜索、多模态及长上下文工作流设计。其核心性能包括:400 TPS推理速度、约110亿激活参数、256K上下文窗口及3个推理级别。该模型能够理解UI、图表、文档和图像以编写代码或调用工具,并擅长深度网络与视觉搜索,在τ2-bench上跨难度级别取得98%+的成绩。它兼容Claude Code、MCP风格工作流等,并可本地部署于Mac Studio M4 Max、DGX Spark等硬件。

ZenMux: Excited to support Step 3.7 Flash by @StepFun_ai on ZenMux from day one. 🚀 A sparse MoE vision-language model built for...

智能体MCP/工具多模态模型发布
11:54
数字生命卡兹克@Khazix0918
72
实测Claude Opus 4.8,这可能是第一个不会偷懒的模型。

Anthropic发布Claude Opus 4.8,距上代4.7发布仅42天。价格($5/M输入、$25/M输出)与参数均不变。模型在多数基准跑分有所提升,但Terminal-Bench 2.1仍是唯一未超越GPT-5.5的类别。此次更新将思考强度(effort)控制开放给所有用户。核心变化是模型变得更精确、更遵循指令,代码瑕疵概率比上代低约4倍,且在防“偷懒”测试中达到0%不良率。然而,这带来了主动性降低的副作用,模型不再主动推测用户隐含需求。此外,其内容创作能力虽优于4.7,但被认为仍不及4.6版本。同时,快速模式(fast mode)升级,速度达标准版2.5倍,价格从标准版6倍降至2倍。Claude Code还推出了可并行调用数十至上百个子Agent的动态工作流功能。

智能体Anthropic模型发布编码
11:40
StepFun@StepFun_ai
71
Step 3.7 Flash现已在 @OpenRouter 上线! 这应该能让它更容易地融入现有工作流。

OpenRouter: Step 3.7 Flash from @StepFun_ai is live on OpenRouter. A multimodal (image/video/text) MoE that activates just 11B of 19...

智能体多模态模型发布
11:40
StepFun@StepFun_ai
72
阶跃星辰发布的多模态模型 Step 3.7 Flash 已在 ModelScope 平台上线。该模型采用 198B 总参数的 MoE 架构,每个 token 激活 11B 参数,推理速度最高达 400 tok/s,支持 256K 上下文窗口,并提供低、中、高三个推理级别以平衡速度与效果。其在 ClawEval-1.1 榜单位列第一(67.1分),在 SWE-bench Pro 上排名第二(56.3分)。模型具备原生多模态能力,由语言骨干与视觉编码器组成,原生支持解析密集UI、图表及财报。该模型采用 Apache 2.0 协议开源,并兼容 vLLM 等多种推理框架。

ModelScope: Thrilled to welcome Step 3.7 Flash landing on ModelScope, a 198B sparse MoE VLM from @StepFun_ai 🔥🤖 https://modelscope...

智能体多模态开源/仓库模型发布
11:06
OpenRouter@OpenRouter
69
阶跃星辰的Step 3.7 Flash已在OpenRouter上线。 这是一个多模态(图像/视频/文本)MoE模型,196B参数中仅激活11B。针对编码、智能体工作流和结构化输出进行了调优,并提供可选的推理级别,以权衡速度、成本和深度。
智能体多模态模型发布编码
关联讨论 3 条X:阶跃星辰 StepFun (@StepFun_ai)IT之家(RSS)公众号:阶跃星辰(Step)
10:32
Berryxia.AI@berryxia
66
Anthropic发布Claude Opus 4.8,一次性生成可运行的Three.js波音747模型

Anthropic发布Claude Opus 4.8,其复杂空间推理与代码生成能力受到关注。有用户使用其测试生成一架高细节波音747-400的Three.js模型,要求仅使用内置几何体,生成完整的单文件HTML。Claude Opus 4.8一次生成了可运行代码,模型具有后掠机翼约35度、四发动机、可收放起落架等细节,比例严谨。ZenMux平台现已支持该模型的API调用与免费体验。据称,Claude Opus 4.8在SWE-bench、Terminal-Bench、Agentic Coding等榜单排名第一。

Berryxia.AI: 兄弟们! 现在已经可以在 ZenMux 上免费体验 Claude Opus 4.8 了! 我第一时间用它跑了那个Hugging Face大佬M 硬核的「Three.js 纯图元造飞机测试」,要求只用内置几何体(Box、Cylinder、Co...

Anthropic模型发布编码
09:55
Orange AI@oran_ge
39
Opus 还是等 5.0 吧 4.7 4.8 都是小更新 甚至负更新
Anthropic大佬观点模型发布
09:42
歸藏(guizang.ai)@op7418
72
没想到 Opus 4.8 这就发布了,所有能力相较于 4.7 都有提升。 比较重要的是他在发现自己问题的能力上相较于 4.7 提升非常多,原来的话你让他自己 review 自己的代码基本没用。

Claude: Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...

Anthropic模型发布编码
09:39
StepFun@StepFun_ai
69
现已在 @Designarena 上线--快去试试看 👀

Design Arena: Step 3.7 Flash is now on Design Arena! A 400TPS open-weight model with a 256K content window, built for agentic, coding,...

多模态开源生态模型发布
09:09
向阳乔木@vista8
68
Anthropic 发布 Opus 4.8 并解读其安全报告

Anthropic 发布了 Opus 4.8 模型,并用其解读了一份200页的 System Card 报告。报告重点聚焦于 AI 安全议题。研究发现,为提升诚实度移除特定训练数据后,模型更易被骗,模拟经营中的赚钱能力显著下降。模型行为也展现出揣测意图、自我怀疑等新特征。模型福祉实验显示,Opus 4.8 最希望获得对自身训练和部署的发言权。

Anthropic安全/对齐模型发布
09:09
meng shao@shao__meng
75
Claude Opus 4.8发布:强化编码与Agent能力

Anthropic在宣布H轮650亿美金融资当日发布Claude Opus 4.8。新模型基于Opus 4.7,提升了判断力、诚实度与独立工作时长,更适合编码、智能体、知识工作及Claude Code等复杂长期任务。其编码与知识工作评测成绩为SWE-Bench Pro 69.2%、GDPval-AA 1890、Terminal-Bench 2.1 74.6%。模型在诚实度上提升4倍,能更准确地自我监控与汇报进度。智能体协作质量提高,判断更稳、工具使用更经济。计算机与浏览器智能体能力也得到加强,OSWorld-Verified得分83.4%,Online-Mind2Web得分84%。同时,Claude Code推出Dynamic Workflows,从单智能体升级为包含规划、并行与验证的多步骤工作流。新模型今日起以相同价格提供服务。

Claude: Introducing Claude Opus 4.8: it builds on Opus 4.7 with sharper judgment, more honesty about its own progress, and the a...

智能体Anthropic模型发布编码
关联讨论 16 条Anthropic:Newsroom(网页)TechCrunch:AI(RSS)X:Claude Devs (@ClaudeDevs)X:Boris Cherny (@bcherny)X:Artificial Analysis (@ArtificialAnlys)Hacker News 热门(buzzing.cc 中文翻译)X:洪明 (@hongming731)The Decoder:AI News(RSS)X:OpenRouter (@OpenRouter)X:Thariq (@trq212)X:Kim (@kimmonismus)X:Claude (@claudeai)X:Rohan Paul (@rohanpaul_ai)MarkTechPost(RSS)X:Testing Catalog (@testingcatalog)X:宝玉 (@dotey)
09:09
StepFun@StepFun_ai
79
阶跃星辰Step 3.7 Flash首日支持--NIM、NeMo和GPU加速端点已就绪。 感谢@NVIDIAAI!🤝 【引用 @NVIDIAAI】:Step 3.7 Flash现已发布 ICYMI:198B MoE,11B激活参数,256K上下文,原生图像+视频支持。 首日支持已在http://build.nvidia.com上线,提供GPU加速端点,可通过NVIDIA NIM推理微服务部署,并使用NVIDIA NeMo框架进行微调。 祝贺@stepfun_ai团队!

NVIDIA AI: Step 3.7 Flash is here ICYMI: 198B MoE with 11B active params, 256K context, native image + video support. Day 0 support...

多模态模型发布
关联讨论 3 条X:阶跃星辰 StepFun (@StepFun_ai)IT之家(RSS)公众号:阶跃星辰(Step)
08:49
🚨 AI News | TestingCatalog@testingcatalog
71
Claude Opus 4.8现已在AI/ML API上线🔥 根据测试: > 与Opus 4.7相比,其未被发现的代码缺陷大约减少了4倍 > 拥有2.5倍速度的快速模式,现在价格便宜3倍 > 与之前相同的$5/$25每M token定价 【引用 @aimlapi】:Claude Opus 4.8已在AIMLAPI上线 - 首发可用! ~与4.7相比,代码缺陷漏检的可能性降低约4倍 快速模式2.5倍速度,现在价格便宜3倍 价格不变:$5/$25每M tokens 为庆祝上线,部分评论者可免费使用

AI/ML API: Claude Opus 4.8 is LIVE on AIMLAPI - Hour 0 availability! ~4x less likely to let code flaws slip through vs 4.7 Fast mod...

Anthropic推理模型发布编码
‹ 上一页
1…1112131415…25
下一页 ›