AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 726 条
全部一手资讯X论文
标签「模型发布」清除
7月2日周四
17:44Hacker News 热门(buzzing.cc 中文翻译)54《克劳德·法布尔5》宣传版访问权限
10:03IT之家(RSS)61葡萄牙发布首个欧洲葡语开源大语言模型 AMALIA
02:32Google Blog:AI(RSS)43Google 2026年6月AI更新汇总
01:07Ars Technica:AI(RSS)73同事件精选美国解除对Anthropic Claude Fable 5和Mythos 5的出口限制同一事件,精选展示《关于美国政府指令暂停访问Fable 5和Mythos 5的声明》
7月1日周三
16:50Artificial Intelligence News(RSS)69Anthropic 推出 Claude Sonnet 5,恢复 Fable 5 和 Mythos 5 访问权限
16:32MarkTechPost(RSS)73精选NVIDIA 发布 Nemotron-Labs-TwoTower 开放权重扩散语言模型
16:08Hacker News 热门(buzzing.cc 中文翻译)78Anthropic重新部署Claude Fable 5与Mythos 5
16:02MarkTechPost(RSS)69Google Research 推出 TabFM:面向表格数据的零样本分类与回归基座模型
12:00公众号:龙猫LongCat(美团)82精选美团 LongCat-2.0 正式发布:国产算力集群训练的万亿参数大模型
11:33Anthropic:Newsroom(网页)71同事件精选重新部署 Claude Fable 5同一事件,精选展示《关于美国政府指令暂停访问Fable 5和Mythos 5的声明》
10:08Hacker News 热门(buzzing.cc 中文翻译)40Leanstral 1.5 发布
08:03IT之家(RSS)71Claude Sonnet 5 发布,系 Sonnet 系列最强智能体模型
08:03IT之家(RSS)50谷歌推出 AI 生图模型 Nano Banana 2 Lite:4 秒出图,比标准版更快更便宜
07:19Simon Willison 博客54Gemini 3.1 Flash Lite Image(Nano Banana 2 Lite)发布
06:19Simon Willison 博客81Claude Sonnet 5 新特性
06:01MarkTechPost(RSS)70Anthropic 发布 Claude Sonnet 5:中端智能体模型,基准与定价详解
03:08The Decoder:AI News(RSS)81Anthropic 发布 Claude Sonnet 5,号称最智能体版本,逼近 Opus 系列
02:48Claude Code:GitHub Releases(RSS)81Claude Code v2.1.197 发布:默认模型升级为 Claude Sonnet 5,支持原生 1M-token 上下文窗口
02:37Hacker News 热门(buzzing.cc 中文翻译)64Nano Banana 2 Lite
02:37Hacker News 热门(buzzing.cc 中文翻译)78Anthropic 发布 Claude Sonnet 5:最具智能体能力的 Sonnet 模型
02:36Ars Technica:AI(RSS)69Google DeepMind 发布 Nano Banana 2 Lite 图像生成模型
02:28TechCrunch:AI(RSS)73Anthropic 推出 Claude Sonnet 5,主打低成本智能体能力
02:02Anthropic:Newsroom(网页)81精选Claude Sonnet 5 发布
01:38The Decoder:AI News(RSS)59Google 发布 Nano Banana 2 Lite 图像模型与 Gemini Omni Flash 视频模型
00:08Google DeepMind:Blog(RSS)70精选Google DeepMind 发布 Nano Banana 2 Lite 和 Gemini Omni Flash
6月30日周二
23:38The Decoder:AI News(RSS)67美团发布LongCat-2.0,1.6万亿参数大模型完全基于国产芯片训练
16:30MarkTechPost(RSS)55Meta AI 发布 Brain2Qwerty v2:非侵入式 MEG 脑到文本解码管线
15:37Hacker News 热门(buzzing.cc 中文翻译)77LongCat-2.0 开源:1.6T 总参数、48B 活跃参数的 MoE 模型
13:02IT之家(RSS)48920 亿参数,华为 openPangu-2.0-Flash 模型正式开源上线
11:02IT之家(RSS)76美团发布万亿参数大模型 LongCat-2.0,五万卡国产算力训练并开源
10:57TechCrunch:AI(RSS)56Vibe coding 平台 Base44 推出自研模型,AI 初创公司寻求防御性
08:00HuggingFace Daily Papers(社区热门论文)64Seed2.0 Model Card:迈向解决真实世界复杂问题的智能前沿
05:35Hacker News 热门(buzzing.cc 中文翻译)61Ornith-1.0:用于代理编码的自改进开源模型
01:17Simon Willison 博客67Ornith-1.0:用于自主编程的自构建大语言模型
6月29日周一
18:01IT之家(RSS)53DeepSeek V4 正式版 7 月中旬上线,API 引入峰谷定价
17:01IT之家(RSS)56小鹏集团发布 X-Mind,让自动驾驶拥有"预见未来"的大脑
05:49The Verge:AI(RSS)51智谱GLM-5.2在网络安全漏洞发现上匹敌Mythos
01:26Nathan Lambert:Interconnects(RSS)60精选Artifacts 22:Zyphra、Cohere 和 Poolside 正在扩展生态系统广度
6月28日周日
16:10The Decoder:AI News(RSS)70精选新浪开源VibeThinker-3B:推理可压缩,事实知识不能
13:07MarkTechPost(RSS)65Liquid AI 发布 LFM2.5-230M 开源文本模型,支持 llama.cpp、MLX、vLLM、SGLang 和 ONNX 设备端推理
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
7月2日
17:44
Hacker News 热门(buzzing.cc 中文翻译)
54
《克劳德·法布尔5》宣传版访问权限

Anthropic 于 2026 年 7 月 1 日至 7 月 7 日推出 Claude Fable 5 限时推广,Pro、Max、Team 及 Enterprise premium seats 订阅用户可免费使用每周限额的 50%。支持网页、移动端、桌面端、Cowork、Code(需 v2.1.170+)、Design、Microsoft 365、Teams 及 Tag。超出免费额度后可购买 usage credits 或切换其他模型。API、Enterprise 标准座及 usage-based 计划不参与。

Anthropic模型发布
10:03
IT之家(RSS)
61
葡萄牙发布首个欧洲葡语开源大语言模型 AMALIA

葡萄牙政府7月1日宣布开源大语言模型AMALIA正式发布,这是首个基于欧洲葡萄牙语开发的模型。由60余位研究人员历时18个月开发,先期投资550万欧元,使用了Deucalion、MareNostrum 5等算力基础设施。第一阶段利用约4万亿个葡语单词训练出9B规模模型,后续多模态升级后具备理解文本、图像、声音的能力。今年内还将新增22B版本并获得智能体能力,需追加150万欧元投资。

开源生态模型发布
02:32
Google Blog:AI(RSS)
43
Google 2026年6月AI更新汇总

Google在6月发布多项AI更新:推出Gemini 3.5 Live Translate实时语音翻译;

Google多模态模型发布端侧
01:07
Ars Technica:AI(RSS)
同事件精选73
美国解除对Anthropic Claude Fable 5和Mythos 5的出口限制

美国解除对Anthropic最新Claude模型Fable 5和Mythos 5的出口限制。Fable 5即日起全球可用,Mythos 5自6月26日起恢复美国组织访问。此前Commerce Department于6月12日以国家安全风险为由要求Anthropic切断境外访问。Anthropic与政府合作加强安全措施:Fable 5已修复Amazon研究人员发现的越狱方法,目前99%以上案例被拦截,但加固安全可能屏蔽部分良性常规编码请求。Anthropic还建立红队测试和24/7内部监控团队,被屏蔽请求转至Opus 4.8。

Anthropic安全/对齐政策/监管模型发布
同一事件,精选展示《关于美国政府指令暂停访问Fable 5和Mythos 5的声明》
推荐理由:Anthropic的Fable 5和Mythos 5在经历美国政府的短暂出口禁令后全球发布,安全分类器可能导致日常编码请求被误拦,但更大的信号是前沿模型发布已深度卷入地缘政治和安全博弈。
7月1日
16:50
Artificial Intelligence News(RSS)
69
Anthropic 推出 Claude Sonnet 5,恢复 Fable 5 和 Mythos 5 访问权限

Anthropic 发布 Claude Sonnet 5,同时恢复 Fable 5 与 Mythos 5 的访问。此前因美国联邦出口管制指令,三款模型暂停 18 天。Amazon 研究人员发现绕过 Fable 5 安全控制的方法,Anthropic 已部署更新的自动分类器,在超 99% 测试中阻止该利用。Sonnet 5 在 SWE-bench Pro 得分 63.2%,Terminal-Bench 2.1 得分 80.4%,输入价格 $3.00/百万 tokens,输出 $15.00(推广期至 8 月 31 日为 $2.00/$10.00)。Rakuten、Zapier、Zed、Factory 等已部署。安全审计显示非合规行为率低于前代,且系统不具备高级进攻性网络安全能力。

智能体Anthropic安全/对齐模型发布
16:32
MarkTechPost(RSS)
精选73
NVIDIA 发布 Nemotron-Labs-TwoTower 开放权重扩散语言模型

NVIDIA 发布 Nemotron-Labs-TwoTower,基于冻结的自回归骨干 Nemotron-3-Nano-30B-A3B 的扩散语言模型。采用双塔架构:上下文塔冻结,降噪器塔训练,通过层对齐交叉注意力和状态播种协作。在 2×H100 上 BF16 评估,保留 98.7% 的 AR 基线质量,生成吞吐量提升 2.42 倍(γ=0.8,块大小 S=16)。降噪器在约 2.1T token 上训练,骨干使用 25T token 预训练。总参数约 60B,每 token 活跃参数约 3B/塔。支持扩散、模拟 AR 和 AR 三种解码模式。

开源生态推理模型发布部署/工程

推荐理由:NVIDIA这个TwoTower把扩散解码接在已有的AR骨干上,几乎无损质量却让吞吐翻倍,并且开源可商用,对批量文本生成的团队是实在的加速工具。
16:08
Hacker News 热门(buzzing.cc 中文翻译)
78
Anthropic重新部署Claude Fable 5与Mythos 5

美国政府6月12日对Anthropic的Claude Fable 5和Mythos 5实施出口管制,要求限制外国公民访问,Anthropic随即暂停所有用户访问。6月30日管制解除。Fable 5将于7月1日起对全球用户开放,Pro、Max、Team及部分Enterprise计划用户7月7日前可免费使用周配额50%,之后按用量计费。Anthropic也将尽快恢复AWS、Google Cloud和Microsoft Foundry上的访问。Mythos 5已于6月26日获批准,对部分美国组织恢复访问。Anthropic更新安全分类器,封堵此前Amazon研究人员发现的绕过Fable 5安全措施的方法,新分类器可阻止该攻击超过99%,但日常编码调试中误报良性请求的几率增加。

Anthropic安全/对齐模型发布
关联讨论 26 条X:歸藏 (@op7418)X:Yuchen Jin (@Yuchenj_UW)X:宝玉 (@dotey)The Verge:AI(RSS)X:Kim (@kimmonismus)Hacker News 热门(buzzing.cc 中文翻译)X:Anthropic (@AnthropicAI)MarkTechPost(RSS)Ars Technica:AI(RSS)TechCrunch:AI(RSS)X:Testing Catalog (@testingcatalog)X:Claude Devs (@ClaudeDevs)Anthropic:Newsroom(网页)Ethan Mollick:One Useful Thing(RSS)X:阿易 AI Notes (@AYi_AInotes)Gary Marcus:The Road to AI We Can Trust(RSS)X:邵猛 (@shao__meng)X:Rohan Paul (@rohanpaul_ai)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Berry Xia (@berryxia)The Decoder:AI News(RSS)IT之家(RSS)Tomer Tunguz 博客(VC 分析)Nathan Lambert:Interconnects(RSS)Simon Willison 博客Steve Yegge:Medium(RSS)
16:02
MarkTechPost(RSS)
69
Google Research 推出 TabFM:面向表格数据的零样本分类与回归基座模型

Google Research 发布 TabFM v1.0.0,一种面向表格数据的零样本基座模型,无需针对特定数据集训练、调参或特征工程即可进行分类和回归。TabFM 将整个数据集作为统一提示,通过上下文学习在单次前向传播中生成预测。其架构融合 TabPFN 风格的行/列交替注意力与 TabICL 风格的行压缩和上下文学习。模型在数亿个由结构因果模型动态生成的合成数据集上训练。在 TabArena 基准(38 个分类、13 个回归数据集,样本量 700 至 15 万)上,TabFM 及添加交叉特征和 SVD 特征、采用 32 路集成的 TabFM-Ensemble 均优于经过深度调优的监督算法。模型已开源在 Hugging Face 和 GitHub,Google BigQuery 即将通过 AI.PREDICT SQL 命令集成。

Google开源生态数据/训练模型发布
12:00
公众号:龙猫LongCat(美团)
精选82
美团 LongCat-2.0 正式发布:国产算力集群训练的万亿参数大模型

美团于6月30日发布新一代万亿参数大模型LongCat-2.0并开源。总参数1.6T,平均激活约48B,原生支持1M超长上下文,在五万卡国产算力集群上完成全流程训练与推理。采用LSA稀疏注意力、零计算专家、ScMoE及MOPD多专家融合(Agent/Reasoning/Interaction三组专家)架构。评测中SWE-bench Pro获59.5,SWE-bench Multilingual获77.3。预览版已通过OpenRouter和longcat.ai开放,月调用量跻身OpenRouter全球前三。

开源生态推理模型发布编码
关联讨论 7 条X:硅基流动 SiliconFlow (@SiliconFlowAI)X:美团 LongCat (@Meituan_LongCat)X:Emad Mostaque (@EMostaque)X:邵猛 (@shao__meng)X:Testing Catalog (@testingcatalog)公众号:卡尔的AI沃茨X:Rohan Paul (@rohanpaul_ai)
推荐理由:国产算力上首个全流程自训的万亿开源模型,1M上下文和动态专家架构直指Agentic Coding场景,OpenRouter调用量已经冲到前三,不是Demo是生产力。
11:33
Anthropic:Newsroom(网页)
同事件精选71
重新部署 Claude Fable 5

美国政府6月12日对Claude Fable 5和Mythos 5实施出口管制,Anthropic暂停其所有用户访问。6月30日管制解除。7月1日起Fable 5在全球平台重新上线,Pro、Max、Team及部分Enterprise计划用户在7月7日前可享每周50%额度,之后按点数计费。Mythos 5已恢复部分美国组织访问。此前Amazon研究人员发现绕过Fable 5安全措施的方法,Anthropic训练新分类器,将该技术阻挡率提升至99%以上,但可能增加良性请求误报。Anthropic正与Amazon、Microsoft、Google等合作开发行业漏洞评估框架。

Anthropic安全/对齐政策/监管模型发布
同一事件,精选展示《关于美国政府指令暂停访问Fable 5和Mythos 5的声明》
推荐理由:Fable 5重新上线只是表面,真正重要的是Anthropic借机提出了一套行业通用的jailbreak严重性框架,并拉上亚马逊、微软、谷歌,这可能会成为前沿模型发布的新安全标杆。
10:08
Hacker News 热门(buzzing.cc 中文翻译)
40
Leanstral 1.5 发布

Leanstral 1.5 是 Lean 4 形式证明工程模型的更新版,专为自动定理证明和自动形式化优化。总参数量 119B,激活参数 6.5B,上下文窗口 256k,免费使用。支持 Chat Completions、Function Calling、Agents、Structured Outputs、OCR、Embeddings 等 API 功能。

推理模型发布
08:03
IT之家(RSS)
71
Claude Sonnet 5 发布,系 Sonnet 系列最强智能体模型

Anthropic 推出 Claude Sonnet 5,称其为 Sonnet 系列中智能体能力最强的模型,能制定计划、调用浏览器和终端等工具并自主运行。已上线 Claude Code 和 Claude Platform,API 指定“claude-sonnet-5”。优惠期(至 2026 年 8 月 31 日)每百万 tokens 输入 2 美元、输出 10 美元;之后分别涨至 3 美元和 15 美元。性能在 BrowseComp、OSWorld-Verified 等评测中较 Sonnet 4.6 显著提升,部分接近 Opus 4.8。安全方面,整体不良行为发生率低于 Sonnet 4.6,在拒绝恶意请求、抵抗提示注入、幻觉率和迎合性上均有改善。

智能体Anthropic模型发布
关联讨论 6 条X:OpenRouter (@OpenRouter)X:Kim (@kimmonismus)X:Claude (@claudeai)X:Claude Devs (@ClaudeDevs)X:Testing Catalog (@testingcatalog)X:Rohan Paul (@rohanpaul_ai)
08:03
IT之家(RSS)
50
谷歌推出 AI 生图模型 Nano Banana 2 Lite:4 秒出图,比标准版更快更便宜

谷歌发布新款 AI 图像与视频生成模型 Nano Banana 2 Lite,可在 4 秒内生成一张图像,延迟较此前明显下降。每生成 1000 张图像收费 0.034 美元(约合 0.23 元人民币),主打速度和批量处理能力,面向高频、大规模的内容生产流程。该模型现已登陆谷歌 AI Studio、Gemini API 和 Gemini Enterprise Agent Platform,并将取代初代 Nano Banana。

Google图像生成模型发布
07:19
Simon Willison 博客
54
Gemini 3.1 Flash Lite Image(Nano Banana 2 Lite)发布

Gemini 3.1 Flash Lite Image(API 名 gemini-3.1-flash-lite-image,代号 Nano Banana 2 Lite)发布,被描述为“最快最便宜的 Gemini 图像模型”,专为速度和规模优化。作者在 AI Studio 中测试生成“寻找浣熊”风格的图像,效果优于此前 Nano Banana 模型,但存在拼写错误。

Google图像生成模型发布
06:19
Simon Willison 博客
81
Claude Sonnet 5 新特性

Anthropic 今日发布 Claude Sonnet 5,性能接近 Opus 4.8 但定价更低。系统卡指出其网络任务能力远弱于 Mythos 5,安全措施与 Opus 4.7/4.8 相当。API 不再支持 temperature、top_p、top_k 参数;拥有 100 万 token 上下文窗口和 12.8 万最大输出 token;工具集与 Sonnet 4.6 相同;自适应思考默认开启。定价与 Sonnet 4.6 一致(输入 $3/百万 token,输出 $15/百万 token),8 月 31 日前享折扣价 $2/$10。新分词器使相同输入文本产生约 30% 更多 token,等效提价约 30%。

Anthropic模型发布编码
关联讨论 6 条X:OpenRouter (@OpenRouter)X:Kim (@kimmonismus)X:Claude (@claudeai)X:Claude Devs (@ClaudeDevs)X:Testing Catalog (@testingcatalog)X:Rohan Paul (@rohanpaul_ai)
06:01
MarkTechPost(RSS)
70
Anthropic 发布 Claude Sonnet 5:中端智能体模型,基准与定价详解

Anthropic 发布 Claude Sonnet 5,定位为最具智能体能力的中端模型,即日起成为 Free 和 Pro 计划的默认模型。在 SWE-bench Pro 上得分 63.2%(前代 58.1%),OSWorld-Verified 达 81.2%(前代 78.5%),HLE(带工具)57.4%。输入/输出定价 2026 年 8 月 31 日前 $2/$10 每百万 token,之后 $3/$15。支持低/中/高/超高四档 effort 级别,低中 effort 下性价比最优。上下文窗口 1M token,采用新 tokenizer,相同文本 token 数增长约 1.0–1.35 倍。幻觉与谄媚率低于前代。开发者仅需更换模型字符串为 claude-sonnet-5 即可调用 API。

智能体Anthropic推理模型发布
关联讨论 6 条X:OpenRouter (@OpenRouter)X:Kim (@kimmonismus)X:Claude (@claudeai)X:Claude Devs (@ClaudeDevs)X:Testing Catalog (@testingcatalog)X:Rohan Paul (@rohanpaul_ai)
03:08
The Decoder:AI News(RSS)
81
Anthropic 发布 Claude Sonnet 5,号称最智能体版本,逼近 Opus 系列

Anthropic 发布 Claude Sonnet 5,称其为最智能体的 Sonnet 版本,能自主制定计划、使用浏览器和终端工具。基准测试全面超越前代 Sonnet 4.6:SWE-bench Pro 达 63.2%,Terminal-Bench 2.1 为 80.4%,知识工作基准 GDPval-AA v2 得分 1618,略超 Opus 4.8。模型即日起在所有计划上线,开发者可通过 Claude Code 和 API 使用,支持 100 万 token 上下文窗口。截至 2026 年 8 月 31 日,输入价格 $2/百万 token,输出 $10/百万 token,之后恢复至 $3/$15。模型未针对网络安全任务训练,默认启用实时网络防护,幻觉和谄媚行为较前代减少。

智能体Anthropic模型发布
关联讨论 6 条X:OpenRouter (@OpenRouter)X:Kim (@kimmonismus)X:Claude (@claudeai)X:Claude Devs (@ClaudeDevs)X:Testing Catalog (@testingcatalog)X:Rohan Paul (@rohanpaul_ai)
02:48
Claude Code:GitHub Releases(RSS)
81
Claude Code v2.1.197 发布:默认模型升级为 Claude Sonnet 5,支持原生 1M-token 上下文窗口

Claude Code v2.1.197 更新将 Claude Sonnet 5 设为默认模型,原生支持 1M-token 上下文窗口。该版本提供促销定价,输入 $2/M tokens、输出 $10/M tokens,持续至 8 月 31 日。用户更新至 v2.1.197 即可启用。

Anthropic模型发布编码
关联讨论 6 条X:OpenRouter (@OpenRouter)X:Kim (@kimmonismus)X:Claude (@claudeai)X:Claude Devs (@ClaudeDevs)X:Testing Catalog (@testingcatalog)X:Rohan Paul (@rohanpaul_ai)
02:37
Hacker News 热门(buzzing.cc 中文翻译)
64
Nano Banana 2 Lite

Google 推出 Nano Banana 2 Lite,号称最快、最高效的 Gemini 图像模型,以最低成本实现高速生成和编辑。模型延迟显著降低,适合大规模图像生成,同时不牺牲质量,支持角色一致性、精确视觉编辑和真实世界知识。目前可通过 Google AI Studio 试用,并在 Space Lift、Gridscape、Peek-A-Word 和 Anywhere 等应用中展示了能力。

DeepMind图像生成模型发布
02:37
Hacker News 热门(buzzing.cc 中文翻译)
78
Anthropic 发布 Claude Sonnet 5:最具智能体能力的 Sonnet 模型

Anthropic 发布 Claude Sonnet 5,定位为迄今最具智能体能力的 Sonnet 模型。它在推理、工具使用、编码和知识工作等智能体性能上较前代 Sonnet 4.6 显著提升,表现接近 Opus 4.8 但价格更低。即日起在所有计划中可用,成为 Free 和 Pro 计划的默认模型,并支持 Claude Code 及 Claude 平台。API 推出优惠定价:每百万输入 token $2、每百万输出 token $10(持续至 2026 年 8 月 31 日),之后恢复为 $3 和 $15。安全评估显示,Sonnet 5 在拒绝恶意请求、抵抗提示注入攻击、减少幻觉和谄媚行为上优于前代,但在网络安全任务上的能力显著弱于 Opus 4.8。

智能体Anthropic推理模型发布
关联讨论 6 条X:OpenRouter (@OpenRouter)X:Kim (@kimmonismus)X:Claude (@claudeai)X:Claude Devs (@ClaudeDevs)X:Testing Catalog (@testingcatalog)X:Rohan Paul (@rohanpaul_ai)
02:36
Ars Technica:AI(RSS)
69
Google DeepMind 发布 Nano Banana 2 Lite 图像生成模型

Google DeepMind 发布 Nano Banana 2 Lite(正式名 Gemini 3.1 Flash Lite Image),默认低思考模式下约4秒生成一张图像,标准 Nano Banana 需约20秒。API 价格为每1000张图像 $0.034,输入 token $0.25/1M,输出 token $1.50/1M,是 Nano Banana 2 的一半,输出成本为 Nano Banana Pro 的八分之一。用户 Arena.ai Elo 评分接近非 Lite 版本,但在文本处理、小字和角色一致性上较弱。所有输出图像均带有 SynthID 水印。即日起可通过 Google AI Studio、API 及 Gemini(选择 Flash-Lite 选项)使用。

DeepMindGoogle图像生成模型发布
02:28
TechCrunch:AI(RSS)
73
Anthropic 推出 Claude Sonnet 5,主打低成本智能体能力

Anthropic 发布 Claude Sonnet 5,这是其中端模型的最新版本,具备制定计划、使用浏览器和终端等工具并自主运行的能力。其性能接近 Opus 4.8,但成本更低:即日起至 8 月 31 日,输入每百万 tokens $2,输出每百万 tokens $10,之后分别涨至 $3 和 $10。在智能体编程基准上得分为 63.2%(Opus 4.8 为 69.2%,Sonnet 4.6 为 58.1%),在知识工作基准上略超 Opus 4.8。安全方面,不当行为、幻觉和谄媚率低于 Sonnet 4.6,且更善于拒绝恶意请求和提示词注入攻击。

智能体Anthropic推理模型发布
关联讨论 6 条X:OpenRouter (@OpenRouter)X:Kim (@kimmonismus)X:Claude (@claudeai)X:Claude Devs (@ClaudeDevs)X:Testing Catalog (@testingcatalog)X:Rohan Paul (@rohanpaul_ai)
02:02
Anthropic:Newsroom(网页)
精选81
Claude Sonnet 5 发布

Claude Sonnet 5 是 Anthropic 推出的最新 Sonnet 模型,具备计划、浏览器和终端工具使用能力,可自主运行。性能接近 Opus 4.8,定价更低:即日起至 2026 年 8 月 31 日,输入 token $2/百万,输出 $10/百万,之后恢复为 $3/百万输入和 $15/百万输出。相比 Sonnet 4.6,在推理、工具使用、编程和知识工作等智能体能力上大幅提升。在 BrowseComp 和 OSWorld-Verified 评测中严格优于 Sonnet 4.6。安全评估显示不良行为率更低,幻觉和谄媚减少,但网络安全能力弱于 Opus 4.8。即日起在所有套餐及 Claude Code、Claude API 中可用。

智能体Anthropic模型发布编码
关联讨论 6 条X:OpenRouter (@OpenRouter)X:Kim (@kimmonismus)X:Claude (@claudeai)X:Claude Devs (@ClaudeDevs)X:Testing Catalog (@testingcatalog)X:Rohan Paul (@rohanpaul_ai)
推荐理由:Claude Sonnet 5 把代理能力从 Opus 下放到了 Sonnet,性能接近 Opus 4.8 但价格只有三分之一,这对开发者来说性价比飞跃。虽然还不是最强,但已经能让许多复杂任务从勉强可用变成可靠。
01:38
The Decoder:AI News(RSS)
59
Google 发布 Nano Banana 2 Lite 图像模型与 Gemini Omni Flash 视频模型

Google 推出两款新生成式 AI 模型。Nano Banana 2 Lite 可在 4 秒内生成图像,每张成本 0.034 美元(1K 分辨率),API 名称为 gemini-3.1-flash-lite-image。Gemini Omni Flash 允许开发者通过文本提示在 API 中生成和编辑最长 10 秒的视频,每秒输出价格 0.10 美元。Google 推荐将两个模型链式使用:先用 Nano Banana 2 Lite 生成图像,再传递给 Gemini Omni Flash 转化为视频。两者均使用 SynthID 水印,已通过 Google AI Studio、Gemini API 和 Gemini Enterprise Agent Platform 提供。

Google图像生成多模态模型发布
00:08
Google DeepMind:Blog(RSS)
精选70
Google DeepMind 发布 Nano Banana 2 Lite 和 Gemini Omni Flash

Google DeepMind 推出 Nano Banana 2 Lite(gemini-3.1-flash-lite-image),为 Nano Banana 系列速度最快、成本最低的图像模型,文本到图像输出仅需 4 秒,每 1K 分辨率图像成本 $0.034,已上线 Google AI Studio、Gemini API 及消费者产品(AI Mode in Search、Gemini app 等)。同时推出 Gemini Omni Flash(gemini-omni-flash-preview),支持高画质视频生成与对话式编辑,视频输出定价 $0.10/秒,面向开发者开放 API。

Google图像生成多模态模型发布
关联讨论 3 条X:Google DeepMind (@GoogleDeepMind)X:Logan Kilpatrick (@OfficialLoganK)X:Google AI (@GoogleAI)
推荐理由:Nano Banana 2 Lite 把图像生成拉到 4 秒延迟和 0.034 美元单价,很适合高频草稿流,Omni Flash 首次对开发者开放视频生成和对话编辑,两个模型串起来的快速迭代工作流是这次最实用的更新。
6月30日
23:38
The Decoder:AI News(RSS)
67
美团发布LongCat-2.0,1.6万亿参数大模型完全基于国产芯片训练

美团发布LongCat-2.0,参数规模达1.6万亿,完全基于超5万颗国产AI ASIC芯片集群训练,覆盖35万亿模型token。该模型在SWE-bench Pro(59.5)和SWE-bench Multilingual(77.3)上超越Gemini 3.1 Pro和GPT-5.5,但落后于Claude Opus 4.7和4.8。在IFEval(90.0)、IMO-AnswerBench(81.8)和GPQA-diamond(88.9)上则与Gemini、GPT-5.5存在差距。美团未透露具体芯片厂商,模型暂未在HuggingFace开放,独立验证困难。项目团队始于2023年,首个模型于去年底交付。

数据/训练模型发布编码
16:30
MarkTechPost(RSS)
55
Meta AI 发布 Brain2Qwerty v2:非侵入式 MEG 脑到文本解码管线

Meta AI 近日发布 Brain2Qwerty v2,一种基于非侵入式脑磁图(MEG)信号的实时脑到文本解码管线,无需植入或手术。系统在 9 名志愿者约 22,000 句打字数据上训练(每人 10 小时),平均词准确率 61%(WER 39%),最高参与者达 78%,超过半数句子错误不超过一个词。管线由卷积编码器、Transformer 和字符级语言模型组成,并微调大语言模型提取语义表征,用 AI 智能体自动化改进解码流程但最终配置由人工选定。Meta 同时以 CC BY-NC 4.0 协议开源 v1 和 v2 训练代码。

Meta开源生态数据/训练模型发布
15:37
Hacker News 热门(buzzing.cc 中文翻译)
77
LongCat-2.0 开源:1.6T 总参数、48B 活跃参数的 MoE 模型

LongCat-2.0 正式开源,总参数 1.6 万亿,每 token 激活约 480 亿参数,采用 MoE 架构。新引入 LongCat Sparse Attention(LSA)和 N-gram Embedding 模块,支持百万级上下文窗口。模型在 5 万+ AI ASIC 上训练,消耗超 35 万亿 tokens,训练全程无回滚。在编码和智能体任务上表现优异,深度集成 Claude Code 等工具。提供 GitHub、HuggingFace 及 API 访问。

智能体开源生态推理模型发布
关联讨论 7 条X:硅基流动 SiliconFlow (@SiliconFlowAI)X:美团 LongCat (@Meituan_LongCat)X:Emad Mostaque (@EMostaque)X:邵猛 (@shao__meng)X:Testing Catalog (@testingcatalog)公众号:卡尔的AI沃茨X:Rohan Paul (@rohanpaul_ai)
13:02
IT之家(RSS)
48
920 亿参数,华为 openPangu-2.0-Flash 模型正式开源上线

华为 openPangu-2.0-Flash 模型(总参数量 92B,激活参数量 6B)于 6 月 30 日正式开源上线,支持 512K 上下文。该模型为 openPangu 2.0 系列的两个版本之一,另一版本 Pro(505B 总参数,18B 激活参数)计划 7 月开源。openPangu 2.0 将从 6 月 30 日起陆续开源 7 大组件,包括模型权重、基础推理代码、训推算子等。

开源/仓库开源生态模型发布
11:02
IT之家(RSS)
76
美团发布万亿参数大模型 LongCat-2.0,五万卡国产算力训练并开源

美团今日发布万亿参数大模型 LongCat-2.0,总参数 1.6T,平均激活约 48B(动态 33B~56B),从零预训练,原生支持 1M 超长上下文,是业界首个在五万卡国产算力集群上完成全流程训练与推理的模型。预览版已在 OpenRouter 及 longcat.ai 开放,月调用量跻身 OpenRouter 全球前三。预训练数据超 30T tokens,通过 HCCL 异常处理等将月均日故障率降低 70% 以上,训练 MFU 提升 1.5 倍,稳态日吞吐超 1T tokens/day。推理采用 LSA 稀疏注意力和零计算专家实现 token 级动态激活。在 SWE-bench Pro 上获 59.5,领先 Gemini 3.1 Pro、GPT-5.5 和 Claude Opus 4.6;在其他多项评测中达到或接近前沿闭源模型水平。

开源生态推理模型发布编码
关联讨论 7 条X:硅基流动 SiliconFlow (@SiliconFlowAI)X:美团 LongCat (@Meituan_LongCat)X:Emad Mostaque (@EMostaque)X:邵猛 (@shao__meng)X:Testing Catalog (@testingcatalog)公众号:卡尔的AI沃茨X:Rohan Paul (@rohanpaul_ai)
10:57
TechCrunch:AI(RSS)
56
Vibe coding 平台 Base44 推出自研模型,AI 初创公司寻求防御性

Vibe coding 平台 Base44 近日推出自研大语言模型 Base1,基于平台数千万真实用户交互数据训练。创始人 Maor Shlomo 表示,自有模型可优化延迟、成本和效率,让客户更快更便宜地使用。此举正值 AI 圈讨论依赖外部模型的防御性之际。Base44 一年前被 Wix 以 8000 万美元收购(当时仅 8 人团队),现年化收入 1 亿美元,低于竞品 Lovable 的 5 亿美元。通过垂直整合数据、分发和基础设施,Base44 试图构建护城河。

模型发布编码
08:00
HuggingFace Daily Papers(社区热门论文)
64
Seed2.0 Model Card:迈向解决真实世界复杂问题的智能前沿

Seed2.0 模型系列从识别的用户真实需求出发,构建了基于复杂真实场景的评测体系,重点攻克长尾知识和复杂指令跟随两个持久挑战,显著提升了模型在长程复杂任务上的可靠性。同时,Seed2.0 在推理智能、视觉理解和搜索能力上达到世界领先水平,并通过大量真实用例展示了其初步处理复杂实际任务的能力,为数亿用户提供更大价值。

多模态推理模型发布
05:35
Hacker News 热门(buzzing.cc 中文翻译)
61
Ornith-1.0:用于代理编码的自改进开源模型

Ornith-1.0 是基于 Gemma 4 和 Qwen 3.5 后训练的自改进开源模型系列,包含 9B Dense、31B Dense、35B MoE 和 397B MoE 四种规格。采用强化学习同时优化搜索框架和解决方案。在 Terminal-Bench 2.1、SWE-bench Verified 等编程基准上各尺寸均达同类开源最优——397B MoE 在 SWE-bench Verified 上取得 82.4%,Terminal-Bench 2.1 (Claude Code) 78.2%。所有检查点支持 256K 上下文窗口,MIT 许可证,全球可访问。运行需 Transformers ≥5.8.1、vLLM ≥0.19.1、SGLang ≥0.5.9。

智能体Hugging Face开源生态模型发布
01:17
Simon Willison 博客
67
Ornith-1.0:用于自主编程的自构建大语言模型

DeepReinforce 发布首个开源模型 Ornith-1.0(MIT 许可),提供 9B、31B、35B MoE 及 397B MoE 四种规模变体,基于预训练的 Gemma 4 和 Qwen 3.5 构建,在编程基准测试中达同规模开源模型最优。作者通过 LM Studio 运行 35B MoE 的 GGUF 量化版(20GB),实测推理速度 103 tokens/秒,实际代码检索和工具调用任务表现流畅。

智能体开源/仓库模型发布编码
6月29日
18:01
IT之家(RSS)
53
DeepSeek V4 正式版 7 月中旬上线,API 引入峰谷定价

DeepSeek 团队 6 月 29 日宣布,DeepSeek V4 正式版计划于 7 月中旬上线,届时 API 定价将引入峰谷机制,高峰时段(每日 9:00-12:00、14:00-18:00)价格为平时的 2 倍。此前 DeepSeek-V4 预览版已于 4 月 24 日上线并同步开源,拥有百万字超长上下文,在 Agent 能力、世界知识和推理性能上实现国内与开源领域领先,按大小分为两个版本。另外,DeepSeek-V4-Pro API 已永久降价至原定价的 1/4。

DeepSeek开源生态推理模型发布
17:01
IT之家(RSS)
56
小鹏集团发布 X-Mind,让自动驾驶拥有"预见未来"的大脑

小鹏集团发布 X-Mind 技术框架,内嵌预测性世界模型,采用循环块扩散机制在单次前向传播中生成紧凑抽象草图,并实例化视觉思维链(Visual CoT)进行显式时空推演。模型构建融合鸟瞰图与驾驶先验的“认知画布”,借助深度压缩自编码器(DC-AE)将12帧未来推演压缩至仅96个 Token。相比传统 VLA 模型,X-Mind 在轨迹预测误差上显著降低,推理延迟极低,具备车规级芯片量产可行性。小鹏 CEO 何小鹏透露,2026年底自动驾驶可合法进入全球。

具身智能推理模型发布
05:49
The Verge:AI(RSS)
51
智谱GLM-5.2在网络安全漏洞发现上匹敌Mythos

中国智谱发布开源权重模型GLM-5.2,研究人员称其在某些漏洞发现和网络安全场景下能匹敌Anthropic的Mythos。尽管GLM在通用任务上仍落后于Anthropic和OpenAI的模型,但在漏洞发现能力上中美差距已显著缩小。作为开源权重模型,GLM-5.2可在普通硬件上自由下载运行,灵活性高但易被滥用。美国政府此前已限制中国获取Mythos、Fable等先进模型及训练硬件,此番进展引发进一步担忧。

Anthropic安全/对齐模型发布
01:26
Nathan Lambert:Interconnects(RSS)
精选60
Artifacts 22:Zyphra、Cohere 和 Poolside 正在扩展生态系统广度

开源模型生态正变得更多元,参与者从少数中国公司扩展到全球各类组织。纯模型制造商包括 DeepSeek、智谱、MiniMax、Poolside、Arcee、Zyphra 及主权 AI 玩家 Cohere、Sovereign、Mistral、Trillion Labs;科技巨头如阿里 Qwen、Google Gemma 和 NVIDIA 各有不同动机;产品公司如 JetBrains、Zed、Krea、Photoroom 则训练高度专业的小模型。NVIDIA 发布 Nemotron-3-Ultra-550B-A55B-BF16,采用 LatentMoE 架构并改用 OpenMDW 许可证。Cohere 以 Apache 2.0 开源其旗舰模型 Command A+(05-2026-bf16),这是一款 218B-A25B MoE 模型,具备多模态、多语言和智能体能力。

开源生态模型发布现象/趋势

推荐理由:这篇文章把开源模型玩家拆成三类,清晰解释了不同动机,Cohere 转向 Apache 2.0 和 NVIDIA 采用 OpenMDW 是许可层面的重要信号,关注开源的值得一读。
6月28日
16:10
The Decoder:AI News(RSS)
精选70
新浪开源VibeThinker-3B:推理可压缩,事实知识不能

新浪发布仅3B参数的VibeThinker-3B,在AIME26等数学编程基准上持平DeepSeek V3.2等大200–333倍的模型,LiveCodeBench超越所有20B以下模型,LeetCode竞赛解决123/128题超过GPT-5.2、Kimi K2.5等。但知识密集型GPQA-Diamond大幅落后。模型基于阿里Qwen2.5-Coder-3B,经SFT、强化学习、自蒸馏等多阶段后训练。研究提出“参数压缩-覆盖假说”:逻辑推理依赖少数可压缩模式,而广泛世界知识仍需大参数。模型已开源。

Hugging Face开源生态推理模型发布

推荐理由:VibeThinker-3B 用 3B 参数在数学编程上匹敌百倍大模型,推理可压缩而知识不能的假设值得深思。对做推理应用的人来说是个信号。
13:07
MarkTechPost(RSS)
65
Liquid AI 发布 LFM2.5-230M 开源文本模型,支持 llama.cpp、MLX、vLLM、SGLang 和 ONNX 设备端推理

Liquid AI 推出 LFM2.5-230M,230M 参数开源文本模型,基于 LFM2 架构,开放权重。支持 llama.cpp、MLX、vLLM、SGLang、ONNX 推理,内存占用 293–375 MB。Galaxy S25 Ultra 上达 213 tok/s,Raspberry Pi 5 上 42 tok/s。IFEval 指令跟随得分 71.71,领先 Qwen3.5-0.8B(59.94)和 Gemma 3 1B IT(63.49);CaseReportBench 临床数据提取得分 22.51。上下文窗口 32768 tokens,预训练于 19 万亿 tokens。专为数据提取和工具调用设计,不适用于数学推理、代码生成或创意写作。

Hugging Face模型发布端侧
‹ 上一页
123…19
下一页 ›