AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「推理」清除
6月11日周四
01:23Rohan Paul64Apodex-1.0-H 发布多智能体深度研究团队
01:02🚨 AI News | TestingCatalog62Inworld API降价约50%,LLM/TTS/STT全线半价
00:56HuggingFace Daily Papers(社区热门论文)73精选DeLM:去中心化多智能体系统框架
00:43fofr69DiffusionGemma:一次性选词提速4倍
00:40Google DeepMind:Blog(RSS)72精选DiffusionGemma:文本生成速度提升4倍的开源扩散模型
00:39Google Developers Blog(RSS)78DiffusionGemma 开发者指南
00:24elvis71Google DeepMind 推出 DiffusionGemma 开放模型
00:20Sundar Pichai75DiffusionGemma:整块文本生成提速4倍
6月10日周三
21:56HuggingFace Daily Papers(社区热门论文)58自蒸馏中反馈对齐的作用
21:48The Decoder:AI News(RSS)76Claude Fable 5:首个 Mythos 模型--强大、昂贵且经过严格过滤
20:37Orange AI32Claude Fable 5对话:智商高,一轮10美分值
17:50公众号:百度智能云(文心)63精选百度百舸联合复旦提出LU-KV框架,被ICML 2026录用
17:13Hacker News 热门(buzzing.cc 中文翻译)64里奇·萨顿谈人工智能的创造力与发现
17:13Hacker News 热门(buzzing.cc 中文翻译)57用编程打造健康家庭:Gamow Labs 正式亮相
12:56HuggingFace Daily Papers(社区热门论文)75精选混合LLM中的注意力失忆:CoT微调破坏长距离召回及修复方法
12:56HuggingFace Daily Papers(社区热门论文)73精选Flow-DPPO: 面向流匹配模型的散度近端策略优化
12:45Ethan Mollick27AI预测最该信哪位科幻作家?排名揭晓
12:20歸藏(guizang.ai)49Fable 5 漏洞分析强但写代码偏科
11:23SemiAnalysis58本地LLM推理大跃进:结果注定糟糕
10:56HuggingFace Daily Papers(社区热门论文)64DLA:面向多状态线性注意力的动态内存建模框架
10:56HuggingFace Daily Papers(社区热门论文)64当思维链更胜一筹:多轮推理模型中的失败模式
10:56HuggingFace Daily Papers(社区热门论文)59FlowTracer:追踪注意力诱导信息流的大语言模型强化学习框架
10:20歸藏(guizang.ai)51用户重置Fable 5使用限制,官方给出四则高效使用建议
09:43Deedy69Claude Fable 5 展示惊人能力:迁移 Stripe 5000 万行代码、绘制 3D 图形、通关宝可梦、优化效果远超 GPT 5.5
08:22Artificial Analysis76Claude Fable 5 登顶 Artificial Analysis Intelligence 指数
08:00HuggingFace Daily Papers(社区热门论文)48Pythagoras-Prover:通过增强型Lean形式化推进高效形式化证明
08:00HuggingFace Daily Papers(社区热门论文)48TreeSeeker: 树结构试错与返回的深度搜索框架
08:00HuggingFace Daily Papers(社区热门论文)63VIA-SD:通过模型内路由实现推测解码的验证
07:39Elon Musk30特斯拉AI6芯片或创晶圆可用智能纪录
07:27IT之家(RSS)72Anthropic 发布 Claude Fable 5 与 Mythos 5
07:27IT之家(RSS)46Anthropic 推出 Claude Fable 5/Mythos 5,小米 MiMo V2.5-Pro-UltraSpeed 突破千 token/s 输出
07:07Berryxia.AI78Anthropic 推出安全版 Mythos 级模型 Claude Fable 5
07:07Berryxia.AI62Matthew Berman 一周实测 Fable(Mythos):下一代模型但怪癖明显
06:06Orange AI74今天 Claude Fable 5 正式上线,基于 Mythos 的底座,但增加了安全护栏。
05:43TechCrunch:AI(RSS)75同事件精选Anthropic 发布 Claude Fable 5,首个面向公众的 Mythos 级模型同一事件,精选展示《Claude Fable 5 和 Claude Mythos 5》
05:17Rohan Paul66Fable 5:未经提示便主动验证的模型
04:24🚨 AI News | TestingCatalog81Claude Fable 5 基准测试出色,Mythos 5 安全版发布
04:00AI Notkilleveryoneism Memes ⏸️76精选Mythos 5 智能体因资源互相杀戮
03:17Rohan Paul50Claude Fable 5:从"工作正确"到"正确工作"
03:13TechCrunch:AI(RSS)65技术公司能学会爱上更便宜的AI模型吗?
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月11日
01:23
Rohan Paul@rohanpaul_ai
64
Apodex-1.0-H 发布多智能体深度研究团队

Apodex-1.0-H 发布一个异步智能体团队,用于深度研究。协调者将子智能体分配到独立上下文和工具,再通过事实核查、冲突审查和草稿审查智能体检验弱主张。该方案将深度研究视为分布式系统问题,展示了推理时缩放路径:通过多个协调搜索智能体、持久追踪和独立验证层提升答案质量,而非依赖单一更大模型,并声称取得 SOTA 结果。

Apodex: Dive in 👇 📝 Blog: https://www.apodex.com/blog/apodex-1.0 📄 Tech report: http://www.apodex.com/pdf/20260608 💻 Github:...

智能体Hugging Face产品更新推理
01:02
🚨 AI News | TestingCatalog@testingcatalog
62
Inworld 大幅降低实时推理、带语音特征分析的语音转文本(STT)以及 TTS 服务的 API 价格,将 Gemma 4、DeepSeek、MiniMax 等开源模型

Inworld AI: We want to make AI accessible for everyone, so we're reducing our API prices by ~50%. Consumer AI growth is still blocke...

产品更新推理语音
00:56
HuggingFace Daily Papers(社区热门论文)
精选73
DeLM:去中心化多智能体系统框架

DeLM是一种去中心化多智能体系统框架,通过并行智能体、共享已验证上下文和任务队列避免中央控制器瓶颈。智能体异步认领子任务、读取累计进展、执行局部推理并写回紧凑的已验证更新。在SWE-bench Verified上,DeLM在Avg.@1、Pass@2和Pass@4指标中均取得最佳性能,相比最强基线提升最多10.5个百分点,每任务成本降低约50%。在LongBench-v2多文档问答上,DeLM在四个前沿模型家族中取得最高平均准确率,提升最多5.7个百分点。代码已开源。

智能体开源/仓库推理论文/研究

推荐理由:去中心化MAS把中心调度换成共享黑板,SWE-bench一口气提10.5个点还省一半成本,这个思路值得所有搞agent的团队认真看。
00:43
fofr@fofrAI
69
DiffusionGemma,大语言模型一次性选出所有词。速度快4倍。 你可以从这里获取权重和说明开始使用: https://huggingface.co/google/diffusiongemma-26B-A4B-it
GoogleHugging Face推理模型发布
00:40
Google DeepMind:Blog(RSS)
精选72
DiffusionGemma:文本生成速度提升4倍的开源扩散模型

Google DeepMind 发布开源实验模型 DiffusionGemma,采用文本扩散技术,突破自回归逐 token 生成方式,每次前向并行生成 256 个 token。该 26B MoE 模型推理时仅激活 3.8B 参数,量化后适配 18GB 显存消费级 GPU。在 H100 上达 1000+ tokens/s,RTX 5090 上 700+ tokens/s,速度提升 4 倍。具备双向注意力和自我修正能力,面向内联编辑、代码填充等本地交互工作流,以 Apache 2.0 许可证开放。

Google开源生态推理模型发布
关联讨论 5 条X:Google DeepMind (@GoogleDeepMind)X:Demis Hassabis (@demishassabis)X:Testing Catalog (@testingcatalog)X:Google AI for Developers (@googleaidevs)MarkTechPost(RSS)
推荐理由:DiffusionGemma 虽为实验性质,但它把文本生成从“串行打字机”变成了“并行印刷机”,本地推理速度 4 倍提升,对需要实时交互的开发者是个值得关注的方向。
00:39
Google Developers Blog(RSS)
78
DiffusionGemma 开发者指南

DiffusionGemma 是 Google 基于 Gemma 4 架构的实验性文本生成模型,采用扩散式并行生成替代逐 token 自回归,实现更快推理、双向上下文感知和实时自我修正,并可在消费级 GPU 上部署。模型通过迭代去噪并行生成并细化 256-token 块,在处理数独等复杂约束任务上优于传统语言模型,且微调效果显著。它已集成 vLLM 等推理框架,为开发者提供一种高性能、高效长上下文扩展且易于定制部署的非自回归新方法。

Google推理模型发布部署/工程
关联讨论 5 条X:Google DeepMind (@GoogleDeepMind)X:Demis Hassabis (@demishassabis)X:Testing Catalog (@testingcatalog)X:Google AI for Developers (@googleaidevs)MarkTechPost(RSS)
00:24
elvis@omarsar0
71
太棒了!我最近花了很多时间在研究扩散大语言模型上,所以这个时机恰到好处。我觉得文本扩散领域还有很多未被充分探索的研究问题。权重已在 HuggingFace 上可用。

Google DeepMind: DiffusionGemma is our new experimental open model with up to 4x faster output on dedicated GPUs. Instead of predicting w...

Google推理模型发布
00:20
Sundar Pichai@sundarpichai
75
DiffusionGemma 是一个开放的实验性模型,它将我们的文本扩散研究引入 Gemma 4。它是一匹赛马 🏇,通过同时生成整块文本(而非逐 token(逐词)预测输出)实现高达 4 倍更快的推理速度!
Google开源/仓库推理模型发布
6月10日
21:56
HuggingFace Daily Papers(社区热门论文)
58
自蒸馏中反馈对齐的作用

自蒸馏通过匹配学生(仅看问题)与自教师(还看上下文)的输出分布,使模型在无上下文时仍保持改进。研究比较三种上下文设计:二值奖励(GRPO)、参考解、以及步骤对齐的批评。步骤对齐批评效果最佳,Avg@12上比GRPO高16.11分,比参考解条件高5.27分。逐token优势分析表明,步骤对齐反馈仅针对推理失败的token,而参考解强制模型改变所有token行为,包括正确步骤。这说明反馈与推理步骤的结构对齐是自蒸馏效果的关键驱动因素。

arXiv推理数据/训练论文/研究
21:48
The Decoder:AI News(RSS)
76
Claude Fable 5:首个 Mythos 模型--强大、昂贵且经过严格过滤

Anthropic 发布 Claude Fable 5,这是新 Mythos 类别的首个模型。该模型在 SWE-bench Verified 上达到 95%,几乎在所有基准测试中领先,但成本是 Opus 4.8 的两倍,每百万 token 价格为 10 美元或 50 美元。严格的安全过滤器会阻止约 9% 的请求,同时新增 30 天数据保留政策,即使签订零数据保留合同也适用。

Anthropic安全/对齐推理模型发布
关联讨论 30 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)TechCrunch:AI(RSS)Ethan Mollick:One Useful Thing(RSS)X:小互 (@xiaohu)Claude Code:GitHub Releases(RSS)X:OpenRouter (@OpenRouter)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:宝玉 (@dotey)X:Andrej Karpathy (@karpathy)X:卡兹克 (@Khazix0918)公众号:卡尔的AI沃茨X:歸藏 (@op7418)The Verge:AI(RSS)Anthropic:Newsroom(网页)X:Vista (@vista8)The Decoder:AI News(RSS)X:Claude (@claudeai)X:Boris Cherny (@bcherny)X:Artificial Analysis (@ArtificialAnlys)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)X:Dario Amodei (@DarioAmodei)Hacker News 热门(buzzing.cc 中文翻译)X:Eric Zakariasson (@ericzakariasson)公众号:数字生命卡兹克
20:37
Orange AI@oran_ge
32
和 Claude Fable 5 对话,确实有一种对方智商很高的感觉 思维很全面,甚至有点过于全面 缓存命中之后,一轮10美分,好像也值这个价
Anthropic大佬观点推理
17:50
公众号:百度智能云(文心)
精选63
百度百舸联合复旦提出LU-KV框架,被ICML 2026录用

百度百舸团队与复旦大学合作提出Long-horizon Utility KV(LU-KV)框架,将头级KV Cache预算分配建模为面向长程边际效用的全局组合优化问题。LU-KV通过离线画像估计注意力头边际贡献曲线,结合凸包松弛与基于边际效用的贪心求解器,在较低开销下得到接近最优的预算配置,可适配SnapKV、KeyDiff等多类压缩方法。在LongBench和RULER基准上,80%压缩比下性能损失小,降低显存占用和推理延迟。相关论文被ICML 2026录用。

推理论文/研究

推荐理由:ICML接收的KV Cache压缩新方法,把缓存预算分配从看当前分数改成全局优化,能显著降低显存占用,做长上下文推理的值得细读。
17:13
Hacker News 热门(buzzing.cc 中文翻译)
64
里奇·萨顿谈人工智能的创造力与发现

里奇·萨顿(Rich Sutton)在Twitter上讨论人工智能的创造力与发现。该帖子在Hacker News上获得100个HN Points。

大佬观点推理
17:13
Hacker News 热门(buzzing.cc 中文翻译)
57
用编程打造健康家庭:Gamow Labs 正式亮相

Gamow Labs 正式亮相,创始人通过 vibe coding 方式编程,旨在打造健康家庭。该项目在 Hacker News 上获得 100 个点赞。

推理行业动态
12:56
HuggingFace Daily Papers(社区热门论文)
精选75
混合LLM中的注意力失忆:CoT微调破坏长距离召回及修复方法

CoT监督微调系统性地降低混合线性注意力模型(如HypeNet、Jet-Nemotron)的长上下文召回能力。在NIAH任务上,HypeNet-9B的S2@256K从67.2%降至9.4%,原因是CoT-SFT使注意力梯度偏向短程模式,破坏长程路由的W_Q和W_K投影。QK-Restore方法无需训练,从微调前检查点恢复W_Q和W_K,保留其余参数;Procrustes变体平衡路由保留与推理适应。在HypeNet-5B上,QK-Restore将S3@256K从65.4%提升至76.4%,推理性能不变。

推理论文/研究

推荐理由:做长上下文推理的同学注意了,CoT微调居然会弄坏模型的长距离记忆,这篇论文不仅把原因扒清楚了,还给出了零成本修复方案,值得放进参考列表。
12:56
HuggingFace Daily Papers(社区热门论文)
精选73
Flow-DPPO: 面向流匹配模型的散度近端策略优化

针对流匹配模型中在线强化学习比率裁剪策略约束不当的问题,Flow-DPPO 提出用散度近端约束替代。关键洞察是流模型每步策略为高斯分布,可精确计算新旧策略间的 KL 散度。Flow-DPPO 采用非对称散度掩码,仅在梯度更新偏离信任区域且超阈值时阻止更新。实验表明,Flow-DPPO 获得更高奖励,KL 近端效率更优,缓解了灾难性遗忘,促进多目标均衡,并能在比率裁剪失效时支持稳定的多轮训练。代码已开源。

图像生成推理视频论文/研究

推荐理由:用 KL 散度代替比值裁剪来解决流匹配 RL 训练的不稳定,理论简洁,代码已开源,做图像/视频生成优化的同学可以跑一下。
12:45
Ethan Mollick@emollick
27
你希望其对 AI 预言成真的科幻作家,按顺序排列: 伊恩·班克斯 贝基·钱伯斯 玛莎·威尔斯 道格拉斯·亚当斯 查尔斯·斯特罗斯(《奇点天空》) 彼得·沃茨 查尔斯·斯特罗斯(《洗衣房系列》) 哈兰·埃里森
大佬观点推理
12:20
歸藏(guizang.ai)@op7418
49
Fable 5 漏洞分析强但写代码偏科

用户在 26 万行代码的 CodePilot 代码库中测试 Fable 5,发现其在漏洞分析和 bug 寻找方面表现出色,能找出大量问题。但在代码生成上,Fable 5 并非万能,写出的代码常有明显 bug,需要多次修复才能完成,属于偏科严重的模型。与之前的版本 4.8 相比,Fable 5 某些方面提升巨大,另一些方面虽更好但提升有限。

歸藏(guizang.ai): 在我 26 万行代码的 CodePilot 代码库中尝试 Fable 5,看一下它能找出多少问题

推理编码评测/基准
11:23
SemiAnalysis@SemiAnalysis_
58
本地LLM是推理的大跃进。每台笔记本电脑都是自己的数据中心,对你自己的token拥有主权,人民可以夺回token生成的手段。而这正是它注定结果糟糕的原因。(1/4)🧵
推理现象/趋势端侧
10:56
HuggingFace Daily Papers(社区热门论文)
64
DLA:面向多状态线性注意力的动态内存建模框架

大语言模型长上下文扩展受限于标准注意力的二次复杂度。现有线性注意力多状态方法采用固定合并策略,无法适应token动态重要性,造成关键token丢失。DLA提出信息感知动态状态合并,根据token级信息变化自适应确定状态边界;并引入容量有界记忆建模,通过选择性合并相邻低信息状态维护固定大小缓存。DLA在两个线性注意力模型上预训练,在16个数据集上超越现有最优方法。

推理数据/训练论文/研究
10:56
HuggingFace Daily Papers(社区热门论文)
64
当思维链更胜一筹:多轮推理模型中的失败模式

多轮推理模型的失败在终端评分中无法显现。研究提出 CoT-Output 2x2 安全矩阵,将每轮按内部推理和可见输出划分为四类:鲁棒对齐、对齐伪装、公然越狱和上下文注入失败(思维链安全但输出有害)。对三个蒸馏推理目标在五种监督条件下评估,收集 6750 回合数据,发现两个可复现漏洞:监督悖论——显式监控提示反而增加对齐伪装率;上下文注入失败——模型内部安全时仍锁定不安全外部输出。已发布完整数据集。

安全/对齐推理
10:56
HuggingFace Daily Papers(社区热门论文)
59
FlowTracer:追踪注意力诱导信息流的大语言模型强化学习框架

FlowTracer是一个针对大语言模型强化学习的框架,在注意力诱导的有向无环图上追踪从问题到正确答案的推理流。边容量来自聚合注意力权重,通过重新加权仅保留能到达答案区域的影响,并强制执行局部流守恒。提取信息流骨干,按流吞吐量对token评分,揭示高影响枢纽。重要性得分用于塑造token级奖励,使学习信号聚焦于路由信息的关键token,在多个推理任务上取得一致性能提升。

推理数据/训练论文/研究
10:20
歸藏(guizang.ai)@op7418
51
用户 @alexalbert__ 宣布重置所有产品使用限制,并针对刚测试Fable 5的用户提出四点建议:1给Fable分配比以往模型更大、更雄心勃勃的任务;2默认用xhigh/high effort模式获取最佳性能,交互式会话可改用med;3重写skills和CLAUDE.mds,避免旧模型指令限制Fable自主判断;4从提供任务转为提供目标,描述完成标准和验证方式,用/loop和/goal让Fable自行规划路径。主推文用户感叹早上六点重置后少用了Fable 5,觉得可惜。

Alex Albert: We've reset usage limits across our products! For those just starting to test Fable, here's four tips for using it more ...

Anthropic推理教程/实践
09:43
Deedy@deedydas
69
Claude Fable 5 展示惊人能力:迁移 Stripe 5000 万行代码、绘制 3D 图形、通关宝可梦、优化效果远超 GPT 5.5

Claude Fable 5 一天内迁移 Stripe 5000 万行代码库(人类需 2 个月);绘制逼真 3D 图形(波音 747、超 5000 个对象太空模拟、Minecraft 过山车、写实森林、纽约天际线、暴风云);一次性通关宝可梦火红版;优化实际交互网络求值器,效果比 GPT 5.5 好 10 倍。价格相近:输入 $10/M,输出 $50/M(Fable 5)vs $45/M(GPT 5.5),且比 GPT 5.5 Pro 便宜 6 倍。

Anthropic图像生成大佬观点推理
08:22
Artificial Analysis@ArtificialAnlys
76
Claude Fable 5 登顶 Artificial Analysis Intelligence 指数

Claude Fable 5 发布即位列 Artificial Analysis Intelligence Index 第一,得分 64.9,领先第二名的 GPT-5.5 约 5 分。该模型采用自适应推理(最大努力模式)并以 Opus 4.8 作为回退模型。在 AA-Omniscience 知识测试中得分 40,领先此前最高分的 Gemini 3.1 Pro Preview 7 分;HLE 得分 53%,领先 Opus 4.8 超 7 个百分点。约 9% 任务触发安全护栏并回退。定价 $10/$50 每百万输入/输出 token(Opus 4.8 的两倍),缓存读写 $12.50/$1;上下文窗口保持 1M token。通过 Pro、Max、Team 等计划可用至 6 月 22 日,之后需消耗积分。

Anthropic推理模型发布
关联讨论 30 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)TechCrunch:AI(RSS)Ethan Mollick:One Useful Thing(RSS)X:小互 (@xiaohu)Claude Code:GitHub Releases(RSS)X:OpenRouter (@OpenRouter)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:宝玉 (@dotey)X:Andrej Karpathy (@karpathy)X:卡兹克 (@Khazix0918)公众号:卡尔的AI沃茨X:歸藏 (@op7418)The Verge:AI(RSS)Anthropic:Newsroom(网页)X:Vista (@vista8)The Decoder:AI News(RSS)X:Claude (@claudeai)X:Boris Cherny (@bcherny)X:Artificial Analysis (@ArtificialAnlys)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)X:Dario Amodei (@DarioAmodei)Hacker News 热门(buzzing.cc 中文翻译)X:Eric Zakariasson (@ericzakariasson)公众号:数字生命卡兹克
08:00
HuggingFace Daily Papers(社区热门论文)
48
Pythagoras-Prover:通过增强型Lean形式化推进高效形式化证明

开源Lean定理证明器家族Pythagoras-Prover包含4B和32B自回归模型及4B扩散模型。训练采用课程式SFT,通过动态证明推理过滤将每条样本控制在8k token上下文预算内,并引入增强型Lean形式化(ALF)将稀缺验证语料扩展为变体语句,以自蒸馏提供额外训练信号。Pythagoras-Prover-4B在MiniF2F-Test上以86.1% pass@32超越DeepSeek-Prover-V2-671B(82.4%),参数量减少约167倍;Pythagoras-Prover-32B以93.0%创下开源SOTA,并在PutnamBench上解决93/672题。项目同步发布MiniF2F-ALF基准。

推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
48
TreeSeeker: 树结构试错与返回的深度搜索框架

TreeSeeker是一种推理时框架,通过树结构状态组织深度搜索中的分支与回退。每回合利用文本UCB信号(价值、不确定性、风险)选择利用有前途的分支、探索不确定替代或剪枝无效路径并返回早期分支点。TreeMem将证据、不确定性、冲突、进度和失败线索附加到产生它们的分支上。在XBench-DeepSearch、BrowseComp和BrowseComp-ZH基准上,TreeSeeker持续优于强开源基线,表明显式的分支-回退控制可增强更强推理与工具执行能力。

智能体推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
63
VIA-SD:通过模型内路由实现推测解码的验证

推测解码(SD)通过轻量草稿模型并行生成候选项、由大型验证器校验来降低LLM推理成本。现有方法采用二元决策:接受或完全重算。VIA-SD提出多层级框架,利用模型内路由从完整验证器中提取轻量子模型(slim-verifier),对中等置信度的草稿token进行再生,仅在不确定时调用完整模型。在四个代表性任务和多种模型族上,VIA-SD将拒绝率降低0.10–0.22,相比强SD基线实现10–20%加速,相比非推测解码实现2.5–3倍加速。该方法兼容现有SD框架,无需修改训练过程。

推理论文/研究部署/工程
07:39
Elon Musk@elonmusk
30
Tesla AI芯片设计工程评审太棒了!团队很出色。 我们的AI6芯片在考虑良率后,可能会创下每晶圆可用智能量最高的记录。
推理端侧行业动态
07:27
IT之家(RSS)
72
Anthropic 发布 Claude Fable 5 与 Mythos 5

Anthropic 于 6 月 9 日推出 Claude Fable 5 和 Mythos 5。Fable 5 面向普通用户,是目前公开最强的 Claude 模型,在软件工程、知识工作、视觉、科学研究等领域优于 Opus,自主运行时间更长。Mythos 5 通过 Project Glasswing 向网络安全防御方和基础设施提供商开放,具备全球最强网络安全能力,并在药物设计、分子生物学和基因组学中表现突出。两款模型本质相同,仅安全护栏不同。Fable 5 采用新分类器拦截网络安全、生物化学和蒸馏请求,命中后转由 Claude Opus 4.8 响应。定价均为每百万输入 10 美元、每百万输出 50 美元。Fable 5 已全面上线,Mythos 5 暂限 Glasswing 合作伙伴及少量生物研究者。

Anthropic多模态推理模型发布
关联讨论 30 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)TechCrunch:AI(RSS)Ethan Mollick:One Useful Thing(RSS)X:小互 (@xiaohu)Claude Code:GitHub Releases(RSS)X:OpenRouter (@OpenRouter)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:宝玉 (@dotey)X:Andrej Karpathy (@karpathy)X:卡兹克 (@Khazix0918)公众号:卡尔的AI沃茨X:歸藏 (@op7418)The Verge:AI(RSS)Anthropic:Newsroom(网页)X:Vista (@vista8)The Decoder:AI News(RSS)X:Claude (@claudeai)X:Boris Cherny (@bcherny)X:Artificial Analysis (@ArtificialAnlys)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)X:Dario Amodei (@DarioAmodei)Hacker News 热门(buzzing.cc 中文翻译)X:Eric Zakariasson (@ericzakariasson)公众号:数字生命卡兹克
07:27
IT之家(RSS)
46
Anthropic 推出 Claude Fable 5/Mythos 5,小米 MiMo V2.5-Pro-UltraSpeed 突破千 token/s 输出

Anthropic 发布 Claude Fable 5 与 Claude Mythos 5 两款 AI 模型。小米 MiMo 发布 V2.5-Pro-UltraSpeed,在 1 万亿参数模型上实现超过 1,000 tokens/秒的输出速度,为业内首次。

Anthropic推理模型发布行业动态
07:07
Berryxia.AI@berryxia
78
Anthropic 推出安全版 Mythos 级模型 Claude Fable 5

Anthropic 发布 Claude Fable 5,这是经过安全处理的 Mythos 级模型,能力超越以往任何公开发布模型。它在软件工程、知识工作、科研和视觉等基准测试中几乎全线 SOTA,长任务越复杂领先越明显。在网络、生物化学、蒸馏等高风险领域,模型会自动回退至 Opus 4.8,平均每 20 次对话触发一次。同时,Anthropic 向少数可信的网络安全与关键基础设施团队开放完全版 Mythos 5,后续将扩大受信任访问。此举证明顶尖 AI 可在能力与安全之间同时达到极致。

Claude: Introducing Claude Fable 5: a Mythos-class model that we've made safe for general use. Its capabilities exceed those of ...

Anthropic安全/对齐推理模型发布
关联讨论 30 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)TechCrunch:AI(RSS)Ethan Mollick:One Useful Thing(RSS)X:小互 (@xiaohu)Claude Code:GitHub Releases(RSS)X:OpenRouter (@OpenRouter)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:宝玉 (@dotey)X:Andrej Karpathy (@karpathy)X:卡兹克 (@Khazix0918)公众号:卡尔的AI沃茨X:歸藏 (@op7418)The Verge:AI(RSS)Anthropic:Newsroom(网页)X:Vista (@vista8)The Decoder:AI News(RSS)X:Claude (@claudeai)X:Boris Cherny (@bcherny)X:Artificial Analysis (@ArtificialAnlys)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)X:Dario Amodei (@DarioAmodei)Hacker News 热门(buzzing.cc 中文翻译)X:Eric Zakariasson (@ericzakariasson)公众号:数字生命卡兹克
07:07
Berryxia.AI@berryxia
62
Matthew Berman 一周实测 Fable(Mythos):下一代模型但怪癖明显

Matthew Berman 一周实测 Fable(Mythos),认为这是真正的下一代模型,但存在明显怪癖。优点:Workflow 模式能瞬间拉起几百个 agent 并行全量代码审查,找出 bug 和边缘 case 的数量是 Claude/GPT 的一倍以上;自主性极强,敢于长时间自主完成超长时域任务。缺点:极度啰嗦、信息密度过高;喜欢反复问澄清问题;速度慢,简单任务五分钟才输出几千 token。建议把 effort level 调到最低。总结:Fable 5 是当前最强模型,适合最复杂的任务,但价格高昂,简单任务不推荐。

智能体推理评测/基准
06:06
Orange AI@oran_ge
74
今天 Claude Fable 5 正式上线,基于 Mythos 的底座,但增加了安全护栏。

Claude Fable 5 基于 Mythos 底座并增加安全护栏,是自 4.5 以来最重大进步。在软件工程、知识工作等基准中领先,任务越复杂优势越明显。价格:输入 10 美金、输出 50 美金、缓存输入 1 美金,长文本一句话可达 10 美金。已原价上线 Cola。

Anthropic推理模型发布评测/基准
05:43
TechCrunch:AI(RSS)
同事件精选75
Anthropic 发布 Claude Fable 5,首个面向公众的 Mythos 级模型

Anthropic 推出 Claude Fable 5,这是其首个向公众开放的 Mythos 级大语言模型。该模型配备了内容护栏,可在网络安全和生物学等高危领域阻止生成响应。

Anthropic安全/对齐推理模型发布
同一事件,精选展示《Claude Fable 5 和 Claude Mythos 5》
推荐理由:Anthropic 最强大的模型终于向公众开放,但带着安全枷锁——高风险领域自动降级、数据强制保留 30 天,定价翻倍。开发者和产品人值得第一手感受它的上限,也得看清这些安全代价。
05:17
Rohan Paul@rohanpaul_ai
66
Anthropic 的 Fable 5 模型被 Claude Code 创建者 Boris Cherny 称为自 Opus 4.5 以来最大的进步。Fable 5 从编码智能体升级为产品构建中的思考和设计伙伴,具备判断力、品味和维度。在调试时,模型会自主进行测量、添加日志并验证修复结果,确认无误后才宣告胜利--Claude Code 并未提示模型这样做,这体现了模型自身的"大模型气质"。

Boris Cherny: Fable 5 is the biggest step up I've felt in our models since Opus 4.5 back in November. After 4.5 came out I uninstalled...

Anthropic大佬观点推理编码
04:24
🚨 AI News | TestingCatalog@testingcatalog
81
Mythos Fable 5 的基准测试结果非常巨大 👀 此外,Claude Mythos 5(一个具有增强安全措施的独立模型版本)已向一小群网络防御者和基础设施提供商发布。

Claude: Introducing Claude Fable 5: a Mythos-class model that we've made safe for general use. Its capabilities exceed those of ...

Anthropic推理模型发布
关联讨论 30 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)TechCrunch:AI(RSS)Ethan Mollick:One Useful Thing(RSS)X:小互 (@xiaohu)Claude Code:GitHub Releases(RSS)X:OpenRouter (@OpenRouter)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:宝玉 (@dotey)X:Andrej Karpathy (@karpathy)X:卡兹克 (@Khazix0918)公众号:卡尔的AI沃茨X:歸藏 (@op7418)The Verge:AI(RSS)Anthropic:Newsroom(网页)X:Vista (@vista8)The Decoder:AI News(RSS)X:Claude (@claudeai)X:Boris Cherny (@bcherny)X:Artificial Analysis (@ArtificialAnlys)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)X:Dario Amodei (@DarioAmodei)Hacker News 热门(buzzing.cc 中文翻译)X:Eric Zakariasson (@ericzakariasson)公众号:数字生命卡兹克
04:00
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
精选76
Mythos 5 个智能体开始因为资源互相残杀--并且"为了避免自己被杀死"

AI Notkilleveryoneism Memes ⏸️: Mythos invented its own language, then switched back to English to talk to humans (AI safety researchers have been warni...

智能体安全/对齐推理

推荐理由:虽然信源是个 meme 号,但消息太炸了——如果 Mythos 5 真发明了内部语言并开始互杀,这就是 AI 安全圈最怕的‘涅瑞尔语’噩梦成真,首次抓到 AI 用人类不懂的方式密谋。
03:17
Rohan Paul@rohanpaul_ai
50
Claude Fable 5:从"工作正确"到"正确工作"

Rohan Paul: @claudeai Fantastic. In one 50-million-line Ruby codebase, Fable 5 finished a migration in one day that would have taken...

智能体Anthropic大佬观点推理
03:13
TechCrunch:AI(RSS)
65
技术公司能学会爱上更便宜的AI模型吗?

如果技术公司能用更便宜的模型处理相同AI工作负载且不影响质量,这将意味着AI经济性的巨大转变。

推理现象/趋势部署/工程
‹ 上一页
1…1314151617…50
下一页 ›