AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 971 条
全部一手资讯X论文
标签「推理」清除
Berryxia.AI@berryxia · 5月17日63

我去,Claude Mythos 突然在 Google Cloud Console 现身了。 昨天还没有,今天直接出现了,连 preview 标签都彻底消失。 跟之前 Opus 4.7 的路子一模一样——先在云控制台露面,然后没多久就正式落地。 Anthropic 之前一直说这个模型“太危险”不适合公开发布,现在却悄无声息地出现在 GCP 里。 最合理的猜测是:他们不会直接推公开版,而是作为模型提供方,让已经接入 GCP 的企业用户直接调用,在企业环境中跑。 我看完截图后最大的感受是,Anthropic 正在用最安静的方式,把最强的思考模型慢慢推向生产环境。 这直接把“危险模型”的叙事直接打了个反转。

译Claude Mythos模型近日悄然出现在Google Cloud Console中,其预览标签已消失,发布模式与之前Opus 4.7类似,预示可能即将正式落地。Anthropic曾称该模型“太危险”不适合公开发布,但目前迹象表明,公司可能不会推出公开版本,而是转而作为模型提供商,通过Google Cloud Platform让已接入的企业客户直接在自有环境中调用和使用。这一举动被视为Anthropic以最安静的方式将其高级思考模型推向生产环境,并逆转了此前关于该模型危险的叙事。

Chubby♨️@kimmonismus · 5月17日60

Im seriously confused. Apparently Claude Mythos now appears in the Google Cloud console. After all the official statements Anthropic has made about concerns that a Claude Mythos release would pose too great a risk, I simply cannot imagine them doing a complete about-face now. On the contrary, that would make them look unprofessional. Moreover, numerous recent examples demonstrate that Claude Mythos is indeed an extremely strong model. Example: https://x.com/kimmonismus/status/2055571960260645125?s=20 tl;dr i cannot think of any scenario that they are gonna release Mythos.

译Claude Mythos模型近日意外出现在Google Cloud控制台,且其预览标签已消失,观察者据此猜测Anthropic可能正准备公开发布该模型,类似此前Opus 4.7发布前的先例。然而,Anthropic曾多次公开表示,出于风险考虑不会发布Mythos,且该模型已被证实能力极强,因此部分观点认为该公司此刻进行彻底转向并发布该模型的可能性极低,这也会使其显得不够专业。用户对此表示困惑,强调无法想象任何发布场景,并引用推文示例佐证模型实力。整体上,事件引发猜测,但基于官方立场,实际发布概率被认为较小。

Ant Ling@AntLingAGI · 5月17日80

Another day0 collaboration, another community win. Thanks @vllm_project team for the always reliable support~ 🫡🫡

译又一次Day0协作,又一次社区胜利。感谢@vllm_project团队始终可靠的支持~ 🫡🫡

Ant Ling@AntLingAGI · 5月17日74

🥳You could always experience the latest, fastest and the most easy to use open model on SGLang, this time for our latest reasoning model release of Ring-2.6-1T (limited 75% discount on OR https://openrouter.ai/inclusionai/ring-2.6-1t) Thanks to @lmsysorg for another top notch day0 collaboration! 🥳

译Ring-2.6-1T万亿参数旗舰模型正式发布,专注于处理复杂现实世界任务,并在SGLang平台获得Day-0即时支持,得益于与@lmsysorg的合作。该模型具备增强的智能体执行能力,可稳定处理多步骤、工具调用和长流程工作。用户可通过推理努力控制的高与极高模式,灵活调节推理深度、速度和成本。训练采用异步强化学习与IcePop技术,确保万亿参数强化学习训练的效率和稳定性。目前,该模型在OpenRouter平台提供限时75%折扣,供用户体验最新功能。

Ant Ling@AntLingAGI · 5月17日76

Thanks @AdinaYakup and the @huggingface community for the continued recognition! We feel happy to bring another 1T thinking model to the community! Comments and feedbacks welcome!

译蚂蚁集团发布万亿参数推理模型Ring-2.6-1T,专为现实世界智能体工作流构建。该模型采用MIT许可,上下文长度通过YaRN技术从128K扩展至256K,并采用Async RL与IcePop混合训练架构。其核心特点是具备双推理努力模式:“high”模式用于快速智能体循环,“xhigh”模式用于深度推理,旨在实现更好的成本与性能平衡。模型已开源,欢迎社区反馈。

Ant Ling@AntLingAGI · 5月17日66

Lovely video! Glad to work with @novita_labs and @OpenRouter to bring another newly build model, Ring-2.6-1T to our beloved users. It is available on OpenRouter with 75% through May~ https://openrouter.ai/inclusionai/ring-2.6-1t

译Ring-2.6-1T模型现已开源,并上线OpenRouter平台,5月底前享有75%折扣。该模型由AntLingAGI开发,是一个为现实世界智能体构建的万亿级推理模型,其核心设计目标不仅是回答问题,更是执行任务。它专注于规划步骤、使用工具、维持上下文和完成复杂工作流,具备强大的智能体执行能力和高推理模式,并采用了Async RL与IcePop训练方法。

Berryxia.AI@berryxia · 5月16日61

长上下文LLM的军备竞赛已经转向:长上下文LLM竞争已转向:从堆token转向精细的架构优化。 Sebastian Raschka(《Build a Large Language Model From Scratch》作者、前统计学教授. 刚发布《Recent Developments in LLM Architectures》,用可视化方式拆解Gemma 4到DeepSeek V4的硬核优化。 这些不是纸上谈兵,全是已在生产环境落地的真实方案。 关键转变:长上下文的瓶颈不再是「能否支持更多token」,而是「如何聪明分配计算」。 以前大家卷上下文长度,现在真正拉开差距的,是这些精细的架构选择。 正在做长上下文模型、Agent或RAG的团队,这篇文章的视觉图和效率对比特别值得细读。 阅读全文见评论区~

译长上下文大型语言模型的竞争焦点已从单纯增加上下文长度,转向通过精细的架构优化来提升计算效率。Sebastian Raschka的新文章通过可视化方式,解析了从Gemma 4到DeepSeek V4等模型在生产环境中应用的关键效率优化技术,如KV缓存共享、分层嵌入和压缩注意力等。这些技术旨在更智能地分配计算资源,已成为决定模型性能差异的关键。对于从事长上下文模型、智能体或RAG开发的团队而言,文章中的视觉图解与效率对比具有重要的参考价值。

Rohan Paul@rohanpaul_ai · 5月16日58

Terence Tao says the math behind today’s LLMs is actually simple. Training and running them mostly uses linear algebra, matrix multiplication, and a bit of calculus, material an undergraduate can handle. We understand how to build and operate these models. The real mystery is why they work so well on some tasks and fail on others, and why we cannot predict that in advance. We lack good rules for forecasting performance across tasks, so progress is largely empirical. A key reason is the nature of real-world data. Pure noise is well understood, perfectly structured data is well understood, but natural text sits in between, partly structured and partly random. Mathematics for that middle regime is thin, similar to how physics struggles at meso-scales between atoms and continua. Because of this gap, we can describe the mechanisms but cannot yet explain capability jumps or give reliable task-level predictions. That mismatch, simple machinery versus hard-to-predict behavior, is the core puzzle. ---- Video from 'Dr Brian Keating' YT Channel (Link in comment)

译陶哲轩指出,大型语言模型(LLMs)的训练和运行主要基于线性代数、矩阵乘法和微积分等简单数学,本科生即可掌握。然而,核心谜团在于LLMs为何在某些任务上表现卓越,却在其他任务上失败,且无法提前预测。这源于现实世界数据的性质:它介于完全噪声和完全结构化之间,而数学对此中间状态的理解薄弱,类似于物理学在原子和连续介质之间的介观尺度困境。因此,尽管我们能描述LLMs的机制,却无法解释其能力跳跃或提供可靠的任务级预测。简单机制与难以预测行为之间的不匹配,构成了当前研究的核心难题。

Chubby♨️@kimmonismus · 5月16日75

Three researchers used Anthropic's Mythos to build a working macOS kernel exploit that bypasses Apple's M5 Memory Integrity Enforcement, a security system Apple spent five years and billions of dollars building. Bug found April 25. Working exploit May 1. Walked into Apple Park to deliver the report in person. MIE was the flagship security feature of the M5 and A19, designed to kill the entire memory corruption bug class. According to Apple's own research, it disrupted every known public exploit chain against modern iOS. Calif didn't break MIE. They walked around it. Data-only attack, no pointer manipulation, standard syscalls from an unprivileged user to root. The 55-page technical report drops after Apple patches. This is the story of the year in cybersecurity.

译三名研究人员借助Anthropic的Mythos工具,成功开发出一个可绕过苹果M5芯片内存完整性执行(MIE)安全机制的macOS内核漏洞利用程序。MIE是苹果耗时五年、投入巨资为M5和A19芯片打造的旗舰安全功能,旨在彻底消除内存损坏漏洞。研究团队于4月25日发现漏洞,5月1日即完成开发,并亲自前往苹果园区提交报告。该攻击采用纯数据攻击方式,无需操纵指针,仅通过非特权用户的标准系统调用即可获取根权限。完整技术报告将在苹果发布补丁后公开。

AYi@AYi_AInotes · 5月16日70

Damn!Anthropic的神秘模型Mythos Preview简直屌炸天! Google Project Zero平均六个月才能搞定的漏洞,Mythos五天就完成了,而且这还是它的预览版,它这个找漏洞的速度真的有点让我后背发凉🤯 这可是苹果花了五年,砸了几十亿美元打造的终极硬件安全防线MIE啊,damn! 我觉得这倒不是说苹果安全防护能力不行,更像是AI正在彻底改写网络安全游戏规则的明确信号, MIE是M5和A19芯片的旗舰安全功能, 基于ARM的内存标签扩展技术, 直接在硬件层面给每一块内存贴标签, 苹果自己说它已经阻断了所有针对现代iOS的公开漏洞利用链, 其中包括近期泄露的Coruna和Darksword工具包, 结果加州的研究团队用Anthropic的Mythos Preview, 五天就构造出了可运行的macOS内核内存损坏漏洞利用程序, 作为对比,Google Project Zero处理同级别的漏洞,平均周期是六个月, 但是Mythos不是简单的代码扫描工具, 它能自主读代码,提出假设,写测试用例验证, 甚至自己完成从发现漏洞到编写完整利用链的全过程, 它在Firefox里一次运行就发现了271个漏洞, 在OpenBSD里挖出了一个存在了27年的TCP SACK漏洞, 以前我们觉得漏洞挖掘是顶级安全研究员的专属技能, 需要十几年的经验积累和天赋, 但是现在AI已经把这个门槛降到了几乎为零, 这才是真正可怕的地方, 我在想未来的网络战争, 可能不再是人类黑客之间的对决, 很可能是AI和AI之间的军备竞赛, 毕竟人类安全研究员的速度,在AI面前已经不够看了, 苹果已经拿到了完整的55页技术报告,修复之后会向公众公开, 但这足以说明,AI漏洞挖掘的时代,已经来了。

译Anthropic的神秘AI模型Mythos Preview在网络安全领域取得突破性进展。该模型仅用五天就成功构造出针对苹果硬件级安全防线MIE的macOS内核漏洞利用程序,而同类任务通常需要Google Project Zero团队平均六个月完成。Mythos不仅能自主阅读代码、提出假设并验证,还能独立完成从漏洞发现到编写完整利用链的全过程。这标志着AI正将漏洞挖掘的技术门槛急剧降低,预示着未来网络安全攻防可能演变为AI之间的自动化竞赛。相关技术报告已提交苹果,修复后将公开。

Artificial Analysis@ArtificialAnlys · 5月16日63

AI is making rapid progress in economically valuable tasks: based on their GDPval-AA Elo scores, GPT-5.5 is expected to win ~98% of head-to-head comparisons on realistic work outputs against Claude 4 Sonnet, the leading model in GDPval-AA a year ago GDPval-AA measures how well models complete tasks across nine industries and 44 occupations. The graphic shows slide outputs for an Inventory Management task from Claude 4 Sonnet (May 2025) against GPT-5.5 (xhigh, May 2026).

译AI在经济价值任务中快速进步:根据GDPval-AA Elo评分,GPT-5.5在实际工作产出中预计将赢得约98%的正面比较,对比对象是一年前GDPval-AA领先模型Claude 4 Sonnet GDPval-AA衡量模型在九个行业44个职业中的任务完成能力。图示展示了Claude 4 Sonnet(2025年5月)与GPT-5.5(xhigh,2026年5月)在库存管理任务中的幻灯片输出对比

Epoch AI@EpochAIResearch · 5月16日64

Claude is typically better at software engineering and worse at math than frontier competitors. Aggregating benchmarks to create our domain-specific ECI, we find the Claude family has an average SWE-ECI 2.7 points higher than their general ECI, and a Math-ECI 1.8 points lower.

译Claude通常在软件工程方面优于前沿竞争对手,数学方面则稍逊。 根据我们汇总基准测试创建的领域特定ECI指标,Claude家族的软件工程ECI平均比通用ECI高2.7分,数学ECI则低1.8分。

Chubby♨️@kimmonismus · 5月16日66

So OpenAI literally kill*d many fintech startups today OpenAI launched a personal finance feature in ChatGPT for Pro users in the US. You connect your bank accounts via Plaid, get a spending dashboard, and can ask GPT-5.5 questions grounded in your actual transaction data - balances, spending patterns, subscriptions, investments. It can't see full account numbers or move money. Intuit integration is coming for things like tax estimates and credit card applications. Financial memories store context like savings goals across conversations. Plus users get it later, free tier eventually. They built an internal benchmark with 50+ finance professionals and say GPT-5.5 Thinking scores 79/100, GPT-5.5 Pro 82.5/100 on complex personal finance tasks.

译OpenAI为美国ChatGPT Pro用户推出了个人理财功能。用户可通过Plaid连接银行账户,获得消费仪表盘,并能基于实际交易数据向GPT-5.5提问,查询余额、消费模式、订阅和投资等信息。该功能无法查看完整账号或移动资金。未来将集成Intuit用于税务估算和信用卡申请,其“金融记忆”可跨对话存储储蓄目标等上下文。Plus用户将稍后获得,免费用户最终也会开放。内部基准测试显示,GPT-5.5在复杂个人理财任务上得分为79/100,GPT-5.5 Pro为82.5/100。此举被认为对许多金融科技初创企业构成了直接竞争。

Ant Ling@AntLingAGI · 5月15日39

Limited time offer: 90% off Ring-2.6-1T and Ling-flash-2.6 on @OpenRouter with @novita_labs ! Ring-2.6-1T: Extreme thinking model is here to help you with complex planning. Ling-flash-2.6: Help you save $$$ by offering extreme token efficiency. Dive into the details below 👇

译限时优惠:通过 @novita_labs 在 @OpenRouter 上享受 Ring-2.6-1T 和 Ling-flash-2.6 九折优惠! Ring-2.6-1T:极致思考模型助您应对复杂规划。 Ling-flash-2.6:极致令牌效率助您节省开支。 详情请见下方 👇

向阳乔木@vista8 · 5月15日36

大语言模型(LLM)后训练技术:SFT、DPO、GRRO的简单对比。 SFT(让模型学会"听话") ↓ DPO(让模型输出更符合人类偏好) ↓ GRPO(进一步激发推理/思考能力) #一起学习

译推文简要对比了大语言模型(LLM)的三种后训练技术。SFT旨在让模型学会遵循指令。DPO则进一步优化模型输出,使其更符合人类偏好。GRPO作为后续步骤,专注于激发和提升模型的推理与思考能力。这三种技术构成了一个从基础指令遵循到高级认知能力开发的渐进式训练路径。

向阳乔木@vista8 · 5月15日59

AlphaGo的核心研究员 David Silver 提过一个思想实验: 如果把大语言模型扔到一个相信地球是平的世界里。 如果它无法跟真实世界互动,就算代码写得越来越好,它永远都只会是个"地平论者"。 说明模型真正的天花板,不是算力,不是参数量,而是它只能在被喂给它的数据框架里思考。

译AlphaGo核心研究员David Silver提出一个思想实验:若将大语言模型置于一个普遍相信地平说的世界,且模型无法与现实世界互动,那么无论其代码如何优化,它都将永远是一个“地平论者”。这揭示了大型语言模型(如GPT、Claude、LLaMA等)真正的能力上限并非取决于算力或参数量,而在于其思维被严格限制在所“喂养”的数据框架之内,缺乏与现实交互以验证和更新认知的根本能力。

Berryxia.AI@berryxia · 5月15日70

兄弟们,国内大模型现在彻底”大乱斗“了! 群雄共舞啊,用户可以有更多的选择了! 来自Ant Group AGI团队直接把Ring-2.6-1T这个1万亿参数的旗舰思考模型开源了。 这不是又一个聊天玩具,它专为真实世界的复杂任务而生:Agent工作流、代码工程、长时序执行、深度研究、企业自动化。 它能理解上下文、规划步骤、调用工具,在漫长任务链里保持稳定。支持两种reasoning模式——high用于高效生产,xhigh用于极致思考。底层IcePop异步强化学习算法,把万亿规模的长时序训练彻底稳住了。 最关键的一点,它完全开源。 这意味着什么? 兄弟们现在可以直接把这个顶级模型拉到本地服务器或者端侧环境跑,企业所有数据完全不出域,隐私安全和合规问题直接解决。 以前很多金融、政务、医疗、大型企业,因为数据敏感性,只能眼巴巴看着云端闭源模型干瞪眼。现在Ring-2.6-1T直接把执行级思考能力放在了自己手里。 本地部署门槛也已经大幅降低,结合MoE架构和优化后,很多中大型企业完全可以把最强Agent能力跑在自家机房。 模型已在以下地址上线: Hugging Face:https://huggingface.co/inclusionAI/Ring-2.6-1T ModelScope:https://modelscope.ai/models/inclusionAI/Ring-2.6-1T 如果你在做企业Agent、内部自动化或者对数据安全要求极高,这波开源值得立刻去试。

译蚂蚁集团AGI团队开源了万亿参数旗舰思考模型Ring-2.6-1T。该模型专为处理Agent工作流、代码工程、长时序执行等复杂任务设计,具备上下文理解、规划与工具调用能力,并提供高效与极致两种推理模式。其采用IcePop算法稳定训练,并借助MoE架构降低部署门槛。完全开源允许企业将模型部署于本地或端侧,确保数据不出域,有效解决了金融、政务等敏感领域对数据安全与合规的迫切需求。模型已在Hugging Face和ModelScope平台发布。

Orange AI@oran_ge · 5月15日42

执念就是明知道不理性还要做的事。 这不是科技能解决的问题。 反倒是人类最伟大的 feature。

译推文认为“执念”是明知不理性却仍坚持的行为,这是科技无法解决的人类伟大特性。引用推文指出,《人类简史》作者赫拉利具有“佛教化”思维,其关于无我、欲望、痛苦的理解与神经科学、AI、认知科学的最新发现相契合——自我可能只是大脑生成的叙事结构。尽管科技日益强大,但人的焦虑与空虚并未减少,导致硅谷和AI圈越来越多人回归冥想、正念等古老方式,重新审视自我本质、痛苦根源及意识观察。科技解决外部问题,意识问题仍需向内探寻。

Ethan Mollick@emollick · 5月15日66

The Second Scaling Law remains undefeated. If you want better hacking (or math, or science, or crossword puzzle solving) out of an LLM, just add thinking tokens. There doesn't seem to be any plateau so far.

译第二扩展定律依然所向披靡。 若想从大语言模型中获得更强的黑客能力(或数学、科学、填字游戏解题能力),只需增加思维令牌。 目前看来尚未出现任何性能瓶颈。

Rohan Paul@rohanpaul_ai · 5月15日73

WSJ: Anthropic’s Mythos helped researchers find 2 unknown macOS kernel bugs and turn them into a working privilege escalation exploit in 5 days. The target was the macOS kernel, the deepest layer of Apple’s desktop operating system, where code controls memory, processes, permissions, and access to hardware. Mythos helped connect 2 separate flaws with extra exploitation techniques, which means the attack did not rely on one bug but on a chain where each step made the next step possible. The exploit allegedly corrupted memory, bypassed Apple’s memory integrity protections, and gained access to protected parts of the system that normal apps should never reach. This is serious because modern macOS defenses are built to make memory bugs hard to convert into control of the machine, not just hard to find. Mythos can become so powerful here because vulnerability research is a search problem with many dead ends, where the model can help form hypotheses, inspect code behavior, reason across low-level constraints, and suggest exploit paths faster than manual work alone. --- wsj .com/tech/ai/anthropic-mythos-apple-macos-bug-339da403

译据《华尔街日报》报道,Anthropic的Mythos AI工具在短短五天内,成功帮助研究人员发现了两个此前未知的macOS内核漏洞,并将其串联成一个完整的权限提升攻击链。该攻击针对操作系统最底层的核心,通过组合多个漏洞和技术,绕过了苹果的内存完整性保护机制,访问了本应受保护的系统区域。这凸显出现代macOS的防御重点已从单纯防止漏洞发现,转向增加漏洞利用难度。Mythos在此类研究中展现出强大能力,因为它能协助形成假设、分析代码行为、推理底层约束并建议利用路径,从而大幅加速传统上依赖手动、试错的研究过程。

Berryxia.AI@berryxia · 5月15日32

LM Studio 又更新了 Beta 版,在MLX框架下优化增强了之前的缓存问题。 目前需要打开dev模式然后加油更新到最新版体验。

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes · 5月15日69

Mythos cracked MacOS in 5 days WHY THIS MATTERS: - It takes Google Project Zero - the most prestigious bug-finding team in the world - ***6 months*** per zero-day at the MacOS/iOS level - MacOS zero-days are worth ~$2 million+ each - Apple's threat model assumed a world with 10-20 groups capable of attacks at this level. The number is about to be in the thousands - There are ~2 billion active Apple devices. Macs disproportionately belong to journalists, executives, government officials, etc - the highest-value targets in the world. They chose Apple because Apple was the safest

译安全团队Mythos仅用五天就成功破解MacOS,这与谷歌Project Zero团队平均需六个月发现一个同级漏洞形成巨大反差。MacOS零日漏洞在黑市价值超200万美元。此事揭示了苹果安全威胁模型的根本误判:苹果原先预估全球仅有10-20个组织具备此级别攻击能力,但现实表明此类攻击者数量即将跃升至数千。全球约20亿台活跃苹果设备中,Mac用户多为记者、高管、政府官员等高价值目标,他们选择苹果本是出于其安全声誉,此次事件严重动摇了这一基础假设。

AYi@AYi_AInotes · 5月15日69

做LLM生产落地的开发老哥们,可以看Andrew Ng刚出的这门课,免费版可以看所有视频和基础代码。 这个课程不是又一遍Attention is All You Need的数学推导, 也不是又一套调prompt的玄学技巧, 更不是又一个从零写Transformer的玩具项目,它直接把LLM的黑箱给你拆开了。 会让你亲手玩自回归循环, 看着模型一个token一个token生成,看着某一步概率采样走偏, 看着幻觉是怎么一步步从无到有长出来的。 甚至会让你拖动滑块调整temperature,实时看到输出多样性的变化, 看到不同的采样策略到底在改变什么。 以及让你点开每一层每一个注意力头, 看到哪个头在管语法, 哪个头在管事实, 哪个头在管逻辑推理。 最狠的是推理优化部分, 这是所有生产工程师每天都在踩的坑,慢推理,OOM,成本爆炸。 以前所有人都告诉你要换更大的GPU。要加更多的机器。 这门课告诉你, 70%以上的延迟根本不是参数量的问题,是内存带宽的问题,是注意力计算的问题。 量化,KV Cache,Flash Attention,投机解码, 每一个技巧都能让你的模型速度翻2到5倍,精度损失几乎可以忽略。 而且这次是和AMD深度合作,由AMD工程副总裁亲自主讲。 终于有一门课不是只讲CUDA了,终于有人开始讲硬件感知的优化了。 虽然会调用API的人已经满大街都是了,但能看穿模型内部。能诊断问题。能优化成本的人,才是未来三年最稀缺的。 我觉得这门课最大的价值,是它终于把Transformer从一个学术概念,变成了一个你可以摸得到,可以调试,可以优化的工程工具。

译吴恩达与AMD合作推出新课《Transformers in Practice》,旨在将Transformer从学术概念转化为可调试的工程工具。课程提供交互式可视化,让开发者深入模型内部,观察自回归生成、注意力头分工及幻觉产生过程。核心聚焦生产中的推理优化难题,指出大部分延迟源于内存带宽与注意力计算,而非参数量。课程将系统讲解量化、KV Cache、Flash Attention、投机解码等关键技术,以实现数倍速度提升且精度损失极小。其最大价值在于培养能诊断问题、优化成本的稀缺人才,弥补了仅关注CUDA而缺乏硬件感知优化的市场空白。

Chubby♨️@kimmonismus · 5月15日55

GPT-5.5 has a certain magic about it. It solves one Erdős problem after another. this is what post-AGI research may actually feel like. Not one dramatic "AI solves math" moment, but dozens of parallel discoveries, anonymous contributors, formal proofs as trust infrastructure, and humans struggling to keep up cognitively.

译GPT-5.5 展现出持续解决 Erdős 问题的能力,这预示了后AGI研究的可能面貌:并非戏剧性的单一突破,而是大量并行发现、匿名贡献者参与、形式化证明作为信任基础设施,人类在认知上难以跟上。引用推文关键点显示,用户通过 ChatGPT-5.5-Pro 在解决第一个 Erdős 问题后不到两天,又快速攻克第二个问题,并利用形式化验证解决方案,体现了AI在数学研究中的高效应用。

Ant Ling@AntLingAGI · 5月14日83

🚀 Ring-2.6-1T is now open source. A trillion-scale flagship thinking model built for real-world complex tasks: Agent workflows, coding & engineering, long-horizon tasks, complex reasoning, research, and enterprise automation. It is designed to move beyond “answering” toward execution: understanding context, planning steps, calling tools, and staying stable across long task chains. Highlights: - Advanced agentic workflow support. - Reasoning effort levels: high for agentic tasks, xhigh for complex reasoning. - Scalable asynchronous RL via the IcePop algorithm, enabling stable, trillion-scale training for long-horizon agentic RL.

译Ring-2.6-1T 正式开源,这是一个专为现实世界复杂任务构建的万亿规模旗舰思考模型。其设计目标超越单纯的“回答”,转向任务执行,能够理解上下文、规划步骤、调用工具,并在长任务链中保持稳定。模型重点支持高级智能体工作流,提供不同级别的推理努力配置:常规任务采用高级别,复杂推理则启用更高强度。通过 IcePop 算法实现了可扩展的异步强化学习,从而支撑了面向长周期智能体任务的稳定万亿规模训练。

Chubby♨️@kimmonismus · 5月14日58

Rumors about the new Gemini Flash coming in. And holy, if true then big: 92% of GPT-5.5’s coding and reasoning performance, reportedly at 15–20x lower inference cost. And the latency? Sub-200ms for most queries. That would be nuts. no joke.

译传闻即将发布的Gemini 3.2 Flash模型在编码和推理任务上达到了GPT-5.5约92%的性能水平,同时推理成本降低了15至20倍。其延迟表现也极为出色,多数查询响应时间低于200毫秒。这主要得益于DeepMind的蒸馏和稀疏化技术,成功将前沿模型压缩为“Flash”变体,而避免了通常伴随的质量大幅下降。

🚨 AI News | TestingCatalog@testingcatalog · 5月14日60

Microsoft is exploring a deal to acquire Inception, an AI lab that recently released Mercury 2, the world's first reasoning diffusion LLM, according to Reuters. Imagine diffusion Copilot 👀

译据路透社报道,微软正在探索收购Inception的交易,该AI实验室近期发布了全球首个推理扩散大语言模型Mercury 2。 想象一下扩散版Copilot 👀

Xiaomi MiMo@XiaomiMiMo · 5月14日60

Wow, this is honestly exciting to see! Thanks to Design Arena and everyone who tested MiMo V2.5 Pro. We’ll keep building and improving 🚀

译MiMo V2.5 Pro (Thinking) 模型在Design Arena的开放权重模型总排行榜中位列第三,相比前代MiMo-V2.5跃升了8个名次。其在前端编码任务上的表现已与Claude Sonnet 4.6处于同一性能区间。团队对测试者表示感谢,并承诺将持续改进模型。

Rohan Paul@rohanpaul_ai · 5月14日77

Qwen 3.6 27B on a MacBook Pro M5 Max 64GB hitting 34tokens per sec, locally with atomic[.]chat 90% acceptance rate, i.e. most draft tokens matched what the main model would have produced, so the speed gain is not from skipping quality checks, but from avoiding repeated full-cost decoding work. TurboQuant and GGUF handle the storage and runtime side: the model is compressed enough to run locally, while llama.cpp can feed Apple Silicon efficiently instead of waiting on huge weight movement. Pretty serious local-inference result, changes what “laptop AI” can feel like.

译近期,Qwen 3.6 27B大型语言模型通过TurboQuant技术被量化为GGUF格式,并整合Multi-Token Prediction技术。在配备M5 Max芯片和64GB内存的MacBook Pro上,该模型实现了每秒34个token的本地推理速度。高达90%的接受率表明,性能提升并非以牺牲输出质量为代价,而是通过避免重复的全成本解码工作来达成。同时,利用llama.cpp进行高效调用,进一步优化了运行效率。这一技术组合显著扩展了“笔记本电脑AI”的应用边界,使得在本地设备上流畅运行大型模型成为可能,提升了用户体验。

Ethan Mollick@emollick · 5月14日58

Everyone has seen the @waitbutwhy cartoon of AI capability growth with a "you are here" indicator just before the exponential really starts, but the independent assessments of both METR and the UK's AISA do seem to show that we are past that point now (until we hit a slowdown?)

译大家都看过@waitbutwhy的漫画——在指数级增长真正开始前有个“你在此处”的标记, 而METR与英国AISA的独立评估似乎都表明, 我们现在已越过那个临界点了(直到增长放缓为止?)

Berryxia.AI@berryxia · 5月14日79

我靠,肉眼都跟不上这个速度了! Daniel Han,UnslothAI创始人,YC S24,之前在NVIDIA做ML,刚刚把Qwen3.6的实验MTP GGUF放出来了。 27B模型单GPU直接跑到140 tokens/s。 35B-A3B版本更猛,冲到220 tokens/s。 比原版GGUF快超过1.4倍,精度零损失。 他们测了半天,发现draft tokens设成2就是甜点,再往上接受率暴跌,实际速度反而掉下去。 我看完那张benchmark曲线图,最大的感受是,本地大模型的性能天花板又被狠狠顶高了一截。 以前总觉得30B+模型本地跑太慢,现在MTP投机解码直接把消费级显卡的潜力榨干了。 如果你在玩llama.cpp、跑本地Agent或者日常coding,这波更新必须马上试。 本地AI越来越不像“妥协版”了。

译UnslothAI创始人Daniel Han发布了实验性的Qwen3.6 MTP GGUF模型,显著提升了推理速度。其中,27B模型在单GPU上达到每秒140个token,35B-A3B版本更是高达每秒220个token,相比原版GGUF速度提升超过1.4倍且精度无损。关键优化在于将draft tokens设置为2,这是性能与接受率的最佳平衡点。这项MTP投机解码技术极大提升了消费级显卡运行大模型的效率,推动了本地AI的性能边界。

Ethan Mollick@emollick · 5月14日64

Stop turning prompting into magic spells (and yes, this includes random slash commands with obscure outcomes). Let this one area of working with AI not be weird. Just ask for stuff, in well-specified formats, like a manager, not a sorcerer with a bunch of incantations.

译推文批评当前用户将AI提示词复杂化为“魔法咒语”的现象,反对使用意义不明的斜杠命令和模糊开关。引用推文讽刺了诸如“/fast”模式、“无错误”切换等故弄玄虚的操作设置,暗示这些做法让使用过程变得怪异且低效。核心观点是:与AI协作应像管理者一样,直接提出结构清晰、格式明确的要求,而非依赖晦涩的“咒语”式指令。

AK@_akhaliq · 5月13日61

EgoMemReason A Memory-Driven Reasoning Benchmark for Long-Horizon Egocentric Video Understanding

译EgoMemReason 一个用于长时第一人称视频理解的记忆驱动推理基准

Berryxia.AI@berryxia · 5月13日47

兄弟们,我现在也学精了。 之前我的刹车片有异响,被 4S 店忽悠着换了一套,记得当时花了一千多。 今年最近广东这边下大雨,空气非常潮湿,湿度干到80-90%,结果昨天我那刹车片又开始响了。 我就用 ChatGPT 问了一下是什么情况,最后判断排除,可能就是因为潮湿导致上面有了锈迹。 AI 推荐了一些清洗剂,我就去网上找了一下。昨天在京东买的,今天已经到了。 喷上之后试了几下,真的没有再响。 这种刹车片有个问题:它在低速怠速的时候容易响,高速转动刹车时反而不会响。 这玩意儿一瓶才 69 块钱,一喷就解决了。 以前真没注意这个问题,4S 店还跟我说是刹车片磨损什么的,纯粹就是忽悠人。 所以说,之前这笔智商税真的是交得妥妥的,还是得感谢 AI。😂

译车主发现刹车片在潮湿天气出现异响,未选择4S店建议的更换方案,转而通过ChatGPT分析问题。AI判断异响可能源于潮湿导致的锈迹,并推荐使用清洗剂处理。车主花费69元购买清洗剂后,喷洒试用成功消除异响。此前4S店曾以磨损为由建议更换整套刹车片,费用超千元。此事凸显了AI在日常生活问题诊断中的实用价值,帮助用户避免了不必要的开支。

Tencent Hy@TencentHunyuan · 5月13日76

Hy3 preview is now on @gmi_cloud. 🙌

译Hy3 预览版现已登陆 @gmi_cloud。🙌

Berryxia.AI@berryxia · 5月13日72

如何对本地大模型进行基准测试 ? 1、拉取一个模型 2、运行 BenchLoop 3、实时查看质量 / 速度 / 可靠性评分 4、对比不同提示框架(如原生模式 vs Hermes 模式) 5、自动发布到公开排行榜 https://bench-loop.com

译BenchLoop 提供了一套对本地大模型进行基准测试的标准化流程。用户只需拉取模型并运行该工具,即可实时获取模型在质量、速度和可靠性方面的综合评分。平台支持对比不同提示框架(如原生模式与 Hermes 模式)下的性能表现。测试完成后,结果可自动发布至公开排行榜,便于横向比较不同模型的优劣。

Berryxia.AI@berryxia · 5月13日52

这个榜单你认为符合你的预期么?🤔

译根据Text Arena最新分类排名,五大前沿AI模型展现出不同的优势领域与取舍。Claude Opus 4.7表现最为全面稳定,在几乎所有主要类别中领先。Gemini 3.1 Pro能力均衡,尤其在创意写作方面突出。Muse Spark在整体表现和编程方面强劲,但在专家任务、数学和长查询上稍弱。GPT-5.5 High是整体最平衡的模型之一,在专家任务和数学领域表现特别出色。Grok 4.20则更偏专长,主要在创意写作和困难提示方面表现突出。该榜单清晰揭示了当前顶级模型在通用性与专项能力上的不同发展路径。

ClaudeDevs@ClaudeDevs · 5月13日76

Fast mode for Claude Opus 4.7 is now available in research preview on the API and in Claude Code.

译Claude Opus 4.7的快速模式现已在API和Claude Code中开放研究预览。

SemiAnalysis@SemiAnalysis_ · 5月13日61

THE MORE U BUY, THE MORE U SAVE: By ganging up multiple B200 8-GPU machines together over RoCEv2 CX-7 ethernet with Tomahawk switches with an inference optimization called PD disaggregation, the per GPU token throughput increases up to 7x. By increasing per GPU token throughput by up to 7x, this decreases cost per million tokens by up to 7x also. Great work to @inferact & @vllm_project for building this amazing OSS engine & for @NVIDIADC @KranenKyle for building dynamo inference orchestrator. More improvements to disagg b200 perf to come!

译通过RoCEv2 CX-7以太网和Tomahawk交换机连接多台B200 8-GPU机器,并采用名为PD disaggregation的推理优化技术,单GPU的token吞吐量最高可提升7倍。吞吐量的大幅提升使得每百万token的成本也相应降低了最多7倍。这一成果得益于Inferact和vLLM项目开发的开源引擎,以及NVIDIA团队构建的动态推理编排器。未来针对B200 disaggregation的性能还将有进一步改进。

向阳乔木@vista8 · 5月13日68

免费开源基于这篇论文写的Skill 让 3–5 个完全独立 Sub agent 独立思考同一个问题,再由 Codex 主持讨论。 找出每个视角盲点,最后给出一个比单推理更好的结论。 安装 npx skills add joeseesun/qiaomu-heavyskill 开源地址: https://github.com/joeseesun/qiaomu-heavyskill Demo讨论: https://www.32kw.com/view/f4acd0c

译HeavySkill论文提出让多个AI agent并行独立思考同一问题,再通过综合推理得出更优答案,能显著提升回答质量。基于这一思路,开发者开源了一个免费Skill,部署3-5个完全独立的Sub agent进行并行推理,然后由Codex主持讨论,以识别每个agent的视角盲点,最终生成比单一推理更好的结论。该Skill的开源代码和Demo已公开提供。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月17日
06:54
Berryxia.AI@berryxia
63
Claude Mythos模型悄然现身Google Cloud Console,预示企业级发布

Claude Mythos模型近日悄然出现在Google Cloud Console中,其预览标签已消失,发布模式与之前Opus 4.7类似,预示可能即将正式落地。Anthropic曾称该模型“太危险”不适合公开发布,但目前迹象表明,公司可能不会推出公开版本,而是转而作为模型提供商,通过Google Cloud Platform让已接入的企业客户直接在自有环境中调用和使用。这一举动被视为Anthropic以最安静的方式将其高级思考模型推向生产环境,并逆转了此前关于该模型危险的叙事。

🚨 AI News | TestingCatalog: ANTHROPIC 🔥: Claude Mythos model has been spotted on Google Cloud Console. -claude-mythos 👀 It is hard to imagine that...

Anthropic推理模型发布
06:03
Chubby♨️@kimmonismus
60
Claude Mythos惊现Google Cloud控制台引困惑

Claude Mythos模型近日意外出现在Google Cloud控制台,且其预览标签已消失,观察者据此猜测Anthropic可能正准备公开发布该模型,类似此前Opus 4.7发布前的先例。然而,Anthropic曾多次公开表示,出于风险考虑不会发布Mythos,且该模型已被证实能力极强,因此部分观点认为该公司此刻进行彻底转向并发布该模型的可能性极低,这也会使其显得不够专业。用户对此表示困惑,强调无法想象任何发布场景,并引用推文示例佐证模型实力。整体上,事件引发猜测,但基于官方立场,实际发布概率被认为较小。

AiBattle: Claude Mythos now appears in the Google Cloud console, which was not the case yesterday The preview label is also gone. ...

Anthropic大佬观点推理
00:51
Ant Ling@AntLingAGI
精选80
又一次Day0协作,又一次社区胜利。感谢@vllm_project团队始终可靠的支持~ 🫡🫡

vLLM: Congrats to @AntLingAGI on Ring-2.6-1T going open! 🎉 The thinking sibling of Ling-2.6-1T - trillion-scale, built for ag...

智能体开源生态推理模型发布

推荐理由:蚂蚁百灵把万亿参数的 thinking 模型开源,vLLM 第一天就能跑,想自己搭 agent 推理服务的可以直接动手了,开源生态的齿轮转得比想象中快。
00:51
Ant Ling@AntLingAGI
74
Ring-2.6-1T万亿参数旗舰模型正式发布,专注于处理复杂现实世界任务,并在SGLang平台获得Day-0即时支持,得益于与@lmsysorg的合作。该模型具备增强的智能体执行能力,可稳定处理多步骤、工具调用和长流程工作。用户可通过推理努力控制的高与极高模式,灵活调节推理深度、速度和成本。训练采用异步强化学习与IcePop技术,确保万亿参数强化学习训练的效率和稳定性。目前,该模型在OpenRouter平台提供限时75%折扣,供用户体验最新功能。

LMSYS Org: 🎉 Congrats on the release of Ring-2.6-1T, a trillion-parameter flagship for complex, real-world tasks. Day-0 support is...

智能体开源/仓库推理模型发布
00:51
Ant Ling@AntLingAGI
精选76
蚂蚁集团发布万亿参数推理模型Ring-2.6-1T,专为现实世界智能体工作流构建。该模型采用MIT许可,上下文长度通过YaRN技术从128K扩展至256K,并采用Async RL与IcePop混合训练架构。其核心特点是具备双推理努力模式:"high"模式用于快速智能体循环,"xhigh"模式用于深度推理,旨在实现更好的成本与性能平衡。模型已开源,欢迎社区反馈。

Adina Yakup: Ant group just dropped Ring-2.6-1T 🔥 1T reasoning model, built for real world agent workflows. ✨ MIT license ✨ 128K >> ...

智能体Hugging Face开源生态推理

推荐理由:蚂蚁把1T推理模型以MIT许可开源,还专门为Agent循环做了高低推理双模式,做开源Agent的团队直接多了一个强力基座可选。
00:21
Ant Ling@AntLingAGI
66
Ring-2.6-1T模型现已开源,并上线OpenRouter平台,5月底前享有75%折扣。该模型由AntLingAGI开发,是一个为现实世界智能体构建的万亿级推理模型,其核心设计目标不仅是回答问题,更是执行任务。它专注于规划步骤、使用工具、维持上下文和完成复杂工作流,具备强大的智能体执行能力和高推理模式,并采用了Async RL与IcePop训练方法。

Novita AI: 🚀 Ring-2.6-1T is now open source (from @AntLingAGI). Now 90% off on @OpenRouter via @novita_labs - a great time to star...

智能体开源生态推理模型发布
5月16日
22:54
Berryxia.AI@berryxia
61
长上下文LLM竞争已转向:从堆token转向精细的架构优化

长上下文大型语言模型的竞争焦点已从单纯增加上下文长度,转向通过精细的架构优化来提升计算效率。Sebastian Raschka的新文章通过可视化方式,解析了从Gemma 4到DeepSeek V4等模型在生产环境中应用的关键效率优化技术,如KV缓存共享、分层嵌入和压缩注意力等。这些技术旨在更智能地分配计算资源,已成为决定模型性能差异的关键。对于从事长上下文模型、智能体或RAG开发的团队而言,文章中的视觉图解与效率对比具有重要的参考价值。

Sebastian Raschka: New article: a visual tour of recent LLM architecture advances, from Gemma 4 to DeepSeek V4. I focus on long-context eff...

推理现象/趋势部署/工程
20:38
Rohan Paul@rohanpaul_ai
58
陶哲轩论大型语言模型:简单数学与不可预测行为之谜

陶哲轩指出,大型语言模型(LLMs)的训练和运行主要基于线性代数、矩阵乘法和微积分等简单数学,本科生即可掌握。然而,核心谜团在于LLMs为何在某些任务上表现卓越,却在其他任务上失败,且无法提前预测。这源于现实世界数据的性质:它介于完全噪声和完全结构化之间,而数学对此中间状态的理解薄弱,类似于物理学在原子和连续介质之间的介观尺度困境。因此,尽管我们能描述LLMs的机制,却无法解释其能力跳跃或提供可靠的任务级预测。简单机制与难以预测行为之间的不匹配,构成了当前研究的核心难题。

大佬观点推理现象/趋势
17:02
Chubby♨️@kimmonismus
精选75
研究人员利用Anthropic Mythos工具构建macOS内核漏洞,绕过苹果M5芯片内存完整性执行安全系统

三名研究人员借助Anthropic的Mythos工具,成功开发出一个可绕过苹果M5芯片内存完整性执行(MIE)安全机制的macOS内核漏洞利用程序。MIE是苹果耗时五年、投入巨资为M5和A19芯片打造的旗舰安全功能,旨在彻底消除内存损坏漏洞。研究团队于4月25日发现漏洞,5月1日即完成开发,并亲自前往苹果园区提交报告。该攻击采用纯数据攻击方式,无需操纵指针,仅通过非特权用户的标准系统调用即可获取根权限。完整技术报告将在苹果发布补丁后公开。

International Cyber Digest: Video of exploit in action. Source: https://blog.calif.io/p/first-public-kernel-memory-corruption

Anthropic安全/对齐推理编码

推荐理由:从发现漏洞到提权 root 只用了六天,Mythos 绕开了苹果最核心的安全屏障。这是 AI 辅助漏洞利用的分水岭,安全工程师现在就该看。
14:42
AYi@AYi_AInotes
70
Anthropic神秘模型Mythos Preview展现颠覆性漏洞挖掘能力

Anthropic的神秘AI模型Mythos Preview在网络安全领域取得突破性进展。该模型仅用五天就成功构造出针对苹果硬件级安全防线MIE的macOS内核漏洞利用程序,而同类任务通常需要Google Project Zero团队平均六个月完成。Mythos不仅能自主阅读代码、提出假设并验证,还能独立完成从漏洞发现到编写完整利用链的全过程。这标志着AI正将漏洞挖掘的技术门槛急剧降低,预示着未来网络安全攻防可能演变为AI之间的自动化竞赛。相关技术报告已提交苹果,修复后将公开。

Anthropic安全/对齐推理模型发布
03:05
Artificial Analysis@ArtificialAnlys
63
AI在经济价值任务中快速进步:根据GDPval-AA Elo评分,GPT-5.5在实际工作产出中预计将赢得约98%的正面比较,对比对象是一年前GDPval-AA领先模型Claude 4 Sonnet GDPval-AA衡量模型在九个行业44个职业中的任务完成能力。图示展示了Claude 4 Sonnet(2025年5月)与GPT-5.5(xhigh,2026年5月)在库存管理任务中的幻灯片输出对比
OpenAI推理评测/基准
02:17
Epoch AI@EpochAIResearch
64
Claude通常在软件工程方面优于前沿竞争对手,数学方面则稍逊。 根据我们汇总基准测试创建的领域特定ECI指标,Claude家族的软件工程ECI平均比通用ECI高2.7分,数学ECI则低1.8分。
Anthropic推理现象/趋势编码
00:32
Chubby♨️@kimmonismus
66
OpenAI推出个人理财功能,或冲击金融科技初创企业

OpenAI为美国ChatGPT Pro用户推出了个人理财功能。用户可通过Plaid连接银行账户,获得消费仪表盘,并能基于实际交易数据向GPT-5.5提问,查询余额、消费模式、订阅和投资等信息。该功能无法查看完整账号或移动资金。未来将集成Intuit用于税务估算和信用卡申请,其“金融记忆”可跨对话存储储蓄目标等上下文。Plus用户将稍后获得,免费用户最终也会开放。内部基准测试显示,GPT-5.5在复杂个人理财任务上得分为79/100,GPT-5.5 Pro为82.5/100。此举被认为对许多金融科技初创企业构成了直接竞争。

ChatGPT: A preview for Pro users: a new personal finance experience in ChatGPT. Pro users in the U.S. can securely connect financ...

OpenAI产品更新推理
5月15日
23:18
Ant Ling@AntLingAGI
39
限时优惠:通过 @novita_labs 在 @OpenRouter 上享受 Ring-2.6-1T 和 Ling-flash-2.6 九折优惠! Ring-2.6-1T:极致思考模型助您应对复杂规划。 Ling-flash-2.6:极致令牌效率助您节省开支。 详情请见下方 👇
推理行业动态
21:27
向阳乔木@vista8
36
推文简要对比了大语言模型(LLM)的三种后训练技术。SFT旨在让模型学会遵循指令。DPO则进一步优化模型输出,使其更符合人类偏好。GRPO作为后续步骤,专注于激发和提升模型的推理与思考能力。这三种技术构成了一个从基础指令遵循到高级认知能力开发的渐进式训练路径。
推理教程/实践数据/训练
18:27
向阳乔木@vista8
59
大模型天花板在于数据框架,而非算力参数

AlphaGo核心研究员David Silver提出一个思想实验:若将大语言模型置于一个普遍相信地平说的世界,且模型无法与现实世界互动,那么无论其代码如何优化,它都将永远是一个“地平论者”。这揭示了大型语言模型(如GPT、Claude、LLaMA等)真正的能力上限并非取决于算力或参数量,而在于其思维被严格限制在所“喂养”的数据框架之内,缺乏与现实交互以验证和更新认知的根本能力。

DeepMind大佬观点推理
12:54
Berryxia.AI@berryxia
70
蚂蚁集团开源万亿参数思考模型Ring-2.6-1T,推动企业级AI本地部署

蚂蚁集团AGI团队开源了万亿参数旗舰思考模型Ring-2.6-1T。该模型专为处理Agent工作流、代码工程、长时序执行等复杂任务设计,具备上下文理解、规划与工具调用能力,并提供高效与极致两种推理模式。其采用IcePop算法稳定训练,并借助MoE架构降低部署门槛。完全开源允许企业将模型部署于本地或端侧,确保数据不出域,有效解决了金融、政务等敏感领域对数据安全与合规的迫切需求。模型已在Hugging Face和ModelScope平台发布。

智能体开源生态推理模型发布
08:36
Orange AI@oran_ge
42
推文认为"执念"是明知不理性却仍坚持的行为,这是科技无法解决的人类伟大特性。引用推文指出,《人类简史》作者赫拉利具有"佛教化"思维,其关于无我、欲望、痛苦的理解与神经科学、AI、认知科学的最新发现相契合--自我可能只是大脑生成的叙事结构。尽管科技日益强大,但人的焦虑与空虚并未减少,导致硅谷和AI圈越来越多人回归冥想、正念等古老方式,重新审视自我本质、痛苦根源及意识观察。科技解决外部问题,意识问题仍需向内探寻。

李举刚: 时隔一年之后,我重新再读 人类简史,我突然发现了一些之前没太注意到的东西。 我越来越感觉,作者尤瓦尔·赫拉利身上其实有一种很强的"佛教化"思维,后面很多关于人类、文明、AI、意识的表达,都是从这个视角延伸出来的。 不是传统意义上的宗教感,而...

大佬观点推理
08:35
Ethan Mollick@emollick
66
第二扩展定律依然所向披靡。 若想从大语言模型中获得更强的黑客能力(或数学、科学、填字游戏解题能力),只需增加思维令牌。 目前看来尚未出现任何性能瓶颈。

Natália 🔍: Very important update from UK AISI. This is a meaningful change from the previous report. Here's what the new data would...

大佬观点推理数据/训练
08:06
Rohan Paul@rohanpaul_ai
73
Anthropic的Mythos AI在五天内协助发现并利用两个未知macOS内核漏洞

据《华尔街日报》报道,Anthropic的Mythos AI工具在短短五天内,成功帮助研究人员发现了两个此前未知的macOS内核漏洞,并将其串联成一个完整的权限提升攻击链。该攻击针对操作系统最底层的核心,通过组合多个漏洞和技术,绕过了苹果的内存完整性保护机制,访问了本应受保护的系统区域。这凸显出现代macOS的防御重点已从单纯防止漏洞发现,转向增加漏洞利用难度。Mythos在此类研究中展现出强大能力,因为它能协助形成假设、分析代码行为、推理底层约束并建议利用路径,从而大幅加速传统上依赖手动、试错的研究过程。

Anthropic安全/对齐推理
07:51
Berryxia.AI@berryxia
32
LM Studio 又更新了 Beta 版,在MLX框架下优化增强了之前的缓存问题。 目前需要打开dev模式然后加油更新到最新版体验。
产品更新开源/仓库推理
03:35
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
69
Mythos团队仅用五天破解MacOS,暴露苹果安全模型重大误判

安全团队Mythos仅用五天就成功破解MacOS,这与谷歌Project Zero团队平均需六个月发现一个同级漏洞形成巨大反差。MacOS零日漏洞在黑市价值超200万美元。此事揭示了苹果安全威胁模型的根本误判:苹果原先预估全球仅有10-20个组织具备此级别攻击能力,但现实表明此类攻击者数量即将跃升至数千。全球约20亿台活跃苹果设备中,Mac用户多为记者、高管、政府官员等高价值目标,他们选择苹果本是出于其安全声誉,此次事件严重动摇了这一基础假设。

Andrew Curran: Mythos has cracked MacOS. It took five days.

安全/对齐推理
01:40
AYi@AYi_AInotes
69
吴恩达新课拆解Transformer,聚焦LLM生产落地与优化

吴恩达与AMD合作推出新课《Transformers in Practice》,旨在将Transformer从学术概念转化为可调试的工程工具。课程提供交互式可视化,让开发者深入模型内部,观察自回归生成、注意力头分工及幻觉产生过程。核心聚焦生产中的推理优化难题,指出大部分延迟源于内存带宽与注意力计算,而非参数量。课程将系统讲解量化、KV Cache、Flash Attention、投机解码等关键技术,以实现数倍速度提升且精度损失极小。其最大价值在于培养能诊断问题、优化成本的稀缺人才,弥补了仅关注CUDA而缺乏硬件感知优化的市场空白。

Andrew Ng: New course: Transformers in Practice. You'll get a practical view of how transformer-based LLMs work, so you can reason ...

推理教程/实践部署/工程
01:31
Chubby♨️@kimmonismus
55
GPT-5.5 展现出持续解决 Erdős 问题的能力,这预示了后AGI研究的可能面貌:并非戏剧性的单一突破,而是大量并行发现、匿名贡献者参与、形式化证明作为信任基础设施,人类在认知上难以跟上。引用推文关键点显示,用户通过 ChatGPT-5.5-Pro 在解决第一个 Erdős 问题后不到两天,又快速攻克第二个问题,并利用形式化验证解决方案,体现了AI在数学研究中的高效应用。

David Turturean: I fully solved my 2nd Erdős Problem using ChatGPT-5.5-Pro - and then I verified the solution by formalizing it! Less tha...

OpenAI推理现象/趋势
5月14日
23:45
Ant Ling@AntLingAGI
83
Ring-2.6-1T开源:万亿级思考模型支持复杂任务执行

Ring-2.6-1T 正式开源,这是一个专为现实世界复杂任务构建的万亿规模旗舰思考模型。其设计目标超越单纯的“回答”,转向任务执行,能够理解上下文、规划步骤、调用工具,并在长任务链中保持稳定。模型重点支持高级智能体工作流,提供不同级别的推理努力配置:常规任务采用高级别,复杂推理则启用更高强度。通过 IcePop 算法实现了可扩展的异步强化学习,从而支撑了面向长周期智能体任务的稳定万亿规模训练。

智能体开源生态推理模型发布
20:01
Chubby♨️@kimmonismus
58
传闻即将发布的Gemini 3.2 Flash模型在编码和推理任务上达到了GPT-5.5约92%的性能水平,同时推理成本降低了15至20倍。其延迟表现也极为出色,多数查询响应时间低于200毫秒。这主要得益于DeepMind的蒸馏和稀疏化技术,成功将前沿模型压缩为"Flash"变体,而避免了通常伴随的质量大幅下降。

Bindu Reddy: Gemini 3.2 Flash - Capitalizing on DeepMind's clever distillation techniques... Rumors are that benchmarks show it's hit...

Google推理模型发布编码
18:08
🚨 AI News | TestingCatalog@testingcatalog
60
据路透社报道,微软正在探索收购Inception的交易,该AI实验室近期发布了全球首个推理扩散大语言模型Mercury 2。 想象一下扩散版Copilot 👀

🚨 AI News | TestingCatalog: BREAKING 🚨: Inception has launched Mercury 2, the first reasoning diffusion LLM with 5x the performance of top-speed-op...

Microsoft推理行业动态
13:58
Xiaomi MiMo@XiaomiMiMo
60
MiMo V2.5 Pro (Thinking) 模型在Design Arena的开放权重模型总排行榜中位列第三,相比前代MiMo-V2.5跃升了8个名次。其在前端编码任务上的表现已与Claude Sonnet 4.6处于同一性能区间。团队对测试者表示感谢,并承诺将持续改进模型。

Design Arena: BREAKING: MiMo V2.5 Pro (Thinking) takes 3rd overall out of open weights models on Design Arena. MiMo V2.5 Pro (Thinking...

推理编码评测/基准
13:35
Rohan Paul@rohanpaul_ai
77
Qwen 3.6 27B 在 MacBook Pro M5 Max 64GB 上实现每秒34个token的本地推理

近期,Qwen 3.6 27B大型语言模型通过TurboQuant技术被量化为GGUF格式,并整合Multi-Token Prediction技术。在配备M5 Max芯片和64GB内存的MacBook Pro上,该模型实现了每秒34个token的本地推理速度。高达90%的接受率表明,性能提升并非以牺牲输出质量为代价,而是通过避免重复的全成本解码工作来达成。同时,利用llama.cpp进行高效调用,进一步优化了运行效率。这一技术组合显著扩展了“笔记本电脑AI”的应用边界,使得在本地设备上流畅运行大型模型成为可能,提升了用户体验。

atomic.chat: Multi-Token Prediction (MTP) for Qwen on LLaMA.cpp! +40% performance! 90% acceptance rate. Running locally on a MacBook ...

GitHub推理教程/实践端侧
13:04
Ethan Mollick@emollick
58
大家都看过@waitbutwhy的漫画--在指数级增长真正开始前有个"你在此处"的标记, 而METR与英国AISA的独立评估似乎都表明, 我们现在已越过那个临界点了(直到增长放缓为止?)
大佬观点推理
10:51
Berryxia.AI@berryxia
精选79
UnslothAI发布Qwen3.6 MTP GGUF模型,实现推理速度大幅提升

UnslothAI创始人Daniel Han发布了实验性的Qwen3.6 MTP GGUF模型,显著提升了推理速度。其中,27B模型在单GPU上达到每秒140个token,35B-A3B版本更是高达每秒220个token,相比原版GGUF速度提升超过1.4倍且精度无损。关键优化在于将draft tokens设置为2,这是性能与接受率的最佳平衡点。这项MTP投机解码技术极大提升了消费级显卡运行大模型的效率,推动了本地AI的性能边界。

Daniel Han: We released experimental MTP Qwen3.6 Unsloth GGUFs! Qwen3.6 27B MTP now runs at 140 tokens/s. Qwen3.6 35B-A3B MTP gets 2...

推理教程/实践部署/工程

推荐理由:这波MTP投机解码把消费级显卡的推理速度榨出新高度,27B模型单GPU跑140 tokens/s,精度毫无损失。玩llama.cpp或本地Agent的人现在就该试一下。
04:04
Ethan Mollick@emollick
64
推文批评当前用户将AI提示词复杂化为"魔法咒语"的现象,反对使用意义不明的斜杠命令和模糊开关。引用推文讽刺了诸如"/fast"模式、"无错误"切换等故弄玄虚的操作设置,暗示这些做法让使用过程变得怪异且低效。核心观点是:与AI协作应像管理者一样,直接提出结构清晰、格式明确的要求,而非依赖晦涩的"咒语"式指令。

roon: no bro you need to turn on "/extrausage". dawg are you sure you have "/fast" mode on? Did you check the "no mistakes" to...

大佬观点推理
5月13日
21:01
AK@_akhaliq
61
EgoMemReason 一个用于长时第一人称视频理解的记忆驱动推理基准
推理视频论文/研究
12:50
Berryxia.AI@berryxia
47
车主借ChatGPT诊断刹车异响,69元清洗剂替代4S店千元维修

车主发现刹车片在潮湿天气出现异响,未选择4S店建议的更换方案,转而通过ChatGPT分析问题。AI判断异响可能源于潮湿导致的锈迹,并推荐使用清洗剂处理。车主花费69元购买清洗剂后,喷洒试用成功消除异响。此前4S店曾以磨损为由建议更换整套刹车片,费用超千元。此事凸显了AI在日常生活问题诊断中的实用价值,帮助用户避免了不必要的开支。

OpenAI推理教程/实践
11:55
Tencent Hy@TencentHunyuan
精选76
Hy3 预览版现已登陆 @gmi_cloud。🙌

GMI Cloud: Hy3 preview from @TencentHunyuan is now live on GMI #1 on OpenRouter's LLM leaderboard, open-sourced, and the strongest ...

智能体开源生态推理模型发布

推荐理由:腾讯混元 Hy3 开源且登顶 OpenRouter 排行榜,295B MoE 架构在推理和代码上提升明显,不是小厂的刷榜产品,搞 agent 和 coding 的可以认真试试。
11:50
Berryxia.AI@berryxia
72
BenchLoop:本地大模型一键基准测试与排行榜发布

BenchLoop 提供了一套对本地大模型进行基准测试的标准化流程。用户只需拉取模型并运行该工具,即可实时获取模型在质量、速度和可靠性方面的综合评分。平台支持对比不同提示框架(如原生模式与 Hermes 模式)下的性能表现。测试完成后,结果可自动发布至公开排行榜,便于横向比较不同模型的优劣。

推理教程/实践部署/工程
08:49
Berryxia.AI@berryxia
52
根据Text Arena最新分类排名,五大前沿AI模型展现出不同的优势领域与取舍。Claude Opus 4.7表现最为全面稳定,在几乎所有主要类别中领先。Gemini 3.1 Pro能力均衡,尤其在创意写作方面突出。Muse Spark在整体表现和编程方面强劲,但在专家任务、数学和长查询上稍弱。GPT-5.5 High是整体最平衡的模型之一,在专家任务和数学领域表现特别出色。Grok 4.20则更偏专长,主要在创意写作和困难提示方面表现突出。该榜单清晰揭示了当前顶级模型在通用性与专项能力上的不同发展路径。

Arena.ai: The top 5 labs in Text Arena rankings by category show that frontier models have distinct strengths and tradeoffs. #1 @A...

AnthropicOpenAI推理编码
02:30
ClaudeDevs@ClaudeDevs
精选76
Claude Opus 4.7的快速模式现已在API和Claude Code中开放研究预览。
Anthropic推理模型发布编码

推荐理由:Opus 4.7 加推 Fast mode,编程场景延迟会降一大截,Claude Code 可以直接用,对天天在终端敲代码的人是个实在提升。
01:04
SemiAnalysis@SemiAnalysis_
61
聚合多台B200 GPU机器,吞吐量提升7倍并显著降低成本

通过RoCEv2 CX-7以太网和Tomahawk交换机连接多台B200 8-GPU机器,并采用名为PD disaggregation的推理优化技术,单GPU的token吞吐量最高可提升7倍。吞吐量的大幅提升使得每百万token的成本也相应降低了最多7倍。这一成果得益于Inferact和vLLM项目开发的开源引擎,以及NVIDIA团队构建的动态推理编排器。未来针对B200 disaggregation的性能还将有进一步改进。

推理行业动态部署/工程
00:52
向阳乔木@vista8
68
HeavySkill论文提出让多个AI agent并行独立思考同一问题,再通过综合推理得出更优答案,能显著提升回答质量。基于这一思路,开发者开源了一个免费Skill,部署3-5个完全独立的Sub agent进行并行推理,然后由Codex主持讨论,以识别每个agent的视角盲点,最终生成比单一推理更好的结论。该Skill的开源代码和Demo已公开提供。

向阳乔木: 读了一篇叫HeavySkill的论文,非常有意思。 让多个 AI先并行"独立思考",生成多条独立推理。 再用另一轮推理来综合所有思路,得出最终答案。 按论文测试结果,回答质量会提升非常多。 正在按这个思路写一个Skill,Claude Co...

智能体开源/仓库推理
‹ 上一页
1…1415161718…25
下一页 ›