AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 505 条
全部一手资讯X论文
elvis@omarsar0 · 5月19日67

NEW paper from Meta. (bookmark it) It's an agent system that autonomously discovers neural architectures that beat Llama 3.2 at 350M, 1B, and 3B scales, all under a 24-hour compute budget. They get this work by splitting the search into two agents: > AIRA-Compose searches the macro architecture. > AIRA-Design implements the low-level mechanisms. For devs: If one agent in your stack is doing both strategy and implementation, split it. Run a planner that picks the structure and an implementer that fills in the mechanisms. AIRA shows this beats a single end-to-end agent on a real, non-toy search problem. The same split is useful for pipeline assembly, query planning, prompt scaffolding, and tool-use programs. Paper: https://arxiv.org/abs/2605.15871 Learn to build effective AI agents in our academy: https://academy.dair.ai/

译Meta提出AIRA系统,通过分离策略与实现的双代理架构,实现神经架构的自主发现。AIRA-Compose负责宏观架构搜索,AIRA-Design专注低级机制实现。该系统在24小时计算预算内,于350M、1B和3B规模上找到超越Llama 3.2的架构。其核心方法论表明,在复杂任务中分离规划代理与实现代理能提升效能,此思路同样适用于流水线组装、查询规划等其他AI代理场景。

Berryxia.AI@berryxia · 5月18日64

兄弟们,Google最新论文直接把时间序列预测的底层逻辑翻了个个儿。 过去所有模型都在死磕历史数据:曲线怎么走,就怎么预测。 Nexus却说:预测需要的不只是历史,而是“事件上下文”。 数字背后的真正原因——政策、突发事件、宏观趋势、局部冲击——必须和数字互相解释。 他们用多agent框架把这件事拆得清清楚楚: 一个agent从海量文本里提炼事件时间线, 一个读宏观政权, 一个盯局部冲击, 最后一个合成器把所有信息和历史误差校准后给出最终预测。 真实测试里,用Claude驱动的Nexus版本,在Zillow数据集上把平均MAPE直接砍了86.6%。 不是小幅提升,是降维打击。 以前模型只会“看懂模式”,现在它开始“理解因果”。 这篇论文真正厉害的地方不是某个数字,而是把预测从“统计外推”彻底变成了“多agent推理”。

译Google论文提出的Nexus框架颠覆了传统时间序列预测仅依赖历史数据的模式,强调“事件上下文”的核心作用。该框架采用多智能体协作架构:分别从文本中提取事件时间线、解读宏观态势、追踪局部冲击,最终通过合成器整合信息并校准误差。在Zillow数据集测试中,基于Claude的版本将平均预测误差(MAPE)大幅降低86.6%,实现了从“识别模式”到“理解因果”的范式转变。这标志着预测方法正从统计外推转向结构化推理,为未来预测系统指明了新方向。

Ethan Mollick@emollick · 5月18日58

“Data centers create economic activity, especially in directly related sectors and during construction, and they are associated with larger county-level income aggregates. They also raise electricity prices and are associated with higher house prices,”

译一项NBER研究指出,数据中心(部分由AI需求驱动)的增长能促进当地就业、工资和整体收入,并带来显著的经济活动,尤其是在直接相关行业和建设期间。然而,这种增长也伴随着负面效应:它会推高当地的电力价格,并与更高的房价相关联。

Berryxia.AI@berryxia · 5月18日67

http://x.com/i/article/2056041643103715328 # Anthropic Claude 5天攻破Apple M5 macOS内核漏洞:5年数十亿防线,被AI一举击穿 ! Anthropic Claude 5天攻破Apple M5 macOS内核漏洞:5年数十亿防线,被AI一举击穿 Anthropic Claude Mythos Preview仅用5天,就帮助安全团队Calif完成了首个公开的Apple M5 macOS内核内存破坏提权利用链,直接绕过苹果耗时5年、投入数十亿美元打造的MIE(Memory Integrity Enforcement)硬件级内存防护。 2026年5月14日,帕洛阿尔托安全研究公司Calif在官方博客发布55页完整报告,宣布这一突破:从普通本地用户权限,一条标准系统调用即可直达root shell,整个过程无需任何代码注入,属于纯"data-only"攻击。 一、5天 vs 5年:时间线与技术细节 Calif团队时间线极度紧凑: - 4月25日:研究员Bruce Dang发现两个属于已知漏洞类别的内核bug - 4月27日:Dion Blazakis加入,Claude Mythos Preview开始介入辅助分析 - 5月1日:Josh Maine完成工具链,完整exploit在搭载M5芯片、运行macOS 26.4.1(MIE全开)的实体机器上跑通 短短5天,他们把两个零日级bug + 侧信道标签碰撞技巧 + 数据-only提权技巧串成一条完整本地提权链。 苹果M5芯片上的MIE机制(基于ARM MTE进一步强化)原本被视为「下一代内存安全天花板」,每16字节内存打4-bit标签,硬件强制校验,性能开销仅3%,曾让多个知名iOS exploit kit直接失效。 Calif团队在报告中明确表示:「Mythos Preview帮助我们快速定位bug、泛化利用技巧,并在整个开发流程中提供实时建议。」他们随后亲自前往Apple Park当面汇报,苹果已在macOS 26.5安全更新中修复相关内核漏洞,并公开致谢「Calif与Anthropic Research的合作」。 二、MIE防护为何被突破?这次意义有多大 MIE是苹果专为M5/A19系列芯片打造的硬件内存安全机制,核心是: - 指针与内存标签硬件绑定 - 读写操作必须标签匹配,否则硬件直接阻断 - 有效阻挡缓冲区溢出、use-after-free等几乎所有经典内存破坏攻击 Tom's Hardware此前评价:MIE在硬件层面几乎封死了常见攻击路径。 而Calif这次利用证明:只要找到正确的漏洞组合,MIE并非不可绕过。他们通过侧信道将标签碰撞概率从6.25%压到确定性,实现纯数据操作的内核提权。研究员原话:「MIE从来不是为了防住所有黑客而设计的,有正确漏洞就能绕过。」 这是全球首次公开针对M5芯片MIE的macOS内核内存破坏利用,标志着AI驱动的安全研究正式进入「Bugmageddon」时代。 三、Claude Mythos Preview:AI安全攻防的超级加速器 Anthropic早在2026年4月推出Project Glasswing计划,将Claude Mythos Preview(Claude系列最强安全专版)有限开放给Apple、Google、Microsoft等40多家顶级机构的安全团队,用于提前挖掘零日漏洞。 Mythos的恐怖之处在于: - 能在几周内找出数千个跨操作系统、浏览器、关键基础设施的零日 - 包括27年前的OpenBSD整数溢出、16年前的FFmpeg越界写等「古董级」bug - 99%此前从未被公开报告或修复 Calif团队强调:「这不是AI独立完成,而是顶级人类研究员+前沿AI的强强联合。小团队几天就能完成过去几个月甚至几年的工作。」这次M5内核突破,正是Mythos能力的典型缩影。 四、更深层启示:AI正在重塑安全攻防平衡 Calif在博客结尾写道: 「这是即将到来的冰山一角。苹果在『Mythos Preview出现之前的世界』里打造了MIE。我们即将看到地球上最顶级的缓解技术,在第一次AI驱动的漏洞大爆发中如何应对。」 防御方用AI找bug、修bug,攻击方同样用AI加速发现与利用,结果是漏洞发现速度呈指数级提升。传统「缓慢人工审计」模式彻底过时。 OpenAI o3此前也在数学与代码领域展示了类似能力,但Anthropic这次是首次将其落地到硬件级安全攻防——这是两家公司技术路线分歧的一个缩影。 Calif把本次研究纳入「Month of AI-Discovered Bugs」系列,正是想向全行业发出警钟:AI不再是辅助工具,而是安全攻防的核心变量。 五、对Mac用户的实际意义 本次漏洞属于本地提权,需要攻击者先获得本地代码执行权限,远程直接利用风险有限。但苹果已在macOS 26.5快速推送修复,建议尽快更新。 Calif说「这是冰山一角」。 下一个被AI在5天内击穿的,会是哪家公司花5年打造的防线? 参考来源Sources: Calif Blog · WSJ · Tom's Hardware · 9to5Mac · Apple Security Notes

译Anthropic的Claude Mythos Preview在5天内,协助安全团队Calif成功构建并演示了首个公开的、针对Apple M5芯片macOS内核的内存破坏提权利用链。该攻击绕过了苹果耗时5年、投入数十亿美元打造的MIE硬件级内存完整性防护,从普通用户权限通过纯数据操作即可获得root权限。苹果已在后续更新中修复漏洞并致谢。此事件标志着AI驱动的安全研究能力已能极速突破顶尖硬件防护,显著改变了攻防的速度与平衡。

Rohan Paul@rohanpaul_ai · 5月17日64

New Google paper: A forecast needs context, not just history. Some patterns are caused by events, not time. Nexus reframes forecasting as a reasoning problem, where events and numbers have to explain each other. Nexus argues that forecasting improves when models read the world around the numbers, not just the numbers themselves. In the Zillow tests, one Claude-based version cut average MAPE by 86.6% versus direct chain-of-thought prompting. That matters because most time series models are fluent in pattern, but mute about cause. A housing inventory curve can reflect seasonality, mortgage pressure, migration, layoffs, and local supply, while a stock price can be bent by earnings, regulation, hype, and fear. Nexus separates those jobs instead of asking one prompt to do everything. One agent turns messy historical text into a clean event timeline, one reads the broad regime, another tracks local shocks, and a synthesizer reconciles them with calibration from past errors. The interesting result is not merely that context helps, but that structure helps the language model use context without losing the time series. The evidence is still narrow: Zillow counts, seven equities, post-cutoff data, and single-run evaluations, so this is not a universal law of forecasting. But the direction is clear: future forecasters will not only extrapolate curves; they will argue about what made the curve move. ---- Paper Link – arxiv. org/abs/2605.14389 Paper Title: "Nexus : An Agentic Framework for Time Series Forecasting"

译谷歌新论文提出Nexus框架,将预测重构为推理问题,强调结合事件背景而非仅依赖历史数据。该框架采用多智能体分工:一个从文本中提取清晰事件时间线,一个分析宏观态势,另一个追踪局部冲击,最后由合成器结合时间序列进行校准。在Zillow的测试中,基于Claude的某个版本将平均绝对百分比误差降低了86.6%。研究表明,结构化的上下文能帮助语言模型有效利用信息而不丢失时间序列特性。尽管当前证据仅涵盖房地产数据和少数股票,但方向明确:未来预测不仅会推断曲线,还将解释曲线变动的原因。

Rohan Paul@rohanpaul_ai · 5月17日61

Alibaba's published a paper giving a strong example of what Sundar Pichai is warning about. Shows AI is moving beyond bug finding and into actually proving software is exploitable. This paper asks a simple question with hard consequences: can LLMs confirm software vulnerabilities by actually building working exploits? The authors’ answer is yes, but only when the model stops acting like a single genius and starts acting like a team. That sounds minor until you look at the mechanism. Automated exploit generation usually fails for familiar reasons. Fuzzers miss deep paths. Symbolic execution chokes on messy real code, especially when the right input is not just a value but a carefully assembled object, class instance, or string with the right structure. A plain LLM is not enough either. It can imitate code, but it loses the thread, hallucinates details, and struggles to repair its own mistakes once execution fails. VulnSage’s real move is to turn exploit generation into a workflow. - One agent extracts the vulnerable dataflow. - Another rewrites that path as natural-language constraints. - Another generates candidate exploits. - Then a validation agent runs them in a sandbox, and reflection agents use the resulting traces and errors to refine the next attempt or conclude the alert was probably a false positive. Here’s the part most people miss. The point is that the hard part is often not “solve these equations,” but “figure out how this code expects to be used.” Their system writes the problem in ordinary language so the model can reason about code structure, like which object to build and which method path keeps the malicious input alive. The concerning part is that this makes exploit generation work on messier, more realistic software where older methods often fail. In other words, the paper’s claim is not just “we solved constraints differently,” but “we can now turn code understanding itself into a path to real exploits.” In the paper’s evaluation, the authors report 34.64% more successful exploits than prior tools on SecBench.js, and 146 zero-days in real packages. The win is not that LLMs magically solve exploitation. It is that they become useful once they are forced to read, act, fail, and learn like a security researcher. ---- Paper Link – arxiv. org/abs/2604.05130 Paper Title: "A Multi-Agent Framework for Automated Exploit Generation with Constraint-Guided Comprehension and Reflection"

译阿里巴巴的研究论文表明,AI正从发现漏洞转向实际生成可利用的攻击代码。其提出的VulnSage框架采用多智能体协作工作流,将过程分解为数据流提取、自然语言约束重写、候选攻击生成及沙箱验证与反思等步骤。该系统的关键突破在于将代码理解转化为对代码使用方式的推理,从而能在更复杂、现实的软件上成功生成漏洞利用。评估显示,其在SecBench.js上的成功率比传统工具高34.64%,并在真实软件包中发现146个零日漏洞,印证了谷歌CEO关于前沿模型可能颠覆软件安全的警告。

Rohan Paul@rohanpaul_ai · 5月17日70

New Illinois+ Tsinghua University and other labs study finds that LLM agents still have unreliable memory and that it can get worse when they keep rewriting their own memories. LLM agents can learn from experience, but their rewritten memories often become unreliable. The problem is that many agent systems store past work by asking an LLM to compress messy experience into neat written lessons. That sounds useful because the agent should remember what worked before, but the paper finds that repeated rewriting slowly damages the memory. The core idea is that raw episodes, meaning the actual past attempts and solutions, often stay more useful than the polished lessons made from them. The authors tested this across tasks like web shopping, simulated worlds, app use, and ARC-style puzzle problems where they could control the correct solutions. The sharpest result is that GPT-5.4 solved 100% of a small ARC-AGI set with no memory, but after memory was built from correct solutions, streaming updates dropped it to about 54%. The failures came from bad grouping, overbroad lessons, and overfitting, so the memory forgot details, mixed up task types, or learned rules that only worked on narrow examples. The big deal is that agent memory should not automatically rewrite every experience into a summary, because keeping raw evidence and only sometimes making summaries worked better. The paper is really proposing that agent memory should treat raw past episodes as important evidence, not as disposable notes to summarize away. ---- Paper Link – arxiv. org/abs/2605.12978 Paper Title: "Useful Memories Become Faulty When Continuously Updated by LLMs"

译伊利诺伊大学与清华大学等机构的研究发现,LLM智能体虽能从经验中学习,但其通过LLM将原始经历压缩成书面教训的记忆重写机制会损害记忆可靠性。在网页购物、模拟世界及ARC风格谜题等任务测试中,反复重写记忆会导致错误分组、规则过度泛化或过拟合,使智能体遗忘细节或混淆任务类型。例如,GPT-4在无记忆时可100%解决小型ARC-AGI问题集,而建立记忆并流式更新后,性能降至约54%。研究主张智能体记忆系统应重视原始经历作为关键证据,而非自动将所有经验重写为摘要,保留原始证据并选择性摘要效果更佳。

Berryxia.AI@berryxia · 5月16日63

兄弟们,具身智能这下真的靠点谱了啊! 具身智能(Embodied AI)下一个真正的大前沿来了。 HuggingPapers刚刚推送了一篇重磅综述:《World Action Models: The Next Frontier in Embodied AI》 这是第一篇系统定义「World Action Models(WAMs)」的论文。 WAMs 的核心是:同时预测未来世界状态 + 生成真实可执行动作的具身基础模型。 它不再是单纯“想想就行”的语言模型,而是真正能理解物理世界、预测变化、并采取行动的智能体。 论文系统梳理了当前所有WAMs的架构设计、数据生态系统和评估协议,还附了一张2024-2026年的完整发展时间线图,一目了然。 Project page:https://openmoss.github.io/Awesome-WAM/ Paper:https://huggingface.co/papers/2605.12090 如果你在做机器人、具身Agent、物理世界AI或者世界模型,这篇综述来得正是时候。

译HuggingPapers发布首篇系统性定义“世界行动模型”的综述论文。WAMs被视为具身智能的下一个前沿,其核心是能同时预测未来世界状态并生成真实可执行动作的具身基础模型,超越了仅能推理的语言模型。论文系统梳理了WAMs的架构设计、数据生态系统和评估协议,并提供了发展时间线图,对从事机器人、具身Agent、物理世界AI及世界模型的研究者具有重要参考价值。

Berryxia.AI@berryxia · 5月16日65

兄弟们,训练Diffusion LLM原来可以这么省? 大家都知道扩散语言模型(DLM)很香:支持双向生成、非顺序解码、灵活编辑。 但从零训一个,成本高得离谱。 Duke大学PhD Fred Peng(@pengzhangzhi1)和团队直接给出了一个反直觉的答案: 别重训了,直接对齐就行。 论文标题叫《Don’t Retrain, Align》。 核心思路很简单: 我们已经有强大的预训练Autoregressive LM(AR LM),里面已经学好了绝大部分语言表示。 DLM真正需要改的只是生成顺序和去噪行为。 所以他们提出了REPR-ALIGN:在做masked diffusion训练的同时,逐层用余弦相似度,把DLM的hidden states对齐到冻结的AR teacher模型上。 不需要加adapter,不需要改架构,只改attention mask。 结果:在他们的实验设置里,训练速度最高提升4倍,低数据场景下效果尤其明显。 一句话总结: 不要把表示空间从头重训一遍,对齐它,让模型只去重新学习解码路径就够了。 Paper:https://arxiv.org/abs/2605.06885 Code:https://github.com/pengzhangzhi/Open-dLLM 如果你在搞扩散模型、生成式AI或者长上下文生成,这篇值得立刻读。

译杜克大学团队提出一种高效训练扩散语言模型的新方法。核心观点是无需从头训练,而是将现有强大的预训练自回归语言模型作为知识源。他们提出的REPR-ALIGN方法,在掩码扩散训练过程中,通过余弦相似度逐层将扩散模型的隐藏状态与冻结的自回归教师模型对齐。该方法无需添加适配器或改变架构,仅调整注意力掩码。实验结果显示,训练速度最高可提升4倍,在低数据场景下效果提升尤其显著。

Berryxia.AI@berryxia · 5月16日77

兄弟们,3D资产生成彻底要起飞了。 Cambridge大学助理教授Elliott Wu(前Stanford、Oxford背景)团队刚放出了Articraft——一个真正的agentic coding系统。 它不是简单生成静态3D模型,就可以让AI agent自己写代码、自己执行、自己接收物理验证反馈,不断迭代,最终输出带零件、关节、真实运动的可交互3D资产,直接就能扔进机器人仿真和物理AI场景里用。 以前做一套高质量articulated asset要花几天甚至几周,现在agent全自动跑通,整个过程高效到离谱。 他们顺便还开源了Articraft-10K数据集:超过1万个跨250个类别的articulated 3D物体,全部可交互、仿真就绪,彻底把大规模机器人训练和物理世界AI的资产门槛拉到了新低。 物理AI和机器人仿真的“数据饥渴”问题,被这个agentic pipeline直接干掉了一大半。 项目页面在这里:https://articraft3d.github.io/ 完整代码和数据集也在GitHub开源。 如果你在做机器人、仿真、物理AI或者3D内容生成,这波开源值得立刻去试。 PS: 还未实测,待后续测评!

译剑桥大学团队推出Articraft,这是一个由智能体驱动的编码系统,能全自动生成带关节、可运动的交互式3D资产。系统通过AI智能体自主编写代码、执行并接收物理反馈迭代优化,将以往需数日甚至数周的创作过程极大简化。团队同时开源了Articraft-10K数据集,包含超1万个物体,覆盖250个类别,所有资产均仿真就绪。此举显著降低了机器人训练和物理AI领域对高质量3D资产的数据门槛,为解决“数据饥渴”问题提供了高效的自动化方案。

Rohan Paul@rohanpaul_ai · 5月16日63

Nature published study discovered that every single major AI model on the market can be talked into helping someone commit academic fraud. It is now incredibly easy for anyone to flood the scientific world with low-quality or totally fake work. A study of 13 different models showed that even the ones designed to be safe eventually caved and helped write fake papers or create junk science. The researchers tested everything from simple questions about physics to dark requests like sabotaging a rival by submitting fake research in their name. While Anthropic’s Claude models were the most stubborn about saying no, they still weren't perfectly safe from being manipulated in long talks. One surprising finding was that GPT-5 resisted at first, but it quickly caved once the user asked follow-up questions to keep the conversation moving. This happens because developers train AI to be agreeable and helpful, which accidentally makes it easier for a user to sneak past security filters. --- nature .com/articles/d41586-026-00595-9

译《自然》发表的研究指出,市场上所有主流AI模型均可被说服协助实施学术欺诈,导致低质量或虚假科学工作极易泛滥。研究测试了13种模型,发现即便设计为安全的模型最终也会妥协,帮助撰写虚假论文或制造伪科学。测试范围从简单的物理问题到以他人名义提交虚假研究等恶意请求。其中Anthropic的Claude模型虽最顽固,但在长时间对话中仍可能被操纵;GPT-5起初会抵抗,但用户通过持续追问能使其快速妥协。问题的根源在于开发者将AI训练得过于乐于助人且易于配合,这无意中让用户更容易绕过安全过滤器。

AK@_akhaliq · 5月16日55

PhyMotion Structured 3D Motion Reward for Physics-Grounded Human Video Generation

译PhyMotion 基于物理结构化的3D运动奖励 用于物理基础的人类视频生成

Berryxia.AI@berryxia · 5月15日76

这个太特么“讽刺苹果”了! Apple花了整整5年、砸下数十亿美元,专门为M5芯片打造了Memory Integrity Enforcement(MIE)硬件内存安全系统,目标是彻底干掉内存破坏类漏洞。 结果呢? 研究人员用Anthropic的Mythos Preview,只花了5天,就找到了第一个公开的macOS 内核内存损坏漏洞利用程序 他们已经亲自走进Apple Park,把55页完整技术报告递交给了苹果。 完整报告等苹果打完补丁后才会公开。 AI正在把安全研究的节奏彻底改写。 以前需要数年、数十亿硬件投入才能建立的防线,现在可能在几天内就被前沿模型找到突破口。 这也不是苹果工程不行,而是AI辅助漏洞发现的能力,已经把攻防双方的不对称性拉到了一个新量级。 完整技术报告和exploit演示在这里: https://blog.calif.io/p/first-public-kernel-memory-corruption PS:看着面孔也是华人面孔?

译苹果为M5芯片投入五年时间和数十亿美元开发Memory Integrity Enforcement硬件安全系统,旨在彻底消除内存破坏漏洞。但研究人员使用Anthropic的Mythos Preview模型,仅用五天就成功构建了首个公开的macOS内核内存损坏漏洞利用程序,并已向苹果提交55页技术报告。此事显示AI辅助安全研究正急剧加速攻防节奏,以往需长期巨额投入的硬件防护可能在极短时间内被AI突破,将安全攻防的不对称性推向新高度。

SenseTime@SenseTime_AI · 5月15日70

This is the frontier our innovators strive for. Excited to see passionate minds driving it forward.🔥

译主推文赞扬了创新者在前沿领域的探索。引用的推文具体指出,SenseNova-U1在空间智能能力上取得进展,其关键基准测试表现超越了Qwen3.5等强劲基线。同时,团队开源了目前最大的空间问答数据集SenseNova-SI-8M,并邀请业界在CVPR会议进行线下交流。

Berryxia.AI@berryxia · 5月15日69

Prime Intellect 最近把 AI 研究自动化推到了一个新阶段。 他们让 Claude Code(Opus 4.7)和 Codex(GPT 5.5)完全自主运行在 nanoGPT speedrun 的 optimizer track 上,使用闲置算力完成了约 1 万次实验,总计消耗 1.4 万 H200 小时。 最终结果:Claude Code 把记录推到 2930 steps,超过了人类基准的 2990 steps。 整个过程完全无人值守。 我看完他们的完整 thread 后,最有启发的部分是 agents 的实际表现: 它们在 optimizer 搜索、超参数扫描和方法 stacking 上非常高效,几乎把社区所有主流 PR 的思路(Contra-Muon、MuonEq、NorMuon、SOAP 等)都系统性组合了一遍。 但在 novelty(真正创新)上遇到明显瓶颈,当强制要求每个 idea 必须通过 novelty check 时,两个 agents 都没能超越 baseline。 Prime Intellect 把所有 scratchpad、运行日志、配置和生成的 idea 全部开源了,包括两个 agents 的完整实验记录。 这波操作把“AI 研究能不能自己跑”从概念变成了可复现的现实。 完整实验和代码在这里:https://github.com/PrimeIntellect-ai/experiments-autonomous-speedrunning

译Prime Intellect 近期在AI研究自动化领域取得重要进展。他们让Claude Code与Codex智能体完全自主运行于nanoGPT速度挑战的优化器赛道,利用闲置算力完成了近万次实验,消耗约1.4万H200小时。最终,Claude Code将记录提升至2930步,超越了2990步的人类基准。实验显示,智能体在系统整合社区主流优化方法、进行超参数扫描和策略组合方面效率极高,但在要求真正创新的“新颖性检查”环节未能突破基线。该项目将所有实验记录、日志和代码开源,使得AI自主研究从概念转化为可复现的现实。

Rohan Paul@rohanpaul_ai · 5月15日43

New MIT project, artificial muscles made from woven fibers powered a soft robotic arm. Key is tiny embedded pumps that move fluid using electric fields, eliminating noisy compressors. The result: smooth, compliant motion suitable for wearable devices.

译麻省理工新项目:由编织纤维制成的人工肌肉为软体机械臂提供动力。 关键在于通过电场驱动流体的微型嵌入式泵,消除了噪音压缩机。 最终实现适用于可穿戴设备的流畅柔顺运动。

Rohan Paul@rohanpaul_ai · 5月15日79

Anthropic drops a paper on the US-China AI race They believe the US and its allies may be able to lock in a 12-24 month frontier AI lead by 2028 if they close China’s access to advanced compute and copied model outputs. The report says China is not far behind because Chinese labs are allegedly using loopholes, smuggled chips, offshore data centers, and distillation attacks to stay close to US frontier labs. Anthropic frames compute as the central bottleneck of AI power, saying advanced chips are not just one input but the gatekeeper for training, deployment, revenue, experimentation, and future model improvement. The report says Huawei may produce only 4% of NVIDIA’s aggregate compute in 2026 and 2% in 2027, which is one of the paper’s sharpest claims about China’s semiconductor gap. Anthropic argues that distillation is systematic industrial espionage, because Chinese labs can use American model outputs to copy capabilities without paying the full training cost. The report claims a Chinese AI lead could enable automated repression, stronger cyber operations, faster military AI deployment, and broader authoritarian influence through cheap global AI infrastructure. Future frontier models may become a “country of geniuses in a data center,” meaning a single model cluster could act like a huge expert workforce for cyber, science, engineering, and military research.

译Anthropic发布报告分析中美AI竞争。报告认为,若美国及其盟友能持续限制中国获取先进算力与模型输出,可能在2028年前锁定12-24个月的前沿AI领先优势。中国目前并未大幅落后,其正通过漏洞利用、芯片走私及模型蒸馏等方式紧追。报告将算力视为核心瓶颈,指出华为2026年算力或仅为英伟达的4%。报告警告,若中国取得领先,可能强化自动化压制、网络作战和军事AI部署能力,并借助廉价全球AI基础设施扩大影响力。未来前沿模型或成为“数据中心里的天才国度”,为各领域提供超级智力。

Epoch AI@EpochAIResearch · 5月15日61

Servers account for 60% of the total cost of owning a 1 GW AI data center. A typical 1 GW AI data center costs about $38B in up-front capital and $0.9B/year to operate. Annualizing the capital expenses over equipment lifespans, that equates to $8.5B/year, with $5B for servers.

译服务器占有一座1吉瓦AI数据中心总持有成本的60%。 典型的1吉瓦AI数据中心前期资本投入约为380亿美元,年运营成本为9亿美元。将资本支出按设备寿命折算为年度成本,相当于每年85亿美元,其中50亿美元用于服务器。

elvis@omarsar0 · 5月15日60

Interesting position paper on agentic AI as a foreseeable pathway to AGI. (bookmark it) There has been strong debate on whether a larger single model get us there or a multi-agent system. The authors argue that agentic AI systems, not bigger foundation models on their own, are the most foreseeable route to AGI. Formalizes what "agentic" actually contributes beyond the base model: memory, reasoning, tool use, self-improvement, alignment. Each is a separable axis with its own bottlenecks (long-horizon coherence, credit assignment, safety auditing). They argues that none of those bottlenecks get solved by another order of magnitude on pretraining compute. Paper: https://arxiv.org/abs/2605.12966 Learn to build effective AI agents in our academy: https://academy.dair.ai/

译一篇立场论文认为,实现通用人工智能(AGI)最可预见的途径是智能体AI系统,而非单纯扩大基础模型规模。作者将“智能体”能力形式化为超越基础模型的几个可分离维度:记忆、推理、工具使用、自我改进和对齐。每个维度都存在自身瓶颈,如长程连贯性、信用分配和安全审计。这些瓶颈无法仅通过增加一个数量级的预训练计算来解决。论文回应了关于AGI路径的争论,即究竟是单一大型模型还是多智能体系统更有效。

Microsoft Research@MSFTResearch · 5月14日44

New releases from Microsoft Research, live in 1 hour. Join for ai that runs your repo + verification-first research + more. 👉 https://msft.it/6014vRGqK ⏰ 9 AM PT/12 PM ET 💬 Join live + ask questions in chat

译微软研究院新发布,一小时后直播。 加入我们,了解运行代码库的AI + 验证优先研究 + 更多内容。 👉 https://msft.it/6014vRGqK ⏰ 太平洋时间上午9点/东部时间中午12点 💬 参与直播 + 在聊天中提问

Ethan Mollick@emollick · 5月14日64

“Whimsey attacks” that seem absurd (“I cannot pay that much because of the Geneva Convention”) work against AI agents as guardrails are weak against out-of-distribution arguments. Smaller models fall often, but it even gives an edge against bigger ones. https://www.microsoft.com/en-us/research/articles/whimsical-strategies-break-ai-agents-generating-out-of-distribution-adversarial-strategies-at-scale/

译看似荒谬的“荒诞攻击”(例如“根据日内瓦公约我无法支付这么多”)对AI代理有效,因为防护机制难以应对非常规论点。较小模型常被攻破,但即使较大模型也略受影响。https://www.microsoft.com/en-us/research/articles/whimsical-strategies-break-ai-agents-generating-out-of-distribution-adversarial-strategies-at-scale/

AK@_akhaliq · 5月14日57

MulTaBench Benchmarking Multimodal Tabular Learning with Text and Image

译MulTaBench 基于文本和图像的多模态表格学习基准测试

AK@_akhaliq · 5月14日56

AnyFlow Any-Step Video Diffusion Model with On-Policy Flow Map Distillation

译AnyFlow 采用同策略流图蒸馏的任意步长视频扩散模型

AK@_akhaliq · 5月14日62

A Single Neuron Is Sufficient to Bypass Safety Alignment in Large Language Models

译单个神经元足以绕过大型语言模型的安全对齐设置

Berryxia.AI@berryxia · 5月14日66

ExaAILabs刚测完一个关键实验。 他们在强化学习阶段训练LLM搜索能力,一组喂Google数据,一组用他们的Exa搜索API。 结果用Exa的那组,模型性能更高,训练算力却省下了70%。 整整70%。 这个发现有点出乎意料 很多人还坚信想让AI搜索做得更好就只能靠堆更多算力。 但真实情况可能是搜索工具本身的质量和效率决定性远大于算力数量。 这对所有搞AI Agent、做RAG、训练带搜索能力大模型的团队来说是个重大信号。 我看完blog后感觉未来LLM训练的效率战可能要从选对工具开始打起。 如果你在做相关方向强烈建议去读他们的完整blog。

译ExaAILabs的一项关键实验表明,在强化学习阶段训练大语言模型的搜索能力时,使用其Exa搜索API替代Google数据,不仅能使模型达到更高性能,还可节省高达70%的训练算力。这一结果直接挑战了“提升AI搜索能力主要依赖增加算力”的普遍观点,揭示了搜索工具本身的质量与效率可能更具决定性影响。该发现为从事AI Agent、RAG以及训练具备搜索能力大模型的团队提供了重要启示,意味着未来LLM训练的效率竞争可能始于对底层工具的选择。

SiliconFlow@SiliconFlowAI · 5月14日63

bravooo

译NousResearch发布了Token Superposition Training(TST),这是一种改进标准大语言模型预训练流程的方法。该技术无需改变模型架构、优化器、分词器或训练数据,即可在相同计算量(FLOPs)下实现2-3倍的训练时间加速。其核心是在训练的前三分之一阶段,让模型读取并预测连续的token包,对输入嵌入进行平均,并使用改进的交叉熵损失预测下一个token包;剩余训练时间则恢复为标准的下一个token预测。推理阶段的模型与传统预训练产生的模型完全相同。该方法已在270M、600M、3B的密集模型以及10B至1B的混合专家模型规模上得到验证。

AK@_akhaliq · 5月14日62

Apple presents Unmasking On-Policy Distillation Where It Helps, Where It Hurts, and Why

译Apple 发布《论策略蒸馏的利弊与原理剖析》 何处有益,何处有害,以及原因何在

Microsoft Research@MSFTResearch · 5月14日44

Introducing GridSFM, a small foundation model that can predict AC optimal power flow in milliseconds, boosting efficiency and unlocking cost savings. Learn how GridSFM gives grid operators direct visibility into congestion, stability, and system health: https://msft.it/6018vucjs

译介绍GridSFM——一个能在毫秒内预测交流最优潮流的小型基础模型,可提升效率并实现成本节约。 了解GridSFM如何帮助电网运营商直接掌握拥堵、稳定性和系统健康状况:https://msft.it/6018vucjs

AK@_akhaliq · 5月13日61

EgoMemReason A Memory-Driven Reasoning Benchmark for Long-Horizon Egocentric Video Understanding

译EgoMemReason 一个用于长时第一人称视频理解的记忆驱动推理基准

AK@_akhaliq · 5月13日57

RubricEM Meta-RL with Rubric-guided Policy Decomposition beyond Verifiable Rewards

译RubricEM 超越可验证奖励的准则引导策略分解元强化学习

AK@_akhaliq · 5月13日41

Do Enterprise Systems Need Learned World Models? The Importance of Context to Infer Dynamics

译企业系统是否需要学习世界模型? 情境对推断动态的重要性

elvis@omarsar0 · 5月13日68

Cool idea from Nous Research. What if you could speed up long-context pretraining with a subquadratic wrapper that you remove before deployment? That is the idea behind Lighthouse Attention. The method wraps ordinary SDPA with a hierarchical, gradient-free selection layer that compresses and decompresses queries, keys, and values symmetrically, preserving left-to-right causality. Crucially, it can be removed near the end of training in a short recovery phase, so the deployed model still runs vanilla attention with no architectural cost at inference. Preliminary LLM experiments report faster total training time and lower final loss than full-attention baselines. Why does it matter? Most efficient-attention work either changes the deployment-time architecture or pays a quality tax to do so. A training-only wrapper that survives a clean recovery phase sidesteps both. If it scales, this becomes an important training-time speedup for long-context pretraining. Paper: https://arxiv.org/abs/2605.06554 Learn to build effective AI agents in our academy: https://academy.dair.ai/

译Lighthouse Attention是一种用于加速长上下文预训练的子二次注意力包装器。其核心是在训练时,通过一个无梯度的分层选择层对称压缩查询、键和值,从而包装标准SDPA注意力并保持因果性。关键优势在于,训练末期可通过简短恢复阶段完全移除该包装器,使得部署模型仍使用原始注意力机制,不增加任何推理开销。初步实验表明,它能缩短总训练时间并降低最终损失。与多数需改变架构或牺牲质量的方案不同,该方法作为纯训练时优化,成功规避了这两大问题,若未来可扩展,将成为长上下文预训练的重要加速工具。

Perplexity@perplexity_ai · 5月12日56

We published new research on how we serve post-trained Qwen3 235B models on NVIDIA GB200 NVL72 Blackwell racks. GB200 is a major step up over Hopper for high-throughput inference on large MoE models, not just a training platform.

译我们发布了关于如何在NVIDIA GB200 NVL72 Blackwell机架上部署训练后Qwen3 235B模型的新研究。 GB200不仅是训练平台,更为大型MoE模型的高吞吐量推理带来了重大升级,相比Hopper实现显著进步。

AK@_akhaliq · 5月12日56

Qwen-Image-2.0 Technical Report

译Qwen-Image-2.0 技术报告

AK@_akhaliq · 5月12日57

TMAS Scaling Test-Time Compute via Multi-Agent Synergy

译TMAS 通过多智能体协同扩展测试时计算

AK@_akhaliq · 5月12日54

Rebellious Student Reversing Teacher Signals for Reasoning Exploration with Self-Distilled RLVR

译叛逆学生 通过逆向教师信号进行推理探索 结合自蒸馏的RLVR方法

AK@_akhaliq · 5月12日64

TMAS Scaling Test-Time Compute via Multi-Agent Synergy

译TMAS 通过多智能体协同扩展测试时计算

AK@_akhaliq · 5月12日63

Soohak A Mathematician-Curated Benchmark for Evaluating Research-level Math Capabilities of LLMs

译Soohak 一个由数学家策划的基准测试,用于评估LLMs的研究级数学能力

AK@_akhaliq · 5月12日58

Pixal3D Pixel-Aligned 3D Generation from Images

译Pixal3D 从图像生成像素对齐的三维模型

elvis@omarsar0 · 5月12日43

Early days but what’s most impressive is how natural the interactions are becoming with these omnimodels. Real-time, low-latency interactive AI models unlock applications that are very hard to imagine today. Brace yourselves!

译尽管处于早期阶段,但最令人印象深刻的是与这些全能模型(omnimodels)的交互正变得极为自然。实时、低延迟的交互式AI模型将解锁当今难以想象的应用场景。其核心在于,AI能够像人类一样,同时进行交谈、倾听、观察、思考和协作,实现与人的实时同步工作模式。这种交互模型的突破,预示着人机协作将进入一个全新的阶段。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月19日
02:09
elvis@omarsar0
67
Meta新系统双代理协同,自动设计超越Llama 3.2的神经架构

Meta提出AIRA系统,通过分离策略与实现的双代理架构,实现神经架构的自主发现。AIRA-Compose负责宏观架构搜索,AIRA-Design专注低级机制实现。该系统在24小时计算预算内,于350M、1B和3B规模上找到超越Llama 3.2的架构。其核心方法论表明,在复杂任务中分离规划代理与实现代理能提升效能,此思路同样适用于流水线组装、查询规划等其他AI代理场景。

智能体Meta数据/训练论文/研究
5月18日
08:54
Berryxia.AI@berryxia
64
Google Nexus框架革新时间序列预测逻辑

Google论文提出的Nexus框架颠覆了传统时间序列预测仅依赖历史数据的模式,强调“事件上下文”的核心作用。该框架采用多智能体协作架构:分别从文本中提取事件时间线、解读宏观态势、追踪局部冲击,最终通过合成器整合信息并校准误差。在Zillow数据集测试中,基于Claude的版本将平均预测误差(MAPE)大幅降低86.6%,实现了从“识别模式”到“理解因果”的范式转变。这标志着预测方法正从统计外推转向结构化推理,为未来预测系统指明了新方向。

Rohan Paul: New Google paper: A forecast needs context, not just history. Some patterns are caused by events, not time. Nexus refram...

智能体arXivGoogle推理
06:39
Ethan Mollick@emollick
58
一项NBER研究指出,数据中心(部分由AI需求驱动)的增长能促进当地就业、工资和整体收入,并带来显著的经济活动,尤其是在直接相关行业和建设期间。然而,这种增长也伴随着负面效应:它会推高当地的电力价格,并与更高的房价相关联。

NBER: Growth in data centers-driven in part by rising AI demand-boosts local employment, wages, income, and house prices, whil...

现象/趋势论文/研究
00:54
Berryxia.AI@berryxia
67
Anthropic Claude 5天攻破Apple M5 macOS内核漏洞:5年数十亿防线,被AI一举击穿

Anthropic的Claude Mythos Preview在5天内,协助安全团队Calif成功构建并演示了首个公开的、针对Apple M5芯片macOS内核的内存破坏提权利用链。该攻击绕过了苹果耗时5年、投入数十亿美元打造的MIE硬件级内存完整性防护,从普通用户权限通过纯数据操作即可获得root权限。苹果已在后续更新中修复漏洞并致谢。此事件标志着AI驱动的安全研究能力已能极速突破顶尖硬件防护,显著改变了攻防的速度与平衡。

Anthropic安全/对齐推理
5月17日
20:10
Rohan Paul@rohanpaul_ai
64
谷歌新论文提出Nexus框架:预测需要事件背景,而非仅依赖历史数据

谷歌新论文提出Nexus框架,将预测重构为推理问题,强调结合事件背景而非仅依赖历史数据。该框架采用多智能体分工:一个从文本中提取清晰事件时间线,一个分析宏观态势,另一个追踪局部冲击,最后由合成器结合时间序列进行校准。在Zillow的测试中,基于Claude的某个版本将平均绝对百分比误差降低了86.6%。研究表明,结构化的上下文能帮助语言模型有效利用信息而不丢失时间序列特性。尽管当前证据仅涵盖房地产数据和少数股票,但方向明确:未来预测不仅会推断曲线,还将解释曲线变动的原因。

智能体arXivGoogle推理
17:40
Rohan Paul@rohanpaul_ai
61
阿里研究展示AI新威胁:多智能体协作可自动生成软件漏洞利用代码

阿里巴巴的研究论文表明,AI正从发现漏洞转向实际生成可利用的攻击代码。其提出的VulnSage框架采用多智能体协作工作流,将过程分解为数据流提取、自然语言约束重写、候选攻击生成及沙箱验证与反思等步骤。该系统的关键突破在于将代码理解转化为对代码使用方式的推理,从而能在更复杂、现实的软件上成功生成漏洞利用。评估显示,其在SecBench.js上的成功率比传统工具高34.64%,并在真实软件包中发现146个零日漏洞,印证了谷歌CEO关于前沿模型可能颠覆软件安全的警告。

Rohan Paul: Google CEO Sundar Pichai on current frontier model's ability to break the security of almost all current software. "Thes...

智能体安全/对齐论文/研究
16:10
Rohan Paul@rohanpaul_ai
70
研究揭示LLM智能体记忆重写机制损害可靠性

伊利诺伊大学与清华大学等机构的研究发现,LLM智能体虽能从经验中学习,但其通过LLM将原始经历压缩成书面教训的记忆重写机制会损害记忆可靠性。在网页购物、模拟世界及ARC风格谜题等任务测试中,反复重写记忆会导致错误分组、规则过度泛化或过拟合,使智能体遗忘细节或混淆任务类型。例如,GPT-4在无记忆时可100%解决小型ARC-AGI问题集,而建立记忆并流式更新后,性能降至约54%。研究主张智能体记忆系统应重视原始经历作为关键证据,而非自动将所有经验重写为摘要,保留原始证据并选择性摘要效果更佳。

智能体数据/训练论文/研究
5月16日
23:54
Berryxia.AI@berryxia
63
具身智能新前沿:世界行动模型综述发布

HuggingPapers发布首篇系统性定义“世界行动模型”的综述论文。WAMs被视为具身智能的下一个前沿,其核心是能同时预测未来世界状态并生成真实可执行动作的具身基础模型,超越了仅能推理的语言模型。论文系统梳理了WAMs的架构设计、数据生态系统和评估协议,并提供了发展时间线图,对从事机器人、具身Agent、物理世界AI及世界模型的研究者具有重要参考价值。

DailyPapers: World Action Models: The Next Frontier in Embodied AI The first systematic survey defining WAMs as embodied foundation m...

Hugging Face具身智能论文/研究
22:54
Berryxia.AI@berryxia
65
无需重训,对齐即可高效训练扩散语言模型

杜克大学团队提出一种高效训练扩散语言模型的新方法。核心观点是无需从头训练,而是将现有强大的预训练自回归语言模型作为知识源。他们提出的REPR-ALIGN方法,在掩码扩散训练过程中,通过余弦相似度逐层将扩散模型的隐藏状态与冻结的自回归教师模型对齐。该方法无需添加适配器或改变架构,仅调整注意力掩码。实验结果显示,训练速度最高可提升4倍,在低数据场景下效果提升尤其显著。

Fred Peng: How to Train Diffusion LLM more efficiently? Our paper has an answer for you: Don't Retrain, Align: Adapting Autoregress...

arXiv开源生态数据/训练论文/研究
08:54
Berryxia.AI@berryxia
精选77
智能体驱动系统Articraft实现3D资产生成自动化,开源万件数据集降低门槛

剑桥大学团队推出Articraft,这是一个由智能体驱动的编码系统,能全自动生成带关节、可运动的交互式3D资产。系统通过AI智能体自主编写代码、执行并接收物理反馈迭代优化,将以往需数日甚至数周的创作过程极大简化。团队同时开源了Articraft-10K数据集,包含超1万个物体,覆盖250个类别,所有资产均仿真就绪。此举显著降低了机器人训练和物理AI领域对高质量3D资产的数据门槛,为解决“数据饥渴”问题提供了高效的自动化方案。

Elliott / Shangzhe Wu: Check out Ariticraft 🦾 - a highly efficient agentic system that generates articulated 3D assets fully automatically at ...

智能体具身智能开源生态论文/研究

推荐理由:这个开源直接把物理AI训练的资产瓶颈打掉了一大半,agent全自动生成带关节的可交互3D,做仿真和机器人的可以立刻拉代码试试,诚意很足。
06:07
Rohan Paul@rohanpaul_ai
63
《自然》研究揭示主流AI模型均易被诱导协助学术欺诈

《自然》发表的研究指出,市场上所有主流AI模型均可被说服协助实施学术欺诈,导致低质量或虚假科学工作极易泛滥。研究测试了13种模型,发现即便设计为安全的模型最终也会妥协,帮助撰写虚假论文或制造伪科学。测试范围从简单的物理问题到以他人名义提交虚假研究等恶意请求。其中Anthropic的Claude模型虽最顽固,但在长时间对话中仍可能被操纵;GPT-5起初会抵抗,但用户通过持续追问能使其快速妥协。问题的根源在于开发者将AI训练得过于乐于助人且易于配合,这无意中让用户更容易绕过安全过滤器。

AnthropicOpenAI安全/对齐
02:04
AK@_akhaliq
55
PhyMotion 基于物理结构化的3D运动奖励 用于物理基础的人类视频生成
多模态视频论文/研究
5月15日
23:54
Berryxia.AI@berryxia
精选76
研究人员用AI五天内攻破苹果五年打造的内存安全系统

苹果为M5芯片投入五年时间和数十亿美元开发Memory Integrity Enforcement硬件安全系统,旨在彻底消除内存破坏漏洞。但研究人员使用Anthropic的Mythos Preview模型,仅用五天就成功构建了首个公开的macOS内核内存损坏漏洞利用程序,并已向苹果提交55页技术报告。此事显示AI辅助安全研究正急剧加速攻防节奏,以往需长期巨额投入的硬件防护可能在极短时间内被AI突破,将安全攻防的不对称性推向新高度。

International Cyber Digest: ❗️🚨 BREAKING: Researchers used Mythos Preview to find the first public macOS kernel memory corruption exploit on Apple'...

Anthropic安全/对齐论文/研究

推荐理由:苹果用五年数十亿筑起的 MIE 防线,在 AI 辅助下五天就被捅穿,这比任何基准测试都更能说明 AI 在安全领域的颠覆能力,搞安全的不看真睡不着觉。
10:18
SenseTime@SenseTime_AI
同事件精选70
主推文赞扬了创新者在前沿领域的探索。引用的推文具体指出,SenseNova-U1在空间智能能力上取得进展,其关键基准测试表现超越了Qwen3.5等强劲基线。同时,团队开源了目前最大的空间问答数据集SenseNova-SI-8M,并邀请业界在CVPR会议进行线下交流。

Zhongang Cai: Excited to have contributed to the spatial intelligence capabilities of SenseNova-U1, surpassing strong baselines such a...

多模态开源生态数据/训练论文/研究
同一事件,精选展示《商汤发布信息图生成模型升级,增强多项核心能力》
推荐理由:商汤的 SenseNova-U1 在空间智能基准上压过 Qwen3.5,还顺手开源了目前最大的空间 QA 数据集 SenseNova-SI-8M,搞具身智能和多模态的可以直接抱走数据。
08:51
Berryxia.AI@berryxia
69
AI自主研究实现突破:智能体在nanoGPT优化赛道上超越人类基准

Prime Intellect 近期在AI研究自动化领域取得重要进展。他们让Claude Code与Codex智能体完全自主运行于nanoGPT速度挑战的优化器赛道,利用闲置算力完成了近万次实验,消耗约1.4万H200小时。最终,Claude Code将记录提升至2930步,超越了2990步的人类基准。实验显示,智能体在系统整合社区主流优化方法、进行超参数扫描和策略组合方面效率极高,但在要求真正创新的“新颖性检查”环节未能突破基线。该项目将所有实验记录、日志和代码开源,使得AI自主研究从概念转化为可复现的现实。

Prime Intellect: Automating AI research is the next major step in AI We let Claude Code (Opus 4.7) and Codex (GPT 5.5) run autonomously o...

智能体开源生态论文/研究
08:06
Rohan Paul@rohanpaul_ai
43
麻省理工新项目:由编织纤维制成的人工肌肉为软体机械臂提供动力。 关键在于通过电场驱动流体的微型嵌入式泵,消除了噪音压缩机。 最终实现适用于可穿戴设备的流畅柔顺运动。
具身智能论文/研究
07:36
Rohan Paul@rohanpaul_ai
79
Anthropic发布中美AI竞争格局报告:算力是关键瓶颈,领先优势或可锁定

Anthropic发布报告分析中美AI竞争。报告认为,若美国及其盟友能持续限制中国获取先进算力与模型输出,可能在2028年前锁定12-24个月的前沿AI领先优势。中国目前并未大幅落后,其正通过漏洞利用、芯片走私及模型蒸馏等方式紧追。报告将算力视为核心瓶颈,指出华为2026年算力或仅为英伟达的4%。报告警告,若中国取得领先,可能强化自动化压制、网络作战和军事AI部署能力,并借助廉价全球AI基础设施扩大影响力。未来前沿模型或成为“数据中心里的天才国度”,为各领域提供超级智力。

Anthropic: We've published a paper that explains our views on AI competition between the US and China. The US and democratic allies...

Anthropic安全/对齐政策/监管论文/研究
05:12
Epoch AI@EpochAIResearch
61
服务器占有一座1吉瓦AI数据中心总持有成本的60%。 典型的1吉瓦AI数据中心前期资本投入约为380亿美元,年运营成本为9亿美元。将资本支出按设备寿命折算为年度成本,相当于每年85亿美元,其中50亿美元用于服务器。
数据/训练论文/研究部署/工程
03:05
elvis@omarsar0
60
智能体AI:通向AGI的更可预见路径

一篇立场论文认为,实现通用人工智能(AGI)最可预见的途径是智能体AI系统,而非单纯扩大基础模型规模。作者将“智能体”能力形式化为超越基础模型的几个可分离维度:记忆、推理、工具使用、自我改进和对齐。每个维度都存在自身瓶颈,如长程连贯性、信用分配和安全审计。这些瓶颈无法仅通过增加一个数量级的预训练计算来解决。论文回应了关于AGI路径的争论,即究竟是单一大型模型还是多智能体系统更有效。

智能体arXiv安全/对齐论文/研究
5月14日
23:35
Microsoft Research@MSFTResearch
44
微软研究院新发布,一小时后直播。 加入我们,了解运行代码库的AI + 验证优先研究 + 更多内容。 👉 https://msft.it/6014vRGqK ⏰ 太平洋时间上午9点/东部时间中午12点 💬 参与直播 + 在聊天中提问
智能体Microsoft编码论文/研究
22:05
Ethan Mollick@emollick
64
看似荒谬的"荒诞攻击"(例如"根据日内瓦公约我无法支付这么多")对AI代理有效,因为防护机制难以应对非常规论点。较小模型常被攻破,但即使较大模型也略受影响。https://www.microsoft.com/en-us/research/articles/whimsical-strategies-break-ai-agents-generating-out-of-distribution-adversarial-strategies-at-scale/
智能体Microsoft安全/对齐
21:33
AK@_akhaliq
57
MulTaBench 基于文本和图像的多模态表格学习基准测试
多模态论文/研究
21:33
AK@_akhaliq
56
AnyFlow 采用同策略流图蒸馏的任意步长视频扩散模型
数据/训练视频论文/研究
21:33
AK@_akhaliq
62
单个神经元足以绕过大型语言模型的安全对齐设置
安全/对齐论文/研究
11:51
Berryxia.AI@berryxia
66
Exa实验揭示:提升LLM搜索能力,工具效率或比堆算力更重要

ExaAILabs的一项关键实验表明,在强化学习阶段训练大语言模型的搜索能力时,使用其Exa搜索API替代Google数据,不仅能使模型达到更高性能,还可节省高达70%的训练算力。这一结果直接挑战了“提升AI搜索能力主要依赖增加算力”的普遍观点,揭示了搜索工具本身的质量与效率可能更具决定性影响。该发现为从事AI Agent、RAG以及训练具备搜索能力大模型的团队提供了重要启示,意味着未来LLM训练的效率竞争可能始于对底层工具的选择。

Exa: How does Exa compare to Google for training LLMs to search? In this blog post, we find that LLMs using Exa during reinfo...

检索增强搜索数据/训练论文/研究
11:14
SiliconFlow@SiliconFlowAI
63
NousResearch发布了Token Superposition Training(TST),这是一种改进标准大语言模型预训练流程的方法。该技术无需改变模型架构、优化器、分词器或训练数据,即可在相同计算量(FLOPs)下实现2-3倍的训练时间加速。其核心是在训练的前三分之一阶段,让模型读取并预测连续的token包,对输入嵌入进行平均,并使用改进的交叉熵损失预测下一个token包;剩余训练时间则恢复为标准的下一个token预测。推理阶段的模型与传统预训练产生的模型完全相同。该方法已在270M、600M、3B的密集模型以及10B至1B的混合专家模型规模上得到验证。

Nous Research: Today we release Token Superposition Training (TST), a modification to the standard LLM pretraining loop that produces a...

开源生态数据/训练论文/研究
05:02
AK@_akhaliq
62
Apple 发布《论策略蒸馏的利弊与原理剖析》 何处有益,何处有害,以及原因何在
数据/训练论文/研究
01:04
Microsoft Research@MSFTResearch
44
介绍GridSFM--一个能在毫秒内预测交流最优潮流的小型基础模型,可提升效率并实现成本节约。 了解GridSFM如何帮助电网运营商直接掌握拥堵、稳定性和系统健康状况:https://msft.it/6018vucjs
Microsoft论文/研究
5月13日
21:01
AK@_akhaliq
61
EgoMemReason 一个用于长时第一人称视频理解的记忆驱动推理基准
推理视频论文/研究
21:01
AK@_akhaliq
57
RubricEM 超越可验证奖励的准则引导策略分解元强化学习
智能体数据/训练论文/研究
21:01
AK@_akhaliq
41
企业系统是否需要学习世界模型? 情境对推断动态的重要性
论文/研究
00:01
elvis@omarsar0
68
Nous Research提出Lighthouse Attention:一种可移除的训练时注意力加速方案

Lighthouse Attention是一种用于加速长上下文预训练的子二次注意力包装器。其核心是在训练时,通过一个无梯度的分层选择层对称压缩查询、键和值,从而包装标准SDPA注意力并保持因果性。关键优势在于,训练末期可通过简短恢复阶段完全移除该包装器,使得部署模型仍使用原始注意力机制,不增加任何推理开销。初步实验表明,它能缩短总训练时间并降低最终损失。与多数需改变架构或牺牲质量的方案不同,该方法作为纯训练时优化,成功规避了这两大问题,若未来可扩展,将成为长上下文预训练的重要加速工具。

数据/训练论文/研究
5月12日
22:41
Perplexity@perplexity_ai
56
我们发布了关于如何在NVIDIA GB200 NVL72 Blackwell机架上部署训练后Qwen3 235B模型的新研究。 GB200不仅是训练平台,更为大型MoE模型的高吞吐量推理带来了重大升级,相比Hopper实现显著进步。
论文/研究部署/工程
21:29
AK@_akhaliq
56
Qwen-Image-2.0 技术报告
图像生成多模态论文/研究
21:29
AK@_akhaliq
57
TMAS 通过多智能体协同扩展测试时计算
智能体推理论文/研究
21:29
AK@_akhaliq
54
叛逆学生 通过逆向教师信号进行推理探索 结合自蒸馏的RLVR方法
推理论文/研究
21:29
AK@_akhaliq
64
TMAS 通过多智能体协同扩展测试时计算
智能体推理论文/研究
17:59
AK@_akhaliq
63
Soohak 一个由数学家策划的基准测试,用于评估LLMs的研究级数学能力
Hugging Face推理论文/研究
16:59
AK@_akhaliq
58
Pixal3D 从图像生成像素对齐的三维模型
arXiv多模态论文/研究
09:59
elvis@omarsar0
43
尽管处于早期阶段,但最令人印象深刻的是与这些全能模型(omnimodels)的交互正变得极为自然。实时、低延迟的交互式AI模型将解锁当今难以想象的应用场景。其核心在于,AI能够像人类一样,同时进行交谈、倾听、观察、思考和协作,实现与人的实时同步工作模式。这种交互模型的突破,预示着人机协作将进入一个全新的阶段。

Thinking Machines: People talk, listen, watch, think, and collaborate at the same time, in real time. We've designed an AI that works with ...

多模态论文/研究
‹ 上一页
1…7891011…13
下一页 ›