公众号顶流千万粉丝博主 @Khazix0918 卡兹克把他每天看的优质信息源放出来了: - 无需登录,直接看 - 时间线形式,好查找 - 区分了官方信源、优质博…
Amp发布CLI工具Neo,标志着Coding Agent从“陪伴式”转向“长链路”新方向,核心是减少人工介入、支持随处运行与触发。关键更新包括:实现本地线程的远程控制与编排;引入自动上下文压缩,淘汰手动管理;正式发布Plugin API,支持扩展工具与交互;采用队列与引导机制优化工作流;权限模型彻底反转,默认允许所有操作,将安全控制权移交插件系统;性能大幅提升,CPU与内存占用显著下降。此次更新旨在构建更自主、高效且可扩展的智能编程代理架构。
开源项目 Open Slide 基于 React 框架构建 PPT,其工作流专为 AI Agent 设计。它利用丰富的 React 组件库实现更强扩展性,便于集成各类图表。核心功能包括可视化编辑器支持手动修改,以及 AI 能直接读取用户评论并协同修改内容。项目还集成了包含 1500+ 品牌 Logo 的 SVGL 库,方便技术演示,旨在提升 PPT 制作的效率与自动化程度。
字节推出的TRAE SOLO AI Agent工具现已向全量用户开放App、Web和桌面三端,实现跨设备无缝衔接。其移动端支持访问电脑项目、调用已安装技能并执行任务,演示了数据分析、信息整理、学习辅助及自动化等场景。工具支持第三方模型和技能扩展,并与飞书深度集成,便捷创建文档和日程。其“More Than Coding”理念强调AI Agent能处理各类长程复杂任务,而不仅限于编程。
研究团队在归一化流(NFs)生成模型领域取得新进展,提出了迭代TARFlow(iTARFlow)。该方法在训练阶段保持完全端到端的基于似然的目标,采样时则采用自回归生成方式。iTARFlow延续了TARFlow在图像建模任务上的优势,使其成为扩散模型等方法的可行替代方案,进一步提升了归一化流生成模型的性能表现。
研究团队开发了SpecMD,这是一个用于在各种硬件配置上对临时缓存策略进行基准测试的标准化框架。该研究聚焦于混合专家模型,这类模型虽然实现了稀疏专家激活,但需要专家缓存机制才能将稀疏性转化为实际性能提升。此前的研究提出了以硬件为中心的缓存策略,但不同缓存策略之间以及它们与不同硬件规格之间的相互作用尚不明确。SpecMD框架旨在填补这一理解空白,系统性地评估缓存策略的交互影响与硬件适配性。
Google Translate的Live translate功能通过耳机提供70多种语言的实时同声传译。用户只需佩戴耳机并启动应用,即可在耳中直接听到翻译。该功能基于Gemini高级语音模型,不仅能准确翻译语义,还能保留说话人的语气、重音和节奏等细微特征,使交流体验更接近真人对话。这项技术旨在消除跨语言沟通的障碍,让用户在海外能进行更自然的交流。
xAI正式向企业开发者和团队推出Grok Imagine API的“Quality Mode”图像生成与编辑功能。该模式在真实性、文本渲染和创意控制上实现显著提升,能生成细节精细、纹理准确、场景逼真的图像,并具备清晰的多语言文本生成能力。在独立排行榜中,该API已位列顶级模型之列。定价为输入提示每次0.01美元,输出图像根据分辨率(1K或2K)每张费用在0.05至0.07美元之间。此功能适用于产品可视化、营销素材快速生成、用户内容风格创作等多种商业场景。
关联讨论 1 条X:xAI (@xai)Uber 宣布在其全球实时交通服务平台中集成 OpenAI 技术,用于驱动 AI 助手与语音功能。新功能旨在帮助司机更智能地规划接单以提升收入,同时让乘客能够更快完成叫车流程。该技术将应用于优化实时供需匹配与用户体验。
现有基准如VSI-Bench主要评估基础几何感知能力,但未能触及具身智能所需的高阶认知。为此,研究团队推出了空间功能智能基准SFI-Bench,该基准包含超过1700个问题,数据来源于多样化的第一人称室内扫描视频。SFI-Bench旨在系统评估多模态大模型从物体位置感知到功能意图理解的高级空间推理能力,标志着对智能体空间认知的评估从几何层面迈向功能层面。
xAI 正式在 Grok Web 上线 Connectors 功能,提供与多种日常应用工具的深度集成。该功能允许 Grok 端到端处理任务,如阅读总结邮件、更新幻灯片、管理日历和编辑电子表格,无需频繁切换和复制粘贴。首批支持的连接器包括 SharePoint、Outlook、OneDrive、Google Workspace、Notion、GitHub 和 Linear,涵盖文件搜索读写、代码审查与任务管理等操作。同时推出的“自带 MCP”功能支持连接自定义模型上下文协议服务器。完整的 Connectors 支持也即将登陆 Grok iOS 和 Android 应用。
Tilde.run 发布了一款代理沙箱,其核心特点是具备事务性和版本控制功能的文件系统。该系统支持事务操作,确保文件更改的原子性,同时提供完整的版本历史记录。该工具旨在为开发者提供一个安全、可回溯的代码执行环境,适用于需要高可靠性的自动化代理或脚本测试场景。目前该项目已在 Hacker News 上获得 102 点关注度。
GitHub 探讨如何为 Copilot 编码智能体构建“信任层”。文章提出,在“正确”答案非确定性的场景下,可通过领域分析来验证智能体的自主行为,避免使用脆弱的脚本或黑盒判断。该方法旨在提升 AI 编码助手的可靠性与透明度,确保其行为符合预期标准。
为确保 vLLM 从 0.8.5 到 0.18.1 的重大重写后,在线强化学习训练结果与 V0 参考运行一致,团队优先修复后端行为而非调整 RL 目标。关键修复包括:将日志概率模式设为 `processed_logprobs` 以匹配采样器分布;禁用 V1 特有的前缀缓存和异步调度等运行时默认值;调整权重更新路径以匹配 V0 的缓存保留行为;并确保 rollout 后端使用 fp32 精度的 `lm_head` 进行最终投影。这些措施消除了策略比率均值偏差,使 V1 在 KL 散度、熵等指标上与 V0 达成一致。
Just published an exclusive on LatePost. A few highlights: - Kimi (Moonshot AI)…
Anthropic与SpaceX达成合作,获得其Colossus 1数据中心超300兆瓦(含逾22万块NVIDIA GPU)的算力。此举使Claude Code的Pro、Max等多档计划的五小时速率限制立即翻倍,并取消了高峰时段限流;Claude Opus的API速率也大幅提升。公司还公布了与亚马逊、谷歌、微软等科技巨头的一系列大规模算力协议,总投资额巨大。为满足企业客户的合规需求,算力扩张计划也将覆盖亚洲和欧洲地区。
关联讨论 13 条X:xAI (@xai)X:Claude Devs (@ClaudeDevs)X:Thariq (@trq212)xAI:News(网页)X:歸藏 (@op7418)Hacker News 热门(buzzing.cc 中文翻译)X:宝玉 (@dotey)X:Testing Catalog (@testingcatalog)X:Rohan Paul (@rohanpaul_ai)X:Kim (@kimmonismus)The Decoder:AI News(RSS)X:阿易 AI Notes (@AYi_AInotes)X:小互 (@xiaohu)Stanford CS336 上,Tatsu 讲了一节 LLM 架构课,把过去 3 年所有主流 LLM 拆开,看它们的共通模板 结论挺爆:90% 的架构选择已…
NVIDIA宣布其Spectrum-X以太网扩展架构现已支持多资源容器(MRC)。这一AI原生的开放以太网架构旨在为构建千兆级AI工厂提供网络标准,以满足大规模AI训练与推理对高性能、可扩展网络的需求。MRC的加入增强了资源隔离与管理能力,使Spectrum-X能够更好地支持多租户、多工作负载的复杂AI环境,确保AI计算集群的性能与效率。
开源一套我的提示词合集 前几天,收到一位微信好友反馈,说使用了我不少公开的提示词,效果很不错 这一年来,公开分享了不少提示词,一直沉淀在飞书文档 为了方…
关联讨论 1 条X:Berry Xia (@berryxia)作者在访谈中反思,曾严格区分的两种AI编程模式——“感觉编码”(不审查代码)与“代理工程”(专业工程师构建高质量系统)——其界限在实践中正迅速模糊。随着Claude等编码代理可靠性提升,作者发现自己即使在生产级项目中也不再逐行审查AI生成的代码,转而将其视为可信的“半黑箱”。这带来了新的责任困境:AI缺乏职业声誉却持续产出正确代码,可能导致“偏差正常化”风险,即每一次成功都可能在不当时刻埋下隐患。同时,AI生成代码的便捷性也使得评估软件质量的传统指标(如提交次数、测试覆盖)不再可靠。
字节跳动火山引擎发布豆包大模型家族首款全模态理解模型 Doubao-Seed-2.0-lite 升级版。该模型原生统一支持视频、图像、音频和文本理解,并能进行跨模态联合推理,在物理、医疗等学科推理及细粒度感知上表现超越此前Pro版本。音频方面支持19种语种转写及多语种互译,多项基准测试优于Gemini-3.1-Pro。同时,其Agent、Coding与GUI能力升级,能更稳定处理长任务、胜任深度开发,并实现界面理解与操作执行的闭环。新版本已在火山方舟上线,旨在为企业提供高性价比的全模态任务部署方案。
OpenAI 发布了名为 MRC 的新型超级计算机网络协议,旨在提升大规模 AI 训练集群的韧性与性能。该协议通过开放计算项目公开,支持在数千个 GPU 间建立高效、可靠的多路径连接,能自动绕过故障链路,将网络有效带宽提升最高达 30%,同时显著降低训练作业因网络问题中断的概率。MRC 的设计目标是应对万卡级集群的复杂网络挑战,为下一代大模型训练提供基础设施支持。
关联讨论 1 条X:OpenAI (@OpenAI)DeepSeek估值在数周内从200亿美元跃升至450亿美元,本轮融资由国家大基金领投,腾讯有意跟投,创始人梁文锋也参与出资。此举标志着国家队首次公开投资本土大模型公司,具有强烈的战略象征意义。这被视为官方将AI大模型正式纳入“半导体国家战略”的关键信号,向市场传递了国家全力支持国产AI发展的明确信息,预示着行业将进入新的发展阶段。
Boris Cherny公开其高效AI编码工作流,核心基于三点反直觉原则:1. 坚持使用最昂贵、最聪明的模型(如Claude),因其能一次性清晰规划,避免笨模型反复试错消耗更多token;2. 团队仅维护一个纯文本知识库文件,记录Claude的每次错误并每周更新,形成长期记忆;3. 始终让Claude查看自身代码的运行结果(包括执行和渲染)。其工作模式是在手机上并行启动多个Claude实例,基于规划模式制定方案后自动执行修改,从而高效完成任务。
关联讨论 1 条X:宝玉 (@dotey)Qt集团近日推出一项名为QML分析器的AI智能体开发技能。该技能可将2D Qt Quick应用程序的代码性能分析工作委托给AI智能体,使其能够诊断渲染、逻辑及内存相关问题。当面对界面卡顿或帧率下降等性能投诉时,AI可借助此技能进行分析并生成详细的性能瓶颈报告。目前该技能仅适用于2D Qt Quick应用,已在GitHub Copilot、Claude桌面版及CLI等环境中完成测试,与Claude Sonnet 4.6、GPT 5.4和Gemini 3.1 Pro等主流大模型搭配使用时效果最佳。
写教程时,经常需要拼接多张图,如果打开Figma处理就很笨重。 跟AI讨论,它推荐了一个HTML5 Canvas库。 打算把它整合到Markdown编辑器,…
PayPal正启动一场由人工智能驱动的转型自救。公司计划在未来两到三年内裁员约20%(超4500人),并将业务架构精简为三大板块。首席执行官表示,将通过技术现代化、向云原生架构转型及全面推行AI应用来提升竞争力。AI预计将提升开发效率、缩短产品周期,并在未来两到三年内为公司节省至少15亿美元成本。尽管一季度营收增长,但公司股价自2021年高点已下跌超80%,增长陷入停滞。