New #gemini agent 👀👀👀
开源测试套件iFixAi通过模拟真实产品场景的测试夹具,为AI代理在部署前提供可重复、标准化的可靠性评估。它在五大风险类别下运行32项检查,评估模型是否捏造事实、遵循不安全指令、无故更改答案、隐藏不确定性或在措辞微调时行为不一致。其核心价值在于可重复性,能完整保存模型、提示词、评判标准和输入,确保不同工程师可复现相同结果。该工具主要目标并非证明AI绝对安全,而是用于捕捉性能退化、公平比较不同供应商模型,并为合规团队提供基于证据的客观报告。
http://x.com/i/article/2052027135619919876
Every product team has a 30-line file in their codebase called pick_model.py. Nine if/else branches. Three retry decorat...
You can now see a breakdown of your agent's context usage in Cursor 3.3. Use these stats to diagnose context issues and ...
ANTHROPIC 🚨: Managed Agents now have Dreams, a self-learningg solution that allows Agents to improve based on their pas...
We've agreed to a partnership with @SpaceX that will substantially increase our compute capacity. This, along with our o...
关联讨论 14 条Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)X:歸藏 (@op7418)X:Thariq (@trq212)Hacker News 热门(buzzing.cc 中文翻译)X:Testing Catalog (@testingcatalog)X:小互 (@xiaohu)X:xAI (@xai)xAI:News(网页)X:宝玉 (@dotey)X:Kim (@kimmonismus)The Decoder:AI News(RSS)X:阿易 AI Notes (@AYi_AInotes)X:Berry Xia (@berryxia)Code with Claude is happening now! ▪︎ 9:00AM - Keynote ▪︎ 10:30AM - What's new in Claude Code ▪︎ 11:15AM - Building on C...
OpenAI 联合 AMD、博通、英特尔、微软和英伟达,通过 OCP 开源了新型网络协议 MRC。该协议旨在解决大规模 AI 训练集群中因网络延迟或故障导致的 GPU 闲置问题。MRC 将数据包拆分并通过数百条路径并行传输,实现微秒级故障绕行,无需交换机重算路由。这简化了网络架构,将连接十几万 GPU 所需的交换机层级从 3-4 层减至 2 层,降低了功耗、成本和故障点。该协议已部署于 OpenAI 最大的 GB200 超算,并成功用于训练多个模型,显著提升了训练任务的鲁棒性。
We've partnered with @AMD, @Broadcom, @Intel, @Microsoft, and @NVIDIA, to release Multipath Reliable Connection (MRC), a...
Google 为其 Gemma 4 开源模型家族发布了多令牌预测模块,可将文本生成速度提升高达三倍。该技术通过一个小型辅助模型一次性预测多个令牌,再由主模型单次检查完成验证,从而显著提高了推理效率。
Anthropic为其Claude托管智能体平台推出三项核心更新。“梦想”功能通过回顾会话历史提取模式,使智能体能够自我改进。“成果”功能允许开发者设定成功标准,智能体据此进行自我评估与修正,内部测试显示其显著提升了任务成功率和输出质量。“多智能体编排”功能支持主智能体将复杂任务分解,并分配给配备专用工具的子智能体并行处理。这些更新旨在以最小人工干预,增强智能体处理复杂任务的能力。
关联讨论 1 条Claude:Blog(网页)Code with Claude is happening now! ▪︎ 9:00AM - Keynote ▪︎ 10:30AM - What's new in Claude Code ▪︎ 11:15AM - Building on C...
Did I understand correctly in their livestream that Anthropic is doubling the rate limits in Claude Code at no extra cha...
Anthropic与SpaceX达成合作,获得其Colossus 1数据中心超300兆瓦(含逾22万块NVIDIA GPU)的算力。此举使Claude Code的Pro、Max等多档计划的五小时速率限制立即翻倍,并取消了高峰时段限流;Claude Opus的API速率也大幅提升。公司还公布了与亚马逊、谷歌、微软等科技巨头的一系列大规模算力协议,总投资额巨大。为满足企业客户的合规需求,算力扩张计划也将覆盖亚洲和欧洲地区。
关联讨论 14 条Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)X:歸藏 (@op7418)X:Thariq (@trq212)Hacker News 热门(buzzing.cc 中文翻译)X:Testing Catalog (@testingcatalog)X:小互 (@xiaohu)X:xAI (@xai)xAI:News(网页)X:宝玉 (@dotey)X:Kim (@kimmonismus)The Decoder:AI News(RSS)X:阿易 AI Notes (@AYi_AInotes)X:Berry Xia (@berryxia)Major new feature for @NotebookLM power users: in the tradition of Mind Maps, Notebook can now auto-label your sources, ...
关联讨论 1 条X:NotebookLM (@NotebookLM)让你搭一个多 agent 团队,每个 agent 有自己的性格和技能,随便哪个设备都能用。 自托管的多 agent 协作平台,跑在 Cloudflare Durable Objects 上。每个 agent 有自己的性格、技能、工具和工作区...
Big news: @WorldClawAI just launched WorldRouter, settled in USD1 with @worldlibertyfi. 300+ AI models, one router, chea...
Xbox CEO 阿莎·夏尔马宣布,将于5月13日为Xbox主机上线新的开机动画和音效。新动画将展示此前已公布的玻璃质感新版Xbox标志,音效也将进行微调。此次更新紧随夏尔马上任后的首次重大组织调整,包括人员变动、引入技术专长新成员及从微软CoreAI部门调入前同事。此外,她还通过推进玩家期待的功能、下调Xbox Game Pass价格及将Microsoft Gaming改回Xbox等举措,积极塑造其领导下的Xbox新方向。
Code with Claude is happening now! ▪︎ 9:00AM - Keynote ▪︎ 10:30AM - What's new in Claude Code ▪︎ 11:15AM - Building on C...
NVIDIA宣布其Spectrum-X以太网扩展架构现已支持多资源容器(MRC)。这一AI原生的开放以太网架构旨在为构建千兆级AI工厂提供网络标准,以满足大规模AI训练与推理对高性能、可扩展网络的需求。MRC的加入增强了资源隔离与管理能力,使Spectrum-X能够更好地支持多租户、多工作负载的复杂AI环境,确保AI计算集群的性能与效率。
OpenAI正式向美国广告主全面开放ChatGPT自助广告投放平台,取消了此前5万美元的最低预算门槛,小型企业现可自主在ChatGPT内投放广告。该公司正加速构建完整的广告生态系统,目标是在今年实现25亿美元的广告营收。这一举措标志着ChatGPT商业化进程的重要扩张,降低了企业参与AI对话广告的门槛。
NVIDIA通过OCP开源了MRC协议,这是一种专为大规模AI训练集群设计的新型RDMA传输协议。其核心创新在于将单一连接分散到多条网络路径上,当某条路径出现故障或拥塞时,能在微秒级时间内通过硬件重路由流量,以解决前沿AI训练中日益严峻的网络瓶颈问题。该协议已应用于OpenAI的Blackwell集群,微软和Oracle也是其主要部署方。NVIDIA此举在表面推动更开放标准的同时,优先为自家Spectrum-X平台优化,实则强化了其全栈竞争优势,并将以太网技术推向传统上由InfiniBand主导的高性能计算领域。
OpenAI 发布了名为 MRC 的新型超级计算机网络协议,旨在提升大规模 AI 训练集群的韧性与性能。该协议通过开放计算项目公开,支持在数千个 GPU 间建立高效、可靠的多路径连接,能自动绕过故障链路,将网络有效带宽提升最高达 30%,同时显著降低训练作业因网络问题中断的概率。MRC 的设计目标是应对万卡级集群的复杂网络挑战,为下一代大模型训练提供基础设施支持。
关联讨论 1 条X:OpenAI (@OpenAI)微软正式推出 Microsoft 365 E7 企业版订阅,该版本在 E5 基础上整合了 Microsoft 365 Copilot、Microsoft Entra 套件及 Agent 365 服务等多项 AI 功能。新方案采用基于用户席位的收费模式,超出基础额度后按词元使用量和资源消耗额外计费。价格方面,含 Teams 版本为每用户每月 99 美元,不含 Teams 版本为 90.45 美元。此外,Agent 365 服务也可单独订阅,价格为每用户每月 15 美元。
Mininglamp-AI开源了两个核心项目,旨在将Mac打造为本地AI工作站。Cider是一个端侧推理加速框架,通过更充分利用M系列芯片的INT8 TensorOps,显著提升LLM/VLM等模型在Mac上的运行速度并降低内存占用。Mano-P则是一个端侧GUI-VLA Agent模型,采用纯视觉方式理解屏幕,能在本地操作各类桌面软件、网页、专业工具及复杂图形化工作流,实现自动化任务执行与数据整合。两者结合,为私有AI提供了高效的本地基础设施。
@testingcatalog @btibor91 perosnal context in europe