英伟达正式开始交付其首款自研通用CPU——NVIDIA Vera。该芯片专门针对AI Agent时代高并发、高吞吐的长期运行场景进行优化,核心功能是作为Agent编排与工具调用的调度中枢。它旨在将原本由GPU承担的密集调度与I/O任务分离,由CPU专门处理,从而构建更高效的AI系统。首批Vera CPU由英伟达高管亲自送至Anthropic、OpenAI、xAI及甲骨文云(OCI),其中xAI由马斯克亲自接待。此举标志着英伟达正从GPU主导的推理市场,深入布局为AI Agent时代定制计算基础设施的新赛道。
NVIDIA's Ian Buck hand-delivered the first-ever NVIDIA Vera CPUs to our partners @AnthropicAI, @OpenAI, @SpaceX, and @Or...
Huge, did NOT expect that release. Evals looks very solid, significant jump compared to composer 2! But: it's 10x more e...
用户在使用Shadowrocket时发现,安装Tailscale后网络连接出现异常:关闭Shadowrocket时可正常进行远程桌面连接,但开启后便无法连接。最终通过AI工具Codex自动执行网络联通测试,并修改本地规则数据库成功修复问题。此案例表明,复杂网络配置问题可由AI高效解决,未来或可广泛应用于自动化编写Shadowrocket等工具的配置规则。
推文提出了一个核心判断标准:根据AI产出内容的最终用途来选择格式——如果是为了“阅读”,就用Markdown;如果是为了“使用”,则用HTML。推文指出,许多内容(如项目计划)本质上属于“使用”范畴,但常被错误地用Markdown交付,导致效果不佳。为此,作者推荐了三种适合用HTML生成的实用场景:项目计划页(含时间线与交互图表)、数据看板(支持排序筛选的交互表格),以及各类临时小工具。
http://x.com/i/article/2053129966217277440
针对AI API中转站可能存在的“掺水”、“造假”等安全风险,开源项目api-relay-audit通过双论文锚定路线,对AC-1工具调用改写、AC-2错误响应泄漏、上下文截断等常见攻击进行可验证的三态判定,并提供透明日志。对比hvoy.ai和cctest.ai等工具,其透明度和可审计性更为可靠。项目作者已将完整方法论、对比结果和功能速查表公开,并开源了该检测工具。
http://x.com/i/article/2052006162804125696
LLM应用层产物形态从chat演进到agent,两者输出均受限于会话,每次运行都需冷启动、重输上下文并消耗token。KroWork推出第三步应用固化,通过将对话编译为本地可执行App,使后续运行完全避免token消耗,实现一次编译后多次调用,提升效率并降低成本。
一条关于游戏开发的推文引发广泛共鸣:利用3D Gaussian Splatting技术生成的单颗树莓模型精度极高且运行流畅,但若将一整筐此类高精度模型放入游戏,帧率会骤降至2 FPS。这现象揭示了AI工具领域的普遍困境:生成单张图像、短视频或代码片段时效果出色,一旦进行批量生产或系统集成,就会出现质量崩溃、性能低下或依赖混乱等问题。其核心在于,新工具极大降低了创意demo的制作门槛,但将其转化为稳定、可交付的生产级应用,所需的工程优化与整合能力反而变得更加稀缺和关键。AI让创意唾手可得,但跨越demo到生产的鸿沟,仍需扎实的工程能力。
Cant wait for an indie dev to accidentally put a carton of these in his game as a prop and wonder why his game runs at 2...
Hermes框架在代码质量和稳定性方面显著优于OpenClaw。用户可通过命令行快速创建多个独立机器人角色,并为每个角色分别配置不同的AI模型(如OpenAI GPT、GLM、Kimi等)和即时通讯平台(如飞书、微信)连接。配置过程通过引导式指令和扫码完成,简化了网关设置,实现了多机器人的远程协同工作流。
NVIDIA的AI性能基准测试项目AIPerf接受了来自AMD的上游代码贡献,这被认为是AMD代码首次被纳入NVIDIA官方仓库。此举被视为开源社区的重要时刻,意味着高质量的、不依赖特定厂商的代码将能供所有人使用。社区期待未来能有更多此类合作,例如将AMD的RIXL部分代码整合进NVIDIA的NIXL,而非维持独立分支。
The latest CodexBar update renders API costs wayyyy nicer. https://codex.bar
长上下文大型语言模型的竞争焦点已从单纯增加上下文长度,转向通过精细的架构优化来提升计算效率。Sebastian Raschka的新文章通过可视化方式,解析了从Gemma 4到DeepSeek V4等模型在生产环境中应用的关键效率优化技术,如KV缓存共享、分层嵌入和压缩注意力等。这些技术旨在更智能地分配计算资源,已成为决定模型性能差异的关键。对于从事长上下文模型、智能体或RAG开发的团队而言,文章中的视觉图解与效率对比具有重要的参考价值。
New article: a visual tour of recent LLM architecture advances, from Gemma 4 to DeepSeek V4. I focus on long-context eff...
lossless-claw 0.10.0 - the "long chats survive" release 🧵 recall spans rotated conversation segments 🧹 full-sweep comp...
硅谷资深管理者普遍被要求亲自动手使用AI工具,以判断团队效率与技术方向。管理者应选择非关键路径、高杠杆且视角独有的工作,具体包括优化团队内部效率工具、改进产品生活质量、制作庆祝团队成果的物料以及创建展示未来愿景的演示。核心禁忌是介入有关键截止日期和依赖关系的核心产品任务,以免因日程碎片化成为瓶颈,导致交付或管理失败。
What kind of IC work can you do if you are a manager? Attended two dinners with dozens of senior Bay Area tech managers ...
Forward Deployed Engineer(FDE)是AI落地应用的关键角色,负责在客户现场部署和集成AI系统。近期,OpenAI成立独立部署公司,Anthropic与华尔街巨头合作,Google也简化流程大力招聘,显示行业重心正从模型竞赛转向商业落地。FDE工作介于工程师与顾问之间,需写代码、调试并深度理解业务。此岗位为毕业生提供了接触企业级项目的机会,也帮助资深工程师贴近业务需求,成为推动AI创造实际价值的重要力量。
近期AI领域焦点从模型能力转向Agent工程化落地。Anthropic发布Claude Code实践,强调放弃RAG索引,采用Agentic Search导航大型代码库,并推出管理并行会话的Agent View及Computer Use最佳实践。OpenAI的Codex推出独立光标的Computer Use功能,解决了Windows平台沙箱安全问题,其负责人指出Codex正演变为可执行长期自主任务的本地Agent。国内厂商如阿里、腾讯等也在同步推进Multi-Agent实战,标志着AI Agent进入全面工程化应用阶段。
Codex现已支持通过手机上的ChatGPT应用进行远程控制,实现了跨设备对话同步与指令操作。用户需在桌面端Codex客户端内启动设置,并完成多重因素验证(推荐使用Google Authenticator)。绑定后,手机ChatGPT App将出现Codex侧边栏,可查看并控制已绑定桌面设备的所有对话,直接发送命令。目前该功能仅支持Mac版Codex,Windows版本仍在开发中。
吴恩达与AMD合作推出新课《Transformers in Practice》,旨在将Transformer从学术概念转化为可调试的工程工具。课程提供交互式可视化,让开发者深入模型内部,观察自回归生成、注意力头分工及幻觉产生过程。核心聚焦生产中的推理优化难题,指出大部分延迟源于内存带宽与注意力计算,而非参数量。课程将系统讲解量化、KV Cache、Flash Attention、投机解码等关键技术,以实现数倍速度提升且精度损失极小。其最大价值在于培养能诊断问题、优化成本的稀缺人才,弥补了仅关注CUDA而缺乏硬件感知优化的市场空白。
New course: Transformers in Practice. You'll get a practical view of how transformer-based LLMs work, so you can reason ...
Anthropic首席财务官Krishna Rao在首次深度访谈中透露,其加入公司两年来,年化营收从2.5亿美元激增至300亿美元,并主导筹集近750亿美元资金。他手握超过1000亿美元的AI算力采购承诺,全权负责Trainium、TPUs和GPUs等资源在训练与推理间的动态分配。访谈核心指出,随着模型能力趋同,算力获取与调配能力已成为顶尖AI公司的决胜关键,CFO可能取代首席科学家成为战略掌控者。节目还深入探讨了不确定性决策、前沿智能回报递增等议题。
Krishna Rao is the CFO of Anthropic, and this is his first podcast appearance. He joined the company two years ago when ...