Anthropic发布了10个开箱即用的金融专用AI Agent,将估值复核、制作pitchbook、月末结账等核心工作产品化。这些Agent能自动连接顶级金融数据库,原生支持Office,并可通过插件或托管模式使用,全链路审计确保合规。所有代码均已开源,企业可快速部署内部AI团队。此举直接替代初级分析师大量重复劳动,将AI Agent从实验工具转化为企业级生产力,并精准切入金融行业对安全合规的刚性需求,可能引发行业工作流程重构。
关联讨论 2 条Claude:Blog(网页)X:Rohan Paul (@rohanpaul_ai)SubQ模型发布,这是首个基于完全次二次稀疏注意力架构(SSA)的前沿LLM,拥有1200万token的上下文窗口。它在处理100万token时比FlashAttention快52倍,成本低于Opus的5%。该模型突破传统Transformer注意力计算所有token关系的限制,通过稀疏注意力选择性聚焦重要关系,使长上下文处理的计算量减少近1000倍,显著改变了LLM的成本曲线和扩展方式。
关联讨论 1 条X:邵猛 (@shao__meng)Meta 开始利用AI图像分析技术,通过识别骨骼结构和身体尺寸等视觉特征(而非面部识别)来检测Instagram和Facebook上的未成年人。公司强调该方法不依赖人脸识别,旨在更精准地识别未成年用户以加强平台保护措施。
Anthropic的Claude Code项目负责人Boris Cherny指出,编程正从手动编写转向管理AI Agent。他本人2026年未手写代码,日常工作转为合并AI生成的PR,并通过数百个运行Loop模式的Agent自动化处理任务。他认为AI将抹平软件开发的切换成本和流程效力护城河,使编程像识字一样普及,未来跨学科通才将激增,因为理解业务比编写代码更为关键。Anthropic的核心优势在于其彻底改造、全员使用Claude协作的组织流程。
关联讨论 3 条Anthropic:Engineering(事故复盘 + 工程实践 · 网页)X:Claude Devs (@ClaudeDevs)X:Berry Xia (@berryxia)礼来公司的数字部门负责人承认,目前AI在制药领域的回报主要集中于生产制造和后台运营环节,已累计节省数十亿美元成本。然而,在该行业此前宣传最集中的药物发现环节,AI尚未能兑现预期价值。这一反差揭示了AI在制药业不同环节的应用成熟度存在显著差异。
Anthropic发布了十个针对金融服务耗时任务的预置智能体模板,涵盖制作推介书、撰写信贷备忘录、KYC文件筛查及月末关账等。这些模板可作为Claude Cowork和Claude Code的插件,或作为Claude托管智能体的配置指南,帮助团队在数天内部署应用。Claude现通过Microsoft 365插件支持在Excel、PowerPoint等Office应用间无缝工作,并扩展了合作伙伴生态,新增数据连接器和MCP应用,使智能体能直接调用实时金融数据。这些更新与Claude Opus 4.7模型搭配效果最佳,该模型在金融任务上达到先进水平。
关联讨论 2 条Claude:Blog(网页)X:Rohan Paul (@rohanpaul_ai)Google推出Code Wiki项目,旨在解决“阅读现有代码”这一开发瓶颈。该工具能自动扫描代码仓库,实现文档随代码变更实时更新,避免过时。其核心功能包括由Gemini驱动的智能聊天,可将整个Wiki作为知识库进行问答,并支持超链接跳转至具体代码行;还能自动生成架构图、类图、时序图等可视化图表,并链接到源码。工具适用于各种规模的仓库,帮助新人快速上手或理解遗留代码。目前公共仓库已开放预览。
OpenAI正加速开发其首款AI Agent手机,预计2027年上半年量产。该手机将AI Agent能力深度集成至系统层,使其成为可感知、决策与执行的随身智能底座。供应链方面,联发科独家提供基于天玑9600的定制处理器,采用台积电N2P工艺,并配备强化ISP、双NPU、LPDDR6内存及UFS 5.0存储等硬件。预计2027-2028年出货量约3000万台。此举标志OpenAI从软件模型商转向硬件领域,可能引发手机行业新一轮竞争。
美国政府与微软、谷歌及埃隆・马斯克创立的xAI达成新协议,要求这些公司在公开发布新一代AI模型前,提前向美政府开放模型权限,以进行国家安全风险审查。此举旨在应对高性能AI系统可能带来的网络攻击、军事滥用等潜在威胁。负责审查的美国商务部人工智能标准与创新中心表示,该协议是2024年与OpenAI、Anthropic所达成协议的扩展,并已累计完成40余次模型评估。
MATLAB正式推出Agentic Toolkit,深度集成Claude Code、OpenAI Codex等顶级AI智能体,将其武装为MATLAB/Simulink原生专家。该工具包允许智能体实时连接并操作本地MATLAB会话,直接执行、测试和调试代码,同时内置MathWorks专家级技能库,涵盖代码规范、Live Script生成、App构建等领域。此举旨在将AI深度融入科研、仿真、控制系统等工程核心工作流,通过边写边运行、分析与迭代的闭环,提升开发效率与代码质量,挑战Python系AI工具在工程领域的主导地位。
研究指出,驱动智能体性能的关键并非外部编排框架,而是一项核心内在技能:并行推理后进行审议。该研究将这一过程系统化为一个两阶段流程,并通过强化学习与价值回归(RLVR)将其训练为可学习的模型内在能力。实验表明,该方法能显著提升模型性能:例如,GPT-OSS-20B在LiveCodeBench上的成绩从69.7%提升至85.5%;R1-Distill-Qwen-32B在IFEval上的表现从35.7%大幅提升至69.3%。这证明,当此类核心技能能被内化至模型中时,框架优势将转化为模型自身优势,长远来看,模型应原生具备此类能力。
OpenAI Codex的npm周下载量达4600万,远超Claude Code的49.1万,但社区指出对比存在偏差。Claude Code数月前已弃用npm安装方式,而Codex的巨大下载量可能包含大量自动化流水线拉取,未必反映真实使用。Sam Altman也回应数据可能不准确。竞争核心已从能力比拼转向商业化阶段,关键并非安装量,而是工具的实际留存率和日活跃度。Codex凭借生态绑定获得分发优势,Claude Code则以体验吸引高忠诚度用户,胜负取决于产品黏性。
Google与UCSD合作推出扩散式推测解码技术DFlash,在Google Cloud TPU上实现了3.13倍的无损推理加速。该技术突破了传统自回归解码逐个生成token的串行瓶颈,通过一次推测生成多个token来改变生成范式。这一硬件与算法的联合优化,将重塑云端成本曲线,并使实时Agent、长上下文等应用更趋现实,同时大幅降低本地部署门槛。此举将大模型推理的竞争引向了系统级优化的新赛道。
关联讨论 1 条X:Berry Xia (@berryxia)Unsloth发布指南,演示如何利用Gemma 4和Qwen3.6的GGUF模型,在仅需24GB RAM的本地机器上运行完整的agentic coding工作流。该方案通过Unsloth API端点和llama.cpp驱动,支持自愈式tool calls、代码执行和网页搜索。此举打破了以往必须在Claude Code等高端界面的性能与本地部署的隐私/成本之间二选一的困境,使得开发者能以近乎零成本在本地享受顶级交互体验,标志着开源模型开始无缝接管复杂的AI智能体工作流。
用户反馈Codex执行/goal指令时不到半小时自动结束。核心解决方案是设定清晰任务目标、验收标准和文档指导,而非单纯追求运行时长。作者以逆向Codex App项目运行17小时为例,指出需与AI共同制定计划并保存为文档,提供样板文件明确输出格式,再分阶段执行、记录进度并迭代优化。关键在于让AI清楚知道要做什么、如何验证及何时完成,而不是仅靠权限或口头指令。
@dotey 您好,现在已成功录入😄,可还有一个问题,我用chatgpt pro给我写的/goal在codex上运行每次不到半小时它就自己结束了,我给chat…
关联讨论 1 条X:Tibo (@thsottiaux)PageIndex提出一种全新的RAG方法,摒弃了传统依赖向量数据库、嵌入模型、分块和相似度搜索的技术路线。它通过为文档构建树状索引,让LLM能够像人类阅读一样进行分层推理。该方法在FinanceBench基准测试中取得了98.7%的准确率,超越了所有传统向量RAG方案,并且完全开源。这标志着一个范式级的转变:从“检索优先”转向“推理优先”,核心思路是让LLM先理解整体文档结构再回答问题,而非仅仅优化检索速度。此举可能对过去三年构建的整个RAG基础设施产生颠覆性影响。
AI产品坟场网站收录了超过1000款已关闭的AI工具,揭示了该领域产品快速迭代与淘汰的现状。数据显示,这些失败产品的平均寿命仅为347天。该目录按关闭时间倒序排列,提供了产品名称、简介、存活时长与关闭原因,直观反映了AI创业赛道的高风险与高淘汰率。
谷歌、微软和xAI已同意在美国商务部机构CAISI的测试下,提前评估其前沿AI模型。测试的特殊之处在于,公司将提供降低或移除安全护栏的模型版本,以便评估其在协助网络入侵、恶意软件规划等高危任务上的原始能力与风险。此前,OpenAI和Anthropic已于2024年达成类似协议。此举背景是白宫正考虑建立针对主要AI模型的政府审查流程,审查重点是其网络能力——即发现和利用软件漏洞以改变现实安全风险的水平。政策转向的触发点是Anthropic的Mythos模型,该公司认为该模型在发现安全漏洞方面能力过强,广泛发布风险过高。
关联讨论 2 条X:Rohan Paul (@rohanpaul_ai)The Decoder:AI News(RSS)