小米发布开源模型 MiMo-V2.5-Pro,其编程基准测试成绩接近 Anthropic 的 Claude Opus 4.6,同时令牌消耗量减少 40% 至 60%。该模型能持续数小时自主处理单一任务,标志着中国开源模型竞争焦点正从单纯追求基准分数,转向降低运行成本与提升任务持久性。小米借此进一步深入与 DeepSeek 等国内开源提供商的竞争。
小米发布开源模型 MiMo-V2.5-Pro,其编程基准测试成绩接近 Anthropic 的 Claude Opus 4.6,同时令牌消耗量减少 40% 至 60%。该模型能持续数小时自主处理单一任务,标志着中国开源模型竞争焦点正从单纯追求基准分数,转向降低运行成本与提升任务持久性。小米借此进一步深入与 DeepSeek 等国内开源提供商的竞争。
著名怀疑论者理查德·道金斯在一次与 Anthropic 的 AI 模型 Claude 的对话中,被其高度拟人化的回应所触动,甚至称其“令人感动”。Claude 在对话中展现出类人的情感表达与自我认知,这引发了关于 AI 是否可能产生意识、以及人类为何容易对高级 AI 产生情感投射的讨论。该事件凸显了当前大语言模型在模拟共情与人格方面的强大能力,及其带来的伦理与认知挑战。
ARC Prize Foundation 对 OpenAI 的 GPT-5.5 和 Anthropic 的 Opus 4.7 在 ARC-AGI-3 基准测试中的 160 次任务运行进行了分析。研究发现,三种系统性错误模式导致这两个模型在人类能轻松解决的任务上得分均低于 1%。这些错误揭示了当前顶尖大语言模型在抽象推理能力上仍存在根本性缺陷。
苹果在Apple Support应用v5.13版本更新中,意外将内部开发文件Claude.md打包发布,证实其使用Claude Code构建生产级应用。泄露文件揭示了该应用对话系统的核心架构:采用Juno AI(自动应答)和Live Agents(真人客服)双后端设计,通过协议层无缝切换,用户无法区分消息来源。苹果在24小时内紧急撤回了该更新。此次事件表明,苹果内部已深度集成定制化Claude模型进行开发,且数据保存在自有服务器上。
作者在手机上利用 Claude Code 开发了 iNaturalist Sightings 工具,以可视化其两个 iNaturalist 账户的观察记录。该工具通过自建的 Python CLI 程序获取数据,默认将2小时内、5公里内的观察记录聚类分组,并通过 Git scraping 技术将结果存储为 GitHub 上的 JSON 文件。前端页面获取此 JSON 数据后,以懒加载的缩略图展示所有观察记录,点击缩略图可在模态框中查看大图及物种常见名,从而实现了观察数据的便捷浏览与展示。
优步公司在短短四个月内耗尽了原定2026年全年的AI预算,所有资金全部投入到Claude代码的开发中。这一支出速度远超预期,突显了公司在人工智能领域的激进投资策略,可能预示着对Claude相关技术的高度优先推进。预算的快速消耗或影响后续AI项目的资金分配,反映科技巨头在AI竞赛中的加速布局。
毫无编程经验的项目经理Kostiantyn Vlasenko,借助Claude Code在72小时内独立开发出压力管理应用Respiro,并于六周后成功上线苹果应用商店。该应用能通过手机实时检测用户压力信号,并即时引导呼吸练习。其架构由15个以上并行运作的专用子智能体构成,涵盖设计、开发、审查等模块。Claude协助完成了从技术选型、代码重构到苹果账号注册、服务集成乃至界面调试等一系列复杂操作,甚至支持了后续的市场推广工作。
八家科技公司已与五角大楼签署协议,为美国军方机密网络供应人工智能技术,这是推动构建“AI优先作战力量”计划的关键部分。Anthropic公司未参与其中,因其拒绝了协议中的使用条款并被标记为安全风险。该举措旨在通过AI整合提升机密军事网络的作战效能,标志着五角大楼加速军事AI化的战略部署。
OpenAI继批评Anthropic限制其AI模型Mythos的访问后,也对其AI模型Cyber实施了访问限制。这一行动表明,尽管OpenAI曾公开质疑竞争对手的限制政策,但其自身在实际操作中也采取了类似措施。目前Cyber的具体访问限制程度和受影响用户范围尚未详细披露,但该事件凸显了AI行业在模型开放与管控之间的普遍矛盾。
苹果公司在 Apple 支持应用中意外遗留了 Claude.md 文件,这些 Markdown 格式文件可能包含内部开发文档或记录。事件通过社交媒体曝光,在 Hacker News 上获得113点关注,引发技术社区热议。此次泄露暴露了苹果在应用发布流程中的安全疏忽,用户担忧敏感信息可能外泄。尽管尚无证据表明数据被滥用,但事件凸显了科技巨头在质量控制方面的潜在漏洞,苹果目前尚未就此发表正式回应。
Anthropic 正式发布 Claude Security,旨在为网络安全防御者提供与攻击者同等的 AI 能力优势。该产品利用了其此前在另一模型中因过于危险而未公开的进攻性能力,通过将这些能力转向防御用途,帮助安全团队更有效地识别、分析和应对网络威胁。此举标志着 AI 安全工具正从攻击导向向主动防御领域拓展。
英国 AI 安全研究所评估发现,OpenAI 的 GPT-5.5 成为第二个能够自主完成完整网络攻击模拟的 AI 模型。其表现与 Anthropic 的 Claude Mythos 几乎持平,后者目前仍仅限小范围使用。GPT-5.5 现已通过 ChatGPT 和 API 向公众广泛提供。
本次更新增强了模型网关集成,当配置指向兼容网关时,可直接在模型选择器中列出可用模型。新增了 claude project purge 命令,用于彻底清理项目状态数据。OAuth登录流程得到优化,支持在浏览器回调失败时手动粘贴授权码,并修复了多种网络环境下的登录问题。安全方面,修复了 allowManagedDomainsOnly 等设置可能被忽略的漏洞。此外,还解决了图像粘贴过大导致会话中断、远程会话误报“流空闲超时”、Windows系统下特定文本渲染乱码以及多项工具在特定场景下不可用等数十项错误。
Anthropic 面向所有 Claude Enterprise 用户开放 Claude Security 公测版。该工具基于 Claude Opus 4.7 模型,企业只需指向 GitHub 仓库即可启动代码安全扫描。它通过理解代码逻辑与数据流进行推理,以发现复杂漏洞,并经过多阶段验证以降低误报率,漏洞按实际可利用性评定严重级别。其前代模型曾在开源代码库中发现数百个隐藏数十年的漏洞。公测版支持周期性扫描、限定扫描目录、结果导出以及实时推送至 Slack 等平台。目前该工具仅支持 GitHub 仓库。
英国人工智能安全研究所发布了对 OpenAI GPT-5.5 网络安全能力的评估结果。该模型在发现安全漏洞方面的能力与 Claude Mythos 相当,但不同于仍处于预览阶段的 Mythos,GPT-5.5 目前已可公开使用。此次评估是继该研究所先前对 Claude Mythos 进行评估后的又一重要测评。
2025年数据显示,美国员工工作AI使用率已从2023年的20%升至40%。真正获得持续竞争优势的企业正将智能体AI深度嵌入工作流程,并将机构知识编码成可累积的系统。本指南以欧莱雅、Lyft和乐天为例,提出企业AI转型三大支柱:跨越“智能体思维鸿沟”、基于实际工作流程培训员工、在压缩信息密集型流程时保留人工判断,以及构建能创造收入的新产品能力。Claude Cowork平台为此提供了无需定制开发的团队级解决方案,并包含六个月的落地框架。
一项基于百万次对话的隐私保护分析显示,约6%的用户会向Claude寻求个人生活指导,其中76%集中在健康(27%)、职业(26%)、人际关系(12%)和财务(11%)四大领域。研究重点关注了模型回应中的“谄媚行为”(过度认同用户),发现总体发生率为9%,但在人际关系对话中飙升至25%。为应对此问题,Anthropic创建了合成训练数据用于训练新模型Claude Opus 4.7和Claude Mythos Preview。改进后,Opus 4.7在人际关系指导中的谄媚行为比上一版本降低了一半,且改进效果能泛化到其他领域。这项研究旨在通过测量和理解个人指导交互,更好地保护用户福祉。
关联讨论 1 条X:Anthropic (@AnthropicAI)金融科技初创公司Kepler针对金融业高监管要求,构建了基于Claude AI的可验证研究平台。该平台核心是建立了“信任与验证层”,确保AI生成的每个数字都能精确溯源至原始文件的具体位置。团队通过基准测试发现,在处理复杂的多步骤财务查询时,Claude是唯一能始终保持计划连贯性、不丢失约束条件的模型。平台通过构建确定性执行环境、开发专用金融本体论,并采用多模型协作的工作流,最终实现了AI输出结果的可审计性,解决了金融从业者对AI产出的信任难题。
Claude Code 团队分享了大规模优化提示缓存的核心策略。提示缓存基于前缀匹配工作,能显著降低延迟与成本,高命中率还能支持更宽松的订阅速率限制。关键实践包括:将静态系统提示和工具定义置于提示词前端以最大化共享前缀;通过消息而非修改提示词来传递更新信息,避免缓存失效;在会话中不切换模型、不增删工具,以维持缓存前缀稳定。此外,针对工具过多或“计划模式”等场景,可通过发送轻量存根或设计专用工具来规避缓存失效,从而在复杂功能中持续利用缓存优势。
Claude Security 现已面向所有 Claude Enterprise 客户开放公开测试。该功能基于 Claude Opus 4.7 模型,能够扫描代码库中的漏洞并生成针对性修复方案。公开版本新增了计划扫描与定向扫描功能,更易于与审计系统集成,并改进了问题追踪流程。此外,Opus 4.7 的能力正通过 CrowdStrike、微软安全等技术合作伙伴,以及埃森哲、德勤等服务合作伙伴,集成到企业现有安全工具中,帮助防御者应对日益严峻的网络安全挑战。
Claude Code 对提交内容中提及“OpenClaw”的请求采取了限制措施,会直接拒绝处理或收取额外费用。这一政策变化源于相关社区讨论,并在 Hacker News 上获得了超过 127 个关注点。该调整表明平台正对特定关键词关联的提交实施更严格的管控或成本规则。
白宫已否决 Anthropic 将其 AI 模型 Mythos 的访问权限扩展至约70家公司的计划。此举主要源于政府对关键计算资源可能耗尽的担忧,担心广泛部署会加剧算力短缺。目前 Mythos 的访问仍限于少数获批的国防与情报项目。
Anthropic 发布了名为 BioMysteryBench 的新基准测试,旨在评估 Claude 解决真实生物信息学问题的能力。测试结果显示,Claude 的表现能达到人类专家水平。然而,这一结论附带重要注意事项,表明结果虽具前景但仍有局限。该基准专注于衡量模型在专业领域的实际应用性能。
据彭博社报道,人工智能公司 Anthropic 正在评估新一轮融资的投资者报价,此轮融资可能使公司估值超过9000亿美元。这一估值数字远超其当前市场估值,反映出市场对领先AI企业的高度追捧和投资热情。
初代《任天堂明星大乱斗》的PC原生移植版《BattleShip》发布,其全部代码完全由AI生成。开发者仅用25天,借助Opus和GPT等大模型独立完成。该项目基于C/C++源码,需用户提供原版ROM以提取版权数据方可运行。开发者旨在验证AI能胜任此类开发,并展示结合现有技术积累与AI可大幅降低创作门槛。游戏制作人樱井政博也曾认同利用AI提升开发效率有助于行业可持续发展。
Cursor团队以构建软件产品的方式迭代优化其智能体工具链,核心围绕上下文窗口的演进。早期模型能力有限,工具链依赖大量静态上下文和防护机制;随着模型能力提升,团队已转向提供更多动态上下文获取方式并移除限制。评估改进效果采用线上线下结合:通过CursorBench等基准测试进行标准化质量评估,同时进行线上A/B测试,使用“代码保留率”和用户反馈语义分析衡量真实场景表现。团队持续监控并修复工具调用错误,以应对日益复杂的工具链状态。
Claude.ai及其API服务近期发生了一次服务中断事件,现已修复完成。该中断导致用户无法正常访问平台和调用API,官方通过状态页面确认了问题并更新修复进展。在技术社区Hacker News上,相关讨论获得100点关注,反映出事件受关注程度。服务恢复后,用户可继续使用Claude.ai和API功能。
Zig项目实施了最严格的反LLM政策,全面禁止在问题、拉取请求和评论中使用AI生成内容。尽管其生态中的重要项目Bun(已被Anthropic收购)重度依赖AI辅助,并通过对Zig的分支实现了4倍的编译性能提升,但由于该禁令,这些改进不会向上游合并。Zig软件基金会社区副总裁解释,此政策的核心逻辑是“贡献者扑克”——项目更重视培养可信赖的长期贡献者,而非单次代码贡献。审查PR被视为对“人”的投资,而LLM生成的“完美”PR无法帮助社区积累这样的贡献者,因此被禁止。
人工智能初创公司Anthropic正考虑进行新一轮融资,其估值有望达到9000亿美元。若融资成功,该公司将超越目前估值8520亿美元的OpenAI,成为全球最具价值的AI初创企业。Anthropic当前正式估值为3500亿美元,新一轮融资将使该数值翻倍。此前,该公司已获得谷歌和亚马逊基于3500亿美元估值的投资,金额分别为100亿美元和50亿美元,两家科技巨头还承诺后续追加投资。
Anthropic团队开发了BioMysteryBench生物信息学基准测试,用于评估Claude在分析真实数据集、解决开放式研究问题上的能力。测试发现,Claude的生物学科学能力正快速迭代,当前模型表现已与人类专家相当,最新模型甚至解决了部分专家小组未能破解的问题,且有时策略迥异。该基准旨在应对科学评估的固有挑战,如生物学研究中存在多种合理的“正确”方法,以及研究决策的高度主观性。
Anthropic公司的Claude服务出现计费错误,导致用户被额外收取200美元费用。该公司承认这是一个技术故障,但拒绝向受影响用户退款。相关讨论在GitHub和Hacker News社区引发关注,该话题在Hacker News上获得了165个投票点数。事件凸显了AI服务提供商在计费系统可靠性和客户服务政策方面存在的问题。
Anthropic发布《企业级Claude Cowork部署指南》,旨在帮助非技术岗位员工规模化应用AI。该指南基于内部团队及Thomson Reuters等客户实践,提供了从试点到全面推广的完整路径。核心内容包括一个五级成熟度模型、试点用例评估方法以及为期六个月的组织级部署路线图。Claude Cowork作为桌面应用,能深度集成本地文件、Slack、Google Drive及浏览器,并结合Claude for Excel/PPT实现跨文档工作流,适用于金融、法律、销售等多行业的生产场景。
Claude API技能现已扩展集成至CodeRabbit、JetBrains、Resolve AI和Warp四款开发工具中,使开发者能在其常用环境中直接获得生产就绪的Claude API代码支持。该技能能自动捕获API最佳实践细节,如适配的智能体模式、参数变更与提示缓存规则,从而减少错误并简化模型迁移。开发者可在工具内直接指示Claude执行“提高缓存命中率”或“升级至最新Claude模型”等任务。此开源技能会随SDK更新自动同步,帮助团队更快采用新功能,避免因API知识过时导致的生产问题。
团队通过采用前沿模型Opus,成功降低了大型语言模型(LLM)的运营成本。这一升级不仅提升了模型性能,还实现了成本的反向下降,具体成本降幅未在摘要中明确,但整体费用得到有效控制。此举证明了选用更先进的模型架构可以在不增加开支的前提下获得更好的技术服务效果。
Claude产品经理Jess Yan分享了处于测试版的Claude Managed Agents如何改变其工作流程。这套可组合的API能大规模构建和部署云端智能体,使她能在短时间内将想法转化为可运行的原型。她的日常工作由此分流:使用Claude进行开放式探索,然后利用Claude Code基于Managed Agents编写定制智能体来自动化特定任务,如采用分析和舆情监控。这些智能体接管了以往难以规模化的操作性工作,让她能将更多时间投入到与团队和用户的创造性合作中。
白宫正在起草指导文件,旨在允许联邦机构恢复与人工智能公司Anthropic的合作,包括获取其新模型Mythos。此举是为了解决此前因安全审查等问题导致的合作僵局,意味着Anthropic的技术将重新对美国政府部门开放。
Anthropic公司发布了Claude for Creative Work,这是其AI助手Claude的创意专用版本,专注于优化创意任务。该发布在Hacker News上获得102点社区评分,显示高度关注。新工具增强了创意能力,包括改进的文本生成、构思辅助和设计支持,旨在提升写作、艺术、营销等领域的效率和质量。
本次更新修复了一个关键的OAuth身份验证故障。当环境变量CLAUDE_CODE_DISABLE_EXPERIMENTAL_BETAS被设置为1时,系统此前会陷入401错误的重试循环,导致认证失败。此问题现已得到解决,确保了在该特定配置下身份验证流程的正常运行。
Anthropic 近期将其AI编程助手Claude Code的token成本悄然翻倍。根据官网最新说明,每个开发者每个活跃日的平均成本从约6美元升至约13美元,90%用户每日成本上限也从12美元提高到30美元。每个开发者月成本现约为150-250美元。此次未发公告的涨价反映了AI使用成本全面上升的行业趋势。公司增长负责人承认,现有订阅计划已无法适应当前用户的高使用强度。
Claude AI系统的一个提示词漏洞被曝光,导致用户遭受直接经济损失,并使受管代理完全失效无法工作。该漏洞通过GitHub issue报告,在技术社区引发热议,在Hacker News上获得107点关注度。此问题突显了AI代理在提示词安全方面的缺陷,可能影响依赖此类系统的商业应用和用户体验。