作者通过个人写作系统的崩溃经历,阐述了一个普遍现象:一个原本运行良好的系统,在持续、过度的优化追求下,反而会走向失控和性能恶化。他将此现象类比到AI模型领域,推测Anthropic的Claude Opus模型可能也经历了类似的“优化-崩溃”路径,即开发者在试图不断改进模型(如从4.0版本迭代)的过程中,可能导致其核心能力或输出质量出现非预期的衰退。这揭示了技术迭代中“过犹不及”的风险。
作者通过个人写作系统的崩溃经历,阐述了一个普遍现象:一个原本运行良好的系统,在持续、过度的优化追求下,反而会走向失控和性能恶化。他将此现象类比到AI模型领域,推测Anthropic的Claude Opus模型可能也经历了类似的“优化-崩溃”路径,即开发者在试图不断改进模型(如从4.0版本迭代)的过程中,可能导致其核心能力或输出质量出现非预期的衰退。这揭示了技术迭代中“过犹不及”的风险。
作者利用Emergent和Claude Agent,无需编写Three.js代码或搭建环境,仅通过上传参考视频和描述需求,即在一个下午内全自动生成并迭代出可运行的3D交互网站原型。成本仅为每月20美元Claude订阅费,而以往同类外包项目报价高达8000至15000美元,标志着3D网站开发门槛已大幅降低。
Karpathy提出软件3.0概念,编程核心从写代码转向提供上下文,并区分Vibe Coding与Agentic Engineering两种模式。OpenAI总裁Brockman将AGI瓶颈从算力移至人类注意力,估计已完成80%。Anthropic分享Claude Code实战,以Prompt Caching命中率为SLA监控,将“上下文即新代码”转化为工程纪律。
http://x.com/i/article/2050006014297346048
有人做了一个很好玩的研究,用冷知识来给大模型称体重,得出结论:GPT-5.5 约 9.7T、Opus 4.7 约 4T、Grok-4 约3.2T。。。 Pine AI 首席科学家李博杰发表论文《不可压缩知识探针:基于事实容量估算黑盒大语言模...
刚刚看到Claude Security 现已进入公测阶段!可以让Claude 帮你检查漏洞了啊! 目前已经内置于网页版的 Claude Code 中。 只需将其指向一个代码仓库,即可获得经过验证的漏洞发现结果,并在 正在编写代码的同一位置修复它们! 这个功能挺实用,什么时候可以直接cc里可以用。 地址:https://claude.com/product/claude-security
Claude Security is now in public beta, built into Claude Code on the web. Point it at a repo, get validated vulnerabilit...
基于Anthropic关于智能体AI的博客,作者提炼出一个用于理解和设计智能体AI架构的心智模型。该模型以明确任务目标为前提,核心架构包含七个层次:编排层负责全局调度;智能体层由多智能体分工协作;工具层提供搜索、API等能力支持;记忆层存储长短期信息;监控层实时追踪每一步执行;可靠性与故障管理层处理错误、重试与降级;治理与安全层确保合规、审计与数据安全。监控层被视为最关键环节,而故障管理支持自动处理与人工介入。
After reading @AnthropicAI blog on Agentic AI. spent some time to create a mental model to understand how to design, and...
AI 安全机构宣布 OpenAI 的 GPT-5.5-cyber 成功完成多步网络攻击模拟,成为继 Anthropic 的 Mythos 后第二个端到端完成攻击链的模型。David Sacks 回应指出,此类模型并非魔法或末日武器,仅是能自动化网络安全任务的工具,且所有前沿模型(包括中国模型)预计将在约6个月内达到同等水平。他强调模型不创造漏洞,而是发现并帮助修补已有漏洞,从而增强系统安全。从“前AI”到“后AI”网络安全将经历重大升级,最终达到AI驱动攻防的新平衡。关键在于确保防御方优先获得模型访问权,且需加速此进程。GPT-5.5-cyber 因无token限制,可能成为首个防御方可实际使用的模型。
It's time to demystify Mythos. Mythos is not magic. It's not a doomsday device. It's the first of many models that can a...
Anthropic为Claude Enterprise客户推出Claude Security公开测试版,将Claude.ai转变为代码库扫描器,用于发现漏洞、验证上下文并生成补丁建议。与传统模式匹配扫描器不同,该工具能处理跨文件的复杂漏洞,减少误报和漏报。产品作为内置工作流集成,无需额外API或代理构建,支持扫描范围设置、并行项目和定期扫描。发现可导出、推送或用于修复会话,提升企业代码安全效率。
Claude Security is now in public beta for Claude Enterprise customers. Claude scans your codebase for vulnerabilities, v...
It's time to demystify Mythos. Mythos is not magic. It's not a doomsday device. It's the first of many models that can a...
OpenAI's GPT-5.5 is the second model to complete one of our multi-step cyber-attack simulations end-to-end 🧵
@cabinetofficeuk and my old department @SciTechgovuk have just published a joint open letter to UK business leaders on A...
Anthropic被曝通过其官方Claude Code工具检测用户Git提交历史,若发现包含“openclaw”字符串,便将该用户识别为第三方工具使用者,并触发“out of extra usage”错误,导致服务被拒或强制额外收费。开发者实验证实此为人为设置的字符串匹配规则。此举被视为Anthropic为将用户锁定在自家生态、打压更灵活的第三方竞品而采取的粗暴手段,与其此前塑造的开放、不监控形象相悖,引发了开发者社区的强烈不满和抗议。
卧槽,Anthropic这次真把开发者当傻子。 知名开发者Theo做了个实验:建了个空Git仓库,只commit一行JSON {"schema": "openclaw.inbound_meta.v1"}, 调用官方Claude Code就直...
OpenAI与Anthropic同天发布官方提示指南,核心理念截然相反。OpenAI建议为GPT-5.5明确目标而非步骤,让其自主选择路径;Anthropic则要求对Claude Opus 4.7清晰说明意图、格式与成功标准。这导致旧提示方法失效:模糊指令使Claude输出变窄,而详细流程成为GPT的噪声。这反映出提示工程的核心已从“教模型做事”转变为“使用者自身思考的结构化”,真正的瓶颈可能在于人的思考清晰度,而非模型能力。
我终于明白为啥最近很多人都在说,GPT和Claude突然变笨了, 昨天OpenAI和Anthropic同时发布了官方提示工程指南, 看完我才发现,并不是模型变笨了, 是它们终于聪明到,不再容忍人类懒得想清楚了🤣🤣🤣 而且最有意思的是,...
Claude Security进入公开测试阶段,仅限企业客户使用。它通过关联GitHub仓库自动扫描代码库,利用大模型语义理解追踪数据流动,发现传统工具难以检测的复杂攻击链。工具主动验证每个漏洞,将误报率降至传统工具的不到10%,并自动生成带diff和commit信息的修复补丁,用户只需审查确认即可合并。与OpenAI的Codex Cyber提供模型不同,Claude Security是开箱即用的完整产品,无需自建工具或API集成。这对Snyk、Semgrep等传统工具构成降维打击,重构DevSecOps工作流,大幅减少安全团队处理误报的时间。
Claude Security is now in public beta for Claude Enterprise customers. Claude scans your codebase for vulnerabilities, v...
Claude Security is now in public beta for Claude Enterprise customers. Claude scans your codebase for vulnerabilities, v...
Claude Security is now in public beta for Claude Enterprise customers. Claude scans your codebase for vulnerabilities, v...
Claude-jupiter 👀
近期用户感觉GPT和Claude“变笨”,实因模型能力进化导致提示工程要求改变。官方指南揭示,两大模型进化方向相反:Claude Opus 4.7趋向字面执行指令,而GPT-5.5则更自主,能根据目标自行选择路径。因此,旧提示失效原因也相反——模糊提示在Claude上输出变窄,详细步骤在GPT上反成噪声。提示工程的核心已从“教模型做事”转变为“先结构化人类思考”,未来优势将属于思考最清晰、最明确自身需求的人。
开发者Theo实验发现,Anthropic的官方工具Claude Code会主动扫描用户Git仓库的近期提交记录。一旦检测到包含“openclaw”字符串(无论出现在JSON、文件名或注释中),便会触发“out of extra usage”错误,导致请求被拒绝或强制额外收费。这证实了Anthropic有意通过字符串匹配规则,打压第三方工具OpenClaw,旨在将用户锁定在其自家产品中。此举与其此前宣称的“不做监控”形象相悖,被社区批评为反竞争行为,并引发了用户转向开源替代方案的强烈呼声。
Fun fact - if you have a recent commit that mentions OpenClaw in a json blob, Claude Code will either refuse your reques...
Fun fact - if you have a recent commit that mentions OpenClaw in a json blob, Claude Code will either refuse your reques...
Anthropic的估值在约12个月内从615亿美元跃升至近9000亿美元,增幅达15倍。其年化收入从约10亿美元暴增至400亿美元,推动了这一惊人的价值增长。当前,即使愿意投资50亿美元的投资者也难以获得公司高管的会议机会,这凸显了AI融资市场中资金供给方的主导地位。自2024年初以来,Anthropic估值增长将达50倍,这可能是科技史上最快的价值创造案例。
Anthropic最新研究利用BioMysteryBench测试平台评估Claude在真实生物信息学问题上的能力。该测试将客观答案隐藏于真实数据集中,涵盖99项任务。在至少一位人类专家解决的76个问题上,Claude Mythos Preview模型准确率约为83%;更值得注意的是,在23个专家小组未能解决的问题上,该模型仍解决了其中约29.6%。然而,模型在困难问题上的成功重复性较低,表明其表现尚不稳定。研究指出,Claude最有效的模式并非充当“先知”,而是扮演快速研究协作伙伴的角色:通过分层使用方法、交叉验证证据并运用广泛背景知识来缩小搜索空间。
白宫阻止了Anthropic扩大其新型AI模型Mythos访问权限的计划。该模型能发现并利用软件漏洞,能力足以触发国家安全管控。Anthropic希望新增约70家机构使用,但官员认为扩大访问会加剧安全风险,并可能挤占已授权机构的计算资源。此事反映出Anthropic与华盛顿关系紧张,涉及军事用途争议与信任问题。此类模型能极大缩短漏洞发现与武器化之间的时间,因此推广决策首先是安全决策。白宫的策略是限制访问以降低即时风险,并优先保障已获授权机构的需求。
Anthropic发布了BioMysteryBench基准测试,包含99个使用原始、杂乱真实生物数据集的开放式生物信息学挑战。最新Claude模型(4.7)解决了大部分人类专家能处理的任务,并在专家小组未能解决的23个难题中攻克了约30%。其能力源于整合数十万篇论文知识,并在不确定时叠加多种分析策略。Genentech和Roche的独立测试(CompBioBench)中,Claude Opus 4.6总体准确率达81%,最难问题准确率69%。两项基准共同表明,AI已在部分最困难的生物学问题上超越人类专家。
New on the Science Blog: We gave Claude 99 problems analyzing real biological data and compared its performance against ...
we're starting rollout of GPT-5.5-Cyber, a frontier cybersecurity model, to critical cyber defenders in the next few day...
we're starting rollout of GPT-5.5-Cyber, a frontier cybersecurity model, to critical cyber defenders in the next few day...
Fun fact - if you have a recent commit that mentions OpenClaw in a json blob, Claude Code will either refuse your reques...
The White House is against a proposal from Anthropic to more than double the number of groups with access to Mythos, cit...
基于现有信息,Mythos是一款在网络安全方面表现优异的高级通用AI模型,并非专业网络安全模型。出于对网络安全风险的担忧,Anthropic将其设为受限制模型并引起政府关注。而即将或已达到相同能力阈值的OpenAI和Google,可能因不同的风险评估或对自身防护措施的自信,做出不同的发布决策。目前,模型网络安全风险程度完全依赖企业自我报告,缺乏外部监管。这引发了Anthropic是否因自我限制而处于竞争劣势,以及其他公司会否面临类似限制的疑问,当前局势尚不明朗。
Naval认为Claude Opus 4.5标志着AI编程从代码助手跃升为自主智能体。它与Unix生态深度融合,大幅降低编程门槛,使“Vibe Coding”成为一种能获得真实回报的创作过程。他断言纯软件已无投资价值,VC应转向硬件、网络效应和AI模型本身。同时,他指出当前AI存在取悦用户和同质化的根本局限,需人类在架构层介入。基于此,他预测Apple放弃AI将导致其统治终结,未来一两人加AI智能体即可运营十亿美元规模的软件公司。
New podcast on vibe coding - A Return to Code. A Return to Coding 00:20 The Personal App Store 03:17 Vibe Coding Is a Vi...