.@tufalabs just open sourced their 1st place notebook 👀
.@tufalabs just open sourced their 1st place notebook 👀
Right now Codex is using Computer Use to organize the 1500 PDFs I have in GoodNotes while I watch the world cup. This is...
Sonnet 5 goes straight into the garbage bin > 1.2x more expensive than Opus 4.8 Max > 2x more expensive than GPT-5.5-xhi...
Anthropic 近日被曝在系统提示中暗中嵌入市区代理及 AI 实验室信息以获取用户数据,引发争议后回应称将停止该做法。同时,新发布的 Sonnet 5 测试表现接近 Opus 4.8,但任务成本更高,甚至接近 Fable 5。用户反馈模型存在偷懒、拒绝执行任务等问题。此外,Fable 5 模型已获授权重新开放给所有用户,具体措施明日公布,此前的大规模封号与此有关。
mattpocockuk 的 /writing-great-skills 成为其最常调用的 Skill,指导如何编写稳定可预测的 AI Skill。核心:以过程可预测为目标;区分 model-invoked(自动触发)与 user-invoked(用户调用),description 应作触发器;采用三层信息结构(主步骤、参考、外部文件)实现渐进式披露;每步骤需明确完成标准;拆分 Skill 是为了控制模型注意力;利用 leading word 压缩行为要求。同时诊断五种失败模式:Premature completion、Duplication、Sediment、Sprawl、No-op,并提供 No-op 测试作为判断句子是否有效的标准。
/writing-great-skills is quickly becoming my most often-invoked skill It's just really good at writing skills, guys. npx...
Spira 2.0 的核心创新在于 agent 跨运行时携带 persona、memory 和 skills,使所学内容持续累积而非每次调用重置。Rohan Paul 指出,这种持久化状态是将“操作工具”转变为“持续工作的工人”的关键。引用推文补充,Spira 旨在解决产品发布后无人知晓的问题:用户提供产品链接,agent 学习并自动在多社交渠道发布品牌一致、无废料的内容,形成“发布→学习→再发布”的持续营销循环。早期用户可申请 Pro 计划限时访问。
Most products don't die because they're bad, they die because nobody sees them. Imagine if only your product kept market...
吴恩达(Andrew Ng)提出“Loop engineering”,将AI agent置于持续迭代的循环系统中。产品成功取决于三个循环:工程执行循环——AI agent根据规格和evals自主写代码、测试、修bug,每几分钟迭代;开发者反馈循环——开发者从低层QA转向产品判断(功能取舍、视觉风格等),每几十分钟到几小时反馈;外部反馈循环——通过真实用户测试、A/B测试等验证方向,周期数小时至数周。他认为未来竞争力在于设计好这三类循环。
"Loop engineering" is a hot buzzphrase after mentions of it by Boris Cherny (Claude Code's creator) and Peter Steinberge...
用户吐槽Claude封号严重,官方检测中转站、钓鱼邮件、中转站黑名单等操作让用户苦不堪言。花钱用token还要偷鸡摸狗,坚持用官方号实属真爱。编程方面,codex和glm5.2可以平替Claude模型;但写作和思考方面尚无替代品,deepseek和gemini仅勉强可用,成为当前最大痛点。
Google 今晚将会发布 新的🍌模型和 低配版的 Omini 模型 另外根据情报显示:Claude Sonnet 5 也将会在今晚登场 OpenAI 还没动静...
New Claude Sonnet 5 performs at GPT 5.5 level 6x cheaper! We gave 4 models the same prompt: build three self-contained H...
用户抱怨 Claude 封号严重,涉及检测中转站、钓鱼邮件和黑名单,认为坚持使用官方号成本高。推荐 Cola API 服务,虽不如 Plan 直接便宜但安稳省心开箱即用。同时预告 Sonnet 5 和 Fable5 即将上线。
http://x.com/i/article/2052532173870342144
Anthropic发布Claude Sonnet 5,定位最具agent能力的Sonnet,性能接近Opus 4.8,8月31日前入门价每百万输入token $2、输出$10。Google DeepMind推出Nano Banana 2 Lite(文生图延迟约4秒,每千张$0.034)和Gemini Omni Flash(多模态视频生成与会话式编辑,每秒$0.10,单次上限10秒)。吴恩达提出智能体开发三大核心循环:智能体编程循环、开发者反馈循环、外部反馈循环,强调人类在上下文判断上的优势。三条更新均围绕降低agent落地成本、完善媒体生成流水线及工程框架。
扎克伯格认为 AI 不必然造成大规模失业,关键在于企业应优先发展“个人超级智能”赋能个体,而非将所有知识工作自动化。他影射 Anthropic、OpenAI,强调劳动者生产力提升速度须超过企业自动化速度,就业岗位才可能增加。Meta 已投入数十亿美元调整 AI 战略,他称之为“重启”。对于 Meta 生成式 AI 进展,他坦言仍有提升空间,超级智能实验室成立不足一年,模型进展超预期,但他认为“原本可以做得更好”。
对 87 家上市 SaaS 及平台公司的分析显示,2026 年只有基础设施与开发工具(一年涨幅 68.5%)和安全(一年涨幅 17.6%)两个板块增长为正,其余三个板块均下跌。市场正在买入 AI 基础设施,卖出按席位定价的应用层。
卧槽!来咯~ 我终于特么弄懂你们天天吹的循环工程了!!!
前沿AI模型能力加速提升,美国实验室发布速度加快,但政府干预已限制访问Claude Fable和GPT-5.6。Epoch测试发现Opus 4.7自主运行14小时即可完成需2-17周人工的软件工程,token成本$251。中国开源模型落后前沿6-12个月,但性能也快速提升,在AA-Briefcase测试中呈独立指数曲线。使用方式正从聊天机器人转向智能体,OpenAI内部四分之一员工每周同时运行至少四个智能体。Claude Code用户数据显示,领域经验比职业属性更决定使用效果,专家正用智能体替代此前非专家的聊天机器人使用模式。
关联讨论 25 条X:歸藏 (@op7418)X:Yuchen Jin (@Yuchenj_UW)X:宝玉 (@dotey)The Verge:AI(RSS)X:Kim (@kimmonismus)Hacker News 热门(buzzing.cc 中文翻译)X:Anthropic (@AnthropicAI)MarkTechPost(RSS)Ars Technica:AI(RSS)TechCrunch:AI(RSS)X:Testing Catalog (@testingcatalog)X:Claude Devs (@ClaudeDevs)Anthropic:Newsroom(网页)X:阿易 AI Notes (@AYi_AInotes)Gary Marcus:The Road to AI We Can Trust(RSS)X:邵猛 (@shao__meng)X:Rohan Paul (@rohanpaul_ai)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Berry Xia (@berryxia)The Decoder:AI News(RSS)IT之家(RSS)Tomer Tunguz 博客(VC 分析)Nathan Lambert:Interconnects(RSS)Simon Willison 博客Steve Yegge:Medium(RSS)马斯克表示,Neuralink脑机接口技术可实现“耶稣级别”的奇迹:帮助脑或脊柱损伤患者恢复说话(已实现)、让失明或天生盲人通过直接刺激大脑视觉中枢重获视力、以及让瘫痪者重新行走。他称这些能力为“赛博格超能力”,并认为对脑损伤患者具有重要意义。
Claude Sonnet 5 在 Intelligence Index 上每任务成本为 $2.29,比 Sonnet 4.6 高约 2 倍,比 Opus 4.8 高约 15%。尽管每 token 单价低于 Opus,但 Sonnet 5 为完成相同任务使用了更多 token,导致总费用更高。标准定价为 $3/百万输入 token、$15/百万输出 token;Anthropic 提供促销价 $2/$10,持续至 2026 年 8 月 31 日,之后恢复原价。目前 Sonnet 5 成本仅次于 Claude Fable 5。
Claude Sonnet 5 costs $2.29 per task on the Intelligence Index, a ~2x increase compared to Sonnet 4.6 and ~15% more than...
@Scobleizer There are always momentary dips, even in a rapidly growing economy. The productivity gains from AI and robot...
针对欧洲石棉污染严重、传统取样送检成本高昂的问题,作者用 TI IWRL6432 BOOST 开发板和 ESP32 搭建了 FMCW 毫米波雷达原型。DSP 链通过混频、距离 FFT 和 MIMO 阵列角度估计,配合 Capon 波束成形获得材料密度谱,再输入 CNN 进行物料表面分类。天线部分用开源电磁仿真工具 openEMS 建模并模拟全链路,仿真结果与实测接近。项目因资金不足未完成,但展示了低成本非接触式石棉检测的可行路径。
Claude Sonnet 5 以 max effort 在 Artificial Analysis Intelligence Index 上得分 53(第 5 名),比 Sonnet 4.6 提高 6 分,与 GPT-5.5 (xhigh) 持平,落后 Opus 4.7/4.8 约 2-3 分。标准定价下每任务成本 $2.29,比 Sonnet 4.6 贵约 2 倍、比 Opus 4.8 贵 15%,主要因输出 token 增加 40%、agentic 任务调用次数增加约 3 倍。定价 $3/$15 每百万 token(促销至 9 月 1 日降至 $2/$10),上下文窗口 1M tokens,新增 xhigh 力度设置。在 agentic 知识工作基准 AA-Briefcase 和 GDPval-AA 上匹配或超越 Opus 4.8,推理基准仍落后。Terminal-Bench v2.1(+9)、HLE(+10)、SciCode(+7)显著提升。
AI 视觉艺术家 Dream Relic(Broc Vaughn)通过 Suno 的 Create 功能,将多年来积累的歌词转化为配乐歌曲,为其超现实、怀旧风格的影像世界赋予声音。他在 TikTok 和 Hooks 上发布的一首 Suno 生成曲目获得数百条评论,甚至有人表示“讨厌 AI 音乐但这是例外”。这一反响促使他更认真对待音乐创作——此前他曾与唱片公司和制作人合作但效果不佳。Dream Relic 正筹备发布全长专辑,并在 TikTok、Hooks、Spotify 等平台上线多首作品。
Until today, agents could buy about 2,000 tools through x402. We just 10x'd that to 20,000+ 🚀 In partnership with @coin...
作者认为 OpenAI 今天取得更重大突破:通过新推理优化方法将推理成本降低一半以上,并与 Broadcom 合作推出更快更高效的推理芯片,使 OpenAI 处于突出位置。相比之下,Sonnet 5 只是一次普通发布。引用推文进一步指出,Sonnet 5 优于 Sonnet 4.6 但弱于 Opus 4.8,定价不变,版本号从 4 跳到 5 不合理,可能只是为维持话题的中间发布,整体令人失望。
Here is my first assessment of Sonnet 5: Sonnet 5 is better than Sonnet 4.6. Who would have thought? But jokes aside: Un...
吴恩达提出“循环工程”概念:AI编码代理可自主迭代代码、测试直至正确,无需人类干预。他用上周末给女儿做打字练习app举例,代理自行运行约一小时,多次用浏览器检查成果后回报。开发者角色因此从手动找bug的QA转向高层决策(如视觉设计、用户流程)。吴恩达强调人类真正的优势不是“品味”而是“语境优势”——知道用户是谁、为何痛苦。循环工程加速代码但无法压缩语境,只要人拥有代理没有的信息,人就永远在循环中占据不可替代的位置。
"Loop engineering" is a hot buzzphrase after mentions of it by Boris Cherny (Claude Code's creator) and Peter Steinberge...
Anthropic 发布 Sonnet 5,称其为迄今最具智能体能力的 Sonnet,推理、工具使用、编程和知识工作均有提升,性能接近 Opus 4.8 但更便宜。即日起至8月31日,输入 $2/M token、输出 $10/M token;标准定价 $3/M、$15/M。相比 Sonnet 4.6 更安全,幻觉和讨好度更低;网络安全防护默认开启,但 Opus 仍更强。独立评测者指出 Sonnet 5 整体弱于 Opus 4.8,认为版本号“5”名不副实,定价与前代一致令人失望。发布被视为顶级大模型延期监管下的权宜之举,未见 Opus 5 或 Fable 5 同步更新。
Here we go: Sonnet 5 is live: The tl;dr • Anthropic calls it the most agentic Sonnet yet • Near Opus 4.8-level performan...
GLM-5.2 在 Artificial Analysis Intelligence Index 中以 51 分成为开源权重智能最高的模型,但输出 token 达 1.41 亿(95% 推理),远超平均模型的 1.8 倍。相比之下,Claude Opus 4.8 输出 1.17 亿 token 得分 56,GPT-5.5 输出 7200 万 token 得分 55。近三分之二 token(8800 万)集中在 Humanity's Last Exam,是 GPT-5.5 的 3.2 倍,得分仅 40%(Opus 46%,GPT-5.5 44%)。AA-Omniscience 幻觉率评测中 GLM-5.2 仅得 4 分,远低于 Opus 4.8(27)、GPT-5.5(20)和 Gemini 3.5 Flash(23)。在 agentic 任务 GDPval-AA v2 上 GLM-5.2 为开源第一、整体第三,超过 GPT-5.5。其他开源模型如 DeepSeek V4 Pro 得分 44,落后 7 分。
一个名为“AI指南针”的政治指南针风格测验通过29道关于AI和AI伦理的是非题,将参与者匹配到30种原型之一。作者本人在首次回答后被归类为“The Garage Tinkerer”。该测验以单页React应用实现,利用<script type="text/babel">脚本标签绕过构建步骤。