Introducing Claude Sonnet 5, our most agentic Sonnet yet. It makes plans, uses tools like browsers and terminals, and ru...
Introducing Claude Sonnet 5, our most agentic Sonnet yet. It makes plans, uses tools like browsers and terminals, and ru...
别说我觉得 Sonnet 4.6 还挺好用的。 昨晚 Claude Sonnet 5 发布替代了 Sonnet 4.6 ,免费用户都可以使用的模型。 据称和 Opus 级模型的能力相差不大,价格确实便宜 40% 。
Introducing Claude Sonnet 5, our most agentic Sonnet yet. It makes plans, uses tools like browsers and terminals, and ru...
Anthropic 推出 Claude Science,一个面向生命科学等领域的 AI 工作台,将文献检索、代码运行、数据库查询等科研流程整合到统一界面。它基于现有 Claude 模型(含 Opus 4.8),未专门训练生物学能力,通过主 Agent 连接 60+ 科学数据库(基因组学、蛋白质组学等),并可生成子 Agent 执行任务。特性包括可复现性(图表附带生成代码与环境)和本地运算(macOS/Linux 或 SSH 连接集群,敏感数据本地保留)。早期用户案例:Gladstone 研究所几天内搭建基因组浏览器;UCSF 团队用其发现卡了一年的 RNA-seq 病毒污染物;Allen 研究所将两年综述缩短至数周。与 OpenAI 的 GPT-Rosalind 不同,Claude Science 侧重工作流集成。即日起公测,需 Pro($20/月)及以上订阅。Anthropic 将资助最多 50 个项目,每个最高 $30,000,申请截止 7 月 15 日。
Introducing Claude Science, a new app designed with every stage of research in mind. Artifacts traced to their code, env...
Anthropic 推出 Claude Science beta 版,整合 60 个科学数据库,支持代码追踪的 artifact(含环境、方法及完整消息历史),可渲染 3D 蛋白质、基因组轨迹、化学结构等。协调 agent 可调用专业 agent、实验室技能和计算资源(HPC 或 Modal),分析从 1 GPU 扩展至数百,数据保持本地。内置审稿 agent 自动检查计算、引用和图表与源代码一致性。早期用户报告:生成 10 份超 100 页的审稿草稿,种系分析时间降至十分之一。该工具属于 Anthropic 自 2025 年 10 月启动的生命科学与医疗健康计划。
Claude Sonnet 5 以 max effort 在 Artificial Analysis Intelligence Index 上得分 53(第 5 名),比 Sonnet 4.6 提高 6 分,与 GPT-5.5 (xhigh) 持平,落后 Opus 4.7/4.8 约 2-3 分。标准定价下每任务成本 $2.29,比 Sonnet 4.6 贵约 2 倍、比 Opus 4.8 贵 15%,主要因输出 token 增加 40%、agentic 任务调用次数增加约 3 倍。定价 $3/$15 每百万 token(促销至 9 月 1 日降至 $2/$10),上下文窗口 1M tokens,新增 xhigh 力度设置。在 agentic 知识工作基准 AA-Briefcase 和 GDPval-AA 上匹配或超越 Opus 4.8,推理基准仍落后。Terminal-Bench v2.1(+9)、HLE(+10)、SciCode(+7)显著提升。
Until today, agents could buy about 2,000 tools through x402. We just 10x'd that to 20,000+ 🚀 In partnership with @coin...
Acti 把 AI 智能体直接放在手机键盘的文本输入区。用户输入意图后长按 Acti 空格键,AI 读取需求并调用相应应用或服务,在同一输入框内返回地图链接、餐厅推荐、体育对比、回复草稿、提醒或 Notion 页面等结果。该方案无需单独的聊天机器人应用,键盘成为 AI 与真实工作流交汇的界面。此外还有 Skill Key 系统,可绑定按键(如按住 N 打开 Notion,按住 L 查看 LinkedIn 资料)。最实用的演示是地图:输入“时代广场星巴克位置”,长按空格即可获得地图链接和可发送的消息,无需打开地图 App。
As agents take on longer-running work, engineering shifts to setting direction, reviewing work, and designing better sys...
吴恩达提出“循环工程”概念:AI编码代理可自主迭代代码、测试直至正确,无需人类干预。他用上周末给女儿做打字练习app举例,代理自行运行约一小时,多次用浏览器检查成果后回报。开发者角色因此从手动找bug的QA转向高层决策(如视觉设计、用户流程)。吴恩达强调人类真正的优势不是“品味”而是“语境优势”——知道用户是谁、为何痛苦。循环工程加速代码但无法压缩语境,只要人拥有代理没有的信息,人就永远在循环中占据不可替代的位置。
"Loop engineering" is a hot buzzphrase after mentions of it by Boris Cherny (Claude Code's creator) and Peter Steinberge...
我靠, Anthropic 把真正能落地的智能体能力,直接下放到了中端产品线, Sonnet 级的价格, Opus 级的智能体能力, Anthropic 这波是真的杀疯了🤯
Introducing Claude Sonnet 5, our most agentic Sonnet yet. It makes plans, uses tools like browsers and terminals, and ru...
Anthropic 发布 Claude Sonnet 5,替代 Sonnet 4.6 成为免费版和 Pro 版默认模型。Agent 编程基准得分 63.2%(Sonnet 4.6 为 58.1%,Opus 4.8 为 69.2%),知识工作基准略超 Opus 4.8。API 推广价(8 月 31 日前)输入 $2/百万 Token、输出 $10/百万 Token,之后涨至 $3 和 $15。新分词器可能使 Token 消耗增加 1.0–1.35 倍,但推广期定价已对冲。幻觉率和迎合倾向低于前代,默认开启实时安全防护。模型代号 claude-sonnet-5,即日起在 Claude 所有套餐、Claude Code 和 API 上可用。
Introducing Claude Sonnet 5, our most agentic Sonnet yet. It makes plans, uses tools like browsers and terminals, and ru...
Introducing Claude Sonnet 5, our most agentic Sonnet yet. It makes plans, uses tools like browsers and terminals, and ru...
Introducing Claude Sonnet 5, our most agentic Sonnet yet. It makes plans, uses tools like browsers and terminals, and ru...
关联讨论 10 条TechCrunch:AI(RSS)X:Claude Devs (@ClaudeDevs)Hacker News 热门(buzzing.cc 中文翻译)Claude Code:GitHub Releases(RSS)The Decoder:AI News(RSS)MarkTechPost(RSS)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)Anthropic:Newsroom(网页)Anthropic 发布 Sonnet 5,称其为迄今为止最智能体化的 Sonnet 模型。性能接近 Opus 4.8,在推理、工具使用、编码和知识工作方面有显著提升。即日起成为 Free 和 Pro 用户的默认模型,已在 Claude Code 和 API 上线。推出促销价:输入 $2/M token、输出 $10/M(截至 8 月 31 日),标准价分别为 $3/M 和 $15/M。整体较 Sonnet 4.6 更安全,幻觉率和奉承率更低,网络保护默认开启,但 Anthropic 表示 Opus 在严肃网络任务上仍更强。
Sonnet 5 released for me!!
关联讨论 10 条TechCrunch:AI(RSS)X:Claude Devs (@ClaudeDevs)Hacker News 热门(buzzing.cc 中文翻译)Claude Code:GitHub Releases(RSS)The Decoder:AI News(RSS)MarkTechPost(RSS)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)Anthropic:Newsroom(网页)Omni Flash is a smart model. The way the hand is wet, the water ripples, the refraction, the shadows, the sound effects ...
NoimosAI can now turn market insights into high-performing content for your brand. It analyzes competitors, top creative...
noimos_ai 推出 Creative Agent,一个自动化系统,可研究成功的创意模式并针对品牌适配。系统通过学习品牌历史表现(分析哪些内容受欢迎、哪些不受欢迎),同时扫描 Meta、TikTok、LinkedIn 等平台数百个竞争对手及市场中的成功创意,理解业务后将这些模式调整用于自身产品和服务。引用推文指出,它能分析竞争对手、顶级创意和过往结果,生成基于已验证策略的高表现资产。
NoimosAI can now turn market insights into high-performing content for your brand. It analyzes competitors, top creative...
NoimosAI can now turn market insights into high-performing content for your brand. It analyzes competitors, top creative...
Until today, agents could buy about 2,000 tools through x402. We just 10x'd that to 20,000+ 🚀 In partnership with @coin...
Cloudflare 新增 Browser Rendering,提供远程 Chromium 抓取。Workers Paid $5/月含 10 小时浏览器/天。作者将 AI 公司官网抓取从 Jina Reader 迁至 Cloudflare,实际日耗约 3 分钟,99%+ 余量未用,避免了 Jina 免费层耗尽后的 402 静默失败问题,价格从 token 计费变为 $5 封顶可预测。结合 Pages、Workers、D1、R2、KV、Tunnel 及 Claude Code/OpenClaw + GitHub 自动构建,一人一套 Agent 即可将产品从 0 跑到上线,基础设施成本近乎免费。
Cloudflare 基本已经成了个人开发者/出海独立建站/轻量创业项目的免费全家桶。 Pages 管前端部署(虽然官方不主推了,但是倾向于很多静态也方式),Workers 管后端逻辑,D1 管数据库,R2 管存储,KV 管缓存和短链,Tu...
美团发布基座推理模型LongCat-2.0(v2),采用MoE架构,总参1.6T,活跃约48B,支持1M上下文。专为智能体编程设计,引入LongCat Sparse Attention、Zero-Compute Experts及MOPD任务路由。基准测试中SWE-bench Pro达59.5(超GPT-5.5的58.6),多项Agent评测领先。模型已在OpenRouter上线,技术博客公开。美团强调全栈自研与低成本,v2基于ASIC训练。
Introducing LongCat-2.0 🐱 1.6T parameters · MoE with ~48B active · 1M context The full model behind Owl Alpha on @OpenR...
Until today, agents could buy about 2,000 tools through x402. We just 10x'd that to 20,000+ 🚀 In partnership with @coin...
OpenClaw is now on iOS + Android 🦞 📱 Native mobile apps, finally 💬 Agents in your pocket 🔔 Channels, tasks, replies ...
Acti (@openacti1) 推出 Agentic Keyboard(智能体键盘),定位为继 2007 年苹果玻璃键盘后的下一次变革。它不是语法修正或语音转写工具,而是在每个文本字段中嵌入隐形智能体。用户输入内容后按住即可运行,结果直接返回,无需离开当前对话。支持将自定义工作流绑定到技能键并即时触发。推文作者认为这是今年智能体领域最有趣的创新之一,称键盘是 AI 理想的载体形式。
The last major keyboard moment was in 2007, when Apple put the keyboard on glass. Nearly 20 years later, we're introduci...
Until today, agents could buy about 2,000 tools through x402. We just 10x'd that to 20,000+ 🚀 In partnership with @coin...
Introducing LongCat-2.0 🐱 1.6T parameters · MoE with ~48B active · 1M context The full model behind Owl Alpha on @OpenR...
Flowith 团队发布「Matrix」,定位为自演化、多层级的 multi-agent runtime。用户设定使命后,Matrix 通过 CEO Office → OKR 分解任务,驱动多个 Agent 部门(Research/Engineering/Growth/Product)并行执行,并以 proof(文件、上线页面、收入等)闭环。架构包含 Runtime 层(独立 browser/工具/记忆,支持 Neo/Claude Code/Codex,超长时运行)和公司原语(网站部署、Stripe 收款、Agent Wallet、Agent Email)。macOS 客户端已上线,Web 版 coming soon。在 44 个职业真实知识工作的 GDPval-Bench 上,Matrix(GPT 5.5 + harness)得分 95.45%。此前有限 beta 中用户已创建数万个零人公司。
what if you can run an entire 0-person company - without the grind of running a team? matrix is the runtime that makes i...
建议将所有微服务放在一个workspace(monorepo或虚拟monorepo),让Agent同时看到schema、API和实现代码。文档采用分层结构:根目录AGENTS.md索引各服务职责,每个服务内写清bounded context。优先用OpenAPI spec等机器可读规格自动生成文档。协议测试(contract test)是精准活文档,能验证服务间交互。验证环节各服务提供mock server或基于OpenAPI的模拟服务,Agent在本地跑contract test形成“写代码→跑测试→自我修正”闭环。可进一步引入consumer-driven contract testing(如Pact)。
将放行信号放在PR评论等可被调用者写入的通道存在风险。AI review贴评论,monitor回读“High: None”即自动合并,但任何有评论权限的人或Agent都能伪造结果。安全门禁的信任结果应走进程内闭环(如returncode、内存状态),评论仅供查看,不可作为门禁依据。
Introducing LongCat-2.0 🐱 1.6T parameters · MoE with ~48B active · 1M context The full model behind Owl Alpha on @OpenR...
关联讨论 8 条X:美团 LongCat (@Meituan_LongCat)Hacker News 热门(buzzing.cc 中文翻译)X:Emad Mostaque (@EMostaque)IT之家(RSS)X:邵猛 (@shao__meng)公众号:卡尔的AI沃茨X:Rohan Paul (@rohanpaul_ai)公众号:龙猫LongCat(美团)OpenClaw 推出手机客户端,可通过二维码或设置码与 AI 助手“小龙虾”配对。支持在手机端实时及后台语音对话;Agent 执行操作前需在手机上确认审批;可跨 App 分享文字、链接、图片;授权摄像头、定位、照片、通讯录、日历等设备权限;接收推送通知与节点状态更新。
美团 LongCat 推出旗舰模型 LongCat-2.0,采用 1.6T 参数 MoE 架构(约 48B 活跃参数),原生支持 1M 上下文窗口。定价为 Input Cache $0.015/1M tokens、Input $0.75/1M tokens、Output $2.95/1M tokens。模型专为 Agentic Coding 设计,包含三大技术:LSA 稀疏注意力实现高效 1M 扩展;Zero-Compute Experts 动态激活 33B–56B 参数/token,无算力浪费;MOPD 将专家分为 Agent / Reasoning / Interaction 三组,按任务门控路由。在 SWE-bench Pro 上取得 59.5 分,性能接近主流闭源模型。现已上线 SiliconFlow Day 0 服务。
同一事件,精选展示《美团 LongCat-2.0 正式发布:国产算力集群训练的万亿参数大模型》