This guy earned $4,208 in his FIRST week on Capafy with a World Cup Skill! Keep that going, and it is over $16,000 a mon...
This guy earned $4,208 in his FIRST week on Capafy with a World Cup Skill! Keep that going, and it is over $16,000 a mon...
Google 的 AI 智能体助手 Gemini Spark 本周三正式登陆 Mac 版 Gemini 桌面应用。新增实时追踪话题功能,可追踪体育比分、股票、突发新闻等动态。已集成 Google Tasks、Google Keep 以及 Canva、Dropbox、Instacart、OpenTable、Zillow Rentals 等第三方应用。用户可用 Spark 整理文件,将电脑文件作为 Google Workspace 文档的数据源。未来将在手机上支持指派多步骤任务。目前 Mac 版 Spark(beta)仅限美国地区 Google AI Ultra 订阅者使用,同时支持自定义 Model Context Protocol(MCP)连接更多应用。
文章总结9组39条AI设计原则,核心是让用户信任程度匹配AI真实可靠性。关键点:AI应发挥模糊意图、内容生成等优势,而非替代传统界面;接受输出多样性,提供多版本和局部修改;输出附证据便于一键验证;用户保留编辑、拒绝、撤销等控制权;AI诚实说明角色和限制;重视失败路径,支持撤销、日志、转人工。
Cloudflare 为所有网站所有者提供更精细的AI流量管控选项,取代一刀切的屏蔽方式。用户可轻松区分并管理搜索爬虫、AI智能体爬虫和训练爬虫,同时新增保护广告变现页面的能力。
关联讨论 1 条TechCrunch:AI(RSS)Cloudflare 宣布推出两项新举措,以应对 AI 搜索重构网络生态带来的创作困境。在智能体时代,创作者既需要保持可发现性,又要确保作品获得合理报酬,这两项举措旨在帮助平衡二者的关系。具体细节尚未公布。
内容独立日宣布一年后,一个付费内容的动态市场已正式形成。自主AI智能体的兴起正在颠覆传统搜索推荐模式,构建可持续的网络经济需要一套全新基础设施来支撑。
QVal提出一种无需训练的测试平台,通过Q对齐度量直接评估密集监督信号质量,判断动作排序是否匹配强参考策略的Q值。QVal-v1.0在4个环境、7类方法族、6个开放权重模型骨干上对21种密集监督方法进行了超过1200次评估实验,发现简单提示基线一致优于近年文献中的密集监督方法,且性能按方法族显著聚类。该平台易于扩展至新环境和新方法。
Lev8聚合50+实时数据源(LinkedIn、X、YouTube、Instagram、GitHub),覆盖10亿+职场人脉,实时追踪融资、招聘、改版等信号,自动生成定制破冰开场白,并通过邮件、LinkedIn、WhatsApp、Instagram、X五渠道一键发送统一回复。在找海外客户场景中:有效结果量Lev8 90个,Exa 58.2个,Codex仅20个;匹配精度83.3% vs 76.5% vs 71.8%;单条匹配成本$0.052 vs $0.061。三项指标全面超越。
英格兰银行正审查现有框架能否覆盖agentic AI在支付、交易、网络安全及运营中的使用。副行长Sarah Breeden指出,现行规则并非为可脱离人工指令自主行动的AI智能体设计,人工监督每个动作不切实际。2026年剑桥大学报告显示,81%的受访金融机构已采用AI,其中52%正积极部署agentic AI,目前多用于流程自动化、数据可视化等内部职能。Breeden将网络弹性列为最紧迫的金融稳定风险,强调AI可强化防御,也可能被恶意利用导致系统性攻击。当局还考虑引入市场级熔断机制与kill switch,并关注开放模型落后闭源仅4-8个月的安全窗口。IMF已警告应将AI驱动的网络风险视为金融稳定问题,FSB于6月发布12项审慎实践。
美团发布LongCat-2.0,总参数1.6万亿、每个token仅激活约480亿参数的MoE模型,从预训练到大规模部署全程运行在5万张国产算力芯片上,训练消耗超35万亿tokens,无回滚、无不可恢复loss突刺。Agent场景表现突出:在Terminal-Bench 2.1和SWE-bench Pro编程任务上追平Gemini 3.1 Pro,FORTE通用Agent任务与Claude Opus 4.6持平。最大输出128K,最高提供1M上下文,采用LSA稀疏注意力机制和N-gram Embedding优化长上下文与工具调用。已开放API接入,支持OpenAI Compatible和Anthropic API生态,可直接接入Claude Code和Codex等工作流。
关联讨论 9 条X:硅基流动 SiliconFlow (@SiliconFlowAI)X:美团 LongCat (@Meituan_LongCat)Hacker News 热门(buzzing.cc 中文翻译)X:Emad Mostaque (@EMostaque)IT之家(RSS)X:邵猛 (@shao__meng)X:Testing Catalog (@testingcatalog)X:Rohan Paul (@rohanpaul_ai)公众号:龙猫LongCat(美团)Anthropic 发布 Claude Sonnet 5,同时恢复 Fable 5 与 Mythos 5 的访问。此前因美国联邦出口管制指令,三款模型暂停 18 天。Amazon 研究人员发现绕过 Fable 5 安全控制的方法,Anthropic 已部署更新的自动分类器,在超 99% 测试中阻止该利用。Sonnet 5 在 SWE-bench Pro 得分 63.2%,Terminal-Bench 2.1 得分 80.4%,输入价格 $3.00/百万 tokens,输出 $15.00(推广期至 8 月 31 日为 $2.00/$10.00)。Rakuten、Zapier、Zed、Factory 等已部署。安全审计显示非合规行为率低于前代,且系统不具备高级进攻性网络安全能力。
Perplexity CEO Aravind Srinivas 指出,AI 使用的重心正从普通用户转向重度用户。单个重度用户消耗的计算量可匹敌一个小团队:Meta 等公司工程师每年在编码工具上花费约 1000 万美元/人;Perplexity Computer 上有用户月支出超 1 万美元,其业务依赖在 harness 内运行的 agent loops。公司内部也已出现多智能体层级和 agent loops 架构,消耗远超平均预期。旧软件思维追求十亿人做小动作,而智能体 AI 下,一个熟练操作者即可创造全天候的机器工作流。
MCP、API、CLI 本质都是让 Agent 调用工具的方式。MCP 是唯一在协议层考虑“人在回路”的方案,支持回传会话、UI 嵌入、等待人操作等。API 凭借接口描述、可读状态等元信息,适合 90% 场景。CLI 目前因 bash 可组合性强、本地调试方便而最好用,但长期是死路:需 Unix shell 环境,有依赖问题,易因等待人类输入卡死。
http://x.com/i/article/2070358283723141120
We're introducing GeneBench-Pro, a research-level benchmark for a harder kind of AI progress: how well agents can naviga...
微信公众号今日向医院开放AI分身能力,医院无需写代码即可一键开通。AI分身可7×24小时在线回复患者问题,支持上传Excel/Word/PDF知识库及自动学习历史文章,后台可配置提示词人设和关键词跳转。已有先行医院测试:中山大学附属第三医院上线一个月累计服务超6000名用户,日均咨询量从月均100例增至200余例,回复有效率70%;香港大学深圳医院日均回复130次以上,累计解答超2万人次,并支持英文和繁体字咨询。AI分身还提供开发者模式协同,可对接原有客服平台和业务系统。
Right now Codex is using Computer Use to organize the 1500 PDFs I have in GoodNotes while I watch the world cup. This is...
WordPress 推出 WPVibe 插件,连接网站后即可让已付费的 Claude 等 AI 通过自然语言直接管理整个系统,包括文章、媒体、SEO、主题及主题文件。无需二次 AI 订阅或本地安装,自带 40+ WP-CLI 命令的 MCP 工具箱,支持写文章、改页面、传图片、管理插件和主题、网站健康检查(如插件冲突、PHP 版本、性能问题),甚至可搭建新主题。
Francois Chollet 推荐 Bloome.im,一个集成 Claude、ChatGPT、Gemini 和人类队友的共享工作空间。核心功能是智能体互相检查:一个起草,另一个批评,第三个捕捉遗漏细节;人类可在同一线程实时引导。所有模型与人类共享同一上下文窗口,大幅提升协作效率。
小米提出 Xiaomi-GUI-0,一个面向真实移动环境的原生多模态 GUI 智能体。模型在真实设备闭环中训练和评估,采用物理设备为主、沙箱辅助的混合基础设施。训练数据涵盖高频头部任务、长尾意图泛化及反思与记忆增强样本,并通过错误驱动数据飞轮将失败轨迹转化为修正动作、反思解释和恢复示范。训练采用监督微调、step-level 强化学习和 agentic 强化学习三阶段渐进流程。在内部基准 RealMobile 上成功率达 72.0%,在 AndroidWorld 上达 78.9%,同时显著提升了真实任务中的执行稳定性和异常状态识别能力。
Anthropic 发布 Claude Science,面向科学家的本地 AI 工作台(macOS/Linux,可 SSH/HPC 远程)。内置 60+ 技能与连接器,覆盖基因组学等,接入 UniProt、PDB 等数据源。可自主起草计算任务,经用户同意后提交至 HPC 或 Modal GPU,数据本地留存。内置审稿 agent 校验引用与图表一致性。
v2026.6.11 has dropped. This release focuses on the rough edges that make OpenClaw feel less dependable: misplaced repli...
mattpocockuk 的 /writing-great-skills 成为其最常调用的 Skill,指导如何编写稳定可预测的 AI Skill。核心:以过程可预测为目标;区分 model-invoked(自动触发)与 user-invoked(用户调用),description 应作触发器;采用三层信息结构(主步骤、参考、外部文件)实现渐进式披露;每步骤需明确完成标准;拆分 Skill 是为了控制模型注意力;利用 leading word 压缩行为要求。同时诊断五种失败模式:Premature completion、Duplication、Sediment、Sprawl、No-op,并提供 No-op 测试作为判断句子是否有效的标准。
/writing-great-skills is quickly becoming my most often-invoked skill It's just really good at writing skills, guys. npx...
Spira 2.0 的核心创新在于 agent 跨运行时携带 persona、memory 和 skills,使所学内容持续累积而非每次调用重置。Rohan Paul 指出,这种持久化状态是将“操作工具”转变为“持续工作的工人”的关键。引用推文补充,Spira 旨在解决产品发布后无人知晓的问题:用户提供产品链接,agent 学习并自动在多社交渠道发布品牌一致、无废料的内容,形成“发布→学习→再发布”的持续营销循环。早期用户可申请 Pro 计划限时访问。
Most products don't die because they're bad, they die because nobody sees them. Imagine if only your product kept market...
Introducing Claude Sonnet 5, our most agentic Sonnet yet. It makes plans, uses tools like browsers and terminals, and ru...
小米超级小爱接入微信 A2A 能力,用户可直接说“给 xxx 发微信消息”或“给 xxx 打微信电话”完成操作。该功能基于 A2A(Agent-to-Agent)协作机制,由超级小爱向微信发起指令,微信执行并返回结果,全程采用双重授权机制保障数据安全与隐私合规。隐私设置中新增“微信语音控制开关”选项。需将微信和超级小爱更新至最新版本。
吴恩达(Andrew Ng)提出“Loop engineering”,将AI agent置于持续迭代的循环系统中。产品成功取决于三个循环:工程执行循环——AI agent根据规格和evals自主写代码、测试、修bug,每几分钟迭代;开发者反馈循环——开发者从低层QA转向产品判断(功能取舍、视觉风格等),每几十分钟到几小时反馈;外部反馈循环——通过真实用户测试、A/B测试等验证方向,周期数小时至数周。他认为未来竞争力在于设计好这三类循环。
"Loop engineering" is a hot buzzphrase after mentions of it by Boris Cherny (Claude Code's creator) and Peter Steinberge...
中国团队发布Agents-A1,一个35B参数的agent模型,通过让模型学习更长的验证工作习惯(平均训练样本45K tokens),声称达到1T参数模型的性能。模型采用Apache-2.0许可,权重已开源至Hugging Face。训练方法:构建长动作记录数据,训练多个专家教师模型(搜索、科学、指令跟随、工具使用等),再将技能蒸馏至一个学生模型。Agents-A1在搜索、科学、编码、工具使用、指令跟随等长任务基准上表现优异。
Anthropic发布Claude Sonnet 5,定位最具agent能力的Sonnet,性能接近Opus 4.8,8月31日前入门价每百万输入token $2、输出$10。Google DeepMind推出Nano Banana 2 Lite(文生图延迟约4秒,每千张$0.034)和Gemini Omni Flash(多模态视频生成与会话式编辑,每秒$0.10,单次上限10秒)。吴恩达提出智能体开发三大核心循环:智能体编程循环、开发者反馈循环、外部反馈循环,强调人类在上下文判断上的优势。三条更新均围绕降低agent落地成本、完善媒体生成流水线及工程框架。
Anthropic 发布 Claude Sonnet 5,定位最具 agent 能力,性能接近 Opus 4.8,8月31日前输入2美元/百万token、输出10美元,之后恢复3/15美元。Google DeepMind 推出 Nano Banana 2 Lite(文生图延迟约4秒,每千张0.034美元)和 Gemini Omni Flash(多模态视频生成,0.10美元/秒,上限10秒)。吴恩达总结 AI 智能体三大循环:编程循环、开发者反馈循环、外部反馈循环,强调人机协同。
http://x.com/i/article/2072100123912687616
Anthropic 推出 Claude Sonnet 5,称其为 Sonnet 系列中智能体能力最强的模型,能制定计划、调用浏览器和终端等工具并自主运行。已上线 Claude Code 和 Claude Platform,API 指定“claude-sonnet-5”。优惠期(至 2026 年 8 月 31 日)每百万 tokens 输入 2 美元、输出 10 美元;之后分别涨至 3 美元和 15 美元。性能在 BrowseComp、OSWorld-Verified 等评测中较 Sonnet 4.6 显著提升,部分接近 Opus 4.8。安全方面,整体不良行为发生率低于 Sonnet 4.6,在拒绝恶意请求、抵抗提示注入、幻觉率和迎合性上均有改善。
关联讨论 12 条X:OpenRouter (@OpenRouter)X:Kim (@kimmonismus)TechCrunch:AI(RSS)X:Claude (@claudeai)X:Claude Devs (@ClaudeDevs)X:Testing Catalog (@testingcatalog)Hacker News 热门(buzzing.cc 中文翻译)Claude Code:GitHub Releases(RSS)The Decoder:AI News(RSS)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)Anthropic:Newsroom(网页)Introducing Claude Sonnet 5, our most agentic Sonnet yet. It makes plans, uses tools like browsers and terminals, and ru...
别说我觉得 Sonnet 4.6 还挺好用的。 昨晚 Claude Sonnet 5 发布替代了 Sonnet 4.6 ,免费用户都可以使用的模型。 据称和 Opus 级模型的能力相差不大,价格确实便宜 40% 。
Introducing Claude Sonnet 5, our most agentic Sonnet yet. It makes plans, uses tools like browsers and terminals, and ru...
前沿AI模型能力加速提升,美国实验室发布速度加快,但政府干预已限制访问Claude Fable和GPT-5.6。Epoch测试发现Opus 4.7自主运行14小时即可完成需2-17周人工的软件工程,token成本$251。中国开源模型落后前沿6-12个月,但性能也快速提升,在AA-Briefcase测试中呈独立指数曲线。使用方式正从聊天机器人转向智能体,OpenAI内部四分之一员工每周同时运行至少四个智能体。Claude Code用户数据显示,领域经验比职业属性更决定使用效果,专家正用智能体替代此前非专家的聊天机器人使用模式。
关联讨论 25 条X:歸藏 (@op7418)X:Yuchen Jin (@Yuchenj_UW)X:宝玉 (@dotey)The Verge:AI(RSS)X:Kim (@kimmonismus)Hacker News 热门(buzzing.cc 中文翻译)X:Anthropic (@AnthropicAI)MarkTechPost(RSS)Ars Technica:AI(RSS)TechCrunch:AI(RSS)X:Testing Catalog (@testingcatalog)X:Claude Devs (@ClaudeDevs)Anthropic:Newsroom(网页)X:阿易 AI Notes (@AYi_AInotes)Gary Marcus:The Road to AI We Can Trust(RSS)X:邵猛 (@shao__meng)X:Rohan Paul (@rohanpaul_ai)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Berry Xia (@berryxia)The Decoder:AI News(RSS)IT之家(RSS)Tomer Tunguz 博客(VC 分析)Nathan Lambert:Interconnects(RSS)Simon Willison 博客Steve Yegge:Medium(RSS)Anthropic 推出 Claude Science,一个面向生命科学等领域的 AI 工作台,将文献检索、代码运行、数据库查询等科研流程整合到统一界面。它基于现有 Claude 模型(含 Opus 4.8),未专门训练生物学能力,通过主 Agent 连接 60+ 科学数据库(基因组学、蛋白质组学等),并可生成子 Agent 执行任务。特性包括可复现性(图表附带生成代码与环境)和本地运算(macOS/Linux 或 SSH 连接集群,敏感数据本地保留)。早期用户案例:Gladstone 研究所几天内搭建基因组浏览器;UCSF 团队用其发现卡了一年的 RNA-seq 病毒污染物;Allen 研究所将两年综述缩短至数周。与 OpenAI 的 GPT-Rosalind 不同,Claude Science 侧重工作流集成。即日起公测,需 Pro($20/月)及以上订阅。Anthropic 将资助最多 50 个项目,每个最高 $30,000,申请截止 7 月 15 日。
Introducing Claude Science, a new app designed with every stage of research in mind. Artifacts traced to their code, env...
Linq 推出 iMessage Apps,允许开发者在 iMessage 对话中构建交互式迷你应用。用户无需离开聊天即可购物、玩游戏、订机票或支付,不再依赖外部链接跳转。技术实现基于新的 type: "imessage_app" 消息组件,通过 app 对象的 team_id 和 bundle_id 标识渲染扩展,layout 控制静态文本,interactive 标志决定是否显示实时交互卡片。已发送的卡片可通过 /messages/{id}/update 原地更新(仅支持 url、fallback_text、interactive、layout 等参数)。该功能仅限 iMessage 通道,无 SMS/RCS 回退,富交互渲染需接收方安装对应扩展。
Anthropic 发布 Claude Sonnet 5,定位为最具智能体能力的中端模型,即日起成为 Free 和 Pro 计划的默认模型。在 SWE-bench Pro 上得分 63.2%(前代 58.1%),OSWorld-Verified 达 81.2%(前代 78.5%),HLE(带工具)57.4%。输入/输出定价 2026 年 8 月 31 日前 $2/$10 每百万 token,之后 $3/$15。支持低/中/高/超高四档 effort 级别,低中 effort 下性价比最优。上下文窗口 1M token,采用新 tokenizer,相同文本 token 数增长约 1.0–1.35 倍。幻觉与谄媚率低于前代。开发者仅需更换模型字符串为 claude-sonnet-5 即可调用 API。
免费开源 AI 智能体 OpenClaw 现已推出 iOS 和 Android 应用。用户通过 OpenClaw Gateway 将手机与智能体及所需工具、技能连接,可在移动端运行智能体完成编程、餐食规划等任务。OpenClaw 今年早些时候因 MoltBook(号称完全由智能体运营的社交媒体站)走红,其创建者 Peter Steinberger 随后加入 OpenAI。尽管 MoltBook 后被证实部分由人类伪装智能体运行,但此事件推动了智能体生态扩张,如今 AI 智能体已嵌入更多场景,包括手机端。
Anthropic 推出 Claude Science beta 版,整合 60 个科学数据库,支持代码追踪的 artifact(含环境、方法及完整消息历史),可渲染 3D 蛋白质、基因组轨迹、化学结构等。协调 agent 可调用专业 agent、实验室技能和计算资源(HPC 或 Modal),分析从 1 GPU 扩展至数百,数据保持本地。内置审稿 agent 自动检查计算、引用和图表与源代码一致性。早期用户报告:生成 10 份超 100 页的审稿草稿,种系分析时间降至十分之一。该工具属于 Anthropic 自 2025 年 10 月启动的生命科学与医疗健康计划。