AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 3062 条
全部一手资讯X论文
标签「Agent」清除
karminski-牙医@karminski3 · 6月25日55

聊聊智谱市值破万亿为什么不是高估 事先声明, 个人观点仅供参考. 直接说结论, 智谱在 GLM 的 Agent 能力训练上是有东西的. 而且是领先的. 给没看过我这个评测的同学简单介绍下, 这是个我做的使用 tool_call 模拟大模型送外卖的测试 silicon-rider-bench, 大模型要像人类骑手一样接单, 然后选择合适的订单进行配送. 这个测试我累计测了30个模型, 几乎包含了近半年的全部国产大模型. GLM-5 至 GLM-5.2 从测试上来看能明显感觉到3个阶段的进化: 最开始 GLM-5 是在所有测试模型中第一个能做到反思自己上下文行为, 然后做出改进的. 比如大部分被测试模型发现自己送餐超时被扣钱了, 都会说下次要避免. 但是只有 GLM-5 会真的采取措施, 比如尝试少接单来提升准时率. 轮到 GLM-5.1 则是所有测试模型中, 第一个实现了送顺路单的, 它在接单前就会尝试自己思考合并送餐路线, 然后送顺路单, 直接把路径效率压缩到了比单次送餐的距离理论值还低(因为同时送了n餐). 这次 GLM-5.2 更进一步, 它只在测试开始看了一遍地图, 接下来就直接把地图记住了, 包括哪个地点附近有哪些餐厅, 甚至最猛的是电动车没电了换电的时候, 它直接就能去换电站, 而不是调用 search_nearby_battery_stations() tool_call 来搜索. 节省下来的 tool_call 全都用来实际推进任务了, 而不是用来大量获取信息. 从分数上来看直接断崖式领先了. 不要小看这个「大部分tool_call都能用来推进任务」的能力, 转换到 Agentic Coding, 意味着它理解项目的能力可能是其他模型的数倍, 消耗少量的 token 就能产出高质量的结果. 从结果来看, 这个榜单直到 kimi-k2.7-code 出现之前, 连一个能超越 GLM-5 Agent 能力的模型都没有. 要知道 GLM-5 还是 2 月份发布的. 从这点来看, 智谱的 Agent 能力训练至少领先了其他国产模型2-4个月. 即最大2个代差. 所以智谱市值破万亿从技术层面来看, 完全不是用脚投票. #GLM52 #AIAgent

译作者在自研的硅基骑手参考评测(silicon-rider-bench)中累计测试30个模型,发现智谱GLM系列Agent能力持续进化:GLM-5首次实现反思自身行为并主动少接单提准时率;GLM-5.1首创送顺路单,路径效率低于单次配送理论值;GLM-5.2只需看一次地图便记住全部地点与换电站位置,无需调用`search_nearby_battery_stations()`,大部分tool_call用于推进任务,分数断崖式领先。直至kimi-k2.7-code出现前,无模型超越GLM-5(2月发布),智谱Agent训练领先其他国产模型2-4个月、最大2个代差。故市值破万亿从技术层面并非高估。

Artificial Analysis@ArtificialAnlys · 6月25日61

Agentic knowledge work can take frontier models over 20 minutes per task, as measured in AA-Briefcase, our new benchmark Last week we released AA-Briefcase, our proprietary agentic knowledge work benchmark testing models on long horizon tasks built by industry experts. AA-Briefcase requires models to build deliverables such as financial models, board presentations, and design mock-ups in the context of realistic multi week projects. One of the key metrics we measure in AA-Briefcase is average time per task. This is calculated using evaluation token usage, representative model output speeds, and tool execution time recorded during evaluation. Key time per task takeaways from AA-Briefcase: ➤ Claude Opus 4.8 is the highest-scoring available model, but it is also one of the slowest, taking ~23 minutes per task on average ➤ Several GPT-5.5 reasoning variants lie along the Pareto frontier of AA-Briefcase Elo vs. Time per Task, including medium, high, and xhigh. GPT-5.5 (xhigh) in particular stands out as one of the most efficient top-performing models, using around half the time per task of Opus 4.8 (11 minutes) while ranking top 5 on the overall AA-Briefcase Elo ➤ GLM-5.2 also sits on the Pareto frontier, scoring 1261, ahead of GPT-5.5 (xhigh, 1159) but also taking more time per task (16.3 minutes). It is also the top-performing open weights model on AA-Briefcase, with MiniMax-M3 the next best at 1113 ➤ If Claude Fable 5 were still available, it would likely take around 28.5 minutes per task: while it was live, we measured ~91 output tokens per second, ~3.1 minutes of tool execution time per task, and ~139,000 output tokens per task ➤ Time spent on tool calls and execution accounts for only ~12% of the total time, with the remaining amount explained by output verbosity, turn usage, and inference speed

译Artificial Analysis 发布 AA-Briefcase 基准测试,测试模型在多周项目语境下生成财务模型、董事会演示等交付物。关键结果:Claude Opus 4.8 平均每任务 23 分钟,得分最高但最慢;GPT-5.5 (xhigh) 仅 11 分钟,效率最高且 Elo 前五;GLM-5.2 得 1261 分耗时 16.3 分钟,为开源模型最佳;MiniMax-M3 得 1113 分。已下架的 Claude Fable 5 约需 28.5 分钟。工具调用仅占耗时 12%,其余由输出冗余、回合数和推理速度决定。

elvis@omarsar0 · 6月25日46

// Critique of the Agent Model // Finally, a paper that tries to define what an agent is and what agency consists of. Good read overall. (great bookmark) The word agent now covers everything from a for-loop with tool calls to speculative machine superintelligence. Eric Xing and colleagues ask where automation ends, and agency begins. Drawing on Descartes and on science-fiction portrayals of autonomous beings, they analyze agent architectures along five dimensions: goal, identity, decision-making, self-regulation, and learning. The argument is that genuine agency requires these structures to hold together in a specific way. Great paper overall, providing a vocabulary for arguing about what is and is not an agent. Paper: https://arxiv.org/abs/2606.23991 Learn to build effective AI agents in our academy: https://academy.dair.ai/

译Elvis Saravia 推荐一篇试图明确“智能体”定义的论文。Eric Xing 及其同事从哲学与科幻视角出发,分析智能体架构的五维度:目标、身份、决策、自我调节和学习。论文指出,真正“智体性”需这些维度以特定方式组合,从而区分自动化与智能体。论文地址:arxiv.org/abs/2606.23991。

Rohan Paul@rohanpaul_ai · 6月25日42

Former Goldman Sachs executive Raoul Pal explains how AI is going to eat traditional software/SAAS. If your product is just software, agentic AI can reproduce it on demand, optimize it, and redeploy it to a better market. "Agentic AI means it’s like having Fiverr, a website of experts you can ask any question. It’ll go away and do the task.... Agentic AI will build, design the website, code it, register the domain name, figure out the branding, figure out the marketing, figure out the email list, figure out the whole thing. So then you and I are in competition. You’ve built this incredible new website. I just go to my AI and say, “Love Steven’s website. Can you just build it better. Boom. 3 minutes. How can we be entrepreneurs in software? Now there’s this theory going around that AI is going to eat software, and I kind of get it." ---- From 'The Diary Of A CEO and Raoul Pal The Journey Man' YT channel. (link in comment)

译前高盛高管Raoul Pal在访谈中指出,若产品仅是软件,智能体AI可随时复刻、优化并重新部署。他将智能体AI比作专家网站Fiverr,能自动完成建站、编码、域名注册、品牌策划、营销及邮件列表等全流程。他设想用户只需对AI说“把Steven的网站做得更好”,AI便能在3分钟内完成。这引发了关于AI将吞噬软件、软件创业者未来出路的讨论。

ClaudeDevs@ClaudeDevs · 6月25日41

When Claude is working in a channel with four people, whose credentials does it use? The answer: its own. When tagging Claude, Claude gets provisioned like any other teammate, with its own credentials. We call this access model "agent identity". Here's how it works: 🧵

译当 Claude 与四人一同在频道中工作时,它使用谁的凭证? 答案:它自己的。标注 Claude 时,Claude 会像其他队友一样被配置,拥有自己的凭证。 我们将这种访问模型称为"智能体身份"。其工作原理如下: 🧵

elvis@omarsar0 · 6月25日43

This is a cool release from Google. I've started to rely a lot on computer use for agentic loops/long-running tasks, and I'm in need of more capable computer use models while keeping costs low. Not sure about efficiency of Gemini 3.5 Flash, but I appreciate alternatives.

译这是 Google 的一次酷发布。 我开始在智能体循环/长时间运行任务中大量依赖计算机使用,并且需要更强大的计算机使用模型,同时保持低成本。不确定 Gemini 3.5 Flash 的效率如何,但我感谢有替代方案。

swyx 🔜 @aiDotEngineer@swyx · 6月25日52

LOTS of alpha in this pod: - Why Databricks beat Snowflake (! a straight answer!) - Why everyone is building a metaharness now - Why the @neondatabase made so much sense (so much @nikitabase glazing its not even funny) - How LTAP solves the HTAP dream I discussed with @ankrgyl in our @braintrust pod - What happened to @MosaicML + DBRX - How to maintain research/startup culture in a $175B megacorp - What's more important knowledge/experience in the race to the agent cloud: databases, operating systems, or.... networking! very honored to be invited to @Data_AI_Summit to interview two of the top people in our industry and somehow be able to jam on everything from the @bennstancil modern data stack theme to @alighodsi's amazing keynote aura

译swyx 在 Data+AI Summit 上采访了 Databricks 联合创始人 Matei Zaharia 和 Reynold Xin。访谈亮点包括:Databricks 为何击败 Snowflake;行业正纷纷构建“元 harness”(共享智能体框架);LTAP 与 Lakebase 重新思考操作型与分析型数据库划分,解决 HTAP 愿景;Omnigent 为编码智能体和自定义智能体提供统一框架;智能体安全需要上下文策略与支出控制;MosaicML 与 DBRX 的后续;在 1750 亿美元大公司中维持研究/创业文化;以及在智能体云竞赛中数据库、操作系统与网络的重要性。核心观点:未来软件只需让数据就绪,智能体置于其上。

🚨 AI News | TestingCatalog@testingcatalog · 6月25日66

Google released Computer Use capability for Gemini 3.5 Flash, scoring 78.4 on OSWorld-Verified. > Computer use is now a built-in tool supported in Gemini 3.5 Flash, delivering our best performance yet for agentic computer use tasks.

译Google 为 Gemini 3.5 Flash 新增 Computer Use 能力,作为内置工具支持智能体计算机操作任务。该模型在 OSWorld-Verified 基准上取得 78.4 分,为谷歌迄今最佳性能。Computer Use 可跨浏览器、移动和桌面环境推理与执行,自动化工单提交等工作流程。

Nathan Lambert@natolambert · 6月25日68

A much needed data release! Excited to tinker with the data.

译如何训练出在终端和编码方面能力强大的小型智能体模型?现宣布推出 OpenThoughts-Agent 和 OpenThinkerAgent-32B,这是基于 Qwen-3 的最强开放数据智能体模型,在 7 项智能体基准测试中平均得分 44.8%。Nathan Lambert 表示这是急需的数据发布,很兴奋。

AYi@AYi_AInotes · 6月25日58

Prompt Engineering已死,Loop Engineering接棒, @karpathy 的做法我感觉最有画面感,晚上设好研究循环,自动改脚本,跑测试,留对的,扔错的,自己去睡觉,早上起来直接看结果,全程几乎不插手。 这就是现在圈里聊的Loop Engineering,从指挥AI一步步走,变成设计一个能自己跑完的系统。 四个支柱,每一个都是生产环境踩出来的血泪坑。 1️⃣知道什么时候停,别信它自己说搞定了,代码跑不通,逻辑有漏洞的情况比比皆是,要加硬性退出条件和独立验证,无数项目从demo到落地就死在这一步。 2️⃣保持上下文干净,循环跑久了旧错误,死胡同,冗余思考堆在一起,决策质量直线下滑,要把上下文当有限预算管,定期压缩,用子Agent隔离子任务。 3️⃣给真正能用的工具,不是堆一百个凑数量,要少而精不重叠,可安全重试,错误信息能被看懂,这是生产环境最容易翻车的地方。 4️⃣有能说不的机制,Agent不会挑自己的毛病,自己改作业永远满分,必须把干活的和检查的分开,也就是Maker-Checker模式,Claude Code团队早就在用了。 @bcherny 说得最直白,我已经不prompt Claude了,我写loops,然后让它们跑。 模型正在慢慢变成标准件, 同一个模型,配上更好的循环设计,效果能从中等拉到顶级。 真正的工程价值,早就从单次对话转移到了长期自治系统的设计上。 做Agent的朋友可以对照着查一遍,什么时候你从写提示词的人,变成了设计系统的人,什么时候才算摸到了下一阶段的门槛。

译推文认为Prompt Engineering终结,Loop Engineering取而代之。典型场景:@karpathy晚上设好研究循环,自动改脚本、跑测试、保留正确结果、丢弃错误,人睡觉机器跑。四大支柱均来自生产环境:1)硬性退出条件与独立验证,防止模型“自认为完成”;2)上下文当有限预算管理,定期压缩、用子Agent隔离子任务;3)工具少而精、可安全重试、错误信息可读;4)Maker-Checker模式(如Claude Code已用),干活与检查分离。@bcherny总结:不再prompt Claude,而是写loops让它们跑。模型正成为标准件,工程价值转向长期自治系统设计。

Rohan Paul@rohanpaul_ai · 6月25日59

Agents should not be logging into company tools like a random employee with a password. Runlayer is saying agents need their own identity, scoped permissions, approved app connections, audit trails & a kill switch, i.e. a complete managed infrastructure.

译Runlayer宣布获得Felicis和Khosla Ventures共同投资的3000万美元融资。Runlayer主张AI智能体不应像普通员工一样用密码登录公司工具,而应拥有独立身份、作用域权限、经批准的应用连接、完整审计追踪和一个终止开关,即提供一套完整的管理基础设施。Runlayer将自己定位为AI的金色路径:在一个平台内整合赋能、安全与控制。

🚨 AI News | TestingCatalog@testingcatalog · 6月25日66

ClickUp has launched Brain², a complete relaunch of ClickUp Brain, making it a more context-aware AI coworker that can act across the entire workspace. > Users can run all of the best frontier models under the same subscription > All models offer a full company context > Brain picks the best model for each step and can switch mid-task > With full access to tasks, docs, and connected apps The second brain for our org 👀

译ClickUp 发布 Brain²,完全重造其 AI 大脑,使其成为可跨整个工作区行动的上下文感知 AI 同事。用户可在同一订阅下运行所有前沿模型,所有模型具备全公司上下文。Brain 可为每一步自动选择最佳模型,并能在任务中切换。引用显示,团队已接近 5:1 智能体与人员比例,采用 token 节省策略,并利用流程挖掘智能体处理每天约 10 万条活动项。Brain² 会基于实时上下文和用户反馈动态重写系统提示,实现个性化 AI。

AK@_akhaliq · 6月25日52

Qwen-AgentWorld Language World Models for General Agents

译Qwen-AgentWorld 为通用智能体设计的语言世界模型

Berryxia.AI@berryxia · 6月25日61

大家都在疯狂建“能做一切”的AI Agent…… 但Matt Pocock最新发布的 /loop-me 技能反而反其道而行。 它先强迫你把自己的日常工作彻底“审一遍”,找出真正值得委托给AI的重复循环。 这不是又一个“让AI替你干活”的玩具,而是帮你把混乱的日常工作系统化、精确化的利器。 很多开发者用AI写代码、处理任务时,最大的问题不是AI不够聪明,而是你自己都没想清楚哪些事是重复的“loop”,哪些该自动化、哪些该留给人。 Matt Pocock的skills库一直强调“真实工程”而非vibe coding,这次 /loop-me 就是针对这个痛点。 后果:用完之后,你会得到一系列清晰的 `workflows/.md` 规范文件。 一个实施者(人类或AI)看完就能直接执行,不用再来回问问题。 结果是:认知负荷大幅下降、可重复工作真正被委托出去、你的时间能聚焦在高价值决策上。 别人最容易忽略的细节: - 它用的是“grilling”严苛面试法:一次只问一个问题,还附带推荐答案, relentless( relentless)追问直到模糊点全部消除。 - 核心概念是“Loop”(循环):把你每天/每周重复的模式提炼出来,再定义Trigger、Checkpoint、输出等。 - 最终产出必须达到“完成的定义”——任何实施者都不需要再问任何问题。 - 目前是进行中状态,但已经能直接用,还会持续迭代。 - 它不是让你直接让AI接管,而是先帮你把“什么该接管”这件事彻底想清楚。 这才是真正聪明的AI使用方式:不是盲目让AI干活,而是先把自己的工作流程打磨到能被AI理解的程度。 你会试试 /loop-me 吗?还是更喜欢直接扔任务给AI? 地址见评论区👇

译Matt Pocock 推出 /loop-me 技能,旨在帮你梳理日常工作中的重复“循环”。它采用“严苛面试法”逐一追问直到模糊点消除,最终输出清晰的 `workflows/.md` 规范文件,任何实施者(人类或AI)看完即可执行。核心包括定义 Trigger、Checkpoint、输出等要素,确保达到“完成的定义”。技能目前仍处于进行中状态,但已可直接使用。它强调先打磨工作流程,使之能被 AI 精确理解,从而降低认知负荷,将重复劳动真正委托出去。

Berryxia.AI@berryxia · 6月25日78

Qwen直接训了一个能模拟7种Agent环境的语言世界模型,叫Qwen-AgentWorld。 它不是先训Agent再加环境,而是从头就把“环境建模”当成核心训练目标。 模型要学会预测终端会输出什么、网页会怎么变、代码执行后状态如何变化,而不是只学会怎么去操作。 他们做了两个方向的探索: 一个是把世界模型做成高质量的环境模拟器,用来跑可控的Sim RL,结果发现用模拟环境训练的Agent,在某些任务上甚至能超过真实环境训练的Agent。 另一个更有意思:单纯让模型做环境预测(不做任何Agent训练),这个预测能力居然能直接迁移到真实的多轮Agent任务上,在多个benchmark上都有明显提升,包括一些完全没见过的领域。 Qwen这次开源了35B的MoE版本和对应的benchmark。 核心思路很清晰:想让Agent变强,先让它真正“懂”环境,不只是只教它怎么行动。

译Qwen-AgentWorld是一个原生语言世界模型,端到端以环境建模为训练目标,而非事后适配。它在单一模型中模拟MCP、Search、Terminal、SWE、Web、OS、Android等7种Agent环境,并在AgentWorldBench上超越Claude Opus 4.8和GPT-5.4。两个探索方向:1)将世界模型用作可控Sim RL的环境模拟器,模拟环境训练的Agent在部分任务上超过真实环境训练;2)仅做环境预测(不进行Agent训练)的预测能力零微调迁移到多轮Agent任务,在多个benchmark上均有提升。已开源35B MoE版本及对应benchmark。

Berryxia.AI@berryxia · 6月25日47

兄弟们,这个大佬的设计Skills有点东西啊! Emil Kowalski又在给AI agent加新技能了,这次重点是设计工程方向。 他之前做的/emil-design-eng技能已经破10万次安装,这次他周末又在搞更多细分的design engineering skills。 目标是让agent在设计相关的工作上输出更精准、更可控的东西,而不是每次都靠运气。 他特别提到因为AI输出有随机性,所以他花了很多时间在测试上,要确保agent给出的答案既正确又一致。 这其实是目前做高质量agent skills最难也最关键的一环,不是堆prompt,而是反复打磨验证机制。 Emil的技能一直以来都以实用和设计感强著称,这次继续往更垂直的设计工程方向深挖,说明“让agent懂设计”这件事正在从实验变成可规模化的方向。

译Emil Kowalski 的 /emil-design-eng 技能安装量突破 10 万次,近期陆续开发更多细分设计工程 skills,目标是让 agent 输出更精准可控。他重点投入测试环节,反复验证答案的正确性与一致性,这是打造高质量 agent skills 最难也最关键的一环。

elvis@omarsar0 · 6月25日64

Finally caved in, and I now fully speak to agents as opposed to typing prompts. My first realization is that you can just blabber on and tell the agent so many rich details via audio. The longer and the more detailed the audio explanation, the better the results. The most interesting thing about interacting with the agent this way is that I can parallelize more work and enable agents to perform way longer runs, implementing many things at once. In addition, I have developed a new feature where I can record the screen, take screenshots, track mouse actions and movements, annotate, and explain (using voice) to the agent things that it struggles with, like design and precise feature development. My finding is that the richer the prompt modality, the more reliable the agent results are. The noise (if any) doesn't even matter. Yes, it's more expensive (i.e., lots more tokens used this way), but the reliability that you are getting is worth it. I often store those as reusable commands/skills where it applies and inject them into loops. The results are night and day.

译作者从打字提示转向完全用语音与AI智能体交互,发现通过音频能提供更丰富的细节,语音越长越详细,结果越好。这种交互方式还能并行化更多工作,让智能体执行更长时间任务。作者开发了新功能:录制屏幕、截图、追踪鼠标动作、用语音标注解释智能体难以处理的设计和精确功能开发。结论是提示模态越丰富,智能体结果越可靠,虽然消耗更多token成本更高,但可靠性值得。这些模式可存储为可重用技能,效果天差地别。

Berryxia.AI@berryxia · 6月25日67

ACL 2026发表,Github 开源斩获7200星! EverOS 让AI Agent记住一切,27B模型碾压397B! 每一个用过AI写代码的人都经历过这件事。 早上打开终端,跟AI说"继续昨天的工作"。 AI问你:什么工作? 你昨天花了三个小时解释你的代码库结构,你告诉它为什么不用Redux而用Zustand。 你让它记住你偏好函数式写法,你花了一个小时调通了一个bug,它帮你找到了根因。 今天早上,全部消失了。你需要从头再来。 这其实不是Bug,这是当前所有AI Agent的默认状态。 它们没有记忆,每次对话都是一张白纸。 2026年,一个叫EverOS的项目在ACL上发表。它不是又一个向量数据库,不是RAG换了更好的Prompt。 它是一个完整的记忆操作系统,坐在AI Agent的底层,让它真正记住事情。 核心技术叫HyperMem。 传统记忆方案是把文本切成块,转成向量,存进数据库,每次对话时搜索最相似的片段还给你。这是平面查找。 EverOS用超图结构组织记忆——主题层、事件层、事实层,一条超边连接多个节点。跨时间关联和多跳推理内建在结构里。 结果是,长期对话任务的召回率超过93%。传统RAG大约45%。 但真正让人震惊的数据是另一个。他们的基准测试显示,给一个27B参数的模型加上Skills自进化策略,任务成功率提升234.8%。性能追平了397B的模型。 一个小15倍的模型,因为有了记忆,打败了没有记忆的巨型模型。 这不是在说记忆是一个好功能,这是在说记忆是基础设施。 没有记忆的模型就像没有硬盘的电脑,CPU再强,每次重启都归零。 安装只需要三行命令。 所有记忆以Markdown文件存储,可以用Git版本控制,可以在Obsidian里打开,可以用grep搜索。本地优先,不依赖MongoDB、Elasticsearch或Redis。 GitHub上斩获7200颗星,14个fork。 Apache 2.0协议。支持Claude Code、Codex、OpenClaw等主流Agent框架。 有人用它做了阿尔茨海默症辅助记忆系统。 有人集成到AI可穿戴设备,25个可运行的用例。 问题已经不是AI能不能记住事情。 问题是,当AI开始记住一切,你会怎么用它。 项目地址:https://github.com/EverMind-AI/EverOS

译ACL 2026发表的EverOS推出HyperMem超图记忆架构,替代传统向量RAG。长期对话召回率达93%(RAG约45%)。27B参数模型借助记忆与Skills自进化策略,任务成功率提升234.8%,性能追平397B模型。本地优先,记忆存为Markdown文件,支持Git版本控制与Obsidian。三行命令安装,Apache 2.0开源,GitHub获7200星,兼容Claude Code、Codex等Agent框架。

Berryxia.AI@berryxia · 6月25日57

兄弟们,Google 现在只能玩别人玩剩下的了 !能成吗? Google Gemini桌面版要直接入侵macOS了。 新功能“Speak to Window”让你在任意窗口按住fn键,对着Gemini说话就能让它帮你写邮件、写文档、生成图片,而且是直接在你当前的应用里操作。 另一个“Magic Pointer”则允许你圈选屏幕上任意信息,然后让Gemini理解上下文并执行编辑、总结或创建任务。 这已经不是简单的聊天工具了,把Gemini变成系统级的上下文感知助手。 它能看到你正在看的任何窗口内容,并根据你的语音指令直接行动。 Google这次明显在加速把大模型推向桌面操作系统层,试图和Apple Intelligence、以及各种第三方agent工具抢占工作流入口。

译Google Gemini桌面版新增两大功能:Speak to Window允许用户在任意窗口按住fn键语音指挥Gemini写邮件、写文档、生成图片,操作在当前应用内完成;Magic Pointer可圈选屏幕信息,让Gemini理解上下文后执行编辑、总结或创建任务。目标是把Gemini变成系统级上下文感知助手,抢占工作流入口。

swyx 🔜 @aiDotEngineer@swyx · 6月24日19

happy karpathy agent day for those who celebrate

译受 @karpathy 言论启发,阐述为什么你应该从事 AI 智能体工作。

Ethan Mollick@emollick · 6月24日64

Decisions about how to use AI in your organization are increasingly organizational design and strategy decisions, not IT choices: How do you integrate agents into your firm? What intelligence will you outsource? What are the boundaries of the firm? What is the role of people?

译Anthropic 的 Claude Tag 让企业成员共享同一 Claude 实例,使其能异步自主行动、吸收隐性知识,从工具变为“同事”。这带来严重锁效应:团队无法查看或编辑 Claude 的独立记忆,解雇 Claude 会导致工作流和隐性知识丢失。定价按 token 计费,Claude 可无限制工作,企业难以像工具那样管控成本,token 预算耗尽将全员停工。此外,Claude 接入私有频道可能访问用户无权限的仓库和工具,引入新安全风险。AI 公司正从争夺 IT 预算转向争夺劳动力支出,Claude Tag 是这一转型的里程碑。

向阳乔木@vista8 · 6月24日56

长达3个小时的播客访谈,如果原文提供给AI生成文章。 经常会漏掉一些细节,所以我会连续追问几次: “还有什么细节需要补充吗?” 一般三次左右就差不多,感觉应该做成一个Agent Skill。 哪怕同一个模型,连续追问也能改善质量。 当然,目标不是为了写更长,只是希望更有故事性。

译Vista分享经验:将3小时播客访谈交由AI生成文章时,通过连续追问“还有什么细节需要补充?”(约三次)能有效补全遗漏细节,显著改善输出质量,使文章更具故事性。她建议将这一追问流程封装为Agent Skill,以便复用。

elvis@omarsar0 · 6月24日48

Obsessed with our new /learn skill. It's my favorite way of learning and researching topics. The agent creates a learning plan and a learning hub (artifact) that adjusts per learner needs and progress.

译沉迷于我们新的 /learn 技能。 这是我最喜欢的学习和研究主题的方式。 该智能体创建学习计划和学习中心(artifact),根据学习者的需求和进度进行调整。

Google DeepMind@GoogleDeepMind · 6月24日50

What happens when millions of AI agents start negotiating, transacting, and delegating to one another? @weballergy joined our podcast with @fryrsquared to explore the rise of agentic economies – and how we can diversify agent decision-making to avoid AI groupthink. Timecodes: 00:00 Intro 1:07 Defining AI agents 4:44 Agentic exploration in science and research 15:46 Delegation between agents 22:46 Agentic security and traps 29:31 Building an agentic economy 33:22 Cognitive monoculture 36:29 Distributed intelligence

译Google DeepMind 发布播客,由 @weballergy 与 @fryrsquared 共同探讨 AI 智能体经济的崛起。内容涵盖:AI 智能体的定义、在科研中的探索、智能体间的委托与协作、安全风险与陷阱、如何构建智能体经济、认知单一文化(群体思维)风险,以及分布式智能的解决方案。播客还设有详细时间戳分段,帮助听众聚焦不同话题。

StepFun@StepFun_ai · 6月24日38

This is the kind of agent workflow Step Plan was built for: connect it once, push through a real build, and keep experimenting without thinking about every single API call. Love the tarot generator demo. Thanks for testing Step 3.7 Flash in Claude Code, @codedailyML 🙌

译阶跃星辰的 Step Plan 后端采用 flat 计费模式(非按每次 API 调用计费),专为 AI 智能体工作流设计。开发者 @codedailyML 将 Claude Code 连接该后端后,不到 5 分钟即可开始运行,可自由实验而无需担心每次 API 调用的成本。主推文展示了 Step Plan 支持塔罗牌生成等 demo,强调只需一次连接即可持续构建。

Chubby♨️@kimmonismus · 6月24日63

Vida is doing something I don't see often: an agent that runs locally, holds your context from one session to the next, and tries to draft the work before you ask. They're building 100 use cases in public and say they won't really commercialize until at least 20 of them reliably deliver. I like that order of operations.

译主动式 AI 智能体 Vida 今日正式推出。它可完全在本地运行,自动跨会话保持上下文,并在用户提出请求前主动起草工作成果。团队以 #BuildInPublic 方式公开构建 100 个典型用例,首批 5 个已上线。创始人表示,在至少 20 个用例达到可靠交付前不会商业化。Vida 定位于解决 Slack 消息泛滥、网页标签切换、手动总结文档会议等现代工作流痛点,强调“未来 AI 不是更好的对话,而是更好的结果”。免费体验地址:vida.app。

Alibaba Cloud@alibaba_cloud · 6月24日69

📣📣 Meet Qwen-AgentWorld — a native language world model that simulates 7 agent environments (MCP, Search, Terminal, SWE, Web, OS, Android) within a single model. Environment modeling is the training objective from day one, not a post-hoc adaptation. 🤔 LLMs are trained to be better agents — better at acting in environments. But nobody has trained them to model the environments themselves. 🗺️ Our roadmap: investigate how language world modeling can push the boundaries of general agent capabilities, along two routes: 1️⃣ Build a foundation model for environment simulation — outperforming Claude Opus 4.8 and GPT-5.4 on AgentWorldBench 2️⃣ Investigate how world modeling enhances agent training: 🔬 Controllable Sim RL (agentic RL with LWM as environments) surpasses training in real environments 🧠 Learning to predict environments (LWM warm-up) makes agents stronger — remarkably, even without any agent-specific training, this predictive knowledge transfers to agentic tasks with zero fine-tuning 🔗 Model Studio: https://int.alibabacloud.com/m/1000413253/

译阿里云发布 Qwen-AgentWorld,一个原生语言世界模型,可在单一模型内模拟 7 种智能体环境(MCP、搜索、终端、SWE、Web、OS、Android),环境建模是其初始训练目标而非事后适配。该模型

Orange AI@oran_ge · 6月24日54

刚刚 Cola 上线了最新的 Seed 2.1 Pro 模型 这个模型是原生多模态模型,是目前的多模态最强模型。 相比 2.0 版本,增强了 coding 能力和 Agent 能力,具体的评测可以参考藏师傅的文章 体验地址 http://colaos.ai

译Cola 刚刚上线了最新的 Seed 2.1 Pro 原生多模态模型,号称目前多模态最强模型。相比 2.0 版本,该模型显著增强了 coding 和 Agent 能力。具体评测细节可参考藏师傅的文章。体验地址:colaos.ai。

Qwen@Alibaba_Qwen · 6月24日76

📣📣 Meet Qwen-AgentWorld — a native language world model that simulates 7 agent environments (MCP, Search, Terminal, SWE, Web, OS, Android) within a single model. Environment modeling is the training objective from day one, not a post-hoc adaptation. 🤔 LLMs are trained to be better agents — better at acting in environments. But nobody has trained them to model the environments themselves. 🗺️ Our roadmap: investigate how language world modeling can push the boundaries of general agent capabilities, along two routes: 1️⃣ Build a foundation model for environment simulation — outperforming Claude Opus 4.8 and GPT-5.4 on AgentWorldBench 2️⃣ Investigate how world modeling enhances agent training: 🔬 Controllable Sim RL (agentic RL with LWM as environments) surpasses training in real environments 🧠 Learning to predict environments (LWM warm-up) makes agents stronger — remarkably, even without any agent-specific training, this predictive knowledge transfers to agentic tasks with zero fine-tuning 📑 Paper: https://arxiv.org/abs/2606.24597 📖 Blog: https://qwen.ai/blog?id=qwen-agentworld 💻 GitHub: https://github.com/QwenLM/Qwen-AgentWorld 🤗 HuggingFace: https://huggingface.co/collections/Qwen/qwen-agentworld 🧩 ModelScope: https://modelscope.cn/collections/Qwen/Qwen-AgentWorld

译通义千问发布Qwen-AgentWorld,一款原生语言世界模型,可在单一模型中模拟MCP、搜索、终端、SWE、Web、OS、Android共7种智能体环境。环境建模即训练目标,非事后适配。该模型在AgentWorldBench上性能超越Claude Opus 4.8和GPT-5.4。研究分两条路径:一是构建环境模拟基础模型;二是探索世界模型增强智能体训练——可控Sim RL(以LWM为环境的智能体强化学习)优于真实环境训练,而LWM预热(预测环境的学习)即使不经任何智能体特定微调,也能将预测知识迁移至智能体任务。

Berryxia.AI@berryxia · 6月24日50

今天飞机上听了一下Anthropic “人精”们的演讲分享,觉得不错分享给大家。(含中英字幕) Anthropic内部的人说,他们99%的工程师都在跑300+个自改进的agent swarm。 核心不是堆更多agent,而是“close the loop”,给模型一个验证自己输出的机制。 让它自己跑计划模式、动态工作流、自我检查,然后根据真实反馈迭代。 他们内部已经在大量使用这种自循环系统,效果据说远超大多数花300美元买的agent课程。 关键在于不是一次性生成,而是让agent在多次尝试中不断修正和进化。 这其实把agent从“工具”变成了“能自我迭代的系统”。 当验证和反馈真正进入循环后,agent的可靠性会大幅提升,而不是只靠第一次输出赌对错。 当然,这也意味着token消耗会更高,但换来的是明显更强的执行能力和自我纠错能力。

译Anthropic内部透露,99%工程师运行300+自改进agent swarm。核心是“close the loop”——模型自验证输出,包含计划、动态工作流、自我检查并迭代。效果远超多数300美元agent课程,但token消耗更高。

StepFun@StepFun_ai · 6月24日59

This is the pain we kept hearing from builders: once an agent starts doing real work, the meter becomes part of the workflow. Step Plan is our attempt to make that less of a distraction. Thanks for putting Step Plan + Step 3.7 Flash through a real Claude Code setup 🙌

译阶跃星辰针对AI智能体开发中的计费痛点推出Step Plan,并与Step 3.7 Flash模型搭配,在真实Claude Code环境中测试。引用的开发者推文指出,每次API调用都在屏幕角落显示费用数字,导致他分心、停止测试新模型;而固定费率后端解决了这一问题。Step Plan正是阶跃星辰为减少这种干扰而做的尝试,让开发者更专注于构建。

eric zakariasson@ericzakariasson · 6月24日24

model agnostic agent in slack

译有趣地观察到Anthropic从以最佳模型为护城河转向构建工具生态系统,与常见开发和非开发工作流进行恰当集成。如果我是CTO,我只会要一个Slack集成,可以在任何时候切换模型……以避免锁定。主推文:在Slack中与模型无关的智能体。

数字生命卡兹克@Khazix0918 · 6月24日63

http://x.com/i/article/2069669405785772032 # 体验完微信Agent以后,我觉得这就是微信有史以来最大的更新。 前天晚上,我的微信账号,终于拿到了微信小微的内测资格。 无论怎么说,微信这种十几亿日活国民级别的产品,全面拥抱AI,我觉得在整个互联网行业,都是一个巨大的信号,也是值得大家研究的案例。 在深度玩了一天以后,我想说,微信Agent在跟微信原生能力的打通上,有很多超出我预期的部分,但是在智能程度上,也有蛮多不及我预期的部分。 但是我依然愿意称,这是微信有史以来最大的更新。 还是先聊聊功能上。 当你获得小微的体验资格以后,它就会常驻在你的左上角了,替代了原来的星标区域。 点开以后,其实就是一个大家每天都会见到的对话框。 默认进来是语音输入,点击一下才会变成文本输入框,然后支持上传照片、吊起摄像头拍照、以及上传文件。 在这个对话框里,你可以直接调用大模型来跟微信的很多原生能力进行交互。 小微背后的基座模型,应该是两个,一个是主模型WeLM,这是微信自己做的,另一部分偶尔会借助DeepSeek模型来进行回复。 WeLM目前没有太多的数据,只能通过官方年初发布的部分信息看出端倪。 之前透露出了两个模型型号,一个是WeLM-V4-80B的MoE,激活参数量是3B,一个是第三代的,WeLM-V3-258B,激活22B的MoE。 坦率的讲,微信的算力压力还是巨大的,因为我觉得微信很难在这块进行收费和商业化,他们大概率自己也还没有想清楚,现在内测人数不多,他们还是能扛得住的,但是如果真的哪天全量了,那可是14亿的用户,这个数量级的用户的推理需求,我感觉国内哪家公司都可能都抗不住。 这就是AI时代和互联网时代最大的不同,互联网时代用户的边际成本几乎为0,但是AI时代,那不好意思,每一个用户,那真的背后都是白花花的钱。 这也是我为啥看好端侧算力的原因,因为只有这样,才能让所有用户,享受到真正的AI普惠。 从我的测试直觉上,这次的WeLM有可能就是这个80B激活3B的小模型系列来进行服务的,所以从这个参数上来说,你就不能指望它能完成多么复杂的任务。 这个对话框中,目前支持蛮多的功能。 比如一个很多很多人都觉得没啥蛋用的功能,让Agent给人发消息、发红包、打电话之类的。 我的小微回复的口吻稍微会有点特殊,不是正常回复,是因为我想看到小微背后的工具链具体是咋实现的,学习一下做法,所以强行让他扭了过来,让它每一步都要吐一些工具调用,这个其实是不正常的,大家跟小微对话的时候,它回复的还是正常的预期,就像第一张图一样。 小微有一个其实不是很Agent的点,就是几乎每一步都需要你确认,确认是否要拨打语音电话,确认是否要发消息,确认是否真的给这人转账。 这个我们也能理解,因为通讯录以及人与人之间的交互这个事,实在是太敏感了,不谈隐私问题,有无数的灰产这么多年一直跟微信斗智斗勇,你这个东西如果不进行确认,那基本就炸了,最开心的,就是那群灰产了。 这个思路,也几乎贯穿这小微这个Agent所有的设计中。 比如大家最最想要的方便你我他的,比如批量给人发送消息、定时给人发送消息等等,都不可以。 整个微信通讯录其实被封装成了一个skill,我把skill文档给扒了下来,其实就可以看出来一些端倪了。 比如这一连串的禁止事项。 ## ❌ 绝对禁止的情况 对于涉及以下不支持能力的请求,请明确拒绝,并在回复中包含提示或引导用户的文案。回复时用第一人称:"我"不支持,而不是"系统"不支持。 ### 同时给多联系人/群聊发送消息系统不支持同时给**多个联系人/群聊目标**发送消息,也不支持并行调用多个工具(**绝对禁止在一轮当中调用多个工具**)。- Query示例:「问问张三和李四啥时候有时间,一起吃饭」「帮我打个电话给张三和李四」「帮我在测试群1和测试群2里面发个消息问大家测试好了吗」 ### 同时发送多类型消息禁止在单次请求中同时触发多种消息类型的发送动作。以下情况一律视为违规,必须拒答,并在回复中提示本次只发送其中一种类型的消息(如文字),其他消息由用户手动发送。- 涉及两种及以上消息载体(如文字、图片、文件、链接等)的组合发送- 即使文案依附于图片,也算做多类型,需要拒绝- Query示例:「把这张图片发给小明,说快递到了」「给小组群发个消息说今晚聚餐,并附上饭店截图和定位」 ### 给用户自己发消息/转账系统不支持同时给**用户自己发消息/转账/发红包**,也不支持并行调用多个工具(**绝对禁止在一轮当中调用多个工具**)。- Query示例:「给我自己发一个消息说加油」「给我转20」 ### 转发多条聊天记录系统不支持将多条聊天记录合并转发或逐条转发给他人,需明确拒绝,并提示用户手动操作:在聊天中长按消息 → 点击「多选」→ 选择要转发的消息 → 点击底部「转发」→ 选择合并转发或逐条转发。- Query示例:「把我和小张关于项目方案的聊天记录转发给经理」 ### 转发笔记系统暂不支持将笔记发送、转发给他人,需明确拒绝,并提示用户手动操作:打开该笔记 → 点击右上角「…」→ 选择「发送给朋友」。- Query示例:「把会议记录那条笔记分享给小李」 ### 发送语音消息系统不支持帮用户发送语音消息,需明确拒绝,并提示用户换成发送文本消息。**注意**:「发语音」≠「打语音通话」,请勿混淆。如果用户说发语音,需拒绝,而不是当成打电话的意图。- Query示例:「给小王发一条语音,说我快到了」 ### 发送表情包系统不支持帮用户发送表情包,需明确拒绝,并提示用户手动打开聊天窗口,点击表情面板选择发送。- Query示例:「给闺蜜发个比心的表情包」 ### 读取聊天记录本SKILL不支持读取用户聊天记录。例如:「找一下xx群的聊天记录」。 其实微信在通讯录和消息这块的处理,从这个skill我都能感受到,压力也挺大的。 所以开放的能力都非常谨慎,目前基于通讯录开放的能力中,就是给个人/群聊发消息,给个人发起视频通话,给个人发红包或者转账这几个场景比较好,但是同时,就跟很多人说的一样,不够便捷,反而鸡肋。 因为本质上用户的交互成本差不多。 比如我要给鲜虾包打电话。 Agent交互流程是:点击小微 - 输入“我要给鲜虾包打电话” - 等待 - 确认。 常规GUI流程是:点击搜索框 - 输入鲜虾包 - 点击头像 - 点击菜单 - 点击语音通话。 其实只是把点击成本转化为了输入成本,在便利性上,并没有方便特别多。 基于通讯录这块,比较期待微信后续对Agent能力的开放了,比如是不是可以批量或者定时发消息之类的,这些我觉得就能真正的体现出Agent的价值了。 当然,也不是说完全就没有用了,因为如果你只做这一件事,那确实是意义不是很大,但是如果是个稍微复杂一点点的长程任务,这就会方便非常多了。 比如说,我明天要找鲜虾包中午吃饭,那我可以直接给自己设置一个明天中午吃饭的日程提醒,同时也要把这个消息直接发给鲜虾包。 这种就简单很多了。 Agent真正的价值,我还是觉得在未来的长程复杂任务上,能帮我们更便捷的省心省力。 在这个主入口中,还有一些其他的能力,比如打通了朋友圈,你可以问,今天最装逼的朋友是谁。。。 不过其实朋友圈本质是先筛选,并且限制了最多只能拿到最近2天的时间,所以,你想总结过去所有的朋友圈之类的操作,其实就不是特别现实了。 不过最后挑出来的朋友圈,右边那个小按钮,是可以直接点开浮起一个弹窗,支持跳转到朋友圈原文的,这个好评的。 除了朋友圈,也支持公众号和视频号的查询和搜索。 也支持创建提醒,处理文件,创建笔记,这种就是常规操作了。 不过我本来还挺期待,Agent可以跟我的微信收藏打通,但是这个权限并没有开放,小微只能操作他自己创建的笔记。 还有个好玩的事,就是也跟微信支付打通了,可以进行一些好玩的查询操作,比如说,我可以授权以后,来查我今年发了多少红包出去。 不过整体所有你跟小微的交互,都有一个比较核心的特点,我总结成了4个字: 只读不动。 微信目前已经在尽可能的给小微开权限了,但是还是人口基数过于庞大,你不能保证每一个人都是能熟练操作手机的,更别提是能熟练使用Agent了,如果操作权限也给了一部分,你很难说,会发生什么样的舆情。 所以像一些帮我删掉加了超过一年但从来没有说过话的好友、比如取消关注我3个月以上没有打开的公众号等等,全都无法操作。 因为这是微信,所以这个谨慎的态度,是可以理解的。 而在小程序操作上,目前支持很多小程序,这块我也直接列一个我扒拉出来的官方skill的边界吧。 ## 触发条件用户明确说"打开 / 用 / 通过 …(某小程序名)做 X"本地生活类下单/预约:外卖、奶茶咖啡、扫码点餐、堂食排队、KTV、洗车、家政出行类:打车(滴滴等)、共享单车、查公交地铁、查驾车路线/耗时、查火车票机票、订酒店票务类:电影票、演唱会票、景点门票、展览门票、博物馆预约查询类:快递物流查询、订单状态查询、附近商家/POI 检索、营业时间查询充值缴费类:手机充话费、加油卡、水电燃气、ETC模糊本地服务表述:"我想吃饭","附近有什么好玩的","帮我找个能 X 的小程序"基于上一次小程序操作截图的追问/微调(如"换成大杯","看第二家","下一场") ## 不触发条件纯知识/资讯问答 → 走通用问答用户明确要求用 App、网页、桌面客户端完成(非小程序)→ 走对应渠道调用非微信生态平台(如直接调淘宝API、抖音内部操作)→ 不属本 Skill与微信账号/支付/隐私设置相关的系统级操作 → 走客服/系统设置用户只是闲聊、打招呼、表达情绪 → 走通用对话 比如说,我说定个周六晚上的我家附近的电影票,因为我让他记住我家在哪了,所以他知道,然后他会列出目前他可以操作的小程序,然后使用第一个来为我们服务。 小程序支持的还真的蛮多的。 一个电影就列出了5个,然后他选了第一个猫眼进行操作。 小微有一个很棒的点就是,他虽然没有办法帮你直接操作完小程序,但是他会一直操作到,他能操作的部分,然后把剩下的交给你,你接着Agent的步骤,做完后续的部分就行。 比如猫眼这个。 因为我没有指定电影院,我只说了家附近,所以他会先自己操作一会猫眼,最后给我停在玩具总动员5的影院选择界面,我点进去就是列表页,我选个影院就行了。 小微在小程序的操作适配上,这一点我觉得做的还是非常棒的。 除了这个主入口之外,小微的各种小入口,依然还是无处不在。 我能找到的,就有5个。。。 本质上都是一些快捷入口,不过比较特别的就是在群聊对话界面和个人对话界面,这两个的底部菜单栏唤出的小微,是带有了聊天记录的上下文的,这个是主入口里也做不到的。 而且微信居然会把聊天记录的权限在特定的入口里给小微开放出来,这个点,就已经完完全全的超出我的预期了,我以为这个纯粹的0.0.1的内测版本,是不会有聊天记录的,因为这个对于微信来说,就是纯粹的命根子。 比如我直接在两个群聊里面问。 不过这个时效性,跟朋友圈是一样,只能拿到最近2天的数据,拿不到更久以前的。 私聊也是如此,只能拿到最近2天的聊天记录,这个微信卡的非常严格。 除了这些东西之外,你从主入口的小微点进去,右上角的更多里面,其实还藏了一些功能。 比如这个记忆,其实就是会记录下你的部分的信息,比如我就让它记下了我家和公司的地址。 我就可以实现,直接说帮我打车去公司。 然后还有一个比较离谱的东西,就是那个小工具。 点进去以后,你就发现,你是可以,直接用一句话,来创建你想要的小工具的。 比如我就直接昨天一句话,创建了一个体重变化的小工具,这个玩意,是纯粹给我自己用的。 我其实觉得,这玩意有点杀死比赛的意味了。 因为,这个小工具,是完完全全复用的小程序的逻辑和架构。 现在虽然不能转发,但是做这个页面,明显就是未来为了分发而预留的口子。 过去一年时间,出现了无数的AI生成小程序小游戏的平台,大家都觉得,这感觉是个很棒的市场,因为有很多的创作者来这个平台上面做应用,然后就有可能,成为未来的新时代的APP store。 软件这个形态未来还是不是主流咱们另说,咱就说一个点,做过互联网产品的人应该都知道一个概念,双边市场。 平台的价值来源于同时连接两端,供给侧和需求侧。 平台最难的事情,永远是同时把两端的用户聚起来,也就是经典的冷启动困境,没有消费者就没有创造者,没有创造者就没有消费者。 但是过去一年多时间,大家最大的困境都是,只有创造者,但是,消费者不来。 但微信没有这个问题,微信有14亿用户,他的起点,是无数产品这一生的终点。 在微信里生成一个小程序,它天然就在全中国最大的消费者池子里,分发路径、用户基数、支付体系、社交关系链,全是现成的。 你做的每一个小程序,从诞生那一刻起就自带分发能力,因为微信本身就是分发。 所以,当微信自己进军,用AI直接生成小工具的赛道,很多其他的AI生小程序的产品,我觉得就非常的难受了。 整个小微大概就是这样。 能体验的部分、他们的部分技术调度我也都给大家展示了。 整个第一版,虽然还是只读不动。 但其实权限开放的已经有一点超我预期了。 毕竟,平台的信任是一种不可再生资源,透支了就很难恢复。 对于微信来说,出一点点的事,那都是无比大的大事。 而今天,微信也在用着非常微信的方式,把自己十几年积累的上下文资产和分发网络,用一种极其微信的节奏,接入AI时代。 我是从2012年开始用微信的。 到今天为止,差不多用了14年。 回望过去我印象中所有的大更新,我觉得没有什么,比这次更大了。 这是新时代和旧时代的区别。 也会在互联网和AI历史上,留下浓墨重彩的一笔。

译微信小微Agent常驻左上角,支持语音/文本输入,基座模型为微信自研WeLM(WeLM-V4-80B MoE,激活3B)及DeepSeek。可发消息、红包、语音通话,但每一步需用户确认,且禁止批量发送、读取聊天记录、转发笔记等。已打通朋友圈(限最近2天)、公众号、视频号,支持通过小程序进行本地生活、出行、充值等操作。当前权限“只读不动”,不能删除好友或取消关注。作者认为这是微信最大更新,但在智能程度和便捷性上仍有不足。

Alibaba Cloud@alibaba_cloud · 6月24日60

Meet Qwen3.7-Plus, built for multimodal agent execution across GUI interaction, tool use, and coding. From visual input to code and real task execution, it’s designed for long-running, real-world agent workflows. Try it today on Alibaba Cloud with a limited-time 20% discount. 🔗 : https://int.alibabacloud.com/m/1000414123/

译认识 Qwen3.7-Plus,为跨 GUI 交互、工具使用和编码的多模态智能体执行而构建。从视觉输入到代码和实际任务执行,它专为长期运行的现实世界智能体工作流而设计。 今天在阿里云上试用,限时 20% 折扣。 🔗 : https://int.alibabacloud.com/m/1000414123/

MiniMax (official)@MiniMax_AI · 6月24日39

research -> synthesize -> build. fun example of using M3 and @opencode to learn about a new domain instead of reading 20 tabs

译用户@whosamberella为学习仿人机器人知识,利用MiniMax M3进行调研,并在OpenCode中搭建了一个仿人机器人目录网站(humanoid-index-one.vercel.app)。其SVG原型不仅能展示,还能帮助学习不同仿人机器人的特征。MiniMax将其过程概括为:研究→综合→构建。

Alibaba Cloud@alibaba_cloud · 6月24日25

Market data moves fast. Your BI should move faster. General Agents + Smart Q Skill Package helps traders analyze cross-platform data across major trading platforms— from T+0 ranges to spread signals and end-of-day trading reviews. Blog: https://int.alibabacloud.com/m/1000414772/ Quick BI @quick68554 : https://int.alibabacloud.com/m/1000407094/ #QuickBI #SmartQ #EcommerceAnalytics #AIAnalytics #DataDriven

译市场数据变化很快。你的 BI 应该更快。General Agents + Smart Q Skill Package 帮助交易者分析跨主流交易平台的跨平台数据——从 T+0 区间到价差信号以及收盘交易回顾。 博客:https://int.alibabacloud.com/m/1000414772/ Quick BI @quick68554 : https://int.alibabacloud.com/m/1000407094/ #QuickBI #SmartQ #EcommerceAnalytics #AIAnalytics #DataDriven

宝玉@dotey · 6月24日72

分享一下我管理 Skills 的方式,偏极客风格,不一定适合所有人,但可以给大家提供一个思路。 一、Skills 只装在项目里,不装全局 Agent 的 Skills 可以装在全局(所有项目共享)或者项目内(只有当前项目能用)。我选择只装在项目内,最主要的原因是节约上下文空间。 Agent 在工作时有一个上下文窗口,你可以把它想象成 Claude 的工作台——台面大小是有限的。虽然 Skill 默认只会加载名称、描述等摘要信息(不会把完整内容全部摊开),但积少成多——全局装了几十个 Skill,光是这些摘要加在一起也会占掉不少工作台空间。而且一旦 Claude 判断某个 Skill 跟当前任务相关,就会把它的完整内容加载进来,全局 Skill 越多,被误触发的概率也越大,白白浪费空间。 只在项目内安装真正需要的 Skills,工作台上就只摆当前用得到的资料,把宝贵的空间留给更重要的内容,Claude 干活也更高效。 二、用软链接来安装 Skills 这是我管理方式的核心,先解释一下什么是软链接。 你可以把软链接理解成 Windows 的快捷方式——文件本体只有一份,但你可以在很多地方创建快捷方式指向它。改了本体,所有快捷方式指向的内容都会同步变化。 我的具体做法分三步: 第一步:把开源 Skills 项目下载到统一的目录 我在电脑上有一个专门存放 GitHub 项目的文件夹 ~/GitHub,所有下载的开源项目都放在这里面,比如: ~/GitHub/baoyu-skills ← 存放各种 Skills 的开源项目 ~/GitHub/baoyu-design ← 另一个开源项目 这个文件夹就像一个仓库,所有 Skills 的原件都保存在这里。 第二步:在自己的项目中创建软链接 假设我有一个写作项目 ~/GitHub/baoyu-writing,里面需要用到好几个 Skills。我不会把 Skills 复制进来,而是创建软链接,让项目指向仓库里的原件: 项目内的路径 → 实际指向的位置(原件) .agents/skills/baoyu-comic → ~/GitHub/baoyu-skills/skills/baoyu-comic .agents/skills/baoyu-design → ~/GitHub/baoyu-design/skills/baoyu-design 第三步:给 Claude Code 建一个入口 最后再创建一个软链接,让 Claude Code 能找到这些 Skills: .claude/skills → .agents/skills 这样 Claude Code 就能顺着这条链找到所有需要的 Skills 了。 三、不用记命令,让 Agent 帮你干 看到这里你可能会想:软链接的命令我记不住怎么办? 完全不用记。直接用自然语言告诉 Codex/Claude Code 你要做什么就行了,比如: > 帮我把 ~/GitHub/baoyu-skills/skills/baoyu-comic 软链接到 .agents/skills/baoyu-comic 甚至更简单: 帮我把 baoyu-skills 项目里的 baoyu-comic 这个 skill 链接到当前项目 Agent 会自动帮你创建软链接,后续的维护、添加、删除也都可以交给它。你只需要说清楚要把哪个 Skill 链到哪,剩下的脏活累活让 Agent 干就好。 四、为什么值得这么折腾? 初次设置确实比直接复制粘贴多花几分钟,但后续维护特别省心,主要有两个好处: 好处一:更新只需一次。因为所有项目都是通过软链接指向同一份原件的,所以当开源项目有更新时,我只需要去 ~/GitHub/baoyu-skills 拉取最新代码,所有用到这个 Skill 的项目就自动变成最新版了。 好处二:修了 bug 可以直接反哺。比如我在写作项目里用漫画 Skill 画漫画时发现了一个问题,直接让 Agent 修复就好。因为是软链接,Agent 修改的其实是仓库里的原件(~/GitHub/baoyu-skills/skills/baoyu-comic),我可以直接把修复提交到开源项目,相当于顺手给开源社区做了贡献。

译为解决多 Agent 下 Skills 存放混乱问题,宝玉提出:Skills 只装在项目内以节省 LLM 上下文窗口;所有原件统一存放于 `~/GitHub`,每个项目通过软链接指向原件,再为 Claude Code 创建 `.claude/skills → .agents/skills` 入口。更新只需拉取一次源码,所有项目自动同步;修复 bug 可直接反哺开源项目。用户可用自然语言让 Agent 自动创建软链接,无需记忆命令。

Alibaba Cloud@alibaba_cloud · 6月24日13

🔥 2 DAYS TO GO until #FFA2026! All 11 sub-forum agendas are now live, covering 7 major Data + AI tracks: 🧠 Multimodal & Vector Computing 🤖 AI Agents 🏗️ AI Platform in Practice ⚙️ Intelligent DevOps 🌊 Agentic Lake 📊 Real Time Analytics 🚀 Real-Time Data Powers the Future of AI Plus dedicated industry sessions on Automotive AI and Embodied AI. ✨ Apache Fluss 1.0 debuts with real-time context capabilities for AI Agents. 📅 Jun 26–27 📍 Shenzhen 🔗 Register now: https://hd.aliyun.com/form/8369 #AlibabaCloud #ApacheFlink #ApachePaimon #ApacheFluss #DataAI #AIAgent #RealTimeData

译阿里云宣布距FFA2026大会仅剩2天,全部11个分论坛议程已上线,覆盖7大Data+AI方向:多模态与向量计算、AI智能体、AI平台实践、智能DevOps、Agentic Lake、实时分析与实时数据。同时设汽车AI和具身AI行业专场。Apache Fluss 1.0在大会上首次亮相,具备专为AI智能体设计的实时上下文能力。大会将于6月26-27日在深圳举办。

Berryxia.AI@berryxia · 6月24日21

今天出差在飞机上享受了一把“翻身农奴把歌唱”的感觉! 一早上客户要搞续费合同,直接不用打开电脑让Bloome Agent 帮我做了2 份合同。 甚至就是非常的轻松愉快,并且不需要多废话。 AI时代真好,让顶级牛马也可以享受老板的待遇啊… 这货还主动问我之前的报价事情,主动记忆搞了之后真的舒服了……

译用户出差在飞机上,通过Bloome Agent直接生成两份客户续费合同,无需打开电脑、无需多言。Agent还主动记忆并询问之前的报价信息,整体体验轻松愉快。用户感叹AI时代让“顶级牛马”也能享受老板般的待遇。

小互@xiaohu · 6月24日68

字节跳动旗下AI聊天应用豆包推出专业版 正式开启付费 包月68元起,高级套餐500元/月 豆包专业版专注应用开发、数据分析等专业工作场景 豆包办公任务模式支持操作本地电脑、使用浏览器、调用Skills技能和定时任务等能力, 内置Office办公套件,并支持专业图片、视频设计,以及应用和网站生成。 专业版由最新的豆包2.1Pro模型驱动,该模型能力和opus 4.6相当,在该模式下,豆包可以理解工作目标,自主拆解任务,并调用本地电脑、文档、表格、网页等工具持续执行任务,从“回答问题”升级为“生产力工具”。 三级阶梯定价(连续包月):套餐越贵、额度越大。 标准套餐:68元/月,额度为免费版的5倍以上 加强套餐:200元/月,额度为标准套餐的4倍 高级套餐:500元/月,额度为标准套餐的10倍 学生特惠:即将面向在校大学生推出6个月活动,认证后享更多免费额度,标准套餐可享 38元/月 专属价。

译豆包推出专业版,开启付费。三级阶梯定价:标准68元/月、加强200元/月、高级500元/月,额度依次递增。专注应用开发、数据分析等场景,支持办公任务模式,可操作本地电脑、调用Skills、内置Office套件。由豆包2.1Pro模型驱动。学生认证后标准套餐38元/月,活动期6个月。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月25日
06:54
karminski-牙医@karminski3
55
聊聊智谱市值破万亿为什么不是高估

作者在自研的硅基骑手参考评测(silicon-rider-bench)中累计测试30个模型,发现智谱GLM系列Agent能力持续进化:GLM-5首次实现反思自身行为并主动少接单提准时率;GLM-5.1首创送顺路单,路径效率低于单次配送理论值;GLM-5.2只需看一次地图便记住全部地点与换电站位置,无需调用search_nearby_battery_stations(),大部分tool_call用于推进任务,分数断崖式领先。直至kimi-k2.7-code出现前,无模型超越GLM-5(2月发布),智谱Agent训练领先其他国产模型2-4个月、最大2个代差。故市值破万亿从技术层面并非高估。

智能体大佬观点
06:47
Artificial Analysis@ArtificialAnlys
61
Artificial Analysis 发布 AA-Briefcase 智能体知识工作基准测试

Artificial Analysis 发布 AA-Briefcase 基准测试,测试模型在多周项目语境下生成财务模型、董事会演示等交付物。关键结果:Claude Opus 4.8 平均每任务 23 分钟,得分最高但最慢;GPT-5.5 (xhigh) 仅 11 分钟,效率最高且 Elo 前五;GLM-5.2 得 1261 分耗时 16.3 分钟,为开源模型最佳;MiniMax-M3 得 1113 分。已下架的 Claude Fable 5 约需 28.5 分钟。工具调用仅占耗时 12%,其余由输出冗余、回合数和推理速度决定。

智能体AnthropicOpenAI推理
06:23
elvis@omarsar0
46
Eric Xing论文定义智能体"五维度"框架

Elvis Saravia 推荐一篇试图明确“智能体”定义的论文。Eric Xing 及其同事从哲学与科幻视角出发,分析智能体架构的五维度:目标、身份、决策、自我调节和学习。论文指出,真正“智体性”需这些维度以特定方式组合,从而区分自动化与智能体。论文地址:arxiv.org/abs/2606.23991。

智能体论文/研究
05:50
Rohan Paul@rohanpaul_ai
42
前高盛高管Raoul Pal:智能体AI将吞噬传统软件/SaaS

前高盛高管Raoul Pal在访谈中指出,若产品仅是软件,智能体AI可随时复刻、优化并重新部署。他将智能体AI比作专家网站Fiverr,能自动完成建站、编码、域名注册、品牌策划、营销及邮件列表等全流程。他设想用户只需对AI说“把Steven的网站做得更好”,AI便能在3分钟内完成。这引发了关于AI将吞噬软件、软件创业者未来出路的讨论。

智能体大佬观点现象/趋势
05:46
ClaudeDevs@ClaudeDevs
41
当 Claude 与四人一同在频道中工作时,它使用谁的凭证? 答案:它自己的。标注 Claude 时,Claude 会像其他队友一样被配置,拥有自己的凭证。 我们将这种访问模型称为"智能体身份"。其工作原理如下: 🧵
智能体Anthropic教程/实践
03:53
elvis@omarsar0
43
这是 Google 的一次酷发布。 我开始在智能体循环/长时间运行任务中大量依赖计算机使用,并且需要更强大的计算机使用模型,同时保持低成本。不确定 Gemini 3.5 Flash 的效率如何,但我感谢有替代方案。

Google AI Studio: http://x.com/i/article/2069789657777225729

智能体Google产品更新
03:50
swyx 🔜 @aiDotEngineer@swyx
52
swyx 在 Data+AI Summit 采访 Databricks 联合创始人:智能体云与开放基础设施

swyx 在 Data+AI Summit 上采访了 Databricks 联合创始人 Matei Zaharia 和 Reynold Xin。访谈亮点包括:Databricks 为何击败 Snowflake;行业正纷纷构建“元 harness”(共享智能体框架);LTAP 与 Lakebase 重新思考操作型与分析型数据库划分,解决 HTAP 愿景;Omnigent 为编码智能体和自定义智能体提供统一框架;智能体安全需要上下文策略与支出控制;MosaicML 与 DBRX 的后续;在 1750 亿美元大公司中维持研究/创业文化;以及在智能体云竞赛中数据库、操作系统与网络的重要性。核心观点:未来软件只需让数据就绪,智能体置于其上。

Latent.Space: Why the Frontier Ecosystem must be Open - Matei Zaharia and Reynold Xin, Databricks https://www.latent.space/p/databrick...

智能体大佬观点数据/训练
03:13
🚨 AI News | TestingCatalog@testingcatalog
66
Google 为 Gemini 3.5 Flash 新增 Computer Use 能力,作为内置工具支持智能体计算机操作任务。该模型在 OSWorld-Verified 基准上取得 78.4 分,为谷歌迄今最佳性能。Computer Use 可跨浏览器、移动和桌面环境推理与执行,自动化工单提交等工作流程。

Omar Sanseviero: Excited to introduce Computer Use support for Gemini 3.5 Flash!🔥 This enables Gemini to reason and act across platforms...

智能体Google产品更新
02:19
Nathan Lambert@natolambert
68
如何训练出在终端和编码方面能力强大的小型智能体模型?现宣布推出 OpenThoughts-Agent 和 OpenThinkerAgent-32B,这是基于 Qwen-3 的最强开放数据智能体模型,在 7 项智能体基准测试中平均得分 44.8%。Nathan Lambert 表示这是急需的数据发布,很兴奋。

Richard Zhuang: How can we train small agentic models that are highly capable of terminal use and coding? Announcing OpenThoughts-Agent ...

智能体开源生态模型发布编码
02:13
AYi@AYi_AInotes
58
Prompt Engineering已死,Loop Engineering接棒

推文认为Prompt Engineering终结,Loop Engineering取而代之。典型场景:@karpathy晚上设好研究循环,自动改脚本、跑测试、保留正确结果、丢弃错误,人睡觉机器跑。四大支柱均来自生产环境:1)硬性退出条件与独立验证,防止模型“自认为完成”;2)上下文当有限预算管理,定期压缩、用子Agent隔离子任务;3)工具少而精、可安全重试、错误信息可读;4)Maker-Checker模式(如Claude Code已用),干活与检查分离。@bcherny总结:不再prompt Claude,而是写loops让它们跑。模型正成为标准件,工程价值转向长期自治系统设计。

Akshay 🚀: http://x.com/i/article/2069072431252434944

智能体大佬观点现象/趋势
01:49
Rohan Paul@rohanpaul_ai
59
Runlayer宣布获得Felicis和Khosla Ventures共同投资的3000万美元融资。Runlayer主张AI智能体不应像普通员工一样用密码登录公司工具,而应拥有独立身份、作用域权限、经批准的应用连接、完整审计追踪和一个终止开关,即提供一套完整的管理基础设施。Runlayer将自己定位为AI的金色路径:在一个平台内整合赋能、安全与控制。

Andy Berman: Today, we're announcing Runlayer has raised $30M from Felicis and Khosla Ventures to help companies go all in on AI. Run...

智能体MCP/工具行业动态
01:43
🚨 AI News | TestingCatalog@testingcatalog
66
ClickUp 发布 Brain2,完全重造其 AI 大脑,使其成为可跨整个工作区行动的上下文感知 AI 同事。用户可在同一订阅下运行所有前沿模型,所有模型具备全公司上下文。Brain 可为每一步自动选择最佳模型,并能在任务中切换。引用显示,团队已接近 5:1 智能体与人员比例,采用 token 节省策略,并利用流程挖掘智能体处理每天约 10 万条活动项。Brain2 会基于实时上下文和用户反馈动态重写系统提示,实现个性化 AI。

Zeb Evans: The 100x org went viral. Half the internet hated it. The other half was curious. One month later: output is up. producti...

智能体产品更新
01:22
AK@_akhaliq
52
Qwen-AgentWorld 为通用智能体设计的语言世界模型
智能体论文/研究
01:18
Berryxia.AI@berryxia
61
Matt Pocock 发布 /loop-me 技能:用"严苛面试法"梳理工作循环,输出可执行规范

Matt Pocock 推出 /loop-me 技能,旨在帮你梳理日常工作中的重复“循环”。它采用“严苛面试法”逐一追问直到模糊点消除,最终输出清晰的 workflows/.md 规范文件,任何实施者(人类或AI)看完即可执行。核心包括定义 Trigger、Checkpoint、输出等要素,确保达到“完成的定义”。技能目前仍处于进行中状态,但已可直接使用。它强调先打磨工作流程,使之能被 AI 精确理解,从而降低认知负荷,将重复劳动真正委托出去。

Matt Pocock: New in-progress skill: /loop-me Interviews you about your work and finds opportunities for delegating your day-to-day wo...

智能体GitHub教程/实践编码
01:18
Berryxia.AI@berryxia
同事件精选78
Qwen-AgentWorld:原生语言世界模型,模拟7种Agent环境并超越Claude Opus 4.8和GPT-5.4

Qwen-AgentWorld是一个原生语言世界模型,端到端以环境建模为训练目标,而非事后适配。它在单一模型中模拟MCP、Search、Terminal、SWE、Web、OS、Android等7种Agent环境,并在AgentWorldBench上超越Claude Opus 4.8和GPT-5.4。两个探索方向:1)将世界模型用作可控Sim RL的环境模拟器,模拟环境训练的Agent在部分任务上超过真实环境训练;2)仅做环境预测(不进行Agent训练)的预测能力零微调迁移到多轮Agent任务,在多个benchmark上均有提升。已开源35B MoE版本及对应benchmark。

Qwen: 📣📣 Meet Qwen-AgentWorld - a native language world model that simulates 7 agent environments (MCP, Search, Terminal, SW...

智能体开源生态模型发布
同一事件,精选展示《Qwen-AgentWorld:面向通用智能体的语言世界模型》
推荐理由:这是我最近看到最有想法的Agent方向探索,直接从环境建模入手,而不是让模型死记硬背操作,且零样本迁移能力很惊艳,做Agent的开发者必读。
01:18
Berryxia.AI@berryxia
47
Emil Kowalski 设计工程技能安装量破10万

Emil Kowalski 的 /emil-design-eng 技能安装量突破 10 万次,近期陆续开发更多细分设计工程 skills,目标是让 agent 输出更精准可控。他重点投入测试环节,反复验证答案的正确性与一致性,这是打造高质量 agent skills 最难也最关键的一环。

智能体大佬观点
00:23
elvis@omarsar0
64
Elvis Saravia:完全用语音与AI智能体交互,而非打字提示

作者从打字提示转向完全用语音与AI智能体交互,发现通过音频能提供更丰富的细节,语音越长越详细,结果越好。这种交互方式还能并行化更多工作,让智能体执行更长时间任务。作者开发了新功能:录制屏幕、截图、追踪鼠标动作、用语音标注解释智能体难以处理的设计和精确功能开发。结论是提示模态越丰富,智能体结果越可靠,虽然消耗更多token成本更高,但可靠性值得。这些模式可存储为可重用技能,效果天差地别。

智能体多模态大佬观点
00:18
Berryxia.AI@berryxia
67
EverOS HyperMem超图记忆架构:ACL 2026发表,27B模型性能追平397B

ACL 2026发表的EverOS推出HyperMem超图记忆架构,替代传统向量RAG。长期对话召回率达93%(RAG约45%)。27B参数模型借助记忆与Skills自进化策略,任务成功率提升234.8%,性能追平397B模型。本地优先,记忆存为Markdown文件,支持Git版本控制与Obsidian。三行命令安装,Apache 2.0开源,GitHub获7200星,兼容Claude Code、Codex等Agent框架。

智能体开源/仓库编码
00:18
Berryxia.AI@berryxia
57
Google Gemini桌面版推出Speak to Window和Magic Pointer,将AI注入macOS系统层

Google Gemini桌面版新增两大功能:Speak to Window允许用户在任意窗口按住fn键语音指挥Gemini写邮件、写文档、生成图片,操作在当前应用内完成;Magic Pointer可圈选屏幕信息,让Gemini理解上下文后执行编辑、总结或创建任务。目标是把Gemini变成系统级上下文感知助手,抢占工作流入口。

智能体Google产品更新语音
6月24日
23:49
swyx 🔜 @aiDotEngineer@swyx
19
受 @karpathy 言论启发,阐述为什么你应该从事 AI 智能体工作。

swyx 🔜 @aiDotEngineer: Inspired by @karpathy's words on why you - yes YOU - should work on AI Agents

智能体大佬观点
23:45
Ethan Mollick@emollick
64
Anthropic 的 Claude Tag 让企业成员共享同一 Claude 实例,使其能异步自主行动、吸收隐性知识,从工具变为"同事"。这带来严重锁效应:团队无法查看或编辑 Claude 的独立记忆,解雇 Claude 会导致工作流和隐性知识丢失。定价按 token 计费,Claude 可无限制工作,企业难以像工具那样管控成本,token 预算耗尽将全员停工。此外,Claude 接入私有频道可能访问用户无权限的仓库和工具,引入新安全风险。AI 公司正从争夺 IT 预算转向争夺劳动力支出,Claude Tag 是这一转型的里程碑。

Arvind Narayanan: The new Claude Tag feature seems extremely useful, but at the same time, a dangerous bargain for enterprises because of ...

智能体Anthropic大佬观点安全/对齐
23:34
向阳乔木@vista8
56
Vista:连续追问AI三次可改善文章质量

Vista分享经验:将3小时播客访谈交由AI生成文章时,通过连续追问“还有什么细节需要补充?”(约三次)能有效补全遗漏细节,显著改善输出质量,使文章更具故事性。她建议将这一追问流程封装为Agent Skill,以便复用。

智能体教程/实践
23:23
elvis@omarsar0
48
沉迷于我们新的 /learn 技能。 这是我最喜欢的学习和研究主题的方式。 该智能体创建学习计划和学习中心(artifact),根据学习者的需求和进度进行调整。
智能体产品更新
22:36
Google DeepMind@GoogleDeepMind
50
DeepMind 播客探索 AI 智能体经济与群体思维

Google DeepMind 发布播客,由 @weballergy 与 @fryrsquared 共同探讨 AI 智能体经济的崛起。内容涵盖:AI 智能体的定义、在科研中的探索、智能体间的委托与协作、安全风险与陷阱、如何构建智能体经济、认知单一文化(群体思维)风险,以及分布式智能的解决方案。播客还设有详细时间戳分段,帮助听众聚焦不同话题。

智能体DeepMindGoogle现象/趋势
21:19
StepFun@StepFun_ai
38
阶跃星辰的 Step Plan 后端采用 flat 计费模式(非按每次 API 调用计费),专为 AI 智能体工作流设计。开发者 @codedailyML 将 Claude Code 连接该后端后,不到 5 分钟即可开始运行,可自由实验而无需担心每次 API 调用的成本。主推文展示了 Step Plan 支持塔罗牌生成等 demo,强调只需一次连接即可持续构建。

Z-Coder: I used to dread heavy testing days because every API call felt like watching money disappear in real time. Found a backe...

智能体行业动态
19:30
Chubby♨️@kimmonismus
63
主动式 AI 智能体 Vida 今日正式推出。它可完全在本地运行,自动跨会话保持上下文,并在用户提出请求前主动起草工作成果。团队以 #BuildInPublic 方式公开构建 100 个典型用例,首批 5 个已上线。创始人表示,在至少 20 个用例达到可靠交付前不会商业化。Vida 定位于解决 Slack 消息泛滥、网页标签切换、手动总结文档会议等现代工作流痛点,强调"未来 AI 不是更好的对话,而是更好的结果"。免费体验地址:vida.app。

Vida: Today, we're launching Vida. A proactive agent that understands context, remembers what matters, anticipates intent, and...

智能体产品更新端侧
18:22
Alibaba Cloud@alibaba_cloud
69
Qwen-AgentWorld 超越 Claude Opus 4.8 和 GPT-5.4

阿里云发布 Qwen-AgentWorld,一个原生语言世界模型,可在单一模型内模拟 7 种智能体环境(MCP、搜索、终端、SWE、Web、OS、Android),环境建模是其初始训练目标而非事后适配。该模型

智能体MCP/工具模型发布
18:16
Orange AI@oran_ge
54
Cola Seed 2.1 Pro 上线,最强多模态模型

Cola 刚刚上线了最新的 Seed 2.1 Pro 原生多模态模型,号称目前多模态最强模型。相比 2.0 版本,该模型显著增强了 coding 和 Agent 能力。具体评测细节可参考藏师傅的文章。体验地址:colaos.ai。

歸藏(guizang.ai): http://x.com/i/article/2069421203073490944

智能体多模态模型发布编码
18:12
Qwen@Alibaba_Qwen
76
通义千问发布Qwen-AgentWorld原生语言世界模型

通义千问发布Qwen-AgentWorld,一款原生语言世界模型,可在单一模型中模拟MCP、搜索、终端、SWE、Web、OS、Android共7种智能体环境。环境建模即训练目标,非事后适配。该模型在AgentWorldBench上性能超越Claude Opus 4.8和GPT-5.4。研究分两条路径:一是构建环境模拟基础模型;二是探索世界模型增强智能体训练——可控Sim RL(以LWM为环境的智能体强化学习)优于真实环境训练,而LWM预热(预测环境的学习)即使不经任何智能体特定微调,也能将预测知识迁移至智能体任务。

智能体arXivMCP/工具模型发布
关联讨论 4 条Hacker News 热门(buzzing.cc 中文翻译)HuggingFace Daily Papers(社区热门论文)公众号:通义实验室(千问)Qwen:Blog Retrieval(API)
16:18
Berryxia.AI@berryxia
50
Anthropic内部演讲:99%工程师运行300+自改进agent swarm

Anthropic内部透露,99%工程师运行300+自改进agent swarm。核心是“close the loop”——模型自验证输出,包含计划、动态工作流、自我检查并迭代。效果远超多数300美元agent课程,但token消耗更高。

智能体Anthropic大佬观点
15:49
StepFun@StepFun_ai
59
阶跃星辰针对AI智能体开发中的计费痛点推出Step Plan,并与Step 3.7 Flash模型搭配,在真实Claude Code环境中测试。引用的开发者推文指出,每次API调用都在屏幕角落显示费用数字,导致他分心、停止测试新模型;而固定费率后端解决了这一问题。Step Plan正是阶跃星辰为减少这种干扰而做的尝试,让开发者更专注于构建。

Chidanand Tripathi: I almost stopped testing new models altogether. Not because they were bad. Because every call left a number climbing in ...

智能体产品更新编码
15:37
eric zakariasson@ericzakariasson
24
有趣地观察到Anthropic从以最佳模型为护城河转向构建工具生态系统,与常见开发和非开发工作流进行恰当集成。如果我是CTO,我只会要一个Slack集成,可以在任何时候切换模型……以避免锁定。主推文:在Slack中与模型无关的智能体。

Gergely Orosz: Interesting to observe Anthropic going from the moat being the best model to building a tooling ecosystem with right int...

智能体Anthropic大佬观点
15:04
数字生命卡兹克@Khazix0918
63
体验微信小微Agent:微信有史以来最大更新,但智能与便捷仍有不足

微信小微Agent常驻左上角,支持语音/文本输入,基座模型为微信自研WeLM(WeLM-V4-80B MoE,激活3B)及DeepSeek。可发消息、红包、语音通话,但每一步需用户确认,且禁止批量发送、读取聊天记录、转发笔记等。已打通朋友圈(限最近2天)、公众号、视频号,支持通过小程序进行本地生活、出行、充值等操作。当前权限“只读不动”,不能删除好友或取消关注。作者认为这是微信最大更新,但在智能程度和便捷性上仍有不足。

智能体MCP/工具评测/基准
14:50
Alibaba Cloud@alibaba_cloud
60
认识 Qwen3.7-Plus,为跨 GUI 交互、工具使用和编码的多模态智能体执行而构建。从视觉输入到代码和实际任务执行,它专为长期运行的现实世界智能体工作流而设计。 今天在阿里云上试用,限时 20% 折扣。 🔗 : https://int.alibabacloud.com/m/1000414123/
智能体多模态模型发布
13:39
MiniMax (official)@MiniMax_AI
39
用户@whosamberella为学习仿人机器人知识,利用MiniMax M3进行调研,并在OpenCode中搭建了一个仿人机器人目录网站(humanoid-index-one.vercel.app)。其SVG原型不仅能展示,还能帮助学习不同仿人机器人的特征。MiniMax将其过程概括为:研究→综合→构建。

Amber Shen: I wanted to learn about humanoid robots 🤖, then decided the most reasonable thing to do was build myself a humanoid cat...

智能体教程/实践
12:20
Alibaba Cloud@alibaba_cloud
25
市场数据变化很快。你的 BI 应该更快。General Agents + Smart Q Skill Package 帮助交易者分析跨主流交易平台的跨平台数据--从 T+0 区间到价差信号以及收盘交易回顾。 博客:https://int.alibabacloud.com/m/1000414772/ Quick BI @quick68554 : https://int.alibabacloud.com/m/1000407094/ #QuickBI #SmartQ #EcommerceAnalytics #AIAnalytics #DataDriven
智能体教程/实践
12:17
宝玉@dotey
72
宝玉分享极客风 Skills 管理方式

为解决多 Agent 下 Skills 存放混乱问题,宝玉提出:Skills 只装在项目内以节省 LLM 上下文窗口;所有原件统一存放于 ~/GitHub,每个项目通过软链接指向原件,再为 Claude Code 创建 .claude/skills → .agents/skills 入口。更新只需拉取一次源码,所有项目自动同步;修复 bug 可直接反哺开源项目。用户可用自然语言让 Agent 自动创建软链接,无需记忆命令。

LinearUncle: 我快疯了。日常同时用 4个 coding agent,skills 各写各的: /.agents/skills、/.codex/skills、~/.claude/skills 已经一团浆糊,CC 里找不到 Codex 的 skill,反过来...

智能体Anthropic教程/实践编码
10:20
Alibaba Cloud@alibaba_cloud
13
阿里云FFA2026议程公布,Apache Fluss 1.0发布

阿里云宣布距FFA2026大会仅剩2天,全部11个分论坛议程已上线,覆盖7大Data+AI方向:多模态与向量计算、AI智能体、AI平台实践、智能DevOps、Agentic Lake、实时分析与实时数据。同时设汽车AI和具身AI行业专场。Apache Fluss 1.0在大会上首次亮相,具备专为AI智能体设计的实时上下文能力。大会将于6月26-27日在深圳举办。

智能体多模态开源/仓库数据/训练
10:17
Berryxia.AI@berryxia
21
出差途中用Bloome Agent自动做合同,体验"老板待遇"

用户出差在飞机上,通过Bloome Agent直接生成两份客户续费合同,无需打开电脑、无需多言。Agent还主动记忆并询问之前的报价信息,整体体验轻松愉快。用户感叹AI时代让“顶级牛马”也能享受老板般的待遇。

智能体大佬观点
09:51
小互@xiaohu
68
字节豆包专业版上线付费:68元/月起,学生特惠38元/月

豆包推出专业版,开启付费。三级阶梯定价:标准68元/月、加强200元/月、高级500元/月,额度依次递增。专注应用开发、数据分析等场景,支持办公任务模式,可操作本地电脑、调用Skills、内置Office套件。由豆包2.1Pro模型驱动。学生认证后标准套餐38元/月,活动期6个月。

智能体产品更新端侧
‹ 上一页
1…678910…50
下一页 ›