AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「Agent」清除
6月24日周三
18:00公众号:小红书技术(dots.llm)51AICon 上海 2026|小红书质效:Agent 基建的规模化落地路径
17:55The Decoder:AI News(RSS)48Claude Tag 嵌入 Slack,Anthropic 称内部 65% 的代码由该工具生成
17:50公众号:火山引擎56三大Agent开发运营产品升级,帮企业建好"1+N+X"Agent体系
17:44IT之家(RSS)57仅需 @ 即可调用:Anthropic 推出 AI 虚拟团队成员 Claude Tag
16:44IT之家(RSS)39荣耀产品线总裁方飞:7月将发布下一代终端操作系统AgenticOS
16:18Berryxia.AI50Anthropic内部演讲:99%工程师运行300+自改进agent swarm
15:49StepFun59阶跃星辰Step Plan应对Agent计费痛点
15:37eric zakariasson24Anthropic推Slack集成 可切换模型避锁定
15:04数字生命卡兹克63体验微信小微Agent:微信有史以来最大更新,但智能与便捷仍有不足
14:50Alibaba Cloud60阿里云发布Qwen3.7-Plus多模态智能体
14:30公众号:千问APP(阿里)54超1400万人,正在和千问聊高考
13:39MiniMax (official)39MiniMax M3与OpenCode构建仿人机器人目录
12:42IT之家(RSS)66阿里千问发布首个原生语言世界模型 Qwen-AgentWorld
12:20Alibaba Cloud25Quick BI + Smart Q 助交易者跨平台分析
12:17宝玉72宝玉分享极客风 Skills 管理方式
11:55HuggingFace Daily Papers(社区热门论文)70精选NatureBench:AI编码智能体能否匹配Nature系列论文已发表SOTA?
11:55HuggingFace Daily Papers(社区热门论文)49EDV:逃离自我确认陷阱的"执行-蒸馏-验证"智能体经验学习框架
11:54Qwen:Blog Retrieval(API)81精选Qwen-AgentWorld:面向通用智能体的语言世界模型
11:40公众号:通义实验室(千问)74Qwen-AgentWorld 开源:让 Agent 学会"先预测,再行动"
11:20公众号:卡尔的AI沃茨65实测Codex Record & Replay:把RPA自动化工作流重做了一遍
10:49HuggingFace Daily Papers(社区热门论文)61OpenThoughts-Agent:开源数据流水线训练智能体模型
10:49HuggingFace Daily Papers(社区热门论文)76Qwen-AgentWorld:用于通用智能体的语言世界模型
10:49HuggingFace Daily Papers(社区热门论文)57ReMMD:面向多模态虚假信息检测的现实多语言多图像智能体验证框架
10:20Alibaba Cloud13阿里云FFA2026议程公布,Apache Fluss 1.0发布
10:17Berryxia.AI21出差途中用Bloome Agent自动做合同,体验"老板待遇"
10:10公众号:数字生命卡兹克63同事件精选微信上线AI智能体"小微"内测同一事件,精选展示《微信Agent小微灰度内测:主入口发消息红包,子入口可读聊天记录》
09:51小互68字节豆包专业版上线付费:68元/月起,学生特惠38元/月
09:27IT之家(RSS)63豆包正式推出专业版,连续包月68元起、最高500元
09:10公众号:豆包(字节)77精选今天,豆包正式推出专业版
08:45TechCrunch:AI(RSS)59印度 MoEngage 全现金收购 Aampe,押注 AI 智能体营销未来
08:44meng shao51Apodex深度研究测试:AI Agent公司如何选择产品方向
08:18ginobefun43BestBlogs 早报:Claude Tag 智能体身份、AI 编码代价、Harness 架构
08:18ginobefun37BestBlogs 06-24早报:智能体身份、Seed2.1、M3等
08:17Berryxia.AI47Claude Tag:在Slack里@Claude让它当团队成员干活
08:00HuggingFace Daily Papers(社区热门论文)56多步工具使用的强化学习为何崩溃以及监督信号如何修复它
08:00HuggingFace Daily Papers(社区热门论文)51验证地平线:编程智能体奖励无银弹
08:00HuggingFace Daily Papers(社区热门论文)64进展优势:后训练中被忽视的免费午餐--面向LLM智能体的步骤级评分信号
07:17Berryxia.AI54GLM-5.2 火出圈,Flowith Matrix 接入并送 1000 万 tokens
06:51Andrej Karpathy55Claude Tag 面世:AI 以团队成员身份嵌入 Slack
06:09Google AI Developers60Gemini Interactions API:统一端点加速开发
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月24日
18:00
公众号:小红书技术(dots.llm)
51
AICon 上海 2026|小红书质效:Agent 基建的规模化落地路径

小红书质效研发团队在 AICon 上海 2026 公布两项 Agent 基础设施实践。Self-GC 系统通过 ContextObject 对象化建模与三阶段提交机制(Async Plan、Rehearsal、Delayed Commit),将上下文转为可索引的生命周期管理,生产环境实现 10%-20% 输入 Token 下降且保持 90%+ 无影响率。Seal 企业级 AI 个人助理依托 NEX 沙箱实现运行时隔离,结合 Self-GC 与 SealRouter(Auto 模型路由)达成成本减半,并采用 L0-L2 分层记忆体系构建可溯源知识闭环,从 3 天内测到两周完成全员覆盖。

智能体MCP/工具教程/实践
17:55
The Decoder:AI News(RSS)
48
Claude Tag 嵌入 Slack,Anthropic 称内部 65% 的代码由该工具生成

Anthropic 推出 Claude Tag,允许团队在 Slack 任意频道中通过 @Claude 标记并分配任务。该公司表示,其内部产品团队已有 65% 的代码由该工具生成。

智能体Anthropic产品更新编码
17:50
公众号:火山引擎
56
三大Agent开发运营产品升级,帮企业建好"1+N+X"Agent体系

火山引擎在FORCE大会上提出企业Agent落地“1+N+X”体系:“1”是AgentSphere数字员工派遣站,“N”是开箱即用应用,“X”是基于TRAE、扣子、HiAgent持续进化的业务应用。TRAE企业版上线TRAE Work,实现一个账号切换IDE与办公端、一个后台统一管理,内部开发94%代码由AI贡献。亚信科技应用后单人日均节省约1.8小时,代码贡献率提升42%,千行代码缺陷率降低35%。扣子升级3.0,强化多端协同与行业知识沉淀。HiAgent 3.0构建开发-运行-管理闭环,引入Learning Loop实现Agent持续进化。某车企经AgentSphere统一纳管后,活动筹备周期从4周压缩至5个工作日,效率提升约3.5倍。

智能体产品更新部署/工程
17:44
IT之家(RSS)
57
仅需 @ 即可调用:Anthropic 推出 AI 虚拟团队成员 Claude Tag

Anthropic 于当地时间 6 月 23 日推出 AI 虚拟团队成员 Claude Tag,是 Claude Code 的演进版本,更主动且适合团队协作。Claude Tag 率先在 Slack 上推出,用户可在频道中 @Claude 委派任务。工具支持多人协作、自主学习、异步运行,并能主动追踪信息与任务。Anthropic 产品团队 65% 的代码由 Claude Tag 内部版本生成,应用场景已从工程扩展到数据追踪、客户服务。

智能体Anthropic产品更新
16:44
IT之家(RSS)
39
荣耀产品线总裁方飞:7月将发布下一代终端操作系统AgenticOS

荣耀产品线总裁方飞在MWC26上海宣布,荣耀将于今年7月发布以人为中心的下一代终端操作系统AgenticOS。该系统具备意图驱动(以意图为中心而非应用)、自然交互(声音、手势、眼神等)、主动智能(Agent内核,主动规划/服务/执行)及天生跨端(一脑调度万端,多设备多Agent协同)四大特性。此外,年初发布的“机器人手机”Robot Phone预计今年下半年上市,搭载行业最小的4DoF云台系统,体积比主流方案缩小70%。

智能体产品更新多模态端侧
16:18
Berryxia.AI@berryxia
50
Anthropic内部演讲:99%工程师运行300+自改进agent swarm

Anthropic内部透露,99%工程师运行300+自改进agent swarm。核心是“close the loop”——模型自验证输出,包含计划、动态工作流、自我检查并迭代。效果远超多数300美元agent课程,但token消耗更高。

智能体Anthropic大佬观点
15:49
StepFun@StepFun_ai
59
阶跃星辰针对AI智能体开发中的计费痛点推出Step Plan,并与Step 3.7 Flash模型搭配,在真实Claude Code环境中测试。引用的开发者推文指出,每次API调用都在屏幕角落显示费用数字,导致他分心、停止测试新模型;而固定费率后端解决了这一问题。Step Plan正是阶跃星辰为减少这种干扰而做的尝试,让开发者更专注于构建。

Chidanand Tripathi: I almost stopped testing new models altogether. Not because they were bad. Because every call left a number climbing in ...

智能体产品更新编码
15:37
eric zakariasson@ericzakariasson
24
有趣地观察到Anthropic从以最佳模型为护城河转向构建工具生态系统,与常见开发和非开发工作流进行恰当集成。如果我是CTO,我只会要一个Slack集成,可以在任何时候切换模型……以避免锁定。主推文:在Slack中与模型无关的智能体。

Gergely Orosz: Interesting to observe Anthropic going from the moat being the best model to building a tooling ecosystem with right int...

智能体Anthropic大佬观点
15:04
数字生命卡兹克@Khazix0918
63
体验微信小微Agent:微信有史以来最大更新,但智能与便捷仍有不足

微信小微Agent常驻左上角,支持语音/文本输入,基座模型为微信自研WeLM(WeLM-V4-80B MoE,激活3B)及DeepSeek。可发消息、红包、语音通话,但每一步需用户确认,且禁止批量发送、读取聊天记录、转发笔记等。已打通朋友圈(限最近2天)、公众号、视频号,支持通过小程序进行本地生活、出行、充值等操作。当前权限“只读不动”,不能删除好友或取消关注。作者认为这是微信最大更新,但在智能程度和便捷性上仍有不足。

智能体MCP/工具评测/基准
14:50
Alibaba Cloud@alibaba_cloud
60
认识 Qwen3.7-Plus,为跨 GUI 交互、工具使用和编码的多模态智能体执行而构建。从视觉输入到代码和实际任务执行,它专为长期运行的现实世界智能体工作流而设计。 今天在阿里云上试用,限时 20% 折扣。 🔗 : https://int.alibabacloud.com/m/1000414123/
智能体多模态模型发布
14:30
公众号:千问APP(阿里)
54
超1400万人,正在和千问聊高考

自6月7日高考至今,千问上高考相关咨询量持续走高,累计咨询人数超过1400万,近期连续5日增长超过100%。考生和家长最关心就业前景(如“未来最不容易失业的专业”)和校园环境(如“宿舍别太差”)。基于千问高考志愿大模型和夸克8年数据经验,千问支持高考志愿报告、志愿日历、志愿问答等能力,可免费生成定制化志愿报告。团队已提前备好算力资源,以应对接下来20多个省份集中出分的咨询高峰。

智能体行业动态
13:39
MiniMax (official)@MiniMax_AI
39
用户@whosamberella为学习仿人机器人知识,利用MiniMax M3进行调研,并在OpenCode中搭建了一个仿人机器人目录网站(humanoid-index-one.vercel.app)。其SVG原型不仅能展示,还能帮助学习不同仿人机器人的特征。MiniMax将其过程概括为:研究→综合→构建。

Amber Shen: I wanted to learn about humanoid robots 🤖, then decided the most reasonable thing to do was build myself a humanoid cat...

智能体教程/实践
12:42
IT之家(RSS)
66
阿里千问发布首个原生语言世界模型 Qwen-AgentWorld

6 月 24 日,阿里巴巴千问发布 Qwen-AgentWorld,首个原生语言世界模型,提供 35B-A3B 与 397B-A17B 两种规模,单一模型覆盖 MCP、Search、Terminal、SWE、Web、OS、Android 七大智能体交互领域。模型基于超 1000 万条真实环境交互轨迹,经 CPT → SFT → RL 三阶段训练。同步发布的 AgentWorldBench 评测中,Qwen-AgentWorld-397B-A17B 取得最高整体模拟质量,超越 GPT-5.4、Claude Opus 4.8 与 Gemini 3.1 Pro。模型与评测基准已开源,可从 Hugging Face 和 ModelScope 获取。

智能体Hugging Face模型发布
12:20
Alibaba Cloud@alibaba_cloud
25
市场数据变化很快。你的 BI 应该更快。General Agents + Smart Q Skill Package 帮助交易者分析跨主流交易平台的跨平台数据--从 T+0 区间到价差信号以及收盘交易回顾。 博客:https://int.alibabacloud.com/m/1000414772/ Quick BI @quick68554 : https://int.alibabacloud.com/m/1000407094/ #QuickBI #SmartQ #EcommerceAnalytics #AIAnalytics #DataDriven
智能体教程/实践
12:17
宝玉@dotey
72
宝玉分享极客风 Skills 管理方式

为解决多 Agent 下 Skills 存放混乱问题,宝玉提出:Skills 只装在项目内以节省 LLM 上下文窗口;所有原件统一存放于 ~/GitHub,每个项目通过软链接指向原件,再为 Claude Code 创建 .claude/skills → .agents/skills 入口。更新只需拉取一次源码,所有项目自动同步;修复 bug 可直接反哺开源项目。用户可用自然语言让 Agent 自动创建软链接,无需记忆命令。

LinearUncle: 我快疯了。日常同时用 4个 coding agent,skills 各写各的: /.agents/skills、/.codex/skills、~/.claude/skills 已经一团浆糊,CC 里找不到 Codex 的 skill,反过来...

智能体Anthropic教程/实践编码
11:55
HuggingFace Daily Papers(社区热门论文)
精选70
NatureBench:AI编码智能体能否匹配Nature系列论文已发表SOTA?

NatureBench是一个跨学科基准测试,包含90个从Nature系列同行评审论文中提取的任务,用于评估AI编码智能体能否超越复现、实现发现。基准基于NatureGym自动化管线,为每个任务提供标准化容器化环境,解决环境碎片化问题。在严格禁用网络搜索的协议下评估10种前沿智能体配置,最强模型仅在17.8%任务上超过已发表SOTA(g>0.1准则)。分析表明,智能体成功主要依赖方法论翻译,失败主因为方法选择错误和计算预算不足。已发布基准、NatureGym管线及公共排行榜。

智能体GitHub开源生态评测/基准

推荐理由:这个基准把AI agent丢进Nature论文的复现池里游了一圈,发现最强的配置也只能在17.8%的任务上超越SOTA,而且靠的是方法翻译而非发明——对做科研agent的团队来说,既是冷水也是路线图。
11:55
HuggingFace Daily Papers(社区热门论文)
49
EDV:逃离自我确认陷阱的"执行-蒸馏-验证"智能体经验学习框架

大语言模型智能体在开放世界交互中自我进化时,单智能体循环易陷入自我确认陷阱——将错误但自洽的轨迹误判为成功,导致错误累积。EDV 框架将经验学习解耦为执行、蒸馏、验证三阶段:多异构智能体并行探索产生多样化轨迹;第三方智能体对比分析减少归纳偏差;执行组通过共识机制验证候选经验,仅批准内容写入记忆。在 tau2-bench、Mind2Web 和 MMTB 三个长周期基准上,EDV 持续超越强基线,验证了可靠经验构建对鲁棒自我演化的关键作用。代码已开源。

智能体Hugging Face开源/仓库论文/研究
11:54
Qwen:Blog Retrieval(API)
精选81
Qwen-AgentWorld:面向通用智能体的语言世界模型

Qwen 团队发布 Qwen-AgentWorld,一个以环境建模为训练目标的原生语言世界模型,在单个模型中模拟 MCP、Search、Terminal、SWE 及 GUI 域(Web、OS、Android)共七个域。模型使用超 1000 万条真实交互轨迹训练,在 AgentWorldBench 上以 Qwen-AgentWorld-397B-A17B 版本达最高模拟质量,超越 GPT-5.4、Claude Opus 4.8 和 Gemini 3.1 Pro。同时发布评测基准 AgentWorldBench。该模型可作为解耦环境模拟器用于智能体 RL 训练,也可作为统一智能体基础模型,经 LWM 预热后无需智能体 RL 微调即可迁移。模型和基准已开源在 Hugging Face 和 ModelScope。

智能体arXivHugging FaceMCP/工具
关联讨论 3 条X:通义千问 / Qwen (@Alibaba_Qwen)Hacker News 热门(buzzing.cc 中文翻译)X:Berry Xia (@berryxia)
推荐理由:Qwen把世界模型做成了一个可开源的通用产品,覆盖七域,做agent RL的可以直接拿它仿真训练,可控性甚至超过真实环境,做agent的团队应该认真看看。
11:40
公众号:通义实验室(千问)
74
Qwen-AgentWorld 开源:让 Agent 学会"先预测,再行动"

通义千问推出首个原生语言世界模型 Qwen-AgentWorld,覆盖 MCP、Search、Terminal、SWE、Web、OS、Android 七大领域。模型基于超 1000 万条真实交互轨迹,经 CPT→SFT→RL 三阶段训练,在 AgentWorldBench 上超越 GPT-5.4(58.25)和 Claude Opus 4.8,Qwen-AgentWorld-397B-A17B 取得 58.71 分。两种范式已验证其能力:作为解耦环境模拟器实现可控 Sim RL,在 WideSearch 上超越真实环境 RL(F1 50.3% vs 45.6%);作为智能体基础模型,LWM 预热可迁移至七个基准(三个完全未出现在训练集中)。模型与评测基准已开源。

智能体推理模型发布
关联讨论 3 条X:通义千问 / Qwen (@Alibaba_Qwen)Hacker News 热门(buzzing.cc 中文翻译)X:Berry Xia (@berryxia)
11:20
公众号:卡尔的AI沃茨
65
实测Codex Record & Replay:把RPA自动化工作流重做了一遍

Codex新功能Record & Replay可将浏览器操作录制成可复用的Skill。实测解决两个痛点:定向信息搜索时自动打开X搜热点、统计高赞帖子、提取关键词重新查询,输出带互动指标的表格和短关键词库,满足60%-70%图文素材需求;视频剪辑上传能完成静音检测、加速、导出GIF等固定流程,但上传可能被网站安全策略拦截,建议先让Codex出Plan判断可行性。Codex能理解意图,例如自动在输入Grok前增加中文关键词组合。目前依赖Computer Use和图片理解,操作慢且偶有误判,但已能将人的操作转化为Agent下次可执行的上下文,替代传统RPA和Replay。

智能体OpenAI搜索教程/实践
10:49
HuggingFace Daily Papers(社区热门论文)
61
OpenThoughts-Agent:开源数据流水线训练智能体模型

OpenThoughts-Agent(OT-Agent)项目提出一套完全开源的数据 curation 流水线,专门用于训练智能体模型。研究团队通过 100 余项对照消融实验,系统探索了任务来源与多样性的影响,并构建了包含 10 万条样本的数据集。基于该数据集微调 Qwen3-32B 后,模型在 7 项智能体基准测试中平均准确率为 44.8%,比现有最强的开源数据智能体模型 Nemotron-Terminal-32B(40.9%)高 3.9 个百分点。训练数据展现出强扩展性,同等计算资源下各数据规模均优于其他开源数据集。所有数据、流水线、实验记录及模型已在 openthoughts.ai 公开发布。

智能体Hugging Face开源生态数据/训练
10:49
HuggingFace Daily Papers(社区热门论文)
76
Qwen-AgentWorld:用于通用智能体的语言世界模型

Qwen-AgentWorld-35B-A3B和Qwen-AgentWorld-397B-A17B是首批能通过长链式推理模拟7个领域智能体环境的语言世界模型。它们基于超过1000万条真实环境交互轨迹,经连续预训练(注入状态转移与专业语料)、监督微调(激活下一状态预测推理)和强化学习(混合规则与评分奖励提升仿真保真度)三阶段训练而成。配套基准AgentWorldBench利用5个前沿模型在9个已建立基准上的真实交互构建,实验表明Qwen-AgentWorld显著优于现有前沿模型。该模型既可充当解耦环境模拟器支持智能体强化学习,也可作为统一智能体基础模型,通过世界模型训练预热提升下游7个智能体基准的性能。

智能体开源生态论文/研究
关联讨论 3 条X:通义千问 / Qwen (@Alibaba_Qwen)Hacker News 热门(buzzing.cc 中文翻译)X:Berry Xia (@berryxia)
10:49
HuggingFace Daily Papers(社区热门论文)
57
ReMMD:面向多模态虚假信息检测的现实多语言多图像智能体验证框架

提出ReMMD框架,包含基准ReMMDBench(500样本、2756张图片、5种单语及2种跨语言设置、多图像帖子、5类真实性标签与8类失真标签)及持久记忆验证器ReMMD-Agent。该Agent将帖子分解为原子点,构建可重用证据集,输出结构化L1/L2/L3预测。在闭源系统、开源LVLMs、MMD-Agent和T2-Agent对比中,ReMMD-Agent搭配GPT-5.2取得最佳五类真实性性能,准确率41.80%,macro-F1 39.12%,成本较MMD-Agent降低17.5%,较T2-Agent降低79.9%。项目已在HuggingFace开源。

智能体多模态论文/研究
10:20
Alibaba Cloud@alibaba_cloud
13
阿里云FFA2026议程公布,Apache Fluss 1.0发布

阿里云宣布距FFA2026大会仅剩2天,全部11个分论坛议程已上线,覆盖7大Data+AI方向:多模态与向量计算、AI智能体、AI平台实践、智能DevOps、Agentic Lake、实时分析与实时数据。同时设汽车AI和具身AI行业专场。Apache Fluss 1.0在大会上首次亮相,具备专为AI智能体设计的实时上下文能力。大会将于6月26-27日在深圳举办。

智能体多模态开源/仓库数据/训练
10:17
Berryxia.AI@berryxia
21
出差途中用Bloome Agent自动做合同,体验"老板待遇"

用户出差在飞机上,通过Bloome Agent直接生成两份客户续费合同,无需打开电脑、无需多言。Agent还主动记忆并询问之前的报价信息,整体体验轻松愉快。用户感叹AI时代让“顶级牛马”也能享受老板般的待遇。

智能体大佬观点
10:10
公众号:数字生命卡兹克
同事件精选63
微信上线AI智能体"小微"内测

微信近日内测AI智能体“小微”,常驻左上角,支持语音或文本输入,调用WeLM-V4-80B(MoE激活3B)与DeepSeek模型。可向个人/群聊发消息、发起视频通话、发红包或转账,需用户逐项确认;可查询朋友圈(限最近2天)、公众号、视频号,支持创建提醒、笔记、小工具,并能操作奶茶咖啡、打车、电影票等小程序至最后一步后交给用户。小微具备记忆功能,可记录地址等。聊天记录上下文仅在特定入口可用且限最近2天。整体策略“只读不动”,禁止批量发送、定时、删除联系人等操作。微信以谨慎节奏接入AI,是国民级应用全面拥抱AI的重要信号。

智能体搜索教程/实践
同一事件,精选展示《微信Agent小微灰度内测:主入口发消息红包,子入口可读聊天记录》
推荐理由:微信Agent内测体验一手展示,功能上打通通讯录、朋友圈和小程序,却处处需确认且只读不动,是微信在AI时代极其谨慎的第一步。不过一句话生成小工具的能力,已经为小程序生态打开了AI分发的新可能。
09:51
小互@xiaohu
68
字节豆包专业版上线付费:68元/月起,学生特惠38元/月

豆包推出专业版,开启付费。三级阶梯定价:标准68元/月、加强200元/月、高级500元/月,额度依次递增。专注应用开发、数据分析等场景,支持办公任务模式,可操作本地电脑、调用Skills、内置Office套件。由豆包2.1Pro模型驱动。学生认证后标准套餐38元/月,活动期6个月。

智能体产品更新端侧
09:27
IT之家(RSS)
63
豆包正式推出专业版,连续包月68元起、最高500元

豆包今日发布基于豆包2.1系列大模型的豆包专业版,新增办公任务模式(接入豆包2.1 Pro),支持操作本地电脑、浏览器、调用Skills技能、定时任务,内置Office办公套件,可完成Office办公、应用开发、数据分析、专业设计、流程自动化、金融分析等任务,并能创建、修改、部署带后端数据库的生产级在线应用。定价三档:标准套餐68元/月、加强200元/月、高级500元/月。大学生认证后标准套餐38元/月。免费版用户持续获得新模型更新。

智能体MCP/工具产品更新
09:10
公众号:豆包(字节)
精选77
今天,豆包正式推出专业版

豆包专业版基于豆包2.1系列大模型上线,面向复杂办公与生产力场景。办公任务模式接入可执行Agent任务的豆包2.1模型,支持操作本地电脑、浏览器、调用Skills技能、定时任务,内置Office办公套件,并可生成带后端数据库的在线应用。免费用户可体验豆包2.1 Turbo版办公任务模式,专业版接入豆包2.1 Pro模型。定价:标准套餐68元/月(连续包月),加强套餐200元/月,高级套餐500元/月。大学生认证后标准套餐38元/月,持续6个月。

智能体产品更新多模态

推荐理由:豆包专业版不是简单的会员升级,而是把Agent能力装进办公场景,操作本地电脑、生成应用这些功能,让AI从对话工具变成了真正的生产力帮手。
08:45
TechCrunch:AI(RSS)
59
印度 MoEngage 全现金收购 Aampe,押注 AI 智能体营销未来

印度客户互动软件公司 MoEngage 全现金收购旧金山初创公司 Aampe,交易金额数千万美元。Aampe 为每位客户分配专属 AI 智能体,根据个体行为而非传统人群细分实现个性化消息推送。其客户包括 Swiggy、Grab 和 Taxfix,过去一年年经常性收入增长 150%。MoEngage 计划借此争夺从 Salesforce Marketing Cloud 和 Adobe Experience Cloud 迁移的企业客户,近期已签下三到四个数百万美元年合同额订单。约 20 名 Aampe 员工将加入,MoEngage 员工总数增至约 820 人。

智能体行业动态
08:44
meng shao@shao__meng
51
Apodex深度研究测试:AI Agent公司如何选择产品方向

博主用自进化重型求解器Apodex测试“AI Agent公司如何选择产品方向”。Deep Discovery模式下,Apodex拆解为开发者工具、企业工作流、研究助手三条线,补充VC视角、市场规模等来源,持续验证后给出排序:1. 垂直企业工作流Agent(有明确买方和成本替代逻辑);2. 垂直研究助手(需针对法律、金融等高价值场景);3. 开发者工具(竞争被Codex、Cursor、Claude Code等占据)。Apodex强调先验证后下结论,适合变量多、需取舍的复杂议题。体验入口apodex.ai,Hugging Face可下载模型。

智能体推理评测/基准
08:18
ginobefun@hongming731
43
BestBlogs 早报:Claude Tag 智能体身份、AI 编码代价、Harness 架构

Anthropic 为 Claude Tag 推出智能体身份模型,Claude 在团队频道拥有独立账号,权限按频道配置可覆写,撤销身份即可终止访问。AI 编码代价方面,Meta 一次 AI 生成代码(无人工验证)导致 Instagram 密码重置漏洞,CISO 离职;Amazon 核心平台中断;GitHub 因负载增长三倍不稳定。腾讯云开发者介绍 Harness 工程:同一 LLM 换装更精巧外架构后,TerminalBench 2.0 通过率从 52.8% 升至 66.5%,排名从 30 名外进入前 5。

智能体现象/趋势编码
08:18
ginobefun@hongming731
37
BestBlogs 06-24早报:智能体身份、Seed2.1、M3等

Anthropic 为 Claude Tag 推出智能体身份访问模型,赋予 AI 独立账号体系。Meta 因 AI 生成代码未经人工复核导致 Instagram 漏洞

ginobefun: http://x.com/i/article/2069568375752445952

智能体现象/趋势编码
08:17
Berryxia.AI@berryxia
47
Claude Tag:在Slack里@Claude让它当团队成员干活

Anthropic 推出 Claude Tag,让 Claude 以团队成员身份加入 Slack。用户可指定频道和工具,通过 @Claude 委托任务(拆解任务、写 PR、跑数据分析、处理故障)。频道内一个 Claude 实例可供多人接力使用,并积累上下文;开启环境模式后,它会主动跟进沉寂线程并提醒相关信息。该功能被视为 Claude Code 的团队版进化,Anthropic 内部已大量使用。目前面向 Enterprise 和 Team 计划开放 beta 测试。

Claude: Introducing Claude Tag, a new way for teams to work with Claude. In Slack, Claude joins as a team member with access to ...

智能体AnthropicMCP/工具产品更新
08:00
HuggingFace Daily Papers(社区热门论文)
56
多步工具使用的强化学习为何崩溃以及监督信号如何修复它

大语言模型在多步工具使用的强化学习(RL)训练中常出现灾难性崩溃——模型性能骤降且工具调用结构失效。研究发现,崩溃源于特定控制 token 的概率尖峰,但底层工具使用能力并未丢失,仅被格式掩盖。研究者系统探索了离策略监督、提示引导、错误示例等多种监督信号,发现将监督微调(SFT)与 RL 交错训练可显著提升稳定性,但在格式和内容分布外(OOD)评估中性能下降。代码已开源。

智能体GitHub数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
51
验证地平线:编程智能体奖励无银弹

随着基础模型推理能力与工程框架增强,生成长代码方案已不困难,可靠验证反成瓶颈。验证器仅为人类意图的代理,意图天然欠指定,优化会拉大代理与意图差距(奖励破解或信号饱和)。论文沿可扩展性、忠实性、鲁棒性三维度刻画验证信号质量,研究测试验证器、评分标准验证器、用户验证器及自动化智能体验证器四种构造。实验表明针对性设计能抑制奖励破解、提升任务质量。核心结论:无固定奖励函数能随策略能力增长保持有效,验证必须与生成协同进化。

智能体arXiv编码论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
64
进展优势:后训练中被忽视的免费午餐--面向LLM智能体的步骤级评分信号

研究表明,强化学习后训练本身即可提供有效的步骤级评分信号,无需单独训练奖励模型。研究者在随机马尔可夫决策过程中推导出隐式优势函数——进展优势,即RL训练后策略与参考策略的对数概率比恰好还原最优优势函数。该信号无需人工标注、领域无关,且是标准RL后训练管线的副产品。在五个基准和四个模型族上,进展优势在测试时缩放、不确定性量化和失败归因三项应用中持续优于基于置信度的基线,甚至超越专门训练的奖励模型。

智能体数据/训练论文/研究
07:17
Berryxia.AI@berryxia
54
GLM-5.2 火出圈,Flowith Matrix 接入并送 1000 万 tokens

GLM-5.2 近期火爆出圈,尤其海外用户兴奋,国内用户则因抢不到 coding plan 而不爽。Flowith 的 Matrix 产品已接入智谱 GLM-5.2,提供 1M 上下文窗口,适用于 long-horizon coding、产品构建和复杂多步执行。Matrix 作为 agentic workspace,用户可直接在其中构建产品、部门、工作流甚至整个 agent 公司。所有 Matrix beta 用户可领取 1000 万免费 tokens(限时),这标志着强模型与执行环境的进一步融合,个人或小团队的能力边界被推远。

Flowith: matrix @matrix_build is partnering with @Zai_org to bring glm-5.2 directly into the hands of anyone who creates real com...

智能体产品更新编码
06:51
Andrej Karpathy@karpathy
55
Claude Tag 面世:AI 以团队成员身份嵌入 Slack

Anthropic 推出 Claude Tag,让 Claude 以团队成员身份加入 Slack 频道,可被 @提及并委派任务。团队可为其配置频道访问权限和工具,从而实现异步协作。Andrej Karpathy 评价这是 LLM UI/UX 的第三次重大重新设计:从访问网站、下载 App,演进为自包含、持久、异步的组织级实体,无缝融入人类工作流,能处理多种工作负载。

Claude: Introducing Claude Tag, a new way for teams to work with Claude. In Slack, Claude joins as a team member with access to ...

智能体AnthropicMCP/工具大佬观点
06:09
Google AI Developers@googleaidevs
60
Gemini Interactions API 是您处理文本、多模态输入、工具使用和管理智能体的统一接口,所有这些都集成在一个端点上。从提示词到产品,比以往更快。 阅读开发者指南 ⬇️ https://x.com/GoogleAIStudio/status/2069450021955592406

Google AI Studio: http://x.com/i/article/2069439163758170112

智能体GoogleMCP/工具产品更新
‹ 上一页
1…1112131415…50
下一页 ›