AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「编码」清除
5月22日周五
08:00HuggingFace Daily Papers(社区热门论文)60CoSPlay:通过自生成代码与单元测试的测试时合作自博弈
07:12Berryxia.AI70X 生态扩展,OpenCode 支持 Grok 订阅
07:12Berryxia.AI66Codex新增应用截图抓取与长期目标执行功能
06:35MarkTechPost(RSS)59Qwen推出Qwen3.7-Max:配备100万token上下文窗口的推理智能体模型
05:38小互61Codex 推出 Locked Use(锁屏使用)功能
05:30Claude Code:GitHub Releases(RSS)73精选v2.1.147版本更新
05:05🚨 AI News | TestingCatalog71Codex macOS新增Appshots功能 快速添加应用上下文
04:38宝玉67OpenAI Codex 更新:强化协作与自主执行能力
04:38宝玉64OpenAI Codex 重大更新:推出多项协作新功能
04:38Sam Altman73精选Codex今日更新,新增应用窗口截图功能
04:36swyx🛬 SFO51将Vibe代码应用转化为生产级代码库的技能实践
04:08小互58Codex新功能Appshots:一键共享工作界面给AI
04:02Greg Brockman68Codex推Appshots功能提升上下文理解
03:26Rohan Paul62Qwen 3.7 Max 的编码与智能体能力已非常接近前沿模型
02:35OpenCode75Grok订阅现已支持OpenCode平台
02:33OpenAI Developers64Codex周四更新:Appshots功能上线
02:13Alibaba Cloud75Qwen3.7-Max上线OpenRouter平台
02:11AYi72Claude Code推出用量追踪功能
02:08xAI:News(网页)67精选在OpenCode中使用Grok
02:08xAI66Grok订阅现已支持OpenCode平台
01:04Cursor Blog58精选构建云端智能体的经验总结
00:37宝玉70Claude Code 新增用量分析功能
00:36OpenRouter78同事件精选阿里通义千问Qwen3.7-Max上线OpenRouter同一事件,精选展示《Qwen3.7-Max:面向智能体时代的最新专有模型》
00:05Replit ⠕73精选Replit企业版现已开放自助购买
00:00Mistral AI:News(网页)69Vibe中的远程智能体,由Mistral Medium 3.5驱动。介绍Mistral Medium 3.5、Vibe中的远程编程智能体,以及Le Chat中用于复杂任务的新Work模式。2026年5月22日,Mistral AI
5月21日周四
23:56Chubby♨️42KroWork五分钟生成本地新闻仪表盘
23:56Chubby♨️66Cursor发布Composer 2.5模型,在AI编码代理指数中排名第三
23:11Berryxia.AI71Qwen 3.7 Max与Gemini 3.5 Flash生成二叉树测试对比
23:00凡人小北47AI编程工具转向:权限自由度成关键
22:37宝玉67Codex手机端大更新:多项功能提升体验
22:30凡人小北65Codex展示了逆向分析并重建软件的惊人能力
22:12Alibaba Cloud76阿里巴巴发布闭源旗舰模型Qwen3.7 Max,性能分数跃升
21:56Chubby♨️66阿里云发布Qwen3.7 Max:代理能力泛化或比性能突破更重要
21:42Alibaba Cloud85通义千问旗舰模型Qwen3.7-Max发布
21:40Qwen76阿里巴巴发布新一代旗舰模型Qwen3.7 Max,智能指数跃升至56.6
21:28The Verge:AI(RSS)66亲身见证Google AI Studio"神速"构建我的首个安卓应用
19:29🚨 AI News | TestingCatalog72阿里发布Qwen 3.7 Max专有模型
16:28Artificial Analysis70阿里云发布Qwen3.7 Max模型,评测得分56.6分
16:08公众号:火山引擎46Agent Plan、Coding Plan上新:新增DeepSeek V4
12:48凡人小北63Codex深度使用:避坑技巧与优化思路
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月22日
08:00
HuggingFace Daily Papers(社区热门论文)
60
CoSPlay:通过自生成代码与单元测试的测试时合作自博弈

CoSPlay是一个无需Ground-Truth数据且无需训练的代码生成框架,其通过合作自博弈机制联合提升代码与单元测试质量。工作流程为:探索多样化方案并识别潜在失败模式以生成有区分度的单元测试;利用代码-单元测试执行矩阵中的双向通过计数信号,迭代修剪或修复弱代码、刷新或替换不可靠测试,使两个候选池协同演进;最终从最大输出共识簇中选择代码,因为正确代码对相同输入的输出一致。在四个基准测试上,应用于Qwen2.5-7B-Instruct时,将平均BoN从22.1%提升至33.2%,单元测试准确率从14.6%提升至78.3%,性能匹配或超越RLVR模型CURE-7B;应用于CURE-7B时,可进一步将BoN提升5.7%。该方法在不同骨干模型上具备泛化能力,且在可比的token预算下优于无GT数据的TTS基线,性能随预算增加持续提升。

推理编码论文/研究
07:12
Berryxia.AI@berryxia
70
最近X 开始支持和拥抱各种生态,从小龙虾、Hermes 再到直接工具类的OpenCode 。 如今你可以直接在OpenCode中使用Grok 或者X Premium 的订阅z

OpenCode: OpenCode can now officially be used with your Grok or X Premium subscriptions Try it with the new Grok Build model

MCP/工具xAI产品更新编码
07:12
Berryxia.AI@berryxia
66
Codex新增应用截图抓取与长期目标执行功能

Codex近期推出Appshots功能,用户可在Mac上双击Command键,快速将当前应用窗口的截图与文字内容(包括屏幕外部分)投喂给AI。同时上线的/goal模式支持用户设定明确任务目标(如跑通功能、编写测试),AI可自主跨时执行,允许用户随时查看进度或调整方向。这些更新凸显了AI Agent的自主能力,但目前Mac端体验最佳,Windows用户仍在等待基础远程控制与功能同步。

OpenAI Developers: It's Codex Thursday, and yes, we have updates for you. First up: Appshots, a new way to bring the context of what you're...

智能体OpenAI产品更新编码
06:35
MarkTechPost(RSS)
59
Qwen推出Qwen3.7-Max:配备100万token上下文窗口的推理智能体模型

在2026年阿里云峰会上,阿里巴巴的Qwen团队发布了其迄今最先进、最全面的智能体模型Qwen3.7-Max。该模型核心特点是具备100万token的超长上下文窗口,并引入扩展思考模式,专为代码编写、调试及多步骤工作流自动化等长周期任务设计。在Artificial Analysis Intelligence Index评测中,该模型获得56.6分,在所有专有模型中排名第五。

智能体推理模型发布编码
05:38
小互@xiaohu
61
Codex 推出 Locked Use(锁屏使用)功能

Codex 新增“锁屏使用”功能,允许用户在 Mac 锁屏状态下,通过手机远程下发指令,让电脑继续执行任务。该功能基于苹果官方授权机制临时解锁,操作全程屏幕保持黑屏以保护隐私,并具备四层安全设计,如短时授权、检测到本地操作即刻重锁,确保了远程操作的安全性与便利性。

产品更新端侧编码
05:30
Claude Code:GitHub Releases(RSS)
精选73
v2.1.147版本更新

本次更新引入了Workflow工具,支持确定性多智能体编排(默认关闭)。将/simplify命令重命名为/code-review,现可报告代码正确性问题并支持生成GitHub PR内联评论。改进了自动更新器(增加重试与错误报告)、大文件diff渲染性能,并优化了提示历史记录以避免重复条目。修复了多个关键问题,包括企业登录限制未生效、Windows下的PowerShell工具与终端闪烁问题、插件系统及shell快照的bug,并增强了沙箱安全性与终端兼容性。

智能体Anthropic产品更新编码

推荐理由:Claude Code 这次更新不止修 bug,Workflow 工具让多 agent 编排有了确定性模式,虽然默认关闭但值得尝鲜,做复杂工程的开发者可以关注。
05:05
🚨 AI News | TestingCatalog@testingcatalog
71
OpenAI宣布Codex在macOS平台推出重要更新,核心功能为"Appshots"。该功能允许用户通过快捷键快速将任何应用窗口的完整上下文(包括屏幕截图与可访问文本)附加至Codex对话线程,从而为AI提供更全面的工作背景信息。此外,本次更新还包括浏览器端的新版注释编辑器、默认启用的/goal命令,以及现已支持分享的插件功能。Appshots已向所有Mac端用户开放。

OpenAI Developers: It's Codex Thursday, and yes, we have updates for you. First up: Appshots, a new way to bring the context of what you're...

OpenAI产品更新多模态编码
04:38
宝玉@dotey
67
OpenAI Codex 更新:强化协作与自主执行能力

OpenAI 近日对 Codex 进行了一系列重要更新,旨在提升团队协作效率并降低开发门槛。核心功能包括:通过快捷键快速发送当前窗口上下文至 Codex,解决工作流中断问题;桌面版正式推出/goal 模式,支持长时间自主执行复杂任务;新增高级标注模式,方便设计师在页面预览中直接调整与批注;企业用户现可共享自定义插件,并通过升级的 Analytics 面板查看细粒度使用数据。这些更新标志着 Codex 正从个人编程助手向更强大的团队协作平台演进。

OpenAI Developers: It's Codex Thursday, and yes, we have updates for you. First up: Appshots, a new way to bring the context of what you're...

OpenAI产品更新编码
04:38
宝玉@dotey
64
OpenAI Codex 重大更新:推出多项协作新功能

OpenAI 为编程助手 Codex 推出一系列重要更新,旨在降低参与门槛并提升团队协作效率。主要更新包括:“Appshots”功能,用户可通过快捷键将当前应用窗口的截图与文本内容(含屏幕外部分)直接发送至 Codex;桌面版正式支持“/goal”模式,允许 Codex 自主执行跨时长的复杂任务;新增高级标注模式,设计师可在预览中直接拖拽调整元素并提交修改。此外,Business 用户现可共享自定义插件,Analytics 面板也升级了细粒度数据监控。这些举措标志着 Codex 正从个人编程助手向团队协作平台演进。

OpenAI Developers: It's Codex Thursday, and yes, we have updates for you. First up: Appshots, a new way to bring the context of what you're...

智能体OpenAI产品更新编码
04:38
Sam Altman@sama
精选73
新版Codex今日发布! 【引用 @OpenAIDevs】:今天是Codex周四,我们带来了更新。 首先是Appshots,一种将你正在处理的应用上下文带入Codex的新方式。 在Mac上,按Command-Command键即可将应用窗口附加到Codex线程。Codex会获取窗口的截图和文本,包括屏幕上不可见的内容。 Appshots已在Mac的所有套餐中可用,企业版访问权限即将推出。

OpenAI Developers: It's Codex Thursday, and yes, we have updates for you. First up: Appshots, a new way to bring the context of what you're...

智能体OpenAI产品更新编码

推荐理由:Codex 这次更新的 Appshots 看似一个小功能,但把应用窗口上下文直接喂给 Agent 的思路是质的跳跃,Mac 开发者现在就能用,这个交互范式可能会被抄很久。
04:36
swyx🛬 SFO@swyx
51
正在开发一项技能,用于将"Vibe编码的粗糙应用"转化为"生产就绪、端到端测试、可维护、可并行化的智能体代码库"。 这个过程昨天运行了约16小时,共产生103次提交,最终得到了完全相同的应用程序--但不再是脆弱的MVP,而是一个可以长期构建的代码库。
智能体教程/实践编码
04:08
小互@xiaohu
58
Codex新功能Appshots:一键共享工作界面给AI

OpenAI为Codex推出Appshots功能,用户可通过快捷键(连续按两次Command键)将当前操作窗口的完整上下文分享给AI。该功能不仅传输屏幕截图,还能提取窗口内的文本内容及未显示的隐藏信息,例如完整代码结构、设计稿内容或控制台报错等。这免去了开发者、设计师手动复制粘贴代码与截图的繁琐流程,实现了工作界面的直接共享。

OpenAI产品更新编码
04:02
Greg Brockman@gdb
68
OpenAI为Codex应用推出"Appshots"新功能,用户可通过快捷键(如Mac的Command-Command)将当前应用窗口的截图与文本内容直接附加到对话中,从而为AI提供更全面的上下文信息,包括屏幕外内容。该功能现已在Mac端全套餐开放,企业版访问权限也将很快推出。此外,Codex还新增了面向企业和商业场景的功能,如token使用分析和插件共享,以增强协作与数据分析能力。

OpenAI Developers: It's Codex Thursday, and yes, we have updates for you. First up: Appshots, a new way to bring the context of what you're...

OpenAI产品更新多模态编码
03:26
Rohan Paul@rohanpaul_ai
62
阿里云的 Qwen 3.7 Max 在编码与智能体(Agent)能力上已非常接近前沿模型,并现已在 AI/ML API 平台上线。根据 Artificial Analysis 的评测,其智能体可靠性排名第五,性能与 GPT 5.4 (xhigh) 相当,并略高于新发布的 Gemini 3.5 Flash。AI/ML API 将其定位为面向智能体时代的模型,突出其能支持超过35小时的自主执行,并兼容 Claude Code 等工具。平台还提供了包括 GPQA Diamond(92.4分)在内的基准测试成绩,并为用户提供免费试用码。

AI/ML API: Qwen3.7-Max on AI/ML API - built for the agent era GPQA Diamond (92.4), HMMT (97.1), Apex (44.5) Sustains 35+ hours of a...

智能体大佬观点编码
02:35
OpenCode@opencode
75
OpenCode现已正式支持您的Grok或X Premium订阅 尝试使用全新的Grok Build模型 https://x.ai/news/grok-opencode

xAI: You can now use your @grok or X Premium subscription in @opencode. Use the model powering Grok Build for high speed and ...

xAI产品更新编码
02:33
OpenAI Developers@OpenAIDevs
64
又是Codex周四,我们带来了更新。 首先是Appshots,一种将你工作上下文引入Codex的新方式。 在Mac上,按Command-Command即可将应用窗口附加到Codex线程。Codex会获取窗口的截图和文本,包括屏幕上不可见的内容。 Appshots已在Mac各计划中推出,企业版访问权限即将上线。
OpenAI产品更新编码
02:13
Alibaba Cloud@alibaba_cloud
75
Qwen3.7-Max已在@OpenRouter上线 https://x.com/OpenRouter/status/2057500097206976983?s=20

OpenRouter: The new Qwen3.7-Max from @Alibaba_Qwen is live on OpenRouter. The flagship of the Qwen3.7 series, built for agent-centri...

智能体模型发布编码
关联讨论 8 条公众号:通义实验室(千问)X:通义千问 / Qwen (@Alibaba_Qwen)X:阿里云 / Alibaba Cloud (@alibaba_cloud)X:X.PIN (@thexpin)X:Rohan Paul (@rohanpaul_ai)Qwen:Blog Retrieval(API)Hacker News 热门(buzzing.cc 中文翻译)IT之家(RSS)
02:11
AYi@AYi_AInotes
72
Claude Code推出用量追踪功能

Claude Code上线了/usage指令,实现token消耗的精细化归因。该功能可展示每个Skill、子代理及MCP的用量占比,并能追踪由下游操作触发的消耗源头。支持按天/周筛选历史数据,CLI端已可使用,桌面端即将跟进。这一更新使用户能从模糊感知转向精确掌握AI工作流的具体成本构成。

Boris Cherny: In the next version of Claude Code: run /usage to see a breakdown of which Skills, Agents, MCPs, and Plugins are using y...

AnthropicMCP/工具产品更新编码
02:08
xAI:News(网页)
精选67
在OpenCode中使用Grok

xAI宣布,其SuperGrok或X Premium订阅用户现可在开源编程工具OpenCode中使用Grok模型。OpenCode提供终端或独立桌面应用两种形式,用户连接Grok账户后,即可调用驱动xAI终端编程代理的Grok Build模型进行开发。该集成通过xAI Grok OAuth实现认证接入,官方表示未来将推出更多开源代理及集成方案。

xAI产品更新编码

推荐理由:把 Grok 搬进 OpenCode 不是啥大新闻,但如果你正好有 SuperGrok 或 X Premium,直接就能在终端里用,算是个挺干净的集成。
02:08
xAI@xai
66
您现在可以在 @opencode 中使用您的 @grok 或 X Premium 订阅。 使用驱动 Grok Build 的模型,享受高速与代码库智能。 https://x.ai/news/grok-opencode
xAI产品更新编码
01:04
Cursor Blog
精选58
构建云端智能体的经验总结

云端智能体已从本地智能体的简单扩展,发展为具备独立环境、可并行无人值守处理长任务的系统。构建的核心经验在于:完整的开发环境是输出质量的关键,这需重建大量基础设施;可靠性方面,团队从自研架构迁移至Temporal平台,将可靠性提升至99.9%以上,该平台每日处理超5000万次操作,支撑超40%的代码拉取请求;同时,实现了智能体循环、机器状态与对话状态的解耦,以适应复杂的跨环境协作。

智能体教程/实践编码

推荐理由:Cursor 把这一年踩过的坑全摊开了,从环境构建到持久化执行,基本就是一份 agent 平台内部架构课,搭同类产品的团队值得逐段读。
00:37
宝玉@dotey
70
Claude Code 专门升级了 /usage ,可以看到 Token 到底花在哪里了 👍

Boris Cherny: In the next version of Claude Code: run /usage to see a breakdown of which Skills, Agents, MCPs, and Plugins are using y...

AnthropicMCP/工具产品更新编码
00:36
OpenRouter@OpenRouter
同事件精选78
阿里巴巴通义千问团队的全新Qwen3.7-Max现已登陆OpenRouter。 作为Qwen3.7系列的旗舰模型,专为以智能体为核心的工作场景打造:编程、办公与生产力任务,以及长周期自主执行。在编程和智能体基准测试中较Qwen3.6有显著提升,并支持显式提示缓存以处理重复上下文。
智能体模型发布编码
同一事件,精选展示《Qwen3.7-Max:面向智能体时代的最新专有模型》
推荐理由:阿里旗舰迭代,重点转向 agent 和长程任务,这次 benchmark 跳跃不是挤牙膏,做 coding agent 的可以认真试试。
00:05
Replit ⠕@Replit
精选73
Replit Enterprise现已支持自助服务! 几分钟内即可: - 购买Replit Enterprise - 配置SSO + SCIM - 与团队开始协作开发 无需合同谈判,无需等待。
产品更新编码

推荐理由:Replit 企业版自助开通,几分钟完成 SSO 配置和团队搭建,中小团队不用再等采购流程,生产力上手速度直接拉满。
00:00
Mistral AI:News(网页)
69
Vibe中的远程智能体,由Mistral Medium 3.5驱动。介绍Mistral Medium 3.5、Vibe中的远程编程智能体,以及Le Chat中用于复杂任务的新Work模式。2026年5月22日,Mistral AI

Mistral AI发布了新模型Mistral Medium 3.5。该模型为Vibe产品中的远程编程智能体(remote coding agents)提供支持,这些智能体可在终端、IDE和后台运行。同时,Le Chat新增Work模式,专为处理复杂任务而设计。发布日期为2026年5月22日。

智能体模型发布编码
5月21日
23:56
Chubby♨️@kimmonismus
42
KroWork五分钟生成本地新闻仪表盘

作者体验了KroWork平台的“对话生成软件”功能。他通过自然语言提示Kro代理,要求创建一个新闻仪表盘。该工具更新后可展示其系统逻辑的思维映射过程,并借助Kro Browser Bridge扩展程序实现浏览器实时操作。整个应用生成过程仅耗时约五分钟,全程无需编写代码。关键在于,由于生成结果是编译后的真实本地软件,后续运行不会消耗任何token。

编码评测/基准
23:56
Chubby♨️@kimmonismus
66
Cursor公司发布了其最新的AI编码模型Composer 2.5。该模型在Artificial Analysis编码代理指数中获得62分,位列第三,性能接近于排名第一的Claude Opus 4.7(66分)和GPT-5.5(65分)。其最大优势在于极高的性价比,标准版每任务成本仅0.07美元,相比前两名4美元以上的成本低约60倍,而性能差距仅3-4分。此外,其快速模式运行速度也位居前三。该模型基于Kimi K2.5的开放权重训练,但仅限在Cursor平台内使用。

Artificial Analysis: Cursor's new Composer 2.5 takes third on the Artificial Analysis Coding Agent Index and is ~10-60x lower cost than the h...

产品更新编码
23:11
Berryxia.AI@berryxia
71
Qwen 3.7 Max与Gemini 3.5 Flash生成二叉树测试对比

新发布的Qwen 3.7 Max正被用户通过“递归分形二叉树”生成测试进行评估。该测试要求模型编写HTML代码,模拟树木从生长到摇曳的动画。此前,Gemini 3.5 Flash已用同一测试进行了展示,其生成完整动画耗时77.56秒,效果被评测者认为惊艳。该测试已成为比较不同AI模型代码生成与创意能力的一种常见方式,用户可借此对比各模型的表现。

Berryxia.AI: 兄弟们! 今天已经可以在ZenMux上免费体验Gemini 3.5 Flash 了! 我第一时间用它跑了那个经典的「AI模型递归二叉树生长测试」. 同一个 Prompt ,不同模型画出的树形态完全不一样。(见视频-Prompt见评论区) G...

推理编码评测/基准
23:00
凡人小北@frxiaobei
47
AI编程工具转向:权限自由度成关键

用户宣布从Claude cowork全面转向Claude Code,核心原因是Claude cowork的沙盒权限控制过于严格,难以支持复杂任务。相比之下,Claude Code与Codex提供了更开放的权限,允许更自由的系统级操作,被形容为“脱缰野马”般灵活。

Anthropic现象/趋势编码
22:37
宝玉@dotey
67
Codex手机端大更新:多项功能提升体验

Codex在ChatGPT iOS app上进行快速迭代,推出多项手机端功能更新。核心改进包括实现代码轮次编译完成的实时推送通知,优化断线重连UI以增强网络恢复顺畅性,对话界面设计更紧凑精致并向桌面端应用看齐。新增/fork命令,并大幅优化代码差异对比功能,支持直接打开完整文件查看差异。这些更新聚焦于提升移动端交互效率和视觉体验,体现了Codex在移动场景下的持续优化。

Thomas Ricouard: Codex in ChatGPT iOS app got better in latest update! - Receive turn completion push notifications - Better reconnection...

OpenAI产品更新编码
22:30
凡人小北@frxiaobei
65
Codex展示了逆向分析并重建软件的惊人能力

用户将Codex工具指向一个现有产品,仅用30分钟就自动分析并输出了该产品的完整技术蓝图,包括架构、数据模型、带有成本估算的提示词,并生成了一份长达378行的重建计划。更令人惊叹的是,现在可以通过一条明确的指令(“/goal implement...”),让Codex尝试一次性重建出与目标产品功能完全一致的成果,展示了其强大的逆向工程与代码生成能力。

Elvis: codex is actually insane 🤯 if you thought frontend cloning was impressive, check this out: I just pointed codex at anot...

OpenAI推理教程/实践编码
22:12
Alibaba Cloud@alibaba_cloud
76
阿里巴巴推出其最新闭源旗舰大模型Qwen3.7 Max,在Artificial Analysis智能指数上获得56.6分,较上代预览版提升4.8分,是其迄今最接近国际顶尖水平的模型。此次分数提升主要得益于科学推理、代理和编码能力的增强,其中模型的幻觉率大幅降低(从44.2%降至22.9%)是主要贡献因素。模型的上下文窗口已扩展至100万tokens,仍仅支持文本输入输出,具体定价尚未公布。

Artificial Analysis: Alibaba's new Qwen3.7 Max model scores 56.6 on the Artificial Analysis Intelligence Index, 4.8 points higher than Qwen3....

智能体推理模型发布编码
关联讨论 8 条公众号:通义实验室(千问)X:通义千问 / Qwen (@Alibaba_Qwen)X:阿里云 / Alibaba Cloud (@alibaba_cloud)X:X.PIN (@thexpin)X:Rohan Paul (@rohanpaul_ai)Qwen:Blog Retrieval(API)Hacker News 热门(buzzing.cc 中文翻译)IT之家(RSS)
21:56
Chubby♨️@kimmonismus
66
阿里云发布Qwen3.7 Max:代理能力泛化或比性能突破更重要

阿里云发布新旗舰模型Qwen3.7 Max,定位为“代理时代”的基础模型,强调其在端到端编码、办公自动化等实际任务中的执行能力。模型在一个内核优化任务中展示了35小时无人干预的自主运行能力,完成了超过1000次工具调用。但这并非模型的全面自我进化,而是针对特定优化目标的迭代改进。更值得关注的是,Qwen声称其代理能力能从多样化的训练环境中泛化,如同语言能力从文本中泛化。这一观点若成立,其意义将远超任何基准测试成绩。

Qwen: 📣Meet Qwen3.7-Max - our latest flagship, made for the Agent Era. A versatile foundation for agents that actually get th...

智能体模型发布编码
21:42
Alibaba Cloud@alibaba_cloud
85
通义千问旗舰模型Qwen3.7-Max发布

阿里云发布了通义千问系列的新旗舰模型Qwen3.7-Max,定位为面向智能体时代的通用基础模型。该模型旨在为“能真正完成任务”的智能体提供强大支撑,其核心能力包括:支持端到端的复杂编码任务,可作为集成多智能体协作的办公助手,并能执行超过35小时的长期自主任务。该模型具有框架无关的兼容性,可适配Claude Code、OpenClaw等多种工具链。目前,用户已可通过Model Studio平台调用其API。

智能体MCP/工具模型发布编码
关联讨论 8 条公众号:通义实验室(千问)X:通义千问 / Qwen (@Alibaba_Qwen)X:阿里云 / Alibaba Cloud (@alibaba_cloud)X:X.PIN (@thexpin)X:Rohan Paul (@rohanpaul_ai)Qwen:Blog Retrieval(API)Hacker News 热门(buzzing.cc 中文翻译)IT之家(RSS)
21:40
Qwen@Alibaba_Qwen
76
阿里巴巴近期推出了新一代闭源旗舰模型Qwen3.7 Max。该模型在Artificial Analysis智能指数上获得56.6分,较前代Qwen3.6 Max Preview提升了4.8分,创下阿里系模型最接近全球前沿水平的记录。此次升级主要体现在科学推理、智能体能力和代码生成方面,同时显著降低了模型幻觉率。值得注意的是,其分数提升部分源于模型更倾向于拒绝回答,而非完全依靠事实准确率的提高。技术上,其上下文窗口已扩大至100万tokens,仍保持闭源权重。尽管如此,该模型在整体能力上仍落后于OpenAI、Anthropic和Google的同类产品。

Artificial Analysis: Alibaba's new Qwen3.7 Max model scores 56.6 on the Artificial Analysis Intelligence Index, 4.8 points higher than Qwen3....

智能体推理模型发布编码
关联讨论 8 条公众号:通义实验室(千问)X:通义千问 / Qwen (@Alibaba_Qwen)X:阿里云 / Alibaba Cloud (@alibaba_cloud)X:X.PIN (@thexpin)X:Rohan Paul (@rohanpaul_ai)Qwen:Blog Retrieval(API)Hacker News 热门(buzzing.cc 中文翻译)IT之家(RSS)
21:28
The Verge:AI(RSS)
66
亲身见证Google AI Studio"神速"构建我的首个安卓应用

编辑Sean Hollister分享了他使用Google AI Studio的震撼体验。在一个下午内,他仅通过输入文字就成功构建了三个安卓应用。其中一次,他向AI输入了148个单词描述后便离开,十分钟后,一个功能完整的应用就已安装到他的手机并可运行。Google的AI工具包揽了从生成代码到编译、部署的所有技术环节,用户只需进行简单的手机调试设置。这一过程生动展示了“vibe coding”如何降低软件开发门槛,预示着普通用户也能借助AI工具快速将创意变为现实,个人软件开发的革命正在到来。

Google教程/实践端侧编码
19:29
🚨 AI News | TestingCatalog@testingcatalog
72
阿里巴巴发布了其最新的专有模型 Qwen 3.7 Max,专为智能体编码设计。 Qwen 3.7 Max 在人工智能分析智能指数上获得 56.6 分,超越了近期发布的 Gemini 3.5 Flash 和 Kimi K2.6。

Alibaba Group: Qwen3.7-Max is live! 🚀 Introducing the latest proprietary model, built for advanced agentic coding, complex reasoning, ...

智能体推理模型发布编码
16:28
Artificial Analysis@ArtificialAnlys
70
阿里云发布Qwen3.7 Max模型,评测得分56.6分

阿里云发布闭源旗舰模型Qwen3.7 Max,在Artificial Analysis智能指数上获得56.6分,较前代Qwen3.6 Max Preview提升4.8分,与国际前沿模型的差距有所缩小。其进步主要体现在科学推理、智能体及编码能力上。值得注意的是,本次评分提升很大程度上源于模型在“AA-Omniscience”基准上主动选择“不回答”的次数增多,从而将幻觉率从44.2%显著降至22.9%。此外,该模型的上下文窗口已扩大至100万token,但仍延续了Max系列的闭源策略。

推理模型发布编码
16:08
公众号:火山引擎
46
Agent Plan、Coding Plan上新:新增DeepSeek V4

火山引擎的Agent Plan和Coding Plan产品新增支持DeepSeek V4模型,用户可在相关计划中调用该模型进行开发与部署。

智能体DeepSeek产品更新编码
12:48
凡人小北@frxiaobei
63
推文分享了使用Codex时的经验与注意事项。核心指出单个对话的上下文长度是有限资源,若滥用持续对话流(如设定密集的定时任务)可能导致效果下降或资源浪费。有效的做法是将任务拆解得足够清晰、明确,以提升可持续性。长远来看,更理想的解决方案应是建立共享记忆机制,而非依赖单一长对话的上下文承载。引用的背景文章进一步佐证了相关技术原理,但核心观点强调:优化任务结构比单纯延长对话更为关键。

宝玉: http://x.com/i/article/2057247064115838976

教程/实践编码
‹ 上一页
1…3940414243…50
下一页 ›