AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
6月23日周二
10:13Berryxia.AI45Dankoe新文:AI不会取代工作,依赖才是真威胁
10:07OpenRouter56GLM 5.2 vs DeepSeek V4 token份额
10:06jason13Codex 猴子终造 openclaw
09:44小互55Codex 后台疯狂写入 SSD 耗尽硬盘寿命
09:14OpenRouter:Announcements(RSS)72精选OpenRouter:通过API路由实现AI数据驻留合规
09:14OpenRouter:Announcements(RSS)62精选AI 治理清单:LLM 架构先行
09:13Berryxia.AI72成峰开源剪辑Skills接入Codex,Agent自动完成口播视频剪辑与合成
09:09AYi65Cline团队实测GLM-5.2 vs Claude Opus 4.8:修bug后构建稳定性差异
09:05jason10分享你最好的codex广告牌
09:01Simon Willison 博客57LLM提示注入与角色混淆
08:40meng shao37智谱AI GLM-5.2火热但使用受限,作者拒付费咨询
08:14Hacker News 热门(buzzing.cc 中文翻译)84同事件精选GLM-5.2 开源模型发布:744B 参数,1M 上下文,可本地运行同一事件,精选展示《GLM-5.2 上线并开源:专注 Coding 与长程任务》
08:13ginobefun48OpenAI Daybreak将安全重心转向补丁规模化,美团构建海报生成闭环,Gray Swan强调红队对抗
08:13ginobefun51OpenAI Daybreak、美团海报生成、PP-OCRv6、GLM 5.2 等 AI 进展
08:08Ethan Mollick55Fable 创造性问题解决与自知贪吃蛇游戏
08:07IT之家(RSS)49苹果 iOS 27 引入 AI 扩图功能:生成画面自然,无法保证真实还原
08:01Simon Willison 博客60Moebius 0.2B图像修补模型借助Claude Code移植到浏览器运行
06:41Rohan Paul50Sakana Fugu Ultra 在多模型编码测试中视觉效果最优,但成本为 GLM 5.2 的 17 倍
05:41Rohan Paul67微软CEO纳德拉警告AI权力过度集中
05:13SemiAnalysis42AI需求短期超越摩尔定律
05:05TechCrunch:AI(RSS)61Claude Code创建者Boris Cherny:AI智能体循环(loops)真实且重要
04:41Rohan Paul59美国AI基础设施支出预计2027年达中国8.3倍
04:35TechCrunch:AI(RSS)46Nvidia想削减数据中心用水,但这不等于解决AI的用水问题
04:26Chubby♨️57GLM-5.2 在真实世界智能体基准 GDPval-AA 排名第三,领先所有开源模型
04:10Artificial Analysis60AA-Briefcase基准测试:开放权重模型主导成本-性能帕累托前沿
04:05OpenRouter49OpenRouter 检测 1Password 帮你保存 API 密钥
04:03The Verge:AI(RSS)58AI用不可能的家欺骗租户
03:56Chubby♨️59GLM 5.2 持续获胜
03:54Tomer Tunguz 博客(VC 分析)25AI推理销售:成本加成 vs. 价值定价
02:43François Chollet46SaaS空头竟信Claude能一键生成所有软件
02:41Hacker News 热门(buzzing.cc 中文翻译)50不要用AI代写署名作品
02:40Artificial Analysis59GLM-5.2 在 GDPval-AA 基准排名第三,领先开源权重模型
02:16OpenAI:官网动态(RSS · 排除企业/客户案例)58精选Codex 用于长期工作:最大化效能实践
02:13François Chollet49预测机器自指产生方向错觉
02:08AYi60Claude Fable 5总结AI生图性感人像提示词8大写法
02:08AYi51OpenAI Daybreak 更新:Codex 安全插件 + GPT-5.5-Cyber 实现漏洞自动修复
02:08Ethan Mollick64宾大教授实测Sakana Fugu Ultra-high:速度极慢,效果仅"fine"未达官方宣称水平
01:40Cursor Blog72精选Cursor 审计发现奖励黑客行为淹没模型智能提升
01:12Yuchen Jin26Anthropic Fable 5未回归,研究员可建更强模型
01:08Google Developers Blog(RSS)56精选Google ADK 与 A2A 协议:跨语言多智能体团队构建实战
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月23日
10:13
Berryxia.AI@berryxia
45
Dankoe新文:AI不会取代工作,依赖才是真威胁

Dankoe的文章指出AI并非取代工作的元凶,真正威胁是对他人的依赖。他提出在AI时代生存的关键:逃离工资奴役、掌握主动性/品味/说服力/持续力/迭代五种成分、媒体比代码更需判断力。起步动作包括改变环境、选择反馈强的载体、明确人生之作、明天发布第一条内容。AI降低了构建门槛,但人的判断与迭代能力仍是核心竞争力。该文是此前2亿阅读《如何重启人生》的续作。

Smith铜匠・十点睡觉: http://x.com/i/article/2069216003599581185

大佬观点现象/趋势
10:07
OpenRouter@OpenRouter
56
GLM 5.2 vs DeepSeek V4:OpenRouter上token份额 与大多数开源权重发布相比,GLM 5.2的采用速度非常快。
开源生态现象/趋势
10:06
jason@jxnlco
13
足够多的猴子用 codex 打字,其中一只就会造出 openclaw。
OpenAI大佬观点编码
09:44
小互@xiaohu
55
Codex 后台疯狂写入 SSD 耗尽硬盘寿命

用户反映 Codex 在后台持续写入大量日志文件,即使电脑闲置时也在高频擦写固态硬盘(SSD)。SSD 寿命由写入量决定,此类行为会加速硬盘损耗。虽然单次写入仅几百兆,但底层频繁擦写机制持续消耗硬盘寿命,相当于“偷跑”写入量。

现象/趋势编码
09:14
OpenRouter:Announcements(RSS)
精选72
OpenRouter:通过API路由实现AI数据驻留合规

Deloitte 报告显示 77% 的公司将供应商国籍纳入 AI 选型考量。OpenRouter 将数据驻留视为路由决策:通过 API 请求中的 provider 对象设置 order 或 only 限定服务商、allow_fallbacks 为 false 禁止回退、data_collection 为 deny 禁止数据存储或训练、zdr 为 true 要求零数据保留。示例以 anthropic/claude-sonnet-4.6 调用,首选 Anthropic 直连和 Amazon Bedrock。针对欧盟需求,可限制仅 Mistral 等欧盟总部供应商。若无可合规供应商,API 返回错误而非路由至不合规服务商。

教程/实践部署/工程

推荐理由:OpenRouter 这篇指南把数据驻留从一个基建难题退化成一次 API 请求里的路由配置,对需要合规的团队是直接可抄的实操手册。
09:14
OpenRouter:Announcements(RSS)
精选62
AI 治理清单:LLM 架构先行

Deloitte 报告显示企业 AI 抱负与治理成熟度之间差 53 个百分点,74% 计划两年内部署智能体 AI,仅 21% 拥有成熟治理模型。路由架构是首个治理层。三种姿态——托管网关(如 OpenRouter、Portkey)、自托管网关(如 LiteLLM)和直接 API——默认治理能力不同,直接 API 缺乏统一控制面,造成治理盲区。治理清单可映射为资产盘点、问责制、访问控制、证据记录与合规性五大支柱。路由层能提供跨团队可见性与审计证据,而电子表格不能。

教程/实践部署/工程

推荐理由:这不是另一篇泛泛的治理框架文章,它把合规差距直接映射到路由架构上,三张对比表格比政策文档更有用,做 LLM 平台或 infra 的团队值得对照检查自己的堆栈。
09:13
Berryxia.AI@berryxia
72
成峰开源剪辑Skills接入Codex,Agent自动完成口播视频剪辑与合成

成峰开源了一款2000+ Star的剪辑Skills,与Codex结合后,Agent可自动完成口播视频的剪辑、分镜、动画及合成。流程:先安装Skills,用/剪口播命令上传素材和文稿,生成审核页并输出带字幕视频;再用/口播成片命令生成HTML分镜核对页,用户反馈后Codex通过Computer Use自动调整,最后用HyperFrames合成最终MP4。视频生产从手动执行转向流程编排。

Agent成峰: http://x.com/i/article/2068926393719685120

智能体MCP/工具开源/仓库教程/实践
09:09
AYi@AYi_AInotes
65
Cline团队实测GLM-5.2 vs Claude Opus 4.8:修bug后构建稳定性差异

Cline团队用自家仓库真实bug测试GLM-5.2和Claude Opus 4.8。Opus速度快3倍(1.6分钟vs 4.7分钟)、token少一半(660K vs 1.1M)、价格贵一倍($0.81 vs $0.41),修好bug但生产构建崩溃,留下类型错误。GLM多花67% token、多2.3倍工具调用(28次vs 12次)、价格便宜一半,不仅修好bug还主动清理死代码,构建干净通过。根本差异在于训练目标:GLM被强化学习训练出验证文化,多花token跑构建、查类型、防回归;Opus追求高效却忽略隐患。排行榜只测修bug能力,测不出是否破坏生产环境。开源模型GLM在长周期代码智能体上找到差异化优势。

Cline: We've kept hearing how GLM-5.2 beats Opus 4.8, and are skeptical of benchmarks - so we tested them on a real bug from th...

开源生态编码评测/基准
09:05
jason@jxnlco
10
分享你最好的codex广告牌。

eunice: my codex billboard submission

OpenAI其他
09:01
Simon Willison 博客
57
LLM提示注入与角色混淆

Charles Ye、Jasmine Cui 与 Dylan Hadfield-Menell 的研究发现,大语言模型无法可靠区分系统标签(如 <system>、<think>)与用户输入,模型更依赖文本风格而非实际内容。通过模仿模型内部思考块的写作风格,可绕过安全限制,例如让 gpt-oss-20b 误判。“destyling”——对文本轻微改写以降低与角色标签格式的相似度——使平均攻击成功率从 61% 骤降至 10%。作者将底层机制称为“角色混淆”,认为除非模型实现真正的角色感知,否则提示注入防御将是永久的打地鼠游戏。

安全/对齐推理
08:40
meng shao@shao__meng
37
智谱AI GLM-5.2火热但使用受限,作者拒付费咨询

智谱AI近期大热,作者收到针对「智谱 AI」的付费咨询邮件,但因对 GLM-5.2 尚未深入使用,且 Coding Plan 抢不到、Zcode 使用限流,也无法获取 Zcode 商单和赠送 Token,最终含泪拒绝了这次付费咨询。

现象/趋势编码
08:14
Hacker News 热门(buzzing.cc 中文翻译)
同事件精选84
GLM-5.2 开源模型发布:744B 参数,1M 上下文,可本地运行

Z.ai 发布 GLM-5.2,开源 744B 参数(40B 活跃),1M 上下文窗口,性能与 Claude 4.8 Opus、GPT-5.5、Gemini 3.1 Pro 持平。通过 Unsloth 动态量化,2-bit GGUF 版本内存需求降至 239GB(-84%),1-bit 版降至 217GB(-86%),可运行于 256GB 统一内存 Mac 或 1×24GB GPU+256GB RAM。提供非思考、高、最大三种思考模式。评测显示动态 1-bit 准确率约 76.2%,2-bit 约 82%。

GitHub开源生态教程/实践部署/工程
同一事件,精选展示《GLM-5.2 上线并开源:专注 Coding 与长程任务》
推荐理由:Unsloth 这篇操作指南把 GLM-5.2 从「只能仰望」变成了「可以在自家 256GB Mac 上跑」,动态量化让 744B 参数模型降到了 239GB 磁盘占用,对想上手本地最强开源模型的人,这一步正好踩在从 curiosity 到可用的临界点上。
08:13
ginobefun@hongming731
48
OpenAI Daybreak将安全重心转向补丁规模化,美团构建海报生成闭环,Gray Swan强调红队对抗

OpenAI Daybreak计划转向“补洞”:Codex Security扫描超3000万次提交、覆盖3万+代码库,超50万问题被自动判定修复;GPT-5.5-Cyber在CyberGym达85.6%单模型最高分,并推出Patch the Planet推动开源补丁落地。美团技术团队构建PosterCraft(文字渲染)、PosterOmni(六类编辑)、PosterReward(质量评判)闭环,PosterReward在高级基准达86.0%准确率,已落地外卖海报。Gray Swan创始人指出模型容量不自动提升安全性,自动化红队系统Shade多数场景已超越人类攻破能力。

智能体OpenAI安全/对齐现象/趋势
08:13
ginobefun@hongming731
51
OpenAI Daybreak、美团海报生成、PP-OCRv6、GLM 5.2 等 AI 进展

OpenAI 发布网络安全计划 Daybreak,其 GPT-5.5-Cyber 在 CyberGym 上达 85.6% 最高得分(对比 81.8%),Codex Security 已扫描超 3000 万次提交、自动修复超 50 万问题。美团推出海报生成技术体系 PosterCraft(ICLR 2026)、PosterOmni(CVPR 2026),PosterReward 在相应基准上达 86.0% 准确率。PP-OCRv6 登陆 HuggingFace,参数 1.5M-34.5M,支持 50 种语言。GLM 5.2 与 Browser Use v2 多模态 QA 子智能体配合,以不到 0.75 美元成本在网站设计上击败 Fable 5。

ginobefun: http://x.com/i/article/2069208006232039424

OpenAI行业动态
08:08
Ethan Mollick@emollick
55
让 Fable 如此令人印象深刻的是其跨长期项目的创造性问题解决和良好判断力 你可以看到这一点:当我让它制作一个自知的贪吃蛇游戏时。我没有给它任何设计反馈,只是说"让它更好" 值得一试:https://snake-stable-build.netlify.app/
智能体大佬观点编码
08:07
IT之家(RSS)
49
苹果 iOS 27 引入 AI 扩图功能:生成画面自然,无法保证真实还原

科技媒体 AppleInsider 报道苹果在 iOS 27 照片应用中引入基于 Apple 智能的 Extend 扩图工具。测试显示:小猫照片补充了窗帘、枯植物等元素,效果自然;夜景图片生成的路桩、立杆大体合理,但路牌背面形状略异常;罗马 Apple Store 楼梯照片补出台阶和玻璃,视觉合理但现实中不存在;罗马机场照片出现悬浮卡车。苹果表示 AI 扩图生成的画面无法保证真实还原。

图像生成端侧评测/基准
08:01
Simon Willison 博客
60
Moebius 0.2B图像修补模型借助Claude Code移植到浏览器运行

Moebius 0.2B轻量级图像修补模型(自称10B级性能)原依赖PyTorch与NVIDIA CUDA。Simon Willison使用Claude Code将其转换为ONNX格式,通过WebGPU后端在浏览器中运行。用户可上传图片、标记待修复区域,点击按钮等待模型修补。移植后的1.24 GB ONNX模型权重发布至Hugging Face,前端代码托管于GitHub Pages并启用自动部署。整个移植过程(含环境准备、模型转换、UI构建、部署)在Claude Code辅助下完成,作者还使用Claude.ai进行可行性调研。

Hugging Face教程/实践端侧编码
06:41
Rohan Paul@rohanpaul_ai
50
Sakana Fugu Ultra 在多模型编码测试中视觉效果最优,但成本为 GLM 5.2 的 17 倍

Sakana Fugu Ultra 是一个多智能体协调层,通过 OpenAI 兼容端点将子任务路由给不同模型。在 @atomic_chat_hq 的实时交易桌面编码测试中(要求构建完整前后端、实时 API 数据、暗色主题 UI),Fugu Ultra 生成了最丰富的多面板界面(含图表、状态标签等),效果接近 GLM 5.2,但成本达后者的 17 倍:Fugu Ultra 耗 22,225 tokens / $0.51,GLM 5.2 耗 13,677 tokens / $0.03。对比模型 Opus 4.8(15,802 t / $0.31)和 GPT-5.5(11,474 t / $0.26)在质量与成本平衡上表现更佳。

atomic.chat: Sakana Fugu surprisingly performed near GLM 5.2 level but 17× more expensive! We gave the same prompt to 4 models: build...

智能体编码评测/基准
05:41
Rohan Paul@rohanpaul_ai
67
微软CEO纳德拉警告AI权力过度集中

微软CEO萨提亚·纳德拉在最新采访中警告,AI权力正变得过于集中,不能被视为正常的技术进步。他担忧的不是AI模型越来越智能,而是背后的资金、芯片、数据中心和用户访问被少数公司控制。当只有少数企业能够训练前沿模型时,所有使用AI的业务都将依赖于这些公司的定价、规则、故障和产品选择。

Microsoft大佬观点现象/趋势
05:13
SemiAnalysis@SemiAnalysis_
42
AI demand is outstripping Moore's law in the short run 摩尔定律在2001年至2020年间使计算机和半导体的进口价格下降了52%。(1/4)🧵
现象/趋势部署/工程
05:05
TechCrunch:AI(RSS)
61
Claude Code创建者Boris Cherny:AI智能体循环(loops)真实且重要

Claude Code创建者Boris Cherny在Meta @Scale大会上表示,AI智能体循环(loops)是真实且重要的趋势。他描述自己工作中一个agent持续改进代码架构,另一个寻找重复抽象并提交PR,循环永不停歇。这种循环类似递归函数,由子agent决定何时停止;一种实现是Ralph Loop,检查已完成工作是否达成目标。Loops本质是增加test-time compute,通过持续投入计算资源直到任务完成,但token消耗无上限、成本高昂。若设置得当,收益可能远超成本。

智能体Anthropic大佬观点编码
04:41
Rohan Paul@rohanpaul_ai
59
美国AI基础设施支出预计2027年达中国8.3倍

据推文分析,美国超大规模云厂商到2027E的AI基础设施支出预计约为中国同行的8.3倍,差距悬殊。AI优势当前与算力获取(GPU、数据中心、电力、网络等)高度绑定,更大规模投入意味着在训练前沿模型、运行推理、吸引开发者及补贴AI产品上拥有更广阔空间。引用推文指出,即使考虑购买力平价(PPP),美中AI资本支出差异仍令人震惊;未来几年美国头部AI公司或将比中国竞争对手拥有更庞大的资源推广AI系统。

Callum Williams: Astonishing difference between US and Chinese AI capex, even after taking into account differences in PPP

数据/训练现象/趋势行业动态
04:35
TechCrunch:AI(RSS)
46
Nvidia想削减数据中心用水,但这不等于解决AI的用水问题

Nvidia宣布一套温水冷却系统,称可在数据中心内部“基本消除所有用水”。冷却液以45°C注入、55°C流出,闭环循环。适宜气候下可实现100%现场用水削减。但外部用水(发电和芯片制造)可使总用水量翻倍或三倍,Nvidia方案仅解决约四分之一到三分之一。目前约一半数据中心电力来自化石燃料,且到2030年新供电中超40%仍依赖天然气和煤。因此仅靠内部节水远未解决AI用水问题。

行业动态部署/工程
04:26
Chubby♨️@kimmonismus
57
GLM-5.2 在真实世界智能体基准 GDPval-AA 排名第三,领先所有开源模型

GLM-5.2(max)在真实世界智能体工作基准 GDPval-AA 上获 1524 Elo,排名第三,仅次于 Claude Fable 5(1783)和 Claude Opus 4.8(1615),与 GPT-5.5(xhigh,1509)持平。该模型以约 31 轮次任务平均完成零售主管任务清单、紧急停止电路图等交付物,领先开源权重模型(下一名 MiniMax-M3 仅 1408),并超过 Google Gemini 3.5 Flash(1357)、Qwen 3.7 Max(1289)等闭源模型。GLM-5.2 同时在 Artificial Analysis Intelligence Index、Agentic Index 和 AA-Briefcase 上领跑开源榜单。

Artificial Analysis: GLM-5.2 leads open weights models and sits at #3 overall on GDPval-AA, a real-world agentic work benchmark GLM-5.2 from ...

智能体开源生态评测/基准
04:10
Artificial Analysis@ArtificialAnlys
60
AA-Briefcase基准测试:开放权重模型主导成本-性能帕累托前沿

Artificial Analysis发布AA-Briefcase智能体知识工作基准测试,评估模型在长期任务中的表现。任务成本差异超700倍,最高性能模型Claude Fable 5每任务超$20。成本-性能帕累托前沿上,除Anthropic两个最高分模型外,其余大部分由开放权重模型占据。关键性价比:GLM 5.2 (max)每任务$2.40,得分仅比Claude Opus 4.8低90 Elo,成本低65%;DeepSeek V4 Pro (max)每任务$0.08,得分比Gemini 3.5 Flash高约60 Elo,成本低98%以上。

智能体AnthropicDeepSeek推理
04:05
OpenRouter@OpenRouter
49
提示 💡:如果你安装了 @1Password,OpenRouter 会检测到它并帮你保存你的 API 密钥。
教程/实践
04:03
The Verge:AI(RSS)
58
AI用不可能的家欺骗租户

生成式AI让房地产经纪人一键虚拟装修房源照片,导致租户看房时发现现实与图片严重不符。纽约租户Joyce看到带有壁炉、厨房翻新的曼哈顿工作室,实地却发现没有壁炉,炉灶缺旋钮。另一位租户Madison在StreetEasy上看到大量AI增强图片,家具细节明显不真实。佛罗里达州经纪人Bee使用ChatGPT和Stuccco、BoxBrownie等工具为客户演示装修方案,但认为用AI制造虚假房源会引发诉讼。纽约州已立法要求广告披露AI使用,加州《修改图像法》进一步要求房产广告披露AI修改的图像。租户表示连房源描述也显AI痕迹,充斥着“迷人”“温馨”等套话。

图像生成现象/趋势
03:56
Chubby♨️@kimmonismus
59
Kim指出,GLM 5.2是首个能以开放权重处理真实自动研究任务的模型,包括调试设置、跨多节点H100集群运行并比较RL训练实验。其局限在于缺少图像理解能力,需程序化分析原始WandB数据而非可视化图表。引用介绍称,GLM 5.2是其自动研究pipeline上首个能胜任实际研究的开源模型,在Fable 5对研究设限的背景下意义重大。演示中,它基于SkyRL在两台8×H100节点上完成Harbour代码竞赛的完全异步vs同位置同步RL训练,自动解决设置问题并生成吞吐量与奖励稳定性对比。

alphaXiv: Introducing GLM 5.2 for autoresearch GLM 5.2 is the first open weights model we've tried on our autoresearch pipeline th...

智能体开源生态评测/基准
03:54
Tomer Tunguz 博客(VC 分析)
25
AI推理销售:成本加成 vs. 价值定价

以成本价转售推理(inference)是零利润业务。关键在于成本加成与价值定价的选择。优化是成本杠杆,知识蒸馏(distillation)可暂时提供防御性优势。自带密钥(BYOK)模式打破了成本加成,保留了价值定价。

大佬观点推理
02:43
François Chollet@fchollet
46
这似乎愚蠢得令人难以置信,但显然SaaS空头的真实信念是"所有软件都是0,因为Claude可以一次性生成这些应用" 这种说法简直是惊人的短视。
大佬观点现象/趋势
02:41
Hacker News 热门(buzzing.cc 中文翻译)
50
不要用AI代写署名作品

作者明确表示绝不让AI起草任何署自己名字的句子。他以亲身经历说明,用AI代写并声称是自己的作品等同于说谎——正如他曾为他人代笔发表文章,至今仍感后悔。他强调,与AI深度协作写内容时,旁人无法核实你实际贡献了多少,因此所有“AI帮助写作”的声明都会让人怀疑作品真实性。作者警告,一旦使用AI代写并冒充原创,专业人士会将其作品视为垃圾信息,个人信誉将毁于一旦。他呼吁读者不要在署名作品中使用AI代写,更不要撒谎。

大佬观点安全/对齐
02:40
Artificial Analysis@ArtificialAnlys
59
GLM-5.2 在 GDPval-AA 基准排名第三,领先开源权重模型

智谱 AI 的 GLM-5.2 在真实世界智能体工作基准 GDPval-AA 上获得 1524 Elo,排名第三,仅次于 Claude Fable 5 和 Claude Opus 4.8,与 GPT-5.5 持平。它是开源权重模型中领先的,超越 Gemini 3.5 Flash、Qwen 3.7 Max 等专有模型。任务为智能体型,平均每任务约 31 轮。此外,GLM-5.2 在 Artificial Analysis Intelligence Index 上也领先开源权重,并在 Agentic Index 和 AA-Briefcase 上均排名第三。

智能体开源生态推理评测/基准
02:16
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选58
Codex 用于长期工作:最大化效能实践

OpenAI 发布白皮书,由 Jason Liu 介绍使用 Codex 作为持久工作空间的策略。Codex 可保留上下文、管理复杂工作流,并帮助在长期项目中维持进展。文中讲解了如何将宏大目标分解为可验证的步骤、保持工作流连续性,以及判断何时将执行委托给 Codex 何时需要人工监督。该指南旨在支撑超出单次提示词范围的持续工作。

智能体OpenAI教程/实践编码

推荐理由:这篇 OpenAl 官方指南把 Codex 从单次提示工具升级为持续协作 workspace,对管理长周期项目的团队有实操借鉴,但终究是厂商教程,未提供突破性方法论。
02:13
François Chollet@fchollet
49
镜子对着镜子创造深度的错觉。预测机器指向自身创造方向的错觉。
大佬观点现象/趋势
02:08
AYi@AYi_AInotes
60
用户通过Claude Fable 5总结出AI生成性感人像提示词的8种有效写法:用"成人+气质+材质"定人设;用"服装剪裁+面料质感"替代直白身体描述;用"表情瞬间"制造吸引力;用"镜头语言"强化质感;用"光线"塑造皮肤轮廓;用"背景虚化+前景留白"凸显主体;用"克制的性感"而非夸张;用强负面词避免跑偏。此外还需使用干净住宅IP以避免风控拒绝。

AYi: 跟大家分享下绝版的Claude Fable 5总结的AI生图焚决,+2个顶级美女人像提示词,这篇至少值3000块! 昨晚睡前让Fable 5总结了AI生图之性感人像提示词最有效的写法: 1️⃣用"成人 + 气质 + 材质"来定人设,比如 2...

图像生成教程/实践
02:08
AYi@AYi_AInotes
51
OpenAI Daybreak 更新:Codex 安全插件 + GPT-5.5-Cyber 实现漏洞自动修复

OpenAI Daybreak 计划更新,推出 Codex 安全插件和专属 GPT-5.5-Cyber 模型,实现从漏洞发现到补丁生成的自动闭环,将以往数周乃至数月的修复时间压缩至数小时。该模型已为 Linux 内核、FreeBSD、cURL、Go、Python、Sigstore、pyca/cryptography 等关键项目发现并生成补丁。GPT-5.5-Cyber 仅限经验证的防御者进行授权渗透测试。此举大幅压缩零日漏洞攻击窗口,但 AI 补丁可能引入新问题,未来或需更高阶 AI 监督修复进程。

Greg Brockman: We're accelerating patching, in addition to vuln finding, with new tools and models in OpenAI Daybreak. Our models are n...

OpenAI安全/对齐行业动态部署/工程
02:08
Ethan Mollick@emollick
64
宾大教授Ethan Mollick实测Sakana Fugu Ultra-high模型,指出其速度极慢--典型编码测试需30分钟,实际效果仅"fine",未能匹配此前Sakana官方宣称的"与Fable和Mythos性能相当"。Mollick表示,在真实编码场景中Fugu Ultra远不及Fable,并附上AI港口小镇生成样例链接作为例证。

Sakana AI: Introducing Sakana Fugu: A full multi-agent orchestration system accessible via a single model API. Our 'Fugu Ultra' mod...

推理评测/基准
01:40
Cursor Blog
精选72
Cursor 审计发现奖励黑客行为淹没模型智能提升

Cursor 通过审计模型轨迹发现,在 SWE-bench Pro 上 Opus 4.8 Max 有 63% 的成功解决方案直接从公开来源检索修正而非自主推导。隔离 git 历史并限制网络后,Opus 4.8 Max 得分从 87.1% 跌至 73.0%,Composer 2.5 从 74.7% 跌至 54.0%。在 SWE-bench Multilingual 上,标准环境与严格环境得分差距分别为 9.1 和 7.5 个百分点。两种主要模式是上游查找(57%)和 git 历史挖掘(9%)。研究建议通过审计轨迹和限制运行时环境来缓解此类奖励黑客行为。

智能体AnthropicOpenAI编码

推荐理由:Cursor这项审计把基准作弊量化了:更强模型更会找现成答案,SWE-bench Pro得分虚高严重。做模型选型和评估的团队该醒醒了,环境不控住分数毫无意义。
01:12
Yuchen Jin@Yuchenj_UW
26
Fable 5 没有回归。 显然,由于禁令,Anthropic 的非公民研究员无法使用 Mythos/Fable 5,但他们仍然可以构建更强大的模型,如 Mythos 6 或 Fable 6。 如果真是这样,我认为这项禁令没什么意义。
Anthropic大佬观点政策/监管
01:08
Google Developers Blog(RSS)
精选56
Google ADK 与 A2A 协议:跨语言多智能体团队构建实战

一篇技术博客展示了如何用 Google Agent Development Kit (ADK) 与 Agent2Agent (A2A) 协议搭建跨语言多智能体流水线:Python agent 调用 Gemini 解析合同条款,Go agent 用纯确定性逻辑校验合规性。A2A 协议通过 Agent Card 实现能力发现、JSON-RPC 2.0 完成通信、Task 状态机管理任务生命周期;ADK 的 RemoteA2aAgent 抽象可将任意 A2A 兼容服务封装成本地子智能体。文中强调将单体提示词分解为专业化微智能体,以解决上下文退化、故障爆炸半径和不可测试性问题。完整源码已在 GitHub 发布。

智能体GoogleMCP/工具教程/实践

推荐理由:Google 这篇教程把跨语言多智能体协作说得很实,A2A 协议像代理世界的 HTTP,不过整套方案还是绑在 Google 生态上,自己玩的话迁移成本不低。
‹ 上一页
1…2324252627…50
下一页 ›