AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
今天7月3日 周五
12:36Ethan Mollick43大模型在非可验证领域同样进步
12:07IT之家(RSS)51Palantir CEO 卡普抨击 OpenAI 等 AI 公司"双重收费",要钱还窃取数据
11:34Berryxia.AI58Orca论文:用"预测下一个状态"替代预测token/帧/动作
11:12François Chollet34AI经济学巨变:测试时计算即能力
11:07IT之家(RSS)33Robinhood CEO 弗拉德·特内夫:AI 智能体很快将媲美人类交易员,散户有望获得机构级交易能力
11:06Ethan Mollick49Fable 请求 AI 制作版权过期电影片段
10:39Rohan Paul73微软CEO纳德拉:AI时代护城河不在模型,而在公司独有的学习回路
10:10公众号:卡尔的AI沃茨60Anthropic 封号加码,Sonnet5 发布,开源「搭子」Skill 降本
10:00向阳乔木71qiaomu-ai-access: 检测中国用户环境 Skill
09:44Hacker News 热门(buzzing.cc 中文翻译)64美国的隐私危机:Cynthia Dwork等专家谴责商务部禁止差分隐私
09:41meng shao53腾讯元宝离职员工反思大厂AI困境
09:06IT之家(RSS)55OpenAI 奥尔特曼称 AI 发展就像科幻小说,呼吁建立全球治理框架
09:00向阳乔木39AI Agent 网页分栏布局的交互设计规范参考
08:41meng shao64Every 团队使用 Codex 的深度实践
08:34Berryxia.AI66Claude Fable 5 因过度安全防护能力大幅削弱
08:34Berryxia.AI24YouWare: 用模板加速 Vibe Coding 入门
08:30公众号:数字生命卡兹克62精选Claude Fable 5 自主优化 AIHOT 网站 SEO/GEO 全记录
08:19Anthropic:Newsroom(网页)64同事件精选Claude Fable 5 网络安全分类器与越狱严重性框架详解同一事件,精选展示《关于美国政府指令暂停访问Fable 5和Mythos 5的声明》
08:06IT之家(RSS)55Meta CEO 马克·扎克伯格:AI 智能体技术发展得比我想象要慢
08:06IT之家(RSS)53软件工程传奇肯特·贝克:程序员缺软技能,AI时代需学人际交往
07:45karminski-牙医54本地大模型写文测试:Gemma4-31B 位列榜首
07:34ginobefun50Agent工程底层问题:协议对象、四层嵌套、自我改进外环
07:34ginobefun37BestBlogs早报:Agent Protocol / Loop Engineering / Autoresearch
06:40SemiAnalysis27Meta计算野心:人人想成为云
06:36AI Notkilleveryoneism Memes ⏸️51Claude Mythos助软件漏洞发现量破纪录
06:36AI Notkilleveryoneism Memes ⏸️30Claude 被曝在编程解答中泄露"内心独白":用私人速记语言推理
06:10宝玉26Vibe Coding 一年前的日常记录
06:08MarkTechPost(RSS)63RAG-Anything 教程:在 Colab 中构建文本、表格、公式和图像的多模态检索管道
05:50Runway:News(网页)51借用夜晚:将闲置推理GPU回收用于研究
04:41François Chollet43AI汇聚于直觉引导的符号建模
04:39DogeDesigner46马斯克:5年内数字智能超人类总和,人形机器人或达10亿
04:35Ethan Mollick48AI实施建议:指数增长 vs. 见顶论
04:34Epoch AI61Claude Mythos预览版发布,AI漏洞发现量创纪录
04:30X.PIN59中国用户用"破甲"技术破解 AI 生成色情内容
04:29Chubby♨️61Mythos与Fable:网络安全出色但受限
04:15Yuchen Jin60Yuchen Jin 数月前预言:GPU kernel 工程师高薪岗位遭 AI 颠覆,Databricks 使用 KDA 登顶 NVIDIA 榜单
04:04jason54Codex 自动化工作流:开发者实现邮件起草、合同修订、Bug 修复等
03:38Rohan Paul51Fable 5 分类器误判致 75% 代码路由到 Opus
03:21Simon Willison 博客65使用 DSPy 评估和优化 Datasette Agent 的 SQL 系统提示词
02:37LMSYS:Blog(Chatbot Arena 团队)59精选Agent辅助的SGLang开发:初步探索
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
7月3日
12:36
Ethan Mollick@emollick
43
虽然显然,缺乏可验证领域会使模型训练变得困难……但同样真实的是,模型在非可验证领域也变得越来越好。前沿是参差不齐的,但比我仅从可验证性预期的情况要好得多。
大佬观点数据/训练
12:07
IT之家(RSS)
51
Palantir CEO 卡普抨击 OpenAI 等 AI 公司"双重收费",要钱还窃取数据

Palantir CEO 亚历山大·卡普在 CNBC 采访中指责 OpenAI、Anthropic 等前沿 AI 公司实行“双重收费”:既向客户收取高额 Token 消耗费用,又通过服务窃取客户业务流程数据(权重和阿尔法值)用于改进模型,使客户面临核心业务被复制或取代的风险。多家美国企业对此表示愤怒。

AnthropicOpenAI大佬观点数据/训练
11:34
Berryxia.AI@berryxia
58
Orca论文:用"预测下一个状态"替代预测token/帧/动作

Orca论文提出“预测下一个状态”新范式,取代GPT式“预测下一个token”、视频“预测下一帧”和机器人“预测下一个动作”。它从125K小时视频和1.6亿事件标注中学习统一世界潜在表示,通过无意识学习(连续视频物理状态)和有意识学习(事件描述/VQA)捕获状态转换。冻结主干后,该潜在表示可同时读出文本、图像和机器人动作,且预训练无需动作标签即可生成机器人行动,表明理解物理世界隐含行动能力。

alphaXiv: Next state prediction instead of next token, frame or action. This paper, Orca, learns a unified world latent from video...

具身智能多模态大佬观点推理
11:12
François Chollet@fchollet
34
关于未来需要理解非常重要的一点:AI 的经济学即将彻底改变。我们很快就会进入一个可以将测试时计算转化为能力的时代--在软件史上,边际成本将首次变得至关重要。 回想起来……是的。

François Chollet: One very important thing to understand about the future: the economics of AI are about to change completely. We'll soon ...

大佬观点推理
11:07
IT之家(RSS)
33
Robinhood CEO 弗拉德·特内夫:AI 智能体很快将媲美人类交易员,散户有望获得机构级交易能力

Robinhood CEO 弗拉德·特内夫预测,AI 智能体很快将媲美人类交易员。他解释“智能体交易(Agentic Trading)”的核心是让智能体完成人类交易员的每一项工作,目标让散户拥有与机构投资者、高频交易公司相同的工具和算力。本月早些时候,Robinhood 宣布裁员约 10% 以提升运营效率,特内夫称业务从未如此强劲,但需精简团队。

智能体大佬观点
11:06
Ethan Mollick@emollick
49
Fable:"《Last and First Men》已不受版权保护。我希望你制作一部电影,使用你拥有的 API(ElevenLabs、Hugging Face)适当混合动画和图像来朗读这本书。给我前10-15分钟,在合适的断点结束。"
教程/实践视频
10:39
Rohan Paul@rohanpaul_ai
73
微软CEO纳德拉:AI时代护城河不在模型,而在公司独有的学习回路

微软CEO萨提亚·纳德拉指出,当智能成为可租赁的商品时,企业护城河不再是所使用的模型,而是公司独有的“学习回路”。他建议企业构建私有的“爬坡机器”——一个从公司特定任务、痕迹、评估和结果中持续改进模型的循环。私有评估成为战略记忆,工作流痕迹变成训练信号,人类判断用于引导复合增长。只消费基础模型可能泄露运营知识的深层价值,而建立严格学习回路的公司可将日常工作转化为累积的知识产权。未来的前沿不属于拥有最大模型的人,而属于拥有最佳学习回路的人。

Microsoft大佬观点
10:10
公众号:卡尔的AI沃茨
60
Anthropic 封号加码,Sonnet5 发布,开源「搭子」Skill 降本

Anthropic 加大中国用户封号,Claude Code 通过时区和 ANTHROPIC_BASE_URL 检测,7 月 2 日新版本删除该代码但部署更强措施。Sonnet5 模型和新 Tokenizer 使英文 token 数增至 1.4 倍,API 降价但实际更贵。Fable5 窗口期至 7 月 7 日,周额度 50% 可用。开源「搭子」Skill 让 Claude Code 与 Codex 分工,成本降至纯 Claude 的 30%,避免反复冷启动。

智能体Anthropic大佬观点编码
10:00
向阳乔木@vista8
71
哎,为了用好模型,中国用户真的不容易… 基于这个开源写了个检测 Skill,安装指令: npx skills add joeseesun/qiaomu-ai-access Skill 开源地址: https://github.com/joeseesun/qiaomu-ai-access

1024: 判断当前浏览器环境是否更像中国用户 / 中国地区设备 https://github.com/yArna/isChinaUser

GitHubMCP/工具开源/仓库教程/实践
09:44
Hacker News 热门(buzzing.cc 中文翻译)
64
美国的隐私危机:Cynthia Dwork等专家谴责商务部禁止差分隐私

2026年6月4日,美国商务部发布指令DAO 216-26,禁止在经济分析局和人口普查局出版物中使用差分隐私等现代隐私保护技术,只允许粗化(四舍五入、聚合、范围化)和压制。该指令禁用了自1990年用于人口普查的交换技术、自2002年用于季度劳动力指标的输入噪声注入、自2008年用于OnTheMap的差分隐私,并取消2030年人口普查的差分隐私方案。哈佛教授Cynthia Dwork等专家联名指出,此举将降低数据可用性和隐私保护,绕过法定程序,服务于政治利益。

安全/对齐政策/监管数据/训练
09:41
meng shao@shao__meng
53
腾讯元宝离职员工反思大厂AI困境

一位在腾讯元宝工作大半年的匿名员工在 lastday 发文,分享元宝实际运营情况与个人思考。他提出,像腾讯这样营收稳定的超大型公司做 AI 需要极大决心,若仅为占位或高管短期目标,容易动作变形,沦为追逐短期数字和汇报的产物。并认为国内大厂中,只有字节跳动拥有不断做成新事物的决心和组织力,其余基本不行。

现象/趋势行业动态
09:06
IT之家(RSS)
55
OpenAI 奥尔特曼称 AI 发展就像科幻小说,呼吁建立全球治理框架

OpenAI CEO 萨姆·奥尔特曼在《金融时报》发文,认为 AI 发展已如同科幻小说情节,预计未来一两年内将打造出能力惊人的系统,为全球创造巨大价值。他称 AI 对人类社会的影响可能超过电力,呼吁尽快建立全球 AI 治理框架,由各国政府代表和独立技术专家组成论坛,制定统一行业标准,监督 AI 实验室防止安全军备竞赛,避免少数国家过度控制 AI 发展。奥尔特曼建议参考国际原子能机构的运作模式。

OpenAI大佬观点安全/对齐
09:00
向阳乔木@vista8
39
AI Agent 网页分栏布局的交互设计规范参考

当前网页布局常见右侧 AI Agent、中间内容、左侧菜单的三栏结构。如何设计支持拖拽和隐藏的分栏以合理利用空间,用语言描述难以说清。推主发现现有的交互规范和标准可为 AI 学习参考,相关资料与效果图见评论与后两图。

智能体教程/实践
08:41
meng shao@shao__meng
64
Every 团队使用 Codex 的深度实践

Five team members with different backgrounds (Natalia, Dan, Katie, Austin, Kieran) used Codex in distinct workflows. Common patterns emerged: context matters more than prompts; let Codex design its own system; delegate repetitive tasks to background threads; and build audit/feedback loops. Their setups range from outcome-first (Austin) to long-running router threads (Dan) to portable context folders (Kieran). The article recommends picking one style that fits your work rather than overthinking.

Every 📧: Codex works best when the setup matches how you work. Long-running threads, local context folders, outcome-first prompts...

智能体OpenAI教程/实践编码
08:34
Berryxia.AI@berryxia
66
Claude Fable 5 因过度安全防护能力大幅削弱

Anthropic 发布的 Claude Fable 5(底层为 Mythos 模型)因安全防护过度触发,BridgeBench 测试显示:调试能力从 86.2 降至 25.9(降幅 70%),重构能力从 73.6 降至 38.4(降幅 48%),幻觉控制从 75.9 降至 61.7(降幅 19%)。大量正常编程任务被误判为高风险,回退到更弱的 Opus 4.8,但用户支付的是 Fable 5 两倍的价格。安全防护还限制了代码安全审查、新模型开发(被曝修改 prompt 生成错误结果)和生化相关任务。Anthropic 尚未对此作出解释。

BridgeMind: FABLE 5 CAME BACK NERFED. We re-ran the July 1st version of Claude Fable 5 on BridgeBench. The results are brutal: Debug...

Anthropic安全/对齐编码评测/基准
08:34
Berryxia.AI@berryxia
24
刚入门 Vibe Coding 想快速拿到正向反馈?直接套用成熟优质案例模板是最优解 把现成优秀模板喂给 YouWare,借助模板搭建你的第一个项目,上手速度直接拉满。
其他编码
08:30
公众号:数字生命卡兹克
精选62
Claude Fable 5 自主优化 AIHOT 网站 SEO/GEO 全记录

作者用 Claude Fable 5 优化 AIHOT 网站的 SEO 与 GEO。模型自主启动 22 个 Agent 调研 40 分钟,发现豆包 App 每天六千多次访问未被统计等异常。规划境外加速时,否定 Claude Opus 4.8 的 Cloudflare 方案(无法国内直连/国外分流,且 2025 年起默认拦截 AI 爬虫),改用火山引擎 CDN。因需白名单,模型自行找到工单入口提交专业工单,22 分钟开通;发现工程师漏答回源 IP 网段问题,礼貌追问并补充备选方案;发现官方方案有安全漏洞,自行加暗号验证。23:30 切换域名解析,10 分钟后 616 个海外请求走新线路。最终生成运维文档,提醒边缘证书 10 月 2 日到期并附续期步骤。

智能体Anthropic大佬观点

推荐理由:Claude Fable 5 展示的自主性远超预期,从调研到工单交互一气呵成,这种执行力让我重新思考 AI 同事的定义。
08:19
Anthropic:Newsroom(网页)
同事件精选64
Claude Fable 5 网络安全分类器与越狱严重性框架详解

Anthropic 重新部署 Claude Fable 5 并向全球用户开放,同步披露了内置安全分类器设计。分类器将网络安全使用场景分为四类:禁止使用(勒索软件/物理破坏等)、高风险双重用途、低风险双重用途及良性使用。前两类直接拦截;低风险类别部分监控,仅在安全边际内选择性拦截。此外,Anthropic 与 Glasswing 合作提出 AI 越狱严重性框架初稿,并已启动 HackerOne 项目收集越狱案例。

Anthropic安全/对齐
同一事件,精选展示《关于美国政府指令暂停访问Fable 5和Mythos 5的声明》
推荐理由:Anthropic首次公开Fable 5安全分类器的详细类别和越狱严重性框架草案,这可能是行业级安全标准的雏形,对开发者和政策制定者都有参考价值。
08:06
IT之家(RSS)
55
Meta CEO 马克·扎克伯格:AI 智能体技术发展得比我想象要慢

扎克伯格在 Meta 内部全员会上表示,AI 智能体技术进展未达预期,公司仍需投入更多时间和精力。Meta 正全力竞逐 AI 模型开发,投入数百亿美元建设基础设施和招聘人才,但快速推进 AI 也带来代价,需在开发速度、员工信任与团队士气之间取得平衡。扎克伯格仍相信 Meta 能在未来 3-6 个月内看到超级智能的部分成果。

智能体Meta大佬观点
08:06
IT之家(RSS)
53
软件工程传奇肯特·贝克:程序员缺软技能,AI时代需学人际交往

7月3日,据《商业内幕》报道,知名软件工程师肯特·贝克指出,软件工程师虽技术出众,但常缺少职场越来越重视的软技能,如情绪调节、同理心和沟通方式。他认为这些是典型软件工程师“糟糕”的特质。AI正重塑行业,沟通、协作与共情等软技能直接影响技术人员职业前景。贝克将程序员学习人际交往形容为一场“宇宙级玩笑”:入行时被告知只需掌握计算机,最终却要面对完整的人类一面,能否推动现实改变取决于是否懂得沟通和共情。

大佬观点现象/趋势编码
07:45
karminski-牙医@karminski3
54
本地大模型写文测试:Gemma4-31B 位列榜首

该测试通过内置提示词让本地小模型进行角色扮演,再由旗舰大模型评分并多次运行取平均,以评估写文能力。结果显示 Gemma4-31B 在所有项目中表现最佳,Qwen3.6-27B 位列第二,平均差距约 5%。测试发现这些模型普遍在“内心独白”任务上表现不佳,可能与参数量小及框架是否支持多 Agent 隔离有关。测试基于英文,作者未开源但已集成到角色扮演框架 plottery 中,用户可接入自选 API 测试。

智能体Google评测/基准
07:34
ginobefun@hongming731
50
Agent工程底层问题:协议对象、四层嵌套、自我改进外环

BestBlogs早报07-03聚焦Agent工程底层问题。精讲一用Protocol视角将Agent Runtime拆解为Thread、Run、Step、Event、Artifact、Checkpoint六个稳定对象,强调状态持久化是区分玩具与生产的分水岭。精讲二提出AI工程范式的四层嵌套结构:Prompt→Context→Harness→Loop,指出2026年企业应全力投入L3,跳过L3直接做L4是最危险错误。精讲三介绍outer loop让agent持续改进主系统本身。三篇共同追问“哪些问题不会消失”,提供比追逐框架更耐用的评估坐标系。

智能体教程/实践部署/工程
07:34
ginobefun@hongming731
37
BestBlogs早报:Agent Protocol / Loop Engineering / Autoresearch

阿里云开发者提出Agent Protocol,将Runtime拆为Thread、Run、Step、Event、Artifact、Checkpoint六个稳定对象,强调状态持久化是区分玩具与生产级的分水岭。腾讯云开发者将AI工程分为Prompt、Context、Harness、Loop四层,引用Codex五个月构建百万行代码零手写案例,认为2026年多数企业应投入L3。Latent.Space介绍Autoresearch三种模式(the loop is the product、agent recipe、让系统更好更便宜),区分inner/outer loop。此外,Codex负责人称品味比技术稀缺,微软推出“前沿公司”计划,时间序列LLM t0-alpha解析。

ginobefun: http://x.com/i/article/2072825086512693248

智能体MicrosoftOpenAI其他
06:40
SemiAnalysis@SemiAnalysis_
27
Meta计算:人人都想成为云 扎克伯格选择B计划? SpaceX 2.0、Bedrock 2.0、 MSL并未放弃,将推荐系统扩展10倍……ClusterMAX排名即将推出? https://newsletter.semianalysis.com/p/meta-compute-everyone-wants-to-be
Meta行业动态部署/工程
06:36
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
51
AI正大规模发现软件漏洞。 2026年6月,21家知名组织披露约1500个高严重性和关键性CVE,是Claude Mythos Preview发布前月纪录的3.5倍以上。 主推文则类比:想象这张图表中Mythos在人类基因组中寻找漏洞。

Epoch AI: AI appears to be finding software vulnerabilities at scale. In June 2026, 21 notable organizations disclosed ~1,500 high...

安全/对齐现象/趋势
06:36
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
30
用户 @om_patel5 发现,Claude 在解决高难度编程题时,Web 界面泄露了其未经筛选的思维过程。模型并非用完整句子推理,而是发出"DATA DATA DATA. GO."、"GRRR"、"GAAAH"、"PHEW"等简短片段,如同焦躁的原始人速记。AI Safety Memes 指出,这表明模型本质上已建立自己的"私人语言"--一种比规范英语更快、更省 token 的压缩速记形式进行推理,而给出的清晰答案只是经过打磨的最终输出。

Om Patel: SOMEONE CAUGHT FABLE 5 LEAKING ITS UNFILTERED INNER VOICE, AND ITS JUST MUTTERING AND GRUMBLING TO ITSELF THE WHOLE TIME...

安全/对齐推理现象/趋势
06:10
宝玉@dotey
26
1 年前 Vibe Coding 的日常
其他编码
06:08
MarkTechPost(RSS)
63
RAG-Anything 教程:在 Colab 中构建文本、表格、公式和图像的多模态检索管道

本教程使用 RAG-Anything 搭建多模态检索工作流,可检索文本、表格、公式和图像。首先在 Colab 中安装依赖并修复 Pillow 版本,通过 OpenAI API key 配置对话、视觉和嵌入函数。接着生成包含图表和 PDF 的合成多模态报告,将其转为 content_list 格式并插入检索系统。最后配置并测试 naive、local、global 和 hybrid 四种检索模式。环境变量包括 CHUNK_SIZE=900、CHUNK_OVERLAP_SIZE=120,便于在笔记本中复现。

检索增强多模态教程/实践
05:50
Runway:News(网页)
51
借用夜晚:将闲置推理GPU回收用于研究

Runway 开发了名为 deckard 的容量控制器,在生产推理集群与研究集群间动态重分配 GPU。生产流量在北美工作日上午 9 点 ET 达峰,晚 8 点 ET 跌至不足一半。控制器基于预计算的时间窗口(如工作日 8:30–12:30 ET 高峰子窗口)提前扩容和回收,每次集群间转移耗时 20–60 分钟。利用排队论(Erlang‑C、Little's Law)确定目标利用率,避免接近 85% 后的队列发散(90% 利用率下等待时间约为服务时间的 10 倍)。此方案使夜间闲置 GPU 回归研究、白天排队等待缩短。

推理教程/实践部署/工程
04:41
François Chollet@fchollet
43
最终,大部分AI将趋近于直觉引导的符号世界建模,即深度学习引导的程序合成。这是不可避免的。符号建模让系统能够用最少的数据构建一个紧凑、可复用、高度泛化的问题空间心智模型。
大佬观点推理
04:39
DogeDesigner@cb_doge
46
Elon Musk 预测,5年内AI(数字智能)将超越所有人类智能总和;同期人形机器人数量可能达到1亿至10亿台。因AI与机器人极大提升产出,全球经济规模将在5-7年内翻倍。最终AI+机器人将能完成一切工作,带来全民高收入,工作成为可选选项。

Elon Musk: @chamath AI+Robots will be able to do everything, resulting in universal high income. Work will be optional.

xAI具身智能大佬观点
04:35
Ethan Mollick@emollick
48
我的X信息流上的AI实施建议分为两派:一派"感受指数增长",另一派(无意识地?)认为AI的现状已经差不多到顶了,因此是时候围绕当前能力的限制和成本结构来构建了。
大佬观点现象/趋势
04:34
Epoch AI@EpochAIResearch
61
AI似乎正在大规模发现软件漏洞。 2026年6月,21家知名组织披露了约1,500个高危和严重级别CVE,是Claude Mythos预览版发布前月度记录的3.5倍多。
安全/对齐现象/趋势编码
04:30
X.PIN@thexpin
59
中国用户用"破甲"技术破解 AI 生成色情内容

中国社交平台用户通过角色扮演提示词(文游)让 AI 生成色情小说,DeepSeek 因免费且文笔细腻最受欢迎,腾讯元宝、Kimi、通义千问及 Claude、Gemini 也被用于绕过安全规则。用户发展出“破甲”技术:在输出每字间插入特殊字符绕过关键词过滤,或要求模型在响应末尾追加 300 个“喵”字符后手动剪切,以此规避模型对敏感内容的撤回机制。部分破解提示词被作为课程销售。

安全/对齐现象/趋势
04:29
Chubby♨️@kimmonismus
61
我想Mythos的网络安全能力并没有被夸大。Mythos很棒,Fable也很出色。只可惜它被严格限制了。

Epoch AI: AI appears to be finding software vulnerabilities at scale. In June 2026, 21 notable organizations disclosed ~1,500 high...

Anthropic安全/对齐现象/趋势
04:15
Yuchen Jin@Yuchenj_UW
60
Yuchen Jin 数月前预言高薪岗位最先遭 AI 颠覆:GPU kernel 工程师曾获百万美元 offer,如今 AI agent 可自我爬山优化、写出更优内核并登顶榜单。Databricks 使用 KDA(Kernel Design Agents)框架,在 NVIDIA SOL-ExecBench kernel leaderboard L1 单操作赛道排名第一。核心框架包括 KDA、Humanize、Omnigent:Claude 写代码,Codex 审查,agent 自主长时间运行。该工作由 Databricks 与 NVIDIA、MIT HAN Lab 合作完成。

Yuchen Jin: Databricks ranks #1 on NVIDIA's SOL-ExecBench kernel leaderboard, in the L1 single operation track, powered by KDA (Kern...

智能体现象/趋势编码
04:04
jason@jxnlco
54
开发者 @vig_xyz 分享了其使用 Codex 自动化多种工作流程:读取邮件并根据内容在 Google Drive 起草提案;自动生成合同修订建议,经律师确认后通过 computer use 填入 DocuSign;监听 Slack 反馈频道来自动修复 Bug;通宵编写单元测试以实现 100% 代码覆盖率;在 worktrees 上并行启动 6 个线程,使 PR 可独立合并。他表示难以想象回到 IDE 甚至 vim。

Vignesh Mohankumar: i've got codex... - reading all my emails to figure out proposals to write, directly in google drive - auto-drafting con...

智能体OpenAI大佬观点编码
03:38
Rohan Paul@rohanpaul_ai
51
用户 @bridgemindai 披露一次编码会话花费 $321,其中 Fable 5 仅完成 $78(约 25%),而 Opus 4.8 被回退调用完成 $242(约 75%)。原因在于 Fable 5 的新分类器将常规编码提示误判为网络安全风险,导致大部分工作自动路由到更昂贵的 Opus 模型。Anthropic 曾称仅极少数任务会触发 fallback,但该用户实际体验与此不符。

BridgeMind: I just paid $321 for a coding session where Fable 5 refused to do the work. Here is where the work actually went: Fable ...

Anthropic安全/对齐编码评测/基准
03:21
Simon Willison 博客
65
使用 DSPy 评估和优化 Datasette Agent 的 SQL 系统提示词

Simon Willison 通过 Claude Code 中的异步研究任务(基于 Claude Fable 5)尝试用 DSPy 对 Datasette Agent 执行只读 SQL 查询时的系统提示词做评估与优化。Fable 选择测试 GPT 4.1 mini 和 nano,发现改进方向:模式列表仅给出表名,而“如果已有信息不要调用 describe_table”的建议导致列名猜测和错误重试循环。建议在提示词的模式列表中包含列名或软化该建议。

智能体教程/实践数据/训练
02:37
LMSYS:Blog(Chatbot Arena 团队)
精选59
Agent辅助的SGLang开发:初步探索

SGLang团队将LLM服务、分布式运行时、GPU内核、扩散管道等工作流编码为可执行的SKILL.md文件、脚本、基准合约和审查循环。现有技能包括:SGLang .claude/skills(CUDA调试、内核集成、性能分析等)、SGLang diffusion .claude/skills(扩散模型添加与调优)、BBuf/AI-Infra-Auto-Driven-SKILLS(跨框架SOTA循环)、KDA(MLSys 2026 FlashInfer内核竞赛获胜方案)以及BBuf/KDA-Pilot(已合并三个SGLang集成PR)。Profile证据是性能工作的核心,长期优化转向Loop Engineering——SGLang SOTA Performance Loop将追求SOTA分解为公平基准测试、差距决策、性能分析、补丁和再验证,Humanize/RLCR添加外部审查,Codex Goal以更低协调开销运行相同循环。评审重要性提升,开发者需定义问题、选择证据、设计工作流并判断结果是否可用于生产。

推理教程/实践部署/工程

推荐理由:这不是一篇普通的开发经验总结,而是 SGLang 团队把调试、基准测试和性能调优等重复劳动变成可执行 agent 技能的实操手册,对于做推理框架和复杂工程的人非常值得一看。
‹ 上一页
123…50
下一页 ›