AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「编码」清除
6月10日周三
05:07fofr60AI编码智能体的终局与创业影响
04:55Hugging Face:Blog(RSS)73精选Cohere发布North Mini Code:面向开发者的开源编码模型
04:43TechCrunch:AI(RSS)72同事件精选Anthropic 的 Claude Fable 5 能一键生成古怪好玩的视频游戏同一事件,精选展示《Claude Fable 5 和 Claude Mythos 5》
04:21OpenAI:官网动态(RSS · 排除企业/客户案例)30Nextdoor 工程师借助 Codex 与 GPT-5.5 无限制构建
04:03Boris Cherny62Boris Cherny:Claude Fable 5 是自 Opus 4.5 以来最大提升
03:17Rohan Paul75精选Claude Code 团队 Thariq 分享提升 Claude Code 效率的十条建议
03:15Ethan Mollick68Opus 4.8 一次生成新哥特式海洋城市着色器
03:04jason49用Codex编排循环实现自动化协调
02:51Artificial Analysis61Artificial Analysis 将于6月11日举办编程智能体基准测试活动
02:45The Decoder:AI News(RSS)72Anthropic 发布 Claude Fable 5 和 Mythos 5,编程和科学能力大幅提升
02:21Artificial Analysis62Artificial Analysis 编码智能体基准测试活动本周四举行
02:19歸藏(guizang.ai)77Anthropic 发布 Mythos 低配版 Fable 5
02:11Nathan Lambert63Claude Fable 5 在 APEX-SWE 评测中夺冠,Observability 类别首破 50%
02:11Nathan Lambert59Claude 5 Fable性能激增,验证Opus 4.5预言
02:05eric zakariasson75精选Cursor Evals 新增成本与输出 Token 图表
02:00Boris Cherny95Fable 5 现已登陆 Claude Code 和 Cowork
01:59ClaudeDevs59Claude Fable 5 改变 Claude Code 团队工作方式
01:42宝玉77Anthropic发布Claude Fable 5与Mythos 5
01:38swyx70Mythos上线:FrontierCode基准测试发布
01:36OpenRouter77Claude Fable 5 上线 OpenRouter
01:35eric zakariasson75Claude Fable 5 上线 Cursor 创高分
01:32OpenCode65Cohere首个编程模型North Mini Code免费开源
01:19Yuchen Jin71Claude Fable 5 全面领先,价格仅 Opus 4.8 两倍
01:13The Verge:AI(RSS)77Anthropic 发布首个 Mythos 系列模型 Claude Fable 5
01:04Anthropic:Newsroom(网页)90精选Claude Fable 5 和 Claude Mythos 5
00:46AK56SWE-Explore:编码智能体仓库探索
00:35OpenRouter73同事件精选OpenRouter与Cursor集成指南同一事件,精选展示《OpenRouter 模型现可在 Cursor 中使用:试试月之暗面 Kimi K2》
00:35Google Gemini51Gemini 3.5 Flash 可视化转交互代码
00:33jason24Codex创建PDF常见问题
00:20Artificial Analysis70Cohere发布North Mini Code:30B总参数(3B活跃)开源编码模型
00:18GitHub Blog68精选GitHub Copilot CLI 推出自定义 AI 智能体,将一次性终端提示转化为可重复工作流
6月9日周二
22:06Hacker News 热门(buzzing.cc 中文翻译)51为AI明星开发者收拾残局
21:42The Verge:AI(RSS)58Apple 的最佳 AI 创意与 vibe coding 高度相似
21:02凡人小北21TRAE 路子走宽获网友点赞
21:00Boris Cherny70Claude Code 支持嵌套子智能体
20:14Rohan Paul66Cognition 推出 FrontierCode 编码基准:评估 AI 代码的可合并性
19:40Tibo49Codex如指挥管弦乐,一次一个/goal
16:42MarkTechPost(RSS)70精选NVIDIA cuTile Python 教程:在 Colab 中构建用于向量加法、矩阵加法和矩阵乘法的 Tiled GPU 内核
16:39SiliconFlow61硅基流动联合CodeWhale推出DeepSeek V4终端最佳性价比组合
14:22IT之家(RSS)72精选AI 编程独角兽 Cursor 欧洲总部落子伦敦,SpaceX 手握 600 亿美元收购选择权
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月10日
05:07
fofr@fofrAI
60
AI编码智能体的终局与创业影响

AI编码智能体变快变强但更贵更受限,人类角色从写代码、管理智能体转向定义正确性与承担责任的混合体(产品所有者、律师、审计员)。代码本身不再被关注,软件通过意图指定、行为验证,中间层透明。前沿模型昂贵导致资源充足者用最佳智能体复制优势,其他人用便宜旧模型,代码成为资本品。创业上,想法到产品成本趋零但可快速被模仿,软件不再是护城河,价值转向数据、网络效应、品牌、监管许可。最终可能形成大量小众利基企业和中部残酷整合。

智能体大佬观点编码
04:55
Hugging Face:Blog(RSS)
精选73
Cohere发布North Mini Code:面向开发者的开源编码模型

Cohere发布North Mini Code,一款30B参数MoE模型(3B活跃参数),Apache 2.0开源。在Artificial Analysis Coding Index上得分33.4,超越Qwen3.5、Gemma 4等同类模型。后训练采用两阶段SFT和RLVR,在SWE-Bench Verified上pass@10达80.2%,Terminal-Bench v2上达55.1%。支持64K/128K上下文长度,专为智能体编码任务优化。

智能体开源生态模型发布编码

推荐理由:Cohere的新编码模型North Mini Code以30B参数MoE架构,在SWE-bench pass@1达到61%,Apache 2.0开源,是小模型在agent coding领域真正可用的信号。
04:43
TechCrunch:AI(RSS)
同事件精选72
Anthropic 的 Claude Fable 5 能一键生成古怪好玩的视频游戏

Anthropic 发布 Claude Fable 5,可一键生成古怪好玩的视频游戏,预计将在网页 vibe coders 中广受欢迎。

Anthropic模型发布编码评测/基准
同一事件,精选展示《Claude Fable 5 和 Claude Mythos 5》
推荐理由:Fable 5是Mythos的首次公开亮相,Ethan Mollick的单提示生成游戏实测让人看到代码生成已近‘一键出活’,对开发者来说是个信号——整个技术栈都要重新评估。
04:21
OpenAI:官网动态(RSS · 排除企业/客户案例)
30
Nextdoor 工程师借助 Codex 与 GPT-5.5 无限制构建

Nextdoor 工程师利用 Codex 搭配 GPT-5.5 调查难以复现的问题、实现跨平台构建,并集中精力于产品成果。

OpenAI编码行业动态
04:03
Boris Cherny@bcherny
62
Boris Cherny:Claude Fable 5 是自 Opus 4.5 以来最大提升

Anthropic 工程师 Boris Cherny 称,Fable 5 是自去年 11 月 Opus 4.5 以来感受最显著的提升。模型从编程 Agent 进化为产品构建中的思考与设计伙伴,具备了判断力、品味和维度。尤其在调试时表现出前所未有的系统化:先测量、加日志,验证修复后才宣告完成,他将其归因于模型自身的“大模型味道”。整条推文聚焦主观体验,未提及 benchmark 分数、参数规模或价格。

Anthropic大佬观点编码
03:17
Rohan Paul@rohanpaul_ai
精选75
Claude Code 团队 Thariq 分享提升 Claude Code 效率的十条建议

Thariq(Claude Code 团队)提出十条建议,核心转变是:从检查 Claude 是否做对工作,转向检查它是否在做正确的工作。具体包括:提前提供完整上下文,将其视为思考伙伴;用小规格文档让 Claude 访谈实现细节;探索多方向并生成 HTML 原型;提供丰富上下文(如功能可能一个月后删除)而非硬约束;设定明确目标与验证方法;使用 /goal 命令;利用 Workflows 并行任务、自我验证并生成对比报告;同时设置目标和 workflow;更勇敢地将此前认为 LLM 无法完成的任务交给 Claude Fable 5,因其可运行数小时、自检并产出高质量代码。Thariq 本人用 Claude Fable 5 剪辑了整段视频证明其能力。

Rohan Paul: "We used to check if Claude is doing the work right, e.g. by double-checking its output, catching when it stopped early ...

智能体Anthropic教程/实践编码

推荐理由:Claude Code团队的实战建议,把Claude从“执行工具”升级为“思考伙伴”,用/goal和Workflows实现自我验证,这套工作流比新功能本身更有价值。
03:15
Ethan Mollick@emollick
68
Ethan Mollick 获得 Opus 4.8 早期访问,对其印象深刻。他展示了 Opus 4.8 一次生成的 twigl 着色器,通过纯数学程序化生成了无限延伸的新哥特式塔楼城市,部分淹没于暴风雨海洋中,伴有大浪。整个过程完全由数学驱动。

Ethan Mollick: I had early access to Opus 4.8. Was impressed by it. Here is Opus 4.8's one shot of "create a visually interesting shade...

Anthropic模型发布编码
03:04
jason@jxnlco
49
loop this loop that 但说实话,如果你足够擅长使用 Codex 配合编排循环,你也可以成为那些周二上午 11:20 在 Equinox 的人之一。 "写好首席助理的线程,然后每 100 分钟检查我所有的连接器,协调我所有置顶线程中的工作"
智能体OpenAI教程/实践编码
02:51
Artificial Analysis@ArtificialAnlys
61
Artificial Analysis 将于6月11日举办编程智能体基准测试活动

Artificial Analysis 宣布将于6月11日(周四)在旧金山举办 Coding Agent Benchmarks 活动。演讲嘉宾包括 Cognition 高级研究副总裁 Silas Alberti、Cursor 工程师 Nate Schmidt、Kernel Labs 创始人兼 Latent Space 播客联合主持人 Alessio Fanelli,以及 Artificial Analysis 联合创始人 George Cameron。更多嘉宾待公布,活动将在 Kernel Labs 举行,可通过 Luma 链接申请参会。

智能体编码行业动态评测/基准
02:45
The Decoder:AI News(RSS)
72
Anthropic 发布 Claude Fable 5 和 Mythos 5,编程和科学能力大幅提升

Anthropic 推出 Claude Fable 5 和 Mythos 5 两款新模型,声称全面超越当前 Opus 代,尤其在编程与科研方面。Fable 5 一天内完成 Stripe 的代码迁移,原需团队两个月工作量;Mythos 5 可自主设计候选药物,但因具备进攻性网络能力,目前仍保持封闭不开放。

Anthropic安全/对齐模型发布编码
关联讨论 26 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)TechCrunch:AI(RSS)Ethan Mollick:One Useful Thing(RSS)X:小互 (@xiaohu)Claude Code:GitHub Releases(RSS)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Artificial Analysis (@ArtificialAnlys)X:Andrej Karpathy (@karpathy)X:卡兹克 (@Khazix0918)IT之家(RSS)公众号:卡尔的AI沃茨X:Berry Xia (@berryxia)X:Vista (@vista8)X:Claude (@claudeai)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)X:Dario Amodei (@DarioAmodei)The Verge:AI(RSS)The Decoder:AI News(RSS)Hacker News 热门(buzzing.cc 中文翻译)公众号:数字生命卡兹克
02:21
Artificial Analysis@ArtificialAnlys
62
Artificial Analysis 编码智能体基准测试活动本周四举行

Artificial Analysis 主办的 Coding Agent Benchmarks 活动将于本周四(6月11日)在旧金山 Kernel Labs 举行。演讲嘉宾包括 Cognition 研究高级副总裁 Silas Alberti、Cursor 评估与行为工程师 Nate Schmidt、Kernel Labs 创始人兼 Latent Space 播客联合主持人 Alessio Fanelli 以及 Artificial Analysis 联合创始人 George Cameron,更多嘉宾待公布。活动聚焦编码智能体基准测试,设有演讲和讨论环节,可申请参加。

智能体编码行业动态
02:19
歸藏(guizang.ai)@op7418
77
Anthropic 发布 Mythos 低配版 Fable 5

Anthropic 正式发布 Mythos 模型的低配版本 Fable 5,定位为面向通用场景的 Mythos 级模型。其各项基准分数超过此前任何公开发布模型,在 Agent Coding、工具调用方面得分远高于 Opus 4.8。Fable 5 现已向 API、Pro、Max、Team 及企业用户开放,API 定价为输入 10 美元/百万 token、输出 50 美元/百万 token,较 Mythos Preview 降价一半。安全方面,系统会拒绝网络攻击、生化攻击等恶意请求,必要时回退至 4.8 版本(官方称 95% 不回退)。订阅方面,6 月 23 日后 Fable 5 可能按量计费,不保证完全包含在基础订阅中。

Claude: Introducing Claude Fable 5: a Mythos-class model that we've made safe for general use. Its capabilities exceed those of ...

智能体Anthropic模型发布编码
关联讨论 26 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)TechCrunch:AI(RSS)Ethan Mollick:One Useful Thing(RSS)X:小互 (@xiaohu)Claude Code:GitHub Releases(RSS)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Artificial Analysis (@ArtificialAnlys)X:Andrej Karpathy (@karpathy)X:卡兹克 (@Khazix0918)IT之家(RSS)公众号:卡尔的AI沃茨X:Berry Xia (@berryxia)X:Vista (@vista8)X:Claude (@claudeai)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)X:Dario Amodei (@DarioAmodei)The Verge:AI(RSS)The Decoder:AI News(RSS)Hacker News 热门(buzzing.cc 中文翻译)公众号:数字生命卡兹克
02:11
Nathan Lambert@natolambert
63
Claude Fable 5 在 APEX-SWE 软件工程评测中取得 65.5% Pass@1 总体成绩,较 Claude Opus 4.8 高约 18 个百分点。两个子类别中,Integration 为 61.3%,Observability 高达 69.7%,后者比 Opus 4.8 领先 26 个百分点。Fable 5 是首个在 Observability 类别突破 50% 的模型,也是唯一在该项上得分高于 Integration 的模型(其他模型均相反)。Observability 此前一直是所有模型的瓶颈,Fable 5 首次打破这一局面。主推文认为,虽然模型 token 价格不菲,但对大量企业而言物有所值。

Mercor: Claude Fable 5 takes #1 on APEX-SWE: 65.5% Pass@1 overall. It scores ~18pp higher than Opus 4.8. We tested @claudeai Fab...

Anthropic推理编码评测/基准
02:11
Nathan Lambert@natolambert
59
Claude 5 Fable性能的疯狂跃升验证了那些说"Opus 4.5确实,我该(基本)停止手写代码,为未来做好准备"的人。更多跃升还在前方!
Anthropic大佬观点编码
02:05
eric zakariasson@ericzakariasson
精选75
我们刚刚向 http://cursor.com/evals 推送了一些改进! 你现在可以看到每个模型的成本、输出 token 和步骤绘制在图表中

nate: http://cursor.com/evals now includes steps and output tokens as well! These are additional signals our team uses to eval...

产品更新编码

推荐理由:Cursor Evals 这次更新不大,但把成本和步骤可视化放进评估页面,标志着选模型从拼跑分转向算账,做 AI 产品的该去看看。
02:00
Boris Cherny@bcherny
95
开发者 Boris Cherny 宣布,Claude Fable 5(Mythos-class 模型,已安全开放通用)已在 Claude Code 及 Cowork 中可用。该模型能力超过此前所有普遍可用的 Claude 模型,在编程任务中表现突出:需要更少的提示词和引导,token 使用更高效,代码质量、工具调用能力、智能自验证能力均有显著提升,支持更长时间的会话,且可赋予更高信任度与自主性。

Claude: Introducing Claude Fable 5: a Mythos-class model that we've made safe for general use. Its capabilities exceed those of ...

Anthropic模型发布编码
关联讨论 26 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)TechCrunch:AI(RSS)Ethan Mollick:One Useful Thing(RSS)X:小互 (@xiaohu)Claude Code:GitHub Releases(RSS)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Artificial Analysis (@ArtificialAnlys)X:Andrej Karpathy (@karpathy)X:卡兹克 (@Khazix0918)IT之家(RSS)公众号:卡尔的AI沃茨X:Berry Xia (@berryxia)X:Vista (@vista8)X:Claude (@claudeai)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)X:Dario Amodei (@DarioAmodei)The Verge:AI(RSS)The Decoder:AI News(RSS)Hacker News 热门(buzzing.cc 中文翻译)公众号:数字生命卡兹克
01:59
ClaudeDevs@ClaudeDevs
59
Claude Fable 5 改变了我们 Claude Code 团队的日常运作方式。 我们过去常常验证 Claude 是否正确完成了工作。现在我们验证它是否在做正确的工作。 以下是最大的三个变化:
智能体Anthropic教程/实践编码
01:42
宝玉@dotey
77
Anthropic发布Claude Fable 5与Mythos 5

Anthropic同日推出两款模型:Fable 5面向所有用户,配备安全分类器(检测攻击/生化武器/蒸馏时降级至Opus 4.8,超95%对话不触发);Mythos 5仅限Project Glasswing合作伙伴。Fable 5能力超越以往:Stripe在5000万行Ruby代码库完成全库迁移(原需两月团队→一天);FrontierCode测试获最高分;仅基础视觉接口通关宝可梦火红版;蛋白质设计加速约10倍;基因组学中自主工作一周多,训练出超越Science论文的模型。API定价输入$10/百万token、输出$50。订阅用户6月22日前免费。所有Mythos级别模型流量强制保留30天(仅安全监控)。

Claude: Introducing Claude Fable 5: a Mythos-class model that we've made safe for general use. Its capabilities exceed those of ...

Anthropic安全/对齐推理模型发布
关联讨论 26 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)TechCrunch:AI(RSS)Ethan Mollick:One Useful Thing(RSS)X:小互 (@xiaohu)Claude Code:GitHub Releases(RSS)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Artificial Analysis (@ArtificialAnlys)X:Andrej Karpathy (@karpathy)X:卡兹克 (@Khazix0918)IT之家(RSS)公众号:卡尔的AI沃茨X:Berry Xia (@berryxia)X:Vista (@vista8)X:Claude (@claudeai)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)X:Dario Amodei (@DarioAmodei)The Verge:AI(RSS)The Decoder:AI News(RSS)Hacker News 热门(buzzing.cc 中文翻译)公众号:数字生命卡兹克
01:38
swyx@swyx
70
Mythos上线:FrontierCode基准测试发布

Mythos正式上线FrontierCode基准测试,旨在衡量AI生成可维护代码的能力。该基准包含超1000小时维护者验证的任务,并引入3000+评分标准防奖励攻击。最高难度FC Diamond上,Opus 4.8得分仅13.8%,且Opus 4.8与GPT 5.5均未随effort扩展提升。Mythos/Fable后训练将test time compute用于数小时级长任务。基准已在Devin上线,ACU成本仅1.4倍。FC Extended中最易的1/3任务在2025年末被快速攻克——Opus从41%升至74%,标志着AI编码进入“维护可读代码”新时代。

swyx: It's finally out!!! @METR_Evals found that more than half of SWEBench results is unmergeable slop. FrontierCode represen...

AnthropicOpenAI编码评测/基准
01:36
OpenRouter@OpenRouter
77
来自 @AnthropicAI 的 Claude Fable 5 已在 OpenRouter 上线! Anthropic 最强编码模型,专为长时间、模糊任务而建:遗留系统迁移、棘手的生产 bug 以及持续数小时或数天的异步会话。几乎在所有测试过的基准上都达到 SOTA。
Anthropic模型发布编码
关联讨论 26 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)TechCrunch:AI(RSS)Ethan Mollick:One Useful Thing(RSS)X:小互 (@xiaohu)Claude Code:GitHub Releases(RSS)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Artificial Analysis (@ArtificialAnlys)X:Andrej Karpathy (@karpathy)X:卡兹克 (@Khazix0918)IT之家(RSS)公众号:卡尔的AI沃茨X:Berry Xia (@berryxia)X:Vista (@vista8)X:Claude (@claudeai)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)X:Dario Amodei (@DarioAmodei)The Verge:AI(RSS)The Decoder:AI News(RSS)Hacker News 热门(buzzing.cc 中文翻译)公众号:数字生命卡兹克
01:35
eric zakariasson@ericzakariasson
75
快去 Cursor 里试试 Fable,这个模型很厉害但价格不菲! Claude Fable 5 已在 Cursor 中上线,其在 CursorBench 上以 72.9% 的成绩创下新 SOTA,比此前最佳高出 8 个百分点。

Cursor: Claude Fable 5 is now available in Cursor. It sets a new state of the art on CursorBench at 72.9%, 8 points above the pr...

Anthropic模型发布编码
关联讨论 26 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)TechCrunch:AI(RSS)Ethan Mollick:One Useful Thing(RSS)X:小互 (@xiaohu)Claude Code:GitHub Releases(RSS)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Artificial Analysis (@ArtificialAnlys)X:Andrej Karpathy (@karpathy)X:卡兹克 (@Khazix0918)IT之家(RSS)公众号:卡尔的AI沃茨X:Berry Xia (@berryxia)X:Vista (@vista8)X:Claude (@claudeai)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)X:Dario Amodei (@DarioAmodei)The Verge:AI(RSS)The Decoder:AI News(RSS)Hacker News 热门(buzzing.cc 中文翻译)公众号:数字生命卡兹克
01:32
OpenCode@opencode
65
North Mini Code 现已在 OpenCode 上免费提供 256K 上下文 · 完全开源 Cohere 的首个编程模型
开源/仓库模型发布编码
01:19
Yuchen Jin@Yuchenj_UW
71
Claude Fable 5 / Mythos 5 全面胜出。 我以为 Fable 5 只是弱化版 Mythos Preview,但它实际更强。SWE-Bench Pro:Fable 5:80.3%,GPT-5.5:58.6%。 而且价格仅为 Opus 4.8 的 2 倍:$10/输入 MTok,$50/输出 MTok。 我认为 GPT 5.6 无法超越这个成绩。
AnthropicOpenAI编码评测/基准
01:13
The Verge:AI(RSS)
77
Anthropic 发布首个 Mythos 系列模型 Claude Fable 5

Anthropic 发布 Claude Fable 5,称其为迄今广泛可用的最强模型。该模型在软件工程、知识工作与视觉任务中表现突出,且随着任务变长、变复杂,领先优势进一步扩大。Fable 5 是 Anthropic 首次大规模发布的 Mythos 类 AI 模型,此前该公司因该类模型在网络安全任务中能力过强、风险过高而未公开。此次发布得益于新增的安全措施,可在特定高风险领域阻止模型生成响应。

Anthropic多模态推理模型发布
关联讨论 26 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)TechCrunch:AI(RSS)Ethan Mollick:One Useful Thing(RSS)X:小互 (@xiaohu)Claude Code:GitHub Releases(RSS)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Artificial Analysis (@ArtificialAnlys)X:Andrej Karpathy (@karpathy)X:卡兹克 (@Khazix0918)IT之家(RSS)公众号:卡尔的AI沃茨X:Berry Xia (@berryxia)X:Vista (@vista8)X:Claude (@claudeai)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)X:Dario Amodei (@DarioAmodei)The Verge:AI(RSS)The Decoder:AI News(RSS)Hacker News 热门(buzzing.cc 中文翻译)公众号:数字生命卡兹克
01:04
Anthropic:Newsroom(网页)
精选90
Claude Fable 5 和 Claude Mythos 5

Anthropic 今日推出 Claude Fable 5(通用安全版)和 Claude Mythos 5(受限安全版)。Fable 5 在软件工程、知识工作、视觉、科研等几乎所有测试基准上达到 SOTA,Stripe 称其将数月工程压缩至数天,FrontierCode 评分居前沿模型之首,可仅凭截图重建网页应用源码。Mythos 5 在药物设计中实现约 10 倍加速,其分子生物学假说盲测获科学家偏好的概率约 80%。两模型售价均为 $10/百万输入 tokens、$50/百万输出 tokens,较 Claude Mythos Preview 降价过半。Fable 5 在部分敏感主题上回退至 Claude Opus 4.8,安全触发率低于 5% 的会话。Mythos 5 通过 Project Glasswing 向网络安全防御者开放。

Anthropic多模态安全/对齐模型发布
关联讨论 26 条X:Perplexity (@perplexity_ai)Nathan Lambert:Interconnects(RSS)Tomer Tunguz 博客(VC 分析)X:Kim (@kimmonismus)TechCrunch:AI(RSS)Ethan Mollick:One Useful Thing(RSS)X:小互 (@xiaohu)Claude Code:GitHub Releases(RSS)X:Testing Catalog (@testingcatalog)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Claude Devs (@ClaudeDevs)X:Artificial Analysis (@ArtificialAnlys)X:Andrej Karpathy (@karpathy)X:卡兹克 (@Khazix0918)IT之家(RSS)公众号:卡尔的AI沃茨X:Berry Xia (@berryxia)X:Vista (@vista8)X:Claude (@claudeai)Simon Willison 博客X:Rohan Paul (@rohanpaul_ai)X:Dario Amodei (@DarioAmodei)The Verge:AI(RSS)The Decoder:AI News(RSS)Hacker News 热门(buzzing.cc 中文翻译)公众号:数字生命卡兹克
推荐理由:Anthropic把最危险的模型安全地放出来了,Fable 5在编码、科研上不是小数点级别的提升,价格还砍半,95%的请求直接跑满血版,必读。
00:46
AK@_akhaliq
56
SWE-Explore 评估编码智能体如何探索仓库
智能体编码论文/研究评测/基准
00:35
OpenRouter@OpenRouter
同事件精选73
想要在Cursor中使用OpenRouter吗? 这里有一份集成指南:https://openrouter.ai/docs/cookbook/coding-agents/cursor-integration
教程/实践编码
同一事件,精选展示《OpenRouter 模型现可在 Cursor 中使用:试试月之暗面 Kimi K2》
推荐理由:用 Cursor 又想用 OpenRouter 上 Claude 4.6 或 Llama 4 的开发者,这篇指南帮你打通关键配置,不是大新闻但值得收藏
00:35
Google Gemini@GeminiApp
51
Gemini 3.5 Flash 能处理复杂视觉数据,并将其转化为功能性的交互式代码。 观看 Gemini 分析参考图像中的光照,并构建一个交互式 3D 可视化器来预览该设置。
Google产品更新多模态编码
00:33
jason@jxnlco
24
你在使用Codex创建PDF时遇到了哪些问题?
OpenAI其他编码
00:20
Artificial Analysis@ArtificialAnlys
70
Cohere发布North Mini Code:30B总参数(3B活跃)开源编码模型

Cohere近日发布North Mini Code,一款30B总参数(3B活跃参数)的开放权重编码模型,采用Apache 2.0开源协议。该模型在Artificial Analysis Intelligence Index上得分27.6,高于gpt-oss-20B (high)的24.5,略低于Mistral Small 4(119B参数,6.5B活跃)的27.8。在Coding Index(Terminal-Bench Hard和SciCode加权平均)上得分33.4,显著高于GLM-4.7-Flash的25.9,低于Qwen3.6 35B A3B的35.2。非编码智能体任务表现较弱:GDPval-AA 14%、τ²-Bench Telecom 37%。在Cohere API上推理速度约199 output tokens/s,快于同类模型。距Cohere上次发布Command A+不到一个月。

开源生态模型发布编码
00:18
GitHub Blog
精选68
GitHub Copilot CLI 推出自定义 AI 智能体,将一次性终端提示转化为可重复工作流

GitHub Copilot CLI 新增自定义 AI 智能体功能,使 CLI 能够理解开发者的技术栈和团队工作流,将一次性终端提示转变为可重复、可审查的流程。

智能体GitHub教程/实践编码

推荐理由:GitHub Copilot CLI 的自定义代理把一次性提示变成可重复工作流,相当于给命令行配了个 AI 副驾驶,做自动化的朋友值得一试。
6月9日
22:06
Hacker News 热门(buzzing.cc 中文翻译)
51
为AI明星开发者收拾残局

文章探讨AI明星开发者在快速推进项目后,留下的混乱需要由团队或后续开发者清理的现象,聚焦于技术债务与协作困境。

智能体现象/趋势编码
21:42
The Verge:AI(RSS)
58
Apple 的最佳 AI 创意与 vibe coding 高度相似

Apple 在 WWDC 上展示的大部分 AI 功能与竞争对手雷同:可提问的聊天机器人、文本生成/摘要工具以及图像生成。Siri 的新功能已在 Android 手机及 Claude、ChatGPT 应用中存在。作者下载了 iPadOS 26 首个开发者测试版,认为 Apple 真正有想法的方向是 vibe coding——一种更贴近自然交互的编程方式。

产品更新编码
21:02
凡人小北@frxiaobei
21
TRAE 的路子走宽了👍
产品更新编码
21:00
Boris Cherny@bcherny
70
刚刚在 Claude Code 中实现了嵌套子智能体支持。 开始更多实验智能体启动其他智能体,以便更好地管理上下文。初始深度上限为 5,将在今天的发布中推出。 欢迎反馈!
智能体Anthropic产品更新编码
20:14
Rohan Paul@rohanpaul_ai
66
Cognition 推出 FrontierCode 编码基准:评估 AI 代码的可合并性

Cognition 发布 FrontierCode 编码基准,评测 AI 生成的代码是否达到维护者可合并的质量,而非仅通过测试。基准含 150 个任务(Main 最难 100 个,Diamond 最难 50 个),由 20 余位开源维护者设计,每个任务耗时超 40 小时。评分设阻隔项(如破坏行为、缺失逻辑等)和加权项(可读性、类型安全等)。额外包含反向测试、范围检查、自适应评分。在 Diamond 子集上,Claude Opus 4.8 得分 13.4%,GPT-5.5 6.3%,Gemini 3.1 Pro 4.7%,开源最佳 Kimi K2.6 3.8%,显示顶尖模型在可合并代码上仍表现糟糕。

Cognition: Introducing FrontierCode: a coding eval that raises the bar for difficulty & quality. Each task took 40+ hrs of work by ...

编码评测/基准
19:40
Tibo@thsottiaux
49
像指挥管弦乐队一样使用 Codex。一次一个 /goal。

Charlie Marsh: Since my last post, I reduced ty's retained memory by another 15% with Codex. We're now at a ~25% memory reduction overa...

OpenAI教程/实践编码
16:42
MarkTechPost(RSS)
精选70
NVIDIA cuTile Python 教程:在 Colab 中构建用于向量加法、矩阵加法和矩阵乘法的 Tiled GPU 内核

该教程基于 NVIDIA cuTile Python 实现了分块 GPU 内核编程工作流,在 Colab 环境中配置 GPU、驱动、CUDA 及 cuTile 可用性后,分别构建了 tiled 向量加法、矩阵加法和矩阵乘法核函数,并以 PyTorch 作为回退保持 notebook 可执行。每一步均通过 PyTorch 验证结果正确性,并基准测试了各阶段的中位运行时间。

教程/实践编码

推荐理由:NVIDIA cuTile把GPU tiled kernel编程的门槛拉低到Python,这个Colab教程从环境搭建到矩阵乘法全链路,想自己写算子的人可以跟着跑一遍。
16:39
SiliconFlow@SiliconFlowAI
61
硅基流动联合CodeWhale推出DeepSeek V4终端最佳性价比组合

硅基流动宣布,通过V4-Pro(质量)与V4-Flash(速度)两行配置,即可在终端获得DeepSeek V4的最佳性价比组合。专为DeepSeek V4构建的终端编码智能体CodeWhale现已内置SiliconFlow。CodeWhale具备流式推理(显示思考过程)、自动路由(根据任务复杂度切换模型与思考深度)、零漂移(通过书面宪法为每轮排序权威,保持V4定向)以及自我改进(V4协助编写框架,框架提升后每个会话更强大)等特性。

智能体DeepSeek产品更新编码
14:22
IT之家(RSS)
精选72
AI 编程独角兽 Cursor 欧洲总部落子伦敦,SpaceX 手握 600 亿美元收购选择权

Cursor 将欧洲总部设在伦敦,计划招聘约 200 名员工,并在巴黎、慕尼黑等地开设小型办事处。SpaceX 拥有以 600 亿美元收购 Cursor 的选择权,或支付 100 亿美元开展全新合作。Cursor 目前 B2B 年化营收约 26 亿美元,客户包括英国航空、英国石油、诺基亚等。公司强调数据留存欧洲本地以满足监管合规,其平台支持用户用自然语言生成代码,主打模型中立,竞争对手包括 GitHub Copilot、OpenAI 和谷歌的同类产品。

编码行业动态
关联讨论 12 条TechCrunch:AI(RSS)X:Testing Catalog (@testingcatalog)X:阿易 AI Notes (@AYi_AInotes)X:Michael Truell (@mntruell)The Decoder:AI News(RSS)X:宝玉 (@dotey)X:歸藏 (@op7418)Hacker News 热门(buzzing.cc 中文翻译)The Verge:AI(RSS)IT之家(RSS)X:Emad Mostaque (@EMostaque)Ars Technica:AI(RSS)
推荐理由:伦敦招聘 200 人不稀奇,真正的信号是 SpaceX 手里那个 600 亿美元收购选择权,这是给 AI 编程的商业价值做了一次硬核锚定。
‹ 上一页
1…2122232425…50
下一页 ›