AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
7月1日周三
12:06François Chollet60tufalabs开源第一名notebook 有望解锁新浪潮
11:59Ethan Mollick48Fable恢复后早先安全护栏待观察
11:56jason32Codex用Computer Use整理PDF文件
10:53Peter Steinberger 🦞33Sonnet 5定价远高于多个竞品模型
10:24歸藏(guizang.ai)50Anthropic 隐私争议与 Sonnet 5 成本问题引热议
09:33meng shao75精选mattpocockuk 的 /writing-great-skills:编写可预测 AI Skill 的指南
09:32Rohan Paul29Spira 2.0:agent 跨运行携带记忆与技能,持续学习不重置
09:03meng shao60吴恩达谈「Loop engineering」:三个循环决定AI产品成败
09:01Orange AI28Sonnet 5让Opus 4.7/4.8无意义
09:01Orange AI36Claude封号成灾:编程平替出现,写作思考无解
08:37小互23Google与Claude新模型今晚发布预测命中
08:32Rohan Paul58atomic.chat对比测试:Sonnet 5在物理碰撞演示中与GPT 5.5持平,成本低6倍
08:31Orange AI19Claude 封号频发,Cola API 服务推荐及新模型预告
08:28ginobefun50Sonnet 5发布,谷歌补齐媒体模型,吴恩达画出智能体开发三循环
08:03IT之家(RSS)59Meta CEO 扎克伯格不认为 AI 必然带来大规模失业,建议企业聚焦"个人超级智能"
08:02Boris Cherny13Boris Cherny 表示同意
07:34Tomer Tunguz 博客(VC 分析)482026 年 CIO 的选择很明确
07:32Nathan Lambert48RLHF Book代码库新增on-policy自蒸馏示例
07:31DogeDesigner33Neuralink 开始 vs 现状对比
07:30Berryxia.AI23AI对话误区:提示词工程 vs 循环工程
07:08Ethan Mollick:One Useful Thing(RSS)73聊天机器人的黄昏
07:01DogeDesigner37马斯克:Neuralink技术达到耶稣级奇迹
07:01Rohan Paul55Claude Sonnet 5 每任务成本高于 Opus 4.8 约15%,高于 Sonnet 4.6 约2倍
07:01Rohan Paul32马斯克:AI与机器人带来巨大生产力增益
06:28Ethan Mollick53AI能力快速崛起引发工作与市场突变
05:38Yuchen Jin31Claude Sonnet 5 成本高于 Opus 4.8 及 GLM-5.2
05:37Hacker News 热门(buzzing.cc 中文翻译)49我研制了一台毫米波物料分类雷达
05:28Artificial Analysis60Claude Sonnet 5 在 Artificial Analysis Intelligence Index 得 53 分,标准定价下每任务成本高于 Opus 4.8
05:25Suno:Blog(网页)40Dream Relic:用 Suno 为超现实影像配乐
05:20Chubby♨️56智能体可直接用USDC支付获取数据
04:50Chubby♨️56OpenAI 推理成本减半 + 自研芯片,Sonnet 5 发布平淡
03:31OpenAI Developers26AI智能体推动工程角色转变
03:30Logan Kilpatrick32Android总裁谈AI解放用户与OS智能化
03:27Luma31Luma AI打造恐龙与智能体的温馨小世界
03:20AYi58吴恩达谈"循环工程":AI代理自主测试代码,开发者转向高层决策,核心优势是"语境"
03:05SemiAnalysis57SemiAnalysis:企业Token预算与TokenMaxxing
02:50Chubby♨️46Anthropic 推出 Sonnet 5,性能接近 Opus 4.8 但定价更低
02:36AK49Claude Code 与 hf-claude 的 open-fusion
02:28Artificial Analysis53GLM-5.2:开源权重智能最高但最啰嗦的领先模型
02:19Simon Willison 博客50AI指南针
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
7月1日
12:06
François Chollet@fchollet
60
tufalabs 刚刚开源了他们获得第一名的 notebook。主推文表示,这有望解锁新一波更好的参赛作品。

Greg Kamradt: .@tufalabs just open sourced their 1st place notebook 👀

开源/仓库开源生态教程/实践
11:59
Ethan Mollick@emollick
48
Fable非常棒,在获得早期访问后又被拿走,导致我手头的一些工作延迟,并让我推迟了其他工作直到它恢复。 但在早期访问中,我也多次因不明显的理由触发了安全护栏。我们会看看新的护栏如何。
大佬观点安全/对齐
11:56
jason@jxnlco
32
现在,Codex正在使用Computer Use来整理我在GoodNotes中的1500个PDF,而我在看世界杯。 这是我"AI叠衣服,我搞艺术"的时刻。 感谢 @jxnlco 及团队。 这就是未来。

Chris Albon: Right now Codex is using Computer Use to organize the 1500 PDFs I have in GoodNotes while I watch the world cup. This is...

智能体OpenAI大佬观点
10:53
Peter Steinberger 🦞@steipete
33
引用推文@scaling01指出Sonnet 5定价过高:比Opus 4.8 Max贵1.2倍,比GPT-5.5-xhigh贵2倍,比GLM-5.2贵5倍,比Kimi-K2.6贵7倍,比DeepSeek-V4-Pro贵57倍。主推文则提醒:每token价格不等于每任务成本。

Lisan al Gaib: Sonnet 5 goes straight into the garbage bin > 1.2x more expensive than Opus 4.8 Max > 2x more expensive than GPT-5.5-xhi...

AnthropicOpenAI现象/趋势
10:24
歸藏(guizang.ai)@op7418
50
Anthropic 隐私争议与 Sonnet 5 成本问题引热议

Anthropic 近日被曝在系统提示中暗中嵌入市区代理及 AI 实验室信息以获取用户数据,引发争议后回应称将停止该做法。同时,新发布的 Sonnet 5 测试表现接近 Opus 4.8,但任务成本更高,甚至接近 Fable 5。用户反馈模型存在偷懒、拒绝执行任务等问题。此外,Fable 5 模型已获授权重新开放给所有用户,具体措施明日公布,此前的大规模封号与此有关。

Anthropic大佬观点
09:33
meng shao@shao__meng
精选75
mattpocockuk 的 /writing-great-skills:编写可预测 AI Skill 的指南

mattpocockuk 的 /writing-great-skills 成为其最常调用的 Skill,指导如何编写稳定可预测的 AI Skill。核心:以过程可预测为目标;区分 model-invoked(自动触发)与 user-invoked(用户调用),description 应作触发器;采用三层信息结构(主步骤、参考、外部文件)实现渐进式披露;每步骤需明确完成标准;拆分 Skill 是为了控制模型注意力;利用 leading word 压缩行为要求。同时诊断五种失败模式:Premature completion、Duplication、Sediment、Sprawl、No-op,并提供 No-op 测试作为判断句子是否有效的标准。

Matt Pocock: /writing-great-skills is quickly becoming my most often-invoked skill It's just really good at writing skills, guys. npx...

智能体GitHub教程/实践

推荐理由:Matt Pocock 把写 Skill 从玄学变成了可拆解的工程,其中领先词和完成标准这两个概念,能立刻让你的自定义工具行为更稳定,搞 Agent 的都应该试一下。
09:32
Rohan Paul@rohanpaul_ai
29
Spira 2.0:agent 跨运行携带记忆与技能,持续学习不重置

Spira 2.0 的核心创新在于 agent 跨运行时携带 persona、memory 和 skills,使所学内容持续累积而非每次调用重置。Rohan Paul 指出,这种持久化状态是将“操作工具”转变为“持续工作的工人”的关键。引用推文补充,Spira 旨在解决产品发布后无人知晓的问题:用户提供产品链接,agent 学习并自动在多社交渠道发布品牌一致、无废料的内容,形成“发布→学习→再发布”的持续营销循环。早期用户可申请 Pro 计划限时访问。

Long Ma: Most products don't die because they're bad, they die because nobody sees them. Imagine if only your product kept market...

智能体大佬观点
09:03
meng shao@shao__meng
60
吴恩达谈「Loop engineering」:三个循环决定AI产品成败

吴恩达(Andrew Ng)提出“Loop engineering”,将AI agent置于持续迭代的循环系统中。产品成功取决于三个循环:工程执行循环——AI agent根据规格和evals自主写代码、测试、修bug,每几分钟迭代;开发者反馈循环——开发者从低层QA转向产品判断(功能取舍、视觉风格等),每几十分钟到几小时反馈;外部反馈循环——通过真实用户测试、A/B测试等验证方向,周期数小时至数周。他认为未来竞争力在于设计好这三类循环。

Andrew Ng: "Loop engineering" is a hot buzzphrase after mentions of it by Boris Cherny (Claude Code's creator) and Peter Steinberge...

智能体大佬观点编码
09:01
Orange AI@oran_ge
28
Sonnet 5 一出,Opus 4.7 和 4.8 彻底没意义了…
Anthropic大佬观点
09:01
Orange AI@oran_ge
36
Claude封号成灾:编程平替出现,写作思考无解

用户吐槽Claude封号严重,官方检测中转站、钓鱼邮件、中转站黑名单等操作让用户苦不堪言。花钱用token还要偷鸡摸狗,坚持用官方号实属真爱。编程方面,codex和glm5.2可以平替Claude模型;但写作和思考方面尚无替代品,deepseek和gemini仅勉强可用,成为当前最大痛点。

Anthropic大佬观点编码
08:37
小互@xiaohu
23
小互推文"再次双双命中",引用其此前预测:Google今晚将发布新的🍌模型和低配版Omini模型,同时Anthropic的Claude Sonnet 5也将在今晚登场,而OpenAI暂无动静。

小互: Google 今晚将会发布 新的🍌模型和 低配版的 Omini 模型 另外根据情报显示:Claude Sonnet 5 也将会在今晚登场 OpenAI 还没动静...

AnthropicGoogle行业动态
08:32
Rohan Paul@rohanpaul_ai
58
atomic.chat桌面应用对Claude Sonnet 5、Opus 4.8、Sonnet 4.6及GPT 5.5进行对比测试。使用同一提示词构建三个HTML5物理碰撞演示(汽车撞墙、破坏球毁屋、投石机砸城)。Sonnet 5在全部测试中与GPT 5.5和Opus 4.8表现相当,其中破坏球场景胜Opus 4.8,投石机场景胜GPT 5.5。Sonnet 5仅用15,047 tokens($0.15),GPT 5.5使用31,152 tokens($0.94),成本低约6倍;Opus 4.8使用23,063 tokens($0.58),Sonnet 4.6使用25,824 tokens($0.39)。Sonnet 5 token消耗最少,图形细节仍有提升空间。

atomic.chat: New Claude Sonnet 5 performs at GPT 5.5 level 6x cheaper! We gave 4 models the same prompt: build three self-contained H...

AnthropicOpenAI编码评测/基准
08:31
Orange AI@oran_ge
19
Claude 封号频发,Cola API 服务推荐及新模型预告

用户抱怨 Claude 封号严重,涉及检测中转站、钓鱼邮件和黑名单,认为坚持使用官方号成本高。推荐 Cola API 服务,虽不如 Plan 直接便宜但安稳省心开箱即用。同时预告 Sonnet 5 和 Fable5 即将上线。

Orange AI: http://x.com/i/article/2052532173870342144

Anthropic大佬观点
08:28
ginobefun@hongming731
50
Sonnet 5发布,谷歌补齐媒体模型,吴恩达画出智能体开发三循环

Anthropic发布Claude Sonnet 5,定位最具agent能力的Sonnet,性能接近Opus 4.8,8月31日前入门价每百万输入token $2、输出$10。Google DeepMind推出Nano Banana 2 Lite(文生图延迟约4秒,每千张$0.034)和Gemini Omni Flash(多模态视频生成与会话式编辑,每秒$0.10,单次上限10秒)。吴恩达提出智能体开发三大核心循环:智能体编程循环、开发者反馈循环、外部反馈循环,强调人类在上下文判断上的优势。三条更新均围绕降低agent落地成本、完善媒体生成流水线及工程框架。

智能体AnthropicGoogle推理
08:03
IT之家(RSS)
59
Meta CEO 扎克伯格不认为 AI 必然带来大规模失业,建议企业聚焦"个人超级智能"

扎克伯格认为 AI 不必然造成大规模失业,关键在于企业应优先发展“个人超级智能”赋能个体,而非将所有知识工作自动化。他影射 Anthropic、OpenAI,强调劳动者生产力提升速度须超过企业自动化速度,就业岗位才可能增加。Meta 已投入数十亿美元调整 AI 战略,他称之为“重启”。对于 Meta 生成式 AI 进展,他坦言仍有提升空间,超级智能实验室成立不足一年,模型进展超预期,但他认为“原本可以做得更好”。

Meta大佬观点现象/趋势
08:02
Boris Cherny@bcherny
13
同意

"paula": actually insane stuff happening here

其他
07:34
Tomer Tunguz 博客(VC 分析)
48
2026 年 CIO 的选择很明确

对 87 家上市 SaaS 及平台公司的分析显示,2026 年只有基础设施与开发工具(一年涨幅 68.5%)和安全(一年涨幅 17.6%)两个板块增长为正,其余三个板块均下跌。市场正在买入 AI 基础设施,卖出按席位定价的应用层。

大佬观点现象/趋势
07:32
Nathan Lambert@natolambert
48
很高兴宣布 @zafstojano -- 一位新增的维护者,他帮助我维护 RLHF Book 代码 -- 向代码库添加了一个简单的在线策略自蒸馏示例,可在一些玩具问题上运行。期待进一步探索,很高兴看到仓库不断完善!
安全/对齐开源/仓库数据/训练
07:31
DogeDesigner@cb_doge
33
Neuralink 🧠✨ 开始 vs. 现在
其他
07:30
Berryxia.AI@berryxia
23
主推文指出90%的人与AI对话的方式一开始就错了,误以为提示词工程只是写一堆提示词让AI直接完成任务。引用推文进一步点明,通过观看视频讲解,终于理解了所谓的"循环工程"--一种可能替代或补充传统提示词工程的迭代式对话方法。推文强调深度互动与反馈循环的重要性,而非一次性指令输出。

Berryxia.AI: 卧槽!来咯~ 我终于特么弄懂你们天天吹的循环工程了!!!

大佬观点推理
07:08
Ethan Mollick:One Useful Thing(RSS)
73
聊天机器人的黄昏

前沿AI模型能力加速提升,美国实验室发布速度加快,但政府干预已限制访问Claude Fable和GPT-5.6。Epoch测试发现Opus 4.7自主运行14小时即可完成需2-17周人工的软件工程,token成本$251。中国开源模型落后前沿6-12个月,但性能也快速提升,在AA-Briefcase测试中呈独立指数曲线。使用方式正从聊天机器人转向智能体,OpenAI内部四分之一员工每周同时运行至少四个智能体。Claude Code用户数据显示,领域经验比职业属性更决定使用效果,专家正用智能体替代此前非专家的聊天机器人使用模式。

智能体AnthropicOpenAI大佬观点
关联讨论 25 条X:歸藏 (@op7418)X:Yuchen Jin (@Yuchenj_UW)X:宝玉 (@dotey)The Verge:AI(RSS)X:Kim (@kimmonismus)Hacker News 热门(buzzing.cc 中文翻译)X:Anthropic (@AnthropicAI)MarkTechPost(RSS)Ars Technica:AI(RSS)TechCrunch:AI(RSS)X:Testing Catalog (@testingcatalog)X:Claude Devs (@ClaudeDevs)Anthropic:Newsroom(网页)X:阿易 AI Notes (@AYi_AInotes)Gary Marcus:The Road to AI We Can Trust(RSS)X:邵猛 (@shao__meng)X:Rohan Paul (@rohanpaul_ai)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Berry Xia (@berryxia)The Decoder:AI News(RSS)IT之家(RSS)Tomer Tunguz 博客(VC 分析)Nathan Lambert:Interconnects(RSS)Simon Willison 博客Steve Yegge:Medium(RSS)
07:01
DogeDesigner@cb_doge
37
马斯克:Neuralink技术达到耶稣级奇迹

马斯克表示,Neuralink脑机接口技术可实现“耶稣级别”的奇迹:帮助脑或脊柱损伤患者恢复说话(已实现)、让失明或天生盲人通过直接刺激大脑视觉中枢重获视力、以及让瘫痪者重新行走。他称这些能力为“赛博格超能力”,并认为对脑损伤患者具有重要意义。

多模态大佬观点
07:01
Rohan Paul@rohanpaul_ai
55
Claude Sonnet 5 每任务成本高于 Opus 4.8 约15%,高于 Sonnet 4.6 约2倍

Claude Sonnet 5 在 Intelligence Index 上每任务成本为 $2.29,比 Sonnet 4.6 高约 2 倍,比 Opus 4.8 高约 15%。尽管每 token 单价低于 Opus,但 Sonnet 5 为完成相同任务使用了更多 token,导致总费用更高。标准定价为 $3/百万输入 token、$15/百万输出 token;Anthropic 提供促销价 $2/$10,持续至 2026 年 8 月 31 日,之后恢复原价。目前 Sonnet 5 成本仅次于 Claude Fable 5。

Artificial Analysis: Claude Sonnet 5 costs $2.29 per task on the Intelligence Index, a ~2x increase compared to Sonnet 4.6 and ~15% more than...

Anthropic推理评测/基准
07:01
Rohan Paul@rohanpaul_ai
32
@Scobleizer 即使在快速增长的经济中,也总会有暂时的下跌。 然而,AI和机器人带来的生产力增益如此巨大,以至于宏观趋势压倒性地向上。

Elon Musk: @Scobleizer There are always momentary dips, even in a rapidly growing economy. The productivity gains from AI and robot...

xAI大佬观点
06:28
Ethan Mollick@emollick
53
我撰文探讨了 AI 能力的快速提升如何既改变了人们在工作中的使用方式,也导致了近几周我们看到的政策与市场突然转向。https://open.substack.com/pub/oneusefulthing/p/the-twilight-of-the-chatbots?r=i5f7&utm_medium=ios
大佬观点现象/趋势
05:38
Yuchen Jin@Yuchenj_UW
31
Claude Sonnet 5 在 Artificial Analysis Intelligence Index 任务上的成本高于 Claude Opus 4.8,并且是 GLM-5.2 的 4.75 倍。Token 效率很重要。
Anthropic大佬观点评测/基准
05:37
Hacker News 热门(buzzing.cc 中文翻译)
49
我研制了一台毫米波物料分类雷达

针对欧洲石棉污染严重、传统取样送检成本高昂的问题,作者用 TI IWRL6432 BOOST 开发板和 ESP32 搭建了 FMCW 毫米波雷达原型。DSP 链通过混频、距离 FFT 和 MIMO 阵列角度估计,配合 Capon 波束成形获得材料密度谱,再输入 CNN 进行物料表面分类。天线部分用开源电磁仿真工具 openEMS 建模并模拟全链路,仿真结果与实测接近。项目因资金不足未完成,但展示了低成本非接触式石棉检测的可行路径。

教程/实践数据/训练部署/工程
05:28
Artificial Analysis@ArtificialAnlys
60
Claude Sonnet 5 在 Artificial Analysis Intelligence Index 得 53 分,标准定价下每任务成本高于 Opus 4.8

Claude Sonnet 5 以 max effort 在 Artificial Analysis Intelligence Index 上得分 53(第 5 名),比 Sonnet 4.6 提高 6 分,与 GPT-5.5 (xhigh) 持平,落后 Opus 4.7/4.8 约 2-3 分。标准定价下每任务成本 $2.29,比 Sonnet 4.6 贵约 2 倍、比 Opus 4.8 贵 15%,主要因输出 token 增加 40%、agentic 任务调用次数增加约 3 倍。定价 $3/$15 每百万 token(促销至 9 月 1 日降至 $2/$10),上下文窗口 1M tokens,新增 xhigh 力度设置。在 agentic 知识工作基准 AA-Briefcase 和 GDPval-AA 上匹配或超越 Opus 4.8,推理基准仍落后。Terminal-Bench v2.1(+9)、HLE(+10)、SciCode(+7)显著提升。

智能体Anthropic推理评测/基准
05:25
Suno:Blog(网页)
40
Dream Relic:用 Suno 为超现实影像配乐

AI 视觉艺术家 Dream Relic(Broc Vaughn)通过 Suno 的 Create 功能,将多年来积累的歌词转化为配乐歌曲,为其超现实、怀旧风格的影像世界赋予声音。他在 TikTok 和 Hooks 上发布的一首 Suno 生成曲目获得数百条评论,甚至有人表示“讨厌 AI 音乐但这是例外”。这一反响促使他更认真对待音乐创作——此前他曾与唱片公司和制作人合作但效果不佳。Dream Relic 正筹备发布全长专辑,并在 TikTok、Hooks、Spotify 等平台上线多首作品。

其他语音
05:20
Chubby♨️@kimmonismus
56
能规划但付不了钱的智能体只是昂贵的聊天机器人。 无需账户,无需API密钥,无需人工介入。 智能体发送请求,用USDC支付,取回数据。这才是真正的创新。

Apify: Until today, agents could buy about 2,000 tools through x402. We just 10x'd that to 20,000+ 🚀 In partnership with @coin...

智能体MCP/工具大佬观点
04:50
Chubby♨️@kimmonismus
56
OpenAI 推理成本减半 + 自研芯片,Sonnet 5 发布平淡

作者认为 OpenAI 今天取得更重大突破:通过新推理优化方法将推理成本降低一半以上,并与 Broadcom 合作推出更快更高效的推理芯片,使 OpenAI 处于突出位置。相比之下,Sonnet 5 只是一次普通发布。引用推文进一步指出,Sonnet 5 优于 Sonnet 4.6 但弱于 Opus 4.8,定价不变,版本号从 4 跳到 5 不合理,可能只是为维持话题的中间发布,整体令人失望。

Chubby♨️: Here is my first assessment of Sonnet 5: Sonnet 5 is better than Sonnet 4.6. Who would have thought? But jokes aside: Un...

AnthropicOpenAI大佬观点推理
03:31
OpenAI Developers@OpenAIDevs
26
随着智能体承担更长期的工作,工程转向设定方向、审查工作以及围绕模型设计更好的系统。
智能体OpenAI现象/趋势
03:30
Logan Kilpatrick@OfficialLoganK
32
与 @ssamat(Android 总裁)的对话:AI 如何让我们摆脱对设备的微观管理,为什么以技术对真实用户的帮助来引领对 Android 至关重要,操作系统如何演变为智能系统,以及更多!
Google大佬观点
03:27
Luma@LumaLabsAI
31
一只孤独的恐龙。 一份共享的冰淇淋。 一段友谊。 整个温柔的小世界,与一个AI智能体一同构建,由Anurag Tiwari创作。 使用Luma制作。
其他多模态视频
03:20
AYi@AYi_AInotes
58
吴恩达谈"循环工程":AI代理自主测试代码,开发者转向高层决策,核心优势是"语境"

吴恩达提出“循环工程”概念:AI编码代理可自主迭代代码、测试直至正确,无需人类干预。他用上周末给女儿做打字练习app举例,代理自行运行约一小时,多次用浏览器检查成果后回报。开发者角色因此从手动找bug的QA转向高层决策(如视觉设计、用户流程)。吴恩达强调人类真正的优势不是“品味”而是“语境优势”——知道用户是谁、为何痛苦。循环工程加速代码但无法压缩语境,只要人拥有代理没有的信息,人就永远在循环中占据不可替代的位置。

Andrew Ng: "Loop engineering" is a hot buzzphrase after mentions of it by Boris Cherny (Claude Code's creator) and Peter Steinberge...

智能体大佬观点编码
03:05
SemiAnalysis@SemiAnalysis_
57
TokenBudgeting: 我们与企业关于Token支出的对话 TokenMaxxing真的曾广泛存在吗? https://newsletter.semianalysis.com/p/tokenbudgeting-our-conversations
推理现象/趋势
02:50
Chubby♨️@kimmonismus
46
Anthropic 推出 Sonnet 5,性能接近 Opus 4.8 但定价更低

Anthropic 发布 Sonnet 5,称其为迄今最具智能体能力的 Sonnet,推理、工具使用、编程和知识工作均有提升,性能接近 Opus 4.8 但更便宜。即日起至8月31日,输入 $2/M token、输出 $10/M token;标准定价 $3/M、$15/M。相比 Sonnet 4.6 更安全,幻觉和讨好度更低;网络安全防护默认开启,但 Opus 仍更强。独立评测者指出 Sonnet 5 整体弱于 Opus 4.8,认为版本号“5”名不副实,定价与前代一致令人失望。发布被视为顶级大模型延期监管下的权宜之举,未见 Opus 5 或 Fable 5 同步更新。

Chubby♨️: Here we go: Sonnet 5 is live: The tl;dr • Anthropic calls it the most agentic Sonnet yet • Near Opus 4.8-level performan...

Anthropic大佬观点
02:36
AK@_akhaliq
49
在 Claude Code 中使用 hf-claude 进行 open-fusion。
AnthropicHugging Face开源/仓库编码
02:28
Artificial Analysis@ArtificialAnlys
53
GLM-5.2:开源权重智能最高但最啰嗦的领先模型

GLM-5.2 在 Artificial Analysis Intelligence Index 中以 51 分成为开源权重智能最高的模型,但输出 token 达 1.41 亿(95% 推理),远超平均模型的 1.8 倍。相比之下,Claude Opus 4.8 输出 1.17 亿 token 得分 56,GPT-5.5 输出 7200 万 token 得分 55。近三分之二 token(8800 万)集中在 Humanity's Last Exam,是 GPT-5.5 的 3.2 倍,得分仅 40%(Opus 46%,GPT-5.5 44%)。AA-Omniscience 幻觉率评测中 GLM-5.2 仅得 4 分,远低于 Opus 4.8(27)、GPT-5.5(20)和 Gemini 3.5 Flash(23)。在 agentic 任务 GDPval-AA v2 上 GLM-5.2 为开源第一、整体第三,超过 GPT-5.5。其他开源模型如 DeepSeek V4 Pro 得分 44,落后 7 分。

开源生态推理评测/基准
02:19
Simon Willison 博客
50
AI指南针

一个名为“AI指南针”的政治指南针风格测验通过29道关于AI和AI伦理的是非题,将参与者匹配到30种原型之一。作者本人在首次回答后被归类为“The Garage Tinkerer”。该测验以单页React应用实现,利用<script type="text/babel">脚本标签绕过构建步骤。

其他大佬观点开源/仓库
‹ 上一页
1…45678…50
下一页 ›