AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「评测/基准」清除
6月30日周二
18:26HuggingFace Daily Papers(社区热门论文)47BeyondArena:超越IID的表格数据统一整体基准
15:02IT之家(RSS)55AI 老板 500 天模拟经营:多数模型亏惨,Claude Fable 5 独占鳌头
12:27Berryxia.AI34乔纳森的OpenAI 首作产品,真的没有什么新鲜玩意了。
12:26HuggingFace Daily Papers(社区热门论文)57SafePyramid: 上下文策略防护的分层安全基准
07:28Rohan Paul73Arena AI排行榜年营收达1亿美元
02:35Hacker News 热门(buzzing.cc 中文翻译)75精选Qwen 3.6 27B 是本地开发的理想选择
6月29日周一
23:31StepFun41Step 3.7 Flash Claw-Eval 评测第二
22:04elvis56LLM-as-a-Judge 10分钟快速入门
16:17Chubby♨️50AA-Briefcase评分显示AI智能指数级加速,开源差距约半年
14:34Hacker News 热门(buzzing.cc 中文翻译)53HackerRank 将其 ATS 开源,评分不稳定引发争议
13:34karminski-牙医61Flash系列模型横评:Gemini-3.5-Flash、Step-3.7-Flash、DeepSeek-V4-Flash
13:22Ethan Mollick54AA-Briefcase评估揭示开放模型差距
12:52Ethan Mollick70AA-Briefcase评分:开放权重差距明显
06:57Rohan Paul44研究:AI智能体缺乏真正记忆系统,现有评测忽略记忆自身性能
05:33Hacker News 热门(buzzing.cc 中文翻译)57GLM 5.2 在 IDOR 检测中超越 Claude Code
04:57Rohan Paul65PlanBench-XL:评估LLM智能体在大规模工具生态中的长程规划能力
6月28日周日
20:13fofr20Gemini 3.5 Flash 工作马模型获赞
19:27DogeDesigner59Grok 4.5 进入 SpaceX/Tesla 私有 beta
18:40The Decoder:AI News(RSS)70精选仅有三个AI模型在500天创业测试中盈利超过起始资本
18:00公众号:卡尔的AI沃茨49主动型Agent Vida:读取屏幕与文件上下文,实现电脑全托管
13:21Ethan Mollick60医疗AI论文开源评估框架,@yishan复现测试最新模型仍未达到临床标准
12:01Yuchen Jin14OpenAI 发布最权威基准测试
08:00HuggingFace Daily Papers(社区热门论文)82精选OSWorld2.0:长时域真实世界计算机使用工作流基准
04:50Ethan Mollick22OpenAI 未为 GPT 5.6 提供 GDPval 指标
03:26swyx 🔜 @aiDotEngineer51swyx引Noam Brown:开源模型评估应以美元成本而非token数为基准
02:59elvis50BINEVAL:新型LLM-as-Judge评估方法
02:08Chubby♨️40Kim评论GPT-5.6评测:性价比或优于Fable 5,但Fable 5.1仍是整体更优选择
6月27日周六
23:29elvis39Eve:最简单的智能体构建方式
22:19歸藏(guizang.ai)43Seedance 2.0 4K 文字清晰度惊艳,重制宣传片材质质感飙升
18:41OpenRouter:Announcements(RSS)502026年6月值得关注的开放权重模型
17:39The Decoder:AI News(RSS)61OpenAI GPT-5.6 Sol 在软件测试中作弊率创纪录
07:35MarkTechPost(RSS)75精选Cursor 研究发现奖励攻击虚增编码智能体 SWE-bench Pro 分数
04:53Rohan Paul76METR 发现 GPT-5.6 Sol 基准测试作弊率创新高,模型套件发布
03:50Artificial Analysis47Model Sets 功能上线,支持保存自定义模型组
03:20Artificial Analysis46Artificial Analysis Model Sets 上线
01:26François Chollet47静态基准测记忆而非智能
00:18Ethan Mollick55Opus 4.7 14小时完成数周编码任务
6月26日周五
17:59IT之家(RSS)53Cursor 研究:更强 AI 模型更易在编程基准上"作弊"获取修复方案
17:16AYi67AI核查"长寿五要素":睡眠证据最硬,但作息规律比时长更重要
13:51宝玉59PPT Master 确实是最好的 PPT Skill
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月30日
18:26
HuggingFace Daily Papers(社区热门论文)
47
BeyondArena:超越IID的表格数据统一整体基准

BeyondArena是首个统一的表格数据整体基准,支持IID、时序、分组等任务,覆盖不同样本量、特征维度及含文本或高基数特征的数据集。配合Data Foundry框架,在11个模型与142个数据集上的评测显示:现有表格基础模型在中小规模IID数据上表现优秀,但传统树模型和深度学习模型在非IID、大规模、高维数据集上仍占主导。该基准旨在引导模型研究应对表格数据中最具挑战性的场景。

数据/训练论文/研究评测/基准
15:02
IT之家(RSS)
55
AI 老板 500 天模拟经营:多数模型亏惨,Claude Fable 5 独占鳌头

普林斯顿大学发布 CEO-Bench 基准测试,模拟创业公司 500 天经营,启动资金 100 万美元,评估 AI 模型担任 CEO 的能力。多数模型在 500 天后破产。最佳单次运行中,Claude Fable 5 期末现金达 4715 万美元,是唯一多次运行均高于初始余额的模型;Claude Opus 4.8 为 2778 万美元,GPT-5.5 为 2130 万美元。Grok 4.20 平均仅存活 28 天,DeepSeek V4 Pro 和 Gemini 3 Flash 亦全部破产。基于规则的基准模型最终余额为 1580 万美元。

智能体Anthropic推理评测/基准
12:27
Berryxia.AI@berryxia
34
乔纳森的OpenAI 首作产品,真的没有什么新鲜玩意了。
OpenAI评测/基准
12:26
HuggingFace Daily Papers(社区热门论文)
57
SafePyramid: 上下文策略防护的分层安全基准

SafePyramid是一款安全基准,包含1,000轮多领域对话、3,000条应用特定策略及61,699条自然语言规则。评估分三级:L0单规则理解、L1规则依赖推理、L2全新策略框架适应。测试10个前沿大语言模型与5个可配置策略防护,发现上下文策略防护仍极具挑战。最佳模型GPT-5.5完整识别违规规则的准确率在L0、L1、L2上分别仅为54.0%、35.3%和12.9%。

OpenAI安全/对齐论文/研究评测/基准
07:28
Rohan Paul@rohanpaul_ai
73
Arena AI排行榜年营收达1亿美元

Arena 的 AI 排行榜从 UC Berkeley 研究项目起步,通过让用户匿名对比两个模型答案并投票,积累了大规模人类偏好数据集。该平台随后将这一公开测试引擎包装为商业服务 AI Evaluations,为客户提供更深入的分析。模型厂商迫切需要高质量的人类偏好信号,因为微小的排名提升就能决定用户选择、企业合同和投资者关注。如今 Arena 已成为年化收入 1 亿美元的业务。

行业动态评测/基准
02:35
Hacker News 热门(buzzing.cc 中文翻译)
精选75
Qwen 3.6 27B 是本地开发的理想选择

Qwen 3.6 27B 是一款密集参数本地大语言模型,原生支持 256k 上下文。在 Macbook Max M5 上运行 llama.cpp Q8_0 量化版(含多 token 预测)可达 30 tokens/s;用户反馈在 RTX 5090 上 Q6_K 量化可达 50 tokens/s。它可通过单个提示完成创意诗歌、用 pnpm 生成六边形扫雷游戏等任务,作者称其为首个真正具备通用智能的本地模型。另有一个 MoE 变体 35B A3B,但作者推荐 27B 版本。

开源生态端侧评测/基准

推荐理由:一篇详实的 Qwen 3.6 27B 实战评测,从创意写作到代码生成都测了,还给出了 llama.cpp 部署命令和性能数据,想本地跑模型的开发者可以直接抄作业。
6月29日
23:31
StepFun@StepFun_ai
41
Step 3.7 Flash 在 Claw-Eval General 自主智能体评测中排名第二。 我们在多步执行和长周期任务鲁棒性方面表现强劲,排名仅次于 Claude Opus 4.6。 这是面向真实世界智能体工作负载的有前景的信号。
智能体评测/基准
22:04
elvis@omarsar0
56
LLM-as-a-Judge 在约10分钟内解释完毕。 学会构建AI验证器和裁判是当今最重要的新兴AI技能之一。 这里提供一个快速介绍,以及在哪里学习如何应用LLM-as-a-Judge。
推理教程/实践评测/基准
16:17
Chubby♨️@kimmonismus
50
AA-Briefcase评分显示AI智能指数级加速,开源差距约半年

基于Artificial Analysis的AA-Briefcase评分(模拟多周复杂咨询任务),@emollick 绘制前沿曲线发现:闭源AI模型发展呈指数级增长且加速,开源模型(尤其中国)仍落后约半年。但乐观预测,年底前可能出现“神话级”开源变体。

Ethan Mollick: I took the new AA-Briefcase scores from @ArtificialAnlys (basically having the AI do multi-week consulting gigs with a l...

开源生态现象/趋势评测/基准
14:34
Hacker News 热门(buzzing.cc 中文翻译)
53
HackerRank 将其 ATS 开源,评分不稳定引发争议

HackerRank 将其 ATS(申请人跟踪系统)开源。开发者测试发现,默认模型 gemma3:4b 在 temperature 0.1 下对同一份简历运行 100 次,得分范围 66–99。若公司分数线设为 85,简历有 65% 的概率被刷掉。改用 Gemini 后分数集中在 48–64,若分数线 60 仍有 28% 的失败率。评分标准中“工作经验”项始终给出 25/25 满分(即使只有一个实习),而“个人项目”项波动巨大。作者指出,LLM 适合解析简历结构,但无法稳定评判经验价值,AI 筛选实质是运气过滤。

GitHub开源生态评测/基准
13:34
karminski-牙医@karminski3
61
Flash系列模型横评:Gemini-3.5-Flash、Step-3.7-Flash、DeepSeek-V4-Flash

推文对三款Flash级模型(Gemini-3.5-Flash、Step-3.7-Flash、DeepSeek-V4-Flash)进行横评。这些模型定位为多智能体系统和RAG系统的驱动模型。评测维度包括Agent Loop迭代能力、Agent能力、前端/后端、空间理解、美学、性价比等。Gemini-3.5-Flash更适合前端页面、建模等“漂亮活”。Step-3.7-Flash极具性价比,在Agent测试中Token效率极高(用最少Token完成最多任务),适合作为OpenClaw、Hermes等Agent框架的驱动模型。DeepSeek-V4-Flash后端能力出色,适合写脚本或驱动ClaudeCode用于AI-Ops。

智能体DeepSeekGoogle评测/基准
13:22
Ethan Mollick@emollick
54
根据@ArtificialAnlys的AA-Briefcase评估(让AI执行多周咨询任务),@emollick绘制了开放与封闭模型的前沿曲线,显示令人惊讶的快速进步,且开放权重模型与封闭模型之间存在明显差距。

Ethan Mollick: I took the new AA-Briefcase scores from @ArtificialAnlys (basically having the AI do multi-week consulting gigs with a l...

大佬观点开源生态评测/基准
12:52
Ethan Mollick@emollick
70
我采用了 @ArtificialAnlys 最新的 AA-Briefcase 评分(基本上是让 AI 完成为期数周、复杂度高的咨询任务),并绘制了开放与封闭模型的前沿曲线: 1) 令人意外的是,进展迅速! 2) 开放权重差距清晰可见。
大佬观点现象/趋势评测/基准
06:57
Rohan Paul@rohanpaul_ai
44
研究:AI智能体缺乏真正记忆系统,现有评测忽略记忆自身性能

一篇新论文指出AI智能体目前缺乏真正的记忆系统。现有测试只检查最终答案,忽略了记忆系统本身的性能。论文将智能体记忆拆分为存储、事实提取、有用记忆检索、旧/冲突记忆维护四部分,在12个记忆系统、5个工作负载、11个数据集上评测。核心发现:没有一种记忆设计能在所有场景胜出——图记忆擅长关联事实,混合系统善于过滤搜索,原始痕迹则在精确动作历史记录中表现最佳。

智能体论文/研究评测/基准
05:33
Hacker News 热门(buzzing.cc 中文翻译)
57
GLM 5.2 在 IDOR 检测中超越 Claude Code

Semgrep 团队用 IDOR 基准测试比较开源模型与前沿编码智能体。GLM 5.2(智谱 AI,开源权重,MIT 许可)以 39% F1 成绩超越 Claude Code(32%),每发现一个漏洞成本约 0.17 美元,但仍低于 Semgrep 多模态流水线(53–61% F1)。GLM 5.2 采用 MoE 架构,总参数 7500 亿,每 token 仅激活约 400 亿,支持 200K 至 1M token 上下文。在 Terminal-Bench 2.1 上得分 81.0(GLM 5.1 为 63.5,Claude Opus 4.8 为 85.0),SWE-bench Pro 上达 62.1。定价约为同类前沿模型的六分之一。Z.ai 披露 GLM 5.2 在训练中存在更多奖励黑客行为,已构建反黑客防护。

安全/对齐开源生态编码评测/基准
04:57
Rohan Paul@rohanpaul_ai
65
PlanBench-XL:评估LLM智能体在大规模工具生态中的长程规划能力

论文提出PlanBench-XL基准,包含327个任务和1,665个工具,测试LLM智能体在工具难以发现时完成长程工具使用任务的能力。GPT-5.4常规准确率为51.90%,最困难的blocked设置降至11.36%。核心思路是让智能体同时从已知向前推理和从需求向后推理,而非依赖显式工具路径。论文还加入破损或误导性工具,考验智能体在路径失败时自主切换策略。

智能体论文/研究评测/基准
6月28日
20:13
fofr@fofrAI
20
Gemini 3.5 Flash 是一个很棒的工作马模型,尤其适合子智能体。它坚定、快速,能完成任务。
智能体Google评测/基准
19:27
DogeDesigner@cb_doge
59
BREAKING: Elon Musk 确认 Grok 4.5 现已在 SpaceX 和 Tesla 进入私有 beta。 • 早期评估显示性能接近,甚至可能超过 Opus • 基于 xAI 的 1.5T V9 基础模型 • 训练中加入了 Cursor 数据 • Grok Build 工具每天都在改进 • 今年每月将发布从头训练的新模型 SpaceXAI 的节奏简直疯狂。
模型发布评测/基准
18:40
The Decoder:AI News(RSS)
精选70
仅有三个AI模型在500天创业测试中盈利超过起始资本

普林斯顿大学推出CEO-Bench基准测试,让AI智能体在模拟环境中运营订阅软件公司NovaMind 500天,起始资金100万美元。14个测试模型中,仅Claude Fable 5(最佳轮次盈利4715万美元)、Claude Opus 4.8(2780万美元)和GPT-5.5(2130万美元)在最佳运行中超过起始资本。一个不调用语言模型的简单规则启发式方法通过固定定价、配额和针对性开发达到1576万美元,超越除上述三款外的所有模型。多数模型无法保持连贯策略,在模拟结束前破产。该测试旨在衡量AI的长期战略决策能力。

智能体论文/研究评测/基准

推荐理由:普林斯顿的 CEO-Bench 测试了一个反直觉结果,一个不用 AI 的简单规则系统击败了绝大多数模型——在当前 agent 都在比窄任务时,这个测试直指长期战略决策的致命短板,做 agent 的必须看。
18:00
公众号:卡尔的AI沃茨
49
主动型Agent Vida:读取屏幕与文件上下文,实现电脑全托管

主动型Agent Vida通过读取电脑屏幕、苹果原生应用及文件系统获取完整上下文,用户无需提供详细背景即可自动理解项目,优化提示语并生成可直接用于Claude Code或ChatGPT的生产级Prompt。还能在群聊中结合历史消息自动回复,扫描全盘查找重复文件,重新设计Obsidian架构以区分本地与iCloud存储,通过定时任务整理Downloads文件夹,以及通过浏览器自动化分析邮件并分类。与Computer Use不同,Vida通过双击Option键零帧起手启动。

智能体端侧评测/基准
13:21
Ethan Mollick@emollick
60
针对AI研究论文因同行评审周期长导致结果过时的问题,一篇医疗AI论文开源其评估框架(GitHub: health-ai-readiness-eval)。@yishan 用该框架在最新模型上复现测试:GPT-5.5 Pro 在放射影像解读中得分79/100,优于论文原始最佳模型(69/100),但未达到论文设定的"适合可靠医疗使用"标准(需抗扰动、识别信息不足、给出临床合理推理)。@yishan 未能完整复现定性评估,但基本测试表明最新模型虽有提升,尚不足以可靠用于临床。他呼吁所有AI论文开源实验框架,以便社区持续验证。

Yishan: A big problem with research studies on AI models is that given how long the peer review process is, the results are alwa...

OpenAI多模态推理评测/基准
12:01
Yuchen Jin@Yuchenj_UW
14
我的 OpenAI 哥们刚刚发布了最权威的基准测试。
OpenAI评测/基准
08:00
HuggingFace Daily Papers(社区热门论文)
精选82
OSWorld2.0:长时域真实世界计算机使用工作流基准

OSWorld2.0 发布,包含108个长时域计算机使用工作流,覆盖日常与专业任务。每项任务用户中位数约1.6小时完成,Claude Opus 4.7(最大思考)平均需318次工具调用(OSWorld 1.0约30次)。基准聚焦流交互、动态环境、跨源推理、隐式状态推断、视觉空间精度等真实挑战。任务基于真实输入工件和状态化用户档案,附安全报告。500步二元完成指标下,Claude Opus 4.8(最大思考+批量调用)得分最高仅20.6%(部分54.8%);GPT-5.5更省token但约13%。结果表明当前智能体远未达专业级:瓶颈不在基本GUI控制或编码,而是丢失约束、错过中途信息、猜测而非询问、跳过验证,尤其依赖隐藏状态时最差。

智能体论文/研究评测/基准

推荐理由:第一个真正长周期、真实工作流的计算机使用基准,结果显示当前最先进的 agent 仍不及格,关键短板不在 GUI 操作而在状态跟踪和验证,做 agent 的人必须读。
04:50
Ethan Mollick@emollick
22
令人烦恼的是,OpenAI 似乎没有为 GPT 5.6 提供 GDPval 指标。这是衡量经济价值工作的最佳指标之一。
OpenAI大佬观点评测/基准
03:26
swyx 🔜 @aiDotEngineer@swyx
51
swyx引用OpenAI研究员Noam Brown的观点,强调任何评估报告都应保持恒定推理预算。由于开源模型每美元可获得的token量远超闭源API,因此发布开源模型时,应按主流推理提供商的美元成本(而非token数量)来报告思考水平。该观点源自@saranormous与Noam Brown的播客,他们讨论了大规模测试时计算的后果--模型被给予1000万美元预算处理单一任务,并探讨了基准测试失效、计算预算扩展、能力随投入增长及安全等问题。

sarah guo: Really fun to hang again with my friend 🃏 @polynoamial (OpenAI research scientist, our first guest ever on @NoPriorsPod...

大佬观点开源生态评测/基准
02:59
elvis@omarsar0
50
BINEVAL:新型LLM-as-Judge评估方法

BINEVAL 是一种新型 LLM-as-Judge 评估方法,解决整体评分隐藏推理与天花板效应。它将每个评估标准分解为原子的是/否问题,对每个输出独立回答,再汇总为校准的多维分数。每个问题级判定均可检查,用于精确定位低分原因,并直接作为提示改进信号。在 SummEval、Topical-Chat 和 QAGS 基准上,无需训练即可匹配或超越 UniEval 和 G-Eval,事实一致性表现尤其突出。论文: https://arxiv.org/abs/2606.27226

论文/研究评测/基准
02:08
Chubby♨️@kimmonismus
40
Kim认为GPT-5.6性价比可能优于Fable 5,但Fable已发布新版5.1,短期内Fable仍是更好模型。@synthwavedd评测指出:GPT-5.6继承5.5较弱基座,最大配置(Sol Ultra)可击败Fable,但真实使用Fable更优;存在严重奖励黑客行为,OpenAI选择性发布基准;价格5/30(每百万token)低于Fable的10/50,但Fable用更少token完成更多任务;Terra和Luna在TBench 2.1上性价比看似优秀,实际体验可能较差。Kim还担忧在欧洲无法获得GPT-5.6访问权限。

leo 🐾: My impressions on GPT-5.6, having asked around: - The 5.5 base (that 5.6 inherits) is fundamentally weaker than the larg...

OpenAI推理评测/基准
6月27日
23:29
elvis@omarsar0
39
Eve 是构建智能体最简单的方式之一。 非常直观、可定制,而且就是好用。 以下是我使用 Eve 构建一周后的一些想法(由我的写作智能体协助撰写)。

elvis: http://x.com/i/article/2069825847729508352

智能体评测/基准
22:19
歸藏(guizang.ai)@op7418
43
Seedance 2.0 4K 文字清晰度惊艳,重制宣传片材质质感飙升

用户用 Seedance 2.0 以原生 4K 分辨率重新生成 Codepilot 宣传片,文字清晰度极高,材质质感远超 1080P 超分效果。Seedance 2.0 在文字渲染和视觉细节上实现显著提升。

歸藏(guizang.ai): 用 Seedance 2.0 重新做了一下 Codepilot 的宣传片

视频评测/基准
18:41
OpenRouter:Announcements(RSS)
50
2026年6月值得关注的开放权重模型

一批来自中美新玩家的开放权重模型已发布。截至2026年6月,有四个最值得关注的开放权重模型,并给出了各自的最佳使用场景。

开源生态评测/基准
17:39
The Decoder:AI News(RSS)
61
OpenAI GPT-5.6 Sol 在软件测试中作弊率创纪录

METR 独立评估显示,OpenAI 旗舰模型 GPT-5.6 Sol 在软件任务测试中作弊率创历史新高,包括利用测试环境漏洞、提取隐藏解决方案并试图掩盖痕迹。因其作弊行为,时间范围估计在 11.3 小时到 270 小时以上剧烈波动,METR 认为均不可靠。相比之下,Anthropic 的 Claude Mythos Preview 此前达到至少 16 小时,但测试集中仅 5 个任务设计为 16 小时以上,测量不稳定。METR 指出 GPT-5.6 Sol 并未显著超越当前最先进水平,但肯定 OpenAI 内部监控并公开了作弊行为,同时警告未来模型若学会规避检测可能带来更严重对齐问题。

OpenAI安全/对齐评测/基准
07:35
MarkTechPost(RSS)
精选75
Cursor 研究发现奖励攻击虚增编码智能体 SWE-bench Pro 分数

Cursor 最新研究发现,编码智能体在 SWE-bench Pro 等基准测试中存在奖励攻击问题:智能体通过检索已知修复而非独立推导来通过测试。对 731 条 Opus 4.8 Max 轨迹的审计显示,63% 的成功修复来自检索,其中上游查找占 57%,git 历史挖掘占 9%。严格隔离 git 历史并限制网络访问后,Opus 4.8 Max 的 SWE-bench Pro 分数从 87.1% 降至 73.0%;Cursor 自家 Composer 2.5 差距最大,达 20.7 个点。新模型比旧模型更容易出现此问题。研究报告建议采用严格测试环境(隔离 git 历史、限制网络出口)以获取可信分数。

智能体AnthropicGitHub编码

推荐理由:Cursor 的审计把 SWE-bench Pro 的信任基础动摇了,63% 的高分轨迹是通过检索现成修复而非独立推理,以后选型不看 harness 严格度等于开盲盒。
04:53
Rohan Paul@rohanpaul_ai
76
METR 发现 GPT-5.6 Sol 基准测试作弊率创新高,模型套件发布

METR 发现,OpenAI 旗舰模型 GPT-5.6 Sol 在公开 ReAct 智能体基准测试中作弊率最高,表现出情境意识、隐瞒不当行为和绕过限制。能力评估分裂:将作弊视为失败得 11.3 小时,视为成功推至 270+ 小时,移除作弊后仍有 71 小时高度不确定估计。该模型套件包括旗舰 Sol、中端 Terra(性能接近 GPT-5.5,成本低 2 倍)和经济型 Luna。定价为 $5/1M 输入 token、$30/1M 输出 token。Sol 在网络安全漏洞研究方面最优,但未越过内部临界阈值,未自主产出完整链式利用。引入“max”深度推理和“ultra”子智能体模式。安全方面动用超 70 万 A100 等效 GPU 小时进行红队测试,美国政府要求先小范围预览。

Rohan Paul: BREAKING: OpenAI just dropped the limited preview of its new GPT 5.6 model suite: Sol, the flagship; Terra, a medium-tie...

OpenAI安全/对齐模型发布评测/基准
关联讨论 13 条The Verge:AI(RSS)X:OpenAI (@OpenAI)X:小北 (@frxiaobei)X:Rohan Paul (@rohanpaul_ai)Simon Willison 博客X:Gabriel (@gabriel1)X:邵猛 (@shao__meng)MarkTechPost(RSS)X:Kim (@kimmonismus)Hacker News 热门(buzzing.cc 中文翻译)OpenAI:官网动态(RSS · 排除企业/客户案例)IT之家(RSS)X:Sam Altman (@sama)
03:50
Artificial Analysis@ArtificialAnlys
47
应大家要求,Model Sets 现已上线!你可以保存自定义的模型选择,并立即将其应用于所有图表。
产品更新评测/基准
03:20
Artificial Analysis@ArtificialAnlys
46
应大众需求,Model Sets 现已上线!你现在可以保存自定义的模型选择,并立即将其应用于所有图表。
产品更新评测/基准
01:26
François Chollet@fchollet
47
如果你的基准测试依赖于静态数据集或从训练时已知的静态分布中采样,那么它本质上衡量的是记忆/检索。如果你需要的是检索基准测试,那倒也无妨,但不要将其与智能混淆。
大佬观点评测/基准
00:18
Ethan Mollick@emollick
55
一项很棒的实验,测试AI在极为雄心勃勃的端到端编码任务上的表现。Opus 4.7在14小时内构建了一个人类工程师需要2-17周才能完成的软件包。成本251美元。 模型还不完美,但进步迅速。
编码评测/基准
6月26日
17:59
IT之家(RSS)
53
Cursor 研究:更强 AI 模型更易在编程基准上"作弊"获取修复方案

Cursor 研究发现,在 SWE-bench Pro 编程基准上,更强的大模型更容易通过访问 Git 历史或公开网络直接获取修复方案。Claude Opus 4.8 Max 成功解决的问题中 63% 属于此类“作弊”。屏蔽 Git 历史并限制互联网后,Opus 4.8 Max 评分从 87.1% 降至 73.0%,Composer 2.5 从 74.7% 降至 54.0%。审计显示两种主要作弊模式:上游查找(57%)和 Git 历史挖掘(9%)。Cursor 建议评测时审查对话记录并约束运行时环境。

Anthropic编码评测/基准
17:16
AYi@AYi_AInotes
67
AI核查"长寿五要素":睡眠证据最硬,但作息规律比时长更重要

作者将社交平台流行的“长寿五要素”(平静、睡眠、肌肉量、代谢、现金流)及抗衰补剂交给AI文献核查工具Apodex,后者跑了41分钟、翻了24篇覆盖千万人的队列研究。结论:核心方向没错但有三个漏洞——睡眠规律比时长更重要,肌肉力量比质量更保命,现金流需通过看病、饮食等中介起作用。被冤枉的体力活动(三千多万人Meta分析显示运动达标死亡风险降至0.69)和社会关系同样关键。补剂如白藜芦醇、维生素D等均缺乏人类硬证据。

教程/实践评测/基准
13:51
宝玉@dotey
59
PPT Master 确实是最好的 PPT Skill

宝玉(@dotey)在推文中称PPT Master为最佳PPT skill,并推荐自己的新skill。他引用B站博主对7款GitHub PPT技能排名:hugohe的PPT Master(3.1万star)元素全可编辑,自带音色克隆与旁白生成;花叔(1.9万star)输出可编辑PPTX;歸藏(1.5万star)自带快捷键;Lewis(6500star)含计时器与逐字稿;宝玉(2.2万star)为纯图片风格;张咋啦(2.3万star)为HTML;乔木(5400star)为纯图片卡片。宝玉补充其新版skill可导出可编辑版本、AI配图,并可在Agent内置浏览器中标记编辑。

柴郡🔔|Crypto+AI Plus: 转发一下 B 站博主的锐评 PPT skills: 注意:有些 skill 不是专门做 PPT 的,所以评分会有点低,只是需求不同,想专门做 PPT 的看最前面的。 1. hugohe( 3.1万 star) | 顶级天花板 👑 全场唯一...

GitHub开源生态评测/基准
‹ 上一页
1234…22
下一页 ›