5月2日

15:41

Elon Musk@elonmusk

Grok Voice 目前正被 Starlink 使用【引用 @XFreeze】：Grok Voice 在 τ-voice 基准测试中占据绝对优势 Grok 得分为 67.3%，而 Gemini 为 43.8%，GPT Realtime 为 35.3% 这遥遥领先于竞争对手，优势巨大目前最优秀的实时推理语音助手

X Freeze: Grok Voice brutally dominates the top of the τ-voice Bench Grok scores 67.3%, while Gemini sits at 43.8% and GPT Realtim...

xAI 评测/基准语音

13:49

TestingCatalog News 🗞@testingcatalog

谷歌新的Gemini Flash模型已在LM Arena上出现。同时，Vertex AI客户收到邮件，Gemini 3.1 Flash Lite即将正式发布。引用推文指出，虽然模型在竞技场中仍显示为"Gemini 3 Flash"，但其输出质量已跃升两个层级，性能更接近当前的Gemini 3.1 Pro，是一次重大升级，实际版本可能是3.1、3.2或3.5 Flash。

can: 🚨 Google updated Gemini 3 Flash in arena It still has the same name "Gemini 3 Flash". However, output quality is two ti...

Google 模型发布评测/基准

06:47

François Chollet@fchollet

若你希望帮助世界理解AGI并加速其到来，可以考虑加入ARC Prize基金会。目前开放两个职位：Game Platform Engineering Lead，以及Model Testing & Analysis Lead https://arcprize.org/jobs

行业动态评测/基准

05:47

François Chollet@fchollet

ARC Prize: GPT-5.5 & Opus 4.7 on ARC-AGI-3 - GPT-5.5: 0.43% - Opus 4.7: 0.18% We found 3 failure modes: - True local effect, false ...

Anthropic OpenAI 推理评测/基准

03:47

François Chollet@fchollet

精选70

强化学习在已知领域能提升模型性能，但在未知领域可能导致模型产生幻觉，误以为在执行其他训练过的任务。这一现象在GPT-5.5等大模型的ARC AGI 3基准测试中有所体现，其得分仅为0.43%，与Claude 4.6、Gemini 3.1等模型表现相近。分析指出GPT-5.5的主要失败原因包括：局部效应正确但世界模型错误、从训练数据中提取的抽象层级不当，以及虽解决问题却未强化奖励机制。深入分析此类失败案例，有助于全面理解大模型在特定模态上的能力局限与改进方向。

Chris: GPT-5.5 Scores .43% on ARC AGI 3! - GPT-5.5: 0.43% - Opus 4.7: 0.18% - GPT-5.4: 0.20% - Claude 4.6: 0.45% - Gemini 3.1: ...

OpenAI 大佬观点推理评测/基准

推荐理由：Chollet 用 ARC AGI 3 冷冰冰的数字撕开了 RL 的局限，GPT-5.5 0.43% 的得分说明在未知领域模型会做完全不相干的事，比任何安全论文都来得更直击要害。

5月1日

19:15

PixVerse@PixVerse_

主推文感谢了用户@TomLikesRobots分享的文本生成视频模型对比。对比在SeeDance 2.0和HappyHorse 1.0之间进行，使用了统一的提示词来生成具有低保真、温馨、赛璐珞风格动漫美学的视频。其中，HappyHorse由@PixVerse_提供，目前对会员免费。由于两个模型自带的音频效果不佳，创作者最终使用@Suno来生成背景音轨。

TomLikesRobots🤖: SeeDance 2.0 vs HappyHorse 1.0 Very quick text-to_video comparison. Which do you prefer? Universal Prompt: "Aesthetic: l...

多模态评测/基准

18:47

The Decoder：AI News（RSS）

GPT-5.5 在网络攻击测试中与 Claude Mythos 匹敌，英国 AI 安全研究所发现

英国 AI 安全研究所评估发现，OpenAI 的 GPT-5.5 成为第二个能够自主完成完整网络攻击模拟的 AI 模型。其表现与 Anthropic 的 Claude Mythos 几乎持平，后者目前仍仅限小范围使用。GPT-5.5 现已通过 ChatGPT 和 API 向公众广泛提供。

Anthropic OpenAI 安全/对齐评测/基准

15:47

TestingCatalog News 🗞@testingcatalog

Grok 4.3 在 Artificial Analysis Index 中升至第 7 位，超越了 Meta 的 Muse Spark。

Artificial Analysis: This release shows increased cost efficiency to run the Artificial Analysis Intelligence Index, with Grok 4.3 sitting co...

xAI 推理评测/基准

14:40

Rohan Paul@rohanpaul_ai

LongCat团队发布LARYBench基准，评估AI模型能否从视频中真正学习动作

LongCat团队推出LARYBench基准，旨在评估AI模型是否从视频中真正学习动作，而非仅在后端机器人策略中表现良好。该基准聚焦模型从视频提取的潜在动作表示，通过超过120万视频片段等数据，将评估拆分为动作分类与控制回归两个清晰测试。关键发现是，通用自监督视觉模型（如V-JEPA 2和DINOv3）表现优于专用具身模型，表明强大视觉表示已蕴含丰富动作知识，且潜在特征空间比像素重建更利于机器人控制映射。这为利用丰富视频数据解决机器人训练数据稀缺问题提供了新方向。

具身智能论文/研究评测/基准

14:14

HuggingFace Daily Papers（社区热门论文）

Claw-Eval-Live：面向动态真实工作流的实时智能体基准

Claw-Eval-Live 是一个用于评估工作流智能体的实时基准，它将可定期刷新的公共需求信号层与可复现的时间戳快照相分离。该基准基于当前版本中 ClawHub Top-500 技能构建了 105 项涵盖商业服务与本地工作空间修复的受控任务。评估过程全面记录执行轨迹、审计日志、服务状态与运行后产物，并综合使用确定性检查与结构化大模型评判。在对 13 个前沿模型的公开统一测试中，领先模型仅通过 66.7% 的任务，无一达到 70%。失败多集中于人力资源、管理及多系统业务工作流，而本地修复任务相对容易但仍有提升空间。结果表明，工作流智能体评估需同时基于新鲜的外部需求与可验证的智能体执行动作。

智能体论文/研究评测/基准

14:14

Artificial Analysis@ArtificialAnlys

三大开源模型上周齐发，与顶尖闭源模型差距缩小至6分内

上周，Kimi K2.6、MiMo V2.5 Pro和DeepSeek V4 Pro三大领先开源模型发布，在Artificial Analysis Intelligence Index上得分达52-54分，与顶尖闭源模型GPT-5.5的60分差距缩小至6分以内，相比一年前22分的开源模型进步显著。这些模型均为万亿参数规模的MoE架构。然而，在复杂推理、智能体编码及知识准确性方面，开源模型与闭源模型仍存在明显差距。例如在HLE、CritPt和TerminalBench Hard等专项评估中得分大幅落后；在Omniscience评估中，DeepSeek V4 Pro的幻觉问题尤为突出。

DeepSeek OpenAI 开源生态推理

11:14

HuggingFace Daily Papers（社区热门论文）

InteractWeb-Bench：多模态智能体能在交互式网站生成中摆脱盲目执行吗？

本文针对非专业低代码用户指令模糊、质量低的现实瓶颈，提出了首个多模态交互式网站生成基准InteractWeb-Bench。该基准通过四类用户智能体与基于人物角色的指令扰动，系统模拟了包含模糊、冗余和矛盾在内的多样化用户行为，并提供了一个支持澄清、实现、验证和提交统一行动的交互式执行环境，以实现迭代式意图细化与代码合成。大量实验表明，当前前沿的多模态大语言模型智能体仍受困于“盲目执行”模式，在意图识别与自适应交互方面存在明显局限。

智能体多模态编码论文/研究

08:44

elvis@omarsar0

DeepSeek-V4-Pro 在智能体编码任务中表现惊艳

测试者使用 DeepSeek-V4-Pro 在 Pi 编码智能体上构建了一个 LLM 知识库，对其开箱即用的表现感到震撼。这是首个在推理能力上媲美 Claude 和 Codex 的开源权重模型，且成本效益高，支持 100 万上下文长度。该模型无需复杂配置即可在基础框架中直接运行，擅长智能体编码和知识密集型推理任务，能跨公司文档、论坛、论文和代码库进行多步骤研究、代码生成与上下文推理。其高效运行得益于 Fireworks 的市场最快推理速度及混合注意力设计，将 KV 缓存降至 10%，推理计算量减少近 4 倍，实现了快速且低成本的实践部署。

智能体 DeepSeek 开源生态推理

08:16

Ethan Mollick@emollick

xAI发布Grok 4.3，其在Artificial Analysis智能指数得分53，性能优于Grok 4.20、Muse Spark等模型。核心改进在于"性价比"：输入与输出价格较前代分别降低约40%和60%，且基准测试套件运行成本下降。该版本在GDPval-AA等现实智能体任务上表现显著提升，指令遵循与客服任务强劲。但推文指出，其表现仍落后于最新的中国开源模型，并批评GDPval-AA测试本身价值有限。

Artificial Analysis: xAI has launched Grok 4.3, achieving 53 on the Artificial Analysis Intelligence Index with improved agentic performance,...

大佬观点行业动态评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

WildTableBench：针对真实场景表格图像理解的多模态基础模型基准评测

本文提出了首个针对真实世界自然场景表格图像的问答基准WildTableBench。该基准包含从在线论坛和网站收集的402张高信息密度表格图像，以及涵盖五大类别、17种子类型的928个人工标注验证问题。研究对21个前沿的专有和开源多模态基础模型进行了评估，结果显示仅有一个模型准确率超过50%，其余模型准确率介于4.1%至49.9%之间。诊断分析进一步揭示了模型在结构感知和数值推理方面存在的持续弱点。该基准为深入评估和提升表格图像理解能力提供了重要的诊断工具。

多模态论文/研究评测/基准

07:45

OpenRouter@OpenRouter

精选68

@xai 的新模型 Grok-4.3 现已在 OpenRouter 上线！ Grok-4.3 以比 Grok-4.2 更低的价格发布，同时在代理性能上实现大幅跃升：在 @ArtificialAnlys 的 GDPval-AA 基准上 ELO 分数提升 321 点至 1500，尽管价格更低，但仍超越了其他顶级模型。

智能体 xAI 模型发布评测/基准

推荐理由：Grok-4.3 降价但性能反升，agentic 跑分直接到 1500，如果之前觉得 Grok 贵而没试过，这次可以上车了。

04:39

Rohan Paul@rohanpaul_ai

前沿AI能以超人速度自主实施端到端复杂网络攻击

前沿AI已能以超人速度和近乎零边际成本自主完成端到端的复杂专家级网络攻击链。在AISI的网络安全评估中，GPT-5.5与Mythos Preview表现相当，均远超GPT-4o等早期模型。GPT-5.5在包含32个步骤的企业网络攻击模拟中成功完成端到端攻击，而人类专家需约20小时。在一项人类专家需12小时完成的反向工程任务中，GPT-5.5仅用11分钟、花费1.73美元即告解决。

AI Security Institute: OpenAI's GPT-5.5 is the second model to complete one of our multi-step cyber-attack simulations end-to-end 🧵

OpenAI 安全/对齐评测/基准

04:12

Chubby♨️@kimmonismus

本地LLM游戏开发对决：Gemma 4 31B 在效率与逻辑上胜过 Qwen 3.6 27B

在@atomic_chat_hq平台的本地LLM游戏开发竞赛中，Gemma 4 31B与Qwen 3.6 27B于MacBook Pro M5 Max上对决。尽管Qwen生成速度更快（32 tokens/秒）且回答更具创意，但Gemma仅用3分51秒和6209个token，输出了更简短、清晰、逻辑性强的答案。在具体的吃豆人游戏逻辑实现上，Gemma在点击反应、与墙壁/幽灵的交互及粒子效果处理方面表现更优。作者强调此为单次测试，Qwen或可通过调整设置提升表现，并邀请社区验证。

开源生态推理评测/基准