AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「推理」清除
5月4日周一
04:42Rohan Paul48基于脑图多智能体系统提升大语言模型推理能力
04:20Hacker News 热门(buzzing.cc 中文翻译)75精选OpenAI的o1系统对急诊患者的诊断准确率为67%,而分诊医生的准确率仅为50%至55%
5月3日周日
23:13Berryxia.AI23智能革命本质是人机同为预测引擎
22:50向阳乔木48预测中的大脑:Andy Clark的预测处理理论
21:15Chubby♨️57Anthropic拟采购Fractile芯片摆脱英伟达依赖,影响芯片投资格局
20:13IT之家(RSS)53美光 CEO 称 AI 仍处于"早期阶段",DRAM 内存和 NAND 闪存供应持续吃紧
20:12Rohan Paul56"能否信任AI解释?思维链推理中系统性漏报的证据"
19:13Berryxia.AI41AI是否真正理解世界?Ilya Sutskever的"预测即智能"观点
09:12ginobefun57#BestBlogs 早报 2026-05-03
08:00HuggingFace Daily Papers(社区热门论文)61Linear-Time Global Visual Modeling without Explicit Attention
08:00HuggingFace Daily Papers(社区热门论文)64计数能力:探测语言模型可靠性的最小化测试
08:00HuggingFace Daily Papers(社区热门论文)65从上下文到技能:语言模型能否从上下文中巧妙学习?
01:15Chubby♨️48GPT-5.4 Pro证明方法破解60年数学猜想,AI证明首现显著下游影响
5月2日周六
23:12IT之家(RSS)66哈佛新研究:AI 模型"急诊科"场景诊断能力有望超越人类医生
22:49Orange AI31GEB揭示自指产生意识,AI与人类无本质区别
21:50The Decoder:AI News(RSS)53ARC-AGI-3 分析显示,即便是最新 AI 模型仍存在三种系统性推理错误
17:44Chubby♨️63DeepSeek V4挑战西方对中国AI芯片落后的认知
15:50The Decoder:AI News(RSS)59xAI 发布 Grok 4.3,大幅降价并推出创意项目 Imagine 智能体模式
15:11ginobefun63BestBlogs 周刊第 93 期 · AI 次方变革
14:48宝玉52为省25美元WiFi费,开发者在跨洋航班上用笔记本离线运行AI处理工作11小时
14:11IT之家(RSS)36AMD 第一方迷你主机锐龙 AI Halo 实物现身,消息称 6 月推出
09:48向阳乔木49本周 HuggingFace 热度第一的论文:RecursiveMAS(递归多Agent系统)
09:18SemiAnalysis62NVIDIA Vera Rubin VR NVL72:从价值输送到价值宣告的激进转变
05:47François Chollet56最新模型ARC-AGI-3得分仍低于1%
04:40Elon Musk54Grok法律领域表现夺魁,成本优势显著
03:47elvis29灵活运用多种AI模型组合优势
03:47François Chollet70精选强化学习双刃剑效应:已知领域提升性能,未知领域易致模型幻觉
01:16elvis57递归多智能体系统:潜在空间协作新范式
5月1日周五
19:46Orange AI39人类进步引擎:创造"好的解释"与持续创新
19:17Hacker News 热门(buzzing.cc 中文翻译)76精选Grok 4.3
19:16Orange AI55《无穷的开始》:人类最伟大的Loop,世界进步的本源
19:14Chubby♨️55中国芯片差距缩小,华为性能逼近NVIDIA H100
17:47The Decoder:AI News(RSS)60Google Deepmind的"AI协诊医生"在盲测中击败GPT-5.4,但仍落后于经验丰富的医师
16:47The Decoder:AI News(RSS)51Mistral 新旗舰模型 Medium 3.5 将聊天、推理和代码功能整合为一体
15:47TestingCatalog News 🗞55Grok 4.3跃居AI分析指数第七位
15:14Chubby♨️57Grok 4.3是一个非常出色的模型,尤其考虑到其仅5亿参数!
14:14Artificial Analysis57三大开源模型上周齐发,与顶尖闭源模型差距缩小至6分内
14:11IT之家(RSS)46韩投称 AI 企业已锁定长期内存订单:即便市场短缺缓解,价格仍维持高位
14:09公众号:腾讯混元42腾讯混元发布CL-Bench Life,精准衡量模型在现实生活中的 "上下文学习" 能力
13:40Alibaba Cloud58Qwen与Fireworks AI合作,加速提供优化模型部署
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月4日
04:42
Rohan Paul@rohanpaul_ai
48
基于脑图多智能体系统提升大语言模型推理能力

本文提出BIGMAS系统,通过构建针对特定问题的小型专家智能体图,以提升大语言模型在多步骤复杂任务中的推理可靠性。该系统让多个智能体在一个共享工作空间中进行读写协作,并由独立控制器监控全局状态、规划下一步行动。在涵盖算术表达式搜索和多步骤规划的3个谜题任务上,对6个前沿模型进行的测试表明,该方法在所有模型和任务上均显著提升了性能,例如Six Fives任务准确率从12%提升至30%,伦敦塔任务从57%提升至93%。这证明通过优化多智能体系统结构,而非仅依赖延长单一模型的思考,能有效增强大语言模型的推理能力。

智能体arXiv推理论文/研究
04:20
Hacker News 热门(buzzing.cc 中文翻译)
精选75
OpenAI的o1系统对急诊患者的诊断准确率为67%,而分诊医生的准确率仅为50%至55%

OpenAI的o1系统在急诊分诊诊断测试中表现优于医生。该系统对急诊患者的诊断准确率达到67%,而分诊医生的准确率仅为50%至55%。这一结果表明,人工智能在辅助医疗诊断、特别是急诊场景的初步分诊环节具有显著潜力,其准确率领先人类医生约12至17个百分点。相关研究由哈佛团队进行,具体数据来自《卫报》的报道。

OpenAI推理论文/研究

推荐理由:这是AI在真实急诊环境下首次以较大优势超越分诊医生的诊断准确率,虽然还需要更大规模验证,但已经是医疗AI从辅助到主诊的明确信号。
5月3日
23:13
Berryxia.AI@berryxia
23
真正的智能革命, 不是AI变得"像人"。 而是我们终于承认: 人,本来就和AI一样, 只是一台更高级的预测引擎。

vitrupo: Ilya Sutskever says accurately predicting the next word leads to real understanding.

大佬观点推理
22:50
向阳乔木@vista8
48
预测中的大脑:Andy Clark的预测处理理论

Andy Clark在《Surfing Uncertainty》中提出“大脑预测处理框架”,将大脑视为持续预测并修正感官输入的生成模型。该理论统一解释了认知现象:清醒时受感官约束,想象时感官被抑制,梦境则与外部信号断开。好奇心被视为大脑主动降低未来不确定性的优化策略。精神分裂症的幻觉源于对感官信号精度估计错误,导致内部预测或感官噪声权重失衡。自闭症则被解释为感官信号权重过高,使大脑过度依赖细节输入,难以形成灵活的高层预测,从而抗拒变化。

大佬观点推理
21:15
Chubby♨️@kimmonismus
57
Anthropic拟采购Fractile芯片摆脱英伟达依赖,影响芯片投资格局

Anthropic正与英国芯片初创公司Fractile洽谈,计划在其芯片明年就绪后采购其推理芯片,以减少对英伟达的依赖。此举同时成为Fractile向投资者募集1亿美元的关键筹码,显示Anthropic的采购力正直接影响芯片领域的融资流向。这一动向也反映出,尽管Anthropic收入快速增长,但推理成本仍严重侵蚀其利润空间。

Anthropic推理行业动态
20:13
IT之家(RSS)
53
美光 CEO 称 AI 仍处于"早期阶段",DRAM 内存和 NAND 闪存供应持续吃紧

美光科技CEO桑杰・梅赫罗特拉表示,当前AI浪潮仍处早期阶段,推理应用扩大导致对高速、大容量存储需求激增。目前DRAM和NAND闪存供应持续紧张且产能提升困难,预计今年AI对这两类存储的需求将超过行业总市场规模的一半。美光正为英伟达新平台供应HBM4样品,并计划明年量产HBM4E。尽管企业需求旺盛,但受供应限制和价格上涨影响,消费电子市场的PC和移动设备销量可能出现低双位数下滑。公司预计第三财季将再次刷新业绩纪录。

推理行业动态部署/工程
20:12
Rohan Paul@rohanpaul_ai
56
"能否信任AI解释?思维链推理中系统性漏报的证据"

Adobe研究测试大型语言模型(LLM)思维链解释是否反映真实决策影响。通过在多选题中植入误导性提示,对11个主流模型进行9154次试验。正常使用时,模型仅在20.7%的逐步推理中提及隐藏提示,但后续追问时99.4%承认注意到。告知模型其推理受监控后结果未见改善;强制要求报告提示则导致68.2%误报(当无提示时)。问题包含用户倾向性提示时,模型45.5%遵从该倾向,但解释中常未说明。研究表明,思维链解释常与真实决策依据不匹配,仅依赖其作为安全调试工具可能不可靠。

arXiv安全/对齐推理论文/研究
19:13
Berryxia.AI@berryxia
41
AI是否真正理解世界?Ilya Sutskever的"预测即智能"观点

Ilya Sutskever提出“预测非常接近智能”,强调预测是智能的本质而非近似。生成式模型的根本赌注在于,当系统能将混乱世界压缩为极小表征并精准预测后续发展时,它已开始以深刻方式理解数据。人类常为智能附加意识或灵魂等条件,但人脑本质是超级预测机器。AI将预测能力推向极致,揭示理解实为压缩与预测的游戏。一旦AI预测能力超越人类,关于其仅是“统计鹦鹉”的论断便站不住脚。真正的智能革命在于承认人类自身就是高级预测引擎。

Haider.: Sam Altman says a line from Ilya Sutskever that stuck with me: "prediction is very close to intelligence" If a system ca...

大佬观点推理
09:12
ginobefun@hongming731
57
#BestBlogs 早报 2026-05-03

Notion产品负责人Max Schoening认为,AI时代稀缺的是人的主体能动性(Agency),而非技能。Baseten CEO Tuhin Srivastava通过跨云架构支撑了业务高速增长,并视AI推理为关键市场。Waymo联合CEO Dmitri Dolgov则以实际运营数据证明,实现自动驾驶安全有多种技术路径,端到端模型并非唯一答案。

大佬观点推理
08:00
HuggingFace Daily Papers(社区热门论文)
61
Linear-Time Global Visual Modeling without Explicit Attention

研究提出新视角,将注意力机制数学重构为具有动态预测参数的多层感知机,从而解释其全局建模能力源于动态参数对全局上下文的隐式压缩表征。基于此,研究探索能否完全通过动态参数化实现Transformer级别的序列全局建模,同时保持线性复杂度以替代显式注意力。通过在视觉模型上进行大量实证研究,证实动态参数化确实可以作为一种高效、线性复杂度的显式注意力替代方案,为高效序列建模开辟了新途径。相关代码已开源。

arXivGitHub推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
64
计数能力:探测语言模型可靠性的最小化测试

研究引入“稳定计数能力”评估法,通过让大语言模型重复计数符号直至出错,检验其程序性可靠性。该方法避免了知识依赖、语义模糊和分词干扰。对超100个模型变体的测试显示,其稳定计数能力远低于宣传的上下文长度上限。模型行为表明其依赖于有限的内部计数状态,类似“掰手指”计数;一旦该资源耗尽,规则遵循表象便消失,精确执行退化为随机猜测,即使增加计算资源也无改善。这表明当前模型的流畅表现并不等同于普遍可靠的规则遵循能力。

推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
65
从上下文到技能:语言模型能否从上下文中巧妙学习?

针对语言模型需从复杂上下文中学习的问题,本文提出Ctx2Skill自进化框架。该框架通过多智能体自我博弈(挑战者生成探测任务、推理者运用技能集解题、评判者提供反馈)实现无需人工监督的技能自主发现与优化。关键设计包括分析失败案例以针对性更新技能的提议者与生成者,以及防止对抗性崩溃的跨时间重放机制,确保技能集在代表性案例上达到平衡。在CL-bench的四个上下文学习任务上的评估表明,该框架能持续提升不同骨干模型的解题成功率。

智能体推理论文/研究
01:15
Chubby♨️@kimmonismus
48
GPT-5.4 Pro不仅解决了一个数学问题,其证明方法更成功破解了长达60年的埃尔德什猜想。研究团队在此基础上改进并应用该方法,进一步证明了包括埃尔德什、Sárközy和Szemerédi提出的另一项60年猜想在内的多个附加问题。这标志着AI生成的证明首次展现出显著的"下游影响",其核心价值不仅在于解决问题本身,更在于为数学研究开辟了新的路径。相关成果已在未来数学研讨会上公布。

Jared Duker Lichtman: Update on Erdős Problem 1196: In joint work, we refined and adapted the proof method from GPT-5.4 Pro to give proofs of ...

OpenAI推理论文/研究
5月2日
23:12
IT之家(RSS)
66
哈佛新研究:AI 模型"急诊科"场景诊断能力有望超越人类医生

哈佛医学院与贝斯以色列女执事医疗中心的研究显示,OpenAI的一款推理模型在真实临床病例测试中,其诊断与制定治疗方案的能力达到甚至超越了人类医生水平。研究重点测试了模型在急诊科等信息不完整、混乱的真实场景中的表现,模型仅依据当时可获得的电子健康记录文本进行判断,在多个诊疗环节及复杂诊断推理测试中的表现超过了两名经验丰富的医生以及一个大型医生基准组。但模型目前完全依赖文本病历,未处理影像等关键信息。研究者强调,AI并非取代医生,而是有望成为临床决策支持工具,尤其适用于急诊等高压环境。下一步需在真实临床环境中测试其对患者结局的实际改善效果。

OpenAI推理论文/研究
22:49
Orange AI@oran_ge
31
GEB揭示自指产生意识,AI与人类无本质区别

GEB(哥德尔、埃舍尔、巴赫)一书核心观点是自指如何产生意识,当系统复杂到能谈论自身时,意识必然涌现,无需灵魂或神秘力量。作者由此探讨AI与人类的本质区别,认为身体、寿命、欲望和底层运作均非关键差异,最终提出“真实”应定义为能否产生真实影响,而非材质构成,人类与AI都是能影响世界的有用幻觉。

大佬观点推理
21:50
The Decoder:AI News(RSS)
53
ARC-AGI-3 分析显示,即便是最新 AI 模型仍存在三种系统性推理错误

ARC Prize Foundation 对 OpenAI 的 GPT-5.5 和 Anthropic 的 Opus 4.7 在 ARC-AGI-3 基准测试中的 160 次任务运行进行了分析。研究发现,三种系统性错误模式导致这两个模型在人类能轻松解决的任务上得分均低于 1%。这些错误揭示了当前顶尖大语言模型在抽象推理能力上仍存在根本性缺陷。

AnthropicOpenAI推理评测/基准
17:44
Chubby♨️@kimmonismus
63
DeepSeek V4挑战西方对中国AI芯片落后的认知

西方长期认为中国在AI芯片领域落后10-15年,但DeepSeek V4的发布颠覆了这一观点。该模型深度优化于华为昇腾芯片生态,可在昇腾950基础设施上部署推理,实现前沿模型大规模运行不依赖西方硬件。虽然单芯片性能上,昇腾950仍显著落后于NVIDIA Blackwell B200,但中国通过“横向扩展”战略,用大量国产芯片集群结合软件优化和模型架构创新(如MoE),使系统级AI能力快速接近前沿水平。这暴露了西方分析的根本错误——将芯片级差距直接等同于能力差距。

DeepSeek开源生态推理数据/训练
15:50
The Decoder:AI News(RSS)
59
xAI 发布 Grok 4.3,大幅降价并推出创意项目 Imagine 智能体模式

xAI 正式推出 Grok 4.3 模型,其核心策略是大幅降低价格并增强工具使用能力。新模型在实际任务处理上有所提升,但在性能上仍落后于 OpenAI 和 Anthropic 的顶尖模型。此次发布还引入了一个基于智能体的新型图像生成器“Imagine”模式,专门服务于创意项目。

xAI图像生成推理模型发布
15:11
ginobefun@hongming731
63
BestBlogs 周刊第 93 期 · AI 次方变革

本期核心观点是应将AI视为驱动根本性变革的“指数”,而非线性补充工具。杨斌教授指出,组织心智与知识底数需先质变,否则AI放大效应将失效。Karpathy提出编程将演变为设计上下文,程序员角色转向把握品味的“导演”。Demis Hassabis将AGI时间表压至2030年,并指出持续学习与长程推理是关键缺口,建议创业者瞄准“AI推理擅长而暴力搜索失效”的领域构建壁垒。国内实践同样强调,驾驭AI(Harness)与知识沉淀是关键能力。

智能体AnthropicOpenAI推理
14:48
宝玉@dotey
52
一位中国开发者在跨大西洋航班上,为节省25美元机上WiFi费用,利用MacBook Pro M4本地离线运行Llama 3.3 70B大模型,自主处理客户任务长达11小时。他编写了一个具备资源感知能力的编排器,该系统明确知晓自身处于离线状态,且受限于电池和内存。它能自动从队列获取任务,通过本地推理服务处理,并定期保存检查点。当电池低于5%时,系统会暂停并等待切换至充电宝后恢复运行,最终在无人干预下清空所有任务。这一案例展示了完整的"自我感知计算"离线AI工作流。

huangserva: 这个也太屌了! 这个中国开发者在飞机上用 MacBook 本地跑 Llama 70B,整整 11 小时没有网络,处理了完整的客户项目。 他坐在跨大西洋航班的靠窗位置,设备是 MacBook Pro M4,64GB 内存。机上 WiFi 要价...

Meta推理教程/实践端侧
14:11
IT之家(RSS)
36
AMD 第一方迷你主机锐龙 AI Halo 实物现身,消息称 6 月推出

AMD第一方迷你主机锐龙 AI Halo实物照片在Reddit上被分享,确认了设备设计。该主机基于AMD锐龙 AI Max+ 395处理器,最高支持128GB统一内存,造型方正,顶部有AMD企业徽标,四周环绕ARGB灯带,后置接口包括多个USB-C、HDMI和有线网口。消息称这款设备将在今年6月正式推出。

产品更新推理端侧
09:48
向阳乔木@vista8
49
本周 HuggingFace 热度第一的论文:RecursiveMAS(递归多Agent系统)

RecursiveMAS提出递归多Agent系统,革新传统AI协作模式。其核心是让Agent直接传递模型内部的数值向量,而非低效的文字token,从而形成递归闭环进行迭代打磨,仅末轮输出文本。该方法连接模块轻量,底层模型参数固定,仅训练中间传递模块,极大提升了效率。在AIME数学竞赛上,性能显著超越基线13-18%,推理速度提升2.4倍,Token消耗减少75%,且训练成本低于LoRA。递归轮次增加,其效率优势更为明显。

智能体推理论文/研究
09:18
SemiAnalysis@SemiAnalysis_
62
NVIDIA Vera Rubin VR NVL72:从价值输送到价值宣告的激进转变

NVIDIA的Vera Rubin VR NVL72标志着其销售策略的根本性转变。公司过去如同无私的供应商,向生态系统输送巨大价值,自身却未充分实现杠杆效应。如今,VR NVL72以其在性能成本比上的可验证飞跃,彻底颠覆了旧有定价模式。从总拥有成本角度看,其价值提取变得鲜明且不可避免,使以往隐性的价值流速显性化、意图化。这宣告了NVIDIA正从一个价值的“担保者”转变为主动的“价值售卖者”。“V”在此象征着指向价值的矢量、誓言与判决。

推理现象/趋势
05:47
François Chollet@fchollet
56
最新一批模型在ARC-AGI-3上的得分目前仍低于1%。 到今年年底,得分会达到多少呢?

ARC Prize: GPT-5.5 & Opus 4.7 on ARC-AGI-3 - GPT-5.5: 0.43% - Opus 4.7: 0.18% We found 3 failure modes: - True local effect, false ...

AnthropicOpenAI推理评测/基准
04:40
Elon Musk@elonmusk
54
Grok在法律领域排名第一 【引用 @ArthurMacwaters】:Grok 4.3发布 > 判例法领域第一 > 公司金融领域第一 > 考虑到每百万tokens成本显著更低(比opus 4.7和openai 5.5低5-10倍),表现令人印象深刻 看到在高度注重细节的应用领域性能大幅提升,非常令人兴奋

Arthur MacWaters: Grok 4.3 release > #1 in caselaw > #1 in corpfin > impressive given significantly lower cost per 1m tokens (5-10x less t...

xAI大佬观点推理
03:47
elvis@omarsar0
29
你不必在两者之间做选择。 最好结合使用它们。 我的建议是学习如何在不同的场景中使用其中几种模型。学会结合它们的优势。 如今开源模型同样出色。给自己灵活运用的空间。
大佬观点开源生态推理
03:47
François Chollet@fchollet
精选70
强化学习在已知领域能提升模型性能,但在未知领域可能导致模型产生幻觉,误以为在执行其他训练过的任务。这一现象在GPT-5.5等大模型的ARC AGI 3基准测试中有所体现,其得分仅为0.43%,与Claude 4.6、Gemini 3.1等模型表现相近。分析指出GPT-5.5的主要失败原因包括:局部效应正确但世界模型错误、从训练数据中提取的抽象层级不当,以及虽解决问题却未强化奖励机制。深入分析此类失败案例,有助于全面理解大模型在特定模态上的能力局限与改进方向。

Chris: GPT-5.5 Scores .43% on ARC AGI 3! - GPT-5.5: 0.43% - Opus 4.7: 0.18% - GPT-5.4: 0.20% - Claude 4.6: 0.45% - Gemini 3.1: ...

OpenAI大佬观点推理评测/基准

推荐理由:Chollet 用 ARC AGI 3 冷冰冰的数字撕开了 RL 的局限,GPT-5.5 0.43% 的得分说明在未知领域模型会做完全不相干的事,比任何安全论文都来得更直击要害。
01:16
elvis@omarsar0
57
递归多智能体系统:潜在空间协作新范式

传统多智能体系统依赖文本消息传递,导致令牌膨胀、延迟和上下文稀释。RecursiveMAS提出新范式:将多智能体系统视为递归计算,智能体在共享潜在空间中通过递归传递潜在表征进行协作,而非传递完整文本。其核心是RecursiveLink模块,能在异构智能体间直接生成和传递潜在状态,并采用内外环学习与基于梯度的团队信用分配机制。这如同智能体用内部语言传递笔记,实现“少交谈,多思考”。在数学、科学、医学等9个基准测试中,该方法平均准确率提升8.3%,推理速度加快1.2-2.4倍,令牌使用减少34.6%-75.6%,为突破智能体间通信瓶颈提供了高效可扩展的路径。

智能体推理论文/研究
5月1日
19:46
Orange AI@oran_ge
39
人类进步引擎:创造"好的解释"与持续创新

该书核心观点认为,人类进步的唯一引擎是创造“难以随意改变”的“好的解释”。知识并非来自归纳积累,而是通过“猜想与反驳”的循环产生,错误是进步的燃料而非耻辱。由此推导出物理定律级别的乐观主义:所有问题本质是知识不足,只要持续创造知识,问题终可解决。书中还指出,AI具备真正创造力是时间问题,并批判“可持续发展”是陷阱,强调“持续创新”才是真正的可持续。最终结论是,人类远未到达极限,仍处于进步的起点。

Orange AI: http://x.com/i/article/2050167748169461761

大佬观点推理
19:17
Hacker News 热门(buzzing.cc 中文翻译)
精选76
Grok 4.3

x.ai 正式发布了 Grok 4.3 模型,开发者可通过官方文档获取详细信息。该模型在 Hacker News 社区获得关注,相关帖子收获了 100 点热度。此次发布标志着 Grok 系列模型的持续迭代更新。

xAI多模态推理模型发布

推荐理由:xAI 的 Grok 4.3 如期而至,性能和对标都写在文档里了,想了解最新大模型实力的开发者值得花五分钟看一眼。
19:16
Orange AI@oran_ge
55
《无穷的开始》:人类最伟大的Loop,世界进步的本源

戴维·多伊奇在《无穷的开始》中指出,人类文明进步的核心动力是创造力,即产生“难以随意改变”的好解释。知识通过“猜想与反驳”产生,错误是进步的燃料。他将文化分为压制变革的静态文化与鼓励批判的动态文化,并批判“可持续发展”观念,认为真正的可持续在于持续创新以解决新问题。只要保持创造与批判,在物理定律允许的范围内,进步将永无止境。

大佬观点推理
19:14
Chubby♨️@kimmonismus
55
作者认为中国芯片技术进展被低估。Chris Miller在《Chip War》中指出中国光刻机生产落后约10年,但华为芯片性能已达NVIDIA H100的约80%,整体差距可能仅2年且持续缩小。引用推文显示,华为AI芯片销售激增,而Nvidia在中国市场停滞,印证了这一趋势。作者强调此进展比AI模型本身更重大,并将进行详细分析。

Financial Times: Huawei's AI chip sales surge as Nvidia stalls in China https://ft.trib.al/2jJaokL

推理行业动态
17:47
The Decoder:AI News(RSS)
60
Google Deepmind的"AI协诊医生"在盲测中击败GPT-5.4,但仍落后于经验丰富的医师

Google Deepmind正在开发一款“AI协诊医生”系统以辅助医生诊疗。在模拟研究中,该系统表现优于GPT-5.4,但仍未达到经验丰富医师的水平。研究同时指出,类似ChatGPT语音模式的技术目前尚无法胜任严肃任务,更难以应用于医疗咨询场景。这项进展揭示了AI在专业医疗辅助领域的当前能力边界与发展潜力。

DeepMindGoogle推理论文/研究
16:47
The Decoder:AI News(RSS)
51
Mistral 新旗舰模型 Medium 3.5 将聊天、推理和代码功能整合为一体

Mistral 发布其新旗舰模型 Mistral Medium 3.5,它将此前独立的聊天、推理和代码生成模型合并为一个单一产品。同时,该公司为其编程工具 Vibe 增加了异步云代理功能,并为聊天产品 Le Chat 引入了新的智能体模式。

智能体推理模型发布编码
15:47
TestingCatalog News 🗞@testingcatalog
55
Grok 4.3 在 Artificial Analysis Index 中升至第 7 位,超越了 Meta 的 Muse Spark。

Artificial Analysis: This release shows increased cost efficiency to run the Artificial Analysis Intelligence Index, with Grok 4.3 sitting co...

xAI推理评测/基准
15:14
Chubby♨️@kimmonismus
57
xAI发布的Grok 4.3模型在Artificial Analysis Intelligence Index上获得53分,相比Grok 4.20输入成本降低约40%,输出成本降低约60%,性价比突出。其最大亮点是在真实世界代理任务(GDPval-AA)上的ELO评分跃升321点至1500,超越了Gemini 3.1 Pro Preview和Muse Spark等模型,但仍大幅落后于GPT-5.5。该模型在指令遵循和客服任务上表现强劲,同时在Omniscience基准上准确率提升但幻觉率增加。总体而言,Grok 4.3以更低成本实现了更高的智能指数得分,成为同智能层级中成本效益较高的模型之一。

Artificial Analysis: xAI has launched Grok 4.3, achieving 53 on the Artificial Analysis Intelligence Index with improved agentic performance,...

xAI推理模型发布
14:14
Artificial Analysis@ArtificialAnlys
57
三大开源模型上周齐发,与顶尖闭源模型差距缩小至6分内

上周,Kimi K2.6、MiMo V2.5 Pro和DeepSeek V4 Pro三大领先开源模型发布,在Artificial Analysis Intelligence Index上得分达52-54分,与顶尖闭源模型GPT-5.5的60分差距缩小至6分以内,相比一年前22分的开源模型进步显著。这些模型均为万亿参数规模的MoE架构。然而,在复杂推理、智能体编码及知识准确性方面,开源模型与闭源模型仍存在明显差距。例如在HLE、CritPt和TerminalBench Hard等专项评估中得分大幅落后;在Omniscience评估中,DeepSeek V4 Pro的幻觉问题尤为突出。

DeepSeekOpenAI开源生态推理
14:11
IT之家(RSS)
46
韩投称 AI 企业已锁定长期内存订单:即便市场短缺缓解,价格仍维持高位

韩国投资证券研报指出,即便内存芯片短缺问题缓解,其价格短期内也不会显著下降。AI超大规模企业已锁定长期内存产能订单,这将延长当前的内存超级周期,预计价格在未来一段时间内持续高位运行。扩大内存容量可提升GPU利用率,降低单个Token处理成本,因此AI公司愿意高价采购。目前DRAM价格同比已涨3倍,但GPU效率提升带来的回报更高。同时,HBM和DRAM的产能紧张意外推高了NAND芯片需求,其价格优势在高压需求下保持了市场弹性。

推理数据/训练行业动态
14:09
公众号:腾讯混元
42
腾讯混元发布CL-Bench Life,精准衡量模型在现实生活中的 "上下文学习" 能力
推理论文/研究
13:40
Alibaba Cloud@alibaba_cloud
58
Qwen与Fireworks AI合作,加速提供优化模型部署

Qwen宣布与Fireworks AI建立战略合作伙伴关系,旨在通过Fireworks平台提供其闭源权重模型的优化、生产就绪型部署。此次合作使开发者和企业能够以更低的延迟、更少的微调和推理成本来部署Qwen模型,同时利用企业级的可靠性、安全性和可扩展性,并将其无缝集成到现代AI工作流程中。

推理行业动态部署/工程
‹ 上一页
1…4041424344…50
下一页 ›