美团近期上线tabbit国际版应用,免费集成多家顶级AI模型的最新旗舰版,包括GPT-5.5、Claude Opus 4.8、Gemini 3.5 Flash,以及国内Kimi-2.6、GLM-5.1、MiniMax-M3。用户无需单独订阅即可使用这些模型。需注意:只有国际版包含海外模型,国内版仅提供国内模型。该应用旨在抢占AI入口,目前处于免费推广阶段。
分享一个免费用 Claude 、Gemini、GPT的方法,都是可用他们的最新旗舰模型。 除了御三家,还有国内的明星模型:Kimi-2.6、GLM-5.1、MiniMax-M3 只要下载一个美团的「tabbit 国际版」,记住要用国际版的才...
邵猛发推讨论一项LLM对比投票,对比双方为GLM-5.2(智谱)与Gemini 3.5 Flash(Google DeepMind)。他认为结果毫无悬念,Gemini 3.5 Flash表现不佳,并感叹自Gemini 3.0多模态惊艳发布后,Google便一路沉寂。最后提问:目前几款国产LLM中,谁更强?
DeepAdapt 发布 ACI(自适应持续智能)运行时学习层,通过将重复工作负载从 GPU 转移至标准 CPU,实现运营成本降低 82%、推理速度提升 33 倍(中位延迟 159 ms)。ACI 在推理时实时学习模型决策、人工修正与反馈,已知请求直接本地 CPU 处理,仅不确定或复杂请求回传底层 LLM。基准测试:token 消耗降 90%、生产级成本降 5.7 倍、准确率 96%(对比无 ACI 的 85%)、每千次决策能耗降 85.7%、规则违规减 4.8 倍。无需微调或重训,即插即用,GPU 依赖随系统成熟递减。该架构先用于云端 LLM 智能体,未来对个人设备同样重要。
OpenAI 将前沿健康 AI 能力从 premium 推理模型迁移至免费版 GPT-5.5 Instant,使其健康评估表现接近 Thinking 模型。每周超 2.3 亿用户通过 ChatGPT 咨询健康问题。OpenAI 采用知识蒸馏:由更强教师模型与 260+ 名医生(覆盖 60 国、49 种语言、26 专科)审查超 70 万条模型响应,训练学生模型学习临床回答模式。训练结合监督微调与偏好训练,重点提升“不确定性下的行为”(如主动询问年龄、症状等缺失信息)。真实健康流量中事实性问题减少 71%。GPT-5.5 Instant 已向全体免费用户开放。
GPT-5.5 Instant is now on par with our frontier Thinking models for health-related questions. Every week, more than 230 ...
关联讨论 2 条The Decoder:AI News(RSS)OpenAI:官网动态(RSS · 排除企业/客户案例)ClickUp 正在为 Brain 开发上下文压缩功能。该功能可在后台压缩整个工作空间(含文档、任务和历史),使 Brain 能像深度研究智能体一样推理多年材料,响应仍保持在秒级。例如,指向多年审计时,Brain 可自动追踪相关政策变更、提取支持文档并生成时间线,无需手动搜索存档。
UCSD 黄碧薇教授将近 30 年 AI 分为四代:相关性小模型、因果小模型、相关性大模型(LLM)、因果大模型,认为我们正站在第四代门口。她深耕因果 AI 12 年,是 causal-learn 作者、Apple Scholar 入选者。其创立的 Aether AI 今日官宣完成首轮融资,被解读为资本开始为下一代 AI 范式(因果大模型)下注,而非继续堆参数、拼体量的“相扑式”竞争。
人类到今天都写不出一颗煎蛋的物理方程, 一颗鸡蛋打进热油锅,它怎么凝固、怎么摊开、边缘怎么变焦, 没有任何一个公式能描述清楚,这种例子在物理世界里多到数不过来。 而这恰恰是当下通用 AI 范式的天花板,视频生成、VLA 学的都是像素层面的统...
imo it is crazy that openai, years into the heated AGI race, released o1 and described in quite a bit of detail the prin...
Announcing AA-Briefcase, the benchmark for the next era of agentic knowledge work AA-Briefcase is our new benchmark for ...
Artificial Analysis 推出新基准 AA-Briefcase,用于评估模型在长期知识工作项目中的智能体能力。基准包含 4 个私有场景(每项目需处理 25000+ Slack 消息、3500+ 邮件等碎片化上下文)及一个公开演示场景。评测结果:Claude Fable 5 以 Elo 1587 领先,其次为 Claude Opus 4.8(1356)、Opus 4.7 及智谱 GLM 5.2(max,1266)。成本方面,Claude Fable 5 平均每任务 $31,Opus 4.8 为 $10.40,GPT-5.5 (xhigh) 为 $3.68,GLM 5.2 (max) 为 $2.40,DeepSeek V4 Flash (max) 仅约 $0.04。所有模型中仅 3% 的任务满足全部标准,31/91 个任务无模型得分超 50%,显示真实世界复杂性仍是挑战。最佳性价比为开源权重模型 GLM-5.2 (max) 和 DeepSeek V4 Pro (max)。
When we announced @OpenAI o1 some researchers from other labs told me we made a strategic mistake and should have kept i...
Yann LeCun 在 Bloomberg 采访中指出,LLM 只能处理离散符号序列,而语言是对世界的近似简化描述。互联网公开文本约 20 万亿词(30 万亿 token),而一个 4 岁孩子通过视觉在 4 年内就能看到同等数据量——文本则需要 40 万年阅读。感官输入提供远多于语言的密集反馈,文本剥离了大部分真实世界体验。这解释了 LLM 能流畅谈论物理却缺乏对易碎玻璃的直观感受,也呼应了 Moravec 悖论:机器难以掌握婴儿通过身体习得的常识。
@jietang @teortaxesTex On benchmarks, yes, but as measured by true usefulness even Q1 would be very impressive. Anthropi...
Wisedocs 发布 Medical Long Context Reasoning (MLCR) 基准,测试 LLM 对真实医疗档案的长文档推理能力。评测包含 250 个问题,横跨 6 个难度等级,另设私有保留集,涵盖复杂医学推理、幻觉检测及单次查询中的并行提问。Wisedocs 同步开源 10 个合成病例、低三级问题及评估工具。Artificial Analysis 将合作上线该基准。
Introducing MLCR, a novel Medical Long Context Reasoning benchmark. Our eval measures the ability of LLMs to answer real...
GPT-5.5 Instant is now on par with our frontier Thinking models for health-related questions. Every week, more than 230 ...
关联讨论 2 条The Decoder:AI News(RSS)OpenAI:官网动态(RSS · 排除企业/客户案例)GPT-5.5 Instant在健康相关问题上的表现已与OpenAI的前沿思考模型持平。每周超过2.3亿用户向ChatGPT咨询健康问题,GPT-5.5 Instant能更准确地识别需紧急护理的情况、主动询问相关背景、解释不确定性并简化复杂信息。该模型已向ChatGPT所有免费用户开放。医生主导的评估对这些重大智能提升至关重要。
With Brain, Computer starts each task with full context of your projects, decisions, and sources instead of from scratch...
If you're wondering how people on your timeline seem to have access to GPT-5.6 Pro, it's now being stealth tested when 5...
Together with researchers at Boston Children's Hospital and Harvard, we published a study in NEJM AI showing how o3 Deep...
Together with researchers at Boston Children's Hospital and Harvard, we published a study in NEJM AI showing how o3 Deep...
🚨 GPT 5.6 Pro first output on the same prompt we are getting started > frontend/ webdev is not solved or improved yet >...
Introducing GLM-5.2: Frontier Intelligence, Open Weights - Significant improvements in coding and agentic tasks - Strong...
传统LLM智能体技能路由仅从工具库选取单一技能,难以应对多技能组合的真实任务。本文形式化定义“组合式技能路由”,将复杂查询分解为原子子任务,为每个子任务检索对应技能并组合成可执行计划。系统SkillWeaver由LLM分解器、双编码器FAISS检索器和依赖感知DAG规划器构成。同时发布CompSkillBench基准,含300个组合查询和2,209个真实技能,直接评估多技能路由能力。DAG规划器将检索技能转化为有序、尊重依赖关系的计划。
由 OpenBMB、SGLang 和 NVIDIA 联合主办的 SOAR 2026 挑战赛结束,旨在单消费级 GPU 上最大化 MiniCPM-SALA(稀疏+线性混合注意力模型)推理性能。最终 326 支队伍注册,4300+ 次提交,69 队入围排行榜。冠军团队实现整体 6.33 倍加速,单请求推理峰值达 9.72 倍,方案结合 NVFP4 量化、FlashInfer plan-cache 优化、自定义 Triton 内核、EAGLE-3 推测解码及运行时感知调度。低比特量化、推测解码、稀疏注意力和阶段感知调度被视为下一代高效推理核心支柱。
Vivek Nair的文章(520万阅读)指出,2026年AI让研究变成“看起来像在研究”而非真正研究。算法选论文、AI总结摘要、生成代码,使“SFT型”(监督微调)研究异常舒适,但判断力无法被替代。真正的原创研究是“RL型”:从目标出发推理。Vivek开出药方:自己选题、读原文、写下来、盯着失败看。大多数人阅读后继续刷下一条。
http://x.com/i/article/2067469942132490241
🚀 Our new blog: Optimizing Ling-2.6-1T on TPU with SGLang-JAX: Hiding MoE Data Movement Behind Compute with One Pallas ...
UCSD教授黄碧薇(@huang_biwei)创办的 Aether AI 宣布完成 2000 万美元首轮融资,目标是构建因果世界模型。她认为当前视频生成、VLA 等 AI 仅学习像素层面的统计相关性,无法理解背后因果,并提出第四代 AI 范式——因果大模型,让模型从普通视频中自动抽取出人类写不出的物理规律,甚至发现未知新物理。黄碧薇深耕因果 AI 12 年,是 causal-learn 作者,入选 Apple Scholar。本轮融资被视为跳出“堆参数、比算力”的 scaling 路线,转向下一代 AI 范式的关键信号。
I've spent over a decade working on causal discovery and causal AI. A lot of late nights, a lot of papers, and a lot of ...
论文《LoopCoder-v2》质疑“测试时计算越多越好”的观点。作者提出Parallel Loop Transformer架构,使循环可并行运行并共享内存。他们训练了7B参数的代码模型(1/2/3/4次循环),在18T tokens上预训练并微调,测试代码编写、推理、软件工程和工具使用任务。主要结果:2次循环效果最好,将SWE-bench Verified从43.0提升至64.4,而3次和4次循环性能下降。内部分析显示,第二次循环进行了有意义的精炼(改变隐藏状态、注意力模式和预测),后续循环则主要添加重复和噪声。结论:增加一次隐藏循环可大幅提升性能,但继续增加并非自动有益。
谷歌即将发布 Gemini 3.5 Pro,已在 Gemini 3.1 Pro 产品卡片上标注“3.5 Pro 即将推出”。相比 3.1 Pro,预计视觉能力更强、多模态推理更出色,SVG/前端生成功能升级。将搭载更严格的安全过滤器和内容审核机制,定价预计更高。最大期待是谷歌能在正式发布前修复早期版本在长复杂任务中的“偷懒”问题。
Artificial Analysis 将 Claude Fable 5 列为有史以来基准测试成本最高的模型,运行其 Intelligence Index 需 $6.2K,是第二贵模型 Opus 4.8($3.7K)的 1.7 倍、GPT-5.5($2.9K)的 2.2 倍。该模型 Intelligence Index 得分 60,领先 Opus 4.8(56)和 GPT-5.5(55)。定价 $10/$50 每百万输入/输出 tokens,为 Opus 4.8 的 2 倍,仅低于 GPT-5.5 Pro($30/$180)。缓存价格同步翻倍:缓存读取 $1/M、写入 $12.5/M,而 Opus 4.8 分别为 $0.5/$6.25。Intelligence Index 成本前三高的模型目前均为 Claude。
vLLM 团队与 NVIDIA 合作,为 MiniMax M3 模型提供开箱即用的 day 0 体验,并集成 Inferact 的 EAGLE3 推测解码。当前工作包括:NVIDIA、Inferact 与 SemiAnalysis 推动拆分推理(PR 45879),Inferact 团队启用 FlashInfer M3 MoE 内核(PR 45723),落地后性能将显著提升。NVIDIA 表示 M3 已加入 DeepSeek V4 和 Kimi-K2.6 等前沿开放智能体模型行列。NVIDIA Blackwell Ultra 在 M3 上比 Hopper 实现最高 5 倍 AI 工厂吞吐量,并超过 300 TPS/user。未来通过优化内核、NVFP4 及 NVIDIA Dynamo 拆分推理等,性能有望进一步提升。
📣: MiniMax M3 has landed, joining models like DeepSeek V4 and Kimi-K2.6 at the frontier of open agentic models - and NV...
Z.ai 推出 GLM 5.2 模型,1M 上下文窗口、MIT 许可开源权重,面向长周期编码智能体。Tensordyne 宣布推理系统,机架吞吐量达 NVIDIA NVL72 GB300 的 13 倍。MIT 研究显示代码量激增 300% 但产出仅增 30%。Google 发布 DiffusionGemma,26B MoE 仅激活 3.8B。Anthropic CEO Dario Amodei 呼吁紧急政策改革。OpenAI 收购 Ona,为 Codex 智能体提供安全云桌面。美国商务部长致信 Anthropic,就禁止外国用户使用 Mythos 和 Fable 做出说明。
GPT-5.4 helped drive a medicinal chemistry project from literature review to a validated experimental result. Paired wit...