Kimi K2.6在编程挑战赛中击败了Claude、GPT-5.5和Gemini。该模型是一款开源的中国AI模型,在HumanEval编程基准测试中取得了92.7%的准确率,超越了GPT-5.5的92.2%和Claude 3.5 Sonnet的90.2%。其上下文长度扩展至128K tokens,并采用了MoE架构。此次表现标志着开源模型在编程能力上首次超越主流闭源模型。
研究发现语言模型中的拒绝行为由单一方向介导,这意味着模型拒绝回答敏感或有害问题时,可能通过一个特定内部向量实现。该机制揭示了模型行为控制的关键点,有助于提升安全性和对齐性。相关论文已在arXiv平台发布,并获得100个Hacker News社区点数,显示其受技术社区关注。
候世达在《哥德尔、埃舍尔、巴赫》中提出,意识源于“怪圈”——系统通过自指与递归,从底层交互中涌现高层“自我”,并反向调节底层,形成因果循环。当前大模型因推理无状态,缺乏此循环。而具备长期记忆的Agent则不同:其行为写入持续上下文(context),context又塑造其后续行为,形成了一个自我指涉、自我调节的闭环。这与人类意识类似:两者均通过操控和迭代context(注意力或记忆)来间接影响底层系统,而非直接修改权重,从而在循环中涌现并演化“自我”。
作者认为Claude代码中转站虽能赚钱,但成本高、用户易流失,非可持续好生意。高利润需强供应链,仅适合具备超级流量、独立2B业务及推广团队者。
近期,网信部门针对“自媒体”未规范标注信息来源的行为展开严管,处置违规账号9.8万余个。主要问题包括发布国内外时事、公共政策等信息时不标注来源,使用AI生成内容不添加标识,以及虚构演绎内容不标注标签,这些行为误导公众、破坏网络生态。典型案例涉及抖音、快手、哔哩哔哩等多个平台账号,内容涵盖国际时事、公共政策、AI生成视频和虚构剧情。网信部门将指导平台把规范标注设为短视频发布的必经环节,并要求创作者主动规范标注,确保信息真实完整。
杭州某科技公司以AI技术冲击业务为由,对从事问句质检的35岁主管周某调岗降薪,遭拒后单方解除劳动合同。周某提起劳动仲裁并诉至法院。杭州余杭区法院及杭州中院审理认为,公司以AI替岗为由解除合同,既不属于客观情况重大变化,也未提供合理协商方案,构成违法解除。法院判决公司支付赔偿金26万余元,并明确AI技术革新不等同于劳动合同无法履行,企业应优先考虑培训员工转岗,保障劳动者权益。
荣耀在MWC 2026上宣布与顶级电影摄影机厂商ARRI阿莱达成战略技术合作,该合作将率先在全球首款“手机机器人”Robot Phone中落地,融合移动影像与电影摄影技术。荣耀首席影像工程师罗巍透露,同期另一家手机厂商也寻求合作,但ARRI因荣耀技术能力更强、对影像趋势判断更准而选择荣耀。原计划2026年3月开售的Robot Phone已延期数月,延期可能让用户体验到影像智能体的完全版。
一名Jane Street的应届毕业生通过自主构建的智能AI系统,成功获得了年薪22万至60万美元的职位。该系统的核心在于运用JAX与Mesh-TF框架,能够高效处理海量数据,并识别人类无法察觉的隐秘模式,从而直接驱动实际交易决策。其成功关键并非单纯加班,而是通过技术创新实现了效率的质的飞跃。该毕业生已发布长达一小时的系统构建详解,内容涵盖从挖掘稀缺数据集到将原始数据转化为交易决策的全过程,并指出这比花费数月时间浏览社交媒体对职业发展的助益大得多。
据博主爆料,第二代豆包AI手机有望于今年上半年发布,预计将搭载高通骁龙8 Elite Gen 5芯片。此前,中兴通讯已在业绩说明会上确认,正与字节跳动深化合作,共同推进新一代豆包AI手机的研发与落地。作为前代参考,首款搭载豆包手机助手技术预览版的工程样机努比亚M153已于2025年12月少量发售。豆包手机助手是豆包大模型与手机厂商在操作系统层面合作的AI助手。
Notion产品负责人Max Schoening认为,AI时代稀缺的是人的主体能动性(Agency),而非技能。Baseten CEO Tuhin Srivastava通过跨云架构支撑了业务高速增长,并视AI推理为关键市场。Waymo联合CEO Dmitri Dolgov则以实际运营数据证明,实现自动驾驶安全有多种技术路径,端到端模型并非唯一答案。
研究提出了一种结合线程约束有向无环图(TC-DAG)与语篇感知旋转位置编码(D-RoPE)的新框架,用于对话方面级情感四元分析。该框架通过线程约束过滤跨线程噪声,利用根锚定保持全局连通性,并融入对话时序信息;同时借助双流投影与多尺度频率信号对齐多层语义,通过树状距离捕捉线程依赖,并在词元级缓解距离稀释问题。在两个基准数据集上的实验表明,该框架实现了最先进的性能。
研究提出新视角,将注意力机制数学重构为具有动态预测参数的多层感知机,从而解释其全局建模能力源于动态参数对全局上下文的隐式压缩表征。基于此,研究探索能否完全通过动态参数化实现Transformer级别的序列全局建模,同时保持线性复杂度以替代显式注意力。通过在视觉模型上进行大量实证研究,证实动态参数化确实可以作为一种高效、线性复杂度的显式注意力替代方案,为高效序列建模开辟了新途径。相关代码已开源。
研究引入“稳定计数能力”评估法,通过让大语言模型重复计数符号直至出错,检验其程序性可靠性。该方法避免了知识依赖、语义模糊和分词干扰。对超100个模型变体的测试显示,其稳定计数能力远低于宣传的上下文长度上限。模型行为表明其依赖于有限的内部计数状态,类似“掰手指”计数;一旦该资源耗尽,规则遵循表象便消失,精确执行退化为随机猜测,即使增加计算资源也无改善。这表明当前模型的流畅表现并不等同于普遍可靠的规则遵循能力。
自回归视频生成因顺序去噪计算负担重而面临部署挑战。现有缓存重用方法采用粗粒度的块级跳过,无法捕捉细粒度像素动态。为此,研究提出MotionCache运动感知缓存框架,其核心是利用帧间差异作为像素级运动特征的轻量级代理。该方法采用从粗到细的策略:初始预热阶段建立语义连贯性,随后根据运动权重动态调整每个令牌的缓存更新频率。在SkyReels-V2和MAGI-1等先进模型上的实验表明,MotionCache分别实现了6.28倍和1.64倍的显著加速,同时有效保持了生成质量(VBench指标下降分别仅为1%和0.01%)。该框架代码已开源。
针对语言模型需从复杂上下文中学习的问题,本文提出Ctx2Skill自进化框架。该框架通过多智能体自我博弈(挑战者生成探测任务、推理者运用技能集解题、评判者提供反馈)实现无需人工监督的技能自主发现与优化。关键设计包括分析失败案例以针对性更新技能的提议者与生成者,以及防止对抗性崩溃的跨时间重放机制,确保技能集在代表性案例上达到平衡。在CL-bench的四个上下文学习任务上的评估表明,该框架能持续提升不同骨干模型的解题成功率。
关联讨论 1 条X:AK (@_akhaliq)基于开源模型和商用GPU的广告支持型AI在经济上可行。计算表明,一个由4块B200 GPU组成的集群服务300名用户时,每小时成本约18美元。通过广告收入即可覆盖成本:在内容网络中每3分钟展示一条广告(CPM 3.12美元),或在搜索广告中每39分钟展示一条(CPM 38.40美元),这一广告频率已与常见的移动和网页应用相当。对于代码代理等高强度任务,可采用混合盈利模式:用户每月支付10美元订阅费并每日观看8条广告,即可支持约200万token的用量,这证明了该模式的实用性。
OpenAI CEO 萨姆·奥尔特曼向长期对立的埃隆·马斯克发出示好信号,公开欢迎其参加计划于5月5日举行的GPT-5.5庆功宴。奥尔特曼在线发布了报名表,并表示将由Codex帮助挑选参加者。针对作家安德鲁·库兰的调侃,奥尔特曼回应称“他如果想来的话,可以来。世界需要更多的爱”。两人关系始于2015年共同创立OpenAI,但马斯克于2018年因价值观分歧离开,此后多次批评OpenAI的商业化转向,并于2024年3月起诉OpenAI偏离协议。目前案件已进入庭审阶段,现场气氛紧张,法官曾警告双方控制社交媒体言论。
本文介绍了20项Claude Code的核心使用技巧,旨在优化开发工作流。关键功能包括:通过Esc+Esc或/rewind命令回退到历史检查点,实现“撤销”与选择性总结;利用快捷键直接粘贴截图或打开编辑器编写长提示;通过管道命令传输错误日志,为模型提供丰富上下文。此外,用户可借助.claudeignore文件排除路径、用#保存持久指令、或输入“ultrathink”提升模型处理复杂任务的努力等级。高级功能涵盖生成使用报告、保存个人偏好、查看上下文用量,以及在隔离环境或云端运行任务。语音输入功能允许通过按住空格键进行口述提示。
苹果 iOS 27 系统预计于 WWDC 26 大会亮相,9月正式推送。新系统将推出独立 Siri 应用,支持类 ChatGPT 的交互,并新增灵动岛界面。卫星通信功能迎来重大升级,包括通过卫星使用 Apple Maps、收发 iMessage 图片等四项新功能,可能为搭载 C2 基带的 iPhone 18 Pro 系列机型独占。系统将效仿“雪豹”策略,专注于质量修复与性能提升。此外,还正在测试具备增强自动纠错功能的全新虚拟键盘,并可能引入系统级 UI 透明度调整滑块等智能新功能。
华为乾崑智能汽车解决方案发布4月安全出行报告,其累计辅助驾驶里程已达104.7亿公里,跨越百亿里程碑。月度辅助驾驶里程为9.1亿公里,智驾辅助月活用户数达143万,用户占比94.8%,月度人均辅助驾驶里程637公里。具体功能上,车位到车位功能使用956万次,辅助泊车达6548万次。此前,华为已发布乾崑智驾ADS 5.0系统,首发防误打方向盘与车位到车位3.0版本,并推出了乾崑OS与迭代至3.0版本的乾崑XMC车辆控制技术。
谷歌正在其Gemini平台测试一款名为“Omni”的新模型,专注于视频生成功能。泄露信息显示,该模型的界面提示用户“从一个想法开始或尝试一个模板”,并注明“由Omni驱动”。这一模型可能与内部代号“Toucan”的视频生成工具密切相关,后者目前由Veo驱动。如果谷歌计划正式发布用于视频生成的Gemini Omni,其性能很可能超越当前的Veo 3.1版本。若消息属实,Gemini将成为首个具备视频输出能力的顶级Omni模型,这标志着谷歌在视频生成领域的重大技术进展,并可能为未来的Google I/O 2026活动预热。此举显示了谷歌在人工智能视频生成方面的持续创新和竞争态势。