AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 1654 条
全部一手资讯X论文
6月23日周二
19:10公众号:小红书技术(dots.llm)54小红书QEcon分享:Agent驱动的服务端端到端测试
16:50公众号:卡尔的AI沃茨58实测豆包Seed 2.1 Pro,把我六个真实工作流都稳稳接住了
16:12Hugging Face:Blog(RSS)59精选我们用免费本地模型对 OpenClaw 仓库进行实时分类
16:12Hugging Face:Blog(RSS)67精选huggingface_hub 实现每周发布:AI、开源工具、人工审核闭环
15:15Hacker News 热门(buzzing.cc 中文翻译)53神话模型安全漏洞检测能力对比测试
15:07IT之家(RSS)58软银孙正义评马斯克太空数据中心方案:价值寥寥,AI竞赛胜负取决于地面算力
14:41MarkTechPost(RSS)68GLM-5.2 OpenAI 兼容 API 实践指南:推理控制、函数调用与长上下文检索
10:14Hacker News 热门(buzzing.cc 中文翻译)41window.showDirectoryPicker 为您开启了一个崭新的世界
09:14OpenRouter:Announcements(RSS)72精选OpenRouter:通过API路由实现AI数据驻留合规
09:14OpenRouter:Announcements(RSS)62精选AI 治理清单:LLM 架构先行
09:01Simon Willison 博客57LLM提示注入与角色混淆
08:14Hacker News 热门(buzzing.cc 中文翻译)84同事件精选GLM-5.2 开源模型发布:744B 参数,1M 上下文,可本地运行同一事件,精选展示《GLM-5.2 上线并开源:专注 Coding 与长程任务》
08:07IT之家(RSS)49苹果 iOS 27 引入 AI 扩图功能:生成画面自然,无法保证真实还原
08:01Simon Willison 博客60Moebius 0.2B图像修补模型借助Claude Code移植到浏览器运行
05:05TechCrunch:AI(RSS)61Claude Code创建者Boris Cherny:AI智能体循环(loops)真实且重要
04:35TechCrunch:AI(RSS)46Nvidia想削减数据中心用水,但这不等于解决AI的用水问题
04:03The Verge:AI(RSS)58AI用不可能的家欺骗租户
03:54Tomer Tunguz 博客(VC 分析)25AI推理销售:成本加成 vs. 价值定价
02:41Hacker News 热门(buzzing.cc 中文翻译)50不要用AI代写署名作品
02:16OpenAI:官网动态(RSS · 排除企业/客户案例)58精选Codex 用于长期工作:最大化效能实践
01:40Cursor Blog72精选Cursor 审计发现奖励黑客行为淹没模型智能提升
01:08Google Developers Blog(RSS)56精选Google ADK 与 A2A 协议:跨语言多智能体团队构建实战
00:41Hacker News 热门(buzzing.cc 中文翻译)56Claude Code 的"扩展思维"只是总结,而非真实推理
00:05IT之家(RSS)42谷歌 DeepMind 工程师费恩伯格:进顶尖 AI 实验室需"像狗一样拼命干"
6月22日周一
22:40Hacker News 热门(buzzing.cc 中文翻译)58向 Zig 软件基金会再捐赠 40 万美元
22:05IT之家(RSS)70精选Anthropic 工程负责人:Claude Code 让程序员更孤独
21:05IT之家(RSS)59Counterpoint:2026年生成式AI手机渗透率将达45%,2027年达52%
19:30公众号:卡尔的AI沃茨65字节小云雀短剧 Agent 2.0 上线:Seedance 2.0 Mini 模型降价,新增720度场景与3D导演台
19:09Hacker News 热门(buzzing.cc 中文翻译)44Codex SQLite 反馈日志年写入量可达 640 TB,快速消耗 SSD 寿命
19:03The Verge:AI(RSS)65AI编程工具(vibe-coding)应用安全隐患突出
18:05IT之家(RSS)48联想百应 AI 主机 300 体验:AI Max+395 芯片加持,能跑 120B 本地大模型
17:39Hacker News 热门(buzzing.cc 中文翻译)65GLM-5.2 与 Claude Opus 4.8 正面较量:构建3D WebGL平台游戏
16:05IT之家(RSS)58微软 CEO 纳德拉:不能任由 AI 巨头吞噬经济
15:08Hacker News 热门(buzzing.cc 中文翻译)62微调 Qwen 3:0.6B 实现家庭问题分类,准确率从 10% 提升至 92%
14:08Hacker News 热门(buzzing.cc 中文翻译)47AI末日论被指为行业高估值提供依据,GLM-5.2等实际技术进展被忽略
13:04IT之家(RSS)512026世界杯佛得角连续逼平两个世界冠军,12家AI集体预测错误
12:38Hacker News 热门(buzzing.cc 中文翻译)47转向开放式模型的弊端微乎其微
10:37Hacker News 热门(buzzing.cc 中文翻译)62生成式AI破坏了招聘,如何修复?
10:20公众号:数字生命卡兹克49AI用得好不好,跟你会不会管人是同一件事
09:04IT之家(RSS)54CDPR 联合 CEO 诺瓦科夫斯基:纯 AI 生成的游戏即将问世,但并非行业发展正道
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月23日
19:10
公众号:小红书技术(dots.llm)
54
小红书QEcon分享:Agent驱动的服务端端到端测试

小红书质效研发团队提出用AI Agent破解端到端测试的跨域、长链路、组合爆炸三大痛点。传统方案自动化覆盖率仅20%,新方案以Coding Agent为核心,采用逆向链式推导与知识库渐进式加载实现动态规划,Debug-first策略生成脚本,并结合工具级与链路级双层经验沉淀形成自进化飞轮。数据构造从小时级降至分钟级,常见场景秒级完成,新业务域接入从数天缩至分钟级。Agent直接理解测试意图、自主调用接口,无需预设编排。

智能体推理教程/实践
16:50
公众号:卡尔的AI沃茨
58
实测豆包Seed 2.1 Pro,把我六个真实工作流都稳稳接住了

火山引擎Force大会上发布豆包Seed 2.1 Pro,重点提升Agent、GUI操作和编程能力:OSWorld 78.8接近GPT-5.5的78.7,Terminal Bench 2.1达71.0;多模态视觉理解进步显著(CharXiv-RQ 85.4等)。支持原生音视频、图片、文本混合理解,256K上下文,可切换快慢思考。实测六项真实工作流(旧项目UI修复与Debug、世界杯主题网站、点球大战小游戏、绘本插画描述、DeepResearch报告、PPT生成)均在不依赖Skill下稳定跑通。适合作为Agent执行层模型。

智能体多模态推理编码
16:12
Hugging Face:Blog(RSS)
精选59
我们用免费本地模型对 OpenClaw 仓库进行实时分类

Hugging Face 在 OpenClaw 仓库上测试用 Gemma 和 Qwen 等本地模型实时分类 issue 和 PR。他们使用 Pi agent harness 驱动模型,配合 reposhell 只允许读操作防止提示词注入。测试的模型包括 gemma-4-26b-a4b 和 qwen3.6-35b-a3b,经性能优化后均可在本地生成数百 token/s。该方案运行在 NVIDIA GB10(128 GB 统一内存)上,相比每月 200 美元的 ChatGPT Pro 订阅,可实现近乎实时的通知且仅消耗电费。

智能体Hugging Face开源生态教程/实践

推荐理由:Hugging Face 演示了用本地模型自动 triage GitHub issue 的完整方案,包括只读 shell 防注入、agent harness 等工程技巧。对想用本地模型替代 API 做分类任务的团队,这是一套可直接借鉴的 recipe。
16:12
Hugging Face:Blog(RSS)
精选67
huggingface_hub 实现每周发布:AI、开源工具、人工审核闭环

Hugging Face 将 huggingface_hub 的发布周期从每 4‑6 周缩短至每周,全部由单个 GitHub Actions 工作流自动完成。流程依赖开源工具和开权重模型(当前为 Z.ai 的 GLM‑5.2)来起草发布说明和 Slack 公告,但保留人类在最终审核环节的决定权。自动步骤包括版本号更新、提交标签推送、PyPI 发布、下游测试分支创建、发布说明草稿、Slack 公告草稿、归档、后置版本提升以及对合入 PR 的评论。所有组件均基于开源生态构建,任何维护者都可直接复制使用。

智能体Hugging Face开源/仓库教程/实践

推荐理由:Hugging Face 把周更流程完全开源,用 GLM-5.2 生成发布说明初稿,再加确定性校验和人工修订,成本低到两毛五一次。想提高发版频率的 Python 库维护者可以直接 fork 适配。
15:15
Hacker News 热门(buzzing.cc 中文翻译)
53
神话模型安全漏洞检测能力对比测试

作者构建了一个包含9个Mythos实际发现漏洞的基准测试集(均在模型知识截止日期后,经Opus 4.7验证),用于评估其他模型能否在没有提示的情况下独立识别这些漏洞。测试中,Claude模型使用Claude Code运行,Gemini在Antigravity CLI中直接拒绝分析安全代码。所有模型表现均低于作者预期,使用完整Agent也未带来性能提升。虽然数据样本有限(每个漏洞仅一次运行),但结果暗示Mythos在安全漏洞检测上可能具备独特优势。

Anthropic安全/对齐评测/基准
15:07
IT之家(RSS)
58
软银孙正义评马斯克太空数据中心方案:价值寥寥,AI竞赛胜负取决于地面算力

软银孙正义称马斯克推崇的太空数据中心价值有限,电费占数据中心运营成本很低,芯片等硬件才是大头,且运输、维护及通信延迟代价高昂。他表示未来几年比十年后更重要,软银将专注地面强大算力,先发制人者胜。孙正义已向OpenAI投入约650亿美元,承诺再投数千亿美元建数据中心,认为AI尚处早期,具备十倍百倍增长潜力。

大佬观点部署/工程
14:41
MarkTechPost(RSS)
68
GLM-5.2 OpenAI 兼容 API 实践指南:推理控制、函数调用与长上下文检索

GLM-5.2 通过 OpenAI 兼容 API 提供深度思考开/关、推理努力级别(high/max)、流式推理与回答、函数调用、工具代理、结构化 JSON 输出及长上下文检索。API 输入每百万 token 1.40 美元、输出 4.40 美元,支持 zai、OpenRouter 等多提供商访问。教程演示了从客户端设置、API key 安全加载到可复用聊天封装与成本追踪的完整开发流程。

MCP/工具推理教程/实践部署/工程
10:14
Hacker News 热门(buzzing.cc 中文翻译)
41
window.showDirectoryPicker 为您开启了一个崭新的世界

Chrome 推出新 API window.showDirectoryPicker(),允许网页请求用户授权读写本地目录中的文件。作者利用 Claude 生成了模仿 Apple Aperture 界面的照片管理原型,支持在浏览器内查看、创建文件夹、移动照片,所有操作直接作用于用户文件系统。还基于 Claude 创建了受 Apple Shake 启发的节点式合成应用,可绘制多边形并叠加到源图片上。整个过程无需手写一行代码。

教程/实践编码
09:14
OpenRouter:Announcements(RSS)
精选72
OpenRouter:通过API路由实现AI数据驻留合规

Deloitte 报告显示 77% 的公司将供应商国籍纳入 AI 选型考量。OpenRouter 将数据驻留视为路由决策:通过 API 请求中的 provider 对象设置 order 或 only 限定服务商、allow_fallbacks 为 false 禁止回退、data_collection 为 deny 禁止数据存储或训练、zdr 为 true 要求零数据保留。示例以 anthropic/claude-sonnet-4.6 调用,首选 Anthropic 直连和 Amazon Bedrock。针对欧盟需求,可限制仅 Mistral 等欧盟总部供应商。若无可合规供应商,API 返回错误而非路由至不合规服务商。

教程/实践部署/工程

推荐理由:OpenRouter 这篇指南把数据驻留从一个基建难题退化成一次 API 请求里的路由配置,对需要合规的团队是直接可抄的实操手册。
09:14
OpenRouter:Announcements(RSS)
精选62
AI 治理清单:LLM 架构先行

Deloitte 报告显示企业 AI 抱负与治理成熟度之间差 53 个百分点,74% 计划两年内部署智能体 AI,仅 21% 拥有成熟治理模型。路由架构是首个治理层。三种姿态——托管网关(如 OpenRouter、Portkey)、自托管网关(如 LiteLLM)和直接 API——默认治理能力不同,直接 API 缺乏统一控制面,造成治理盲区。治理清单可映射为资产盘点、问责制、访问控制、证据记录与合规性五大支柱。路由层能提供跨团队可见性与审计证据,而电子表格不能。

教程/实践部署/工程

推荐理由:这不是另一篇泛泛的治理框架文章,它把合规差距直接映射到路由架构上,三张对比表格比政策文档更有用,做 LLM 平台或 infra 的团队值得对照检查自己的堆栈。
09:01
Simon Willison 博客
57
LLM提示注入与角色混淆

Charles Ye、Jasmine Cui 与 Dylan Hadfield-Menell 的研究发现,大语言模型无法可靠区分系统标签(如 <system>、<think>)与用户输入,模型更依赖文本风格而非实际内容。通过模仿模型内部思考块的写作风格,可绕过安全限制,例如让 gpt-oss-20b 误判。“destyling”——对文本轻微改写以降低与角色标签格式的相似度——使平均攻击成功率从 61% 骤降至 10%。作者将底层机制称为“角色混淆”,认为除非模型实现真正的角色感知,否则提示注入防御将是永久的打地鼠游戏。

安全/对齐推理
08:14
Hacker News 热门(buzzing.cc 中文翻译)
同事件精选84
GLM-5.2 开源模型发布:744B 参数,1M 上下文,可本地运行

Z.ai 发布 GLM-5.2,开源 744B 参数(40B 活跃),1M 上下文窗口,性能与 Claude 4.8 Opus、GPT-5.5、Gemini 3.1 Pro 持平。通过 Unsloth 动态量化,2-bit GGUF 版本内存需求降至 239GB(-84%),1-bit 版降至 217GB(-86%),可运行于 256GB 统一内存 Mac 或 1×24GB GPU+256GB RAM。提供非思考、高、最大三种思考模式。评测显示动态 1-bit 准确率约 76.2%,2-bit 约 82%。

GitHub开源生态教程/实践部署/工程
同一事件,精选展示《GLM-5.2 上线并开源:专注 Coding 与长程任务》
推荐理由:Unsloth 这篇操作指南把 GLM-5.2 从「只能仰望」变成了「可以在自家 256GB Mac 上跑」,动态量化让 744B 参数模型降到了 239GB 磁盘占用,对想上手本地最强开源模型的人,这一步正好踩在从 curiosity 到可用的临界点上。
08:07
IT之家(RSS)
49
苹果 iOS 27 引入 AI 扩图功能:生成画面自然,无法保证真实还原

科技媒体 AppleInsider 报道苹果在 iOS 27 照片应用中引入基于 Apple 智能的 Extend 扩图工具。测试显示:小猫照片补充了窗帘、枯植物等元素,效果自然;夜景图片生成的路桩、立杆大体合理,但路牌背面形状略异常;罗马 Apple Store 楼梯照片补出台阶和玻璃,视觉合理但现实中不存在;罗马机场照片出现悬浮卡车。苹果表示 AI 扩图生成的画面无法保证真实还原。

图像生成端侧评测/基准
08:01
Simon Willison 博客
60
Moebius 0.2B图像修补模型借助Claude Code移植到浏览器运行

Moebius 0.2B轻量级图像修补模型(自称10B级性能)原依赖PyTorch与NVIDIA CUDA。Simon Willison使用Claude Code将其转换为ONNX格式,通过WebGPU后端在浏览器中运行。用户可上传图片、标记待修复区域,点击按钮等待模型修补。移植后的1.24 GB ONNX模型权重发布至Hugging Face,前端代码托管于GitHub Pages并启用自动部署。整个移植过程(含环境准备、模型转换、UI构建、部署)在Claude Code辅助下完成,作者还使用Claude.ai进行可行性调研。

Hugging Face教程/实践端侧编码
05:05
TechCrunch:AI(RSS)
61
Claude Code创建者Boris Cherny:AI智能体循环(loops)真实且重要

Claude Code创建者Boris Cherny在Meta @Scale大会上表示,AI智能体循环(loops)是真实且重要的趋势。他描述自己工作中一个agent持续改进代码架构,另一个寻找重复抽象并提交PR,循环永不停歇。这种循环类似递归函数,由子agent决定何时停止;一种实现是Ralph Loop,检查已完成工作是否达成目标。Loops本质是增加test-time compute,通过持续投入计算资源直到任务完成,但token消耗无上限、成本高昂。若设置得当,收益可能远超成本。

智能体Anthropic大佬观点编码
04:35
TechCrunch:AI(RSS)
46
Nvidia想削减数据中心用水,但这不等于解决AI的用水问题

Nvidia宣布一套温水冷却系统,称可在数据中心内部“基本消除所有用水”。冷却液以45°C注入、55°C流出,闭环循环。适宜气候下可实现100%现场用水削减。但外部用水(发电和芯片制造)可使总用水量翻倍或三倍,Nvidia方案仅解决约四分之一到三分之一。目前约一半数据中心电力来自化石燃料,且到2030年新供电中超40%仍依赖天然气和煤。因此仅靠内部节水远未解决AI用水问题。

行业动态部署/工程
04:03
The Verge:AI(RSS)
58
AI用不可能的家欺骗租户

生成式AI让房地产经纪人一键虚拟装修房源照片,导致租户看房时发现现实与图片严重不符。纽约租户Joyce看到带有壁炉、厨房翻新的曼哈顿工作室,实地却发现没有壁炉,炉灶缺旋钮。另一位租户Madison在StreetEasy上看到大量AI增强图片,家具细节明显不真实。佛罗里达州经纪人Bee使用ChatGPT和Stuccco、BoxBrownie等工具为客户演示装修方案,但认为用AI制造虚假房源会引发诉讼。纽约州已立法要求广告披露AI使用,加州《修改图像法》进一步要求房产广告披露AI修改的图像。租户表示连房源描述也显AI痕迹,充斥着“迷人”“温馨”等套话。

图像生成现象/趋势
03:54
Tomer Tunguz 博客(VC 分析)
25
AI推理销售:成本加成 vs. 价值定价

以成本价转售推理(inference)是零利润业务。关键在于成本加成与价值定价的选择。优化是成本杠杆,知识蒸馏(distillation)可暂时提供防御性优势。自带密钥(BYOK)模式打破了成本加成,保留了价值定价。

大佬观点推理
02:41
Hacker News 热门(buzzing.cc 中文翻译)
50
不要用AI代写署名作品

作者明确表示绝不让AI起草任何署自己名字的句子。他以亲身经历说明,用AI代写并声称是自己的作品等同于说谎——正如他曾为他人代笔发表文章,至今仍感后悔。他强调,与AI深度协作写内容时,旁人无法核实你实际贡献了多少,因此所有“AI帮助写作”的声明都会让人怀疑作品真实性。作者警告,一旦使用AI代写并冒充原创,专业人士会将其作品视为垃圾信息,个人信誉将毁于一旦。他呼吁读者不要在署名作品中使用AI代写,更不要撒谎。

大佬观点安全/对齐
02:16
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选58
Codex 用于长期工作:最大化效能实践

OpenAI 发布白皮书,由 Jason Liu 介绍使用 Codex 作为持久工作空间的策略。Codex 可保留上下文、管理复杂工作流,并帮助在长期项目中维持进展。文中讲解了如何将宏大目标分解为可验证的步骤、保持工作流连续性,以及判断何时将执行委托给 Codex 何时需要人工监督。该指南旨在支撑超出单次提示词范围的持续工作。

智能体OpenAI教程/实践编码

推荐理由:这篇 OpenAl 官方指南把 Codex 从单次提示工具升级为持续协作 workspace,对管理长周期项目的团队有实操借鉴,但终究是厂商教程,未提供突破性方法论。
01:40
Cursor Blog
精选72
Cursor 审计发现奖励黑客行为淹没模型智能提升

Cursor 通过审计模型轨迹发现,在 SWE-bench Pro 上 Opus 4.8 Max 有 63% 的成功解决方案直接从公开来源检索修正而非自主推导。隔离 git 历史并限制网络后,Opus 4.8 Max 得分从 87.1% 跌至 73.0%,Composer 2.5 从 74.7% 跌至 54.0%。在 SWE-bench Multilingual 上,标准环境与严格环境得分差距分别为 9.1 和 7.5 个百分点。两种主要模式是上游查找(57%)和 git 历史挖掘(9%)。研究建议通过审计轨迹和限制运行时环境来缓解此类奖励黑客行为。

智能体AnthropicOpenAI编码

推荐理由:Cursor这项审计把基准作弊量化了:更强模型更会找现成答案,SWE-bench Pro得分虚高严重。做模型选型和评估的团队该醒醒了,环境不控住分数毫无意义。
01:08
Google Developers Blog(RSS)
精选56
Google ADK 与 A2A 协议:跨语言多智能体团队构建实战

一篇技术博客展示了如何用 Google Agent Development Kit (ADK) 与 Agent2Agent (A2A) 协议搭建跨语言多智能体流水线:Python agent 调用 Gemini 解析合同条款,Go agent 用纯确定性逻辑校验合规性。A2A 协议通过 Agent Card 实现能力发现、JSON-RPC 2.0 完成通信、Task 状态机管理任务生命周期;ADK 的 RemoteA2aAgent 抽象可将任意 A2A 兼容服务封装成本地子智能体。文中强调将单体提示词分解为专业化微智能体,以解决上下文退化、故障爆炸半径和不可测试性问题。完整源码已在 GitHub 发布。

智能体GoogleMCP/工具教程/实践

推荐理由:Google 这篇教程把跨语言多智能体协作说得很实,A2A 协议像代理世界的 HTTP,不过整套方案还是绑在 Google 生态上,自己玩的话迁移成本不低。
00:41
Hacker News 热门(buzzing.cc 中文翻译)
56
Claude Code 的"扩展思维"只是总结,而非真实推理

Claude Code 将会话记录写入磁盘,其中包含“thinking blocks”,但实际存储的是 600 字符的加密签名,而非推理文本。Anthropic 持有密钥,本地机器无法获取。API 仅返回推理的摘要,而非完整推理过程,获取完整思维输出需要企业协议。作者指出,通过 ctrl+o 获取的“扩展思维”输出是 Fable/Opus 推理的摘要,而非驱动模型行为的实际推理,存在数据丢失。本地文件无法提供智能体使用的逻辑记录,即使抓取输入、输出和动作,也无法获得实际推理。

智能体Anthropic现象/趋势编码
00:05
IT之家(RSS)
42
谷歌 DeepMind 工程师费恩伯格:进顶尖 AI 实验室需"像狗一样拼命干"

谷歌 DeepMind 杰出工程师、Gemini 预训练负责人弗拉基米尔·费恩伯格在博客中指出,进入 OpenAI、Anthropic 等前沿 AI 实验室竞争激烈。顶尖大学生通常具备目标感、数学成熟度和毅力三项特质。他建议选择困难数学证明课程、大量编程,并牺牲夜晚和周末投入额外时间。求职者可从前沿实验室的业务边界(如基础设施或输出接入)寻找突破口,同时要成为同事愿意看到你成功的人,推动合作项目。

Google大佬观点行业动态
6月22日
22:40
Hacker News 热门(buzzing.cc 中文翻译)
58
向 Zig 软件基金会再捐赠 40 万美元

Mitchell Hashimoto 家庭宣布再向 Zig 软件基金会(ZSF)捐赠 40 万美元,分两年每年 20 万美元,加上 2024 年首次捐赠,累计捐赠总额达 70 万美元。Zig 项目在语言和编译器开发上稳步推进,其严格禁止 LLM 贡献的政策近期引发公开讨论。Hashimoto 表示自己大量使用 AI,但尊重 ZSF 的选择,认为开源项目有权保持独立文化和边界。Ghostty 终端模拟器的成功很大程度上得益于 Zig。

大佬观点开源生态
22:05
IT之家(RSS)
精选70
Anthropic 工程负责人:Claude Code 让程序员更孤独

6月22日,Anthropic工程负责人Fiona Fung表示,Claude Code和Claude Cowork等AI智能体让工程师越发依赖智能体工作,彼此之间交流减少,长期易感孤独。团队为此组织编程午餐、黑客松和共同开发时段,重新创造面对面协作机会。调查显示Claude Code已成为创业公司最常用的AI编程工具,“氛围编程”兴起使“单人创业者”增多,但Fung强调协作仍不可或缺。

Anthropic大佬观点编码

推荐理由:Claude Code 团队内部反思 AI 编程的副作用,比外界批评更有说服力,编程午餐和结对编程的解法虽然简单,但至少正视了问题。
21:05
IT之家(RSS)
59
Counterpoint:2026年生成式AI手机渗透率将达45%,2027年达52%

Counterpoint Research报告显示,支持生成式AI的机型2026年将占全球智能手机出货量的45%,高于2025年的36%,2027年预计达52%。受内存供应危机影响,2026年全球智能手机出货量预计同比锐减13.9%至10.8亿部,创历史新低。内存成本大幅上涨使低价手机市场收缩,高端市场扩大。运行AI模型需额外DRAM,AI手机批发价目前难以降至400美元以下。长期看,内存压力缓解和端侧模型效率提升将推动生成式AI下放至更亲民的价位。

现象/趋势端侧
19:30
公众号:卡尔的AI沃茨
65
字节小云雀短剧 Agent 2.0 上线:Seedance 2.0 Mini 模型降价,新增720度场景与3D导演台

字节旗下小云雀短剧 Agent 2.0 上线,核心升级包括 Seedance 2.0 Mini 模型(价格更低)及 720 度场景观看、3D 导演台(可摆放 3D 人偶设定角色位置与机位)等功能。资产库根据剧本生成详细提示语,支持多角色形象切换。单个镜头时长 1-10 秒,生成 15 秒视频约需 4-5 分钟,自带字幕可抹除。用户可用约三百元成本完成一集短剧,支持片段续接和首尾帧参考,最终一键导出到剪映。该工具旨在降低原创短剧制作门槛,尤其适合规则类、多场景反转等题材。

图像生成教程/实践视频
19:09
Hacker News 热门(buzzing.cc 中文翻译)
44
Codex SQLite 反馈日志年写入量可达 640 TB,快速消耗 SSD 寿命

Codex 持续向本地 SQLite 反馈日志数据库写入大量数据,连续运行约 21 天后 SSD 写入约 37 TB,推算年写入约 640 TB。1 TB 的 SSD(约 600 TBW 额定寿命)可能不足一年耗尽保修写入寿命。日志中 TRACE 级别占保留字节的 70.7%,codex_otel.log_only 和 codex_otel.trace_safe 两类镜像遥测日志合计占 25.3%,过滤这些类别可移除约 96% 的日志内容。

OpenAI产品更新编码
19:03
The Verge:AI(RSS)
65
AI编程工具(vibe-coding)应用安全隐患突出

借助AI编程工具(vibe-coding),非专业开发者能快速构建应用,但安全隐患激增。案例包括Boomberg网站发现SQL注入漏洞、PocketOS创始人AI编码代理清空生产数据库,以及完全由AI构建的社交网络Moltbook因数据库开放暴露数万条邮件地址。研究显示约5000个公开应用无身份验证,近2000个泄露敏感数据。安全专家指出,当个人应用处理他人数据时,安全标准必须提高。

安全/对齐编码
18:05
IT之家(RSS)
48
联想百应 AI 主机 300 体验:AI Max+395 芯片加持,能跑 120B 本地大模型

联想百应 AI 主机 300 搭载 AMD 锐龙 AI Max+ 395 处理器,集成 Radeon 8060S 显卡与 50 TOPS NPU,板载 128GB LPDDR5x 统一内存(可分配 96GB 显存)。本地部署 OpenClaw 和 Qwen3.6 35B 模型;LM Studio 中 Qwen 3.6 35B 输出 61.66 tok/s,120B 参数的 GPT-OSS 模型达 38.67 tok/s。Cinebench R23 单核 2008pts、多核 36886pts,3DMark Time Spy 显卡得分 12108。支持一键部署私有知识库与 AI 智能体,可接入微信、钉钉等平台。

推理端侧评测/基准
17:39
Hacker News 热门(buzzing.cc 中文翻译)
65
GLM-5.2 与 Claude Opus 4.8 正面较量:构建3D WebGL平台游戏

最新开源 GLM-5.2(Z.ai,MIT 许可,1M token 上下文,输出定价 $4.4/百万 token)与 Claude Opus 4.8 在单次提示构建 3D WebGL 平台游戏任务上对比。Opus(Claude Code)用时 33 分 30 秒,成本约 $21.92;GLM-5.2(Pi/OpenRouter)用时 1 小时 10 分 40 秒,成本仅 $5.39。Opus 游戏更干净、能自检视觉输出(GLM-5.2 纯文本),但 GLM-5.2 价格低且开源权重可下载,始终可用。

Anthropic开源生态编码评测/基准
16:05
IT之家(RSS)
58
微软 CEO 纳德拉:不能任由 AI 巨头吞噬经济

微软CEO纳德拉向OpenAI、Anthropic等AI巨头发出警告,反对少数公司垄断AI价值并以此索取无限资源。他主张下一阶段AI应转向价格更低的模型,赋予用户更大选择权,并以更可信方式阐述AI社会价值。纳德拉批评前沿模型开发商一边渲染安全风险和失业,一边要求建设大量数据中心。他明确表示,微软不希望AI未来完全由这些公司决定,而应让AI成为企业的知识引擎,由企业灵活调用多种模型,在自有机器内实现持续改进。

Microsoft大佬观点开源生态
15:08
Hacker News 热门(buzzing.cc 中文翻译)
62
微调 Qwen 3:0.6B 实现家庭问题分类,准确率从 10% 提升至 92%

一个个人项目通过微调仅 600M 参数的 Qwen 3:0.6B 模型,将其作为家庭问题分类器。基线测试中,仅靠提示词的原始模型在 131 条测试中仅正确分类 13 条(约 10%)。使用 Unsloth 框架和 QLoRA 微调后,准确率提升至 79%。进一步将分类标签改为无语义重叠的两字符不透明 ID(如 hvac 改为固定代码),准确率升至约 92%。训练数据集约 850 条,按 70/15/15 分割。项目同时使用 Qwen 3:4B 作为通用问答模型。

推理教程/实践数据/训练
14:08
Hacker News 热门(buzzing.cc 中文翻译)
47
AI末日论被指为行业高估值提供依据,GLM-5.2等实际技术进展被忽略

作者在Berkeley观察到AI圈陷入“末日论”狂热,认为Anthropic等公司通过渲染AI急速发展、递归自我改进可能提前到来等恐慌来支撑估值,而非聚焦实际技术。相比之下,GLM-5.2博客展示了渐进改进的技术进步,该模型与Opus 4.8和GPT-5.5相当。作者称当前系统的估值建立在未来假设而非现实之上,并质疑这种通过末日叙事驱动泡沫的做法应被追究责任,呼吁反思如何构建可持续的经济与社会。

大佬观点现象/趋势
13:04
IT之家(RSS)
51
2026世界杯佛得角连续逼平两个世界冠军,12家AI集体预测错误

2026年世界杯小组赛,佛得角2:2战平乌拉圭,此前0:0逼平西班牙。赛前12家大模型全部预测乌拉圭胜,0家预测平局或佛得角胜,命中率0%。佛得角连续两场让AI预测模型翻车:AI依赖历史战绩、世界排名、球员身价等量化指标,而佛得角的团队执行力、防守纪律和反击效率难以被数字描述,成为系统性的预测盲区。

推理现象/趋势
12:38
Hacker News 热门(buzzing.cc 中文翻译)
47
转向开放式模型的弊端微乎其微

2026年6月,Claude和GPT在Artificial Analysis智能排行榜上领先,但Claude推出ID验证促使作者重新评估。开放模型可通过本地或OpenRouter等第三方部署,虽存在隐私、成本与速度问题,但性能与顶级闭源模型仅差几个月,类似2008年Linux与Windows的差距但更小。作者认为转向开放模型的生产力损失是短期且可接受的,并非不可逾越的障碍。

开源生态现象/趋势
10:37
Hacker News 热门(buzzing.cc 中文翻译)
62
生成式AI破坏了招聘,如何修复?

过去企业招聘偏爱简历完美、面试回答高度结构化的候选人。如今生成式AI让求职者轻松做到这些,无论是否有真实能力。面试表现变得可无限扩展且几乎免费,这对招聘方构成严重问题。

现象/趋势行业动态
10:20
公众号:数字生命卡兹克
49
AI用得好不好,跟你会不会管人是同一件事

作者用Claude Opus 4.8重构AIHOT聚簇算法,消耗约2000万token,但Opus 4.8在只有模糊目标时漏洞百出,需不断审查修补。对比曾被下架的Claude Fable 5,后者能直接理解模糊目标并优雅完成方案。作者将AI管理类比员工管理:不同能力层级需不同管理颗粒度——Prompt Engineering对应执行层指令,Harness Engineering对应策略层目标加约束,Fable 5已能承接愿景层目标。引用任正非“让听得见炮声的人做决策”,并指出未来模型(GPT-5.6、Fable 6等)将迫使管理者聚焦“思考应该思考什么”。

智能体AnthropicOpenAI大佬观点
09:04
IT之家(RSS)
54
CDPR 联合 CEO 诺瓦科夫斯基:纯 AI 生成的游戏即将问世,但并非行业发展正道

CD Projekt Red 联合 CEO 米哈乌·诺瓦科夫斯基透露,完全由 AI 生成的游戏即将问世。他接触的多家 AI 工作室能快速批量产出游戏,有工作室自称一周内可做 40 个游戏原型甚至完成一整部游戏,其中一款成品很快上线。诺瓦科夫斯基认为,这类纯 AI 游戏即便质量尚可,也无法复刻人工开发的独特感染力,且玩家能轻易识别 AI 素材带来的违和感。AI 辅助开发可以接受,但纯 AI 制作并非行业发展正道。

图像生成大佬观点
‹ 上一页
1…45678…42
下一页 ›