@jietang @teortaxesTex On benchmarks, yes, but as measured by true usefulness even Q1 would be very impressive. Anthropi...
@jietang @teortaxesTex On benchmarks, yes, but as measured by true usefulness even Q1 would be very impressive. Anthropi...
约会应用巨头Match Group对1000名18-39岁美国单身人士的调查显示,47%对AI用于浪漫关系持负面看法。约40%表示拒绝与使用AI伴侣应用的人约会,该比例在18-24岁女性中升至51%。仅12%的18-24岁受访者在过去三个月内使用过伴侣应用,其中约三分之一寻求与聊天机器人建立真实连接。尽管对“与AI约会”几乎一致反对,64%受访者认为AI可帮助改善约会体验。Match旗下Tinder、Hinge、OkCupid及竞品Bumble均在探索AI功能(如润色资料、推荐照片、维持对话),但用户希望AI只辅助“困难部分”,不干涉人类情感连接。
Cloudflare 分享了其多阶段漏洞发现工具的技术架构,包含自动化分类循环。该系统通过管理状态控制、引入对抗性审查来压制误报,并围绕 LLM 上下文窗口限制设计路由策略。
Google 庆祝Agent-to-Agent(A2A)协议发布一周年。A2A专为生成式AI设计,相比传统REST API提供安全边界、零上下文污染、动态自主性和工作负载分布四大架构优势。应用实例FoldRun是一个独立的智能体接口,可在Gemini Enterprise或Gemini CLI等A2A兼容环境中部署,自动管理蛋白质结构预测任务,动态选择AlphaFold 2、OpenFold 3或Boltz-2等模型,无需自定义胶水代码。
埃森哲去年九月高调宣称AI将改变其业务,但本季度财报令人失望,股价下跌约18%,本周跌幅近23%,较52周高点已跌超50%。生成式AI并未带来预期的大幅收益,MIT、麦肯锡、贝恩等多份研究均显示类似结论。Claude Code(特殊神经符号系统,非通用聊天机器人)或能提升程序员生产力,但企业整体AI投资回报未达预期,tokenmaxxing热潮正在消退。
@elonmusk @teortaxesTex won't take that long
Claude Code 提供七种自定义指令方式:CLAUDE.md(根目录始终加载,子目录按需加载)、规则(无范围或路径范围)、技能(按需调用,共享 token 预算)、子智能体(隔离上下文运行并返回最终消息)、钩子(生命周期事件触发,绕过压缩)、输出样式(注入系统提示,永不压缩)和附加系统提示(CLI 标志,仅单次有效)。每种方式在加载时机、压缩行为、上下文成本和适用场景上各有不同,例如 CLAUDE.md 适合存放构建命令与编码规范,路径范围规则避免无关上下文消耗,子智能体用于并行隔离任务,钩子用于确定性自动化(如运行 linter 或备份聊天记录)。
@theo Honestly just use Devin. It's really really good now
iPod 之父 Tony Fadell 在纽约地铁看到 iPod Shuffle “零屏幕时间”广告时感到震惊。Back Market CMO Joy Howard 提出“slowtech”概念,指出人们对“快科技”过度刺激感到疲劳,年轻一代开始寻求有线耳机、数码相机等不霸占注意力的设备。前 JAMDAT 创始人 Austin Murray 正开发屏幕时间减少应用 MOQA,对抗自己曾帮助创造的现象。约 53% 的美国成人希望减少屏幕时间。Light Phone 联合创始人 Kaiwei Tang 表示,改用简约手机的客户(尤其 20-35 岁)感到更自由。
GLM-5.2 在 Design Arena 上取得第一,Elo 达 1360,超越已关服的 Claude Fable 5。模型为开源权重,排名上升 4 位,Elo 提升 27 分,创下代码类历史最高分。
BREAKING: GLM-5.2 is now 1st on Design Arena. With an Elo of 1360, GLM-5.2 has jumped ahead of the now unavailable Claud...
http://x.com/i/article/2067617306394370048
计算机视觉自动跟踪货架正帮助零售商应对利润侵蚀。行业低效消耗6.4%总销售额,2026年损失将达1964亿美元(同比增21%),远超3%的销售增速。九成零售商面临管理困难,全面部署商店智能平台的企业占60%(同比升18个百分点);年收入超50亿美元的公司中73%已规模化部署,低于10亿美元的仅42%。BJ's Wholesale Club部署Simbe机器人监测库存与价格,生成数字孪生后在线拣货效率年提升40%。Albertsons计划通过AI优化定价与品类管理,三个财年内实现15亿美元生产力提升。但部署顺序失衡:仅33%投资货架数字化硬件,2026年错误定价率将达13%(较2024年升4个百分点)。
用 Codex 写代码时,将 Review 前置可显著降低返工率。作者总结三个层级:零成本版(粘贴提示要求先复述任务再执行)、官方内置版(/plan 或 Shift+Tab 触发计划)、持久化版(AGENTS.md 写入前置规则)。UCSD 黄碧薇教授深耕因果 AI 12 年,提出 AI 四代演进:相关性小模型→因果小模型→相关性大模型(LLM)→因果大模型。其团队开发的 causal-learn 入选 Apple Scholar。今日 Aether AI 完成首轮融资,被视为从堆参数转向下一代 AI 范式的信号。
人类到今天都写不出一颗煎蛋的物理方程, 一颗鸡蛋打进热油锅,它怎么凝固、怎么摊开、边缘怎么变焦, 没有任何一个公式能描述清楚,这种例子在物理世界里多到数不过来。 而这恰恰是当下通用 AI 范式的天花板,视频生成、VLA 学的都是像素层面的统...
参数高效微调(PEFT)技术中,LoRA 占据绝对主导:Hugging Face Hub 上 20,834 张提及单一 PEFT 技术的模型卡中 20,509 张指向 LoRA(98.4%);外部站点 10,000 个检查点中 95.0% 是 LoRA;GitHub 搜索 from peft import 代码片段的 71.3% 结果为 LoRA。但研究者宣称其他技术超越 LoRA 的论文结果具备偏向性——调整学习率即可让 LoRA 匹配更优技术。Hugging Face 的 PEFT 库提供统一 API 实现 40 余种 PEFT 技术,并开始建立基准测试:在数学数据集上对 LLM 进行思维链推理微调,以帮助用户做出更优选择。
@elonmusk @teortaxesTex won't take that long
开发者使用Claude Code控制并调试MAME的Power Macintosh仿真。Claude通过生成Lua脚本和修改日志,发现了6522 VIA仿真故障、PowerPC DRC缓存值未覆盖实际状态的反模式、PowerPC 601的两处Bug,以及原子加载/存储指令模拟错误。修复后,Pippin播放启动音并显示Logo、鼠标可移动;PowerMac 7200显示启动磁盘搜索画面;PowerMac 6100成功启动System 7.5.3和7.5.5。此外,GPT 5.5 Pro(经Codex)在固件逆向中能快速给出内存映射和子程序猜测。
推文测试了 Grok imagine 1.5 的动作生成效果,认为其相比 seedance2.0 稍弱,但进步明显、潜力较大,并归因于 Elon 收购 Cursor 后的效益最先在 Grok 显现。
杨立昆接受 CNBC 采访时指出,当前 AI 模型和服务价格持续上涨,运营公司仍在亏损,低价依赖投资人补贴,尚未建立可持续商业模式。他称 OpenAI 和 Anthropic 要么提高价格要么降低运营成本,否则巨大泡沫可能破裂。他还评价马斯克的 xAI 是“某种意义的失败案例”,创始团队多人出走,难以吸引新鲜血液,无法与 OpenAI、Anthropic 正面竞争。杨立昆主张发展世界模型概念,而非依赖海量语料库的大语言模型(LLM)路线。
盖洛普今年2月对超2.3万名美国劳动者的调查显示,经常使用AI的员工被裁员风险更低。在美国科技行业,每月至少使用一次AI的员工预计被裁概率约6%,使用较少的达18%。科技行业外也存在类似趋势但差距较小。排除年龄、学历等因素后关联仍然存在。AI正形成新的职业分水岭,企业招聘已考察AI熟练程度。仅约1%被裁员工认为AI是直接原因,更多人归因于组织重组,但研究人员认为AI可能间接影响。
主推文认为预防医学是AI最适合切入的医疗领域,因为超声波能精准锁定身体组织,使影像检查与治疗之间的界限模糊。AI驱动的超声波可先对全身进行扫描,发现异常后直接用声波进行刺激、消融、调节或修复,实现诊断与治疗的一体化。引用推文介绍了Midjourney Scanner技术,进一步呼应了这一趋势。
A technical dive inside our new "Midjourney Scanner"
AMI Labs 创始人 Yann LeCun 告诉 CNBC,如果 OpenAI、Anthropic 等 AI 实验室不降低成本或提高价格,将面临“大泡沫爆炸”。他指出 AI 服务价格持续攀升,但运营成本下降不够快,所有公司都在亏损,投资者实际上在补贴使用。OpenAI CEO Sam Altman 近期也称企业 AI 成本是“巨大问题”。LeCun 还称 Elon Musk 的 xAI 是“一种失败”,创始团队已离职,Musk 几乎无法招募顶尖人才,预计 xAI 无法与 OpenAI 或 Anthropic 竞争。LeCun 本人正推动“世界模型”,其公司 AMI Labs 已在三月为此融资 10 亿美元。
http://vercel.com/design.md
Hugging Face 发布面向 AI 智能体使用场景的基准测试框架,以 transformers 库为案例评估库的智能体友好度。框架使用 pi coding agent 与开源模型驱动,通过 Hugging Face Jobs 分散任务确保硬件一致。评估关注 agent 完成任务的成本、延迟、token 使用量和失败率,而非仅最终结果。此前 hf CLI 经优化后 agent token 使用量减少 1.3-1.8 倍(最高 6 倍),该框架旨在验证类似优化对 transformers 的效果。
推文将SpaceX描述为唯一垂直整合AI公司,从芯片到系统全覆盖。同时指出Cursor是当前最重要的AI编程智能体,编码速度和效果领先业界,营收从今年初的10亿美元飙升至预期退出时的60亿美元,增长呈病毒式扩散。此外,Starship作为首款完全可重复使用火箭,可承载以往10倍重量的载荷,将支持新一代通信卫星并最终实现太空数据中心部署。
Google DeepMind发布AI Control Roadmap,这是一套针对内部先进AI智能体的系统级安全框架。该框架在传统模型对齐之上增加防线,假设AI智能体可能不对齐,通过威胁建模、沙箱隔离、端点安全、提示注入防御以及基于已验证行为逐步授予权限的机制建立信任。据估算,到2030年仅美国市场AI智能体就能创造2.9万亿美元经济价值。
英伟达 CEO 黄仁勋呼吁社会更积极、广泛地拥抱 AI,称其能加快经济增长并推动科学突破。他回应了 AI 可能造成失业或威胁生存的批评,主张建立新社会规范,让每个人都亲自使用和了解 AI。黄仁勋认为美国需保持开放、参与全球 AI 市场,AI 创造的算力对增加制造业岗位至关重要,同时能帮助人们在不掌握编程技能的情况下完成网站设计、文档分析、高级研究等高级工作,从而弥合技术鸿沟。
《经济学人》数据显示,AI大幅提升了内容产量。亚马逊电子书月发布量从ChatGPT-3.5前的约10万增至2025年底约30万,AI生成文本是主要推手。美国自行提交民事诉讼2023—2025年翻倍至4.1万,2026年样本中18%由AI撰写,成功率未降。arXiv论文拒稿率自2023翻倍,2025年57%论文带AI影响语言(2023年12%)。iOS App月发布量突破10万(此前低于5万)。音乐领域每日新增7.5万首AI歌曲(此前1万),44%新上传为AI制作,97%听众无法区分真伪。
From literature to law to music, AI has lowered the skills and effort required for some work. These charts show how much...
皮尤研究中心最新民调显示,63%美国人认为AI发展速度过快。ChatGPT使用率较2023年翻番,44%受访者曾使用。49%偶尔使用聊天机器人,仅16%认为AI会有积极社会影响。青年群体使用率更高但更悲观:18–29岁中66%用过,48%认为有负面影响,仅14%看好。30–49岁中34%每天至少使用一次。约四成用AI处理工作,30%认为提高效率,28%认为帮助获取信息。此外,66%成年人担心AI传播错误信息。