🎉 Meet Ling-2.6-flash from @AntLingAGI, an instant instruct model with 104B total params (7.4B active). Day-0 support i...
Big day for us, finally sharing what we've been cooking for a while. Over the past year, we kept seeing the same pattern...
Introducing: Base44's new platform migration feature. If your needs have outgrown your current software, you can now bri...
企业AI编排平台Workflows发布公开预览版,旨在解决企业团队将AI模型可靠投入生产环境的难题。该平台专注于为AI赋能的业务流程提供生产环境所需的持久性、可观测性和容错能力,帮助其从原型阶段过渡到实际生产。包括ASML、ABANCA、CMA-CGM在内的多家领先机构已使用Workflows来自动化其关键流程。
百度文库与百度网盘联合推出的GenFlow 4.0已正式上线,每月服务超过1亿活跃用户并处理2亿项任务。此次升级的核心是全新的Office Agent,用户可通过单一提示并行调用PowerPoint、Excel和Word代理。该版本深度集成OpenClaw,支持从百度网盘PC端或移动应用一键部署,将网盘转化为个人AI工作空间。更多进展将于2026年5月13日至14日在北京举行的百度Create大会上公布,大会主题为“Agents at Scale”。
InferenceX已将DeepSeek V4 Pro集成至vLLM项目,在B200、B300、H200和GB200等硬件上的性能测试显示,B300的推理速度比H200快达8倍。团队正在基于vLLM 0.20版本进行基准测试,该版本引入了全新的DeepGEMM MegaMoE技术,将专家并行调度、组合、通用矩阵乘法及SwiGLU激活函数融合为单一巨型内核,预计将带来更优性能。文中感谢了来自NVIDIA AI、社区贡献者及相关团队的开发人员对开源项目的投入与努力。
Very interesting announcement from OpenAI this morning. We're excited to make OpenAI's models available directly to cust...
Music-2.6 from @MiniMax_AI is free on Cloudflare this week! Generate full-length songs or instrumentals from a text prom...
These partnerships with Overview and Noon build on our approach to helping strengthen the grid and power our AI infrastr...
Intel的EMIB封装技术被外部客户如Google的TPU采用,但Intel自身产品正转向UCIe技术。Diamond Rapids预计使用UCIe over substrate实现长距离die-to-die互连。在ISSCC上,Intel展示了UCIe-S D2D链接,在22nm工艺下达到48 Gb/s/lane,距离达30mm,数据率和带宽密度优于3nm设计。substrate配置为5-2-5,而EMIB为11-2-11。由于substrate短缺,Intel的“最佳”封装技术对除Intel外的客户更具优势。
最新研究发现,企业为提升精确性而微调RAG嵌入模型,可能导致检索质量下降高达40%。其核心矛盾在于,单个密集嵌入向量被同时要求承担广泛主题召回和精确语义判别的双重任务。当强制模型区分细微结构差异(如否定、语序颠倒)时,会损害其跨领域聚合相关材料的能力。解决方案是采用两阶段检索:先用嵌入模型快速召回,再通过能感知结构的词元级比对来验证候选结果。这揭示了“几乎相同的句子”与“相同含义”本质不同,在合同、合规等高精度领域混淆二者将导致系统关键失效。
GitHub Copilot 将于6月1日起改用基于AI积分的用量计费模型,以支持更多Agent和高级工作流。各档订阅价格不变,每月赠送等额积分,代码补全等基础功能不消耗积分。新规则按Token消耗计费,积分用尽后无降级选项,代码审查会额外消耗Actions时长。企业用户有三个月过渡期及积分池福利。5月初将上线账单预览功能,年付和轻度用户受影响小,但重度用户需关注成本变化。
Starting June 1st, GitHub Copilot will move to a usage-based billing model as GitHub Copilot supports more agentic and a...
Zoom in on this TPU 8t ASIC block diagram. Optimized for massive-scale pre-training and embedding-heavy workloads, TPU 8...
How do AI Agents spend your money? Most teams treat agent token costs as a rounding error even though the data says they...
OpenClaw 2026.4.25 🦞 🔊 TTS got serious 🧩 Plugins start faster 📊 OTEL can see the weird stuff 🛠️ Browser + install/u...
I had a good time discussing yesterday's Google TPU v8t and v8i announcement at Cloud Next with Amin Vahdat along with @...
Google在Cloud Next 2026上首次将定制芯片拆分为专用架构,推出训练芯片TPU 8t与推理芯片TPU 8i。TPU 8t超级模块配备9600个液冷芯片,峰值算力达121 FP4 ExaFlops,较前代提升约3倍;TPU 8i的性价比提升80%,片上内存增至三倍,并通过新拓扑结构将网络延迟减半。Anthropic、Meta及OpenAI均已采购千兆瓦级TPU算力,其中OpenAI首次采用Google芯片,动摇了NVIDIA在前沿AI训练市场的垄断地位。两款芯片分别由Broadcom和MediaTek共同设计,TSMC代工。尽管NVIDIA仍占据81%的AI芯片市场份额,但实质性的竞争时代已拉开序幕。
谷歌在Cloud Next 2026上首次将TPU v8拆分为训练芯片TPU 8t和推理芯片TPU 8i,宣称训练速度提升2.8倍,推理性价比提高80%,并通过自研Arm架构Axion CPU实现全栈垂直控制。同时,DeepSeek V4-Pro成为首个在华为昇腾NPU平台上完成训练与推理验证的前沿大模型,其定价与昇腾950芯片量产计划挂钩,输出成本远低于主流西方模型。这标志着美国制裁试图阻止的硬件脱钩可能已不可逆转,全球AI芯片竞争进入新阶段。
开发者在测试多个Chatbot客户端时,发现普遍不支持上传音视频文件进行对话,这给全模态大模型的测试带来了不便。因此,他选择了一个开源Chatbot UI项目,并计划用Codex对其进行改造以适配需求。该开源项目参考了ChatGPT、Grok、Gemini和Perplexity等主流产品的界面,设计了多个不同的机器人对话界面,目前在GitHub上已获得近1万颗星。
Cluely的CEO Roy Lee在NYU活动中,以500美元现金询问在场AI学生和工程师是否上线过公开项目,几乎无人举手。这揭示了AI圈的普遍现象:工程师们热衷讨论大模型、Agent等理论,却缺乏将知识转化为公开产品的执行力。LLM虽能解决大部分技术问题,但部署、用户体验和成本控制等实际工作才是关键。知识在AI时代已泛滥,真正稀缺的是执行力。呼吁工程师立即实践,做出哪怕不完美的公开产品。
阿里巴巴提出一种通过双强化学习飞轮训练智能体的新方法,并基于此推出了AgenticQwen-30B-A3B模型。该模型总参数量为300亿,但每次推理仅激活30亿参数,在TAU-2和BFCL-V4多轮工具使用基准测试中取得了50.2的平均分,性能与参数量达2350亿的Qwen3-235B相当。其核心在于并行运行两个飞轮:推理循环将模型自身错误转化为更难训练问题;智能体循环则将简单工具使用轨迹扩展为多分支行为树,并通过模拟用户误导主动增加训练难度。该方法意味着开发者无需为常规工具任务支付高昂的尖端模型成本,且飞轮配方可复用,能从智能体自身失败中生成困难样本。
论文通过分析 Claude Code 泄露源码,揭示其生产级 Coding Agent 架构的核心是“最小 AI 决策+最大确定性环境”设计。仅约 1.6% 代码为 AI 逻辑,其余 98.4% 用于构建安全、可靠的操作框架。架构围绕人类决策权、安全等五种价值驱动,采用七层独立防御体系保障工具调用安全,并通过五层渐进压缩策略高效管理上下文窗口。其扩展机制按上下文成本分级,子 Agent 采用隔离设计,整体强调透明性与用户可控性,与依赖状态图或显式规划的主流路径形成鲜明对比。
A must read for anyone interested in building practical AI systems in 2026: Dive into Claude Code: The Design Space of T...