StepAudio 2.5实时语音发布:副语言感知与人格化交互
StepAudio 2.5 Realtime是一款实时语音模型,能够深度理解用户语音中的语气、语速、停顿乃至微表情等副语言特征。它支持通过API接入自定义人格,允许设定个性、背景故事和语言风格,并提供了上万种原生人格选项,可组合出数百万种特征。产品还内置了5个可直接体验的预设人格,并经过RLHF调优,确保在复杂的角色扮演压力测试中也能保持角色一致性。该模型支持中文和英文。
StepAudio 2.5 Realtime是一款实时语音模型,能够深度理解用户语音中的语气、语速、停顿乃至微表情等副语言特征。它支持通过API接入自定义人格,允许设定个性、背景故事和语言风格,并提供了上万种原生人格选项,可组合出数百万种特征。产品还内置了5个可直接体验的预设人格,并经过RLHF调优,确保在复杂的角色扮演压力测试中也能保持角色一致性。该模型支持中文和英文。
近期发布了开源数据库Models.dev,专门收录人工智能模型的各项规格、定价及功能信息。该项目在GitHub公开,便于开发者查询和比较不同AI模型。其在Hacker News社区获得101点关注度,显示出技术社区对这类集中化、透明化的模型信息资源的较大兴趣。
Replit Agent与Squidler已完成集成,形成一套完整的AI驱动质量保障闭环。用户可通过自然语言描述应用功能,由Replit Agent负责构建。构建完成后,Squidler会像真实用户一样对线上应用进行自动化测试,无需编写任何测试脚本。测试中发现的问题会自动反馈给Replit Agent进行修复。该流程已通过Squidler加入Replit的MCP库正式上线,实现了从构建、测试到修复的全自动化,显著降低了应用测试与维护的门槛。
v2.1.150版本包含内部基础设施优化。此次更新主要聚焦于后台系统的改进,未引入任何用户可见的功能、界面或体验变更。
微软发布报告指出,在特定工作场景中,部署和使用人工智能(AI)的成本目前已高于支付相应的人工工资。报告分析了基于“tokens”(令牌)和“agents”(智能体)的AI使用模式,发现其综合开销超过了雇佣人类员工完成同类任务的费用。这一发现揭示了当前企业应用AI技术面临的现实经济挑战。
据彭博社报道,Anthropic即将完成一轮超300亿美元的融资,最快可能于下周敲定。此轮融资将使其估值突破9000亿美元,正式超越OpenAI,成为全球估值最高的AI初创企业。融资的迅速推进反映了市场的强烈追捧。同时,公司营收高速增长,预计第二季度营收将达109亿美元,环比增长超一倍,有望迎来首个盈利季度。
奥纬咨询研究发现,AI工具正被广泛用于入门级任务,导致企业招聘重心转向高级岗位,年轻人求职难度加大。科技行业受冲击最严重,74%的CEO已冻结或缩减招聘。计划削减初级岗位的比例从17%跃升至43%,而招聘转向中层岗位的比例则升至30%。尽管超90%的企业在部署AI,但多数仍处试点阶段。报告警告,过快裁员或忽视初级人才储备,可能对人才梯队造成长远风险。
Mistral AI宣布与物理AI先驱Emmi AI达成最终收购协议,旨在加强其在工业AI领域的领导地位。通过整合Emmi AI在物理仿真与数字孪生方面的专长,Mistral AI将提升其工程解决方案能力,并加速科学研发路线。Emmi AI的30余名研究员与工程师将加入Mistral AI团队,共同构建由物理AI驱动的综合技术栈。此次合作将为航空航天、汽车等高风险行业提供实时仿真与复杂问题解决平台,推动工业研发的突破性进展。
Kling AI在戛纳电影市场(Marché du Film)举办官方会议,首次登上这一世界顶级电影舞台。会议汇集全球电影专业人士,共同探讨AI如何融入实际电影制作流程。Kling AI已证明其能力可服务于动画长片、好莱坞剧集、实验短片及影院电影等多种创作形式。未来,Kling AI将继续推进电影级AI影像技术,与全球创作者合作,将更多“不可能”的故事呈现在银幕上。
我们正在扩大与新加坡的合作,以帮助安全地大规模部署AI。🇸🇬 与各国专家合作,我们的新项目将重点加速科学发现、加强大流行病防范并改善医疗保健。 了解更多 → https://goo.gle/49jGwjv
NVIDIA 在 Hugging Face 发布了关于 Nemotron-Labs 扩散语言模型的技术博客。该研究聚焦于通过扩散语言模型架构大幅提升文本生成速度,目标是逼近“光速级”生成效率。文章可能介绍了该模型在生成速度上的突破,以及相较于传统自回归模型在延迟和吞吐量方面的性能优势。具体技术细节或对比数据需参考原文。
feishu-claude-code-bridge是一个开源项目,可实现飞书与本机Claude Code CLI的双向连接。用户能从飞书消息中直接指挥Claude Code执行任务,Claude也能读取飞书中的工作上下文并创建、编辑飞书文档。其工作原理是将飞书消息转为Prompt通过命令行调用Claude CLI,并将流式输出实时同步回飞书。该模式可扩展连接Codex等其他本地工具。需注意,2026年6月15日起,Claude订阅计划对`claude -p`模式将独立计费。