有道发布全新开源“子曰4”多模态与TTS引擎

4天前更新 15083662215
2 0 0

网易有道近日宣布其“子曰”大模型正式升级至4.0版本,全面进入全模态时代。此版本不仅实现了文本、图片和音频的融合交互,还标志着其核心的“多模态模型”与“语音合成(TTS)模型”正式开源

有道发布全新开源“子曰4”多模态与TTS引擎的封面图

相关快讯

美团AI重磅开源商用数字人,超越三大闭源竞争者!

美团龙猫大模型团队近日开源了商用级数字人视频生成模型 LongCat-Video-Avatar 1.5,该模型在权威评测中表现优异,用户偏好胜率超过了Kling Avatar 2.0、OmniHuman-1.5和HeyGen等主要竞争者。该模型以MIT协议开放,无商用限制。团队构建了多阶段数据处理流水线,通过自动过滤低质片段并注入三类增强数据,提升模型性能。其中,多人社交课功能通过主动说话人检测,确保仅保留单人发声片段,有效解决了多人场景中的干扰问题。

Seedance 2.1传闻揭晓:字节跳动内部人士回应不实消息

字节跳动计划推出其AI视频生成模型Seedance 2.1的升级版本,预计生成质量提升约20%。然而,接近字节跳动的人士对此传言表示不实。Seedance 2.0于今年2月正式发布,支持文本、图片、音频和视频的多模态混合输入,发布后引起业内广泛关注。

百度智能云推出全新DeepSeek-V4 !

4月24日,DeepSeek-V4预览版正式上线并开源,百度智能云旗下的百度千帆平台提供API服务。该版本支持百万Token的超长上下文,分为DeepSeek-V4-Pro和DeepSeek-V4-Flash两个版本。目前,企业用户和开发者可以通过百度千帆控制台或API直接调用DeepSeek-V4-Pro,而DeepSeek-V4-Flash即将全面开放。

腾讯发布混元Hy3预览版并宣布开源

4月23日,腾讯发布并开源了混元Hy3 preview语言模型。该模型拥有295亿个总参数和21亿个激活参数,最大支持256K的上下文长度。这是混元重建后训练的首个模型,标志着混元在智能化方面的进一步提升。

小米MiMo-V2.5系列模型正式开启公测!

4月23日,小米发布了MiMo-V2.5系列大模型的公测版本,包括MiMo-V2.5、V2.5-Pro以及TTS和ASR系列。特别地,MiMo-V2.5-Pro和MiMo-V2.5支持百万级上下文,预计将于近期开源。

阿里发布开源千问3.6中等尺寸模型

4月16日晚,阿里巴巴发布了其开源的中型模型Qwen3.6-35B-A3B。该模型在激活3B参数的情况下,表现超越了谷歌最新发布的Gemma4-31B模型。这一进展标志着阿里在人工智能模型开发方面的显著进步。

暂无评论

暂无评论...