探索Janus-Pro的强大功能,了解DeepSeek AI开发的多模态AI模型如何实现图像理解与生成的完美结合。通过优化的训练策略和高性能硬件支持,Janus-Pro在视觉问答和创意图像生成等领域展现出卓越的应用潜力。立即访问,获取更多资源!
Darwin是一个专注于自然科学领域的开源语言模型,涵盖物理、化学和材料科学,提供高效的科学问答和多任务学习能力。探索Darwin的强大功能,助力科学发现,立即访问我们的资源!
探索YuE音乐生成模型,这是一款由香港科技大学开发的开源工具,支持多种音乐风格与语言,能够快速生成高质量的完整音乐音频。无论是音乐创作、影视配乐还是游戏开发,YuE都能满足您的需求,立即体验创意音乐制作的乐趣!
探索Loopy AI的强大功能,利用音频驱动技术生成高质量头像动画。无论是虚拟主播、动画制作还是在线教育,Loopy AI都能为您提供生动的面部表情和自然运动。立即体验Loopy AI,提升您的创作效果!
PengChengStarling是开源的多语言自动语音识别工具,支持多种语言,推理速度快,适用于多种应用场景。
Cherry Studio支持多种大型语言模型,确保数据隐私,提供个性化知识库和多任务处理功能,适用于Windows、macOS和Linux。
Tarsier是字节跳动研发的视频语言模型,具备高质量视频描述和理解能力,适用于多种视频理解任务。
LMArena AI是一个开放的AI大语言模型对战评测平台,用户可匿名投票选择优胜模型,推动AI优化与发展。
JoyGen结合音频输入与3D深度感知技术,实现逼真的唇部同步与面部表情,广泛应用于视频编辑与虚拟交互。
Hibiki是Kyutai Labs开发的高保真同步语音翻译模型,支持实时翻译与多平台应用,助力跨语言交流。
CineMaster是一个强大的3D文本到视频生成框架,赋予用户专业导演般的控制力,创造高质量电影视频。
InspireMusic是阿里巴巴通义实验室推出的开源音乐生成框架,支持智能音乐创作、风格转换及音效合成。
YAYI2是中科闻歌推出的开源大语言模型,支持多语言,具备强大的知识问答和多模态交互能力。
FireRedASR是一款支持多语言的开源自动语音识别模型,具备高性能和多任务能力,适用于智能语音交互和多媒体内容理解。
FlashVideo是由字节跳动和香港大学开发的高分辨率视频生成框架,支持快速生成1080p视频,优化流畅性和计算成本。
Goku是由香港大学与字节跳动研发的多模态视频生成模型,专为低成本、高效率的数字内容创作而设计。
RAGFlow是一个开源的RAG引擎,支持多种文档格式的深度理解与智能问答,适合个人与企业使用。
Step-Video-T2V是一款300亿参数的文本生成视频模型,支持中英文输入,适用于多种创作与工业应用场景。
Phantom是一款由字节跳动开发的开源AI视频生成框架,专注于主题一致性,融合文本、图像和视频模态。
Monica Bots是一款无需编程的AI智能体构建平台,支持多场景应用,助力用户快速创建个性化助手。
NotaGen是一款由顶尖院校研发的AI乐谱生成工具,支持多种风格与乐器,助力作曲与音乐教育。
支付宝百宝箱(Tbox)是一个零代码AI应用开发平台,用户可快速创建智能体,支持多种功能与一键发布。
讯飞星辰Agent开发平台为开发者提供全生态模型、零代码开发等功能,助力快速搭建专业级AI智能体应用。
讯飞星辰MaaS平台提供全链路工程化方案,支持30+开源模型的定制化开发,助力各行业智能化转型。
千帆慧金是百度智能云推出的金融大模型,通过AI推动金融机构智能化升级,提升风险管理与业务效率。
浦语·灵笔2.5是一款强大的开源多模态大模型,支持图文、语音、视频等内容的理解与生成,广泛应用于智能助手与内容创作。
IndexTTS是工业级文本转语音系统,支持中英文语音克隆与高保真合成,广泛应用于智能助手和教育培训等领域。
HYPIR图像复原模型支持一键将模糊图片修复至8K超清画质,广泛应用于历史照片修复、医学影像增强等领域。
WeKnora是基于大语言模型的文档理解框架,支持多格式解析与混合检索,提升知识获取效率与决策支持。
ThinkSound是阿里巴巴通义实验室推出的音频生成框架,支持视频转音频、交互式编辑和音效修复,广泛应用于影视和游戏行业。
StableAvatar是一个创新的视频扩散模型,支持无限时长、高保真音频驱动头像视频生成,广泛应用于虚拟主播和广告等领域。
Gemini 2.5 Flash Image是Google最新AI图像生成模型,支持多图融合与精准编辑,适用于电商、教育等多个场景。
HunyuanVideo-Foley是腾讯开源的多模态视频拟音生成模型,支持短视频、影视后期等多场景应用,生成48kHz专业音效。
gpt-realtime是OpenAI推出的低延迟、高保真的语音到语音AI模型,适用于客服、智能助理等多场景。
FramePackLoop是AI循环视频生成工具,解决视频首尾衔接问题,支持多种灵活设置,助力创作者高效制作高质量素材。
OpenRouter AI提供来自60多家供应商的500多种大模型API,助力开发者快速构建和部署AI应用。
Seele AI是全球首个文本生成3D游戏世界的多模态AI平台,支持无限混音与实时编辑,适合游戏开发与教育模拟。
VoxCPM是开源的无分词器文本转语音系统,具备高效实时合成、上下文感知语音生成等核心功能,支持多种应用场景。
iTerms是法大大推出的AI法律智能工作台,帮助企业快速甄别合同风险,提升审查效率,节约合规成本。
LandPPT是基于大语言模型的智能演示文稿生成平台,快速生成专业PPT,支持多种文档格式和AI驱动的配图功能。
小米MiMo大模型是专为推理任务优化的开源AI模型家族,涵盖语言、视觉、音频等多模态,支持开发者商业应用。
LLaMA-Factory Online提供零代码在线大模型微调服务,用户可轻松完成模型训练,支持高性能GPU算力和灵活计费。
StoryMem是字节跳动与南洋理工大学联合开源的AI多镜头长视频生成框架,支持文本驱动的镜头定制与叙事一致性。
Ultralytics专注于计算机视觉AI,提供YOLO模型的全链路工具,支持无代码与代码开发,满足多种视觉AI需求。
AniSora是一款开源的AI动画视频生成模型,支持多风格动画创作,提供高效、精准的动画制作能力。
Grok-1是马斯克旗下xAI发布的开源AI大模型,拥有3140亿参数,适用于多种自然语言处理任务。
Waver 1.0是FoundationVision推出的高性能视频生成模型,支持T2V、I2V、T2I,最高1080p分辨率,适用于多种场景。
MAI-Voice-1是Microsoft AI的高效语音生成模型,支持多场景应用,提供自然、富有情感的语音合成体验。
WiseDiag-Z1是由杭州智诊科技开发的医疗AI大模型,提供精准诊断与建议,助力全科医学发展。
UIGEN-T1是一个大型语言模型,专为快速生成HTML和CSS前端组件而设计,适用于无代码和低代码场景。
Coze是一个创新的AI Bot开发平台,提供强大的工具和资源,帮助您轻松构建智能聊天机器人。