AI大模型

分类排行共收录51个AI大模型

Janus-Pro

探索Janus-Pro的强大功能，了解DeepSeek AI开发的多模态AI模型如何实现图像理解与生成的完美结合。通过优化的训练策略和高性能硬件支持，Janus-Pro在视觉问答和创意图像生成等领域展现出卓越的应用潜力。立即访问，获取更多资源！

Darwin

Darwin是一个专注于自然科学领域的开源语言模型，涵盖物理、化学和材料科学，提供高效的科学问答和多任务学习能力。探索Darwin的强大功能，助力科学发现，立即访问我们的资源！

YuE

探索YuE音乐生成模型，这是一款由香港科技大学开发的开源工具，支持多种音乐风格与语言，能够快速生成高质量的完整音乐音频。无论是音乐创作、影视配乐还是游戏开发，YuE都能满足您的需求，立即体验创意音乐制作的乐趣！

Loopy AI

探索Loopy AI的强大功能，利用音频驱动技术生成高质量头像动画。无论是虚拟主播、动画制作还是在线教育，Loopy AI都能为您提供生动的面部表情和自然运动。立即体验Loopy AI，提升您的创作效果！

PengChengStarling

PengChengStarling

PengChengStarling是开源的多语言自动语音识别工具，支持多种语言，推理速度快，适用于多种应用场景。

Cherry Studio

Cherry Studio支持多种大型语言模型，确保数据隐私，提供个性化知识库和多任务处理功能，适用于Windows、macOS和Linux。

Tarsier

Tarsier是字节跳动研发的视频语言模型，具备高质量视频描述和理解能力，适用于多种视频理解任务。

LMArena AI

LMArena AI是一个开放的AI大语言模型对战评测平台，用户可匿名投票选择优胜模型，推动AI优化与发展。

JoyGen

JoyGen结合音频输入与3D深度感知技术，实现逼真的唇部同步与面部表情，广泛应用于视频编辑与虚拟交互。

Hibiki

Hibiki是Kyutai Labs开发的高保真同步语音翻译模型，支持实时翻译与多平台应用，助力跨语言交流。

CineMaster

CineMaster是一个强大的3D文本到视频生成框架，赋予用户专业导演般的控制力，创造高质量电影视频。

InspireMusic

InspireMusic是阿里巴巴通义实验室推出的开源音乐生成框架，支持智能音乐创作、风格转换及音效合成。

YAYI2

YAYI2是中科闻歌推出的开源大语言模型，支持多语言，具备强大的知识问答和多模态交互能力。

FireRedASR

FireRedASR是一款支持多语言的开源自动语音识别模型，具备高性能和多任务能力，适用于智能语音交互和多媒体内容理解。

FlashVideo

FlashVideo是由字节跳动和香港大学开发的高分辨率视频生成框架，支持快速生成1080p视频，优化流畅性和计算成本。

Goku

Goku是由香港大学与字节跳动研发的多模态视频生成模型，专为低成本、高效率的数字内容创作而设计。

RAGFlow

RAGFlow是一个开源的RAG引擎，支持多种文档格式的深度理解与智能问答，适合个人与企业使用。

Step-Video-T2V

Step-Video-T2V是一款300亿参数的文本生成视频模型，支持中英文输入，适用于多种创作与工业应用场景。

Phantom

Phantom是一款由字节跳动开发的开源AI视频生成框架，专注于主题一致性，融合文本、图像和视频模态。

Monica bots

Monica Bots是一款无需编程的AI智能体构建平台，支持多场景应用，助力用户快速创建个性化助手。

NotaGen

NotaGen是一款由顶尖院校研发的AI乐谱生成工具，支持多种风格与乐器，助力作曲与音乐教育。

支付宝百宝箱（Tbox）

支付宝百宝箱（Tbox）是一个零代码AI应用开发平台，用户可快速创建智能体，支持多种功能与一键发布。

讯飞星辰Agent开发平台

讯飞星辰Agent开发平台为开发者提供全生态模型、零代码开发等功能，助力快速搭建专业级AI智能体应用。

讯飞星辰MaaS平台

讯飞星辰MaaS平台提供全链路工程化方案，支持30+开源模型的定制化开发，助力各行业智能化转型。

千帆慧金

千帆慧金是百度智能云推出的金融大模型，通过AI推动金融机构智能化升级，提升风险管理与业务效率。

浦语·灵笔2.5

浦语·灵笔2.5是一款强大的开源多模态大模型，支持图文、语音、视频等内容的理解与生成，广泛应用于智能助手与内容创作。

IndexTTS

IndexTTS是工业级文本转语音系统，支持中英文语音克隆与高保真合成，广泛应用于智能助手和教育培训等领域。

HYPIR图像复原模型

HYPIR图像复原模型支持一键将模糊图片修复至8K超清画质，广泛应用于历史照片修复、医学影像增强等领域。

WeKnora

WeKnora是基于大语言模型的文档理解框架，支持多格式解析与混合检索，提升知识获取效率与决策支持。

ThinkSound

ThinkSound是阿里巴巴通义实验室推出的音频生成框架，支持视频转音频、交互式编辑和音效修复，广泛应用于影视和游戏行业。

StableAvatar

StableAvatar是一个创新的视频扩散模型，支持无限时长、高保真音频驱动头像视频生成，广泛应用于虚拟主播和广告等领域。

Gemini 2.5 Flash Image

Gemini 2.5 Flash Image

Gemini 2.5 Flash Image是Google最新AI图像生成模型，支持多图融合与精准编辑，适用于电商、教育等多个场景。

HunyuanVideo-Foley

HunyuanVideo-Foley

HunyuanVideo-Foley是腾讯开源的多模态视频拟音生成模型，支持短视频、影视后期等多场景应用，生成48kHz专业音效。

gpt-realtime

gpt-realtime是OpenAI推出的低延迟、高保真的语音到语音AI模型，适用于客服、智能助理等多场景。

FramePackLoop

FramePackLoop是AI循环视频生成工具，解决视频首尾衔接问题，支持多种灵活设置，助力创作者高效制作高质量素材。

OpenRouter AI

OpenRouter AI提供来自60多家供应商的500多种大模型API，助力开发者快速构建和部署AI应用。

Seele AI

Seele AI是全球首个文本生成3D游戏世界的多模态AI平台，支持无限混音与实时编辑，适合游戏开发与教育模拟。

VoxCPM

VoxCPM是开源的无分词器文本转语音系统，具备高效实时合成、上下文感知语音生成等核心功能，支持多种应用场景。

iTerms

iTerms是法大大推出的AI法律智能工作台，帮助企业快速甄别合同风险，提升审查效率，节约合规成本。

LandPPT

LandPPT是基于大语言模型的智能演示文稿生成平台，快速生成专业PPT，支持多种文档格式和AI驱动的配图功能。

Xiaomi MiMo大模型

小米MiMo大模型是专为推理任务优化的开源AI模型家族，涵盖语言、视觉、音频等多模态，支持开发者商业应用。

LLaMA-Factory Online

LLaMA-Factory Online提供零代码在线大模型微调服务，用户可轻松完成模型训练，支持高性能GPU算力和灵活计费。

StoryMem

StoryMem是字节跳动与南洋理工大学联合开源的AI多镜头长视频生成框架，支持文本驱动的镜头定制与叙事一致性。

Ultralytics

Ultralytics专注于计算机视觉AI，提供YOLO模型的全链路工具，支持无代码与代码开发，满足多种视觉AI需求。

AniSora

AniSora是一款开源的AI动画视频生成模型，支持多风格动画创作，提供高效、精准的动画制作能力。

Grok-1

Grok-1是马斯克旗下xAI发布的开源AI大模型，拥有3140亿参数，适用于多种自然语言处理任务。

Waver 1.0

Waver 1.0是FoundationVision推出的高性能视频生成模型，支持T2V、I2V、T2I，最高1080p分辨率，适用于多种场景。

MAI-Voice-1

MAI-Voice-1是Microsoft AI的高效语音生成模型，支持多场景应用，提供自然、富有情感的语音合成体验。

WiseDiag-Z1

WiseDiag-Z1是由杭州智诊科技开发的医疗AI大模型，提供精准诊断与建议，助力全科医学发展。

UIGEN-T1

UIGEN-T1是一个大型语言模型，专为快速生成HTML和CSS前端组件而设计，适用于无代码和低代码场景。

扣子

Coze是一个创新的AI Bot开发平台，提供强大的工具和资源，帮助您轻松构建智能聊天机器人。