Step-Video-T2V

Step-Video-T2V是一款由阶跃星辰与吉利汽车联合开源的文本生成视频大模型，支持中英文输入，基于 Video-VAE 与 DiT 架构，具备 300 亿参数，最长可生成 204 帧高质量视频。模型引...

0收藏0点赞250浏览0评论

Step-Video-T2V是什么？

Step-Video-T2V是由阶跃星辰与吉利汽车联合开源发布的一款文本生成视频（Text-to-Video, T2V）大模型，具备 300 亿参数，支持中英文提示词输入，能够生成最长 204 帧、分辨率高达 992×544 的高质量视频。该模型采用 Video-VAE 深度压缩结构与 DiT（Diffusion Transformer）架构，结合 Flow Matching 和 DPO（Direct Preference Optimization）优化技术，在生成效率、画面一致性与动态表现方面达到当前开源领域的领先水平。

Step-Video-T2V 已在 GitHub 和 Hugging Face 上开源，支持本地部署与在线体验，广泛适用于 AI 创作、影视预演、教育内容生成、游戏原型设计等场景。

Step-Video-T2V GIthub地址： https://github.com/stepfun-ai/Step-Video-T2V

Step-Video-T2V的主要功能特点

文本生成高质量视频。支持中英文提示词输入，自动生成与文本语义一致的视频；最长支持 204 帧，分辨率最高可达 992×544；适用于创意短片、AI 剧情演示、教育内容等多种场景。
强大的模型架构。拥有 300 亿参数，基于 Video-VAE + DiT（Diffusion Transformer）架构；采用 16×16 空间压缩 + 8× 时间压缩，大幅提升训练与推理效率；支持 3D 全注意力机制，增强视频的动态表现与细节还原。
DPO偏好优化。引入 Direct Preference Optimization（DPO），结合人类偏好微调模型；显著提升视频的流畅性、一致性与真实感，减少跳帧与伪影。
多语言与跨模态支持。支持中英双语文本输入；可与图像生成模型（如 Step-Video-TI2V）联动，支持图生视频等多模态任务。
开源与可部署性强。完全开源，基于 MIT 协议，支持商用与二次开发；提供 Hugging Face 模型权重与 GitHub 推理代码，支持本地部署与多卡并行运行；可通过跃问视频平台在线体验生成效果。

适用场景

影视与短视频创作：快速生成剧情片段、分镜草图，辅助创意表达
教育与培训内容：生成教学动画、实验演示，提升课程可视化
游戏与虚拟世界设计：构建角色行为、场景动画原型
广告与品牌传播：根据文案生成创意视频，提升营销效率
AI 多模态研究：用于文本生成视频的模型训练与评估

一句话总结：Step-Video-T2V 是一款领先的开源文本生成视频大模型，支持中英文输入，生成高质量、动态自然的视频内容，适用于多种创作与工业应用场景。

特别声明

本站自媒体指南所展示的Step-Video-T2V均来源于网络，本站无法保证外部链接的准确性与完整性，且不对外部链接指向的内容拥有实际控制权。收录于2026年3月2日下午2:25的网页内容，在收录时均合规合法；若后续内容出现违规情况，可联系网站管理员进行删除处理，自媒体指南对此不承担任何法律责任。

自媒体指南专为自媒体创作者打造的资源聚合平台！本文地址 https://www.zmtzn.com/sites/6748.html 转载请注明

Step-Video-T2V 相关网站

Ultralytics

Ultralytics是一家专注于计算机视觉人工智能的技术平台，以开源YOLO（You Only Look Once）系列模型为核心，提供从数据处理、模型训练到多端部署的全链路工具，支持无代码操作与代码开发双模式，赋能从学术研究到工业落地的各类视觉AI需求。

Monica bots

创建并分享个性化AI助手，聊天、自动化与集成一站式完成。

FireRedASR

FireRedASR是一款由FireRedTeam开发的开源工业级自动语音识别（ASR）模型，支持普通话、中文方言和英语。它在公开的普通话 ASR 基准测试中取得了新的最优结果，并且在歌词识别方面表现出色。

YuE

YuE是由香港科技大学开发的开源音乐生成模型，专注于从给定的歌词生成完整的音乐音频。YuE 支持多种音乐风格和语言，能够生成高质量的声乐和伴奏部分，适用于各种音乐创作需求。通过 YuE，用户可以轻松生成长达 5 分钟的完整歌曲，实现创意音乐制作。

Loopy AI

Loopy是一个端到端音频驱动的视频生成模型，专注于生成逼真的头像动画。利用先进的 AI 技术和时间模块设计，Loopy 能够从音频中提取自然的运动模式，并生成高质量的动画效果。支持多种视觉和音频风格，适用于虚拟主播、动画制作等应用场景。

OpenRouter AI

OpenRouter AI是一个统一的AI大模型API接口平台，通过一个API即可访问来自OpenAI、Anthropic、Google、Mistral等60+提供商的500+模型，支持文本、图像、多模态等多种能力。它为开发者和企业提供更高可用性、更优价格和更灵活的数据策略，帮助快速构建、测试与部署 AI 应用。

LandPPT

LandPPT是一个基于大语言模型的智能演示文稿生成平台，旨在帮助用户快速创建专业、美观的 PPT。它集成了GPT-4、Claude、Gemini等顶尖AI模型，并支持本地部署，能够根据用户需求自动生成结构化大纲、演示内容和配图。

Seele AI

Seele AI：一站式AI工作流平台，轻松构建、运行与管理智能应用。

PengChengStarling

PengChengStarling是由 PengCheng Labs 开发的多语言自动语音识别工具，支持中文、英语、俄语、越南语、日语、泰语、印度尼西亚语和阿拉伯语。相比 Whisper-Large v3，PengChengStarling 的模型仅占其 20% 大小，但推理速度提高了 7 倍，且流式语音识别效果卓越。