Tarsier

Tarsier是由字节跳动研发的大规模视频语言模型家族，旨在生成高质量的视频描述，并具备良好的视频理解能力。Tarsier 采用了简单的模型结构，结合了 CLIP-ViT 编码帧和 LLM 模型来...

0收藏0点赞196浏览0评论

Tarsier是由字节跳动研发的大规模视频语言模型家族，旨在生成高质量的视频描述，并具备良好的视频理解能力。Tarsier 采用了简单的模型结构，结合了 CLIP-ViT 编码帧和 LLM 模型来建模时间关系。通过精心设计的两阶段训练策略，Tarsier 展现出了强大的视频描述能力和视频理解能力，在多个公共基准测试中取得了最先进的成果。

Tarsier 模型适用于各种视频理解任务，如视频字幕生成、视频问答和视频定位等，能够处理复杂的视频内容并生成详细准确的描述。

Tarsier：字节跳动推出的大规模视频语言模型家族

Tarsier的主要功能特色

高质量视频描述：Tarsier 能够生成详细、准确的视频描述，通过多任务预训练和多粒度指令微调，显著提升了视频描述的能力。
视频理解能力：Tarsier 在多个公开基准测试中取得了新的最佳结果，包括视频问答、视频地面、幻觉测试等任务。
简单的模型结构：Tarsier 使用 CLIP-ViT 作为视觉编码器，LLM 作为文本解码器，通过 MLP 层连接两者，实现了独立编码帧并输入 LLM 的方法。
两阶段训练策略：Tarsier 采用多任务预训练和多粒度指令微调的策略，提高了模型的泛化能力和视频描述的质量。
新的视频描述基准：Tarsier 提出了 DREAM-1K 基准，包含 1000 个具有多样复杂性的视频片段，用于评估视频描述模型的质量。

Tarsier模型的最新版本Tarsier2在多个方面进行了显著的改进，特别是在数据量和多样性方面。预训练数据从1100万扩展到4000万视频文本对，增强了模型的学习能力。此外，Tarsier2在监督微调阶段引入了细粒度时间对齐，进一步提高了视频描述的准确性和细节捕捉能力。通过直接偏好优化（DPO）训练，Tarsier2能够生成更符合人类偏好的视频描述，减少生成幻觉的可能性。

在性能评估方面，Tarsier2在DREAM-1K基准测试中表现出色，其F1分数比GPT-4o高出2.8%，比Gemini-1.5-Pro高出5.8%。在15个公共基准测试中，Tarsier2取得了新的最佳结果，涵盖视频问答、视频定位、幻觉测试和问答等功能，展示了其作为强大通用视觉语言模型的多功能性。

论文：https://arxiv.org/abs/2501.07888

Code: https://github.com/bytedance/tarsier

Dataset: https://huggingface.co/datasets/omni-research/DREAM-1K

Demo: https://huggingface.co/spaces/omni-research/Tarsier2-7b

特别声明

本站自媒体指南所展示的Tarsier均来源于网络，本站无法保证外部链接的准确性与完整性，且不对外部链接指向的内容拥有实际控制权。收录于2026年3月2日下午2:30的网页内容，在收录时均合规合法；若后续内容出现违规情况，可联系网站管理员进行删除处理，自媒体指南对此不承担任何法律责任。

自媒体指南专为自媒体创作者打造的资源聚合平台！本文地址 https://www.zmtzn.com/sites/7217.html 转载请注明

Tarsier 相关网站

OpenRouter AI

OpenRouter AI是一个统一的AI大模型API接口平台，通过一个API即可访问来自OpenAI、Anthropic、Google、Mistral等60+提供商的500+模型，支持文本、图像、多模态等多种能力。它为开发者和企业提供更高可用性、更优价格和更灵活的数据策略，帮助快速构建、测试与部署 AI 应用。

Darwin

Darwin是一个开源项目，专注于自然科学领域的大型语言模型构建，主要涵盖物理、化学和材料科学。通过对科学文献和数据集进行预训练和微调，Darwin 在科学问答和多任务学习任务中表现优异。它结合了结构化和非结构化的科学知识，提升了语言模型在科学研究中的效能。

Xiaomi MiMo大模型

Xiaomi MiMo大模型：小米开源多模态AI，支持文本与图像理解与生成。

Cherry Studio

Cherry Studio 是一个支持多模型服务的AI桌面客户端，支持 Windows、macOS 和 Linux，未来还将支持移动端。用户可以通过Cherry Studio无缝集成多种大型语言模型 (LLM)，包括 OpenAI、Anthropic 和 Gemini 等，甚至本地部署的模型，确保数据隐私和安全。

IndexTTS

IndexTTS是B站推出的工业级文本转语音系统，支持中英双语、零样本语音克隆与高保真音质。采用字符-拼音混合建模、BigVGAN2 解码器与情感音色分离技术，语音自然流畅，广泛应用于智能助手、有声读物、视频配音等场景。

InspireMusic

InspireMusic 是由阿里巴巴通义实验室推出的开源音乐生成框架，集成了多项音频领域的前沿研究成果，为开发者和研究者提供全面的音乐创作、风格转换和音效合成解决方案。该框架依托多模态大模型技术，支持通过文本描述或音频输入进行智能化创作，并提供完善的模型调优工具链。

AniSora

AniSora（全称Index-AniSora）是一款动画视频生成领域的开源AI动画视频生成模型，聚焦Sora时代的动画视频生成前沿技术，以开源透明、社区驱动为核心原则，依托先进的时空建模技术，为用户提供低门槛的AI动画视频创作能力，同时开放全量代码支持技术研发与二次开发，覆盖从个人创作者到专业制作团队的多元动画创作需求。

Janus-Pro

Janus-Pro是由 DeepSeek AI 开发的先进多模态 AI 模型，专注于实现图像理解与图像生成的无缝结合。Janus-Pro 通过优化的训练策略、扩展的训练数据和更大的模型规模，在多模态理解和文本到图像生成方面取得了显著进步。

Grok-1

Grok-1是马斯克旗下AI创企xAI发布的一款开源AI大模型。它是一个混合专家（Mixture-of-Experts，MOE）大模型，其参数量达到了3140亿，远超OpenAI GPT-3.5的1750亿，是迄今参数量最大的开源大语言模型。旨在用作聊天机器人背后的引擎，用于包括问答、信息检索、创意写作和编码辅助在内的自然语言处理任务。