Kokoro TTS是一款拥有 8200 万参数的先进文本转语音模型,基于 StyleTTS 2 架构,提供高质量、自然的语音合成。支持多语言,包括英语、法语、韩语、日语和普通话。适用于有声书、播客、培训视频等多种应用场景。Kokoro TTS 是开源的,具备高效、实时处理的特点,适用于各种环境中的语音合成需求。
Spark-TTS是SparkAudio团队开源的基于大型语言模型(LLM)的高效文本转语音(TTS)工具,无需额外的生成模型,直接从LLM预测的编码中重建音频,实现零样本文本到语音的转换。Spark-TTS支持中英双语,具备跨语言合成能力,可通过参数调整(如性别、音调、语速)生成虚拟说话者的声音,满足多样化需求。
Audio Note 是一款基于 OpenAI Whisper 模型的本地实时语音转文字工具,支持从麦克风、应用程序音频及音视频文件中提取语音并转录为文本,广泛应用于会议记录、字幕生成、直播转写等场景。
DiffRhythm是一款基于扩散模型的 AI 音乐生成平台,仅需歌词与风格提示,即可在 10 秒内生成最长达 4 分 45 秒的完整歌曲,涵盖人声与伴奏。
Sesame AI是一款领先的 AI 语音合成平台,支持多语言、情感表达与自然对话,打造媲美真人的高保真语音体验。 通过深度学习与自然语言处理技术,Sesame AI 可生成具备语调、节奏与情绪的类人声音,适用于播客、有声书、虚拟助手、教育课程、客服系统等多种场景。
Zonos TTS是一个AI驱动的多语言文本转语音平台,支持语音克隆与情感调控,打造自然生动的高保真语音体验。 通过上传 10–30 秒音频即可实现个性化语音克隆,支持中文、英文、日语、法语、德语等多语言合成,具备情绪调节(如快乐、悲伤、愤怒、恐惧)与音频前缀输入功能。
AI Music Generator是一款创新型AI音乐创作平台,旨在帮助用户快速生成专业级别的原创音乐。支持 文本转音乐、歌词转音乐、风格自定义。无需音乐经验,AI 自动生成专业级音乐,支持 MP3、WAV、FLAC 高质量音频格式。
AI Song Maker是一个AI歌曲和音乐生成器,可快速为您生成高质量原创歌曲或音乐。支持任何场景的文本到歌曲、歌词到歌曲以及纯音乐生成,可订制化编辑不同音乐风格节奏、情绪和乐器等,也可对音乐执行删除人声、音轨分离、混音功能,使音乐制作过程更加灵活和高效。
AlMusicGen是一款免费在线AI音乐生成器,旨在帮助用户将创意快速转化为高品质的原创音乐。无论是通过输入歌词、文字描述,还是自定义曲风和情绪,AlMusicGen 都能在短短1 分钟内生成高达 4 分钟的完整音乐作品。
Music Muse是一款在线免费AI歌曲生成器,致力于帮助用户将音乐创意愿景快速转化为专业品质的曲目,无需任何音乐经验。通过 AI 驱动的技术,用户只需描述情绪、风格、节奏或歌词等音乐元素,Music Muse 即可在几秒钟内生成完整的乐曲。它支持从古典到电子等多种音乐流派,并通过自动混音和母带处理,确保输出录音室级别的音质。
MiniMax Audio是一款 AI驱动的语音合成平台,专注于 文本转语音(TTS)&语音克隆 技术,凭借先进的Speech-02模型,它支持长文本输入和多样化的声音选项,能够 生成自然流畅、多语言、多情感的AI语音,适用于 广告、播客、有声读物、AI导师 等场景!
MusicMint是一款AI驱动的音乐创作平台,让用户轻松生成 原创歌曲、歌词,并支持 多种音乐风格,涵盖流行、摇滚、嘻哈、爵士、电子等。MusicMint 让音乐创作变得简单、有趣,帮助你轻松打造属于自己的旋律和歌词。
Remove Vocals是一款免费在线AI人声/伴奏分离工具,能够自动去除歌曲中的人声,生成卡拉OK伴奏。它采用 AI 技术,基于开源库 Spleeter,能快速分离器乐和人声,无需专业音频编辑软件。
Kokoro TTS是一款先进的AI文本转语音模型,拥有8200万参数,基于StyleTTS 2架构,提供高质量、自然的语音合成。
MakeSong是一款人工智能驱动的AI音乐和歌曲生成器,帮助用户快速创作原创音乐。它支持歌词模式和 描述模式,用户可以直接输入歌词或描述音乐风格,由 AI 自动生成一首完整的歌曲。
Voxdazz是一款AI名人语音生成器,可以将输入的文本转换为名人语音,让用户体验不同风格的声音。它支持政治人物、演员、动漫角色等多种名人声音,让你的创意内容更具趣味性和吸引力。
Sono Lyric是一个 AI 歌词生成工具,专门用于 为 Suno AI 创作歌词。它提供 多种音乐风格、主题和情绪选项,让用户可以轻松定制歌词内容,适用于 歌曲创作、音乐制作、社交媒体内容 等场景。
ocalRemoverOak是一个在线人声分离工具,可以帮助用户 从音频或视频文件中提取人声或伴奏。它支持 MP3、WAV、FLAC、MP4、MKV 等多种格式,并且可以直接解析 YouTube 和Suno.com 链接。
Voicv是一个以AI 技术为核心的尖端多语言语音处理平台,主打声音克隆、文本转语音、语音转文本三大核心服务,凭借零样本学习、高保真输出、多语言适配等优势,让任何人、任何时间能够“轻轻松松”地复制想要的输出音频,就如“拷贝粘贴”一样简单。
一款AI驱动的语音生成平台,提供400+种逼真的AI语音,可以将文本转换为逼真的语音,适用于 视频配音、有声书、教育内容、广告营销 等场景。
Listnr AI是一个 AI 驱动的文本转语音(TTS)平台,提供 1000+ 种逼真的 AI 语音,支持 142+ 种语言,适用于 视频配音、播客、有声书、社交媒体内容 等场景。
F5-TTS是一个 先进的文本转语音(TTS)平台,利用AI 技术将文本转换为 自然、富有表现力的语音。F5-TTS提供零样本声音克隆、多语言支持和情感表达能力,适用于 配音、有声书、电子学习、营销推广 等场景。
Ditto Speak是一个AI语音克隆和语音生成平台,能够从 音频样本 中捕捉语音模式,并生成 高质量的合成语音,适用于 个性化语音创建、视频配音、播客制作 等场景。
Singify是一个AI音乐和歌曲生成工具,帮助用户轻松创作高质量音乐,无论是原创歌曲、背景音乐还是 AI 翻唱。它支持文本转音乐、AI歌词创作、AI 翻唱等功能,让音乐创作变得更加智能化和高效。
AiMusic FM是一个AI在线音乐生成平台,主要功能是帮助用户通过多种创作模式迅速生成原创音乐。简单来说,它利用先进的 AI 算法,让用户只需输入文本描述、上传图片、提供歌词或音乐样本,就能自动生成符合特定风格和情绪的乐曲。
Plazmapunk是一款AI音乐视频生成平台,支持上传音乐或使用 AI 音轨生成器,结合多种视觉风格(如 Kandinsky、SDXL)、GPT 场景编辑器与多比例格式,快速生成高质量视频,适用于音乐发布、社交创作及开发者集成。
API.box是一个专注于提供和整合先进 AI 接口的平台,主要面向 AI 音乐创作和相关音频生成应用。
一款AI文本到音乐生成工具,主要功能是将用户输入的文本或歌词转换成音乐。用户只需输入文字描述或歌词、选择相应的音乐风格和节奏,平台就会自动生成和谐的音乐作品。
一款利用Suno AI技术为狗狗创建个性化放松音乐的平台。它的目标是帮助宠物主人为他们的狗狗提供一个 舒缓、愉悦的听觉环境,以减少焦虑、压力或分离不安。
一款在线AI语音克隆平台,仅需3秒音频样本即可快速创建超逼真定制语音,精准复刻原始说话者的情感细节。支持英语、中文、日语、韩语等多语种实时合成,界面简洁直观易操作,严格采用银行级加密保障隐私安全。
一款本地视频翻译、配音和语音克隆工具,专为跨语言视频本地化打造。它兼容国内外主流视频平台,支持 OpenAI API 规范的大模型,并默认采用 CosyVoice 声音,亦可自定义语音克隆。
一款离线可无限使用的AI智能语音转文字的工具。支持离线AI音频转文字、视频生成字幕,本地存储、隐私保护,支持显卡加速、字幕编辑、字幕翻译(Google翻译),会员无限制使用,最新版支持私有云功能,可自动备份手机相册文件,还可以不限带宽、不限流量外网访问。
一款AI播客生成工具,旨在将文本或链接内容自动转换为自然流畅的音频录制。它的用法特别简单,你只要把感兴趣的文字、链接,甚至自己平时学习积累的资料文件或者文本上传,就能一键生成中英文播客,还是「对话」形式。
AI Voice Cloning是一款基于先进人工智能技术的语音克隆工具,致力于以极简流程生成高度逼真的克隆语音。通过自动提炼录入音频里面特殊的音色、语调以及所传达的情感情绪,并创造出与原录制有非常高相似度的人声
Bland AI是一款专为现代企业打造的超逼真 AI 语音呼叫解决方案,核心功能是通过 对话式人工智能(Conversational AI) 模拟真人客服,自动化处理企业客户交互场景,助力企业提升客户体验、降低运营成本,适用于销售、客户支持、日程管理等多场景。
ScreenApp是一款纯浏览器端的 AI 录屏与内容总结平台。不需要下载,使用网页或Chrome拓展,实时抓取屏幕、系统音、麦克风和摄像头,并在云端自动完成 转录、翻译、摘要、行动项提取与对话式检索。作为超百万用户信赖的 “第二大脑”,它通过智能转录、自动总结与深度整合,让每段录音、每场会议都成为可追溯、可利用的价值资产。
趣丸千音(All Voice Lab)是趣丸科技推出的AI语音创作平台。以自研的MaskGCT语音大模型为核心,提供一站式智能语音解决方案。集成文本转语音、视频翻译、声音克隆等多元能力,支持多语种多音色互换,帮助全球用户高效创作,告别语言障碍。
UntitledPen是一个AI驱动的语音生成平台,帮你的内容打造最自然流畅的旁白。 基于最先进的 GPT 音频生成模型,支持多语言、高质量音频,适用于视频/播客/广告/教育培训等多种情景下的配音需求。并通过智能编辑器让文本优化更加便捷,支持 Markdown 格式,输出 128kbps 及以上的标准音质,确保音质清晰动听。
音刻(Inkr)是一款基于 AI 的多语言音视频转录工具,支持极速转录、说话人识别与智能笔记生成,适用于会议记录、采访整理、字幕制作等场景。FLASH 模式转录速度提升 8 倍,支持100+语言,助你高效捕捉每一段语音内容。
EasyVoice是一款免费开源的文本转语音工具,轻松快速的将长篇次小说、剧本文字等等批量变成真人朗读声音!它支持多角色配音、语音试听、自定义语速与音调,并接入各种 TTS 合成引擎(Microsoft Azure TTS, OpenAI, Edge-TTS)等朗读内容输出。可以用到制作生成使用不同人声音轨的有声书剧或者播客脚本等等!
Vozart AI是一款在线 AI 音乐与歌词生成平台,支持从文本描述快速生成高质量原创音乐,集成歌词创作、音频分离、音效生成与图像转音乐等功能,操作简单、无需音乐基础,适用于短视频、播客、广告、游戏等多场景,所有作品均为免版权可商用。
MusicCreator AI是一款免版权AI音乐生成平台,用户可通过文本或歌词输入,快速创作专业音乐,支持视频、播客、广告等多种内容场景,无需音乐技能,几秒即可生成可商用曲目。
Bocca是一款专为macOS用户打造的AI语音转文本应用,无需联网即可在任何软件中使用。支持多语言语音输入,转写内容即时粘贴,无需切换窗口,保障隐私安全。适合内容创作者、播客、项目经理等高效录入文字,提高创作与办公效率。
Vogue AI是一款专注视觉内容创作的 AI 平台,融合AI宝宝生成器、播客短视频工具与 Veo 3视频生成等功能,支持高质量图像与视频生成。平台采用统一账户与积分体系,无需专业技能即可快速创作病毒式社交内容,适合家庭纪念、内容创作者与社媒营销使用。
AudioX是一站式 AI 音频创作平台,支持从文本、图像与视频中快速生成高质量音效、语音与配乐,涵盖视频转音频、图像生成环境声、AI 会说话头像等功能。平台提供统一积分机制与免费工具,适合内容创作者、播客制作与短视频剪辑使用,助力高效生成沉浸式音频体验与创意内容。
Happy Scribe是一款 AI 驱动的音视频转文字平台,支持 120 多种语言的自动转录、字幕生成与翻译服务。用户可快速处理会议录音、教学视频、采访内容等,生成高精度文本和多语字幕。
ScriptMe是一款由AI驱动的音视频转录与字幕平台,支持多语言识别与智能编辑,可将音频/视频内容快速转换为精准文本与字幕。适用于媒体制作、教育讲座、访谈会议等多种场景。
MuseScore是一款免费开源的乐谱制作软件,同时也是一个支持全球乐谱分享的社区平台,支持超过 500 种乐器编曲,具备专业制谱、MIDI 输入、多格式导出、AI扫谱、跨平台支持等功能。
AIVocal是一款集成化的AI语音创作平台,支持文本转语音、语音克隆、播客制作、人声去除等功能。提供 140+ 自然人声和 900+ 语言,快速生成高质量语音内容,适用于播客、有声书、社交语音与教学语音场景。
TemPolor是一款 AI 驱动的免版权音乐生成平台,支持通过文字、音频、视频或 MIDI 文件快速生成原创配乐,并提供可直接商用的曲库。适合视频创作、游戏影视、播客直播、品牌营销等多场景。
谱乐AI(YourMusic.Fun) 是一款集AI音乐生成、音频处理、混音编辑与全球发行于一体的一站式音乐创作平台,让任何人都能像专业音乐人一样,从创意到成品全流程完成音乐制作。平台集成 Suno AI 4.5+、Udio、Mureka V7 等顶尖模型,并有自研 YM 模型,支持多风格、多场景的音乐创作。
在线检测歌曲节拍与BPM,精准快速,助你轻松掌握音乐节奏。
yesTool AI:智能工具一站式集合,提升效率与创意生产力。
Meloflow AI:智能音乐创作与伴奏生成平台,轻松打造灵感旋律。
Eleven Music是由ElevenLabs推出的一款AI音乐创作工具,只需要写一句话就可以自动创造原创录音室级别的声音,支持多语言人声或纯器乐,涵盖流行、电子、爵士、电影配乐等多种风格。内置歌词编辑、乐器替换、口型同步等功能,几秒内生成高保真音频,适用于视频配乐、广告、游戏、播客等商业场景,让音乐创作更高效、更灵活。
Suno是一款面向大众的AI音乐创作平台,让任何人无需专业作曲技能,就能用文字或音频快速生成高质量的原创歌曲。用户可以从简单的提示开始,也可以使用专业编辑工具深度定制音乐,涵盖旋律、歌词、编曲到混音的完整流程。
Transcriptly是一款由人工智能驱动的免费在线音视频转文字平台,可将YouTube视频 或 本地音频/视频文件(MP3、MP4、WAV、M4A、MOV 等)快速、精准地转换为可编辑文本。它支持 98+ 种语言,具备高达 99% 的转录准确率,并提供自动标点、时间戳、说话人检测等功能,适合创作者、学生、研究人员和企业使用。
SongAgent:AI 驱动的智能助理平台,助你高效创作与自动化工作流程。
兽音译者是一款在线兽语翻译与解码工具,支持中文、英语、法语等多语种,将人类语言转化为独特的“野兽吼叫体”并精准还原原文。适用于趣味聊天、科幻圈交流、跨语言创意沟通,让你的文字充满神秘与乐趣。
SoundWise AI是一个完全免费的AI音频/视频转录工具,支持将MP3、WAV、MP4、MOV、M4A、FLAC、AAC、MKV等多种格式快速转换为精准文本。用户无需注册或安装软件,直接在浏览器中即可完成转录,永久免费、无限制。