谷歌发布全新AI创作工具,多模态内容生成再提速

4天前更新 crj211401
8 0 0

谷歌在近期举行的 I/O 开发者大会上集中推出多项面向开发者的 AI 创作工具升级,目标是借助最新 Gemini 模型家族,进一步降低多媒体内容生成门槛,并提升整体创作效率。

在视频与多模态创作场景中,谷歌发布了全新的 Gemini Omni 模型。该模型可同时理解并处理文本、图像、音频和视频输入,并据此生成连贯的视频内容。

其最大亮点在于支持对话式编辑:用户只需用自然语言说明修改需求,例如更换角色、调整光线或切换场景,模型即可自动完成相应编辑。(新浪财经)

谷歌发布全新AI创作工具,多模态内容生成再提速的封面图

相关快讯

谷歌 AI 智能体 Gemini Spark 登陆苹果 Mac,支持实时追踪资讯动态

谷歌将 AI 智能体 Gemini Spark 带到 Mac 端,并整合进 Gemini 桌面客户端,新增资讯主题实时跟进及对接 Google Tasks、Google Keep 等应用。它可读取本地文件,未来还将支持远程任务处理,进一步与 Claude Desktop、Copilot 等桌面 AI 竞争。

谷歌云与诺基亚深化合作,Gemini 模型助力电信网络智能运维

谷歌云与诺基亚于6月22日宣布加强合作,将谷歌Gemini模型整合进诺基亚的网络软件Nokia Assurance Center。双方计划基于Gemini开发六个专用AI智能体,以帮助电信运营商降低运营成本、快速定位网络故障,并推动网络运维向全自动化的“自驾”模式转型。其中,包括路由智能体(Router agent)作为核心编排层,以及KPI选择器智能体(KPI selector agent),其负责分析复杂的网络性能指标,提供专家级解读,辅助系统推理。

阿里推出HappyOyster 1.0:实时互动数字世界的全新生成模型

阿里云近日推出了开放式世界模型产品HappyOyster 1.0,能够实时生成一个完整且可互动的数字世界。该产品通过深度学习物理世界的状态转移规律,推演动作与反馈之间的因果链,确保人物和环境的一致性。HappyOyster采用原生多模态架构,支持多模态输入及音视频的联合生成,与传统的一次性生成流程不同,它能够在生成过程中持续接收用户指令,实现实时响应和持续演绎。

百度AI视频生成业务进行重要升级

百度的AI视频生成业务进行了重要调整,关闭了AI视频创作平台“绘想”,并将其服务整合至“度加”(DuCut)。此外,百度宣布将在2026年6月15日关闭“百度妙笔”,其服务同样会整合至“度加”。这一整合旨在降低百度AIGC产品线的运维成本,并借助“度加”的用户规模,加快视频生成能力的推广。

可灵AI在42个国家的App Store总榜中夺冠

近期,借助可灵AI 3.0生成的“棒球现场特效”视频在国内外社交平台广受欢迎,吸引了大量用户参与创作。此现象促使可灵AI于5月12日登顶42个国家和地区的App Store总榜,显示出其强大的市场影响力。

Openreach与谷歌AI深化合作,扩展英国宽带网络服务

Openreach,英国电信的网络运营商,日前宣布扩大与谷歌云的合作,旨在通过人工智能加速光纤宽带建设,并降低其庞大车队的排放。该公司运营着英国最大的宽带网络,利用谷歌的数据工具分析其24000辆货车的行驶路线、怠速和故障模式。这些车辆每年行驶近2亿英里(约3.22亿公里),此举将有助于提高效率并减少环境影响。

暂无评论

暂无评论...