要闻

请登录登录

国产AI视频神器大更新，支持4K、60帧，视频生成有声时代来了

appso 2024-11-12 16:37:19

科技

今年的 AI 视频生成领域呈现出一种如火如荼的架势。

从最初卷生成时长到卷画面质量，再到最近卷起 AI 特效，行业厂商们开卷的方式千奇百怪，但目标都是共通的，那就是铆足了劲地吸纳新用户，留住旧用户。

然而，尽管市面上许多视频模型号称一键生成视频，但如「默剧」般的成品多少形如鸡肋。尤其是我们对 AI 视频的刺激阈值被一再拔高，音效的缺失就像被捶打的钉子，在用户的心里越扎越深。

当然，厂商们不是不想彻底解决这颗钉子，只是恰好在等待一个厚积薄发的时机。

三个月前，作为国内首个面向公众开放的视频生成产品，智谱清影上线清言 App，只需一段指令或图片，30 秒就能生成 AI 视频。

三个月后的今天，智谱清影再次迎来了一大波重磅升级。

10s 时长、4k、60 帧超高清画质，任意尺寸、更好的任务动作和物理世界模型……除了开卷这些基本功，更重要的是，智谱清影也即将在本月上线生成与画面匹配的音效了。

附上新清影具体升级亮点：

图生视频的质量、美学表现、运动合理性以及复杂提示词语义理解方面能力明显增强；

更强的人物面部表演细节、动作连贯性和物理特性模拟，提高了视频的自然度和逼真度；

支持生成 10s、4K、60 帧超高清视频，支持任意比例的图像生成视频；

同一指令/图片可以一次性生成 4 个视频，与画面匹配的音效功能将很快在本月上线公测；

并且，当人们还在为 AI 开源/闭源争论不休时，智谱却是国内少有一贯支持开源的企业，而在今天，智谱也正式发布并开源最新版本的视频模型 CogVideoX v1.5。

此次开源包括两个模型：CogVideoX v1.5-5B、CogVideoX v1.5-5B-I2V，后续，CogVideoX v1.5 也将同步上线到清影，并与新推出的 CogSound 音效模型结合。

代码：
https://github.com/thudm/cogvideo
模型：
https://huggingface.co/THUDM/CogVideoX1.5-5B-SAT

官方宣布，新清影即日起在智谱清言 App 上线。话不多说，直接附上体验地址：

https://chatglm.cn/video?lang=zh

4K 60 帧，新清影已经 next level 了

和蔼的老人面带微笑，面部肌肉细节清晰可见，没有明显的像素化或模糊现象。

火焰老虎的形象也令人印象深刻，不仅步态拟真，眼神之中还透露出一种野性的美感，身上的火焰颜色也呈现出丰富的色彩层次和深度。

车辆急速飞驰，场景转换没有卡顿或延迟，即使是快速移动的对象也能保持连贯性，而在速度感和紧张气氛的营造上也有一手。

喵星人在线化身大厨，熟稔地翻炒今天的菜品。

不被演示 demo 的花言巧语所迷惑，上手才是检验实际效果的唯一标准。

我们也用图生视频功能上手跑了一个放飞孔明灯的视频。孔明灯被释放，缓缓升入夜空，镜头从下往上跟随，天空也被染上了深邃的蓝色。

又或者，我们「复活」了静止的小黄花，微风拂来，小黄花在草地上轻轻摇曳。

不过「新清影」还是需要一定程度的抽卡，这也是目前国内外 AI 视频模型在稳定性上普遍存在的问题，在日常使用这类产品时，还需要多些耐心。

在我们的测试中，最让我们惊喜还是清影的音效生成功能。而这项功能也将在本月晚些时候上线。

从无声到有声，AI 视频进入有声电影时代

1900 年，第一部有声电影在巴黎放映，直到十年后，这种能够将声音与影像同步的技术才逐渐成熟，达到了商业化的标准。

有声电影的问世，不仅仅终结了电影自诞生之初的沉默状态，更重要的是，它将电影从单一的纯视觉艺术转变为视听结合的全新艺术形式。

影片上的演员开口说话，而观众席上也响起对有声电影的欢呼声。

两者心声交响，心音共鸣。

如今，历史的轮回再次上演，从年初的「哑剧」到如今的 AI 音效，如果说前者还是局限于 0-1，那么 AI 音效的加入，则标志着 1-N 史诗级跨越。

基于 GLM-4V 的视频理解能力，智谱家族的新成员——音效模型 CogSound 能够准确识别并理解视频背后的语义和情感，并在此基础上生成与之匹配的音频内容。

例如，爆炸、水流、乐器、动物叫声以及交通工具声等。

在影像叙事中，声音的到来是一个关键拐点，它不仅使叙事从依赖文字构建的视频中突围，而且在观念和方法上都带来了更广阔的想象空间。

然而，影视行业对 AI 的引入无疑是充满争议的。

上个月，好莱坞演员的罢工风波尚未平息，而导演卡梅隆则在出席峰会时表示，AI 将会重新定义电影故事讲述，帮助编剧导演探索新的故事线，以及叙述手法。

放诸到视频产业界，音效模型也有着广泛的应用场景，比如可以生成电影中的大规模战斗场景和灾难场景的声音，大大缩短制作周期，降低制作成本。

只是，AI 时代下的视听艺术究竟应该会是什么样？历史上的技术大爆发给我们提供了一些思路。

如果说工业革命的机械化、流水线作业等方式，让标准化的大规模生产成为可能，那么随着 AI 的到来，通过学习大量的数据和模式，能够模仿人类的决策过程、并且根据每个用户的具体需求和偏好定制个性化服务。

简言之，通过降低使用门槛，AI 让每个普通人都能手捏自己喜欢的个性化视频。

法国新浪潮的代表人物让-吕克·戈达尔，也曾探讨过电影技术变革对电影语言和艺术性的影响：

电影不是仅仅在拍摄时使用声音和影像，而是在观众心中构建某种语言。无声电影通过视觉创造了更多的可能，而有声电影则改变了这种创作方式。

而追溯至今年 2 月份，人们关于 AI 视频的展望是由 OpenAI 发布的 Sora 率先拉开，但很遗憾，直到此时此刻，该产品却仿佛陷入「如来」的状况，至今未见踪影。

也正是在这个期间，我们很高兴能够看到国内厂商在这一赛道上交出了不错的成绩单。

不过，这或许还只是开胃小菜，智谱认为真正的智能一定是多模态的，听觉、视觉、触觉等共同参与了人脑认知能力的形成。

构建包括文字、图像和视觉等模态在内的智谱多模态大模型矩阵，能够进一步提高大模型的应用和工具能力，也是在迈向 AI 的终极目标——AGI。

至此可以说，我们真正迈入了 AI 有声电影时代。

本文来源：Appso

点击展开全文

网友评论

聚超值推荐

RAZER 雷蛇毒蝰 V2 专业版 2.4G双模无线鼠标 30000DPI 黑色 送赠品 ￥579 ￥599

belkin 贝尔金 F4U092BTSGY Type-C拓展坞六合一 0.12m 灰色 券后省10 ￥391 ￥401

beyerdynamic 拜雅 VERIO 200 开放式挂耳式动圈蓝牙耳机曜石黑 券后省400 ￥2299 ￥2699

联想笔记本电脑小新Pro16 AI元启 2024高性能锐龙7 8845H 16英寸轻薄本 32G 1T 2.5K高刷护眼屏游戏 券后省10 ￥6189 ￥6199

以旧换新补贴、PLUS会员：SONY 索尼 LinkBuds S 入耳式真无线动圈主动降噪蓝牙耳机白色 券后省250 ￥1349 ￥1599

COLORFUL 七彩虹 iGame GeForce RTX 3060 Ultra W OC 12G L 显卡 12GB 白色 券后省100 ￥2089 ￥2289

Xiaomi 小米 13 5G手机 12GB+512GB 远山蓝第二代骁龙 券后省0.97 ￥3103 ￥3199

Western Digital 西部数据 SN750 NVMe M.2 固态硬盘 2TB（PCI-E3.0） ￥849 ￥939

蚂蚁电竞144HZ27英寸4K显示器 ￥1599 ￥2599

相关推荐

国家撒钱给补贴，今年双十一简直不要太爽。。。 科技要闻

国家撒钱给补贴，今年双十一简直不要太爽。。。

三年无冠，电竞熄火 科技要闻

三年无冠，电竞熄火

美国高中女生因数学竞赛，发现勾股定理新证明！论文已发《美国数学月刊》 科技要闻

美国高中女生因数学竞赛，发现勾股定理新证明！论文已发《美国数学月刊》

中国大学，抢着开“铁饭碗”专业 科技要闻

中国大学，抢着开“铁饭碗”专业

从今天起，ChatGPT入口就是chat.com！ 科技要闻

从今天起，ChatGPT入口就是chat.com！

这次终于没人骂大冰了 科技要闻

这次终于没人骂大冰了

90后上海女生，成美国数学大奖首位女性华人得主！获评委陶哲轩盛赞 科技要闻

90后上海女生，成美国数学大奖首位女性华人得主！获评委陶哲轩盛赞

“8个瑞士卷怎么分”成网络热梗，盒马鲜生才是最终赢家？ 科技要闻

“8个瑞士卷怎么分”成网络热梗，盒马鲜生才是最终赢家？

谷歌员工集体打脸劈柴，25%新代码AI生成夸大事实！Linux之父怒斥90%都是营销 科技要闻

谷歌员工集体打脸劈柴，25%新代码AI生成夸大事实！Linux之父怒斥90%都是营销

陈欧消匿背后，是中国电商的一朵浪花 科技要闻

陈欧消匿背后，是中国电商的一朵浪花

相关产品