你的位置:万博manbext体育官网(中国)官方网站登录入口 > 新闻资讯 > 现金万博manbext体育官网app平台那时全国上最大的模子一经 BERT-万博manbext体育官网(中国)官方网站登录入口

现金万博manbext体育官网app平台那时全国上最大的模子一经 BERT-万博manbext体育官网(中国)官方网站登录入口

时间:2026-02-26 16:48 点击:156 次

现金万博manbext体育官网app平台那时全国上最大的模子一经 BERT-万博manbext体育官网(中国)官方网站登录入口

奥特曼说现金万博manbext体育官网app平台,Sora 代表了视频生成大模子的 GPT-1 时刻。

从开年到刻下,国表里、初创独角兽到互联网大厂,都纷纷干预视频生成限制,带来一个个清新模子的同期,视频、影视行业也随之发生剧变。

不可否定,当下的视频生成模子还遭遇诸多问题,比如对空间、对物理端正的分解,咱们都期待着视频生成的 GPT-3.5/4 时刻到来。

在国内,有这么一家从加快磨砺起程的初创公司,正在为此起劲。

它即是潞晨科技,首创东谈主尤洋博士毕业于 UC 伯克利,后赴新加坡国立大学担任校长后生耕种。

本年潞晨科技在加快规划限制除外,树立视频生成模子 VideoOcean,为行业带来更具性价比的遴荐。

在 MEET 2025 现场,尤洋博士也向咱们共享这一年关于视频生成限制的分解与融会。

MEET 2025 智能夙昔大会是由量子位垄断的行业峰会,20 余位产业代表与会参谋。线下参会不雅众 1000+,线上直播不雅众 320 万 +,获取了主流媒体的庸碌讲理与报谈。

中枢不雅点梳理

视频生成模子应该完毕缜密化文本戒指、大肆机位 / 大肆角度、变装一致性、立场定制化

3 年后大致就能迎来视频生成的 GPT-3.5/GPT-4 时刻

视频生成大模子的一个平直专揽价值即是冲破实际的限制,极大裁减果真场景复现难度。

(为更好呈现尤洋的不雅点,量子位在不改换同意的基础上作念了如下梳理)

3 年后或是视频大模子的 GPT-3.5 时刻

今天相配喜悦来到量子位大会,相配喜悦和全球换取,今天讲一下咱们在视频大模子限制作念的一些职责。

当先是我和我的创业公司潞晨科技的先容。我从 UC 伯克利毕业到新加坡国立大学任教,很庆幸创办了潞晨科技。

咱们之前是作念算力优化的。2018 年谷歌打造了全国上第一个千卡集群 TPU Pod,那时全国上最大的模子一经 BERT。咱们匡助谷歌,将(那时)全国上最大模子的磨砺时候从 3 天压缩到 76 分钟。

也很庆幸,前年华为盘古大模子的一个职责亦然咱们一皆来作念的,并获取了 ACL 最好论文。咱们的本事匡助华为盘古大模子在磨砺中更高效。微软、英伟达等公司团队也使用了咱们的本事作念一些漫步式磨砺,咱们但愿让大模子磨砺更快、老本更低。

步入今天的话题,来要点先容一下视频生成大模子。

咱们打造了一个家具叫Video Ocean,刻下正处在测试阶段。先来先容一下家具,后头再琢磨我合计视频大模子将会如何发展。

当先,我合计视频大模子第一个紧迫的方面是,它应该能够完毕缜密化的文本戒指。

其实咱们今天都在用 AI 去生成大模子了,咱们细目但愿它能够精确响应出思要的东西。但很缺憾,比如刻下用文生图 APP 去生成图有顷,一经会发现好多图片本色无法作念到精确戒指,是以我认为这方面还有很大的发展空间。

在 Video Ocean 模子磨砺经由中,咱们作念了一些初步探索。一个相比好的例子,咱们能够精确地提供一些描写,戴着墨镜,长的胡茬的欧洲男东谈主。可想而知这个视频内部如实是咱们思要的阿谁嗅觉,蓝天、海岸、沙滩、背光、单手捏相机、玄色 T 恤,也有对着镜头言语。

我认为 AI 视频大模子夙昔 3 年可能最紧迫的一经完毕视频大模子的 Scaling Law。

这个经由不需要相配炫酷的家具能力,最紧迫的是把它的模子与实际全国的聚首能力作念到极致。我合计最终形态即是东谈主们说一段话、给一段描写,它能精确地把描写以视频的样式展示出来。

是以我合计夙昔 3 年,AI 视频大模子就像山姆 · 奥特曼说的那样,今天是 Video 的 GPT-1 时刻,可能 3 年后到视频大模子的 GPT-3.5、GPT-4 时刻。

这里展示一下 Video Ocean 的 Demo,刻下咱们作念到了这么的水平。

第二点是夙昔视频大模子如何能够完毕大肆机位、大肆角度。

刻下拍电影、拍记录片可以拿入辖下手机、录像机不断地晃,思奈何晃就奈何晃,这么是对镜头有果真戒指的。夙昔 AI 视频大模子,当先应该作念到这少量,相同的描写,换一下角度、换一个镜头,它的形象是不应该改换的,它即是相同一个物体。

更进一步讲,夙昔 AI 视频大模子还能颠覆好多行业。比如刻下看足球、看篮球赛,咱们看到的镜头是现场编导给咱们看的镜头。他给咱们看出息、近景。

夙昔能弗成依靠 AI 视频大模子,东谈主来戒指镜头,决定思要看哪,特别于在分解场里可以短暂迁徙,迁徙到造就席、临了一转、第一转。大肆机位、大肆角度的戒指。我合计夙昔 AI 视频大模子在这方面也口舌常重要的,天然天然 Video Ocean 刻下作念了一些尝试,初步后果一经可以的。

我合计第三点紧迫的是变装一致性。

因为作念出 AI 视频大模子,最终细目是需要产生营收、完毕变现的。谁会欢腾为这个付费,比如告白职责室、告白商、电商博主、影视行业。要是深切这些行业的话,一个重要点是变装一致性。

比如一个家具的告白,细目重新到尾这个视频中的衣着、鞋、车,边幅弗成有太大变化,物体变装保捏一致性。

拍一部电影,从开首到扫尾,主演的边幅、重要副角的边幅细目也弗成变化,在这方面 Video Ocean 也作念一些很好的探索。

再一个是立场的定制化。咱们知谈刻下演员东谈主工老本口舌常贵的,谈具老本也很高。

夙昔 3 年之内,要是 AI 视频大模子宽泛发展,我嗅觉会有一种需求,比如一个导演可以让一个演员在游池塘里拍一段戏,然后拿到素材通过 AI 将它转成泰坦尼克场景下的游水,转成阿凡达场景下的游水,这种能力反而是 AI 最擅长的。赋予电影感、艺术感的画面。

总之大模子一个平直的专揽价值即是冲破实际的限制,能够极大裁减果真场景复现的难度。

可能之前全球听过一个段子,好莱坞导演思制造一个爆炸镜头,他算了一下预算,第一种决议是盖一个城堡把它炸掉,第二个决议是用规划机模拟这个画面。老本算下来之后,发现这两种决议的老本都很高,那时用规划机模拟的老本更高,刻下 AI 即是要大幅裁减大模子关于生成电影的老本。

要是这少量完毕后,咱们可以不受场地、天气等外部要素的限制,并减少对果真演员的依赖。这倒不是抢演员的饭碗,因为一些重要镜头口舌常危境的,比如演员跳飞机、跳楼,演员去拯救行将引爆的炸弹之类,这种镜头夙昔只需要演员的身份和肖像权,AI 可以把这么的镜头作念好,是以对电影行业能够极大作念到降本增效。

正如昆仑万维方汉敦朴刚才说的,天然咱们的规划资源有限,然则咱们发现通过更好的算法优化如实能够训出更好的后果,比如 Meta 使用 6000 多个 GPU 磨砺 30B 的模子,最近咱们会在一个月内发一个 10B 版的模子,咱们仅用了 256 卡。

Video Ocean 前身是咱们团队先打造了一个Open-Sora的开源家具,这个开源家具是足够免费的,在 Github 上,后果相配可以,比如好意思国独角兽 Lambda labs 作念了一个火爆的专揽数字乐高,其实这个数字乐高即是基于 Open-Sora 作念的。

本年事首 Sora 出来之后,各式短视频巨头都对视频大模子这一块相比敬爱,比如中国的快手、抖音,好意思国即是 Instagram、TikTok、SnapChat,这可以看到 SnapChat 的视频模子也在早些时候发布了,叫 Snap Video,这是它的官方论文,他们就援用了咱们磨砺视频大模子的本事,是以说这些本事也匡助一些巨头着实把视频大模子训得更快,精度更高,智能进程更高。

谢谢全球!

官网:www.xtyc1818.com

关注我们

邮箱:0e376918@outlook.com

Powered by 万博manbext体育官网(中国)官方网站登录入口 RSS地图 HTML地图


万博manbext体育官网(中国)官方网站登录入口-现金万博manbext体育官网app平台那时全国上最大的模子一经 BERT-万博manbext体育官网(中国)官方网站登录入口