不学Sora？这家国产AI搞了个“无限续杯”的视频-首页

昱翔动态 NEWS

昱翔 > ai应用 >

发布时间：2025-04-28 14:29 | 阅读次数：次

　　我们对 sand。ai 团队进行了简单的采访，很侥幸获得了对 Magi-1 更专业、久远的解答。

　　另一方面，视频跟着时间的推移往往还有物理和逻辑的相关性。好比篮球若是被篮筐拦住，它就不会再掉落了。

　　其实，正在视频生成范畴卷到飞起的今天，sand。ai 看似迟到了，但正在上限更高的AR 视频生成上他们倒是先发而至。

　　并且场景理解自从上就越来越笼统了。除了克苏鲁风绿化带，提醒词让它正在红灯前刹车，本意，它间接来个交通惹事。

　　但若是我们把提醒词复制一遍，只删掉扇同党的要求，关掉提醒词加强，生成的视频结果立即好起来了。

　　不外。。Magi-1 仿佛有点健忘。好比前三段生成的视频都晓得车后是一面墙，成果第四段间接一个倒车摆尾漂移丝滑上了。

　　于是按照他们的说法，正在敌手艺全面而地阐发后，sand。ai 正在 AR 视频生成上下了注。

　　科技行业的每一次严沉开源，城市带来一场百花齐放。等候 sand。ai 将来的更多产物，以及更多团队正在 Magi-1 根本上的立异。

　　我们先找了个梦中情车的反面特写慢镜头，预备续写接下超驾驶 Lamborghini秋名山车神再世的画面。

　　这也侧面反映了，Magi-1 对于提醒词常并且要求很高的。想用好它，最好晓得什么样的提醒词才能让它出好活。

　　测试的过程中，我们发觉 Magi-1 对于活动速度和镜头的节制确实很优良。兰博基尼正在上疾驰的结果做出来了，镜头也很有片子感，一曲聚焦正在跑车上。

　　sand。ai 暗示，他们早正在 Sora 发布前就洞察到了 AR 模子正在视频生成方面的潜力。 AR，是由于它正在狂言语模子上曾经被是可扩展的 (scalable) ，而 scalable 正在很大程度上决定了这个手艺正在将来的上限。

　　但 sand。ai 相信 AR 会是将来。跟着手艺的不竭迭代，也许就会找到最合理的 AR 模子视频生成的体例。

　　AR 模子就像一条环环相扣的锁链，每一次生成视频的新一帧，都正在前一帧的根本上。如许生成的视频相邻帧之间就会有强相关性。

　　而 DiT 模子更像是放正在一路伪拆成锁链的一堆铁环。它为了效率会同时生成良多帧，但没有法子兼顾到帧取帧之间的联系关系。

　　DiT 每帧生成的体例可能会堵截这种联系关系，没准会让篮球间接魂穿篮筐。而 AR 会更好地舆解视频内容，不只内容合理，还会正在活动幅度、速度上表示得更好。

　　打开 Magi-1 的提醒词加强，它能够把简单的提醒词扩展成更细致、容易让模子理解的指令。但正在现实利用的时候，它呈现了添枝接叶，假传圣旨的现象。

　　要晓得现正在视频生成模子的极限遍及就几十秒，像可灵那样一分钟以上的都很少见。要生成更长的视频，那是别的的。。。别的的代价也不可，这是底层模子的手艺问题。

　　而Magi-1 支撑无限时长续写，还能够每次同时生成最多 16 个 1s 到 10s 的视频。sand。ai 还暗示，他们曾经正在 4 月 21 日开源了模子，并同步上线产物 demo。

　　正在强强联手的 buff 下，sand。ai 创立才一年多就有了本人的第一个视频生成模子 Magi-1。

　　连业界大佬都发文力挺 sand。ai，李开复发帖，这是继 DeepSeek 之后又一个开源的世界级模子。

　　理论上，AR 模子和言语模子的手艺线更接近，无机会让言语和视频同一建模，使文字和视频之间的关系就像现正在文生图一样慎密，结果有可能实现一次跃迁。

　　美团创始人王慧文也为 sand。ai 这波开源发声：“只要科技的不竭前行，强人类掉入零和逛戏的深坑。”！

　　听说 Magi-1 是现正在市道上唯逐个款能进行无限时长视频续写的模子，还能精细化节制到每一秒生成的内容。

　　创始人曹越和联创张拯早正在 2021 年的万引神文 Swin Transformer 就有合做，都曾就职于科技界的黄埔军校 —— 微软亚洲研究院。曹越仍是光年之外的创始人之一。