东方财富网 > 研报大全 > 行业研报正文

AI模型系列报告:从世界模型看算力需求变化

www.eastmoney.com 国金证券 刘道明 查看PDF原文



名称 相关 涨跌幅



名称 相关 净流入(万)

  核心观点

  Sora是第一个表现出"涌现"能力的视频生成模型:随着模型规模增大而出现“理解世界”的能力。虽然许多LLM,如ChatGPT和GPT-4,表现出涌现能力,但在Sora出现之前,展示类似能力的视觉模型一直很少。根据Sora的技术报告,它是第一个表现出确认的涌现能力的视觉模型,标志着计算机视觉领域的一个重要里程碑。

  Sora的成功源于Diffusion Transformer架构的引入,和过去多年高质量数据的积累。

  从架构上看,视频生成模型的技术路线开始收敛,Sora的Diffusion Transformer架构证实了有效scale-up也即是增加算力能够对提升视频生成的精细度和效果,是视频生成领域的"GPT-3时刻"。类似于GPT-3证明了更大的训练量、模型参数量、Token数量,训练效果越好。引入了Transformer的Sora也表现出了同样的趋势,OpenAI进行了32x训练量和1x、4x训练量的对比,从结果上看,32x训练量的生成效果远远强于1x和4x的生成效果。在Sora发布后Google、Snap也发布了采用类似技术的视频生成模型,确定了Diffusion Transformer的视频生成路线,并且算力的需求会大大提升。

  从数据上看,高质量的数据对视频生成模型的训练至关重要,Sora利用自有工具增强训练数据集与提示工程。OpenAI训练了专用的视频字幕模型来为视频生成详细描述,生成高质量的视频-字幕对,用于微调Sora以提高其指令跟随能力。同时为了确保用户提示与训练数据中这些描述性标题的格式保持一致,Sora执行了一个额外的提示扩展步骤,即调用GPT-4V模型将用户输入扩展到详细的描述性提示。

  我们认为,随着Diffusion Transformer类模型大量应用于图像及视频生成,推理需求将大幅增加,与LLM推理更需要内存带宽的资源需求不同,视觉模型推理将对芯片本身算力和内存容量提出更高要求。Sora的DiT和大语言模型在推理时的逻辑不同,Diffusion需要约20Steps优化过程,每次均是计算的完整的patch,访存需求也会大大下降,从LLM推理的访存密集型场景转变成算力密集型场景。

  Sora高质量的视频生成对影视和游戏行业的影响是最直接而深远的,降低制作门槛并且很有可能重塑影视和游戏制作的流程与格局。高质量的视频生成对于影视行业的工作流会有深远的影响,前期可以替代掉分镜以及概念片制作,后期可以取代部分特效制作。对于游戏行业,游戏开发人员可能会使用它来生成自定义的视觉效果,甚至是从玩家叙述中生成角色动作。

  风险提示

  模型架构的大幅改变影响算力需求分布

  算力速度发展不及预期

  中美科技领域政策恶化

郑重声明:东方财富发布此内容旨在传播更多的信息,与本站立场无关,不代表东方财富观点。建议用户在阅读研报过程中,请认真仔细阅读研报里的风险提示、免责声明、重要声明等内容,用户据此操作风险自担。
文中涉及到的个股
最新研究报告
热门个股评级一览
个股未来3年盈利预测
个股财务指标排行榜
以下数据基于个股最新报告期
热门行业追踪

数据来源:东方财富Choice数据

郑重声明:东方财富网发布此信息的目的在于传播更多信息,与本站立场无关。东方财富网不保证该信息(包括但不限于文字、视频、音频、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关信息并未经过本网站证实,不对您构成任何投资建议,据此操作,风险自担。

信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-61278686 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:4000300059/952500