计算机行业:Sora技术深度解析-华福证券-20240225.pdf

计算机行业:Sora技术深度解析-华福证券-20240225.pdf

这份华福证券的研究报告对OpenAI推出的文生视频大模型Sora进行了深度解析。

报告认为,Sora的出现引领了多模态产业的革命,它能够根据文本指令或静态图像生成1分钟的视频,并在视频保真度、长度、稳定性、一致性、分辨率和文字理解等方面都做到了业内领先水平。Sora的技术博采众长,视频生成过程大致由“视频编码+加噪降噪+视频解码”三个步骤组成,其中视频压缩网络、时空patches、transformer架构和视频数据集等技术发挥了重要作用。

报告重点分析了Sora的关键技术:

  • 视频压缩网络:Sora的自编码器能够直接压缩视频,节省算力资源,并保留视频原始信息。
  • 时空patches:能够捕捉视频中细微的动作和变化,突破视频分辨率、长宽比等限制,提升模型性能。
  • Transformer架构:突显Scaling Law下的“暴力美学”,通过大规模训练逐步显现规模效应,迸发模型的涌现能力。
  • 视频数据集:Sora可能采用了更丰富的视频数据集,利用re-captioning技术和GPT保障数据质量。

报告认为,在视频压缩网络与时空patches提高计算效率与利用原生视频信息的基础上,transformer架构有望取代U-Net成为扩散模型的主流架构。Transformer需要更强大的算力支持,因此算力有望成为确定性最高的受益赛道。同时,Sora的发布也有望形成多模态产业“鲇鱼效应”,激励其他多模态厂商的良性发展。

报告建议关注:

  1. AI算力:云赛智联、思特奇、恒为科技、海光信息、寒武纪、景嘉微、中科曙光、浪潮信息等。
  2. AI+多模态:万兴科技、虹软科技、当虹科技、中科创达、大华股份、海康威视等。

报告提示了技术发展不及预期、产品落地不及预期以及AI伦理风险等风险。总的来说,报告对Sora的技术特点、优势和潜在影响进行了全面的分析,并提出了相关的投资建议。

在线阅读 下载完整报告 | 3.46 MB | 21页
阅读和下载会消耗积分;登录、注册、邀请好友、上传报告可获取积分。
成为VIP会员可免费阅读和下载报告