
新浪科技讯 2月25日晚间音问开云kaiyun.com,阿里云晓谕旗下视觉生成基座模子万相2.1(Wan)开源,这次开源接管最宽松的Apache2.0合同,14B和1.3B两个参数规格的一起推理代码和权重一起开源,同期守旧文生视频和图生视频任务,公共建树者可在Github、HuggingFace和魔搭社区下载体验。
据先容,14B万相模子在提示撤职、复杂分解生成、物理建模、笔墨视频生成等方面施展隆起,在泰斗评测集VBench中,万相2.1以总分86.22%的收获越过Sora、Luma、Pika等国表里模子,稳居榜首位置。1.3B版块测试成果不仅跳跃了更大尺寸的开源模子,以致还接近部分闭源模子,同期能在销耗级显卡起先,仅需8.2GB显存就不错生成高质地视频,适用于二次模子建树和学术盘问。
在算法贪图上,万相基于主流DiT架构和线性噪声轨迹Flow Matching范式,研发了高效的因果3D VAE、可彭胀的预推行计谋等。以3D VAE为例,为了高效守旧纵情长度视频的编码息争码,万相在3D VAE的因果卷积模块中结束了特征缓存机制,从而代替平直对长视频端到端的编解码经过,结束了无穷长1080P视频的高效编解码。此外,通过将空间降采样压缩提前,在不耗费性能的情况下进一步减少了29%的推理时内存占用。
万相团队的实验成果披露,在分解质地、视觉质地、作风和多主义等14个主要维度和26个子维度测试中,万相均达到了业界最先施展,何况斩获5项第一。(文猛)

包袱剪辑:何俊熹 开云kaiyun.com