2023年 Davide Morelli 等人提出的 LaDI-VTON 实现了虚拟试穿的重大突破,这是首个基于潜在扩散模型的 文本反转增强虚拟试穿模型。
模型架构改进
LaDI-VTON 在传统潜在扩散模型基础上新增了一个 自动编码器模块,并巧妙运用可学习的跳跃连接,确保在生成虚拟试穿图像时,精准呈现衣物的外观,同时保持人体的关键特征和姿势。
文本反转组件
该组件通过 CLIP 模型的视觉编码器提取衣物特征,并预测出细粒度的伪单词标记嵌入(PTEs),在生成过程中充分保留衣物细节,为用户呈现更真实的虚拟试穿效果。
2023年 GPD-VVTO(Garment-Preserving Diffusion for Video Virtual Try-On)专为视频虚拟试穿设计,采用高效的 两阶段框架结构。
第一阶段:单帧训练
通过 DINOv2 编码器提取的全局语义特征和 U-Net 衣物编码器提取的密集特征,实现全局语义与局部图像的有效融合,确保单帧图像的高质量,为后续视频生成奠定基础。
第二阶段:视频微调
模型通过 GTA 模块 加强衣物的时间一致性,以人体视频特征作为查询,使生成的视频虚拟试穿更加自然逼真,提升了用户体验。
2024年 Siqi Wan 等人提出的 GarDiff 模型引入了独特的 CLIP 和 VAE 编码作为外观先验的集成方法。
模型重塑与先验集成
通过 VAE 和 CLIP 的双先验输入方式,GarDiff 在生成虚拟试穿图像时,全面整合了衣物的整体和局部特征,从而大幅提升了图像质量。
外观损失定义
GarDiff 定义的复合适应损失由 空间感知损失 和 高频促进损失 组成,通过边缘检测强化图像的高频细节生成,实现了更精确的衣物图案还原。
随着潜在扩散模型的不断发展,虚拟试穿技术在 时尚设计、电子商务、医疗、影视制作 等多个领域的应用潜力日益增强,有望带来更多创新和变革。