虚拟试穿技术

LaDI-VTON

2023年 Davide Morelli 等人提出的 LaDI-VTON 实现了虚拟试穿的重大突破，这是首个基于潜在扩散模型的文本反转增强虚拟试穿模型。

模型架构改进

LaDI-VTON 在传统潜在扩散模型基础上新增了一个自动编码器模块，并巧妙运用可学习的跳跃连接，确保在生成虚拟试穿图像时，精准呈现衣物的外观，同时保持人体的关键特征和姿势。

文本反转组件

该组件通过 CLIP 模型的视觉编码器提取衣物特征，并预测出细粒度的伪单词标记嵌入（PTEs），在生成过程中充分保留衣物细节，为用户呈现更真实的虚拟试穿效果。

2023年 GPD-VVTO（Garment-Preserving Diffusion for Video Virtual Try-On）专为视频虚拟试穿设计，采用高效的两阶段框架结构。

第一阶段：单帧训练

通过 DINOv2 编码器提取的全局语义特征和 U-Net 衣物编码器提取的密集特征，实现全局语义与局部图像的有效融合，确保单帧图像的高质量，为后续视频生成奠定基础。

第二阶段：视频微调

模型通过 GTA 模块加强衣物的时间一致性，以人体视频特征作为查询，使生成的视频虚拟试穿更加自然逼真，提升了用户体验。

2024年 Siqi Wan 等人提出的 GarDiff 模型引入了独特的 CLIP 和 VAE 编码作为外观先验的集成方法。

模型重塑与先验集成

通过 VAE 和 CLIP 的双先验输入方式，GarDiff 在生成虚拟试穿图像时，全面整合了衣物的整体和局部特征，从而大幅提升了图像质量。

外观损失定义

GarDiff 定义的复合适应损失由空间感知损失和高频促进损失组成，通过边缘检测强化图像的高频细节生成，实现了更精确的衣物图案还原。

随着潜在扩散模型的不断发展，虚拟试穿技术在时尚设计、电子商务、医疗、影视制作等多个领域的应用潜力日益增强，有望带来更多创新和变革。