OOTDiffusion:支援半身、全身的開源的高解析度虛擬試穿模型

Home » OOTDiffusion:支援半身、全身的開源的高解析度虛擬試穿模型

OOTDiffusion 是基於擴散模式(Latent Diffusion)的虛擬試穿系統。它使用先進的服飾融合技術,將衣物影像與人物影像無縫結合,為虛擬試穿提供高度可控的解決方案。

它可以將一件衣服「穿」到任何人物身上,讓你看到穿上去後的樣子。例如,想看看某件T卹穿在自己身上的效果,它可以自動幫你產生逼真的試穿圖片。

該系統適用於各種場景,包括時尚設計、電商平台以及個人化虛擬試穿需求。

影片播放器
它解決了什麼問題?
更真實的試穿效果:
以前很多虛擬試穿技術產生的圖片不夠自然,例如衣服的褶皺、光影效果不對,看起來很假。
OOTDiffusion 能產生更真實的效果,衣服紋理、圖案和細節都能保留得很好。
省去了複雜的操作:
傳統方法要先把衣服變形、調整才能搭配人物,操作複雜,效果還容易失真。
它不需要這個步驟,直接讓衣服「貼合」到目標人物上,既快又準。
使用者能控制試穿效果:
使用者可以調整參數,例如讓衣服的細節更清晰,或讓它自然地融入圖片。
最近更新內容
ONNX 支援:
新增了對 ONNX 模型 的支持,用於人像分割(Human Parsing)。
這項改進優化了模型的兼容性和運行效率,解決了許多環境問題。
模型權重發布:
發布了基於以下資料集訓練的模型權重:
VITON-HD:半身虛擬試穿模型。
Dress Code:全身虛擬試穿模型。
影片播放器
主要功能
1. 虛擬試穿
半身試穿:
模型專為 VITON-HD 資料集設計,支援半身衣物(如上衣)的試穿效果。
全身試穿:
針對 Dress Code 資料集,支援全身服裝(包括上身、下身及洋裝)的虛擬試穿。
服裝類別可訂製:0 表示上衣、1 表示下裝、2 表示洋裝。
生成效果真實:
細節保留:衣服上的圖案、文字、褶皺和顏色都會完整展現。
自然融合:衣服和人體形狀貼合,光影效果自然,看起來像真人穿著。
高解析度生成
支援 1024×768 的高品質圖片,適合電商展示和設計需求。
2. 高精度服飾融合
自動服裝與人體對齊
根據人物姿勢和體型,智慧調整服裝形狀和位置,無需手動變形。
基於擴散模型的潛在空間生成:
透過潛在擴散技術,將服飾與人物影像進行高精度融合。
確保試穿效果自然,保留人物原始結構與姿態。
利用 OpenPose 和人像分割技術(Human Parsing),實現人體與服裝的精準對齊。
3. 模型與工具支持
提供預訓練模型,支援以下功能:
人像分割:精準分割人物與背景。
服裝試穿:依照使用者輸入產生試穿效果。
姿態辨識:透過 OpenPose 偵測人體姿態。
支援 ONNX 模型最佳化,提高分割和生成效率。
4. 可控生成
使用者可透過參數控制產生結果:
縮放比例(Scale):調整服裝的尺寸。
採樣次數(Sample):增加生成細節。
服裝類別:指定衣物類型(上衣、下裝或洋裝)。
5. 跨平台運行
適配 Linux 系統,程式碼和模型運行在 Ubuntu 22.04 上。
提供簡單的安裝腳本和指令,快速搭建試穿環境。
使用場景
時尚與電商
為線上購物平台提供虛擬試穿功能,增強使用者體驗。
幫助時尚品牌展示新款服飾。
個人化體驗
提供個人化虛擬試穿服務,讓使用者嘗試不同服裝搭配。
研究與開發
作為服飾試穿領域的研究工具,探索擴散模式的應用。
OOTDiffusion 的技術方法
OOTDiffusion 是透過先進的人工智慧技術來實現虛擬試穿的,它的核心技術包括 擴散模型 和 服裝與人體的融合演算法。以下是它的主要技術方法及工作原理,用簡單的語言解釋。

1. 擴散模型(Latent Diffusion Model, LDM)
這是 OOTDiffusion 的核心技術,用來產生高品質的影像。

它是怎麼運作的?
圖像生成的核心思想:
模型先生成一張模糊的圖像,然後一步步去除噪聲,讓它變得清晰。
就像從一張打了馬賽克的圖片,逐漸還原到高畫質圖片。
為什麼用擴散模型?
它生成的圖像更逼真,可以很好地保留衣服的紋理、顏色和細節,例如褶皺、花紋。
2. 服裝與人體的智慧融合
OOTDiffusion 有特別的方法叫做 Outfitting Fusion(服裝融合),用來讓衣服和人體自然結合。

它是怎麼做的?
服裝與人體的細節分析:
模型會先分析人體的形狀和衣服的特點,例如人的姿勢、手臂的位置,以及衣服的大小、紋理等。
智慧對齊:
用一種叫「自註意力機制」的方法,讓衣服自動貼合到人體上,例如衣袖貼合手臂,衣領跟著脖子調整。
不需要傳統的“變形工具”,避免衣服看起來不自然。
3. 服裝特質的學習
OOTDiffusion 專門設計了一個 Outfitting UNet 模型,用來學習衣服的所有細節。

它能學到什麼?

衣服的紋理和圖案:例如衣服上的花紋、文字不會模糊丟失。
顏色和光影:確保衣服在不同人體上光影自然,顏色不會偏差。
為什麼特別?

它一步就能完成所有特徵的學習與融合,比傳統的多步驟方法更有效率。
4. 服裝隨機丟棄(Outfitting Dropout)
為了讓模型生成更靈活,OOTDiffusion 在訓練時會「故意給模型出難題」。

怎麼出難題?

隨機丟掉一部分衣服特徵:
模型有時會只用部分衣服資訊來產生試穿效果。
這樣,模型可以學習如何在資訊缺失時依然生成高品質的影像。
有什麼好處?

增強了模型的控制能力,使用者可以透過調整參數,控制試穿結果中的服裝細節強度。
5. 輔助技術:人體分割與姿勢偵測
為了準確地把衣服「穿」到照片中,系統使用了以下技術:

人體分割(Human Parsing):
把人體分成不同的區域(如頭、手臂、腿),方便衣服和人體的配對。
姿態偵測(OpenPose):
辨識人體的姿勢,例如手臂是抬起還是下垂,從而調整衣服的形狀。
6. 高解析度影像生成
使用預先訓練的 Stable Diffusion 模型(一個強大的擴散模型)作為基礎。
針對高解析度的 VITON-HD 和 Dress Code 資料集進行最佳化訓練,產生解析度高達 1024×768 的影像。
技術總結
擴散模型:讓影像生成更逼真。
服裝融合:自然地把衣服和人體結合。
特徵學習:保留衣服的所有細節和顏色。
隨機丟棄:增強彈性,讓產生結果可控。
人體檢測:精準辨識人體形狀和姿勢,提升衣服的貼合度。
一句話總結:OOTDiffusion 使用智慧 AI 方法,不僅產生效果真實,還能讓衣服看起來和人體完全貼合,真正實現「試穿」的體驗。

返回頂端