在當今這個人工智慧(AI)盛行的時代,計算機通過漫長而複雜的過程,能夠迭代地在嘈雜的初始狀態下逐步添加結構,直到清晰的圖像或視頻浮現。這一過程背後涉及到的是一種名為“擴散模型”的技術,它已經突然成為眾人關注的焦點。輸入幾個單詞,即可經歷在現實與幻想交匯處即時出現的、能迅速提升多巴胺水平的夢幻景象。
然而,麻省理工學院計算機科學與人工智能實驗室(MIT CSAIL)的研究人員提出了一種新的框架,將傳統擴散模型中的多步驟過程簡化為單一步驟,同時保持或增強了圖像質量。這一方法,稱為分布匹配蒸餾(DMD),通過一種教師-學生模型實現:教導一個新的計算機模型模仿更複雜的原始模型生成圖像的行為。這種方法不僅大大減少了計算時間,還保留了甚至超越了生成視覺內容的質量。
文章大鋼
人工智慧與圖像生成的新紀元
加速圖像生成
MIT的研究團隊指出,他們的工作是一種新的方法,能夠使像穩定擴散(Stable Diffusion)和DALL-E-3這樣的當前擴散模型加速30倍。這一進步不僅顯著減少了計算時間,而且在保留甚至超越了生成視覺內容的質量。從理論上講,這種方法將生成對抗網絡(GANs)的原則與擴散模型的原則結合在一起,實現了單步驟的視覺內容生成——與當前擴散模型所需的數百步迭代精煉形成了鮮明對比。
潛在的應用前景
這種單步驟擴散模型可以增強設計工具,使內容創建更加迅速,並可能支持藥物發現和3D建模等領域的進步,其中迅速和效率是關鍵。
DMD框架的關鍵組件
穩定訓練與匹配分佈
DMD有兩個組件。首先,它使用回歸損失,確保映射的粗略組織,使訓練更加穩定。接著,它使用分佈匹配損失,確保用學生模型生成給定圖像的概率與其在真實世界中的出現頻率相對應。為此,它利用兩個擴散模型作為指導,幫助系統理解真實與生成圖像之間的差異,使得訓練快速的單步驟生成器成為可能。
實現快速生成
通過訓練一個新網絡來最小化其生成圖像與傳統擴散模型使用的訓練數據集之間的分佈差異,系統實現了更快的生成。研究團隊使用了預訓練的網絡作為新的學生模型,簡化了過程。通過從原始模型復制和微調參數,團隊實現了新模型的快速訓練收斂,該模型能夠在相同的架構基礎上產生高質量圖像。
與傳統方法的對比
挑戰與機遇
在對抗常規方法進行的廣泛範圍的基準測試中,DMD表現出一致的性能。在基於ImageNet特定類別生成圖像的流行基準測試中,DMD是第一個能夠產生與原始更複雜模型幾乎相當的圖像的單步驟擴散技術,其Fréchet inception distance (FID)得分僅為0.3,這一分數令人印象深刻,因為FID是關於判斷生成圖像的質量和多樣性的。此外,DMD在工業規模的文本到圖像生成中表現優異,實珀了最先進的單步驟生成性能。然而,在處理更棘手的文本到圖像應用時仍存在一些質量差距,這表明未來還有改進的空間。
此外,DMD生成圖像的性能與用於蒸餾過程中的教師模型的能力密切相關。在目前的形式中,使用穩定擴散v1.5作為教師模型,學生繼承了一些限制,比如渲染細節豐富的文本和小臉部的挑戰,這表明通過更先進的教師模型,DMD生成的圖像可以進一步增強。
結語與展望
減少迭代次數自擴散模型問世以來就一直是其研究的聖杯。MIT團隊的這項工作終於實現了單步驟圖像生成,這將顯著降低計算成本並加速過程。這項成就不僅為快速高質量的視覺內容創建開辟了新的可能性,也為高質量實時視覺編輯打開了奇妙的大門,期待未來在這一領域的進一步突破和應用。
常見問題與答覆
1. 分布匹配蒸餾(DMD)是如何加速圖像生成過程的?
DMD通過將傳統擴散模型中的多步驟過程簡化為單一步驟來加速圖像生成。它利用一種教師-學生模型,讓一個新的計算機模型模仿更複雜的原始模型生成圖像的行為,從而實現了在保持或增強圖像質量的同時,大幅減少計算時間。
2. DMD技術的應用前景有哪些?
DMD技術有望被應用於加速設計工具的內容創建,支持藥物發現和3D建模等領域的進步。它的快速和高效能力使其成為提升創新速度和質量的有力工具。
3. 為什麼DMD還存在質量差距?
雖然DMD在許多方面表現優異,但在處理更棘手的文本到圖像應用時仍存在一些質量差距。這主要是因為DMD生成圖像的性能與用於蒸餾過程中的教師模型的能力密切相關,而目前的教師模型在某些細節的渲染上仍有限制。未來通過更先進的教師模型,可以進一步提升DMD的性能。