Difúzne modely tvoria obrázky postupne viacerými krokmi. AI na tréning využije obrázky s deskriptívnymi popismi a inými metaúdajmi, ktoré jej pomáhajú lepšie pochopiť kontext a význam ukrytý za obrázkami, aby dokázala presne reagovať na zadávané príkazy.
Praktická stránka fungovania týchto modelov vyzerá tak, že vezmú náhodný obrázok a zakódujú ho poľom s náhodným šumom, čím ho zničia, vysvetľuje v príspevku na blogu odborník na fungovanie AI Jay Alammar. Tento proces sa nazýva "progresívna difúzia" a je kľúčovým krokom v procese, ktorým sa AI učí. Následne prebieha až 100 krokov čistenia šumu – tento proces sa označuje ako "spätná difúzia" a vzniká ním obrázok vytvorený na základe textového príkazu.
Vedci využili DMD pri spätnej difúzii a všetky kroky, ktoré v rámci nej prebiehali, spojili do jedného, čím sa im podarilo urýchliť vytvorenie obrázku. Pri jednom z pokusov použili nástroj Stable Diffusion vo verzii 1.5 a dosiahli skrátenie zobrazenia z 2590 milisekúnd (2,59 sekundy) na 90 milisekúnd, teda takmer 30-násobne menej.