Model dyfuzyjny, model rozpraszający[1] – klasa modeli generatywnych opartych na zmiennych utajonych. Model dyfuzji składa się z trzech głównych komponentów: procesów dyfuzji w przód i wstecz oraz procedury próbkowania[2][3].
Na rok 2024, modele dyfuzyjne są używane głównie w zadaniach rozpoznawania obrazów, w tym generowaniu obrazów, usuwaniu szumu czy tworzeniu superrozdzielczości[4][5].
Generatory obrazów oparte na modelu dyfuzji – takie jak Stable Diffusion czy DALL-E – są najbardziej znanymi projektami opartymi na modelu dyfuzyjnym. Projekty te zazwyczaj łączą modele dyfuzyjne z innymi modelami, takimi jak osadzanie słów czy mechanizm uwagi, aby zapewnić generowanie obrazu z tekstu[6].
Modele dyfuzji znalazły zastosowanie także w zadaniach przetwarzania języka naturalnego[7][8]: generowaniu tekstu[9][10] i podsumowywaniu go[11], generowaniu dźwięku[12] czy uczeniu przez wzmacnianie[13][14].
Przypisy
[edytuj | edytuj kod]- ↑ Aurélien Géron , Uczenie maszynowe z użyciem Scikit-Learn, Keras i TensorFlow, Krzysztof Sawka (tłum.), Gliwice: Helion, 2023, s. 601, ISBN 978-83-8322-423-7 [dostęp 2025-04-22] (pol.).
- ↑ Ziyi Chang , George Alex Koulieris , Hubert P.H. Shum , On the Design Fundamentals of Diffusion Models: A Survey, arXiv, 19 października 2023, DOI: 10.48550/arXiv.2306.04542 [dostęp 2025-04-22] .
- ↑ Aayush Mittal , Zrozumienie modeli dyfuzji: Głębokie zanurzenie w generatywnej sztucznej inteligencji [online], Unite.AI, 30 sierpnia 2024 [dostęp 2025-04-22] (pol.).
- ↑ Yang Song i inni, Score-Based Generative Modeling through Stochastic Differential Equations, arXiv, 10 lutego 2021, DOI: 10.48550/arXiv.2011.13456 [dostęp 2025-04-22] .
- ↑ Shuyang Gu i inni, Vector Quantized Diffusion Model for Text-to-Image Synthesis, arXiv, 3 marca 2022, DOI: 10.48550/arXiv.2111.14822 [dostęp 2025-04-22] .
- ↑ openai/glide-text2im, OpenAI, 21 kwietnia 2025 [dostęp 2025-04-22] .
- ↑ Shen Nie i inni, Scaling up Masked Diffusion Models on Text, arXiv, 28 lutego 2025, DOI: 10.48550/arXiv.2410.18514 [dostęp 2025-04-22] .
- ↑ Yifan Li i inni, Diffusion Models for Non-autoregressive Text Generation: A Survey, arXiv, 13 maja 2023, DOI: 10.48550/arXiv.2303.06574 [dostęp 2025-04-22] .
- ↑ Xiaochuang Han , Sachin Kumar , Yulia Tsvetkov , SSD-LM: Semi-autoregressive Simplex-based Diffusion Language Model for Text Generation and Modular Control, arXiv, 26 czerwca 2023, DOI: 10.48550/arXiv.2210.17432 [dostęp 2025-04-22] .
- ↑ Weijie Xu i inni, DeTiME: Diffusion-Enhanced Topic Modeling using Encoder-decoder based LLM, arXiv, 23 grudnia 2023, DOI: 10.48550/arXiv.2310.15296 [dostęp 2025-04-22] .
- ↑ Haopeng Zhang , Xiao Liu , Jiawei Zhang , DiffuSum: Generation Enhanced Extractive Summarization with Diffusion, arXiv, 11 maja 2023, DOI: 10.48550/arXiv.2305.01735 [dostęp 2025-04-22] .
- ↑ Dongchao Yang i inni, Diffsound: Discrete Diffusion Model for Text-to-sound Generation, arXiv, 28 kwietnia 2023, DOI: 10.48550/arXiv.2207.09983 [dostęp 2025-04-22] .
- ↑ Michael Janner i inni, Planning with Diffusion for Flexible Behavior Synthesis, arXiv, 21 grudnia 2022, DOI: 10.48550/arXiv.2205.09991 [dostęp 2025-04-22] .
- ↑ Cheng Chi i inni, Diffusion Policy: Visuomotor Policy Learning via Action Diffusion, arXiv, 14 marca 2024, DOI: 10.48550/arXiv.2303.04137 [dostęp 2025-04-22] .