Glossario Stable Diffusion - Stable-Diffusion.org

Checkpoint: File che contiene i pesi del modello di Stable Diffusion, rappresentando una versione specifica del modello.

CFG Scale (Classifier-Free Guidance): Parametro che controlla quanto strettamente il modello segue il prompt testuale.

CLIP (Contrastive Language-Image Pre-training): Modello di OpenAI utilizzato da Stable Diffusion per comprendere il testo e associarlo a concetti visivi.

Diffusione: Processo matematico che gradualmente trasforma rumore casuale in un’immagine strutturata.

Embedding: Rappresentazione numerica di concetti (come parole o stili) in uno spazio matematico comprensibile dal modello.

Fine-tuning: Processo di ri-addestramento di un modello esistente su nuovi dati per specializzarlo in un compito o stile specifico.

Img2img: Tecnica per generare nuove immagini partendo da un’immagine esistente anziché da rumore casuale.

Inpainting: Tecnica per modificare parti specifiche di un’immagine mantenendo il resto intatto.

Latent space: Spazio matematico compresso in cui Stable Diffusion elabora le immagini prima di convertirle in pixel.

LoRA (Low-Rank Adaptation): Metodo efficiente per creare adattamenti personalizzati di Stable Diffusion con set di dati relativamente piccoli.

Prompt: Descrizione testuale che guida il modello nella generazione dell’immagine.

Prompt negativo: Descrizione di elementi che si desidera evitare nell’immagine generata.

Sampler: Algoritmo che determina come il rumore viene rimosso durante la generazione dell’immagine.

Seed: Valore numerico che inizializza il generatore di numeri casuali, determinando il punto di partenza nel processo di diffusione.

Steps: Numero di iterazioni eseguite nel processo di diffusione.

Textual Inversion: Tecnica per insegnare a Stable Diffusion nuovi concetti o stili usando pochi esempi.

Upscaling: Processo per aumentare la risoluzione di un’immagine generata, spesso utilizzando modelli di IA specializzati.

VAE (Variational Autoencoder): Componente di Stable Diffusion responsabile della codifica e decodifica delle immagini da e verso lo spazio latente.