Caricamento...

Blog tecnologia e informatica Ideageek Logo Blog tecnologia e informatica Ideageek

Deep Learning: come impara l'intelligenza artificiale

03/07/2026

Deep Learning: come impara l'intelligenza artificiale

Comprendere come una rete neurale profonda acquisisce la capacità di riconoscere un volto, tradurre una frase o prevedere la struttura tridimensionale di una proteina richiede di abbandonare l'idea che il deep learning e, più in generale, l'intelligenza artificiale funzionino per istruzioni esplicite. Non si tratta di un sistema a cui vengono fornite regole da seguire: si tratta di un processo di ottimizzazione iterativa in cui milioni — talvolta miliardi — di parametri numerici vengono aggiustati progressivamente fino a che l'output del modello si avvicina il più possibile a quello desiderato. La differenza rispetto alla programmazione tradizionale è strutturale, non superficiale.

Quello che si chiama "apprendimento" in questi sistemi è, a tutti gli effetti, una minimizzazione di una funzione di errore attraverso un algoritmo chiamato discesa del gradiente, applicato su architetture composte da strati successivi di unità computazionali — i neuroni artificiali — che trasformano i dati in ingresso mediante operazioni di somma pesata e funzioni di attivazione non lineari. Ogni strato elabora una rappresentazione del dato sempre più astratta rispetto allo strato precedente: i primi strati di una rete per il riconoscimento di immagini imparano a rilevare bordi e contrasti, quelli intermedi forme e texture, quelli finali concetti come "occhio" o "ruota". Questa gerarchia di rappresentazioni è ciò che distingue il deep learning dai metodi di machine learning più semplici.

Nel 2026, dopo oltre un decennio di applicazioni industriali su larga scala, il deep learning rimane la spina dorsale della maggior parte dei sistemi di intelligenza artificiale deployed in produzione, dai modelli linguistici di grandi dimensioni ai sistemi di visione artificiale per la diagnostica medica, dai motori di raccomandazione alle reti generative per la sintesi di audio e video. Capire cosa avviene realmente durante l'addestramento — non in modo metaforico, ma meccanicistico — è indispensabile per chiunque lavori con questi strumenti a livello progettuale o applicativo.

Architettura delle reti neurali profonde e propagazione del segnale

Una rete neurale profonda è, formalmente, una funzione parametrica composta: prende in ingresso un vettore di numeri reali — la rappresentazione numerica di un'immagine, di una sequenza di testo, di un segnale audio — e produce in uscita un altro vettore, che può rappresentare una distribuzione di probabilità sulle classi possibili, un'embedding, o direttamente un valore predetto. Ogni strato della rete applica una trasformazione affine ai dati in ingresso (moltiplicazione per una matrice di pesi, aggiunta di un vettore di bias) seguita da una funzione di attivazione non lineare; senza questa non linearità, la sovrapposizione di strati non aggiungerebbe capacità espressiva, poiché la composizione di trasformazioni lineari è ancora lineare. Le funzioni di attivazione più utilizzate oggi — ReLU, GELU, SiLU — introducono quella curvatura che permette alla rete di approssimare funzioni arbitrariamente complesse, secondo il teorema universale di approssimazione.

La propagazione in avanti (forward pass) percorre la rete dall'ingresso all'uscita, producendo una predizione; questa predizione viene confrontata con il valore target attraverso una funzione di perdita (loss function), che quantifica la distanza tra ciò che la rete ha prodotto e ciò che avrebbe dovuto produrre. La scelta della funzione di perdita non è neutrale: l'entropia incrociata è adatta alla classificazione, l'errore quadratico medio alla regressione, ma esistono funzioni specializzate per compiti come il ranking, la generazione di sequenze o l'allineamento di distribuzioni di probabilità. Il gradiente di questa funzione rispetto a ciascun parametro della rete — calcolato attraverso la backpropagation, ovvero l'applicazione della regola della catena per la derivazione di funzioni composte — indica la direzione in cui i pesi devono essere modificati per ridurre l'errore.

Il processo di addestramento: ottimizzazione, batch e iperparametri

L'addestramento di una rete neurale profonda consiste nell'eseguire ripetutamente questo ciclo — forward pass, calcolo della loss, backward pass, aggiornamento dei pesi — su porzioni del dataset chiamate minibatch; la dimensione del batch influenza sia la stabilità del gradiente stimato sia l'utilizzo della memoria GPU, ed è uno degli iperparametri che richiedono calibrazione empirica. L'algoritmo di ottimizzazione più diffuso nella pratica è Adam — o le sue varianti recenti come AdamW — che adatta il tasso di apprendimento per ciascun parametro in base alle statistiche dei gradienti passati, rendendo l'addestramento meno sensibile alla scelta manuale del learning rate rispetto alla discesa del gradiente stocastica pura.

Il numero di volte in cui l'intero dataset viene percorso durante l'addestramento si chiama epoca; addestrare per troppe epoche porta al fenomeno dell'overfitting, in cui la rete impara a memorizzare i dati di addestramento piuttosto che a generalizzare su dati nuovi. Le tecniche di regolarizzazione — dropout, weight decay, data augmentation, normalizzazione a strati — servono precisamente a mitigare questo rischio, introducendo rumore o penalizzazioni che scoraggiano la rete dall'adattarsi eccessivamente alle specificità del training set. La validazione su un insieme di dati separato dal training è lo strumento operativo per monitorare quando l'apprendimento smette di essere generalizzante.

Trasferimento dell'apprendimento e pre-addestramento su larga scala

Una delle scoperte più significative nell'evoluzione applicativa del deep learning nell'intelligenza artificiale è che le rappresentazioni apprese da una rete su un compito generico e su un dataset molto grande tendono a essere riutilizzabili su compiti specifici con dataset molto più piccoli; questo principio, noto come transfer learning, ha trasformato radicalmente il modo in cui i modelli vengono sviluppati in produzione. Anziché addestrare una rete da zero — operazione costosa in termini di dati, tempo e risorse computazionali — si parte da un modello pre-addestrato, come un grande modello linguistico o una rete vision addestrata su centinaia di milioni di immagini, e si esegue un fine-tuning sui dati del dominio specifico.

Il pre-addestramento su corpus di testo su scala web — pratica alla base di modelli come quelli della famiglia GPT, Llama o Gemini — avviene tipicamente attraverso un obiettivo di predizione del token successivo (next-token prediction): la rete impara a stimare la distribuzione di probabilità sulla parola seguente dato il contesto precedente, su miliardi di sequenze. Questo obiettivo apparentemente semplice costringe il modello a sviluppare rappresentazioni implicite di grammatica, semantica, fatti del mondo e strutture argomentative, che emergono come sottoprodotto della minimizzazione della loss — non come obiettivi esplicitamente programmati. Il fine-tuning successivo, spesso combinato con tecniche di allineamento come RLHF (Reinforcement Learning from Human Feedback), orienta poi il comportamento del modello verso risposte utili e coerenti con le aspettative umane.

Generalizzazione, distribuzione dei dati e limiti strutturali

La capacità di un modello di deep learning di generalizzare — ovvero di produrre output corretti su dati che non ha mai visto durante l'addestramento — dipende in modo critico dalla corrispondenza tra la distribuzione dei dati di training e quella dei dati in inferenza; quando questa corrispondenza viene meno, si parla di distribution shift, e le prestazioni possono degradare in modo imprevedibile e rapido. Questo è un problema concreto in ambiti come la diagnostica medica (dove i dati di addestramento provengono spesso da ospedali con apparecchiature o popolazioni specifiche), la guida autonoma (dove le condizioni stradali variano enormemente per geografia e meteo), o i sistemi di moderazione dei contenuti (dove il linguaggio e i contesti culturali evolvono continuamente).

Un limite strutturale del deep learning che rimane aperto — nonostante i progressi del 2024 e 2025 nella direzione dei modelli di ragionamento — è la difficoltà di acquisire conoscenza causale a partire da correlazioni statistiche: una rete addestrata a riconoscere pneumonie nelle radiografie può imparare a correlare la presenza di certi artefatti tecnici con la diagnosi, piuttosto che le caratteristiche radiologiche rilevanti, e comportarsi in modo corretto sui dati di test pur essendo fragile di fronte a variazioni dell'attrezzatura o del protocollo di acquisizione. L'interpretabilità dei modelli, e la capacità di verificare su quali feature si basi effettivamente una predizione, è un campo di ricerca attivo con strumenti come SHAP, LIME e le tecniche di probing dei layer interni.

Efficienza computazionale e hardware dedicato all'addestramento

L'addestramento di reti neurali profonde su scala industriale è diventato possibile grazie alla convergenza tra architetture di rete più efficienti, dataset di dimensioni prima impensabili e hardware specializzato — in particolare le GPU e, progressivamente, gli acceleratori dedicati come i TPU di Google o i chip custom di aziende come Cerebras e Groq. Le GPU sono adatte al deep learning perché le operazioni dominanti nell'addestramento — moltiplicazioni matriciali su batch di dati — sono intrinsecamente parallelizzabili: migliaia di core possono operare simultaneamente su porzioni diverse del calcolo, riducendo i tempi da settimane a ore per modelli di medie dimensioni.

L'efficienza dell'addestramento è migliorata anche a livello algoritmico, attraverso tecniche come la precisione mista (mixed precision training), che utilizza rappresentazioni a 16 bit anziché 32 bit per la maggior parte dei calcoli riducendo il consumo di memoria e aumentando la velocità, e la gradient checkpointing, che sacrifica tempo di calcolo per ridurre il footprint in memoria. Per i modelli più grandi, addestrare su una singola macchina è diventato impossibile: il parallelismo di dati, di modello e di pipeline su cluster di centinaia o migliaia di GPU è la norma per i frontier model, con tutte le complessità ingegneristiche che questo comporta in termini di sincronizzazione, comunicazione tra nodi e fault tolerance.

Annalisa Biasi Avatar
Annalisa Biasi

Autrice di articoli per blog, laureata in Psicologia con la passione per la scrittura e le guide How to