Ricerca nel sito web

Regolarizzazione – Che tipo di problemi risolve?


Introduzione

Un modello di dati raggruppa e standardizza le relazioni degli elementi di dati tra loro e con le funzionalità richieste per lo scopo originale del modello. I dati utilizzati per l'addestramento e la valutazione del modello di machine learning hanno il potenziale per creare una soluzione o un insieme di soluzioni. Modelli poco definiti con architettura particolarmente sensibile ai cambiamenti dei dati finali vengono evitati utilizzando tecniche di regolarizzazione. Errori o problemi con i dati o con il processo di immissione dei dati possono rendere le soluzioni più imprecise. Modificando il processo per prendere in considerazione errori e vincoli futuri, vengono prodotti modelli estremamente accurati e utili.

Regolarizzazione

Si riferisce a un modo per impedire l'overfitting del modello fornendogli informazioni aggiuntive.

Montaggio eccessivo

Il tuo modello di machine learning potrebbe occasionalmente ottenere un punteggio abbastanza buono con i dati di addestramento ma male con i dati di test. Quando si tratta di nuovi set di dati viene introdotto rumore nell'output, il che significa che il modello non è in grado di prevedere il risultato e viene quindi definito overfitted.

Pregiudizio

Sono le ipotesi che un modello fa per rendere una funzione meglio comprensibile. Fondamentalmente, si riferisce al tasso di errore dei dati di addestramento. Ogni volta che il tasso di errore è significativo, lo chiamiamo bias elevato e, se è piccolo, lo chiamiamo bias basso.

Varianza

La varianza è la distinzione tra i tassi di errore dei set di dati di training e di test. Ogni volta che il divario tra gli errori è basso, si dice che la varianza sia bassa, mentre quando il divario è ampio, si dice che sia alta. Tipicamente, desideriamo generalizzare il nostro modello con una varianza inferiore.

Algoritmo

  • Regressione del Leso

  • Regressione della cresta

  • Eliminare la regressione

  • Regressione con aumento dei dati

  • Arresto precoce della regressione

Regressione del Leso

Si potrebbe abbassare il valore del peso fino a zero. Ciò influisce sull'output accelerando la velocità con cui i dati verranno elaborati dalla funzione di attivazione. La regolarizzazione L1 è un metodo utile per la compressione del modello. Quando si comprime un modello, è utile comprendere che l'entità totale dei pesi rimarrà sempre positiva e potrebbe anche essere zero. Il parametro di regolarizzazione, lambda, viene deciso in base a quale valore fornisce il risultato migliore. Utilizzando la regolarizzazione L1, viene creato un modello sparso. Poiché lo standard non può essere differenziato, potrebbe essere necessario un algoritmo per apportare modifiche al modello di apprendimento basato sul gradiente.

Regressione della cresta

La regolarizzazione di L2 è detta “decadimento ponderale”. Con questa metodologia si evita il sovradattamento riducendo le dimensioni dei pesi. Questa metodologia si basa sul presupposto che all’aumentare del fattore di ponderazione aumenta anche la probabilità di errori. L'obiettivo di abbassare il valore del peso è ridurre la probabilità di errori. Rispetto alla regolarizzazione L1 il valore dei pesi non può essere 0. I pesi vengono moltiplicati per la radice quadrata del parametro di regolarizzazione (lambda). Man mano che il valore lambda aumenta, avrà pesi decrescenti. Per esaminare i risultati e scegliere il valore ideale per lambda, vengono utilizzati approcci di convalida incrociata per stimare correttamente quale sarà il risultato dei dati sconosciuti.

Regressione all'abbandono

La regolarizzazione del dropout esclude vari nodi della rete neurale e collegamenti di input e output, del tutto arbitrari. In ciascun nodo vengono forniti collegamenti per input, output, funzioni di trasferimento e input ponderato. Ogni nodo ha un'influenza sull'output di una rete neurale. In ogni rete si possono trovare più nodi. Dopo essere stato abbandonato, un nodo viene completamente escluso dalla rete. I nodi eliminati si modificano per ogni ciclo, alterando i risultati. L'abbandono è spesso utilizzato sul posto di lavoro per la sua affidabilità e i suoi risultati positivi. È efficace per addestrare più reti neurali contemporaneamente con topologie diverse. Il dropout offre sfide come un ambiente di allenamento rumoroso. Dato che Dropout ripete l'attivazione sparsa, una rete deve apprendere la rappresentazione sparsa. Gli output dei livelli vengono campionati tramite sottocampionamento casuale durante l'addestramento, il che riduce la capacità della rete.

Regressione con aumento dei dati

Aumento dei dati Generando nuovi set di addestramento dai set di addestramento esistenti mediante capovolgimento, mirroring, rotazione, ecc., la regolarizzazione aumenta in modo innaturale la dimensione del set di dati di addestramento originale. L'accuratezza del modello può essere migliorata utilizzando l'aumento dei dati se un set di dati non è abbastanza grande nemmeno per produrre risultati accurati. Per tenere conto delle diverse situazioni, il set di dati di un modello potrebbe essere aumentato.

Interruzione anticipata della regolarizzazione

Arresto anticipato La regolarizzazione pone fine alla formazione quando l'errore di validazione è al livello più basso. La discesa del gradiente viene utilizzata per regolarizzare i modelli. L'errore di convalida controlla gli output del modello per vedere se descrivono accuratamente i dati e quantificano le relazioni tra le variabili. L'errore di validazione è un segno di overfitting quando smette di ridursi e inizia ad aumentare. I dati vengono separati in set di test e vengono valutate le prestazioni di rete di ciascun set. Dopo il completamento viene mantenuto solo il modello con le migliori prestazioni.

Conclusione

La regolarizzazione è un modo per evitare che il modello si adatti eccessivamente fornendogli informazioni aggiuntive. La regolarizzazione L1 è un metodo utile per la compressione del modello. Quando si comprime un modello, è utile comprendere che l'entità totale dei pesi rimarrà sempre positiva e potrebbe anche essere zero. La regolarizzazione del dropout esclude vari nodi della rete neurale e collegamenti di input e output, del tutto arbitrari. Il sovradattamento viene evitato riducendo le dimensioni dei pesi. L'aumento dei dati può essere utilizzato per aumentare le dimensioni del set di dati di training originale anche se non è abbastanza grande per produrre risultati accurati.

Articoli correlati: