Table of Contents
Parametri di progettazione
Quando si decidono i parametri di progettazione, si deve tenere conto che questi andranno ad influire anche sui parametri per l'addestramento
parametri per l'addestramento
Il risultato finale dipende anche dall'addestramento
Vedere dettagli in precondizionamento
- weight decay, un parametro che evita che i pesi crescano troppo (vedere gradient_descent)
- learning rate (tipicamente 0.3)
- momentum parameter (tipicamente 0.05)
- numero iterazioni per addestramento (tipicamente 5 milioni)
Numero di neuroni
Aumentare il numero di neuroni per ogni hidden layer può aumentare la flessibilità computazionale della rete, la potenza di calcolo, ma anche la complessità dell'algoritmo di addestramento, e aumenta anche il numero di vincoli del sistema.
Un numero insufficiente di neuroni porta a non poter rispondere alle richieste del problema.
In altre parole aumenta in modo eccessivo il bias (…)
Overfitting
Eccessivo numero di iterazioni, durante l'addestramento, porta l'errore a zero tra output fornito e output desiderato, nei casi di esempio forniti durante l'addestramento, ma errore eccessivo negli altri casi.
Anche un eccessivo numero di neuroni, può portare a un overfitting, perché la capacità computazionale della rete supera le dimensioni dei dati forniti in input. Dentro la rete neurale ho troppi neuroni. La rete neurale riesce ad imitare alla perfezione i dati di addestramento, ma se si forniscono dati diversi si allontana molto dalla semplice inerpolazione dei dati.
In altre parole aumenta eccessivamente la varianza dell'output effettivo della rete
Momentum parameter
Determina uno spostamento da un eventuale minimo locale (minimo relativo)
Learning rate
etaxx viene chiamato “dimensione del passo”, ma poi, nella backpropagation rule si chiama “learning rate”
determina la velocità con cui si converge verso il minimo dell'errore quadratico medio nell'algoritmo gradient_descent
Per evitare avvininamenti alla soluzione a volte troppo lenti oppure divergenti, si può vedere il learning rate variabile (delta-bar-delta)