Core idea
Una famiglia di metodi di ottimizzazzione non lineare numerici. L’idea alla base è una successione di punti definita per ricorrenza:
dove la direzione dipende dal gradiente. Inoltre lo step size può variare, secondo varie regole.
Convergenza
Si possono trovare condizioni che garantiscono la convergenza di questi metodi in punti stazionari, ache la velocità di convergenza. Un importante risultato è il Capture theorem, se la sequenza arriva abbastanza vicino ad un minimo locale, il metodo converge lì.
Direzione
Intuitivamente, se vogliamo minimizzare la funzione dobbiamo richiedere che:
tuttavia, non vogliamo nemmeno che la successione di direzioni converga ad una direzione ortogonale al gradiente (asintoticamente ortogonali), ovvero:
Una condizione che possiamo imporre affinché ciò non accada è la seguente:
Eigenvalue bond
dove è una matrice simmetrica definita positiva, con autovalori positivi e limitati, ovvero esistono due costanti positive tale che:
Infatti:
siccome è maggiore uguale di ogni autovalore di , upper bound sulla norma matriciale. Quindi:
Un’altra condizione più generale è la seguente:
Gradient related
supponiamo di poter determinare da , diciamo che la sequenza di direzioni è gradient related se per ogni sottosuccessione che converge ad un punto non stazionario vale:
Step size selection rules
I nome dei metodi seguono dalla regola di scelta dello step. Da notare come in questi metodi valga sempre la condizione sulla direzione precedemente enunciata.