Regola di armijo

L’idea è ridurre lo step size abbastanza da far diminuire la funzione (sappiamo che per un abbastanza piccolo la funzione decresce), senza però perdere troppo sulla velocità di convergenza. Definiamo la seguente regola: Fissiamo 3 parametri scalari , e . è lo step iniziale, controlla quanto accorcio lo step dopo ogni tentativo, richiede che la funzione diminuisca di almeno una certa soglia. Per decidere lo step al passo facciamo dei tentivi, indicizzati con :

dove è il primo intero non negativo per cui vale la condizione:

quindi si riduce lo step aumentando la potenza di in maniera da ottenere una diminuzione abbastanza grande.

Fintanto che il metodo è ben definito, in un numero finiti di tentativi trova lo step size.

Uso Taylor a sinistra e divido per :

quindi per si ha , ed essendo il membro a destra minore di zero otteniamo mostra come esiste l’intero .

Convergenza

Dimostriamo come converga a punti stazionari per la procedura di Armijo e direzione gradient related.

Dim

Per assurdo sia e . Siccome è una sequenza monotona non crescente, o diverge a o converge. Per continuità , Quindi:

Dalla regola di Armijo sappiamo che:

ne deduciamo che:

siccome è gradient related, presa una sottosuccessione che converge a vale la condizione:

quindi . Ma dalla regola di Armijo, questo significa che da un certo step in poi deve avvenire almeno una riduzione del passo, ovvero:

dove . Introduciamo alcune variabili: ovvero le direzioni normalizzate, e un passo riscalato:

notiamo una cosa sulle due nuove successioni introdotte:

  1. siccome è limitata, ;
  2. , quindi è contenuta in un compatto: esiste una sottosuccessione convergente:

Riscriviamo la disequazione precedente:

Utilizziamo il teorema di Lagrange:

ora passiamo al limite, sempre la sottosuccessione :

siccome

Siamo giunti all’assurdo, infatti è per ipotesi Gradient Related, il che implica:

giungendo all’assurdo.