Metodi del gradiente per sistemi lineari
Vediamo ora come utilizzare i Gradient Methods per risolvere sistemi lineari con matrici simmetriche definite positive, associando ad essi una forma quadratica da minimizzare.
Assumiamo che il sistema da risolvere sia reale.
Forma quadratica associata
Consideriamo la funzione quadratica :
dove è una matrice simmetrica e definita positiva. Scelta in maniera tale che il suo gradiente:
dove è il residuo del sistema assegnato. L’ipotesi sulla matrice garantiscono il punto tale che risulta essere un minimo globale di , infatti:
se la matrice è definita positiva.
La precedente relazione si può esprimre in termini della norma dell’energia:
Scelta ottimale del passo
In generale usare Minimization rule non è fattible, in quanto si deve risolvere un altro problema di minimizzazzione unidimensionale. Tuttavia, ora siamo nel caso particolare di funzione obbiettivo quadratica, il che consente di calcolare analiticamente l’ ottimale.
Proposizione Al passo di un metodo del gradiente, applicato ad una funzione quadratica definita positiva, il passo ottimale, ovvero che soddisfa la minimization rule:
è dato da:
inoltre, se è una direzione di decrescita, ovvero , si ha che .
Dimostrazione Risolviamo il problema di ottimizzazzione unidimensionale lungo la retta :
dove abbiamo usato la simmetria di nell’ultimo uguaglianza. Se è direzione di discesa,Il numeratore è positivo, anche il denomitatore essendo definita positiva, dunque .
Vale la seguente caratterizzazione legata alla norma dell’energia.
Proposizione Minimizzare la funzione energia lungo la retta equivale a minimizzare la norma dell’energia dell’errore , dove è la solizione del sistema.
Dimostrazione scriviamo esplicitamente cosa stiamo minimizzando:
dove ho usato il fatto che . Scriviamo esplicitamente la norma dell’energia dell’errore:
dove abbiamo usato il fatto che è hermitiana essendo simmetrica. Apparte il primo termine, il resto si può riscrivere come:
apparte il primo termine costante, noto che minimizzare è equivalente a minimizzare la norma dell’energia dell’errore.
Lemma di ortogonalità Vale il seguente risultato di ortogonalità tra i residui: , ovvero il residuo al passo di un metodo del gradiente è ortogonale alla direzione .
Dimostrazione
usando ottimale:
.
Steepest descent (SD)
La scelta più ovvia per la direzione di discesa è proprio il residuo , che è proprio meno il gradiente:
da cui il passo ottimo:
si tratta dunque di un metodo di Richardson non stazionario e non precondizionato. Ovviamente continua a valere il lemma di ortogonalità, in questo caso le direzioni sono tutte ortogonali tra loro.
Errore
Si può effettuare un bound sull’errore ad ogni passo, in termini del numero di condizionamento di :
Dimostrazione Sia la soluzione generata al passo dal metodo del gradiente e il vettore generato da un passo del Metodo di Richardson stazionario non precondizionato (pongo ) a parametro ottimale, ovvero . Ma per definizione abbiamo scelto un che minimizza la -norma dell’energia al passo , dunque:
e la tesi segue.