Algebra Linear Numerica

transcript

5/9/2018 Algebra Linear Numerica - slidepdf.com

http://slidepdf.com/reader/full/algebra-linear-numerica 1/123

Notas de Aula

Rodney Josue Biezuner 1

Departamento de MatematicaInstituto de Ciencias Exatas (ICEx)

Universidade Federal de Minas Gerais (UFMG)

Notas de aula da disciplina ´ Algebra Linear Numerica do Curso de Graduacao

em Matematica Computacional, ministrado durante o segundo semestre do ano de 2009.

30 de novembro de 2009

1E-mail: rodney@mat.ufmg.br; homepage: http://www.mat.ufmg.br/∼rodney.

Sumario

0 Introducao: Representacao de Numeros Reais no Computador 30.1 Ponto Flutuante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30.2 Erros de Arredondamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50.3 O Padrao de Ponto Flutuante IEEE 754 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

0.3.1 Numeros normalizados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50.3.2 Numeros denormalizados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60.3.3 Outros valores numericos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1 Matrizes Esparsas 71.1 Problema Modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.1.1 Problema de Poisson Unidimensional . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71.1.2 Problema de Poisson Bidimensional . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

1.2 Matrizes Esparsas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101.3 Implementacao Computacional de Matrizes Esparsas . . . . . . . . . . . . . . . . . . . . . . . 11

2 Invertibilidade de Matrizes Esparsas 132.1 Normas Matriciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132.2 Matrizes Diagonalmente Dominantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182.3 Teorema dos Discos de Gershgorin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192.4 Propriedade FC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222.5 Matrizes Irredutıveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272.6 Exercıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

3 Metodos Iterativos Lineares 313.1 Metodo Iterativos Basicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

3.1.1 Metodo de Jacobi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 323.1.2 Metodo de Gauss-Seidel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333.1.3 Metodo SOR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333.1.4 Comparacao da Velocidade de Convergencia dos Tres Metodos no Problema Modelo . 34

3.1.5 Metodo de Jacobi Amortecido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353.2 Analise de Convergencia dos Metodos Iterativos Lineares . . . . . . . . . . . . . . . . . . . . . 36

3.2.1 Convergencia dos Metodos Iterativos Lineares . . . . . . . . . . . . . . . . . . . . . . . 373.2.2 Velocidade de Convergencia dos Metodos Iterativos Lineares . . . . . . . . . . . . . . 403.2.3 Convergencia para Matrizes Simetricas Positivas Definidas . . . . . . . . . . . . . . . . 42

3.3 Convergencia dos Metodos Iterativos Lineares para Matrizes de Discretizacao . . . . . . . . . 443.3.1 Convergencia do Metodo de Jacobi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 443.3.2 Convergencia do Metodo de Gauss-Seidel . . . . . . . . . . . . . . . . . . . . . . . . . 503.3.3 Convergencia do Metodo SOR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 523.3.4 Convergencia do Metodo de Jacobi Amortecido . . . . . . . . . . . . . . . . . . . . . . 593.3.5 Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

3.4 Exercıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

4 Metodos de Projecao 62

4.1 Teoria Geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 624.1.1 Representacao Matricial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 634.1.2 Minimizacao de Funcionais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 644.1.3 Estimativa do Erro em Metodos de Projecao . . . . . . . . . . . . . . . . . . . . . . . 66

4.2 Caso Unidimensional: Metodos de Descida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 674.2.1 Metodos de Descida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 674.2.2 Metodo da Descida Mais Acentuada . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

4.3 Exercıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

5 Metodos de Subespacos de Krylov 745.1 Motivacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 745.2 Subespacos de Krylov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 755.3 Algoritmo de Arnoldi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

5.4 Implementacao Pratica: Metodos de Ortogonalizacao Estaveis . . . . . . . . . . . . . . . . . . 795.4.1 Metodo de Gram-Schmidt Modificado (MGS) . . . . . . . . . . . . . . . . . . . . . . . 795.4.2 Metodo de Gram-Schmidt Modificado com Reortogonalizacao (MGSR) . . . . . . . . . 82

5.5 Metodo de Arnoldi para Sistemas Lineares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 835.6 Decomposicao QR via MGS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 855.7 Algoritmo de Lanczos e Metodo do Gradiente Conjugado . . . . . . . . . . . . . . . . . . . . 875.8 Metodo do Gradiente Conjugado como um Metodo de Descida . . . . . . . . . . . . . . . . . 91

5.8.1 Convergencia do Metodo do Gradiente Conjugado em Aritmetica Exata . . . . . . . . 945.9 Velocidade de Convergencia do Metodo do Gradiente Conjugado . . . . . . . . . . . . . . . . 96

5.9.1 Polinomios de Chebyshev . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 965.9.2 Velocidade de Convergencia do CG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

5.10 E xercıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101

6 O Problema do Autovalor 1026.1 Caracterizacao Variacional dos Autovalores de uma Matriz Simetrica: Quociente de Rayleigh 1026.2 Metodo das Potencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

6.2.1 Metodo das Potencias Inverso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1076.2.2 Metodo das Potencias com Deslocamento . . . . . . . . . . . . . . . . . . . . . . . . . 1076.2.3 Iteracao do Quociente de Rayleigh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

6.3 Algoritmo QR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1106.3.1 Reducao de uma matriz a sua forma de Hessenberg . . . . . . . . . . . . . . . . . . . . 1116.3.2 Aceleracao do algoritmo QR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1146.3.3 Implementacao pratica do algoritmo QR . . . . . . . . . . . . . . . . . . . . . . . . . . 116

6.4 Iteracao de subespacos e iteracao simultanea . . . . . . . . . . . . . . . . . . . . . . . . . . . 1166.4.1 Equivalencia entre o Algoritmo QR e Iteracao Simulta n e a . . . . . . . . . . . . . . . . 1 1 8

6.4.2 Convergencia do Algoritmo QR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1196.5 Metodo de Arnoldi e Algoritmo de Lanczos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1196.6 O Problema de Autovalor Simetrico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1206.7 Exercıcios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

Capıtulo 0

Introducao: Representacao deNumeros Reais no Computador

Computadores digitais usam um numero finito de bits para representar um numero real, portanto elespodem representar apenas um subconjunto finito dos numeros reais, o que leva a dois tipos diferentes delimitacoes: (1) numeros representados nao podem ser arbitrariamente grandes ou arbitrariamente pequenos;(2) existem lacunas entre os numeros representados. Estas limitacoes fısicas levam respectivamente aos errosde overflow e underflow e aos erros de arredondamento.

Para discutir estes erros de maneira inteligente, introduzimos alguma terminologia.

0.1 Definicao. Definimos o erro absoluto causado por uma computacao por

Erro absoluto = |(valor calculado) − (valor exato)| .

O erro relativo causado por uma computacao e definido por

Erro relativo =

erro absoluto

valor exato

O erro relativo permite comparar entre os erros cometidos de maneira significativa. Por exemplo, o erroabsoluto entre 1 (valor exato) e 2 (valor calculado) e o erro absoluto entre 1 .000.000 (valor exato) e 1.000.001(valor calculado) sao os mesmos. No entanto, o erro relativo no primeiro caso e 1, enquanto que o errorelativo no segundo caso e 10−6, expressando o fato intuitivo que o erro cometido no primeiro caso e muitomaior que o erro cometido no segundo caso. As vezes o erro relativo e expresso como uma porcentagem:

Erro percentual = [(erro relativo) × 100] %.

Assim, o erro percentual no primeiro caso e 100%, enquanto que o erro percentual no segundo caso e10−4 = 0, 0001%.

0.1 Ponto Flutuante

Na Matematica Pura, os numeros reais sao infinitos, infinitamente grandes e infinitamente pequenos. Naoexiste um numero maior ou um numero menor. Alem disso, eles tambem sao continuamente distribuıdos:nao existem espacos entre numeros reais, pois entre quaisquer dois numeros reais sempre existe outro numeroreal. Mais que isso, eles sao distribuıdos uniformemente na reta real. Um numero real e infinitamente preciso:

os numeros depois do ponto decimal sao infinitos (incluindo o 0). Em outras palavras, usando a base 10,numeros reais correspondem a series da forma

a = a0 +

∞n=1

onde a0 ∈ Z e an ∈ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9.O padrao para representar numeros reais em Matematica Computacional e o numero de ponto flutu-

ante. Numeros de ponto flutuante nao sao infinitos: existe um numero de ponto flutuante maximo e umnumero de ponto flutuante mınimo. Existe um numero fixado de pontos flutuantes, logo existem espacosentre eles. Numeros de ponto flutuante de precisao simples (tipo float) tem aproximadamente 8 dıgitosdecimais significantes, enquanto que numeros de ponto flutuante de precisao dupla (tipo double) tem aprox-imadamente 17 dıgitos decimais significantes. O qualificativo “aproximadamente” se refere ao fato que osnumeros de ponto flutuante sao armazenados no computador na base binaria, logo a conversao da basebinaria para a base decimal introduz alguma imprecisao.

Um numero de ponto flutuante e armazenado internamente em duas partes: um significando e umexpoente, semelhante a notacao cientıfica.

Esta escolha de representacao garante que a distribuicao dos valores representados em ponto flutuantenao sera uniforme. Para entender isso, vamos assumir que o significando e limitado a um unico dıgito decimale que o expoente e restrito aos valores −1, 0, 1. A tabela abaixo registra todos os numeros reais positivosque podemos representar:

−1 0 10 01 1 × 10−1= 0, 1 1 × 100 = 1 1 × 101 = 102 2 × 10−1= 0, 2 2 × 100 = 2 2 × 101 = 203 3 × 10−1= 0, 3 3 × 100 = 3 3 × 101 = 304 4 × 10−1= 0, 4 4 × 100 = 4 4 × 101 = 40

5 5 × 10−1

= 0, 5 5 × 100

= 5 5 × 101

= 506 6 × 10−1= 0, 6 6 × 100 = 6 6 × 101 = 607 7 × 10−1= 0, 7 7 × 100 = 7 7 × 101 = 708 8 × 10−1= 0, 8 8 × 100 = 8 8 × 101 = 809 9 × 10−1= 0, 9 9 × 100 = 9 9 × 101 = 90

O fato do espaco entre os valores em ponto flutuante aumentar em proporcao ao tamanho dos numeros eque justifica o nome ponto flutuante. Uma representacao em que os espacos entre os valores representadostem um tamanho fixo e chamada uma representacao em ponto fixo.

0.2 Definicao. Definimos a precisao de um ponto flutuante como sendo o numero de dıgitos significativosque ele possui em seu significando. A exatidao de um ponto flutuante e a sua aproximacao do valorexato.

Quanto mais dıgitos significativos um ponto flutuante possui, mais preciso ele e: o double 0.3333333333333333e uma representacao mais precisa do numero real 1/3 do que o float 0.3333333. Por outro lado, o float

0.3333333 e uma representacao mais exata de 1/3 do que o double 0.3444444444444444, apesar deste serum ponto flutuante mais preciso, porque a maioria dos seus dıgitos significativos estao errados. Os erroscomputacionais tais como os erros de cancelamento e arredondamento afetam a exatidao de um valor emponto flutuante. Aumentar a precisao de float para double tem o potencial de aumentar a exatidao, masnao a garante.

0.2 Erros de Arredondamento

Quando um valor computado esta entre dois valores representaveis, ele sera substituıdo pelo valor represen-

tado mais proximo. Esta e a origem dos erros de arredondamento.0.3 Definicao. Definimos o erro de arredondamento por

Erro de arredondamento = |(valor representado) − (valor exato)| .

0.4 Definicao. Um erro de cancelamento e um erro de arredondamento que ocorre quando a maioriados dıgitos significativos sao perdidos durante a subtracao de dois valores aproximadamente iguais.

0.3 O Padrao de Ponto Flutuante IEEE 754

Antes do padrao IEEE 754 ser publicado em 1985, existiam muitos formatos de ponto flutuante implementa-

dos em hardware e software, o que dificultava a portabilidade dos programas. Os resultados obtidos variavamde uma maquina para outra. Atualmente, a maioria dos fabricadores aderem ao padrao IEEE 754, fruto deuma cooperacao historica entre cientistas de computacao e desenhistas de chips de microprocessadores. Asigla “IEEE” significa Institute of Electrical and Electronics Engineers.

Os formatos de precisao aritmetica simples float e dupla double sao armazenados em 32 bits e 64 bits,respectivamente. Cada formato divide um numero em tres partes: sinal (um bit), expoente e frac˜ ao. Os doisformatos diferem quanto ao numero de bits alocados para o expoente e para a fracao. No formato float 8bits sao alocados para o expoente e 23 para a fracao, enquanto que no formato double 11 bits sao alocadospara o expoente e 52 para a fracao. O bit de sinal representa o sinal do numero: 0 para positivo e 1 paranegativo. O expoente nao possui sinal: para representar expoentes negativos, o padrao adiciona um viespositivo; para obter o valor verdadeiro do expoente (sem vies), e necessario subtrair o vies. No formato deprecisao simples, o expoente com 8 bits pode armazenar valores (com vies) entre 0 e 255, mas 0 e 255 saoreservados; o vies e 127, de modo que os valores verdadeiros (sem vies) do expoente variam entre

−126 e

+127. No formato de precisao dupla, o expoente com 11 bits pode armazenar valores (com vies) entre 0 e2047, com 0 e 2047 sao reservados; o vies e 1023, de modo que os valores verdadeiros (sem vies) do expoentevariam entre −1022 e +1023.

0.3.1 Numeros normalizados

Representemos por s o sinal, e o expoente e f a fracao. Quando e nao e um valor reservado (isto e, 1 e 254no formato float e 1 e 2047 no formato double) existe um algarismo 1 e um ponto binario . implıcitosa esquerda do primeiro bit de f , de modo que o numero representado por s,e,f e o numero

n = (−1)s × (1.f ) × 2E

onde E = e

−127 (float) ou E = e

−1023 (double), chamado um n´ umero normalizado. O algarismo 1 e

o ponto binario implıcitos, juntamente com a parte fracionaria f , constituem o significando do numero, demodo que um numero de precisao simples possui 24 bits no seu significando, enquanto que um n umero deprecisao dupla possui 53 bits no seu significando.

Assim, o maior valor possıvel em modulo para float corresponde a

s = 1, e = 254 e f = 11111111111111111111111,

ou seja,23i=0

2i× 2127 ≈ 3, 4028 × 1038,

enquanto que o maior valor possıvel em modulo para double corresponde a

s = 0, e = 2047 e f = 1111111111111111111111111111111111111111111111111111,

ou seja, 52i=0

2i× 21023 ≈ 1, 7977 × 10308.

0.3.2 Numeros denormalizados

Se e = 0 (um dos valores reservados) e f = 0, nos temos o que se chama um n´ umero denormalizado (ousubnormal ). Existe um algarismo 0 e um ponto binario . implıcitos a esquerda do primeiro bit de f , de modoque o numero representado por s,e,f e o numero

n = (−1)s × (0.f ) × 2E

onde E = −126 (float) ou E = −1022 (double).

Assim, o menor valor possıvel em modulo para float corresponde a

s = 0, e = 0 e f = 00000000000000000000001,

ou seja,1

223× 2−126 ≈ 1, 4013 × 10−45,

um pouco menor do que o menor valor possıvel 1 × 2−126 = 1, 1755 × 10−38 para um float normalizado,correspondente a

s = 0, e = 1 e f = 00000000000000000000000.

O menor valor possıvel em modulo para double corresponde a

s = 0, e = 0 e f = 0000000000000000000000000000000000000000000000000001,

ou seja,1

252× 2−1022 ≈ 4, 9407 × 10−324

um pouco menor do que o menor valor possıvel 1 × 2−1022 ≈ 2, 2251 × 10−308 para um double normalizado,correspondente a

s = 0, e = 1 e f = 0000000000000000000000000000000000000000000000000000.

A existencia dos numeros denormalizados permitem uma convergencia para zero menos abrupta. Quandoos valores computados vao se tornando menores e menores, atingindo o menor valor possıvel para um float

ou double normalizado, ao inves de caırem abruptamente para zero na proxima iteracao, eles sao convertidosem numeros denormalizados.

No entanto, o espaco entre numeros representados no intervalo [1, 2] e igual a 2−52 ≈ 2.22 × 10−16; em

geral, no intervalo 2j , 2j+1 o espaco e 2j × 2−52, de modo que o espaco relativo nunca excede 2−52.

0.3.3 Outros valores numericos

Se e = f = 0, o valor numerico e −0 ou +0, dependendo de s. Se f = 0 e e = 255 para float ou se e = 2047para double, entao o valor numerico e −Infinity ou +Infinity. Se f = 0 e e = 255 para float ou see = 2047 para double, entao independentemente do valor de 0 nos temos NaN (Not a Number ). Por exemplo,dividindo 0 por 0 resulta em NaN.

Em geral, no padrao IEEE 754 uma operacao invalida produz NaN, divisao por zero produz ±Infinity,overflow produz o maior numero normalizado possıvel ou ±Infinity e underflow produz ±0, o menornumero normalizado possıvel ou um numero denormalizado.

Capıtulo 1

Matrizes Esparsas

Matrizes esparsas sao matrizes onde a imensa maioria das entradas s ao nulas. Esta e uma definicao

vaga. Nao existe um limite inferior para o numero de zeros em uma matriz, em relacao ao tamanho desta,a partir do qual podemos declarar uma matriz com sendo esparsa. Isto e, nao existe um limite preciso apartir do qual uma matriz deixa de ser esparsa e se torna uma matriz densa (isto e, uma matriz em queo numero de zeros e irrelevante). Em geral, matrizes esparsas sao definidas operacionalmente, no sentidode que uma matriz pode ser chamada esparsa, sempre que tecnicas especiais podem ser usadas para tirarvantagem do grande numero de zeros e sua localizacao. Equacoes diferenciais parciais sao a maior fonte deproblemas de algebra linear numerica envolvendo matrizes esparsas. Engenheiros eletricos lidando com redeseletricas nos anos 1960s foram os primeiros a explorar a esparcidade das matrizes de coeficientes associadasaos problemas tratados para resolver sistemas lineares. Como os computadores tinham pouca capacidadede armazenamento e poder de processamento, e os problemas envolviam um numero enorme de variaveis,metodos de solucao direta que tiram vantagem da existencia de um numero muito grande de zeros tiveramque ser desenvolvidos.

1.1 Problema Modelo

Como fonte de matrizes esparsas, consideraremos o problema de resolver a equacao de Poisson com condicaode Dirichlet discretizada atraves de diferencas finitas em uma e duas dimensoes, que fornece uma matrizesparsa simetrica.

1.1.1 Problema de Poisson Unidimensional

Considere o problema de Dirichlet para a equacao de Poisson no intervalo unitario I = (0, 1):

−u = f (x) se 0 < x < 1,u (0) = a, u (1) = b.

Seja h > 0. As expansoes de Taylor para uma funcao u a direita e a esquerda de um ponto x0 sao dadasrespectivamente por

u(x0 + h) = u(x0) + u(x0)h +1

2!u(x0)h2 +

3!u(x0)h3 + . . . ,

u(x0 − h) = u(x0) − u(x0)h +1

2!u(x0)h2 − 1

3!u(x0)h3 + . . .

Se somarmos estas duas equacoes, obtemos

u(x0) =u(x0 − h) − 2u(x0) + u(x0 + h)

h2− 2

4!u(4)(x0)h2 − 2

5!u(6)(x0)h4 − . . . ,

o que fornece uma aproximacao para a derivada segunda u(x0) de u em x0:

u(x0 − h) − 2u(x0) + u(x0 + h)

com erro

= − 1

12u(4)(ξ)h2 = O(h2),

onde x0 − h ξ x0 + h. Esta aproximacao e chamada uma diferenca centrada para a derivada segunda.Divida o intervalo [0, 1] em n subintervalos de comprimento h = 1/n atraves de n − 1 pontos interiores

uniformemente espacados:

x0 = 0, x1 = h, x2 = 2h, . . . , xn−1 = (n − 1) h, xn = nh = 1,

de modo que [0, 1] = [x0, x1] ∪ [x1, x2] ∪ . . . ∪ [xn−1, xn]. Introduzimos a notacao:

ui = u(xi),

f i = f (xi) .

Esta e uma discretizac˜ ao uniforme do intervalo [0, 1]. Uma vez discretizado o domınio da equacao diferencialparcial, procedemos a discretizacao desta ultima. Usando diferencas centradas para cada ponto interior xi,1 i n − 1, temos

−ui−1 + 2ui − ui+1

h2= f i. (1.2)

Esta discretizacao em diferencas finitas para a equacao de Poisson e chamada f´ ormula dos tres pontos.Portanto, para encontrar a solucao discretizada temos que resolver o sistema linear com n − 1 equacoes an − 1 incognitas:

h−2 (2u1 − u2) = f 1 + ah−2

h−2 (−u1 + 2u2 − u3) = f 2...

h−2 (−un−3 + 2un−2 − un−1) = f n−2h−2 (−un−2 + 2un−1) = f n−1 + bh−2

ou seja,

2 −1−1 2 −1

−1. . .

. . .. . . −1−1 2 −1

−1 2

u1u2......

un−2

un−1

f 1 + ah−2

f 2......

f n−2f n−1 + bh−2

Esta e uma matriz tridiagonal, simetrica e esparsa.

1.1.2 Problema de Poisson Bidimensional

Considere o problema de Dirichlet homogeneo para a equacao de Poisson no quadrado unitario Ω = (0, 1) ×(0, 1) −∆u = f (x, y) em Ω,

u = 0 sobre ∂ Ω.(1.3)

Discretizamos o quadrado Ω atraves dos pontos

(xi, yj) = (ih,jh) , 0 i, j n,

produzindo a malha (ou gride) uniformeΩd =

(x, y) ∈ Ω : x = i∆x, y = j∆y, 0 i, j n

A malha dos pontos interiores e dada por

Ωd = (x, y) ∈ Ω : x = i∆x, y = j∆y, 1 i, j n − 1 ,

enquanto que a fronteira discretizada e o conjunto

∂ Ωd = (x, y) ∈ ∂ Ω : x = i∆x, y = j∆y, 0 i n, 0 j m .

A equacao de Poisson−uxx − uyy = f (x, y)

pode ser agora discretizada. Denotamosui,j = u (xi, yj) ,

f i,j = f (xi, yj) .

Aproximamos cada derivada parcial de segunda ordem pela sua diferenca centrada, obtendo

−uxx ≈ −ui−1,j + 2ui,j − ui+1,j

∆x2,

−uyy ≈ −ui,j−1 + 2ui,j − ui,j+1

∆y2.

Portanto, a equacao de Poisson discretizada toma a forma

−ui−1,j

−ui,j−1 + 4ui,j

−ui+1,j

−ui,j+1

h2 = f i,j . (1.4)

Como a funcao u e calculada em cinco pontos, esta discretizacao em diferencas finitas para a equacao dePoisson e chamada a f´ ormula dos cinco pontos.

Para cada ponto interior da malha obtemos uma equacao, logo temos um sistema linear de (n − 1)2

equacoes com o mesmo numero de incognitas. Diferente do caso unidimensional, no entanto, nao existe umamaneira natural de ordenar os pontos da malha, logo nao podemos obter imediatamente uma representacaomatricial para o problema discretizado. Precisamos antes escolher uma ordenacao para os pontos da malha,e como existem varias ordenacoes possıveis, existem varias matrizes associadas.

Talvez a mais simples ordenacao e a ordem lexicogr´ afica . Nesta ordem, os pontos da malha sao percorridoslinha por linha, da esquerda para a direita, de baixo para cima:

u1,1, u2,1, . . . , un−1,1, u1,2, u2,2, . . . , un−1,2, . . . . . . , u1,m−1, u2,m−1, . . . , un−1,m−1.

Neste caso, a matriz associada ao sistema linear e uma matriz (n − 1)2 × (n − 1)2 que pode ser escrita como

uma matriz de (n − 1)2 blocos de dimensao (n − 1) × (n − 1) na forma

B −I −I B −I

−I . . .

. . .. . . −I −I B −I

−I B

(n−1)×(n−1)

onde I e a matriz identidade (n − 1) × (n − 1) e B e a matriz (n − 1) × (n − 1) dada por

4 −1

−1 4 −1−1

. . .. . .

. . .. . . −1−1 4 −1

−1 4

(n−1)×(n−1)

Observe queaii = 4

para todo 1 i (n − 1)2, enquanto queaij = −1

se o ponto j e vizinho a esquerda ou a direita do ponto i, ou se o ponto j e vizinho acima ou abaixo do ponto

i. Por exemplo, se n = 4, temos

4 −1 0 −1 0 0 0 0 0−1 4 −1 0 −1 0 0 0 0

0 −1 4 0 0 −1 0 0 0−1 0 0 4 −1 0 −1 0 0

0 −1 0 −1 4 −1 0 −1 00 0 −1 0 −1 4 0 0 −10 0 0 −1 0 0 4 −1 00 0 0 0 −1 0 −1 4 −10 0 0 0 0 −1 0 −1 4

Observe que a matriz A e uma matriz simetrica, pentadiagonal e esparsa.

1.2 Matrizes Esparsas

Outros problemas de EDPs, especialmente aqueles envolvendo derivadas primeiras (tais como problemas deconveccao-difusao), em geral levam a matrizes nao-simetricas. Discretizacoes de outros tipos, tais como asencontradas em elementos finitos, levam a matrizes esparsas com outro tipo de estrutura. De qualquer modo,todos possuem em comum o fato de a matriz de discretizacao ser uma matriz esparsa.

Existem essencialmente dois tipos de matrizes esparsas: estruturadas e nao-estruturadas. Umamatriz estruturada e uma em que as entradas nao-nulas formam um padrao regular, frequentemente aolongo de um numero pequeno de diagonais (tais como as matrizes que vimos no problema modelo na se caoanterior). Os elementos nao-nulos podem tambem estar organizados em blocos (submatrizes densas) de

mesmo tamanho, organizadas ao longo de um numero pequeno de blocos diagonais. Discretizacoes atraves dediferencas finitas tipicamente dao origem a matrizes esparsas com estruturas regulares. Uma matriz esparsaem que as entradas nao-nulas sao irregularmente localizadas e uma matriz esparsa irregularmente estruturada.Os metodos de volumes finitos ou elementos finitos aplicados a domınios com geometria complexa em gerallevam matrizes irregularmente estruturadas.

Esta distincao nao afeta em geral metodos de solucao direta mas e muito importante para os metodos desolucao iterativos. Neste ultimos, uma das operacoes basicas essenciais e a do produto de uma matriz porum vetor.

1.3 Implementacao Computacional de Matrizes Esparsas

Para tirar vantagem do grande numero de elementos nulos, esquemas especiais sao necessarios para armazenar

matrizes esparsas na memoria do computador. O principal ob jetivo e representar apenas os elementos nao-nulos.O esquema mais simples de armazenamento e o chamado formato de coordenadas. A estrutura de dados

consiste de tres vetores (arrays): um vetor real contendo os valores e dois vetores inteiros, um deles contendoos ındices das linhas, enquanto que o outro contem os ındices das colunas.

1.1 Exemplo. A matriz

1 0 0 3 05 7 0 0 23 0 2 4 00 0 6 9 00 0 0 0 4

pode ser representada por

valueArray = 2 9 1 4 3 4 2 5 3 6 7 ,

rowIndexArray = 3 4 1 3 3 5 2 2 1 4 2 ,

columnIndexArray = 3 4 1 4 1 5 5 1 4 3 2 .

Cada vetor tem comprimento igual ao numero de elementos nao-nulos da matriz. Observe que oselementos sao listados em ordem arbitraria.

Provavelmente, o formato mais popular para armazenar matrizes esparsas gerais e o formato compressed row storage (CRS). Neste esquema, as linhas da matriz sao armazenadas uma a uma em um vetor real, daprimeira ate a ultima, preservando a ordem. Um segundo vetor inteiro contendo os ındices das colunas eusado. Um terceiro vetor inteiro contem a posicao no vetor de valores reais ou no vetor de ındices de coluna

onde cada linha comeca, mais um elemento para indicar a primeira posicao vazia dos dois vetores.

1.2 Exemplo. A matriz

1 0 0 3 05 7 0 0 23 0 2 4 00 0 6 9 00 0 0 0 4

pode ser representada no formato CSR por

valueArray = 1 3 5 7 2 3 2 4 6 9 4 ,

columIndexArray = 1 4 1 2 5 1 3 4 3 4 5 ,

rowPointerArray = 1 3 6 9 11 12 .

Enquanto o comprimento dos dois primeiros vetores e igual ao numero de elementos nao-nulos damatriz., o comprimento do terceiro vetor e igual ao numero de linhas da matriz mais um. Dentrode cada linha os elementos ainda podem ser armazenados em ordem arbitraria, o que pode ser muitoconveniente.

Este esquema e o preferido pois e o mais util para realizar as computacoes t ıpicas, tais como multiplicacaoda matriz por vetores. Em CRS, a multiplicacao matriz-vetor pode ser implementada da seguinte forma (em

C/C++ ou Java):

for( int i = 0; i < n; i++ )

lowerIndex = rowPointerArray[i];

upperIndex = rowPointerArray[i+1];

//loop over row i

for( int j = lowerIndex; j < upperIndex; j++ )

Av[i] += valueArray[j]* v[columArray[j]];

Um esquema correspondente, armazenando colunas ao inves de linhas e o compressed column storage (CCS),usado no Octave.

Os esquemas considerados acima sao chamados est´ aticos. Esquemas dinamicos, envolvendo listas en-cadeadas, em geral economizam ainda mais memoria e tem acesso ainda mais rapido a memoria. Cada linhada matriz pode ser representada por uma lista encadeada. A matriz toda e representada por uma lista de

listas encadeadas, seguindo a ordem de linhas da matriz. Desta forma, o inıcio de cada linha nao precisa serrepresentado. O ındice da coluna de cada elemento da linha ainda precisa ser representado, e claro, e issopode ser feito atraves de um ponteiro especıfico.

Outras esquemas podem ser utilizados, tirando vantagem da estrutura da matriz esparsa. Por exem-plo, em matrizes diagonais as diagonais nao-nulas podem ser armazenadas separadamente. Em matrizessimetricas, e necessario armazenar apenas os elementos da diagonal principal e da parte triangular superior(ou inferior) da matriz, mas isso em geral implica em algoritmos mais complicados para fazer operacoes coma matriz.

Capıtulo 2

Invertibilidade de Matrizes Esparsas

Neste capıtulo desenvolveremos metodos gerais e faceis de aplicar para determinar a invertibilidade de ma-

trizes esparsas, principalmente aquelas que surgem atraves da discretizacao de equacoes diferenciais parciaisatraves de diferencas finitas. Em particular, isso implicara a existencia e unicidade de solucoes para sistemaslineares envolvendo tais matrizes. Uma vez que isso esteja estabelecido, poderemos nos dedicar nos pr oximoscapıtulos a estudar metodos iterativos para encontrar estas solucoes.

2.1 Normas Matriciais

Lembramos o conceito de norma vetorial:

2.1 Definicao. Seja V um espaco vetorial real ou complexo. Uma norma vetorial em V e uma funcao|·| : V −→ R que satisfaz as seguintes propriedades:

(i) |x| > 0 para todo x = 0 e |x| = 0 se x = 0;(ii) αx = |α| x para todo x ∈ V e para todo α ∈ R;

(iii) (Desigualdade Triangular) x + y x + y para todos x, y ∈ V.

Denotaremos por Mn (R) o espaco vetorial das matrizes complexas n × n e por Mn (C) o espaco vetorialdas matrizes complexas n × n. Quando estivermos nos referindo a qualquer um destes espacos (ou seja,quando a afirmacao que fizermos valer para qualquer um deles), usaremos a nota cao Mn simplesmente.

2.2 Definicao. Uma norma matricial no espaco vetorial Mn e uma norma vetorial · : Mn −→ R quesatisfaz a propriedade submultiplicativa

AB A B (2.1)

para todas as matrizes A, B ∈ Mn.

A seguir, veremos alguns exemplos das normas matriciais mais importantes em Mn. A verificacao de queas normas apresentadas constituem normas vetoriais e deixada como exercıcio (Exercıcio 2.1).

2.3 Exemplo. Norma l1 (norma da soma ):

|aij | . (2.2)

De fato,

i,j=1 n

k=1aikbkj n

i,j,k=1 |aikbkj

i,j,k,l=1 |aikblj

i,k=1 |aik

j,l=1 |blj

2.4 Exemplo. Norma l2 (norma euclidiana ):

ni,j=1

|aij |21/2

. (2.3)

Com efeito,

AB22 =n

k=1aikbkj

k=1|aik|2

l=1|blj |2

i,k=1|aik|2

j,l=1|blj |2

= A22 B22 .

A norma l2 tambem e chamada mais raramente (e somente para matrizes) norma de Schur , norma deFrobenius ou norma de Hilbert-Schmidt .

2.5 Exemplo. Normas l p:

De modo geral, dado p 1, definimos a norma matricial

ni,j=1

|aij | p1/p

. (2.4)

2.6 Exemplo. Norma l∞ modificada (norma do m´ aximo modificada ):

A norma l∞ (norma do maximo)A∞ = max

1i,jn|aij |

e uma norma vetorial em Mn mas nao e uma norma matricial: por exemplo, se

1 11 1

2 22 2

e portanto

∞ = 2 > 1 =

No entanto, um multiplo escalar desta norma vetorial e uma norma matricial:

An∞ = n max1i,jn

|aij | . (2.5)

Com efeito,

ABn∞ = n max1i,jn

aikbkj

n max1i,jn

|aikbkj | n max1i,jn

A∞ B∞

= n (n A∞ B∞) = n A∞ n B∞ = ABn∞ .

2.7 Exemplo. Norma do operador:

Dada uma norma vetorial |·| em Rn ou Cn, ela induz uma norma matricial atraves da definicao

A = max|x|=1

|Ax| = max|x|1

|Ax| = supx=0

|Ax||x| . (2.6)

Aqui vemos A como um operador linear em Rn ou Cn, portanto contınuo, de modo que o maximo deA e atingido na esfera e na bola fechada. Para ver que a primeira e a terceira definicoes coincidem (demodo que o sup na terceira definicao e de fato um maximo), use o fato que

|Ax||x| =

Agora observe quemax|x|=1

|Ax| max|x|1

|Ax| ,

ja que a bola fechada contem a esfera. Por outro lado, se|x|

= ε < 1, segue queAx

|Ax||x| =

|Ax|ε

> |Ax| ,

de modo que o maximo de |Ax| nao e atingido no interior da bola, logo

max|x|=1

|Ax| max|x|1

e portanto a primeira e a segunda definicoes coincidem. Finalmente, para ver que a norma do operadore uma norma matricial, escreva

AB = maxx=0

= maxx=0

maxx=0

maxy=0

maxx=0

= A B .

A norma do operador satisfaz a propriedade extremamente util

|Ax| A |x| (2.7)

para todo vetor x ∈ Rn ou Cn.

2.8 Exemplo. Norma do maximo das somas das linhas:

AL = max1in

|aij | . (2.8)

Esta norma e a norma do operador induzida pela norma vetorial l∞. De fato, se x = (x1, . . . , xn),temos

|Ax|∞ = max1in

max1in

|aijxj| max1in

|aij | |x|∞ = AL |x|∞ ,

de modo quemax|x|=1

|Ax|∞ AL .

Supondo que a i-esima linha de A e nao-nula, definimos o vetor y = (y1, . . . , yn) ∈ Cn por

|aij | se aij = 0,

1 se aij = 0.,

o que implica |y|∞ = 1, aijyj = |aij | e

max|x|∞=1 |Ax|∞ |Ay|∞ = max1in

j=1 aijyj = max1in

j=1 |aij | = AL .

2.9 Exemplo. Norma do maximo das somas das colunas:

AC = max1jn

|aij | . (2.9)

Esta norma e a norma do operador induzida pela norma vetorial l1. De fato, escrevendo A em termosde suas colunas

A = [A1 . . . An]

segue queAC = max

1jn|Aj |1 .

Se x = (x1, . . . , xn), segue que

|Ax|1 = |x1A1 + . . . + xnAn|1 n

|xiAi|1 =

|xi| |Ai|1 n

|xi| max1jn

|Aj |1

|xi| = AC |x|1 ,

max|x|1=1 |Ax|1 AC .

Agora, se escolhermos yj = ej , temos que |yj |1 = 1 e

|Ay|1 = |Aj |1para todo k, logo

max|x|

1=1|Ax|1 max

1jn|Ayj |1 = max

1jn|Aj |1 = AC .

2.10 Exemplo. p-normas:

Este e o nome geral para as normas do operador induzidas pela norma vetorial l p em Rn ou Cn. Para

distingui-las das normas matriciais l p no proprio espaco vetorial Mn, vamos denota-las por

|||A||| p = supx=0

|Ax| p|x| p

O caso especial da norma do operador induzida pela norma vetorial l2 (a norma vetorial euclidiana) etambem chamada a norma espectral e satisfaz

|||A|||2 =

λmax = max

|λ| : λ e um autovalor de A∗A

De fato, A∗A e uma matriz hermitiana logo todos os seus autovalores sao nao-negativos. Pela carac-terizacao variacional dos autovalores de uma matriz hermitiana temos

λmax = maxx=0

Ax,x2|x|22= max

x=0|Ax|

2|x|22.

Observe que a 2-norma e diferente da norma matricial l2 (Exercıcio 2.3). Note tambem que se A euma matriz hermitiana, entao A∗A = A2 e |||A|||2 e portanto o modulo do maior autovalor de A, istoe, a norma espectral de A e o raio espectral de A, definido como sendo o maior valor absoluto dosautovalores λ1, . . . , λn de A:

ρ (A) = maxi=1,...,n

|λi| ,

2.11 Exemplo. Norma induzida por uma matriz invertıvel:

·e uma norma matricial qualquer e se S e uma matriz invertıvel, entao

AS =S −1AS

(2.10)

define uma norma matricial. Com efeito,

ABS =S −1ABS

=S −1ASS −1BS

S −1AS S −1BS

= AS BS .

Lembramos que todas as normas em um espaco vetorial de dimensao finita sao equivalentes, e isso vale emparticular para normas matriciais:

2.12 Teorema. Seja V um espaco vetorial real ou complexo de dimens˜ ao finita. Ent ao todas as normas

vetoriais em V s˜ ao equivalentes, isto e, se ·1 e ·2 s˜ ao duas normas vetoriais quaisquer em V ,ent˜ ao existem constantes C 1, C 2 > 0 tais que

x1 C 1 x2e

x2 C 2 x1para todo x ∈ V .

Prova: Para mostrar a equivalencia entre todas as normas de um espaco vetorial, por transitividade bastafixar uma norma ·1 e mostrar que qualquer norma arbitraria ·2 e equivalente a ·1. Seja B = e1, . . . , enuma base para V , de modo que todo vetor x ∈ V se escreve na forma

e defina ·1 como sendo a norma 1 em relacao a esta base:

|xi| .

Entao, se ·2 e uma norma qualquer em V , segue da desigualdade triangular que

i=1 xiei

i=1 |xi

i=1,...,nei2

= C 2 x1 ,

onde denotamos C 2 = maxi=1,...,n

Para provar a desigualdade reversa, considere a esfera unitaria na norma da soma S = x ∈ V : x1 = 1.A desigualdade anterior garante que a funcao x → x2 e contınua na topologia definida pela norma ·1 eportanto assume um valor mınimo m no conjunto fechado e limitado (compacto) S . Necessariamente m > 0:

se existisse e =n

i=1xiei ∈ S tal que e2 = 0, terıamos e =

i=1xiei = 0, contrariando o fato que e1, . . . , en

e um conjunto linearmente independente. Portanto, x

para todo x ∈ V , x = 0. Tomando C 1 = 1/m, segue que x1 C 1 x2 para todo x ∈ V .

2.2 Matrizes Diagonalmente Dominantes

2.13 Definicao. Dizemos que uma matriz An×n e diagonalmente dominante se

j=1j=i |aij

|para todo i = 1, . . . , n

e estritamente diagonalmente dominante se

|aii| >

nj=1j=i

|aij | para todo i = 1, . . . , n .

2.14 Lema. Seja A ∈ Mn. Se existe alguma norma matricial · tal que I − A < 1, ent˜ ao A e invertıvel.

Prova. De fato, sob esta condicao, afirmamos que a inversa e dada explicitamente pela serie

A−1 =

∞k=0

(I − A)k . (2.11)

Para todo N ∈ N podemos escrever

(I − A)k

= [I − (I − A)]N k=0

(I − A)k

(I − A)k −

N +1k=1

(I − A)k

= I − (I − A)N +1 .

Como · e uma norma matricial, temos que

(I − A)k I − Ak .

Logo, de I − A < 1 segue que

limN →∞

(I − A)N +1 = 0.

Portanto, tomando o limite quando N → ∞, concluımos (2.11). 2.15 Corolario. Se A ∈ Mn e uma matriz singular e · e uma norma matricial, ent˜ ao I − A 1. Em

particular, se · e uma norma matricial, ent˜ ao I 1.

Prova. Para provar a segunda afirmacao do enunciado, basta tomar A = 0.

2.16 Proposicao. Se A e uma matriz estritamente diagonalmente dominante, ent˜ ao A e invertıvel.

Prova. Denote por D a matriz diagonal cujas entradas diagonais sao as entradas diagonais de A. Umamatriz estritamente diagonalmente dominante possui, por definicao, entradas diagonais nao-nulas, logo D euma matriz invertıvel. A matriz D−1A tem apenas 1’s na diagonal principal e se mostramos que D−1A einvertıvel, isto implicara que A e invertıvel. Para provar isso, considere a matriz I − D−1A. Temos

I − D−1Aij = 0 se i = j,−aij/aii se i = j.

Usemos a norma do maximo das somas das linhas. Para cada 1 i n temos

I − D−1Aij

j=1j=i

|aii|n

j=1j=i

|aij | < 1,

logoI − D−1A

< 1 e o resultado segue do Lema 2.14.

As vezes, exigir dominancia diagonal estrita em todas as linhas e pedir demais. Para certas matrizes,dominancia diagonal junto com dominancia diagonal estrita em apenas uma linha e suficiente para garantira sua invertibilidade. As matrizes de discretizacao obtidas no capıtulo anterior satisfazem esta condicao

(nas linhas correspondentes a pontos adjacentes a fronteira), e nenhuma delas e estritamente diagonalmentedominante. Por outro lado, vale a pena ressaltar que esta condicao nao e suficiente para estabelecer ainvertibilidade de uma matriz em geral, como o exemplo 4 2 1

0 1 10 1 1

demonstra.

2.3 Teorema dos Discos de Gershgorin

A primeira ferramenta teorica e o importante Teorema dos Discos de Gershgorin . Ele decorre da seguinte

observacao: se A e uma matriz complexa n × n, podemos sempre escrever A = D + B, onde D = diag(a11, . . . , ann) e a matriz diagonal formada pela diagonal principal de A e B consiste dos elementos restantesde A, possuindo uma diagonal principal nula. Se definirmos Aε = D + εB, entao A0 = D e A1 = A. Osautovalores de D sao a11, . . . , ann, enquanto que os autovalores de Aε devem estar localizados em vizinhancasdos pontos a11, . . . , ann, desde que ε seja suficientemente pequeno. O mesmo deve valer para os autovaloresda matriz A: eles devem estar contidos em discos centrados nos elementos a11, . . . , ann da diagonal principalse os discos sao suficientemente grandes. O Teorema de Gershgorin da uma estimativa precisa e simples decalcular para os raios destes discos em funcao das entradas restantes da matriz A. Denote o disco complexofechado de centro em a e raio R por

DR (a) = z ∈ C : |z − a| R .

2.17 Teorema. (Teorema dos Discos de Gershgorin) Se A ∈ M n (C) e

Ri (A) =

j=1j=i

|(2.12)

denota a soma dos valores absolutos dos elementos da linha i de A excetuando o elemento da diagonal principal, ent˜ ao todos os autovalores de A est˜ ao contidos na uni˜ ao dos n discos de Gershgorin

G (A) =n

DRi(A) (aii) . (2.13)

Alem disso, se uma uni˜ ao de k destes discos forma uma regi˜ ao que e disjunta dos n−k discos restantes,ent˜ ao existem exatamente k autovalores de A nesta regi˜ ao.

Prova. Seja λ um autovalor de A e x = (x1, . . . , xn) = 0 um autovetor associado. Seja k um ındice tal que

|xk| |xj | para j = 1, . . . , n ,

isto e, xk e a coordenada de x de maior valor absoluto. Denotando por (Ax)k a k-esima coordenada do vetorAx = λx, temos

λxk = (Ax)k =n

que e equivalente a

xk (λ − akk) =

nj=1j=k

akjxj .

|xk| |λ − akk| n

j=1j=k

|akjxj | =n

j=1j=k

|akj | |xj| |xk|n

j=1j=k

|akj | = |xk| Rk (A) ,

ou seja,|λ − akk | Rk (A) .

Isso prova o resultado principal do Teorema de Gershgorin (como nao sabemos qual k e apropriado paracada autovalor λ, e um mesmo k pode servir para varios autovalores λ, tudo o que podemos afirmar e queos autovalores estao na uniao dos discos).

Para provar a segunda afirmacao, escreva A = D + B, onde D = diag (a11, . . . , ann) e defina

At = D + tB

para 0 t 1. Note queRi (At) = Ri (tB) = tRi (A) .

Para simplificar a notacao, assuma que a uniao dos primeiros k discos de Gershgorin

Gk (A) =k

DRi(A) (aii)

satisfaz Gk (A) ∩ [G (A) \Gk (A)] = ∅. Temos

DRi(At) (aii) = z ∈ C : |z − aii| Ri (At) = z ∈ C : |z − aii| tRi (A) ⊂ DRi(A) (aii) ,

logo,Gk (At) ⊂ Gk (A)

Gk (A) ∩ [G (At) \Gk (At)] = ∅para 0 t 1. Porque os autovalores sao funcoes contınuas das entradas de uma matriz, o caminho

λi (t) = λi (At)

e um caminho contınuo que liga λi (A0) = λi (D) = aii a λi (A1) = λi (A). Seja 1 i k. Comoλi (At) ∈ Gk (At) ⊂ Gk (A), concluımos que para cada 0 t 1 existem k autovalores de At em Gk (A); emparticular, fazendo t = 1, obtemos que Gk (A) possui pelo menos k autovalores de A. Da mesma forma, naopode haver mais que k autovalores de A em Gk (A), pois os n − k autovalores restantes de A0 = D comecamfora do conjunto Gk (A) e seguem caminhos contınuos que permanecem fora de Gk (A). A uniao G (A) dos discos de Gershgorin e conhecida como a regi˜ ao de Gershgorin . Observe que enquantonao podemos em geral afirmar com certeza que cada disco de Gershgorin possui um autovalor, a segundaafirmacao do teorema permite-nos fazer tal conclusao desde que os discos de Gershgorin sejam dois a dois

disjuntos.O Teorema dos Discos de Gershgorin permite entender o resultado da Proposicao 2.16: se uma matriz A e

estritamente diagonalmente dominante, entao os discos de Gershgorin DRi(A) (aii) nao interceptam a origem,logo 0 nao pode ser um autovalor para a matriz A, o que implica que A e invertıvel. Alem disso, se todosos elementos da diagonal principal de A sao reais e positivos, entao os autovalores de A estao localizados nosemiplano direito de C, de modo que se A e tambem simetrica, concluımos que todos os autovalores de Asao positivos.

A aplicacao mais obvia do Teorema dos Discos de Gershgorin e na estimativa dos autovalores de umamatriz. Usos mais refinados do Teorema de Gershgorin permitem obter conhecimento mais preciso sobreonde os autovalores da matriz se encontram e correspondentemente melhores estimativas para o raio espectralde uma matriz. Por exemplo, como A e At possuem os mesmos autovalores, existe um teorema dos discosde Gershgorin equivalente para as colunas de uma matriz. Em particular, todos os autovalores de A estao

localizados na intersecao destas duas regioes: G (A)∩G (At

). Isso implica a seguinte estimativa simples parao raio espectral de uma matriz complexa:

2.18 Corolario. Se A ∈ M n (C), ent˜ ao

ρ (A) min

maxi=1,...,n

|aij | , maxj=1,...,n

|aij | = min (AL , AC ) .

Prova. O ponto no i-esimo disco de Gershgorin que e mais distante da origem tem modulo

|aii| + Ri (A) =n

|aij |

e um resultado semelhante vale para as colunas de A. O resultado do Corolario 2.18 nao e surpreendente em vista do raio espectral de uma matriz ser menor quequalquer norma matricial (veja o proximo capıtulo). Um resultado melhor pode ser obtido uma vez quese observa que A e S −1AS tambem possuem os mesmos autovalores, qualquer que seja a matriz invertıvelS . Em particular, quando S = D = diag ( p1, . . . , pn) e uma matriz diagonal com todos os seus elementospositivos, isto e, pi > 0 para todo i, aplicando o Teorema de Gershgorin a matriz

D−1AD =

e a sua transposta, obtemos o seguinte resultado que permite obter uma estimativa arbitrariamente boa dosautovalores de A:

2.19 Corolario. Se A ∈ M n (C) e p1, . . . , pn > 0, ent˜ ao todos os autovalores de A est˜ ao contidos em

G D−1AD ∩ G DAtD−1 =

z ∈ C : |z − aii| 1

nj=1j=i

pj |aij | (2.14)

z ∈ C : |z − aii| pj

ni=1i=j

pi|aij |

Em particular,

ρ (A) min p1,...,pn>0

i=1,...,n

pj |aij | , maxj=1,...,n

pi|aij |

. (2.15)

2.4 Propriedade FC

Na nossa busca por propriedades para matrizes diagonalmente dominantes que garantir ao a sua invertibil-idade, uma observacao fundamental e a de que se A e uma matriz diagonalmente dominante, ent˜ ao 0 n˜ aopode ser um ponto interior de nenhum disco de Gershgorin. De fato, se λ e um autovalor de A interior aalgum disco de Gershgorin entao devemos ter desigualdade estrita

|λ − aii| < Ri (A) =

nj=1j=i

|aij |

para algum i. Se 0 e um autovalor de A interior a algum disco de Gershgorin, entao

|aii| <n

j=1j=i

|aij |

para algum i e A nao pode ser diagonalmente dominante na linha i.Uma condicao equivalente para que um autovalor λ de A nao seja um ponto interior de nenhum disco de

Gershgorin e que

|λ − aii| Ri (A) =

nj=1j=i

|aij | para todo i = 1, . . . , n .

Tais pontos λ na regiao de Gershgorin G (A) (nao necessariamente autovalores de A) constituem precisa-

mente a fronteira ∂G (A) da regiao de Gershgorin. Chamaremos a fronteira de um disco de Gershgorinz ∈ C : |z − aii| = Ri (A) um cırculo de Gershgorin .

2.20 Lema. Seja A ∈ M n (C) e λ um autovalor de A que n˜ ao e um ponto interior de nenhum disco deGershgorin. Seja x = (x1, . . . , xn) = 0 um autovetor associado a λ e k um ındice tal que

|xk| |xj | para j = 1, . . . , n .

Se i e qualquer ındice tal que|xi| = |xk|

ent˜ ao o i-esimo cırculo de Gershgorin passa por λ. Se, alem disso,

aij = 0,

ent˜ ao|xj| = |xk|

e o j-esimo cırculo de Gershgorin tambem passa por λ.

Prova. Como na demonstracao do Teorema de Gershgorin, temos

|xi| |λ − aii| n

j=1j=i

|aijxj| =n

j=1j=i

|aij | |xj | |xk|n

j=1j=i

|aij | = |xk| Ri (A) (2.16)

para todo ındice i. Logo, se |xi| = |xk|, temos

|λ − aii| Ri (A) .

Como por hipotese|λ − aii| Ri (A)

para todo ındice i, segue que|λ − aii| = Ri (A) .

Em geral, |xi| = |xk| implica que as desigualdades em (2.16) sao identidades; em particular,

nj=1j=i

|aij | |xj | = |xi|n

j=1j=i

|aij |

donde nj=1j=i

|aij | (|xi| − |xj |) = 0.

Esta e uma soma de termos nao-negativos, pois |xi| |xj |, logo se aij = 0 necessariamente devemos ter|xj | = |xi| = |xk|.

Este lema tecnico tem as seguintes consequencias uteis:

2.21 Teorema. Seja A ∈ M n (C) uma matriz cujas entradas s˜ ao todas n˜ ao-nulas e seja λ um autovalor de A que n˜ ao e um ponto interior de nenhum disco de Gershgorin. Entao todo cırculo de Gershgorin de A passa por λ (isto e, λ est´ a na intersec˜ ao de todos os cırculos de Gershgorin de A) e se x =(x1, . . . , xn)

= 0 e um autovetor associado a λ ent˜ ao

|xi| = |xj | para todos i, j = 1, . . . , n .

Prova. Decorre diretamente do lema anterior.

2.22 Corolario. Se A ∈ M n (C) e uma matriz cujas entradas s˜ ao todas nao-nulas e diagonalmente domi-

nante tal que |aii| >n

j=1j=i

|aij | para pelo menos alguma linha i, ent˜ ao A e invertıvel.

Prova. Pois, como A e diagonalmente dominante, se 0 e um autovalor de A entao 0 nao pode ser um pontointerior de nenhum disco de Gershgorin. Por outro lado, pelo teorema anterior, segue que todo cırculo deGershgorin passa por 0. Entretanto, o i-esimo cırculo de Gershgorin centrado em aii e com raio Ri < |aii|nao pode passar por 0. Concluımos que 0 nao e um autovalor de A, logo A e invertıvel. As matrizes do Corolario 2.22 sao as antıteses das matrizes esparsas que nos interessam. Usando commaior cuidado a informacao dada pelo Lema 2.20 podemos obter resultados que se aplicam a matrizesesparsas.

2.23 Definicao. Dizemos que uma matriz A = (aij) ∈ M n (C) satisfaz a propriedade FC se para todo parde inteiros distintos i, j existe uma sequencia de inteiros distintos i1 = i, i2, i3, . . . , im−1, im = j, com1 m n, tais que todas as entradas matriciais

ai1i2 , ai2i3 , . . . , aim−1im

sao nao-nulas.

Por exemplo, a matriz diagonalmente dominante nao-invertıvel 4 2 10 1 10 1 1

ja vista anteriormente, nao satisfaz a propriedade FC porque o par 2, 1 nao admite tal sequencia (a unicasequencia possıvel e a23, a31). Ja qualquer par de inteiros distintos i, j tal que aij = 0 admite a sequenciatrivial nao-nula aij , de modo que uma matriz cujas entradas nao-diagonais sao todas nao-nulas satisfaz apropriedade FC . O significado da abreviatura “FC”, ou “fortemente conexo”, ficara claro mais adiante.

2.24 Teorema. Seja A ∈ M n (C) uma matriz que satisfaz a propriedade FC e seja λ um autovalor de A quenao e um ponto interior de nenhum disco de Gershgorin. Ent˜ ao todo cırculo de Gershgorin de A passa por λ (isto e, λ est´ a na intersec˜ ao de todos os cırculos de Gershgorin de A) e se x = (x1, . . . , xn) = 0

e um autovetor associado a λ ent˜ ao

|xi| = |xj | para todos i, j = 1, . . . , n .

Prova. Seja x = (x1, . . . , xn) = 0 um autovetor associado a λ e i um ındice tal que

|xi| |xk| para k = 1, . . . , n .

Pelo Lema 2.20,|λ − aii| = Ri (A) .

Seja j = i qualquer outro ındice e i1 = i, i2, i3, . . . , im−1, im = j, com 1 m n, ındices tais que todas asentradas matriciais

aii2 , ai2i3 , . . . , aim−1j = 0.

Como aii2 = 0, segue da segunda afirmativa do Lema 2.20 que |xi2 | = |xi|. Mas entao ai2i3 = 0 e portanto|xi3 | = |xi2 | = |xi|. Prosseguindo desta forma, concluımos que

|xi| = |xi2 | = . . .xim−1

= |xj | .

Em particular, segue novamente do Lema 2.20 que o j-esimo cırculo de Gershgorin passa por λ. Como j earbitrario, isso prova o teorema.

2.25 Corolario. Se A ∈ M n (C) e uma matriz que satisfaz a propriedade FC e diagonalmente dominante

tal que |aii| >n

j=1j=i

|aij | para pelo menos alguma linha i, ent˜ ao A e invertıvel.

Prova. Segue do teorema anterior da mesma forma que o Corolario 2.22 segue do Teorema 2.21. Vamos tentar entender melhor o significado da propriedade FC . Note que ela se refere apenas a localizacao

dos elementos nao-nulos de A fora da diagonal principal – os elementos da diagonal principal e os valores

especıficos dos elementos fora da diagonal principal sao irrelevantes. Isso motiva as seguintes definicoes:

2.26 Definicao. Dada uma matriz A = (aij) ∈ M n (C) definimos o modulo da matriz A como sendo amatriz

|A| = (|aij |)cujos elementos sao os modulos dos elementos da matriz A e a matriz indicadora de A como sendoa matriz

M (A) = (µij) ,

µij =

1 se aij = 0,0 se aij = 0.

O conceito de uma sequencia de entradas nao-nulas da matriz A que aparece na definicao da propriedadeFC pode ser visualizado em termos de caminhos em um grafo associado a A:

2.27 Definicao. Dada uma matriz A ∈ M n (C), o grafo direcionado de A e o grafo direcionado Γ (A)com n nodos P 1, . . . , P n tais que existe um arco direcionado em Γ (A) de P i a P j se e somente se aij = 0.

Um caminho direcionado γ em um grafo Γ e uma sequencia de arcos P i1P i2 , P i2P i3 , . . . em Γ. Ocomprimento de um caminho direcionado e o numero de arcos sucessivos no caminho direcionado. Umciclo e um caminho direcionado que comeca e termina no mesmo no.

Dizemos que um grafo direcionado e fortemente conexo se entre qualquer par de nodos distintosP i, P j ∈ Γ existir um caminho direcionado de comprimento finito que comeca em P i e termina em P j .

Observe que quando Γ e um grafo direcionado com n nodos, se existe um caminho direcionado entre doisnodos de Γ, entao sempre existe um caminho direcionado entre estes dois nodos de comprimento menor queou igual a n − 1 (Exercıcio 2.7).

2.28 Teorema. A ∈ M n (C) satisfaz a propriedade FC se e somente se Γ (A) e fortemente conexo.

Agora estamos em condicoes de verificar a invertibilidade das matrizes esparsas oriundas da discretizacaode EDPs atraves de diferencas finitas:

2.29 Teorema. As matrizes de discretizac˜ ao do problema modelo s˜ ao invertıveis.

Prova. E facil ver que as matrizes de discretizacao obtidas no capıtulo anterior para o intervalo e parao quadrado sao matrizes diagonalmente dominantes com dominancia diagonal estrita nas linhas correspon-dentes a pontos interiores adjacentes a fronteira. Alem disso, elas satisfazem a propriedade FC . De fato, cadaındice i da matriz corresponde a um ponto interior P i da malha e aij

= 0 sempre que P i e P j sao pontos

vizinhos naqueles esquemas. Entao, dados dois pontos distintos P i, P j e facil encontrar uma sequencia deındices i1 = i, i2, i3, . . . , im−1, im = j, com 1 m n, tais que todas as entradas matriciais

ai1i2 , ai2i3 , . . . , aim−1im

sao nao-nulas: no caso unidimensional, basta percorrer a malha diretamente de P i ate P j (andando a partirde P i sempre para a direita ou sempre para a esquerda, conforme o caso, ate encontrar P j), e no casobidimensional basta usar qualquer caminho interior de P i ate P j (pode-se usar a ordem lexicografica parapercorrer a malha, ou a ordem lexicografica inversa, dependendo das posicoes relativas de P i e P j ; no entanto,estes caminhos sao mais longos que o necessario). Em outras palavras, identificando as malhas de pontosinternos com os grafos direcionados da matriz de discretizacao, de modo que existe um arco direcionado entre

dois pontos da malha se e somente se eles sao vizinhos, os esquemas de discretizacao considerados garantemque estes grafos sao fortemente conexos.

Verificar a propriedade FC a partir do grafo direcionado de A pode ser impraticavel se o tamanho da

matriz for muito grande ou se a matriz nao tiver origem na discretizacao de um problema de EDPs. Existeum metodo computacional mais explıcito para faze-lo:

2.30 Teorema. Sejam A ∈ M n (C) e P i, P j nodos de Γ (A). Existe um caminho direcionado de compri-mento m em Γ (A) de P i para P j se e somente se

(|A|m)ij = 0

ou, equivalentemente, se e somente se[M (A)

m]ij = 0.

Prova. Provaremos o teorema por inducao. Para m = 1 a afirmativa e trivial. Para m = 2, temos

|A|2ij

(|A|)ik (|A|)kj =

|aik| |akj | ,

de modo que|A|2

= 0 se e somente se aik, akj sao ambos nao-nulos para algum ındice k. Mas isso e

equivalente a dizer que existe um caminho direcionado de comprimento 2 em Γ (A) de P i para P j .Em geral, supondo a afirmativa provada para m, temos

|A|m+1ij

(|A|m)ik (|A|)kj =n

(|A|m)ik |akj | = 0

se e somente se (|A|m)ik , akj sao ambos nao-nulos para algum ındice k. Por hipotese de inducao, isso eequivalente a existir um caminho direcionado de comprimento m em Γ(A) de P i para P k e um caminho

direcionado de comprimento 1 em Γ (A) de P k para P j , isto e, um caminho direcionado de comprimentom + 1 em Γ (A) de P i para P j . O mesmo argumento vale para M (A).

2.31 Definicao. Seja A = (aij) ∈ M n (C). Dizemos que A 0 se aij 0 para todos 1 i, j n e queA > 0 se aij > 0 para todos 1 i, j n.

2.32 Corolario. Seja A ∈ M n (C). Existe um caminho direcionado de comprimento m em Γ (A) de cada nodo P i para cada nodo P j se e somente se

|A|m > 0

ou, equivalentemente, se e somente seM (A)

m > 0.

2.33 Corolario. Seja A ∈ M n (C). A satisfaz a propriedade FC se e somente se

(I + |A|)n−1 > 0

ou, equivalentemente, se e somente se

[I + M (A)]n−1 > 0.

Prova. Temos

(I + |A|)n−1 = I + (n − 1) |A| +

n − 1

2 |A|2 + . . . +

n − 1

|A|n−1 + |A|n−1 > 0

se e somente se para cada par de ındices i, j com i = j pelo menos um dos termos |A| , |A|2 , . . . , |A|n−1tem uma entrada positiva em (i, j). Pelo Teorema 2.30, isso ocorre se e somente se existe algum caminhodirecionado em Γ (A) de P i para P j com comprimento n−1. Isto e equivalente a A satisfazer a propriedadeFC . O mesmo argumento vale para M (A). Em geral, a maneira como uma matriz foi obtida (como as nossas matrizes de discretizacao; veja a ultimasecao do capıtulo) torna clara se elas sao matrizes que satisfazem a propriedade FC ou nao. Se issonao e possıvel, e pretende-se verificar a propriedade FC atraves do Corolario 2.33, e preferıvel calcular[I + M (A)]

n−1, ja que M (A) e uma matriz composta apenas de 0’s e 1’s.

2.5 Matrizes Irredutıveis

As vezes, os resultados da secao anterior sao formulados em termos de matrizes irredutıveis. Neste secaoexaminaremos esta formulacao equivalente.

Lembre-se que uma matriz de permutacao P e uma matriz quadrada cujas entradas sao todas 0 ou 1e, alem disso, em cada linha e em cada coluna de P existe exatamente um 1. Em particular, P e uma matrizortogonal, de modo que P −1 = P t, isto e, a inversa de P tambem e uma matriz de permutacao. Um casoespecial de uma matriz de permutacao e uma matriz de transposic˜ ao, que e uma matriz de permutacao T igual a matriz identidade exceto em duas posicoes, isto e, para algum par de ındices fixado k, l temos

T ij =

δij se (i, j) = (k, l) , (l, k) , (k, k) ou (l, l) ,1 e (i, j) = (k, l) ou se (i, j) = (l, k) ,0 se (i, j) = (k, k) ou se (i, j) = (l, l) .

Matrizes de transposicao sao simetricas. O efeito de multiplicar uma matriz A por uma matriz de transposicao

a esquerda e trocar a posicao de duas linhas da matriz A (no caso acima, as linhas k e l), enquanto que amultiplicacao de A por uma matriz de transposicao a direita muda a posicao de duas colunas de A (no casoacima, as colunas k e l).

1 0 0 00 0 1 00 1 0 00 0 0 1

a11 a12 a13 a14a21 a22 a23 a24a31 a32 a33 a34a41 a42 a43 a44

1 0 0 00 0 1 00 1 0 00 0 0 1

Pode-se provar que toda matriz de permutacao P e o produto de matrizes de transposicao P = T 1 . . . T m;em particular, P t = T m . . . T 1. A matriz

P tAP = T m . . . T 1AT 1 . . . T m

e portanto obtida atraves da permutacao de linhas e colunas de A, de modo que nenhum novo elemento ecriado ou algum elemento existente de A destruıdo.

2.34 Definicao. Dizemos que uma matriz A ∈ M n (C) e redutıvel se existe alguma matriz de permutacaoP e algum inteiro 1 m n − 1 tal que

P tAP =

B C 0 D

onde B e uma matriz m × m, D e uma matriz (n − m) × (n − m), C e uma matriz m × (n − m) e 0 ea matriz nula (n − m) × m. Caso contrario, dizemos que A e irredutıvel.

Da definicao vemos que se |A| > 0, entao A e irredutıvel, e para que A seja redutıvel, ela precisa ter pelomenos n − 1 zeros (caso m = 1). A motivacao para este nome e a seguinte. Suponha que queiramos resolvero sistema Ax = b e que A seja redutıvel. Entao, se escrevermos

A = P tAP =

B C 0 D

teremos Ax = P AP tx = b ou AP tx = P tb; denotando x = P tx e b = P tb, resolver o sistema Ax = b e entaoequivalente a resolver o sistema

Ax = b.

Escrevendo

b1b2 onde y, b1 ∈ Cm e z, b2 ∈ Cn−m, este sistema e por sua vez equivalente ao sistema

By + Cz = b1Dz = b2

Se resolvermos primeiro Dz = b2 e utilizarmos o valor de z encontrado na primeira equacao resolvendoBy = b1 − Cz, teremos reduzido o problema original a dois problemas menores, mais f aceis de resolver.

2.35 Teorema. Uma matriz A ∈ M n (C) e irredutıvel se e somente se

(I + |A|)n−1 > 0

ou, equivalentemente, se e somente se

[I + M (A)]n−1 > 0.

Prova. Para provar o resultado, mostraremos que A e redutıvel se e somente se (I + |A|)n−1 possui pelomenos uma entrada nula.

Assuma primeiramente que A e redutıvel, de modo que para alguma matriz de permutacao P tenhamos

B C 0 D

P t =: P AP t.

Observe que|A| =

P AP t

ja que o efeito de P e apenas trocar linhas e colunas. Alem disso, note que

Bk C k

para alguma matriz C k. Logo, como

(I + |A|)n−1 =

I + P AP t

n−1= P

An−1 P t

I + (n − 1) |A| +

n − 1

|A|2 + . . . +

n − 1

n − 3

|A|n−1 + |A|n−1

e todos os termos dentro dos colchetes sao matrizes que tem um bloco (n − m) × m nulo no canto esquerdo

inferior, segue que (I + |A|)n−1 e redutıvel, logo possui entradas nulas e nao pode ser positiva.

Reciprocamente, suponha que (I + |A|)n−1 possui pelo menos uma entrada nula. Como

(I + |A|)n−1 = I +n−1m=1

n − 1

|A|m ,

(I + |A|)n−1 nao possui entradas diagonais nulas, logo podemos assumir que para algum par i = j temos(I + |A|)n−1

= 0, o que implica [|A|m]ij = 0 para todo 1 m n − 1. Pelo Teorema 2.30 (e observacao

imediatamente posterior a definicao de grafo direcionado), nao existe um caminho direcionado em Γ (A) decomprimento finito entre P i e P j . Defina os conjuntos de nodos

S 1 := P k : P k = P j ou existe um caminho direcionado em Γ (A) entre P k e P j ,

S 2 = [ nodos de Γ(A)] \S 1.

Por definicao destes conjuntos, nao pode existir nenhum caminho de algum nodo de S 2 para algum nodo deS 1, logo [|A|m]lk = 0 se P l ∈ S 2 e P k ∈ S 1. E ambos os conjuntos sao nao-vazios, pois P j ∈ S 1 e P i ∈ S 2.Renomeando os nodos de modo que

S 1 = P 1, . . . , P m

S 2 = P m+1, . . . , P n

segue que existe uma matriz de permutacao P tal que

P tAP =

B C 0 D

De fato, P e justamente a matriz de permutacao que troca as colunas de tal forma que as variaveis anteriorescorrespondentes aos nodos P 1, . . . , P m no sistema Ax = b sao as novas m primeiras variaveis do sistema linearAx = b; como nao existe nenhum caminho direcionado entre nenhum dos nodos P m+1, . . . , P n e qualquer um

dos nodos P 1, . . . , P m, temos aij = 0 para m + 1 i n e 1 j m pelo Teorema 2.30.

2.36 Corolario. Uma matriz A ∈ M n (C) e irredutıvel se e somente se ela satisfaz a propriedade FC.

2.37 Proposicao. Se A e uma matriz irredutıvel, diagonalmente dominante tal que |aii| >n

j=1j=i

|aij | para

pelo menos alguma linha i, ent˜ ao A e invertıvel.

Alem disso, se A e hermitiana e todos os elementos da diagonal principal de A s˜ ao positivos, ent˜ ao

todos os autovalores de A s˜ ao positivos.

Prova. O resultado segue do Teorema 2.34, do Corolario 2.25 e do Teorema dos Discos de Gershgorin (vejacomentarios apos o Teorema 2.18).

2.38 Corolario. Os autovalores das matrizes de discretizac˜ ao do problema modelo s˜ ao positivos.

2.6 Exercıcios

2.1 Mostre que as normas matriciais introduzidas na primeira secao deste capıtulo (Exemplos 2.3 ate 2.11)sao de fato normas vetoriais.

2.2 Mostre que a norma l p (Exemplo 2.5) e uma norma matricial.

2.3 Mostre que a norma l2 e diferente da 2-norma em Mn (veja Exemplo 2.10).

2.4 Seja V um espaco vetorial de dimensao finita e ·1 , ·2 normas vetoriais quaisquer. Prove que existeuma constante C > 0 tal que

C x1 x2 C x1

para todo vetor x ∈ V .

2.5 Seja · uma norma matricial. Prove diretamente das propriedades de uma norma matricial queI 1.

2.6 a) Seja · uma norma vetorial. Prove que se α > 0, entao α · e tambem uma norma vetorial.

b) Seja · uma norma matricial. Conclua do Lema 2.14 que se α < 1, entao α · nao e uma normamatricial.

c) Seja · uma norma matricial. Se α > 1, podemos concluir que α · nao e uma norma matricial?

2.7 Mostre que se Γ e um grafo direcionado com n nodos, se existe um caminho direcionado entre doisnodos de Γ, entao sempre existe um caminho direcionado entre estes dois nodos de comprimento menorque ou igual a n − 1

Capıtulo 3

Metodos Iterativos Lineares

Neste capıtulo investigaremos os metodos iterativos basicos para a resolucao de sistemas lineares

Ax = b.

Embora a matriz A que temos em mente e em geral uma matriz grande e esparsa, do tipo que aparece emesquemas de diferencas finitas para equacoes diferenciais parciais, os metodos considerados aqui requeremem princıpio apenas que A seja uma matriz invertıvel com todas as entradas diagonais aii nao-nulas (emboraa matriz A deva satisfazer criterios adicionais, de acordo com cada metodo, para assegurar a convergenciapara a solucao exata).

Metodos iterativos requerem um chute inicial x0, ou seja, um vetor inicial que aproxima a solucao exatax (se nao ha nenhuma informacao disponıvel sobre a solucao exata, de modo que nao temos como construiro chute inicial de forma inteligente, x0 pode ser uma aproximacao muito ruim de x). Uma vez que x0 edado, o metodo iterativo gera a partir de x0 uma nova aproximacao x1, que esperamos deve aproximarmelhor a solucao exata. Em seguida, x1 e usada para gerar uma nova melhor aproximacao x2 e assim pordiante. Desta forma, gera-se uma sequencia de vetores xk que espera-se convergir para x. Como na praticanao podemos iterar para sempre, algum criterio de parada deve ser estabelecido a priori. Uma vez que xk

esteja suficientemente proximo da solucao exata quanto se precise, de acordo com uma margem de toleranciapreviamente fixada, para-se o processo de iteracao e aceita-se xk como a solucao aproximada adequada parao problema. Por exemplo, o criterio de parada pode ser estabelecido atraves de uma cota de tolerancia τ :quando b − Axk

ou quando xk+1 − xk < τ

as iteracoes sao interrompidas e o ultimo valor aproximado obtido e aceito como a melhor aproximacao dasolucao dentro das circunstancias.

Os metodos discutidos neste capıtulo nao necessitam de um bom chute inicial (embora, e claro, quantomelhor o chute inicial, menor o numero de iteracoes necessarias para se chegar a solucao aproximada coma exatidao especificada). Embora os metodos iterativos lineares sao muitos lentos em relacao a outrosmetodos iterativos desenvolvidos mais recentemente, sendo portanto raramente utilizados isoladamente, elessao frequentemente usados hoje em dia como componentes de certos metodos iterativos ultra-rapidos, taiscomo o metodo multigrid .

3.1 Metodo Iterativos Basicos

3.1.1 Metodo de Jacobi

O metodo iterativo linear mais simples (que ja foi descrito tambem como o mais lento para convergir, emboraisso realmente depende da matriz A do sistema) e o metodo de Jacobi (1845) Escrevendo o sistema Ax = bna forma

a1jxj = b1

anjxj = bn

se aii = 0 para todo i, cada xi pode ser isolado na i-esima equacao e escrito na forma

aii bi −n

j=1j=i

aijxj .

Isso sugere definir um metodo iterativo da seguinte forma: suposto xk =

xk1 , . . . , xk

obtido no passo

anterior, obtemos xk+1 =

xk+11 , . . . , xk+1

xk+1i =

bi −n

j=1j=i

aijxkj

. (3.1)

No caso da formula de cinco pontos para o problema de Poisson, como a equa cao para cada ponto (i, j)e dada por

−ui,j−1 − ui,j+1 + 4ui,j − ui−1,j − ui+1,j = h2f i,j

o metodo de Jacobi e

uk+1i,j =

uki,j−1 + uk

i−1,j + uki+1,j + uk

i,j+1 + h2f i,j

. (3.2)

No caso especial da equacao de Laplace (f = 0) com condicao de fronteira de Dirichlet nao-nula, o metodode Jacobi e simplesmente a propriedade do valor medio discreta

uk+1i,j =

uki,j−1 + uk

. (3.3)

Em outras palavras, calculados os valores de u em todos os pontos da malha na iteracao anterior, o novovalor de u em um ponto interior da malha nesta iteracao e calculado atraves da media dos seus quatropontos vizinhos. Os valores iniciais de u nos pontos interiores da malha para a primeira iteracao (isto e, o

chute inicial) podem ser atribuidos arbitrariamente ou atraves de algum argumento razoavel; por exemplo,podemos utilizar uma media ponderada dos valores de fronteira para o valor inicial em cada ponto interiorda malha, de acordo com a posicao do ponto em relacao aos pontos das quatro fronteiras discretizadas.

Em forma matricial, o algoritmo de Jacobi pode ser descrito da seguinte forma. Denotando por D = diag(a11, . . . , ann) a matriz diagonal cujas entradas sao as entradas diagonais de A, temos que

xk+1 = D−1

(D − A) xk + b

ouxk+1 = D−1

Cxk + b

onde C = D − A e a matriz consistindo dos elementos restantes de A fora da diagonal principal.

3.1.2 Metodo de Gauss-Seidel

Um metodo iterativo que converge cerca de duas vezes mais rapido que o metodo de Jacobi (na maioriadas aplicacoes) e o metodo de Gauss-Seidel (desenvolvido inicialmente por Gauss em 1819 para resolver

sistemas de equacoes lineares que apareciam no seu metodo de quadrados mınimos e obtendo sua forma finalem 1874 por Seidel), onde os valores de x sao atualizados dentro de cada iteracao, sem esperar pela proxima.Em outras palavras, obtido o valor de xk+1

i este e usado no lugar de xki no calculo seguinte de xk+1

i+1 . Nosistema Ax = b em que aii = 0 para todo i, como antes isolamos cada xi na i-esima equacao mas desta vezescrevemos

bi −i−1j=1

aijxj −n

Entao definimos

xk+1i =

bi −

i−1j=1

aijxk+1j −

nj=i+1

aijxkj

pois os valores xk+11 , . . . , xk+1

i−1 ja foram computados nesta iteracao, enquanto que os valores xki+1, . . . , xk

n saofornecidos pela iteracao anterior.

Por exemplo, no caso da equacao de Laplace, poderıamos utilizar a formula

uk+1i,j =

uk+1i,j−1 + uk+1

assumindo que os pontos da malha sao percorridos na ordem lexicografica, de modo que quando vamoscalcular o valor de u no ponto i, j na iteracao k + 1, nesta mesma iteracao ja calculamos os valores de u emi − 1, j e em i, j − 1, e usamos estes valores para calcular uk+1

i,j ao inves dos valores uki,j−1 e uk

i−1,j obtidosna iteracao anterior.

Em forma matricial, o algoritmo de Gauss-Seidel pode ser descrito da seguinte forma. Dada uma matrizA, existe uma unica decomposicao

A = D − L − U (3.8)

onde D e uma matriz diagonal, L e uma matriz estritamente triangular inferior e U e uma matriz estritamentetriangular superior; de fato, D = diag (a11, . . . , ann) e a parte diagonal de A, −L e a parte estritamentetriangular inferior de A e −U e a parte estritamente triangular superior de A. Entao o algoritmo de Gauss-Seidel pode ser definido por

xk+1 = D−1

Lxk+1 + Uxk + b

ou(D − L) xk+1 = Uxk + b,

dondexk+1 = (D − L)−1

U xk + b

. (3.10)

3.1 Exemplo. Existem matrizes para as quais o metodo de Jacobi converge e o metodo de Gauss-Seideldiverge, e vice-versa. Veja o Exercıcio 3.1.

3.1.3 Metodo SOR

O processo de corrigir uma equac˜ ao atraves da modificac˜ ao de uma vari´ avel e as vezes chamado de relax-amento. Antes da correc˜ ao, a equac˜ ao n˜ ao e verdadeira; como um conjunto de partes que n˜ ao se ajustam,ela esta em estado de tens˜ ao. A correc˜ ao de uma vari´ avel relaxa a tens˜ ao. O metodo de Gauss-Seidel efetua relaxamento sucessivo, ou seja, passa de equac˜ ao para equac˜ ao, relaxando uma depois da outra. [Watkins]

Por este motivo, os metodos de Jacobi e de Gauss-Seidel sao tambem chamados metodos de relaxamento.Em muitos casos, a convergencia pode ser substancialmente acelerada atraves de sobrerelaxamento. Isso

significa que ao inves de fazer uma correcao para a qual a equacao e satisfeita exatamente, nos fazemosuma correcao maior. No caso mais simples, escolhe-se um fator de relaxamento ω > 1 que sobrecorrige poraquele fator em cada passo (se mover um passo na dire cao de xk para xk+1 e bom, mover naquela direcao

ω > 1 passos e melhor). Este e o chamado metodo de sobrerelaxamento sucessivo (SOR, successiveoverrelaxation ; desenvolvido em 1950 por Young): usando o metodo de Gauss-Seidel obtemos

xk+1i =

bi −i−1j=1

aijxk+1j −

nj=i+1

aijxkj

daı tomamosxk+1i = xk

i + ω xk+1

i − xki

Isso pode ser resumido em

xk+1i = xk

i + ω 1

aii bi−

j=1 aijxk+1j

aijxkj−

xki . (3.11)

Quando ω = 1, o metodo SOR e exatamente o metodo de Gauss-Seidel. Um fator ω < 1 (subrelaxamento)normalmente diminui a velocidade de convergencia.

Para a maioria dos problemas, o melhor valor para o fator de relaxamento e desconhecido. Para a matrizde discretizacao obtida a partir da formula de cinco pontos, e sabido que o valor otimo de ω e, como veremosna proxima secao,

1 + sen (πh). (3.12)

Em forma matricial, o metodo SOR pode ser descrito da seguinte forma. Como antes, dada uma matrizA escrevemos

−U (3.13)

onde D e uma matriz diagonal, L e uma matriz estritamente triangular inferior e U e uma matriz estritamentetriangular superior. Entao, escrevendo o algoritmo SOR na forma

aiixk+1i = aiix

ki + ω

bi −i−1j=1

aijxk+1j −

aijxkj

temosDxk+1 = Dxk + ω

Lxk+1 + (U − D) xk + b

(3.14)

ωD − L

xk+1 =

1 − ω

ωD + U

xk + b,

xk+1 =

ωD − L

−1 1 − ω

ωD + U

xk + b

. (3.15)

3.1.4 Comparacao da Velocidade de Convergencia dos Tres Metodos no Prob-lema Modelo

A tabela a seguir foi extraıda de [Watkins], pags. 533 e 542. Os metodos introduzidos acima foram usadospara resolver o sistema linear Ax = b onde A e a matriz de discretizacao obtida a partir da formula dos

cinco pontos do laplaciano no quadrado unitario Ω = (0, 1)2

e b e estabelecido pela condicao de fronteira deDirichlet dada por

g (x, y) = 0 se x = 0,

y se x = 1,(x − 1) sen x se y = 0,x (2 − x) se y = 1,

ou seja, para resolver o problema discretizado −∆dud = 0 em Ωd,ud = gd sobre ∂ Ωd.

As iteracoes foram interrompidas quando uk+1 − uk2

|uk+1|2< 10−8.

O numero de iteracoes necessarias para convergir de acordo com esta margem de tolerancia, para tres refina-mentos possıveis da malha (correspondentes a matrizes de dimensoes n = 81, 361 e 1521, respectivamente),de acordo com cada metodo e para diferentes valores de ω no caso do metodo SOR e apresentado na tabelaabaixo.

h = 0.1 h = 0.05 h = 0.025

Jacobi 299 1090 3908

SOR (ω = 0.8) 235 845 3018

Gauss-Seidel 160 581 2082

SOR (ω = 1.4) 67 262 955

SOR (ω = 1.6) 42 151 577

SOR (ω = 1.7) 57 96 412

SOR (ω = 1.8) 86 89 252

SOR (ω = 1.9) 176 180 179SOR (ω = 2.0) ∞ ∞ ∞

Vemos que o metodo de Gauss-Seidel e cerca de duas vezes mais rapido para convergir que o metodo deJacobi e que dependendo da escolha de ω, o metodo SOR pode ser ate dez vezes mais rapido que o metodode Gauss-Seidel para a malha mais refinada. Subrelaxamento nao ajuda e para ω = 2 o metodo SOR edivergente.

3.1.5 Metodo de Jacobi Amortecido

O metodo de Gauss-Seidel pode ser sobrerelaxado atraves de um parametro ω > 1 para obter um metodoque converge mais rapido. Ja o metodo de Jacobi nao pode em geral ser sobrerelaxado, porque o metodoobtido nao converge. Ele pode no entanto ser subrelaxado atraves de um parametro ω < 1 para obter ummetodo convergente, se bem que mais vagaroso. A vantagem de se utilizar um tal metodo e que para certosvalores de ω ele e um otimo suavizador de erro (em um sentido que sera explicado mais tarde), enquantoque o metodo de Jacobi usual nao possui esta propriedade. Assim, o metodo de Jacobi amortecido pode serusado em metodos multigrid, como veremos mais tarde.

Pelo metodo de Jacobi usual obtemos

xk+1i =

bi −n

j=1j=i

aijxkj

e tomamosxk+1i = xk

i + ω

xk+1i − xk

ou seja,

xk+1i = xk

i + ω

bi −n

j=1j=i

aijxkj

− xki

. (3.16)

Este metodo e conhecido como metodo de Jacobi amortecido, metodo de Jacobi ponderado ou aindametodo de relaxamento simultaneo (diferente do metodo de relaxamento sucessivo, baseado no metodo deGauss-Seidel, em que cada variavel e substituıda sucessivamente dentro da mesma iteracao a medida queela e atualizada; no metodo de Jacobi, as variaveis sao todas substituıdas simultameamente na proximaiteracao).

Em forma matricial, o metodo de Jacobi amortecido pode ser descrito da seguinte forma. Denotando porD a parte diagonal de A, temos

aiixk+1i = aiix

ki + ω

bi − nj=1

aijxkj ,

temosDxk+1 = Dxk + ω

b − Axk

(3.17)

xk+1 =

ωD − A

xk + ωb,

xk+1 =

−1 1

ωD − A

xk + b

. (3.18)

Em contraste com o metodo SOR, que converge em geral para 0 < ω < 2, o metodo de Jacobi amortecidoconverge para 0 < ω 1 (veja a proxima secao).

3.2 Analise de Convergencia dos Metodos Iterativos Lineares

Os metodos iterativos basicos sao casos especiais de uma classe geral de metodos chamados metodos iterativoslineares:

3.2 Definicao. Um metodo iterativo linear para resolver o sistema Ax = b e um metodo da forma

xk+1 = Rxk + N b

onde R e N sao matrizes dadas. A matriz R e chamada a matriz de iteracao do metodo.

Em geral, um metodo iterativo linear para resolver o sistema linear

Ax = b

envolve a decomposicao da matriz A na forma

A = B − C, (3.19)

onde B e necessariamente uma matriz invertıvel, e em seguida a resolucao iterativa do sistema de equacoes

Bxk+1 = Cxk + b (3.20)

ou, mais explicitamente,xk+1 = B−1

Cxk + b

Na notacao da definicao, temos que a matriz de iteracao e

R = B−1C = B−1 (B − A) = I − B−1A (3.21)

eN = B−1. (3.22)

Se xk → x, entao Bx = Cx + b, donde Ax = b. Do ponto de vista pratico, e importante que a matriz Bseja “facil de resolver” (mesmo que a inversa de B nao seja efetivamente calculada), como nos exemplos dasecao anterior:

Jacobi D D − A D−1 (D − A)

Jacobi amortecido 1ω

D − A 1ω

D−1 1ω

D − AGauss-Seidel D − L U (D − L)

−1 U

ωD − L

1 − ω

ωD + U

ωD − L

−11 − ω

ωD + U

Para obter uma convergencia rapida tambem gostarıamos que B ≈ A e C ≈ 0. Deste ponto de vista, o idealseria B = A e C = 0 (convergencia em uma iteracao), mas isso viola em geral o criterio que B seja “facilde resolver”. Um compromisso e necessario: B deve aproximar A o melhor possıvel sem se tornar muitocomplicada.

3.2.1 Convergencia dos Metodos Iterativos Lineares3.3 Definicao. Para metodos iterativos em geral, o erro algebrico e definido por

ek = x − xk, (3.23)

enquanto que o erro residual e dado por

rk = b − Axk. (3.24)

O erro algebrico tem interesse puramente teorico (para provar que determinado metodo iterativo converge,precisamos mostrar que o erro algebrico tende a zero), ja que ele so pode ser calculado uma vez que seconhece a solucao exata, e se este for o caso obviamente nao ha necessidade de resolver o sistema. Ja o erro

residual pode ser usado como criterio de parada para o metodo iterativo. O erro algebrico e o erro residualestao relacionados atraves da expressao:

Aek = rk, (3.25)

pois Aek = Ax − Axk = b − Axk = rk.Para os metodos iterativos lineares, como

Bek+1 = Bx − Bxk+1 = Ax + Cx − Cxk − b = C

x − xk

= Cek,

segue queek+1 =

B−1C

ouek+1 = Rek. (3.26)

Por este motivo, a matriz de iteracao tambem e chamada de matriz de propagac˜ ao do erro. Segue de (3.26)

queek = Rke0, (3.27)

de modo que o erro converge para 0, independentemente do chute inicial x0, se e somente se Rk → 0. Issoocorre se e somente se existe alguma norma matricial · tal que R < 1. Obter uma norma matricialque satisfaz esta propriedade, no entanto, e difıcil. Vamos obter uma condicao necessaria e suficiente paraRk → 0 em termos do raio espectral da matriz de iteracao, que e em geral um pouco mais facil de calcular.Antes, para motivar o resultado, suponha que R seja uma matriz diagonalizavel com λ1, . . . , λn os seusautovalores e v1, . . . , vn uma correspondente base de autovetores. Escrevendo o erro inicial como umacombinacao linear dos autovetores, temos

ek = Rke0 =n

aiλki vi,

de modo que ek ni=1

|ai| |λi|k |vi| .

Como |λi|k → 0 se e somente se |λi| < 1, concluımos que ek → 0 qualquer que seja o erro inicial (isto e,qualquer que seja o chute inicial), se e somente se

ρ (R) = max1in

|λi| < 1 .

3.4 Lema. Se A ∈ Mn (C) e · e qualquer norma matricial, ent˜ ao

ρ (A) A .

Prova. Seja λ um autovalor qualquer de A e x um autovetor nao-nulo associado a λ, de modo que

Ax = λx.

Considere a matriz X ∈ Mn (C) cujas colunas sao todas iguais ao vetor x. Temos tambem

AX = λX

de modo que |λ| X = AX A X ,

donde|λ| A

para todo autovalor λ de A. Como existe um autovalor λ de A tal que ρ (A) = |λ|, isso prova o resultado.

3.5 Lema. Seja A ∈ Mn (C) e ε > 0 dado. Ent˜ ao existe uma norma matricial · tal que

ρ (A) A ρ (A) + ε. (3.28)

Prova. Toda matriz complexa A e triangularizavel atraves de uma matriz unitaria U isto e, isto e, existeuma matriz triangular T e uma matriz U que satisfaz U ∗U = UU ∗ = I (veja [Hoffman-Kunze]) tais que

T U ;T e chamada a forma triangular ou forma normal de Schur de A. Seja entao

λ1 a12 a22 . . . a1n

λ2 a23 . . . a2nλ3 . . . a3n

. . ....

a forma triangular de A. Para t ∈ R arbitrario, considere a matriz diagonal

Dt = t

t2. . .

DtT D−1t =

λ1 a12t−1 a22t−2 . . . . . . a1nt−n+1

λ2 a23t−1 . . . . . . a2nt−n+2

λ3 . . . . . . a3nt−n+3

. . ....

λn−1 an−1,nt−1

Logo, para t > 0 suficientemente grande, a matriz DtT D−1t tem a propriedade que a soma dos valores

absolutos de elementos fora da diagonal principal e menor que ε. Em particular, se ·L denota a norma domaximo das somas das linhas, podemos garantir queDtT D−1

L ρ (A) + ε

para t suficientemente grande. Portanto, fixado um tal t, se definirmos uma norma por

A :=DtU AU ∗D−1

=U ∗D−1

−1AU ∗D−1

teremosA =

DtU AU ∗D−1

DtT D−1

L ρ (A) + ε.

Pelo lema anterior, ρ (A) A.

3.6 Lema. Seja A ∈ Mn (C). Se existe alguma norma matricial · tal que A < 1, ent˜ ao

Ak → 0.

Prova. Se A < 1, entao Ak Ak → 0.

3.7 Proposicao. Seja A ∈ Mn (C). Ent˜ aoAk → 0

se e somente se

ρ (A) < 1.

Prova. Se existe algum autovalor λ de A tal que |λ| 1 e x e um autovetor nao-nulo correspondente, entao

Akx = λkx

nao converge para 0. Reciprocamente, se ρ (A) < 1, entao pelo Lema 3.5 existe uma norma matricial · talque A < 1, logo Ak → 0 pelo lema anterior.

Finalmente obtemos uma condicao necessaria e suficiente para um metodo iterativo linear convergir:

3.8 Corolario. Seja R a matriz de iterac˜ ao de um metodo iterativo linear. Ent˜ ao

ek → 0

se e somente seρ (R) < 1.

Em outras palavras, um metodo iterativo linear e convergente independentemente da escolha do chuteinicial se e somente se todos os autovalores da matriz de iterac˜ ao tem valor absoluto menor que 1.

Portanto, a analise da convergencia de um determinado metodo iterativo linear passa pela analise dos au-tovalores de sua matriz de iteracao R. Como esta ultima depende da matriz de coeficientes A do sistemalinear, a convergencia ou nao de qualquer um dos metodos iterativos lineares vai depender da matriz A.

3.2.2 Velocidade de Convergencia dos Metodos Iterativos Lineares

O raio espectral tambem da informacao sobre a velocidade de convergencia. Se nos tivermos dois metodos

iterativos lineares diferentes, isto e, duas maneiras diferentes de decompor a matriz A:

A = B1 − C 1 = B2 − C 2,

entao o segundo metodo convergira mais rapido se e somente se

ρ (R2) < ρ (R1) .

Em particular, a velocidade de convergencia relativa dos metodos iterativos lineares tambem vai dependerda matriz A: para certas matrizes um determinado metodo e superior ao outro, enquanto que para outrasmatrizes o contrario e verdadeiro.

Vamos analisar a velocidade de convergencia dos metodos iterativos com maior precisao. Novamente atıtulo de motivacao, suponha que R e uma matriz diagonalizavel com seu maior autovalor sendo um autovalorsimples. Ordene os autovalores de R na forma

|λ1| > |λ2| . . . |λn|e seja v1, . . . , vn uma correspondente base de autovetores. Escrevendo de novo

ek = Rke0 =n

aiλki vi,

segue que

ek = λk1

a1v1 +

Como λi

→ 0,

a taxa de convergencia e determinada por |λ1|k. Para k grande, temos

ek ≈ λk1a1v1.

Portanto, ek+1|ek| = |λ1| = ρ (R) . (3.29)

Em outras palavras, a convergencia e linear com taxa de convergencia igual ao raio espectral . Se a1 =

0 a convergencia sera mais rapida, pois dependera do modulo do segundo autovalor, mas e obviamenteextremamente raro que o erro inicial satisfaca esta condicao, isto e, que ele nao tenha nenhuma componentena direcao do primeiro autovetor. Para o caso geral, precisamos do seguinte resultado:

3.9 Proposicao. Seja A ∈ Mn (C) e · uma norma matricial. Ent˜ ao

ρ (A) = limAk

Prova. Como os autovalores da matriz Ak sao as k-esimas potencias dos autovalores de A (este resultadopode ser mais facilmente visto a partir da forma triangular de A), temos que

ρ (A)k

dondeρ (A)

Ak1/k .

Por outro lado, dado ε > 0, a matriz

ρ (A) + εA

tem raio espectral menor que 1, logo Bk → 0. Portanto, existe algum N = N (ε, A) tal queBk < 1,

para todo k > N . Logo,

< (ρ (A) + ε)

donde Ak1/k < ρ (A) + ε

para todo k > N .

3.10 Definicao. A taxa media de convergencia de um metodo iterativo linear com matriz de iteracaoR e definida como sendo

Rk (R) = − log10Rk

1/k = − 1

klog10

Rk (3.30)

e a taxa assintotica de convergencia e dada por

R∞ (R) = limk→∞

Rk (R) . (3.31)

3.11 Corolario. Seja R a matriz de iterac˜ ao de um metodo iterativo linear. Ent˜ ao a taxa assint´ otica deconvergencia do metodo e dada por

(R) =−

ρ (R) . (3.32)

Prova. PoisR∞ (R) = − lim

k→∞log10

Rk1/k = − log10 lim

k→∞

Rk1/k = − log10 ρ (R) .

A taxa assintotica de convergencia mede o aumento no numero de casas decimais corretas na solucao poriteracao. De fato, usando a norma matricial do Lema 3.5 e medindo as normas dos vetores de acordo, temosek+1

|ek| =

Rk+1e0

|Rke0| R = ρ (R) + ε,

− log10 ek+1|ek| = − log10 ρ (R) + O (ε)

oulog10

ek− log10ek+1 = R∞ (R) + O (ε) . (3.33)

Assim, se ek = O

10− p

,ek+1 = O

10−q

teremosq − p ≈ R∞ (R) ,

isto e, reduzimos R∞ (R) ≈ q − p casas decimais no erro. Visto de outra forma, comoek+m|ek| =

Rk+me0|Rke0| Rm = ρ (R)

m+ O (ε) ,

− log10

|ek| ≈ −m log10 ρ (R) ,

m =log10

ek+m /

eklog10 ρ (R)

(3.34)

e o numero de iteracoes necessarias para diminuir o erro de um numero prescrito de casas decimais.

3.2.3 Convergencia para Matrizes Simetricas Positivas DefinidasPara matrizes reais simetricas positivas definidas e mais facil provar a convergencia dos metodos iterativoslineares. Temos o seguinte resultado basico a seguir. Antes precisamos da seguinte definicao:

3.12 Definicao. Introduzimos uma ordenacao parcial em Mn definindo

seAx,x Bx,x

para todo x ∈ Cn.

Em particular, se A e uma matriz positiva definida, segue que A εI para algum ε (o menor autovalor deA) e denotamos este fato por

A > 0.

Lembramos que se A e uma matriz simetrica positiva definida e P e uma matriz invertıvel, entao B = P tAP tambem e uma matriz simetrica positiva definida, pois

P tAP t

= P tAt

= P tAP = B

eBx,x =

P tAPx,x

= APx,Px .

3.13 Teorema. Seja A uma matriz simetrica positiva definida e seja A = B −C com B invertıvel. Ent˜ ao ometodo iterativo linear com matriz de iterac˜ ao R = B−1C converge se e somente se a matriz simetrica Bt + C e positiva definida.

Prova. Para ver que Bt + C e simetrica, escreva Bt + C = Bt + B

−A e note que

Bt + C t

Bt + B − At

= B + Bt − A = Bt + B − A = Bt + C.

Medimos a norma do erro atraves da norma induzida por A

|x|A := Ax,x1/2

e consideraremos a norma matricial ·A induzida por esta norma. Se provarmos que

RA < 1,

o metodo convergira. Temos

R2A = B−1C 2A

= supx=0

B−1Cx2A|x|2A

= supx=0

AB−1Cx,B−1CxAx,x = sup

C tB−tAB−1Cx,xAx,x . (3.35)

Observe que C tB−tAB−1C e uma matriz simetrica positiva definida, pois

C tB−tAB−1C =

Bt − A

B−tAB−1 (B − A) =

I − AB−t

I − B−1A

I − B−1At

I − B−1A

Portanto, para provar que RA < 1, basta mostrar que

C tB−tAB−1C < A. (3.36)

Continuando o desenvolvimento da expressao em outra direcao, temos

C tB−tAB−1C =

I − AB−t

I − B−1A

= A − AB−tA + AB−1A − AB−tAB−1A

= A − AB−t

B + Bt − A

B−1A

= A − B−1A

t Bt + C

B−1A.

de modo que (3.36) vale se e somente se Bt + C e positiva definida.

3.3 Convergencia dos Metodos Iterativos Lineares para Matrizesde Discretizacao

3.3.1 Convergencia do Metodo de Jacobi

3.14 Teorema. Se A e uma matriz irredutıvel, diagonalmente dominante tal que |aii| >n

j=1j=i

|aij | para pelo

menos alguma linha i, ent˜ ao o metodo de Jacobi converge.

Prova. Seja D a parte diagonal da matriz A e R = D−1 (D − A) = I − D−1A a matriz de iteracao dometodo de Jacobi para A. Suponha por absurdo que exista um autovalor λ de R tal que |λ| 1. Comoλ det

λ−1R − I

= det (R − λI ) = 0, temos

I − λ−1R

Por outro lado, observe que I

−λ−1R tambem e irredutıvel, pois

I − D−1Aij

0 se i = j,

−aij

aiise i = j,

I − λ−1R

1 se i = j,

λ−1aij

aiise i = j,

de modo que, onde A se anula, I −λ−1R tambem se anula. Alem disso, I −λ−1R e diagonalmente dominantee estritamente dominante nas linhas onde A e, pois |λ|−1 1,

I − λ−1R

j=1j=i I − λ−1R

|λ|−1

j=1j=i

|aij | 1

j=1j=i

|aij | .

Mas, pela Proposicao 2.36, isso implica que I − λ−1R e invertıvel, uma contradicao. O Teorema 3.14 mostra que o metodo de Jacobi converge para as matrizes de discretizacao obtidas atravesdos esquemas de diferencas finitas do Capıtulo 1.

Atraves do Teorema 3.14, fomos capazes de provar a convergencia do metodo de Jacobi para as matrizes dediscretizacao sem calcular explicitamente os seus raios espectrais. Para analizar a velocidade de convergenciado metodo de Jacobi, no entanto, e necessario obter os raios espectrais destas matrizes. Vamos fazer isso paraas matrizes de discretizacao obtidas a partir da formula de tres pontos unidimensional e a partir da formulade cinco pontos bidimensional. Para isso, precisaremos obter os autovalores destas matrizes de discretizacao.

No caso da formula de tres p ontos unidimensional, lembrando que as autofuncoes para o problema deDirichlet do laplaciano no intervalo [0, 1] sao as funcoes trigonometricas

U j (x) = sen jπx,

isso sugere que os autovetores uj da matriz A sejam os vetores de coordenadas

U j (x1) , U j (x2) , . . . , U j (xn−2) , U j (xn−1) = U j (h) , U j (2h) , . . . , U j ((n − 2) h) , U j ((n − 1) h) ,

ou seja, como h = 1/n, os vetores

n, sen

n, . . . , sen

(n − 2) jπ

n, sen

(n − 1) jπ

Usando identidades trigonometricas, vamos verificar que isso de fato acontece:

3.15 Lema. Os n − 1 autovalores da matriz de discretizac˜ ao A da f´ ormula dos tres pontos unidimensional s˜ ao

λj =2

−cos

sen2jπ

(3.37)

e os autovetores correspondentes s˜ ao

n, sen

n, . . . , sen

(n − 2) jπ

n, sen

(n − 1) jπ

(3.38)

j = 1, . . . , n − 1.

Prova. Temos

2 −1−1 2 −1

−1 . . . . . .. . .

. . . −1−1 2 −1

−1 2

senjπ

sen2 jπ

sen(n − 2) jπ

sen(n − 1) jπ

2senjπ

n− sen

−sen

+ 2 sen2 jπ

n −sen

− sen(n − 3) jπ

n+ 2 sen

(n − 2) jπ

n− sen

(n − 1) jπ

n+ 2 sen

(n − 1) jπ

1 − cos

senjπ

sen2 jπ

sen(n − 2) jπ

(n − 1) jπ

2senjπ

n− sen

n= 2 sen

n− 2sen

1 − cos

− sen(n − k − 1) jπ

n+ 2 sen

(n − k) jπ

n− sen

(n − k + 1) jπ

= − sen

(n − k) jπ

n− jπ

+ 2 sen

(n − k) jπ

n− sen

(n − k) jπ

= − sen(n

−k) jπ

n cosjπ

n + cos(n

−k) jπ

n senjπ

n + 2 sen(n

−k) jπ

− sen(n − k) jπ

n− cos

(n − k) jπ

1 − cos

(n − k) jπ

n+ 2 sen

(n − 1) jπ

= − sen (n − 1) jπ

n− jπ

+ 2 sen

(n − 1) jπ

= − sen(n − 1) jπ

n+ cos

(n − 1) jπ

n+ 2 sen

(n − 1) jπ

= − sen(n − 1) jπ

n− sen

(n − 1) jπ

n+ 2 sen

(n − 1) jπ

1 − cos

(n − 1) jπ

onde na penultima identidade usamos o fato que

−1) jπ

n = − sen

−1) jπ

porque

0 = sen jπ = sen

(n − 1) jπ

n+ cos

(n − 1) jπ

No caso da formula de cinco pontos bidimensional, lembrando que as autofuncoes de Dirichlet do lapla-

ciano no quadrado unitario [0, 1] × [0, 1] sao as funcoes

U kl (x, y) = sen kπx sen lπy,

isso sugere que os autovetores ukl da matriz A na ordem lexicografica sao os vetores de coordenadas

U kl (x1, y1) , U kl (x2, y1) , . . . , U kl (xn−1, y1) ,U kl (x1, y2) , U kl (x2, y2) , . . . , U kl (xn−1, y2) ,...U kl (x1, yn−1) , U kl (x2, yn−1) , . . . , U kl (xn−1, yn−1)

ou seja,U kl (h, h) , U kl (2h, h) , . . . , U kl ((n − 1) h, h) ,U kl (h, 2h) , U kl (2h, 2h) , . . . , U kl ((n − 1) h, 2h) ,...U kl (h, (n − 1) h) , U kl (2h, (n − 1) h) , . . . , U kl ((n − 1) h, (n − 1) h) ,

ou seja, como h = 1/n, os vetores

senkπ

m, sen

n, . . . , sen

(n − 1) kπ

senkπ

n, sen

n, . . . , sen

(n − 1) kπ

. . . ,

senkπ

(n − 1) lπ

n, sen

(n − 1) lπ

n, . . . , sen

(n − 1) kπ

(n − 1) lπ

3.16 Lema. Os (n − 1)2

autovalores da matriz de discretizac˜ ao A da f´ ormula dos cinco pontos bidimensional s˜ ao

λkl =2

−cos

n −cos

h2 sen2

+ sen2lπ

2n (3.39)

e os autovetores correspondentes s˜ ao

n, sen

n, . . . , sen

(n − 1) kπ

senkπ

n, sen

n, . . . , sen

(n − 1) kπ

n, (3.40)

. . . ,

senkπ

(n − 1) lπ

n, sen

(n − 1) lπ

n, . . . , sen

(n − 1) kπ

(n − 1) lπ

k = 1, . . . , n − 1, l = 1, . . . , m − 1.

Prova. Embora a demonstracao deste lema possa ser feita de maneira analoga a do lema anterior, usandoidentidades trigonometricas, daremos uma demonstracao diferente. Lembrando que as autofuncoes e osautovalores de Dirichlet do laplaciano no retangulo sao facilmente obtidos atraves do metodo de separacaode variaveis, encontraremos os autovalores da matriz A usando um metodo de separac˜ ao de vari´ aveis discretopara achar os autovalores do laplaciano discreto dado pela formula dos cinco pontos:

−ui,j−1 + ui−1,j − 4ui,j + ui+1,j + ui,j+1

h2= λui,j . (3.41)

Em particular, este metodo nao depende da maneira como os pontos da malha s ao ordenados (nao dependeda matriz A usada para representar o laplaciano discreto). Como no metodo de separacao de variaveiscontınuo, assumimos que as solucoes da equacao discreta acima sao produtos da forma

ui,j = F (i) G ( j) , (3.42)

onde F e G sao funcoes de uma variavel inteira. Substituindo esta expressao na equacao de Helmholtzdiscreta, obtemos

F (i) G ( j − 1) + F (i − 1) G ( j) − 4F (i) G ( j) + F (i + 1) G ( j) + F (i) G ( j + 1) = −λh2F (i) G ( j) .

Dividindo esta equacao por F (i) G ( j), segue que

F (i − 1) − 2F (i) + F (i + 1)

F (i)+

G ( j − 1) − 2G ( j) + G ( j + 1)

G ( j)= −λh2.

Separando as variaveis, concluımos que cada um dos quocientes acima e independente de i ou de j, isto e,

eles sao constantes:

F (i − 1) − 2F (i) + F (i + 1)

F (i)= A, (3.43)

G ( j − 1) − 2G ( j) + G ( j + 1)

G ( j)= B, (3.44)

onde as constantes α, β estao relacionadas pela identidade

A + B = −λh2. (3.45)

Estas equacoes podem ser escritas como formulas de recorrencia (analogas as equacoes diferenciais ordinariasobtidas no metodo de separacao de variaveis contınuo)

F (i + 1) − (A + 2) F (i) + F (i − 1) = 0,G ( j − 1) − (B + 2) G ( j) + G ( j + 1) = 0.

Para resolve-las, e mais conveniente trabalhar com as constantes

2α = A + 2,

2β = B + 2.

Desta forma, as equacoes para F e G tornam-se

F (i − 1) − 2αF (i) + F (i + 1) = 0, (3.46)

G ( j − 1) − 2βG ( j) + G ( j + 1) = 0. (3.47)

Vamos resolver a equacao para F , ja que a equacao para G e identica. Substituindo em (3.46) uma solucaoda forma

F (i) = zi (3.48)

obtemoszi−1 − 2αzi + zi+1 = 0,

donde, dividindo por zi−1 extraımos a equacao quadratica (analoga a equacao indicial)

z2 − 2αz + 1 = 0. (3.49)

As duas raızes saoz± = α ±

α2 − 1,

com z+ + z− = 2α e z+z− = 1. Portanto, a solucao geral para a equacao (3.46) e

F (i) = c1zi+ + c2zi−

para algumas constantes c1, c2. Para determinarmos estas constantes e tambem α, aplicamos as condicoesde fronteira, que implicam

F (0) = F (n) = 0.

A primeira destas por sua vez implica que c1 = −c2, logo

F (i) = c

zi+ − zi−

. (3.50)

Como a equacao para F e homogenea, a constante c e arbitraria. Aplicando a segunda, segue que

zn+ = zn−,

ou, como z+z− = 1,z2n+ = 1

Consequentemente, z+ e uma 2n-esima raiz complexa de 1:

z+ = eijπ/n (3.51)

para algum inteiro 1 k 2n − 1, onde i =√−1. Como z− = 1/z+, podemos restringir 0 k n − 1 e

(3.50) produz todas as solucoes nao-triviais F de (3.46).

Portanto,

α =z+ + z−

eiπk/n + e−iπk/n

2= cos

n, 0 k n − 1,

e, escolhendo c = 1/2,F k (i) = eiπki/n − e−iπki/n = sen

Analogamente,

β = coslπ

n, 0 l n − 1,

Gl ( j) = senjlπ

Segue que os autovalores sao

λkl =2

2 − cos

n− cos

e as coordenadas das autofuncoes associadas sao dadas por

(ukl)i,j = F k (i) Gl ( j) = senikπ

3.17 Teorema. Seja A a matriz de discretizac˜ ao obtida a partir da f´ ormula de tres pontos unidimensional ou a partir da f´ ormula de cinco pontos bidimensional. Seja R = D−1 (D − A) a matriz de iterac˜ ao dometodo de Jacobi. Ent˜ ao

ρ (R) = cosπ

n. (3.52)

Prova. Vamos provar para a formula de cinco pontos bidimensional; o argumento para a formula de trespontos unidimensional e analogo e fica deixado como exercıcio. Para o metodo de Jacobi, a matriz de

discretizacao x

b e obtida atraves da formula:

uk+1i,j =

uki,j−1 + uk

i,j+1 + uki−1,j + uk

Ja vimos no Lema 3.16 que

−ukli−1,j − ukl

i+1,j + 4ukli,j − ukl

i,j−1 − ukli,j+1 =

ukli,j

λkl =2

2 − cos

n− cos

Daı segue queukli,j−1 + ukl

i,j+1 + ukli−1,j + ukl

i+1,j =

4 − λklh

ukli,j

Logo 1

ukli,j−1 + ukl

i,j+1 + ukli−1,j + ukl

= µlkukl

µlk = 1 − 1

4λklh

2 = 1 − 1

2 − cos

n− cos

n+ cos

Estes sao os autovalores da matriz de iteracao de Jacobi para a matriz de discretizacao obtida a partir daformula de cinco pontos (observe que elas possuem os mesmos autovetores; no entanto R possui autovaloresnulos). Segue que o maximo autovalor ocorre quando k = l = 1, logo

ρ (R) = cosπ

Para o quadrado unitario temos

ρ (R) = cos(πh) . (3.53)

Vemos em particular que ρ (R) → 1 quando h → 0, de modo que a velocidade de convergencia do metodode Jacobi vai ficando cada vez menor para malhas mais refinadas. Podemos dizer mais usando a expansaoda funcao cosseno em torno da origem

cos x = 1 − 1

2x2 + O

se h e pequeno podemos aproximar

cos(πh) ≈ 1 − π2

de modo que ρ (R) → 1 quadraticamente quando h → 0. Em outras palavras, para uma malha duas vezesmais refinada (isto e, h reduzido pela metade), o metodo de Jacobi e cerca de quatro vezes mais vagarosoem media (consulte novamente a tabela no final da secao anterior). A tabela abaixo mostra os valores doraio espectral para alguns valores de h:

h 0.1 0.05 0.025

ρ (R) 0.9511 0.9877 0.9969

Para h = 0.025 (correspondente a uma matriz de tamanho n = 39 × 39 = 1521), temos

R∞ (R) = − log10 (0.9969) = 0.0013484,

de modo que para reduzir o erro pelo fator de uma casa decimal precisamos de

log10 0.1

log10 ρ (R) = −1

log10 ρ (R) =

0.00135 ≈ 742

iteracoes.

3.3.2 Convergencia do Metodo de Gauss-Seidel

3.18 Teorema. Se A e uma matriz irredutıvel, diagonalmente dominante tal que |aii| >n

j=1j=i

|aij | para pelo

menos alguma linha i, ent˜ ao o metodo de Gauss-Seidel converge.

Prova. Sejam D a parte diagonal, −L a parte triangular inferior estrita e −U a parte triangular superiorestrita da matriz A, e seja R = (D − L)

−1 U a matriz de iteracao do metodo de Gauss-Seidel para A.

EscrevemosR = (D − L)

−1 U =

I − D−1L−1

I − D−1L

−1D−1U. (3.54)

Suponha por absurdo que exista um autovalor λ de R tal que |λ| 1; como na demonstracao do Teorema3.9, temos

I − λ−1R

I − λ−1

I − D−1L−1

D−1U

Agora, observando quedet

I − D−1L

porque I − D−1L e uma matriz triangular inferior com apenas 1’s na diagonal principal, escrevemos

0 = det

I − λ−1

I − D−1L

D−1U

= det I − D−1L detI − λ−1 I − D−1L−1 D−1U = det

I − D−1L

I − λ−1

I − D−1L

−1D−1U

I − D−1L − λ−1D−1U

Por outro lado,D−1A = I − D−1L − D−1U

e irredutıvel, diagonalmente dominante e estritamente dominante nas linhas onde A e porque

D−1A

1 se i = j,aij

se i = j.

Logo, a matriz I − D−1L − λ−1D−1U tambem satisfaz estas propriedades, pois I , −D−1L e −D−1U saorespectivamente a parte diagonal, a parte triangular inferior estrita e a parte triangular superior estrita damatriz D−1A, e multiplicar a parte triangular inferior estrita pelo numero λ−1 cujo modulo e menor que ouigual a 1 nao alterara a dominancia diagonal (na verdade so tende a melhora-la) nem acrescentara zeros amatriz. A Proposicao 2.16 implica entao que I − D−1L − λ−1D−1U e invertıvel, um absurdo. Usando o Teorema 3.18, concluımos que o metodo de Gauss-Seidel converge para as matrizes de discretizacaoobtidas atraves dos esquemas de diferencas finitas do Capıtulo 1. Para analizar a velocidade de convergenciado metodo de Gauss-Seidel, vamos obter os raios espectrais para as matrizes de discretizacao obtidas a partirda formula de tres pontos unidimensional e a partir da formula de cinco pontos bidimensional.

3.19 Teorema. Seja A a matriz de discretizac˜ ao obtida a partir da f´ ormula de tres pontos unidimensional

ou a partir da f´ ormula de cinco pontos bidimensional. Seja R = (D − L)

U a matriz de iterac˜ ao dometodo de Gauss-Seidel. Ent˜ aoρ (R) = cos2

n. (3.55)

Prova. Para obter o raio espectral da matriz de iteracao R, queremos encontrar os autovalores µ de R:

Ru = (D − L)−1 U u = µu,

ou seja,Uu = µ (D − L) u

(um problema de autovalor generalizado). No caso da matriz de discretizacao da formula de cinco pontos,isso significa encontrar µ tal que

ui,j+1 + ui+1,j = µ (4ui,j − ui,j−1 − ui−1,j) . (3.56)

Para os autovalores nao-nulos, podemos fazer a substituicao

ui,j = µi+j2 vi,j (3.57)

para transformar a equacao de autovalor naquela que aparece no metodo de Jacobi. Temos

µi+j+1

2 vi,j + µi+j+1

2 vi+1,j = µ

4µi+j2 vi,j − µ

i+j−12 vi,j−1 − µ

i+j−12 vi−1,j

i+j+22 vi,j − µ

i+j+12 vi,j−1 − µ

i+j+12 vi−1,j ,

de modo que, dividindo por µi+j+1

2 , obtemos

vi−1,j + vi+1,j + vi,j−1 + vi,j+1 = µ1/24vi,j .

Portanto os autovalores da matriz de iteracao de Gauss-Seidel para esta matriz sao exatamente os quadradosdos autovalores da matriz de iteracao de Jacobi (e os autovetores sao os mesmos):

µlk =1

n+ cos

Portanto, o maximo autovalor ocorre quando k = l = 1 e

ρ (R) = cos2π

O argumento para a formula de tres pontos e analogo. Para o quadrado unitario temos

ρ (R) = cos2 (πh) ,

e usando

cos2 x =

1 − 1

2x2 + O

= 1 − x2 + O

se h e pequeno podemos aproximarcos2 (πh) ≈ 1 − π2h2.

No metodo de Gauss-Seidel ainda temos ρ (R) → 1 quadraticamente quando h → 0, mas a sua velocidadede convergencia para a matriz de discretizacao de cinco pontos do quadrado unitario e duas vezes maior quea do metodo de Jacobi. Para ver isso, faca a expansao do logaritmo em torno do ponto x = 1:

log (1 + x) = x + O

Segue que

R∞ (RJacobi) =π2

2h2 + O

, (3.58)

R∞ (RGauss-Seidel) = π2h2 + O

. (3.59)

3.3.3 Convergencia do Metodo SOR

3.20 Teorema. Se o metodo SOR converge, ent˜ ao

0 < ω < 2.

Prova. A matriz de iteracao do metodo SOR e

ωD − L

−11 − ω

ωD + U

I − ωD−1L−11 − ω

ωD + U

I − ωD−1L−1

ωD−1

1 − ω

ωD + U

I − ωD−1L−1

(1 − ω) I + ωD−1U

. (3.60)

Se λ1, . . . , λn sao os autovalores de R, entao

det R = λ1 . . . λn.

det R = det

I − ωD−1L

(1 − ω) I + ωD−1U

= det I − ωD−1L−1 det (1 − ω) I + ωD−1U = (1 − ω)

ja que I − ωD−1L e uma matriz triangular inferior com apenas 1 na diagonal principal e (1 − ω) I + ωD−1U e uma matriz triangular superior com apenas 1 − ω na diagonal principal. Logo

λ1 . . . λn = (1 − ω)n .

Em particular, pelo menos um dos autovalores λj de R deve satisfazer

|λj | |1 − ω| .

Mas, se o metodo SOR converge, devemos ter tambem |λ| < 1 para todo autovalor λ de R. Logo

|1 − ω| < 1,donde

0 < ω < 2.

3.21 Corolario. Se R e a matriz de iterac˜ ao n × n para o metodo SOR, entao

det R = (1 − ω)n .

Em particular, diferente das matrizes de iteracao dos metodos de Jacobi e de Gauss-Seidel (para a matriz dediscretizacao de cinco pontos), zero nao e um autovalor para a matriz de iteracao do metodo SOR se ω = 1(para nenhuma matriz).

3.22 Teorema. Se A e uma matriz irredutıvel, diagonalmente dominante tal que |aii| > nj=1j=i

|aij | para pelo

menos alguma linha i, ent˜ ao o metodo SOR converge se 0 < ω 1.

Prova. A demonstracao e analoga a do Teorema 3.18. A matriz de iteracao do metodo SOR e

I − ωD−1L−1

(1 − ω) I + ωD−1U

Suponha por absurdo que exista um autovalor λ de R tal que |λ| 1; temos

I − λ−1R

I − λ−1

I − ωD−1L−1

(1 − ω) I + ωD−1U

Agora, observando que

det I − ωD−1

L = 1porque I − ωD−1L e uma matriz triangular inferior com apenas 1’s na diagonal principal, escrevemos

0 = det

I − λ−1

I − ωD−1L−1

(1 − ω) I + ωD−1U

I − ωD−1L

I − λ−1

I − ωD−1L−1

(1 − ω) I + ωD−1U

I − ωD−1L

I − λ−1

I − ωD−1L−1

(1 − ω) I + ωD−1U

I − ωD−1L − λ−1

(1 − ω) I + ωD−1U

1 − λ−1 (1 − ω)

I − ωD−1L − λ−1ωD−1U

Por outro lado, como vimos na demonstracao do Teorema 3.18, a matriz

D−1A = I − D−1L − D−1U

e irredutıvel, diagonalmente dominante e estritamente dominante nas linhas onde A e, logo a matriz

1 − λ−1 (1 − ω)

I − ωD−1L − λ−1ωD−1U

tambem satisfaz estas propriedades. De fato, S tem zeros nas mesmas posicoes que I − D−1L − D−1U , logoa sua irredutibilidade nao e afetada. Alem disso, pela dominancia diagonal de D−1A, sabemos que se

D−1Lij

D−1U ij

1 i−1

j=1 |bij

j=i+1 |cij

Para provar a dominancia diagonal de S , observamos que os valores que S possui na diagonal principal sao

1 − λ−1 (1 − ω) = 1 − 1 − ω

λ + ω − 1

de modo que precisamos provar queλ + ω − 1

i−1j=1

|bij | +ω

|cij |

se 0 < ω 1 e |λ| 1. Provaremos que λ + ω − 1

ω,λ + ω − 1

|λ| .

Para isso, observe que como |λ| 1 basta provar a primeira desigualdade, a qual por sua vez e equivalente a

|λ + ω − 1| |λ| ω.

E facil ver que esta desigualdade e valida quando λ ∈ R, pois

|λ + ω − 1| = λ + ω − 1 λω porque λ − 1 λω − ω = ω (λ − 1) .

Para o caso geral em que λ ∈ C, fazemos cair no caso real escrevendo

|λ + ω − 1|2 = |λ − (1 − ω)|2 = |λ|2 − 2(Re λ) (1 − ω) + (1 − ω)2

|λ|2 − 2 |λ| (1 − ω) + (1 − ω)2 = [|λ| − (1 − ω)]2

= [|λ| + ω − 1]2 |λ|2 ω2.

O resultado acima continua valendo com desigualdade estrita nas linhas onde a desigualdade e estrita. AProposicao 2.36 implica entao que S e invertıvel, contradizendo det S = 0.

3.23 Teorema. Seja A uma matriz simetrica positiva definida. Ent˜ ao o metodo SOR converge se 0 < ω < 2.

Prova. Usaremos o Teorema 3.13. Escrevendo A = D − L − U , temos Lt = U porque A e simetrica e asentradas diagonais de D positivas porque A e positiva definida. Para o metodo SOR temos

ω D − L e C =1

ω D + U,

Bt + C =1

ωD − Lt +

1 − ω

ωD + U =

2 − ω

e uma matriz simetrica positiva definida se 0 < ω < 2. Na verdade, se as entradas diagonais de uma matriz simetrica sao positivas, a condicao de ser definidapositiva e equivalente a convergencia do metodo SOR para 0 < ω < 2, como o proximo resultado mostra.

3.24 Teorema. Seja A uma matriz simetrica com entradas diagonais positivas. Entao o metodo SORconverge se e somente se A e positiva definida e 0 < ω < 2.

Prova. Assuma que A e positiva definida e que 0 < ω < 2. Seja

I − ωD−1L−1

(1 − ω) I + ωD−1U

a matriz de iteracao do metodo SOR. Se λ e um autovalor de R e x um autovetor associado, temos Rx = λx,donde

(1 − ω) I + ωD−1U

x = λ

I − ωD−1L

Fazendo o produto interno canonico (hermitiano) de Cn de ambos os lados com o vetor x, segue que

(1 − ω) x, x + ω

x, D−1U x

= λx, x − ω

x, D−1Lx

Isolando λ,

λ =(1 − ω) x, x + ω x, D−1Uxx, x − ω x, D−1Lx

. (3.61)

Como A e simetrica, o produto de matrizes simetricas D−1A = I − D−1U − D−1L tambem e; comoD−1U, D−1L sao respectivamente a parte estritamente triangular superior e estritamente triangular infe-rior de uma matriz simetrica, temos

D−1U t

= D−1L.

Logo x, D−1Ux

D−1U t

D−1L

= x, (D−1L) x,

e definindo

D−1L

x, x ,

podemos escrever

λ =(1 − ω) + ωz

1 − ωz. (3.62)

Os argumentos acima assumem que o denominador e nao-nulo. E, de fato, temos

Re z =1

2(z + z) =

D−1L

x, x +

D−1U

D−1L + D−1U

I − D−1A

x, x =1

D−1A

e como A e positiva definida, D−1A tambem e, o que implica

D−1A

x, x> 0

Re z <1

de modo que a parte real do denominador 1 − ωz de λ e nao-nula para 0 < ω < 2. Segue que

|λ|2 = λλ =[(1 − ω) + ωz ][(1 − ω) + ωz]

(1 − ωz) (1 − ωz)=

(1 − ω)2 + 2ω (1 − ω) Re z + ω2 |z|21 − 2ω Re z + ω2 |z|2

=ω2 − 2ω2 Re z − 2ω + 4ω Re z + 1 − 2ω Re z + ω2 |z|2

1 − 2ω Re z + ω2 |z|2

−ω (2 − ω) (1 − 2 Re z)

1 − 2ω Re z + ω2 |z|2 .

Como 0 < ω < 2 e Re z <1

2, temos

ω (2 − ω) (1 − 2 Re z) > 0,

e concluımos que|λ| < 1

para todo autovalor λ de R, logo o metodo SOR converge. A demonstracao da recıproca (assim como umademonstracao alternativa, variacional, deste teorema) pode ser vista em [Young]. Usando o Teorema 3.22, concluımos que o metodo SOR converge para as matrizes de discretizacao obtidasatraves dos esquemas de diferencas finitas do Capıtulo 1 se 0 < ω 1. Isso permite apenas subrelaxamentodo metodo de Gauss-Seidel, o que em geral reduz a velocidade de convergencia. Por outro lado, usando o

Teorema 3.23 ou o Teorema 3.24, concluımos que o metodo SOR converge para as matrizes de discretizacaoobtidas a partir da formula de tres pontos unidimensional e a partir da formula de cinco pontos bidimensionalse 0 < ω < 2, ja que estas sao matrizes simetricas, positivas definidas (ja as matrizes de discretizacao obtidasatraves de coordenadas polares ou pelo esquema de Shortley-Weller nao sao simetricas, em geral, comovimos).

Em seguida fazemos uma analise da velocidade de convergencia do metodo SOR para a matriz de dis-cretizacao da formula de cinco pontos, bem como obtemos o melhor valor do fator de relaxamento ω paraeste caso.

3.25 Lema. Seja A a matriz de discretizac˜ ao obtida a partir da f´ ormula de tres pontos unidimensional ou a partir da f´ ormula de cinco pontos bidimensional. Se λ = 0 e um autovalor de RSOR, ent˜ ao existeum autovalor λJ de RJ tal que

λ1/2ω2 . (3.63)

Reciprocamente, se λJ e um autovalor de RJ e λ ∈ C satisfaz a equac˜ ao acima, ent˜ ao λ e um autovalor de RSOR.

Prova. Argumentamos como na demonstracao do Teorema 3.13. Para obter o raio espectral da matriz deiteracao RSOR, queremos encontrar os autovalores λ de RSOR:

RSORu =

I − ωD−1L−1

(1 − ω) I + ωD−1U

u = λu,

ou seja, (1 − ω) I + ωD−1U

u = λ

I − ωD−1L

No caso da matriz de discretizacao da formula de cinco pontos, isso significa encontrar λ tal que

(1 − ω) ui,j +ω

4ui,j+1 +

4ui+1,j = λ

ui,j − ω

4ui,j−1 − ω

4ui−1,jou

1 − ω − λ

ωui,j =

4(ui,j+1 + ui+1,j + λui,j−1 + λui−1,j) . (3.64)

Fazendo a substituicao

ui,j = λi+j2 vi,j

e dividindo por µi+j+1

2 , segue que

vi−1,j + vi+1,j + vi,j−1 + vi,j+1 =1 − ω − λ

λ1/2ω4vi,j

e daı o resultado. Resolvendo a equacao (3.63) como uma equacao quadratica em

√λ, vemos que as duas raızes λ± = λ±

podem ser escritas na forma

λ± =1

−ωλJ ±

ω2λ2J − 4 (ω − 1)

2. (3.65)

DenotaremosΛω,λJ = max (|λ+| , |λ−|) (3.66)

e por λJ = ρ (RJ ) o maior autovalor do metodo de Jacobi.

3.26 Proposicao. Seja A a matriz de discretizac˜ ao obtida a partir da f´ ormula de tres pontos unidimensional ou a partir da f´ ormula de cinco pontos bidimensional. Ent˜ ao

ρ (RSOR,ω) = Λω,λJ(3.67)

Prova. Por definicao,ρ (RSOR,ω) = max

λJΛω,λJ .

De (3.65) segue que

Λω,λJ =1

ωλJ +

2J − 4 (ω − 1)

Se 0 < ω 1, ω2λ2J − 4 (ω − 1) 0 e Λω,λJ e uma funcao crescente de λJ , logo o maximo e atingido em λJ .

Se ω > 1, defina

4 (ω − 1)

Se λJ > λc, ω2λ2J

−4 (ω

−1) > 0 e segue a conclusao como no caso anterior. Se λJ λc, entao ω2λ

−4 (ω − 1) 0 e ω2λ

2J − 4 (ω − 1) =

4 (ω − 1) − ω2λ

onde i =√−1, logo

Λω,λJ =

ωλJ +

2J − 4 (ω − 1)

ω2λ2J +

4 (ω − 1) − ω2λ2J

= ω − 1,

e novamente Λω,λJ e uma funcao crescente de λJ .

Defina

ωotimo =2

1 + 1 −λ2J

. (3.68)

Note que 1 < ωotimo < 2. Mostraremos que ωotimo e de fato o melhor valor para o fator de relaxamento nometodo SOR. Antes precisamos do seguinte resultado:

3.27 Proposicao. Seja A a matriz de discretizac˜ ao obtida a partir da f´ ormula de tres pontos unidimensional ou a partir da f´ ormula de cinco pontos bidimensional. Ent˜ ao

ρ (RSOR,ω) =

ωλJ +

2J − 4 (ω − 1)

se 0 < ω ωotimo,

ω − 1 se ωotimo ω < 2.

(3.69)

Prova. Temos ω2λ2J − 4 (ω − 1) 0 para 0 < ω < 2 se e somente se ω ωotimo. De fato, as raızes de

f (ω) = ω2λ2J

−4ω + 4 sao

ω± =4 ± 4

1 − λ

de modo que a raiz positiva de f e maior que 2, logo para que f (ω) 0 se 0 < ω < 2, devemos ter

1 − λ

1 − λ2J

1 − λ

O resultado segue entao como na demonstracao da proposicao anterior.

3.28 Teorema. Seja A a matriz de discretizac˜ ao obtida a partir da f´ ormula de tres pontos unidimensional

ou a partir da f´ ormula de cinco pontos bidimensional. Entao o fator de relaxamento ´ otimo para ometodo SOR e dado por

ωotimo =2

1 + senπ

(3.70)

e o fator de relaxamento ´ otimo para o metodo SOR.

Prova. Se 0 < ω ωotimo, entao ω2λ2J − 4 (ω − 1) 0 e

ωλJ +

2J − 4 (ω − 1)

2J − 4 (ω − 1) + ωλ

2J − 2

ω2λ2J − 4 (ω − 1)

Temos ωλ2J − 2 < 0, porque 0 < ω < 2 e λJ < 1, eωλ

2J − 2

2J − 4 (ω − 1),

pois ωλ2J − 2

2 = ω2λ4J − 4λ

2J ω + 4 > ω2λ

4J − 4λ

2J ω + 4λ

2J > ω2λ

4J − 4λ

2J (ω − 1)

2J − 4 (ω − 1)

Isso implicad

ωλJ +

2J − 4 (ω − 1)

logo ρ (RSOR,ω) e decrescente de 0 ate ωotimo. Para ωotimo ω < 2, ρ (RSOR,ω) = ω − 1 e claramentecrescente. Portanto, ρ (RSOR,ω) atinge o seu mınimo em ωotimo.

Pelo Teorema 3.15, temos

λJ = cosπ

ωotimo =2

1 − λ

1 − cos2

1 + senπ

Para o quadrado unitario temos

ωotimo

1 + sen (πh)

e consequentemente

ρ (RSOR,ω) =2

1 + sen (πh)− 1 =

1 − sen(πh)

1 + sen (πh).

e usando

1 − x

1 + x= 1 − 2x + O

sen x = x + O

1 − sen(πh)1 + sen (πh) ≈ 1 − 2πh + O h2 .

Portanto, usando o valor otimo de ω no metodo SOR, temos ρ (R) → 1 linearmente quando h → 0, umresultado muito melhor que o obtido nos metodos de Jacobi e de Gauss-Seidel. Para uma comparacao maisprecisa, usando

log (1 + x) = x + O

temos queR∞ (RSOR) = 2πh + O

. (3.71)

Segue queR∞ (RSOR)

R∞ (RGauss-Seidel)≈ 2πh

π2h2=

Em particular, se h = 0.025, temos ωotimo = 1. 8545 e R∞ (RSOR) /R∞ (RGauss-Seidel) = 25.5, isto e, ometodo SOR e 25 vezes mais rapido que o metodo de Gauss-Seidel. Quanto mais refinada a malha, maior ea diferenca na velocidade de convergencia entre os dois metodos.

3.3.4 Convergencia do Metodo de Jacobi Amortecido

3.29 Teorema. Se o metodo de Jacobi converge, ent˜ ao o metodo de Jacobi amortecido converge para

0 < ω 1.

Prova. Vamos escrever a matriz de iteracao RJ,ω do metodo de Jacobi amortecido em funcao da matriz deiteracao do metodo de Jacobi RJ . Temos

RJ = D−1 (D−

de modo que

RJ,ω =

ωD − A

= ωD−1

ωD − D + D − A

= ωD−1

ωD − D

+ ωD−1 (D − A)

dondeRJ,ω = (1 − ω) I + ωRJ . (3.72)

Em particular,RJ v = λv

se e somente se[RJ,ω − (1 − ω) I ] v = ωλv.

Portanto, λJ e um autovalor de RJ se e somente se

λJ,ω = ωλJ + 1 − ω (3.73)

e um autovalor de RJ,ω. Logo, se todo autovalor de RJ satisfaz |λJ | < 1 (isto e, ρ (RJ ) < 1 equivalente aometodo de Jacobi convergir) e ω < 1, entao

|λJ,ω|2 = (ωλJ + 1 − ω)

ωλJ + 1 − ω

= ω2 |λJ |2 + 2Re λJ ω (1 − ω) + (1 − ω)2

ω2 |λJ |2 + 2 |λJ | ω (1 − ω) + (1 − ω)2

= (ω |λJ | + 1 − ω)2

Segue do Teorema 3.13 que o metodo de Jacobi amortecido converge para as matrizes de discretizacao doCapıtulo 1 se 0 < ω 1.

3.30 Corolario.ρ (RJ,ω) = ω [ρ (RJ ) − 1] + 1. (3.74)

Para o quadrado unitario temosρ (RJ,ω) = ω [cos(πh) − 1] + 1. (3.75)

Usando

cos x = 1−

2x2 + O x4 ,

log (1 + x) = x + O

ρ (RJ,ω) ≈ 1 − ωπ2

2h2 + O

R∞ (RJ,ω) ≈ ωπ2

Vemos que a velocidade de convergencia do metodo de Jacobi amortecido e da mesma ordem que a do metodode Jacobi, um pouco pior para valores de ω proximos de 1 e muito pior para valores de ω proximos de 0.

3.3.5 Resumo

Metodo ρ (R) R∞ (R)

Jacobi cos (πh)π2

2h2 + O

Gauss-Seidel cos2 (πh) π2h2 + O

SOR otimo 1 − 2πh + O

2πh + O

Jacobi amortecido 1 − ωπ2

2h2 + O

3.4 Exercıcios

3.1 Os metodos de Jacobi e Gauss-Seidel nao sao sempre comparaveis: existem sistemas lineares para asquais o metodo de Jacobi converge, enquanto que o metodo de Gauss-Seidel nao converge ou ate mesmodiverge, e vice-versa.

a) Verifique no computador que o metodo de Jacobi converge para o sistema linear x + z = 2−x + y = 0x + 2y − 3z = 0

enquanto que o metodo de Gauss-Seidel nao converge (observe que a solucao exata deste sistema e(1, 1, 1)).

b) Verifique no computador que o metodo de Gauss-Seidel converge se 2x + y + z = 4x + 2y + z = 4x + y + 2z = 4

enquanto que o metodo de Jacobi nao converge, usando o vetor (0, 0, 0) como chute inicial (observeque a solucao exata deste sistema e (1, 1, 1)).

c) Justifique matematicamente o resultado de cada um dos ıtens anteriores.

Capıtulo 4

Metodos de Projecao

A maioria dos metodos iterativos praticos para a resolucao de sistemas lineares grandes usa um processo

de projecao de uma forma ou outra. Um processo de projecao e uma maneira canonica de obter umaaproximacao para a solucao do sistema linear dentro de um subespaco especificado. Neste capıtulo veremosa tecnica descrita de maneira geral e uma aplicacao detalhada para o caso unidimensional.

4.1 Teoria Geral

A ideia basica de uma tecnica de projecao e extrair uma solucao aproximada para a solucao do sistema Ax = bde um subespaco especificado K ⊂ Rn, chamado o subespaco de busca. Se m = dim K, entao em geralsao necessarias m restricoes para obter esta aproximacao. Uma maneira tıpica de descrever estas restricoese impor m condic˜ oes de ortogonalidade; um exemplo e exigir que o vetor residual r = b − Ax seja ortogonala m vetores linearmente independentes que geram um subespaco L, chamado o subespaco de restricoes.Muitos metodos matematicos sao baseados neste tipo de descricao, conhecida como as condic˜ oes de Petrov-

Galerkin . Existem duas classes gerais de metodos de projecao: os metodos de projec˜ ao ortogonal , quandoL = K (e neste caso as condicoes de Petrov-Galerkin sao chamadas simplesmente condic˜ oes de Galerkin ), eos metodos de projec˜ ao oblıqua , quando L = K.

4.1 Definicao. Seja A ∈ Mn (C) uma matriz invertıvel e K, L ⊂Rn dois subespacos vetoriais m-dimensionais.Um metodo de projecao sobre o subespaco K ortogonal ao subespaco L e um processo que encontrauma solucao aproximada x em K para o sistema Ax = b tal que o vetor residual r = b −Ax e ortogonala L, ou seja,

encontrar x ∈ K tal que r = b − Ax ⊥ L. (4.1)

Se queremos explorar o conhecimento de um bom chute inicial x0 para a solucao, entao a aproximacao ebuscada no espaco afim x0 + K. Neste caso, a tecnica e redefinida como

encontrar x ∈ x

+ K tal que r = b − Ax ⊥ L. (4.2)Denotando x = x0 + p

e o vetor resıduo inicialr0 = b − Ax0,

de modo que r = b − Ax = b − A

x0 + p

= r0 − Ap, a solucao aproximada pode ser descrita como

x = x0 + p, p ∈ K,r0 − Ap,w

= 0 para todo w ∈ L.

O vetor p que esta no subespaco de busca e chamado o vetor de busca.

4.1.1 Representacao Matricial

Sejam BK = v1, . . . , vm e BL = w1, . . . , wm bases para K e L, respectivamente. Construımos as matrizesn

V = [v1 · · · vm] , (4.4)

W = [w1 · · · wm] ,

que tem estes vetores como colunas. Entao a solucao aproximada pode ser escrita na forma

x = x0 + V y (4.5)

para algum vetor y ∈ Rm, ou seja, p = V y. A condicao de ortogonalidade

r0 − A V y , w

= 0 para todow ∈ L tambem pode ser representada matricialmente na forma

(W z)T

r0 − AV y

= zT W T

r0 − AV y

para todo z ∈ Rm, ou seja,W T

r0 − AV y

ouW T AV y = W T r0. (4.6)

A partir daı, se assumirmos que a matriz m × m W T AV e invertıvel (o que nao e garantido mesmo quandoA e invertıvel; veja Exercıcio 4.1), obtemos a seguinte expressao matricial para a solucao aproximada:

x = x0 + V

W T AV −1

W T r0. (4.7)

Desta forma, um algoritmo tıpico para um metodo de projecao tem a forma

Algoritmo para um Metodo de Projecaodo until stop criterion

Selecione um par de subespacos K e LEscolha bases BK = v1, . . . , vn e BL = w1, . . . , wn para K e Lr ← b − Ax;

y ← W T AV

−1W T r;

x ← x + V y;end do

Em muitos algoritmos, a matriz W T AV nao precisa ser formada, e muito menos sua inversa calculada, damesma forma que a matriz de iteracao nao precisava ser explicitamente calculada nos metodos iterativoslineares.

A matriz W T AV e invertıvel se e somente se nenhum vetor do subespaco A

Ke ortogonal ao subespaco

L (Exercıcio 4.2). Duas condicoes independentes que garantem a invertibilidade de W T AV sao dadas pelaproposicao seguinte:

4.2 Proposicao. Se A ∈ Mn (C) e os subespacos K, L ⊂Rn satisfazem qualquer uma das duas condic˜ oes a seguir

(i) A e positiva definida e L = K, ou

(ii) A e invertıvel e L = AK.Ax = b

ent˜ ao a matriz W T AV e invertıvel quaisquer que sejam as bases V, W de K, L, respectivamente.

Prova: (i) Como L = K, podemos escrever W = V P para alguma matriz m × m invertıvel P (Exercıcio4.3). Entao

W T AV = P T V T AV

Como A e positiva definida, segue que V T AV tambem e (Exercıcio 4.4); em particular, a matriz m × mV T AV e invertıvel. Logo, sendo o produto de duas matrizes invertıveis, W T AV e invertıvel.

(ii) Neste caso, como L = AK, podemos escrever W = AV P para alguma matriz m × m invertıvel P .Daı,

W T AV = P T (AV )T

Como A e invertıvel, a matriz n × m AV possui posto maximo, logo a matriz m × m (AV )T

AV e invertıvel(Exercıcio 4.5). Novamente, sendo o produto de duas matrizes invertıveis, W T AV e invertıvel. Em particular, se A e uma matriz simetrica e um metodo de projecao ortogonal e utilizado, podemos tomarV = W e a matriz projetada V T AV tambem e simetrica; da mesma forma, se alem disso A for positivadefinida, V T AV tambem sera.

4.1.2 Minimizacao de FuncionaisA solucao aproximada x do sistema Ax = b atraves de um metodo de pro jecao pode ser obtida como o pontode mınimo de um funcional quadratico associado a matriz A. Consideremos primeiro o caso em que A e umamatriz simetrica positiva definida. Neste caso, a propria solucao do sistema Ax = b e o minimizante de umfuncional quadratico associado a matriz A:

4.3 Teorema. (Metodo Variacional para a Resolucao de Sistemas Lineares) Seja A ∈ Mn (R) uma matriz simetrica positiva definida e b ∈ R

n. Ent˜ ao a soluc˜ ao do sistema Ax = b e o unico ponto x queminimiza o funcional quadr´ atico

f (y) =1

2Ay,y − b, y . (4.8)

Prova: Uma matriz simetrica positiva definida e em particular invertıvel, logo existe uma unica solucao x

para o sistema Ax = b. Temos

f (y) − f (x) =1

2Ay,y − b, y − 1

2Ax,x + b, x

2Ay,y − Ax,y − 1

2Ax,x + Ax,x

2Ay,y − Ax,y +

2Ay,y − 1

2Ax,y − 1

2Ax,y +

2A (y − x) , y − 1

2A (y − x) , x

2 A (y − x) , y − x .

Como A e positiva definida, segue que

A (y − x) , y − x 0

eA (y − x) , y − x = 0

se e somente se y = x. Portanto,f (y) > f (x)

para todo y = x e o mınimo de f ocorre em x. Em muitos problemas, o funcional f tem um significado fısico, correspondendo a um funcional de energia; ominimizante deste funcional de energia corresponde a um estado de equilıbrio do sistema.

Observe que, definindo um produto interno a partir da matriz simetrica positiva definida A da maneirausual por v, wA = Av,w e considerando a norma vetorial induzida vA = v, v1/2A , chamada A-norma ,o funcional f pode ser escrito na forma (substituindo b = Ax)

f (y) =1

2y2A − x, yA . (4.9)

O vetor de aproximacao x de um metodo de projecao ortogonal sobre K a partir de um vetor inicial x0 eexatamente o minimizante da primeira parte deste funcional sobre o subespaco afim x0 + K:

4.4 Proposicao. Sejam A ∈ Mn (R) uma matriz simetrica positiva definida e L = K. Ent˜ ao x e o vetor deaproximac˜ ao de um metodo de projec˜ ao ortogonal sobre K a partir de um vetor inicial x0 se e somentese ele minimiza a A-norma do erro sobre x0 + K, isto e, se e somente se

E (x) = miny∈x0+K

E (y) .

Prova: Seja x a solucao exata do sistema Ax = b. Entao a A-norma do erro e dada por

E (y) = x − yA .

Segue do lema da projecao ortogonal (ou lema da melhor aproximacao) que x e um minimizante de E (y)sobre o subespaco afim x0 + K se e somente se x − x e A-ortogonal a K, ou seja, se e somente se

A (x − x) , v = 0 para todo v ∈ K,

ou, equivalentemente,

b − Ax, v = 0 para todo v ∈ K.

Esta e a condicao de Galerkin que define o vetor de aproximacao de um metodo de projecao ortogonal (veja(4.2)).

Vamos considerar agora o caso de um metodo de projecao oblıqua em que L = AK.

4.5 Proposicao. Sejam A ∈ Mn (C) uma matriz qualquer e L = AK. Ent˜ ao x e o vetor de aproximac˜ aode um metodo de projec˜ ao oblıqua sobre K ortogonal a L a partir de um vetor inicial x0 se e somentese ele minimiza a 2-norma do resıduo sobre x0 + K, isto e, se e somente se

R (x) = miny∈x0+K

R (y) .

Prova: Considere o sistema Ax = b. Entao a 2-norma do resıduo e dada por

R (y) = b − Ay2 .

Segue do lema da projecao ortogonal (ou lema da melhor aproximacao) que x e um minimizante de R (y)sobre o subespaco afim x0 + K se e somente se b − Ax e ortogonal a AK = L, ou seja, se e somente se

b − Ax, w = 0 para todo w ∈ L.

Esta e a condicao de Petrov-Galerkin que define o vetor de aproximacao de um metodo de projecao oblıqua(veja (4.2)).

4.1.3 Estimativa do Erro em Metodos de Projecao

Se nenhum vetor do subespaco K esta proximo da solucao exata x, entao e impossıvel encontrar uma boaaproximacao x para x em

K. Por outro lado, se existir algum vetor em

Kque esta a uma pequena distancia

ε de x, entao podemos perguntar qual a melhor aproximacao a x podemos encontrar em K. No que se segueassumiremos x0 = 0; em particular, o subespaco afim x0 + K e o subespaco vetorial K.

Seja P K a projecao ortogonal sobre K, definida por

P Kx ∈ K, x − P Kx ⊥ K, (4.10)

e QLK a projecao oblıqua sobre K e ortogonalmente a L, definida por

QLKx ∈ K, x − QL

Kx ⊥ L. (4.11)

(Observe que se K = L (isto e, projecao ortogonal), temos QKK = P K.) Entao o problema de aproximacao da

Definicao 4.1 pode ser expresso na linguagem destes operadores como

encontrar

x ∈ K tal que QL

K (b − A

x) = 0. (4.12)

Equivalentemente, definindo o operator Am : K −→ K por

Am = QLKAP K,

ele pode ser expresso na forma

encontrar x ∈ K tal que Amx = QLKb, (4.13)

de modo que um problema n-dimensional e aproximado por um problema m-dimensional.

4.6 Proposicao. Assuma x0 = 0. Suponha que K e invariante por A e que b ∈ K. Ent˜ ao o vetor deaproximac˜ ao x de um metodo de projec˜ ao (ortogonal ou oblıqua) sobre K a partir do vetor inicial x0

e a soluc˜ ao exata x.

Prova: Temos QL

Ax) = 0. Como por hipotese Ax, b∈ K

, segue que QL

Ax = Ax e QL

b = b, logob − Ax = 0 e portanto x = x. O mesmo resultado vale se x0 = 0 sob a hipotese adicional que o resıduo inicial r0 = b − Ax0 ∈ K .

A distancia da solucao exata x ao subespaco K, que pode ser escrita como (I − P K) x, desempenha umpapel fundamental na estimativa do erro da solucao aproximada x ∈ K, ja que a distancia desta a solucaoexata obviamente nao pode ser menor que a distancia de x a K. O proximo resultado fornece uma estimativasuperior para a norma do resıduo da solucao exata com respeito ao operador aproximado Am.

4.7 Teorema. Assuma x0 = 0 e b ∈ K. Denote

γ =QL

KA (I − P K) .

Ent˜ ao a soluc˜ ao exata x satisfaz a estimativa

−Amx

−P K) x

isto e,dist (Amx, b) γ dist (x, K) .

Prova: Como b ∈ K, segue que

b − Amx = QLK (b − AP Kx) = QL

KA (x − P Kx) = QLKA (I − P K) x.

Daı, ja que I − P K e uma projecao e portanto satisfaz (I − P K)2 = (I − P K), podemos escrever

b − Amx =QL

KA (I − P K) (I − P K) x γ (I − P K) x .

4.2 Caso Unidimensional: Metodos de Descida

Nesta secao, A sera sempre uma matriz real simetrica positiva definida.

Outra maneira de enxergar o resultado do Teorema 4.3 e observar que o gradiente do funcional f ef (y) = Ay − b. (4.14)

Se x e um ponto de mınimo temos f (x) = 0, ou seja,

Ax = b.

O metodo variacional sugerido pelo Teorema 4.3 e a base dos metodos iterativos de descida em geral, e dometodo do gradiente conjugado em particular. A ideia e usar as ideias do calculo diferencial para encontraro mınimo do funcional quadratico f .

4.2.1 Metodos de Descida

A filosofia dos metodos de descida e comecar com um chute inicial x0 e gerar uma sequencia de iteradosx1, x2, . . . , xk, . . . que satisfazem

xk+1 f

ou, melhor ainda,f

de tal modo que xk convirja para o minimizador de f . Em outras palavras, em um metodo de descidabuscamos encontrar uma sequencia minimizante

que convirja para a solucao do sistema.O passo de xk para xk+1 envolve dois ingredientes: (1) uma direc˜ ao de busca e (2) um avanco de

comprimento especificado na direcao de busca. Uma direcao de busca significa a escolha de um vetor pk queindicara a direcao que avancaremos de xk para xk+1. O comprimento do avanco e equivalente a escolha deum escalar αk multiplicando o vetor pk. Assim,

xk+1 = xk + αk pk.

A escolha de αk e tambem chamada uma busca na reta , ja que queremos escolher um ponto na retaxk + αpk : α ∈ R

tal quef

xk + αpk f

Idealmente, gostarıamos de escolher αk de tal modo que

xk + αk pk

= minα∈R

xk + αpk

Esta e chamada uma busca exata na reta . Para funcionais quadraticos, a busca exata na reta e trivial e

obtemos uma formula para o valor de αk, como veremos a seguir. Denotaremos o resıduo em cada iteracaopor

rk = b − Axk. (4.15)

4.7 Proposicao. Seja αk ∈ R tal que

xk + αk pk

= minα∈R

xk + αpk

Ent˜ ao

pk, rk

pk, Apk . (4.16)

Prova: Considere o funcionalg (α) = f

xk + αpk

g e um polinomio quadratico em α, pois

g (α) =1

xk + αpk

, xk + αpk−

b, xk + αpk

Axk, xk

− b, xk

Apk, xk

Axk, pk

Apk, pk

− α

Axk, pk−

Apk, pk

xk− α

rk, pk

Apk, pk

portanto o mınimo de g e atingido no vertice −B/2A da parabola Y = AX 2 + BX + C . Observe que αk = 0 se e somente se

pk, rk

= 0, isto e, a direcao de busca e ortogonal ao resıduo. Como

gostarıamos sempre que possıvel de ter xk+1

= xk, devemos sempre escolher a direcao de busca de forma a

nao ser ortogonal a rk. Se esta escolha e feita, entao teremos sempre f xk+1 < f xk.

4.8 Exemplo. (Metodo de Gauss-Seidel) Considere o metodo de descida em que as primeiras n direcoes debusca p1, . . . , pn sao os vetores e1, . . . , en da base canonica de Rn, e isso e repetido a cada n iteracoes,de modo que pk+n = ek para todo k = 1, . . . , n, com uma busca na reta exata executada em cadaiteracao. Entao cada grupo de n iteracoes corresponde a uma iteracao do metodo de Gauss-Seidel.

4.9 Exemplo. (Metodo SOR) Usando as mesmas direcoes de busca do exemplo anterior, mas com xk+1 =xk + ωαk pk, ω = 1, obtemos um metodo de descida em que as buscas nas retas sao inexatas. Cadagrupo de n iteracoes corresponde a uma iteracao do metodo SOR.

Observe que o metodo de descida e um metodo de pro jecao em que L e K sao subespacos unidimensionais,com

Lum subespaco nao ortogonal a

K, em cada iteracao k. Se o metodo de descida sera um

metodo de projecao ortogonal ou oblıquo dependera da escolha do vetor de direcao de busca pk.

4.2.2 Metodo da Descida Mais Acentuada

Do Calculo Diferencial, sabemos que a direcao em que a funcao cresce a uma taxa mais rapida a partir deum ponto e a direcao do gradiente neste ponto. Esta observacao e a base da escolha da direcao de busca nometodo da descida mais acentuada (tambem chamado metodo do gradiente). Em outras palavras, escolhemos

pk = −f

= b − Axk

ou pk = rk. (4.17)

Como neste casoK

= pk, o metodo da descida mais acentuada sera um metodo de projecao ortogonal.Buscar na direcao da descida mais acentuada e uma ideia natural, mas que na pratica nao funciona semmodificacoes. De fato, em alguns casos o metodo e de velocidade comparavel a do metodo de Jacobi, comona matriz de discretizacao da formula de cinco pontos aplicada ao problema descrito na primeira se cao destecapıtulo [Watkins]:

∆x = 0.1 ∆x = 0.05 ∆x = 0.025Jacobi 299 1090 3908Descida Mais Acentuada 304 1114 4010

De fato, como as iteracoes do metodo de descida mais acentuada sao bem mais custosas que as do metodode Jacobi, o primeiro e muito pior que este ultimo.

Para entender melhor o metodo da descida mais acentuada, porque ele pode ser lento e as modificacoesque vamos fazer para torna-lo mais rapido levando ao metodo do gradiente conjugado a ser visto no proximocapıtulo, vamos entender o processo do ponto de vista geometrico. Como vimos na demonstracao do Teorema

4.3, o funcional quadratico f e da forma

f (y) =1

2A (y − x) , (y − x) + c (4.18)

onde c = f (x) e uma constante. Ja que A e uma matriz simetrica, existe uma matriz ortogonal P tal queP tAP e uma matriz diagonal D , cujos valores na diagonal principal sao exatamente os autovalores positivosde A. Nas coordenadas

z = P t (y − x) ,

o funcional f tem a forma

f (z) =1

2Dz,z + c =

λiz2i + c. (4.19)

As curvas de nıvel do funcional f neste sistema de coordenadas sao elipses (em R2, elipsoides em R3 ehiperelipsoides em Rn) centradas na origem com eixos paralelos aos eixos coordenados e f (0) = c e nıvelmınimo de f ; elipses correspondentes a menores valores de f estao dentro de elipses correspondentes a maioresvalores de f . Como P e uma aplicacao ortogonal, as curvas de nıvel de f no sistema de coordenadas originaltambem sao elipses, centradas em x, e uma reta de um ponto y ate o ponto x corta elipses de nıveis cada vezmenores ate chegar ao mınimo da funcao f em x, centro de todas as elipses. O vetor gradiente e perpendicularas curvas de nıvel, logo e perpendicular as elipses. Seguir a direcao de descida mais acentuada equivale acortar a elipse que contem xk ortogonalmente na direcao do interior da elipse ate encontrar um ponto xk+1

situado em uma elipse que a reta tangencie, pois a partir daı a reta ira na direcao de elipses com nıveismaiores, portanto este e o ponto da reta onde f atinge o seu mınimo. Em particular, vemos que a proximadirecao pk+1 e ortogonal a direcao anterior pk, tangente a esta elipse (veja tambem o Corolario 4.12). Emgeral, a direcao de descida mais acentuada nao e a direcao de x (quando bastaria uma iteracao para atingir

a solucao exata) a nao ser que A seja um multiplo escalar da identidade, de modo que todos os autovaloresde A sao iguais e as elipses sao cırculos. Por outro lado, se os autovalores de A tem valores muito diferentesuns dos outros, com alguns muito pequenos e alguns muito grandes, as elipses ser ao bastante excentricase, dependendo do chute inicial, a convergencia pode ser muito lenta. Matrizes com estas propriedades saochamadas mal-condicionadas; para que o metodo de descida acentuada seja lento, a matriz A nao precisaser muito mal-condicionada (veja a Definicao 4.14 e a discussao que se segue).

Como vimos na secao anterior, os algoritmos de Gauss-Seidel e SOR podem ser encarados como algoritmosde descida. A discussao no paragrafo anterior tambem pode ser usada para entender a relativa lentidao destesalgoritmos.

A seguir, provaremos a convergencia do metodo da descida mais acentuada.

4.10 Lema. (Desigualdade de Kantorovich) Sejam A ∈ Mn (R) uma matriz simetrica positiva definida edenote por λmax e λmin seu menor autovalor e seu maior autovalor, respectivamente. Ent˜ ao

Ax,x A−1x, x

x, x2 (λmin + λmax)

4λminλmax

para todo x = 0.

Prova: Denote os autovalores de A por λ1 . . . λn, de modo que λmin = λ1 e λmax = λn. Como oquociente a esquerda da desigualdade e homogeneo, basta provar a desigualdade para vetores x unitarios.Como A e simetrica, existem uma matriz diagonal D e uma matriz ortogonal P tais que A = P T DP . Segueque

Ax,x A−1x, x

P T DPx,x

P T D−1P x , x

= DPx,Px D−1P x , P x

Denote y = P x = (y1, . . . , yn) e β i = y2i . Entao y tambem e um vetor unitario e

i=1 β iλi

e uma combinacao convexa dos autovalores λi de A, ao passo que

D−1y, y

β iλi

e uma combinacao convexa dos autovalores λ−1i de A−1. Consequentemente,

λn− λ

λ1λn. (4.20)

De fato, a funcao ϕ (t) = 1/t e convexa, logo o ponto (λ, µ), que e a combinacao convexa de pontos localizados

no grafico de ϕ, esta localizado na regiao plana convexa limitada pelo grafico de ϕ e o segmento de reta queune os pontos extremos do grafico (λ1, 1/λ1) e (λn, 1/λn), ou seja, o segmento de reta

t −→ − 1

λ1λnt +

λn, λ1 t λn.

Em particular, o ponto (λ, µ) esta abaixo do ponto do segmento correspondente a t = λ.Portanto,

Ax,x A−1x, x

= λµ λ

λn− λ

λ1λn

O maximo da funcao quadratica

−→t

abe atingido para t = (a + b) /2. Concluımos que

Ax,x A−1x, x

λ1 + λn

λn− λ1 + λn

2λ1λn

(λ1 + λn)2

4λ1λn.

4.11 Lema. Seja xk+1 = xk + αk pk obtido atraves de uma busca exata na reta. Ent˜ ao

rk+1 ⊥ pk

⊥A pk

Prova: Temosb − Axk+1 = b − Axk − αkApk,

de modo que a sequencia dos resıduos e dada pela formula

rk+1 = rk − αkApk. (4.21)

Logo, rk+1, pk

rk+1, pk− αk

Apk, pk

rk, pk−

pk, rk

pk, Apk

Apk, pk

A segunda relacao de A-ortogonalidade segue diretamente da primeira relacao de ortogonalidade; de fato,lembrando que

Aek+1 = rk+1,

temos ek+1, pk

Aek+1, pk

rk+1, pk

O significado geometrico deste resultado e que o mınimo do funcional f na reta xk + αk p

k ocorre quando aderivada direcional de f na direcao de busca e zero, ou seja,

0 =∂f

rk+1, pk

4.12 Corolario. No metodo da descida mais acentuada vale

rk+1 ⊥ rk

⊥A rk

.4.13 Teorema. Sejam A ∈ Mn (R) uma matriz simetrica positiva definida e denote por λmax e λmin seu

menor autovalor e seu maior autovalor, respectivamente. Ent˜ ao o erro algebrico do metodo da descida mais acentuada satisfaz a estimativa ek+1

λmax − λminλmax + λmin

Em particular, ekA

e portanto o metodo da descida mais acentuada converge qualquer que seja o chute inicial x0.

Prova: Temos ek+1 = x − xk+1 = x − xk + αkrk = ek − αkrk.

Logo, pelo Corolario 4.12,ek+12A

ek+1, ek+1A

ek+1, ekA

− αk

ek+1, rk

ek+1, ekA

ek+1, Aek

ek+1, rk

Daı, usando a desigualdade de Kantorovich,ek+12A

ek − αkrk, rk

ek, rk− αk

rk, rk

ek, rk

rk, rk

rk, Ark

rk, rk

ek, rk

= ek, Aek1 − rk, rkrk, Ark

rk, rkA−1rk, rk

rk, rk

rk, Ark

rk, rk

rk, A−1rk

1 − 4λminλmax

(λmin + λmax)2

Observamos que o fator de convergencia obtido no Teorema 4.13 e otimo (veja Exercıcio 4.6).

Introduzimos o n´ umero de condic˜ ao de uma matriz, que e uma medida do quao mal-comportada ela e.

4.14 Definicao. Seja A ∈ Mn (R) uma matriz simetrica positiva definida. O numero de condicao de A edefinido por

κ (A) =λmaxλmin

Quanto menor o numero de condicao de A, isto e, quanto mais proximo de 1, mais proximos a esferassao os elipsoides de nıvel do funcional f ; reciprocamente, quando maior o numero de condicao de A, maisexcentricos sao estes. A constante do Teorema 4.13 pode ser mais convenientemente expressa em termos donumero de condicao da matriz:

4.15 Corolario. Sejam A ∈ Mn (R) uma matriz simetrica positiva definida e denote por λmax e λmin seu menor autovalor e seu maior autovalor, respectivamente. Ent˜ ao o erro algebrico do metodo da descida

mais acentuada satisfaz a estimativa ek+1A

κ (A) − 1

κ (A) + 1

Desta forma, vemos que quanto mais κ (A) e proximo de 1 maior e a velocidade de convergencia do metododa descida acentuada; reciprocamente, quando maior κ (A), mais lento ele e.

Reunindo as informacoes obtidas, um algoritmo para o metodo da descida mais acentuada pode serapresentado da seguinte forma:

initialize x;set b;r ← b − Ax;do until stop criterion compute Ar;

α ← r, r / r,Ar ;x ← x + αr;r ← r − αAr;

4.3 Exercıcios

4.1 Considere a matriz invertıvel

0 I I I

onde I e a matriz identidade m × m, e seja V = W = e1, . . . , em. Verifique que W T AV e singular.

4.2 Verifique que a matriz W T AV e invertıvel se e somente se nenhum vetor do subespaco AK e ortogonalao subespaco L.

4.3 Sejam B1 = v1, . . . , vm e B2 = w1, . . . , wm duas bases para o subespaco K ⊂ Rn e considere asmatrizes n × m V = [v1 · · · vm] e W = [w1 · · · wm]. Mostre que existe uma matriz m × m invertıvel P tal que V = W P .

4.4 Mostre que se A e uma matriz positiva definida n × n e V e uma matriz n × m cujas colunas saolinearmente independentes, entao a matriz m × m V T AV tambem e uma matriz positiva definida.

4.5 Mostre que se A e uma matriz n × m cujas colunas sao linearmente independentes, entao a matrizm × m BT B e invertıvel.

4.6 Verifique que a taxa de convergencia para o metodo da descida mais acentuada obtida no Teorema 4.12e otima da seguinte maneira: se v1 e vn sao os autovetores associados a λmin e λmax, respectivamente,mostre que se e0 = v1 + v2, entao

=λmax − λminλmax + λmin

4.7 O n´ umero de condic˜ ao para uma matriz invertıvel A ∈ Mn (C) qualquer e definido por

κ (A) = A2A−1

a) Mostre que se A e uma matriz simetrica positiva definida esta definicao coincide com a Definicao4.14.

b) Verifique que κ (A) 1 para toda matriz A.

c) Considere o sistema Ax = b. Se y e uma aproximacao de x com erro algebrico e = x − y e erro

residual r = b − Ay, mostre que

κ (A)

e2 r2 κ (A)f 2x2

Esta desigualdade e otima, no sentido de que a igualdade e atingida para certos valores de y. Elamostra que para uma matriz mal-condicionada (isto e, com um numero de condicao relativamentealto), o erro residual pode ser muito pequeno ao mesmo tempo em que o erro algebrico pode ser muitogrande e vice-versa.

Capıtulo 5

Metodos de Subespacos de Krylov

Os metodos de projecao deste capıtulo estao entre os mais importantes e populares disponıveis. Eles estao

baseados na projecao sobre subespacos de Krylov , que sao subespacos gerados por vetores da forma p (A) vonde p e um polinomio.

5.1 Motivacao

Como vimos ao estudar os metodos iterativos lineares para a resolucao do sistema Ax = b, estes metodosconsistem em obter uma decomposicao apropriada A = B − C da matriz do sistema, onde B e uma matrizproxima da matriz original A mas facil de resolver. Entao o metodo iterativo pode ser descrito pela relacaode recorrencia

xm+1 =

I − B−1A

xm + B−1b,

onde R = I − B−1A e a matriz de iteracao. A matriz mais facil de resolver e

B = I,

exceto que esta matriz em geral esta muito longe de A. Quando esta escolha e feita, obtemos a chamadaiteracao de Richardson:

xm+1 = (I − A) xm + b = xm + b − Axm

ou, simplesmente,xm+1 = xm + rm. (5.1)

Assim, o metodo da iteracao de Richardson consiste simplesmente em somar o resıduo da aproximacao apropria aproximacao para obter a proxima aproximacao. Na verdade, o metodo de iteracao de Richardsondesempenha papel importante na teoria de convergencia dos metodos iterativos: por exemplo, todo metodoiterativo linear com decomposicao A = B

−C pode ser visto como a iteracao de Richardson aplicada ao

sistema equivalente (precondicionado)B−1Ax = B−1b.

A partir de (5.1) obtemos sua correspondente equacao residual:

rm+1 = (I − A) rm. (5.2)

Atraves da iteracao para tras desta equacao obtemos

rm = (I − A)m

r0 (5.3)

= pm (A) r0, (5.4)

ou seja, o m-esimo resıduo e da forma pm (A) r0 onde pm e um polinomio de grau m. Alem disso, como

xm+1 = xm + rm = xm−1 + rm−1 + rm = . . . =m

j=0 rj

(I − A)j

segue que as aproximacao tambem sao da forma qm (A) r0 onde qm e um polinomio de grau igual a m.Portanto, tanto os resıduos r0, . . . , rm como as aproximacoes x0, . . . , xm pertencem ao subespaco

= p (A) r0 : p e um polinomio de grau menor que ou igual a m

r0, Ar0, . . . , Amr0

5.2 Subespacos de Krylov

5.1 Definicao. Dada uma matriz A ∈ Mn (C) e um vetor v ∈ Cn, definimos o subespaco de Krylov

Km (A, v) =

v , A v , . . . , Am−1v

. (5.5)

Em outras palavras, Km (A, v) e o subespaco de todos os vetores que podem ser escritos na forma w = p (A) v,onde p e um polinomio de grau menor que ou igual a m−1. Se nao houver motivo para confusao denotaremoso subespaco de Krylov Km (A, v) simplesmente por Km.

Como vimos no capıtulo anterior, um metodo de projecao geral para resolver o sistema linear

Ax = b

extrai uma solucao aproximada xm de um subespaco afim x0 +

Km de dimensao m atraves da imposicao da

condicao de Petrov-Galerkinrm = b − Axm ⊥ Lm.

Um metodo de subespaco de Krylov e um metodo de pro jecao para o qual o subespaco Km e o subespacode Krylov

r0, Ar0, . . . , Am−1r0

. (5.6)

As diferentes versoes de metodos de subespaco de Krylov decorrem principalmente das diferentes escolhasde Lm.

Lembramos alguns fatos de Algebra Linear.

5.2 Definicao. O polinomio mınimo de um vetor v com respeito a matriz A (tambem chamado o A-anulador de v) e o polinomio monico de menor grau p que anula v, isto e, tal que p (A) v = 0. O grau

do polinomio mınimo e chamado o grau de v com respeito a A.E uma consequencia do Teorema de Cayley-Hamilton que

grau v n.

5.3 Proposicao. Seja d = grau v. Ent˜ ao Kd e invariante por A e Kd = Km para todo m d.

Alem disso,dim Km = m

se e somente se m d. Portanto,dim Km = min m, d .

Prova: Os vetores v , A v , . . . , Am−1v formam uma base para Km se e somente se o unico polinomio de graumenor ou igual a m − 1 que anula v e o polinomio nulo. Apesar dos vetores v , A v , . . . , Am−1v formarem uma base para o subespaco de Krylov Km (quando m

grau v), esta e uma base mal-condicionada, no sentido que a medida que k aumenta o vetor Ak

v fica cada vezmais proximo do autovetor associado ao maior autovalor de A, como veremos em detalhe quando estudarmoso metodo de potencias para obter autovalores de matrizes. Assim, para m grande os vetores v , A v , . . . , Am−1vtornam-se aproximadamente linearmente dependentes, o que torna-se um problema em aritmetica de precisaofinita. Para obter uma base bem condicionada para o subespaco de Krylov e necessario usar um metodo deortogonalizacao, como veremos a seguir.

5.3 Algoritmo de Arnoldi

O metodo de Arnoldi e um metodo de pro jecao ortogonal em subespacos de Krylov, ou seja, Lm = Km =Km

, aplicavel para matrizes gerais, nao necessariamente hermitianas. O procedimento foi introduzido

pela primeira vez em 1951 como uma maneira de calcular a forma de Hessenberg de matrizes densas. Arnoldi

sugeriu que os autovalores da forma de Hessenberg, obtida atraves de menos que n passos, eram boasaproximacoes para alguns dos autovalores da matriz original. Posteriormente, verificou-se que isso conduza uma tecnica eficiente para a aproximacao dos autovalores de matrizes esparsas grandes, como veremosem detalhes quando formos estudar metodos para a obtencao de autovalores de matrizes. Posteriormente ometodo foi estendido para a solucao de sistemas lineares esparsos grandes.

O algoritmo de Arnoldi , propriamente dito, e um procedimento para a construcao de uma base ortonormalpara o subespaco de Krylov Km, ja que, como observado antes, a base natural

v , A v , . . . , Am−1v

bem condicionada. Simplesmente ortogonalizar esta base mal-condicionada tambem nao e uma boa opcaonumerica. No algoritmo de Arnoldi, o processo de ortogonalizacao de Gram-Schmidt e usado da seguintemaneira. Inicialmente obtem-se o primeiro vetor unitario atraves da normalizacao do vetor v:

Em seguida, calcula-se o vetor Av1 (ao inves de Av) e ortogonaliza-se este vetor com relacao ao vetor v1atraves do metodo de Gram-Schmidt:

w1 = Av1 − projv1

Av1 = Av1 − Av1, v1 v1,

v2 =w1

Tendo sido obtido o vetor v2, calcula-se Av2 (ao inves de A2v = A (Av)) e ortogonaliza-se este vetor comrelacao aos vetores v1, v2 atraves do metodo de Gram-Schmidt:

w2 = Av2 − projv1,v2

Av2 = Av2 − Av2, v1 v1 − Av2, v2 v2,

v3 =w2

No passo geral, tendo sido obtido o vetor vj no passo anterior, calcula-se e ortogonaliza-se este vetor comrelacao aos vetores v1, . . . , vj obtidos nos passos anteriores atraves do metodo de Gram-Schmidt:

wj = Avj − projv1,...,vj

Avj = Avj −j

Avj , vi vi, (5.7)

vj+1 =wj

wj . (5.8)

Podemos resumir este procedimento no seguinte algoritmo:

Algoritmo de ArnoldiAtribua v;v1 ← v/ v2 ;Para j = 1, . . . , m faca:

Calcule hij = Avj , vi para i = 1, . . . , j;

Calcule wj = Avj −j

i=1hijvi;

hj+1,j = wj2 ;Se hj+1,j = 0 entao pare;vj+1 ← wj/hj+1,j ;

fim do laco

O algoritmo sofre um colapso se o vetor wj e nulo e o vetor vj+1 nao pode mais ser calculado.

5.4 Proposicao. Assuma que o algoritmo de Arnoldi n˜ ao p´ ara antes do m-esimo passo. Ent˜ ao os vetoresv1, . . . , vm formam uma base ortonormal para o subespaco de Krylov

Km (A, v1) =

v1, Av1, . . . , Am−1v1

Prova: Os vetores v1, . . . , vm sao ortonormais por construcao, logo sao linearmente independentes. Bastaentao mostrar que v1, . . . , vm ∈ Km (A, v1) para concluir que eles formam uma base para Km (A, v1). Paraisso, basta mostrar que cada vetor vj e da forma qj−1 (A) v1 para algum polinomio qj−1 de grau j − 1. Issopode ser visto por inducao. Se j = 1, temos q0 (t) ≡ 1. Assumindo o resultado verdadeiro para todos osinteiros ate j, considere vj+1. Temos

hj+1,jvj+1 = wj = Avj −j

i=1hijvi = Aqj−1 (A) v1 −

i=1hijqi−1 (A) v1,

de modo que vj+1 = qj (A) v1 para qj = (1/hj+1,j)

tqj−1 (t) −

hijqi−1 (t)

, que e um polinomio de grau

j. O significado do colapso do algoritmo de Arnoldi, quando o vetor vj+1 nao pode ser mais calculado e

dado a seguir:

5.5 Proposicao. O algoritmo de Arnoldi sofre um colapso no passo j, isto e hj+1,j = 0, se e somente seo polinomio mınimo de v tem grau j. Alem disso, neste caso o subespaco Kj e invariante por A eportanto a soluc˜ ao obtida pelo metodo de projec˜ ao associado e exata.

Prova: Se o grau de v e j, entao hj+1,j = 0, caso contrario vj+1 poderia ser definido e pela Proposicao 5.4

Kj+1 teria dimensao j + 1 maior que o grau de v, contrariando a Proposicao 5.3.

Reciprocamente, assuma hj+1,j = 0. Entao pelas Proposicoes 5.3 e 5.4 o grau de v e d j. Mas pelaprimeira parte desta demonstracao, nao podemos ter d < j, pois isso implicaria hd+1,d = 0 e o algoritmo jateria entrado em colapso no passo d.

O restante do enunciado segue diretamente da Proposicao 5.3 e da Proposicao 4.6. Por isso, tais colapsos sao chamados colapsos sortudos. Infelizmente eles raramente ocorrem na pratica, masmesmo quando isso nao ocorre as iteradas obtidas aproximam a solucao exata em um numero relativamentepequeno de iteracoes se comparado com os metodos lineares basicos.

Vamos agora representar o algoritmo de Arnoldi em uma forma matricial.

5.6 Definicao. Dizemos que A = (aij) e uma matriz de Hessenberg se aij = 0 para todo i > j + 1(matriz de Hessenberg superior ) ou se aij = 0 para todo i < j − 1 (matriz de Hessenberg inferior ).

Assim, uma tıpica matriz de Hessenberg superior quadrada m × m e da forma

h11 h12 h13 h14 . . . . . . h1mh21

. . . . . . h2m0 h32 h33 h34 . . . . . . h3m

0 0 h43 h44. . . . . . h4m

0 0 0. . .

. . .. . .

......

. . .. . .

......

. . .. . .

. . . hm−1,m

0 0 0 0 . . . 0 hm,m−1 hmm

, (5.9)

ou seja, e uma matriz obtida a partir de uma matriz triangular superior em que a subdiagonal inferior epreenchida. Similarmente, uma matriz de Hessenberg inferior quadrada e uma matriz obtida a partir de umamatriz triangular inferior em que a subdiagonal superior e preenchida. Uma tıpica matriz de Hessenberg

superior (m + 1) × m e da forma

h11 h12 h13 h14 . . . . . . h1mh21 h22 h23 h24 . . . . . . h2m

0 h32 h33 h34 . . . . . . h3m

0 0 h43 h44. . . . . . h4m

0 0 0. . .

. . .. . .

......

. . .. . .

......

. . .. . .

. . . hm−1,m

0 0 0 0 . . . 0 hm,m−1 hmm

0 0 0 0 0 0 0 hm+1,m

. (5.10)

A partir daı, em uma matriz de Hessenberg superior n×m com n > m +1 todas as linhas i tais que i > m+1sao nulas.

5.7 Proposicao. Denote por V m a matriz n × m cujas colunas s˜ ao os vetores v1, . . . , vm, por H m a matriz de Hessenberg (m + 1) × m cujas entradas n˜ ao-nulas s˜ ao os elementos hij definidos pelo algoritmo de

Arnoldi e por H m a matriz m × m obtida de atraves da eliminac˜ ao da ´ ultima linha de H m. Ent˜ aovalem as seguintes relac˜ oes:

AV m = V mH m + wmeT m = V m+1H m, (5.11)

V T mAV m = H m. (5.12)

Prova: Se M e uma matriz, denotemos por (M )j a sua j-esima coluna. Do algoritmo de Arnoldi temos,para j = 1, . . . , m,

(AV m)j = Avj =

hijvi + wj =

hijvi + hj+1,jvj+1 =

j+1i=1

hijvi. (5.13)

Por outro lado, V m+1

=m+1i=1

hijvi =

j+1i=1

hijvi,

de modo que segue de (5.13) que

V m+1 H mj =

i=1 hijvi = (AV m)j

logo AV m = V m+1H m. Da mesma forma, para j = 1, . . . , m − 1,

(V mH m)j =

j+1i=1

hijvi,wmeT m

de modo que

V mH m + wmeT m

i=1hijvi = (AV m)j

para j = 1, . . . , m − 1, enquanto que para j = m temos

(V mH m)m =mi=1

himvi,wmeT m

= wm = hj+1,jvm+1,

de modo que V mH m + wmeT m

m+1i=1

hijvi = (AV m)m .

Portanto, AV m = V mH m + wmeT m. Finalmente, multiplicando ambos os lados desta ultima relacao por V T m e

usando o fato que os vetores v1, . . . , vm sao ortonormais e wm e ortogonal a todos eles, segue que V T

mV m = I e V T mwmeT m

= V T mwm eT m = 0, donde obtemos a ultima relacao do enunciado desta proposicao.

5.4 Implementacao Pratica: Metodos de Ortogonalizacao Estaveis

O algoritmo de Gram-Schmidt e numericamente instavel: pequenos erros de arredondamento podem darorigem a vetores muito longe de serem ortogonais (veja Exercıcio 5.1). Na implementacao pratica do algo-ritmo de Arnoldi e necessario considerar metodos de ortogonalizacao numericamente estaveis.

5.4.1 Metodo de Gram-Schmidt Modificado (MGS)

O metodo de Gram-Schmidt modificado (MGS) e uma modificacao pequena do metodo de Gram-

Schmidt que produz um algoritmo de ortogonalizacao estavel. Na ausencia de erros de arredondamento,eles produzem os mesmos vetores. No algoritmo de Gram-Schmidt classico, dada uma base u1, . . . , um deum subespaco vetorial, uma vez calculados os vetores ortonormais v1, . . . , vj−1 correspondentes, os escalareshij = uj , vi, i = 1, . . . , j−1 sao todos calculados simultaneamente para produzir o proximo vetor ortogonalunitario vj

wj = uj −j−1i=1

hijvi, (5.14)

vj =wj

wj . (5.15)

No metodo modificado, assim que o primeiro vetor ortogonal v1 = u1 e obtido, todos os vetores u2, . . . , um

sao atualizados atraves do escalar h1i = ui, v1:

i = ui − h1iv1, i = 2, . . . , m .Assim, os vetores v12 , . . . , v1m ja sao ortogonais a v1. Em particular, podemos tomar v2 = v12/

vez obtido v2, todos os vetores v13, . . . , v1m sao atualizados atraves dos escalares h2i =

v1i , v2

v2i = v1i − h2iv2, i = 3, . . . , m .

Assim, os vetores v23, . . . , v2m sao ortogonais a v1 e v2. Em particular, tomamos v3 = v23/v23

e continuamos oprocesso ate o fim. Em geral, no passo j, uma vez obtido o vetor unitario vj , ortogonal aos vetores ortonormais

v1, . . . , vj−1, os vetores vj−1j+1 , . . . , vj−1m que ja eram ortogonais aos vetores v1, . . . , vj−1, sao atualizados atraves

dos escalares hji =

vj−1j , vj

para produzir vetores vj

j+1, . . . , vjm ortogonais a v1, . . . , vj−1, vj:

i − hjivj , i = j + 1, . . . , m , (5.16)

e tomamos

vj+1 =vjj+1vjj+1

. (5.17)

.Em aritmetica exata, os algoritmos de Gram-Schmidt e de Gram-Schmidt modificado sao equivalentes;

alem disso, eles tem o mesmo custo computacional (2m2n flops) e de armazenamento ((m + 1) n). Paraentender porque o MGS e mais estavel, observe que os dois metodos sao identicos no calculo de v1 e v2. Aprimeira diferenca surge no calculo de v3. No metodo de Gram-Schmidt classico (GS) temos

wGS3 = v3 − h13v1 − h23v2

comh13 = u3, v1 e h23 = u3, v2 .

O termo h23v2 e a componente de u3 na direcao de v2. Quando este componente e removido de u3, obtemosum vetor ortogonal a v2, desde que o escalar h23 seja calculado com exatidao. No metodo MGS primeirocalculamos

v13 = u3 − h13v1

e depoisv23 = v13 − h23v2,

h13 = u3, v1 = h13 e

v13 , v2

Daı,wMGS3 = v23 = u3 − h13v1 − h23v2 = u3 − h13v1 − h23v2

Em princıpio, u3 e v13 = u3 − h13v1 tem as mesmas componentes na direcao de v2, ja que v1 e ortogonal

a v2, e nao faria diferenca usar h23 ou h23. Na pratica, os vetores v1 e v2 nao sao exatamente ortogonais,por causa de erros de arredondamento, portanto o termo h13v1 tem uma pequena componente na direcao dev2. Alem disso, erros de arredondamento tambem ocorrem na subtracao de h13v1 de u3, portanto este vetordiferenca tambem tem uma componente na direcao de v2. O metodo de Gram-Schmidt classico ignora esteserros, enquanto que o metodo modificado, trabalhando com o vetor v13 ao inves de u3, leva estes erros em

conta e os corrige no calculo de h23.

Para obter um algoritmo computacionalmente implementavel para o MGS, observe que enquanto que nometodo de Gram-Schmidt classico, uma vez obtidos os vetores ortonormais v1, . . . , vj−1 obtemos o proximovetor ortogonal unitario vj fazendo

wj = uj −j

projvi uj ,

vj =wj

no metodo de Gram-Schmidt modificado fazemos

v1j = uj − projv1 uj,

v2j = v1j − projv2 v1j ,

v3j = v2j − projv3 v2j ,

.. (5.18)

vj−2j = vj−3

j − projvj−2 vj−3j ,

vj−1j = vj−2

j − projvj−1 vj−2j ,

vj =vj−1jvj−1j

Usando o MGS, o algoritmo de Arnoldi tem o seguinte aspecto. Obtem-se o primeiro vetor unitarioatraves da normalizacao do vetor v:

Em seguida, calcula-se o vetor Av1 e ortogonaliza-se este vetor com relacao ao vetor v1:

v12 = Av1 − projv1 Av1 = Av1 − Av1, v1 v1,

v2 =v12

Como ja observado anteriormente, ate aqui o MGS e identico ao metodo de Gram-Schmidt classico. Tendosido obtido o vetor v2, calcula-se Av2 e ortogonaliza-se este vetor primeiro com relacao ao vetor v1 e depoiso vetor resultante e ortogonalizado com relacao ao vetor v2:

v13 = Av2 − projv1 Av2 = Av2 − Av2, v1 v1,

v23 = v13 − projv2 v13 = v13 −

v13 , v2

v3 = v23v23.

No passo geral, tendo sido obtido o vetor vj no passo anterior, calcula-se Avj e ortogonaliza-se este vetorcom relacao ao primeiro vetor v1; em seguida o vetor resultante e ortogonalizado com relacao ao vetor v2, e

assim por diante, ate que o vetor resultante do passo anterior seja ortogonalizado com relacao ao vetor vj :

v1j = Avj − projv1 Avj = Avj − Avj , v1 v1,

j − projv2 v

j − v

j , v2 v2,...

vj−1j = vj−2

j − projvj−1 vj−2j = vj−2

vj−2j , vj−1

vj−1, (5.19)

vjj = vj−1

j − projvj vj−1j = vj−1

vj−1j , vj

vj+1 =vjjvjj

Podemos resumir este procedimento no seguinte algoritmo:

Algoritmo de Arnoldi MGS

Atribua v;v1 ← v/ v2 ;Para j = 1, . . . , m faca

Calcule wj = Avj;Para i = 1, . . . , j faca

hij ← wj , vi ;wj ← wj − hijvi

fim do lacohj+1,j = wj2 ;

Se hj+1,j = 0 entao pare;vj+1 ← wj/hj+1,j ;

fim do laco

Embora o MGS seja mais estavel, em situacoes onde os erros de cancelamento podem ser muito severosnos passos de ortogonalizacao e necessario considerar metodos ainda mais estaveis.

5.4.2 Metodo de Gram-Schmidt Modificado com Reortogonalizacao (MGSR)

Uma melhoria simples e recorrer a ortogonalizacao dupla. Ou seja, no passo j obtemos o vetor v(j−1)j que deve

ser ortogonal aos vetores w1, . . . , wj−1. Isso pode ser verificado diretamente, calculando os produtos internosv(j−1)j , wi

e verificando se eles sao proximos de 0 dentro de uma margem de tolerancia pre-estabelecida. Se

temos que nos dar a este trabalho, e melhor aproveitar os calculos destes produtos internos e fazer logo umasegunda ortogonalizacao. Assim no primeiro loop do algoritmo MGS anterior acrescentamos um segundoloop:

Calcule wj = Avj ;

Para i = 1, . . . , j facahij ← wj , vi ;wj ← wj − hijvi

Para i = 1, . . . , j faca γ ← wj , vi ;wj ← wj − γvi;hij ← hij + γ ;

Se hj+1,j = 0 entao pare;vj+1 ← wj/hj+1,j ;

Ortogonalizacoes adicionais sao superfluas: duas ortogonalizacoes sao suficientes para fazer o vetor wj or-togonal aos vetores w1, . . . , wj−1 na precisao de maquina (veja [Watkins], p. 233, ou [Saad], p. 156).

GS MGS MGSRFlops 2m2n 2m2n 4m2nArmazenagem (m + 1) n (m + 1) n (m + 1) n

5.5 Metodo de Arnoldi para Sistemas Lineares

Dado um chute inicial x0 para a solucao do sistema linear Ax = b, o metodo de Arnoldi para sistemaslineares e um metodo de projecao ortogonal em que

K = L = Km

r0, Ar0, A2r0, . . . , Am−1r0

em que r0 = b−Ax0. Portanto, o metodo busca uma solucao aproximada xm ∈ x0+Km impondo a condicaode Galerkin

rm = b − Axm ⊥ Km.

De acordo com o capıtulo anterior, se V m = [v1 · · · vm] e uma matriz cujas colunas formam uma baseortonormal para Km, obtidas atraves do algoritmo de Arnoldi, temos

xm = x0 + V mym

V T m AV m−1

V T m r0 = H −1m V T m r0 = H −1m V T m

H −1m V T m (v1)

H −1m (e1) .

Baseados nestas observacoes, temos entao o seguinte metodo de Arnoldi para sistemas lineares, chamado

metodo da ortogonalizacao completa (ou FOM de full orthogonalization method ):Algoritmo de Arnoldi para Sistemas Lineares FOMInicialize x0;Calcule r0 = b − Ax0;Calcule β =

;v1 ← r0/β ;Inicialize a matriz H m = (hij)m×m = 0;

Para j = 1, . . . , m faca

Calcule wj = Avj ;Para i = 1, . . . , j faca

hij ← wj , vi ;wj

−hijvi

Se hj+1,j = 0 tome m := j e saia do laco;vj+1 ← wj/hj+1,j;

fim do lacoCalcule ym = βH −1m (e1) ; //nao e necessario encontrar H −1m

Calcule xm = x0 + V mym.

Este algoritmo pode ser tambem obtido diretamente. A condicao de Galerkin rm ⊥ Km

e equivalente

aV T m (b − Axm) = 0

ouV T m Axm = V T m b

Escolhendo o chute inicial x0 = 0 para simplificar, temos que b = r0 = r0 v1, donde

V T m Axm =r0

V T m v1 =r0

Como xm ∈ Km

, podemos escrever xm = V mym para algum vetor ym ∈ Rm. Logo

V T mAV mym =r0

que pode ser interpretado como o sistema Ax = b projetado no subespaco Km

. Usando o fato que

V T m AV m = H m, segue queH mym =

r0 e1. (5.20)

Resolvendo este sistema obtemos ym e daı a aproximacao

= V mym

. (5.21)

Como em geral m n, este sistema e bem mais facil de resolver que o sistema original, possibilitandoo uso de metodos diretos. De fato, embora a matriz de Hessenberg seja uma matriz densa, como ela equase triangular uma decomposicao QR passa a ser competitiva com a decomposicao LU e e indicada (paramatrizes gerais, o custo da decomposicao LU e a metade do custo da decomposicao QR). Maiores detalhesserao fornecidos na proxima secao.

O algoritmo depende do parametro m que em geral deve ser selecionado dinamicamente. Em geral, m eprogressivamente aumentado ate que o resıduo rm e menor que alguma tolerancia previamente estabelecida.Ao inves de calcular o resıduo diretamente, podemos obter a norma do resıduo de maneira menos custosaatraves do seguinte resultado:

5.8 Proposicao. O resıduo calculado atraves do metodo de Arnoldi FOM satisfaz

rm = −hm+1,m em, ym vm+1,

logorm2 = hm+1,m

eT mym (5.22)

Em particular, os resıduos s˜ ao ortogonais.

Prova: Temos, pela Proposicao 5.7,

rm = b − Axm = b − A

x0 + V mym

= r0 − AV mym

= r0 v1− V mH m + wmeT m ym

= r0 v1 − V mH mym − wmeT m ym

v1 − V mr0

e1 − hm+1,mvm+1

eT mym

= −hm+1,m em, ym vm+1.

5.6 Decomposicao QR via MGS

Lembramos que uma decomposic˜ ao QR de uma matriz A e uma fatorizacao

A = QR (5.23)

onde Q e uma matriz ortogonal (no caso real, unitaria no caso complexo) e R e uma matriz triangular superior.Usando esta decomposicao, podemos resolver o sistema linear Ax = b da seguinte maneira. Multiplicandoambos os lados da equacao por QT obtemos

QT Ax = QT b,

de modo que o sistema original e equivalente ao sistema

Rx = QT b (5.24)

cuja matriz de coeficientes e uma matriz triangular superior, logo pode ser resolvido por substituicao.

Para calcular a decomposicao QR de uma matriz, um dos metodos que podem ser usados e o proprioMGS. Outros metodos serao vistos no capıtulo sobre autovalores. Para facilitar a compreensao, veremosprimeiro como fazer a decomposicao QR usando o metodo de Gram-Schmidt modificado. No que se segueassumiremos que A e uma matriz n×m cujas m colunas sao linearmente independentes. Escrevendo a matrizA em colunas

A1 A2 · · · Am

, (5.25)

aplicamos o metodo de Gram-Schmidt as colunas de A, obtendo

wj = Aj −j−1i=1

Aj, vi vi, (5.26)

vj =wj

wj. (5.27)

Resolvendo em termos de Aj , podemos escrever

j−1i=1

rijvi + wj vj =

rijvi (5.28)

rij = Aj , vi , (5.29)

rjj = wj . (5.30)

Assim, tomando

Q = v1 v2 · · · vm (5.31)

r11 r12 r13 . . . r1m0 r22 r23 . . . r2m0 0 r33 . . . r3m

0 0 0. . .

......

. . .. . .

...0 0 0 . . . 0 rmm

(5.32)

segue que

A1 A2 · · · Am

v1 v2 · · · vm

r11 r12 r13 . . . r1m0 r22 r23 . . . r2m0 0 r33 . . . r3m

0 0 0. . .

......

. . .. . .

...0 0 0 . . . 0 rmm

, (5.33)

ou seja, A = QR.Devido aos problemas da instabilidade do metodo de Gram-Schmidt classico, e melhor usar o metodo de

Gram-Schmidt modificado para fazer a decomposicao QR de uma matriz. Resolvendo o j-esimo passo doMGS

v1j = Aj − Aj , v1 v1,

= v1j − v1

v3j = v2j − v2j , v3

vj−2j = vj−3

vj−3j , vj−2

vj−2,

vj−1j = vj−2

vj−2j , vj−1

vj−1,

vj =vj−1jvj−1j

em termos de Aj , denotando

v0j = Aj , (5.34)

segue que

Aj = v1j + Aj , v1 v1

= v2j +

v1j , v2

v2 + Aj , v1 v1

= v3j +

v2j , v3

v1j , v2

v2 + Aj , v1 v1

= vj−1j +

j−1i=1

vi−1j , vi

vi (5.35)

j vj +

j , vi vi

rijvi,

onde definimos

vi−1j , vi

se i = 1, . . . , j − 1, (5.36)

rjj =vj−1

. (5.37)

Assim, se Q e R sao definidas como em (5.31) e (5.32), novamente nos temos A = QR.

5.7 Algoritmo de Lanczos e Metodo do Gradiente Conjugado

O algoritmo de Lanczos pode ser visto como uma simplificacao do metodo de Arnoldi para matrizes simetricas.

Quando a matriz A e simetrica, a matriz de Hessenberg H m torna-se uma matriz tridiagonal simetrica , poisH m = V T mAV m e uma matriz de Hessenberg simetrica e necessariamente tridiagonal. Isso leva a umarecorrencia de tres termos no processo de Arnoldi e a recorrencias curtas para algoritmos de solucao taiscomo o FOM.

A notacao padrao para descrever o algoritmo de Lanczos e obtida tomando

αj = hjj ,

β j = hj−1,j

de modo que a matriz de Hessenberg H m resultante tem a forma

α1 β 2β 2 α2 β 3

. . . . . . . . .β m−1 αm−1 β m

β m αm

(na notacao padrao do algoritmo de Lanczos, a matriz de Hessenberg H m e denotada por T m, para enfatizara sua tridiagonalidade). Isto leva a seguinte variacao MGS do metodo de Arnoldi (FOM):

Algoritmo de Lanczos com MGSInicialize x0;Calcule r0 = b − Ax0;Calcule β =

;v1 ← r0/β ;Inicialize β 1 = 0, v0

Para j = 1, . . . , m facawj ← Avj − β jvj−1;αj ← wj , vi ;wj ← wj − αjvj ;β j+1 ← wj ;

Se β j+1 = 0 entao pare;vj+1 ← wj/ β j+1;

fim do lacoAtribua a matriz T m = tridiag (β i, αi, β i+1);Atribua a matriz V m = [v1 · · · vm] ;Calcule ym = T −1m (βe1); //nao e necessario encontrar T −1m

Calcule xm = x0 + V mym.

Este algoritmo pode ser consideravelmente simplificado, atraves da obtencao de uma formula de recorrenciade tres termos, levando ao metodo do gradiente conjugado. Primeiro, fazemos uma decomposicao LU damatriz tridiagonal T m = LmU m sem pivos:

µ2 1µ3 1

. . .. . .

η1 β 2η2 β 3

η3. . .

. . . β mηm

(5.38)

onde os coeficientes das matrizes bidiagonais Lm e U m podem ser obtidas atraves da seguinte formula derecorrencia:

η1 = α1,

µ2 = β 2η−11 ,

η2 = α2 − µ2β 2,

µ3 = β 3η−12 ,

µm = β mη−1m−1,

ηm = αm − µmβ m,

isto e,

µj = β jη−1j−1, (5.39)

ηj = αj − µjβ j . (5.40)

(Observe que ηj = 0 para todo j porque T m e simetrica, positiva definida.) A solucao aproximada e dadaentao por

xm = x0 + V mU −1m L−1m (βe1) . (5.41)

Definindo

P m = V mU −1m , (5.42)

zm = L−1m (βe1) , (5.43)

segue quexm = x0 + P mzm. (5.44)

Por causa da estrutura triangular superior bidiagonal de U m, P m pode ser atualizada facilmente. De fato,escreva P m em colunas:

p1 p2 · · · pm

Da relacao P mU m = V m segue queβ m pm−1 + ηm pm = vm,

donde pm = η−1m (vm − β m pm−1) . (5.45)

Alem disso, por causa da estrutura triangular inferior bidiagonal com diagonal unitaria de U m, da relacaoLmzm = βe1 segue que

µmzmj−1 + zmj = 0

para j > 1, e portanto podemos escrever (lembrando que zm e um vetor de Rm assim como ym)

zm−1

(5.46)

comζ m = −µmζ m−1. (5.47)

Assim,

xm = x0 +

P m−1 pm zm−1

= x0 + P m−1zm−1 + ζ m pm,

dondexm = xm−1 + ζ m pm. (5.48)

Isso da a seguinte versao direta para o algoritmo de Lanczos para sistemas lineares:

Algoritmo de Lanczos DiretoInicialize x0;Calcule r0 = b − Ax0;Calcule ζ 1 = β =

;v1 ← r0/β ;Inicialize β 1 = µ1 ≡ 0;Inicialize p0 ≡ 0;Para m = 1, 2, . . . , ate limite de tolerancia faca

w ← Avm − β mvm−1;αm ← w, vm ;Se m > 1 entao

µm ← β m/ηm−1;ζ m ← −µmζ m−1;ηm ← αm − µmβ m; pm ← (vm − β m pm−1) /ηm;xm ← xm−1 + ζ m pm;w ← w − αmvm;β m+1 ← w ;

Se β m+1 = 0 entao pare;vm+1 ← w/ β m+1;

fim do laco

Este algoritmo ainda pode ser consideravelmente simplificado. O resultado, uma formula tripla derecorrencia, extremamente simples e que nao envolve o calculo da base ortonormal v1, . . . , vm, e o chamado

metodo do gradiente conjugado (CG). Para obte-lo, observamos primeiramente que os vetores pm saoA-conjugados (isto e, A-ortogonais):

5.9 Proposicao. pi, pjA = Api, pj = 0 (5.49)

para todos i = j.

Prova: Para provar isso, basta mostrar queP T mAP m

e uma matriz diagonal. Isso segue de

P T mAP m = U −T m V T m AV mU −1m

= U −T m T mU −1m

= U −T m Lm

e do fato que U −T m Lm e uma matriz triangular inferior (a inversa de uma matriz triangular superior e uma

matriz triangular superior e o produto de duas matrizes triangulares inferiores e uma matriz triangularinferior) que e simetrica.

Usando a notacao padrao do metodo do gradiente conjugado (ou seja, agora os escalares αm, β m teraoum significado completamente diferente do anterior), reescrevemos (5.48) na forma

xm+1 = xm + αm pm, (5.50)

de modo que os resıduos satisfazemrm+1 = rm − αmApm. (5.51)

Como os resıduos sao ortogonais (Proposicao 5.8), segue que

−αmApm, rm

= 0, donde

αm =rm, rm

Apm, rm . (5.52)

Reescrevemos tambem (5.45) na forma

pm+1 = rm+1 + β m pm; (5.53)

para isso usamos a Proposicao 5.8 e fazemos uma mudanca de escala nos vetores pm (isso nao altera avalidade de (5.50), em que assumimos os vetores pm tomados ja com a mudanca de escala; assim os vetores pm do algoritmo do gradiente conjugado considerado aqui tambem sao diferentes dos vetores consideradosacima no algoritmo de Lanczos, sendo multiplos adequados destes). Daı, como

rm+1 + β m pm, Apm

= pm+1, Apm

segue que

β m = −Apm, rm+1Apm, pm .

Observe porem queApm, rm =

Apm, pm − β m pm−1

= Apm, pm , (5.54)

enquanto que de (5.51) temosApm = −α−1m

rm+1 − rm

Portanto, usando a ortogonalidade dos resıduos, podemos escrever

β m = −

Apm, rm+1

Apm, rm =

rm+1, rm+1

rm, rm . (5.55)

Alem disso, usando (5.54) tambem podemos reescrever (5.52) na forma

αm = rm, rmApm, pm . (5.56)

Estas ultimas formulas para αm e β m sao muito mais convenientes para o algoritmo do gradiente conjugado:

Algoritmo do Gradiente ConjugadoInicialize x0;Atribua b;r ← b − Ax0; p ← r;currentr, r ←

r0, r0

;Atribua o limite de tolerancia e o numero maximo de iteracoes;N = 0; //numero de iteracoes.

Faca ate que o limite de tolerancia seja atingidoou ate o numero maximo de iteracoes

Calcule Ap;α ← currentr, r / p, Ap ;x ← x + αp;r ← r − αAp;β ← r, r /current r, r ; p ← r + βp;currentr, r ← r, r ;N + +;

fim do laco

5.8 Metodo do Gradiente Conjugado como um Metodo de Descida

O metodo do gradiente conjugado e uma das mais conhecidas e usadas tecnicas iterativas para resolver sis-

temas lineares envolvendo matrizes simetricas esparsas, dada sua eficiencia e simplicidade de implementacao.Como vimos na secao anterior, ele e matematicamente equivalente ao FOM. No que se segue, veremos umadescricao alternativa do metodo CG, em que ele e visto como uma modificacao do metodo de descida maisacentuada (metodo do gradiente).

Os metodos iterativos lineares basicos e os metodos de descida que vimos anteriormente sao limitadospela sua falta de memoria, no sentido de que apenas informacao sobre xk e usada para obter xk+1. Toda ainformacao sobre as iteracoes anteriores e perdida. O metodo do gradiente conjugado e uma variacao simplesdo metodo da descida mais acentuada que funciona melhor porque a informacao obtida atraves das iteracoesanteriores e utilizada.

Para entender como isso funciona, observe que depois de m iteracoes xk+1 = xk + αk pk de um metodode descida temos

xm = x0 + α0 p0 + α1 p

1 + . . . + αm−1 pm−1,

de modo que xm esta no subespaco afim gerado pelo chute inicial x0 e pelos vetores p0, p1, . . . , pm−1.Enquanto o metodo da descida mais acentuada minimiza o funcional quadratico de energia f associado aosistema Ax = b apenas ao longo das m retas xk + αk p

k, cuja uniao constitui apenas um pequeno subconjuntodo subespaco afim m-dimensional x0+

p0, p1, . . . , pm−1

, o metodo do gradiente conjugado minimiza f sobre

todo o subespaco afim x0 + p0, p1, . . . , pm−1

Para definir as direcoes de busca do metodo do gradiente conjugado (que e, antes de mais nada, um metodode descida), comecamos dando uma prova mais simples da Proposicao 4.4 que nao utiliza a linguagem demetodos de projecao:

5.10 Teorema. Seja A ∈ Mn (R) uma matriz simetrica positiva definida e b ∈ Rn. Ent˜ ao, o funcional quadr´ atico de energia associado ao sistema Ax = b pode ser escrito na forma

f (y) =1

2e2A − 1

2x2A . (5.57)

onde e = x − y e o erro algebrico. Em particular, minimizar o funcional quadr´ atico f e equivalente a minimizar a A-norma do erro.

Prova: Pela regra do paralelogramo, temos

x + y2A + x − y2A = 2 x2A + 2 y2A ,

2 y2A = x − y2A + x2A + 2 y, xA + y2A − 2 x2A= x − y2A + 2 y, xA − x2A + y2A ,

ouy2A − 2 y, xA = x − y2A − x2A .

Logo,f (y) =

2y2A − y, xA =

2e2A − 1

2x2A . (5.58)

Em um metodo de descida, depois de m iteracoes temos:

em = x − xm

= x − x0 − α0 p

0 + α1 p1 + . . . + αm−1 p

= e0 −m−1i=0

αi pi.

Minimizar emA e portanto equivalente a minimizar

i=0 αi piA ,

o que por sua vez e equivalente a encontrar a melhor aproximacao do vetor e0 no subespaco W m = p0, p1, . . . , pm−1

. Esta e dada pelo lema da melhor aproximacao, que enunciamos em detalhe por co-

modidade:

5.11 Proposicao. (Lema da Melhor Aproximacao) Sejam A ∈ M n (R) uma matriz simetrica positiva definida, v ∈ Rn e W um subsespaco de Rn. Ent˜ ao existe um ´ unico w ∈ W tal que

v − wA = minz∈W

v − zA .

O vetor w e caracterizado pela condic˜ ao v − w ⊥A W .

Segue deste resultado que emA e minimizado quando escolhemos p =m−1i=0

αi pi ∈ W m tal que em = e0 − p

satisfazem ⊥A pi para i = 1, . . . , m − 1. (5.59)

Nosso objetivo entao e desenvolver um metodo em que o erro a cada passo e conjugado com todas as direcoesde busca anteriores. Como fazer isso? Pelo Lema 4.11, cujo enunciado repetimos a seguir como Proposi cao5.12 para facilitar a consulta, sabemos que em qualquer metodo de descida em que a busca na reta e exatasatisfaz automaticamente em ⊥A pm−1, isto e, (5.59) e valido para a ultima iteracao (o erro da iteracaopresente e A-ortogonal a direcao de busca da iteracao anterior):

5.12 Proposicao. Seja xm+1 = xm + αm pm obtido atraves de uma busca na reta exata. Entao

eem+1 ⊥A pm.

Fazendo uma busca exata na reta x0 + tp0 obtemos o escalar α0 e

x1 = x0 + α0 p0

Pela Proposicao 5.12 segue que e1 ⊥A p0. Como

e2 = x − x2 = x − x1 − α1 p1 = e1 − α1 p

para que tenhamos e2 ⊥A p0 e necessario escolher p1 conjugado a p0. Se isso foi feito, fazendo em seguidauma busca exata na reta x1 + tp1 obtemos o escalar α

x1 = x0 + α0 p0

e, pela Proposicao 5.12, e2 ⊥A p1. No m-esimo passo, como

em = x − xm = x − xm−1 − αm−1 pm−1

ou seja,em = em−1 − αm−1 p

m−1, (5.60)

para que o erro em seja conjugado aos vetores p0, . . . , pm−2 basta escolher a direcao de busca pm conjugadaa p0, . . . , pm−1; para assegurar que em tambem seja conjugado ao vetor pm−1, basta fazer uma busca exata

na reta xm−1 + tpm−1. Assim, uma condicao necessaria para obter (5.59) e escolher as direcoes de busca detal forma que

pi ⊥A pj para todos i = j. (5.61)

Um metodo com estas caracterısticas e chamado um metodo de direcoes conjugadas. Estes resultadossao resumidos na proposicao a seguir:

5.13 Teorema. Se um metodo emprega direc˜ oes de busca conjugadas e performa buscas na reta exatas,ent˜ ao

em ⊥A pi para i = 1, . . . , m − 1,

para todo m. Conseq¨ uentementeemA = min

p∈W m

e0 − pA

onde W m = p0, p1, . . . , pm−1

Prova: A demonstracao e por inducao. Para m = 1, temos e1 ⊥A p0 pela Proposicao 5.12 porque a busca

na reta e exata. Em seguida, assuma em

⊥A pi

para i = 1, . . . , m − 1; queremos mostrar que em+1

⊥A pi

para i = 1, . . . , m. Comoem+1 = em − αm pm,

para i = 1, . . . , m − 1 temosem+1, pi

em − αm pm, piA

em, piA

− αm

pm, pi

= 0 − 0 = 0

porque as direcoes de busca sao conjugadas. em+1 ⊥A pm segue novamente da Proposicao 5.12. Quando a direcao inicial e dada pelo vetor gradiente de f , como na primeira iteracao do metodo da descidamais acentuada, obtemos o metodo do gradiente conjugado. As direcoes subsequentes sao escolhidas atravesde A-ortogonalizar o resıduo (ou vetor gradiente de f , que e a direcao de busca em cada iteracao do metododa descida mais acentuada) com todas as dire coes de busca anteriores, o que pode ser feito simplesmenteutilizando-se o algoritmo de Gram-Schmidt que no metodo do gradiente conjugado produz o mesmo resultado

que um metodo mais estavel como o MGS, como veremos. Dado um chute inicial p0, a primeira direcao e

p0 = −f

= b − Ax0 = r0

ou seja, a direcao inicial e o primeiro resıduo:

p0 = r0. (5.62)

Depois de m passos com direcoes de busca conjugadas p0, . . . , pm, escolhemos

pm+1 = rm+1 −mi=0

cmi pi (5.63)

onde os cmi

sao dados pelo algoritmo de Gram-Schmidt:

rm+1, pi

pi, piA. (5.64)

de forma que pm+1 ⊥A pi para todos i = 1, . . . , m. Felizmente, como veremos a seguir depois de algumtrabalho preliminar (Corolario 5.17), cmi = 0 para todo i exceto i = m, o que torna necessario que apenasa direcao de busca mais recente pm seja armazenada na memoria do computador, o que garante que aimplementacao do gradiente conjugado e eficiente:

pm+1 = rm+1 −

rm+1, pmA

pm, pmA pm = rm+1 −

rm+1, Apm

pm, Apm pm (5.65)

ou, definindo

β m = −

rm+1, Apm

pm, Apm , (5.66)

temos que pm+1 = rm+1 + β m pm. (5.67)

Esta e a modificacao do metodo do gradiente conjugado em relacao ao metodo da descida mais acentuada,no qual tomamos pm+1 = rm+1.

Podemos obter uma expressao mais simples para o escalar β m, em funcao apenas dos resıduos. Comefeito, temos

rm+1, rm+1

rm+1, rm − αm

rm+1, Apm

= −αm

rm+1, Apm

porque os resıduos obtidos atraves do metodo do gradiente conjugado sao mutualmente ortogonais (vejaCorolario 5.16), logo

β = −

rm+1, Apm

pm, Apm =

rm+1, rm+1

αm pm, Apm .

αm = pm, rm

pm, Apm =

rm + βpm−1, rm

pm, Apm =

rm, rm pm, Apm ,

porque pm−1, rm

= 0 pela Proposicao 5.12, logo

αm =rm, rm

pm, Apm . (5.68)

Portanto

rm+1, rm+1

rm, rm . (5.69)

Podemos obter um algoritmo ainda mais eficiente para o metodo do gradiente conjugado se observarmos que

para calcular o resıduo rm+1 = b−Axm+1 em cada iteracao nao e necessario calcular Axm+1 explicitamente;de fato, como vimos na demonstracao da Proposicao 5.12, temos rm+1 = rm−αmApm. Desta forma, obtemoso mesmo algoritmo do gradiente conjugado obtido na secao anterior a partir do algoritmo de Lanczos.

5.8.1 Convergencia do Metodo do Gradiente Conjugado em Aritmetica Exata

Vamos agora provar uma serie de resultados com o objetivo principal de demonstrar o fato mencionadoacima que cmi = 0 para todo i = 1, . . . , m − 1 e tambem que o metodo do gradiente conjugado converge emaritmetica exata em precisas n iteracoes se a matriz A tem tamanho n.

5.14 Teorema. Depois de j iterac˜ oes do algoritmo do gradiente conjugado (com rm = 0 em cada iterac˜ ao),temos

p0, p1, . . . , pj−1 = r0, r1, . . . , rj−1 =K

j A, r0 .

Prova: A demonstracao e por inducao. O resultado e trivial para j = 0, pois p0 = r0. Assuma o resultadovalido para j − 1. Em primeiro lugar, mostraremos que

r0, r1, . . . , rj ⊂ Kj+1

. (5.70)

Em vista da hipotese de inducao, basta mostrar que rj ∈ Kj+1

. Como rj = rj−1 − αj−1Apj−1 e

rj−1 ∈ Kj

⊂ Kj+1

por hipotese de inducao, basta provar que Apj−1 ∈ Kj+1

. Mas,

tambem por hipotese de inducao, pj−1 ∈ Kj+1

, logo

Apj−1 ∈ Kj

Ar0, A2r0, . . . , Ajr0 ⊂

r0, Ar0, A2r0, . . . , Ajr0

= Kj+1

Em seguida, mostraremos que

p0, p1, . . . , pj

r0, r1, . . . , rj

. (5.71)

Por hipotese de inducao, basta provar que pj ∈ r0, r1, . . . , rj. Isso segue de (5.63) e da hipotese de inducao.Ate aqui provamos que

p0, p1, . . . , pj ⊂

r0, r1, . . . , rj ⊂ Kj+1

. (5.72)

Para provar que eles sao iguais, basta mostrar que eles tem a mesma dimensao. Isso decorre de

r0, r1, . . . , rj j + 1,

dim Kj+1

p0, p1, . . . , pj

= j + 1,

o ultimo porque os vetores p0, p1, . . . , pj sao vetores nao-nulos A-ortogonais.

5.15 Corolario. Depois de j iterac˜ oes do algoritmo do gradiente conjugado, temos

ej ⊥A Kj

para todo j.

Prova: Segue imediatamente do teorema anterior e do Teorema 5.13.

5.16 Corolario. Depois de j iterac˜ oes do algoritmo do gradiente conjugado, temos

rj ⊥ Kj

para todo j.

Prova: Em vista do Teorema 5.14, basta provar que rj ⊥ p0, p1, . . . , pj−1 para todo j. Como Aej+1 = rj+1,rj+1, pi

Aej+1, pi

ej+1, piA

para todo i = 1, . . . , j − 1, como vimos na demonstracao do Teorema 5.13.

5.17 Corolario. cmi = 0 para todo i = 1, . . . , m − 1.

Prova: Temos que provar que

rm+1, pi

rm+1, Api

para todos i = 1, . . . , m − 1. Pelo Teorema 5.14, pi

∈ p0, p1

, . . . , pi = r

, . . . , Ai

r = Ki+1 A, r0,

logoApi ∈

Ar0, A2r0, . . . , Ai+1r ⊂ Ki+2

⊂ Km+1

e o resultado segue do corolario anterior.

5.18 Teorema. Seja A ∈ Mn (R) uma matriz simetrica positiva definida. Ent˜ ao o metodo do gradienteconjugado converge em n iterac˜ oes.

Prova: Se fizemos n − 1 iteracoes para obter x, pelo Corolario 5.16 os vetores r0, r1, . . . , rn−1 formam umabase ortogonal para Rn. Depois de mais uma iteracao, de acordo com este mesmo corolario o resıduo rn

satisfaz rn ⊥ r0, r1, . . . , rn−1

n, logo rn = 0.

5.9 Velocidade de Convergencia do Metodo do Gradiente Conju-gado

Na maioria das aplicacoes o metodo do gradiente conjugado converge ainda mais rapido do que as n iteracoesprevistas pelo Teorema 5.18, se apenas uma boa aproximacao e requerida. Para obter uma estimativa davelocidade de convergencia do metodo do gradiente conjugado, precisamos desenvolver algumas ferramentasteoricas antes.

5.9.1 Polinomios de Chebyshev

Polinomios de Chebyshev sao provavelmente os mais uteis polinomios na Teoria de Aproximacao, a areaque se ocupa em determinar como melhor aproximar funcoes atraves de funcoes mais simples (tais comopolinomios). Os polinomios de Chebyshev do primeiro tipo surgiram inicialmente como solucoes da equacaode Chebyshev:

1 − x2

y − xy + n2y = 0

5.19 Definicao. O polinomio de Chebyshev do primeiro tipo de grau k e o polinomio de grau k C k :[−1, 1] −→ R definido por

C k (t) = cos

k cos−1 t

Que C k e de fato um polinomio de grau k pode ser visto atraves da seguinte formula de recorrencia:

5.20 Proposicao. Vale a seguinte f´ ormula de recorrencia de tres termos para os polinomios de Chebyshev

C 0 (t) = 1,C 1 (t) = t,C k+1 (t) = 2tC k (t) − C k−1 (t) .

(5.73)

Em particular, C k (t) e um polinomio real de grau k, C k (t) e uma func ao par se k e par e uma func˜ ao

ımpar se k e ımpar.

Prova: Usando a identidade trigonometrica

cos [(k + 1) θ] + cos [(k − 1) θ] = 2cos θ cos kθ,

segue que

C k+1 (t) + C k−1 (t) = cos[(k + 1) arccos t] + cos [(k − 1) arccost]

= 2 cos(arccos t)cos[k arccos t]

= 2tC k (t) .

A formula de recorrencia da Proposicao 5.20 permite estender naturalmente o domınio dos polinomios deChebyshev a reta toda. Isso tambem pode ser feito estendendo a definicao trigonometrica:

C k (t) =

k cosh−1 t

se t 1,

(−1)k

k cosh−1 |t| se t −1.(5.74)

De fato, usando a identidade trigonometrica hiperbolica

cosh [(k + 1) θ] + cosh [(k − 1) θ] = 2 cosh θ cosh kθ,

vemos que vale a mesma formula de recorrencia da Definicao 5.19. O polinomio de Chebyshev C k (t) possuik raızes simples, todas localizadas no intervalo [−1, 1] dadas por

tj = cos2 j

2k π , j = 1, . . . , k ,

como pode ser verificado diretamente da definicao. Em particular, os polinomios de Chebyshev nao se anulamfora deste intervalo. Observe tambem que |C k (t)| 1 para t ∈ [−1, 1]. A tıtulo de informacao, eles formamuma base ortogonal no espaco de funcoes apropriado no sentido que 1

C k (t) C l (t)dt√

1 − t2=

0 se k = l,π se k = l = 0,π/2 se k = l = 0.

5.21 Proposicao. Se |t| 1, vale

C k (t) =1

t2 − 1

Prova: Como resultado de (5.74), segue que

C k (t) = cosh

k cosh−1 t

ek cosh

−1 t + e−k cosh−1 t

−1 tk

ecosh−1 t

Por outro lado,ex = cosh x + sinh x

ecosh2 x − sinh2 x = 1,

ecosh−1 t = cosh

cosh−1 t

+ sinh

cosh−1 t

t2 − 1,

donde segue o resultado. Em particular, para valores grandes de k pode-se usar a aproximacao

C k (t) 1

t2 − 1

para |t| 1. No que se segue denotaremos o subespaco de todos os polinomios reais de grau menor ou igual

a k por Pk [x]. O seguinte teorema e um importante resultado em Teoria da Aproximacao:

5.22 Teorema. Seja [a, b] ⊂ R um intervalo n˜ ao vazio e c /∈ [a, b]. Ent˜ ao o mınimo

µk = min p∈Pk[x] p(c)=1

maxx∈[a,b]

| p (x)|

e atingido pelo polinomio

C k (x) :=

x − b

b − a

c − b

b − a

Consequentemente,

µk =1

C k 1 + 2c − b

b − a. (5.75)

Prova: Denote por

m :=a + b

2o ponto medio do intervalo [a, b]. Entao

1 + 2x − b

b − a=

b − a + 2x − 2b

b − a=

2x − (a + b)

b − a

= 2x − m

b − a.

Assim, se c /∈ [a, b] entao

2c − m

de modo que o denominador na expressao de C k (x) nunca se anula. Por outro lado, se x ∈ [a, b] entao2 x − m

b − a

Comomax

t∈[−1,1]|C k (t)| = 1,

segue (5.75).

Portanto, para provar que o mınimo e atingido pelo polinomio C k, precisamos mostrar que se pk ∈ Pk [x]e tal que p (c) = 1 e

maxx∈[a,b]

| p (x)| µk,

entao pk = C k. De fato, pela definicao trigonometrica dos polinomios de Chebyshev, C k (t) atinge os valores±1 alternadamente nos pontos

tj = cos

, j = 0, 1, . . . , k .

Correspondentemente, C k (x) atinge os valores ±µk nos pontos

a + b + (b − a)cos

, j = 0, 1, . . . , k

dentro do intervalo [a, b]. Como

| pk (xj)| µk = C k (xj)

concluımos que o polinomio diferenca rk =

C k − pk de grau menor ou igual a k satisfaz

rk (xj) 0 se j e par,

rk (xj) 0 se j e ımpar.

Pelo teorema do valor intermediario, rk possui pelo menos uma raiz em cada subintervalo [xj , xj+1]. Mesmoquando as raızes de rk em [xj−1, xj] e [xj , xj+1] coincidem, ou seja, xj e uma raiz de rk, esta e uma raiz demultiplicidade 2 (pois rk (xj) = 0, isto e, xj tambem e uma raiz da derivada de rk). Consequentemente, opolinomio rk tem pelo menos k raızes em [a, b]. Mas, como

rk (c) = C k (c) − pk (c) = 1 − 1 = 0,

c /∈ [a, b] e a (k + 1)-esima raiz de rk. Isso constitui uma contradicao, a menos que rk ≡ 0, o que implica

5.9.2 Velocidade de Convergencia do CG

5.23 Lema. Seja A ∈ Mn (R) uma matriz simetrica positiva definida. Ent˜ ao o erro algebrico do metodo dogradiente conjugado satisfaz ekA = min

p∈Pk[x] p(0)=1

p (A) e0A .

Prova: Pelos Teoremas 5.13 e 5.14, o metodo do gradiente conjugado minimiza a A-norma do erro nosubespaco afim e0 + Kk

. Mas Kk

e o conjunto de todos os vetores da forma q (A) r0 onde

q e um polinomio de grau menor ou igual a k − 1, enquanto que r0 = Ae0. Portanto, o subespaco afime0 + Kk

consiste de todos os vetores da forma e0 + q (A) Ae0, ou seja, de todos os vetores na forma

p (A) e0 onde p e um polinomio de grau menor ou igual a k tal que p (0) = 1.

5.24 Teorema. Seja A ∈ Mn (R) uma matriz simetrica positiva definida. Ent˜ ao o erro algebrico do metododo gradiente conjugado satisfaz

ekA 2 κ (A)−

1 κ (A) + 1k

e0A . (5.76)

Prova: Denote por λ1 . . . λn os autovalores de A e por v1, . . . , vn uma base A-ortonormal de autovetorescorrespondentes. Escrevendo

segue que

p (A) e0 =n

ai p (λi) vi.

Assim,

p (A) e02A =

a2i p (λi)2 max1in p (λi)2e02A maxx∈[λ1,λn]

p (x)2e02A ,

donde, pelo lema anterior, ekA min

p∈Pk[x] p(0)=1

maxx∈[λ1,λn]

p (x)e0

Segue agora do Lema 5.22 que ekA µ

1 − 2λn

−λ1

−λn + λ1λn

−λ1

C k λn + λ1λn

−λ1

κ (A) + 1

κ (A) − 1

(para obter a ultima igualdade usamos a simetria dos polinomios de Chebyshev, como visto na Proposicao5.20, e a sua positividade no intervalo [1, +∞) que decorre diretamente da formula da Proposicao 5.21). PelaProposicao 5.21 e o comentario que se segue, temos

κ (A) + 1

κ (A) − 1

κ (A) + 1

κ (A) − 1+

κ (A) + 1

κ (A) − 1

kA 2κ (A) + 1

κ (A) − 1 + κ (A) + 1

κ (A) − 12

− 1−k

κ (A) + 1 +

(κ (A) + 1)

2 − (κ (A) − 1)2

κ (A) − 1

−k e0A

κ (A) + 1 + 2

κ (A)

κ (A) − 1

−k e0A

κ (A) + 1

κ (A) − 1

= 2 κ (A) − 1

κ (A) + 1

Esta estimativa e bem melhor que a estimativa do metodo da descida mais acentuada (o numero de condicaoe subtituido aqui pela sua raiz quadrada), mostrando que o metodo do gradiente conjugado e bem maisrapido. Por outro lado, como naquele metodo, a velocidade de convergencia do metodo CG dependerafortemente da boa ou ma condicionalidade da matriz A.

Uma comparacao entre a velocidade de convergencia dos metodos de gradiente para a matriz de dis-cretizacao da formula de cinco pontos aplicada ao mesmo problema do Capıtulo 3 (Secao 3.1.4) e dada natabela a seguir [Watkins]. O tamanho das matrizes usadas e indicado na linha superior da tabela e o numerode iteracoes necessarias para obter um erro algebrico menor normalizado menor que igual a 10−8 e dadopara cada metodo.

n = 81 n = 361 n = 1521Descida Mais Acentuada 304 1114 4010Gradiente Conjugado 29 60 118

No caso desta matriz de discretizacao temos

κ (A) =sen2

(n − 1) π

sen2π

= cot2π

2n= cot2

π∆x

2≈ 4

π2∆x2

de modo que κ (A) − 1 κ (A) + 1

≈ 1 − π∆x/2

1 + π∆x/2≈ 1 − π∆x,

o que da uma velocidade de convergencia para o metodo do gradiente conjugado duas vezes maior que ado metodo SOR com o fator de relaxamento otimo. No entanto, deve-se ter em mente que enquanto que ataxa de covergencia que obtivemos para o metodo SOR e precisa, a estimativa de erro (5.76) do Teorema5.24 para o metodo do gradiente conjugado e apenas um limitante superior grosseiro e pode ser melhorada(veja [Watkins] para algumas estimativas melhoradas). De fato, embora a taxa de convergencia assintotica(5.76) dependa apenas do numero de condicao, e portanto apenas dos autovalores extremais, a convergenciado metodo do gradiente conjugado e influenciada pelo espectro inteiro, como o proximo resultado ilustra:

5.25 Teorema. Seja A ∈ Mn (R) uma matriz simetrica positiva definida com apenas m autovalores distin-tos. Ent˜ ao o metodo do gradiente conjugado converge em m iterac˜ oes.

Prova: Sejam λ1, . . . , λm os m autovalores distintos de A. Seja p (x) = a (x − λ1) . . . (x − λm)

um polinomio de grau m onde a e escolhido de tal forma a produzir p (0) = 1. Como p (λi) = 0 para todo i,pela demonstracao do Teorema 5.24 (e usando a mesma notacao de la) segue que

p (A) e0 =

ai p (λi) vi = 0.

Logo, pelo Lema 5.23, temos que em = 0. Mesmo se isso nao ocorre, se os autovalores de A nao estao distribuıdos uniformemente em [λmin, λmax] masse acumulam em subintervalos de [λmin, λmax], pode-se obter melhores taxas de convergencia do que (5.76)

(veja [Hackbusch] e [Watkins]).

5.10 Exercıcios

5.1 Considere os vetores

, v2 =

e v3 =

onde ε 1. Estes vetores sao aproximadamente linearmente independentes.

a) Use o metodo de Gram-Schmidt classico para ortogonalizar estes vetores, usando a aproximacao

1 + ε2

= 1 (um computador faria erros de arredondamento adicionais). Verifique que w2, w3 = 1/2 eportanto estes vetores estao muito longe de serem ortogonais.

b) Use o metodo de Gram-Schmidt modificado para ortogonalizar estes vetores, tambem usando aaproximacao 1 + ε2 = 1. Verifique que w2, w3 = 0 e que w1, w2 = −ε/

√2, w1, w3 = −ε/

portanto estes vetores estao muito proximos de serem ortogonais.

5.2 Mostre que os algoritmos de Gram-Schmidt classico e modificado sao matematicamente equivalentesem aritmetica exata, isto e, produzem os mesmos vetores.

5.3 Prove que os vetores v1, . . . , vm gerados pelo algoritmo de Arnoldi com MGS formam uma base ortonor-mal para o subespaco de Krylov Km (A, v).

5.4 Prove que o inversa de uma matriz triangular superior e uma matriz triangular superior. Prove a

afirmativa equivalente para matrizes triangulares inferiores.5.5 Prove que o produto de matrizes triangulares superiores e uma matriz triangular superior. Prove a

afirmativa equivalente para matrizes triangulares inferiores.

Capıtulo 6

O Problema do Autovalor

Por causa do teorema de Abel com respeito a inexistencia de uma formula para calcular as raızes de um

polinomio de grau maior ou igual a 5, nao existem metodos diretos para calcular autovalores. Todo metodopara calcular autovalores e necessariamente um metodo iterativo.

De fato, dado um polinomio monico

p (z) = zn + an−1zn−1 + . . . + a1z + a0,

seu determinante e igual a (−1)n

vezes o determinante da matriz

−z −a01 −z −a1

1 −z −a2

1 −z...

. . .. . .

−an−11 −z − an−1

logo as raızes de p sao os autovalores da matriz

0 −a01 0 −a1

1 0 −a2

1 0...

. . .. . . −an−1

1 −an−1

Portanto, o problema de encontrar as raızes de um polinomio e equivalente ao problema de encontrar os

autovalores de uma matriz.

6.1 Caracterizacao Variacional dos Autovalores de uma MatrizSimetrica: Quociente de Rayleigh

Os autovalores de uma matriz simetrica podem ser caracterizados variacionalmente.

6.1 Definicao. Seja A ∈ M n (R) uma matriz simetrica. Dado x ∈ Rn, o quociente

r (x) =Ax,xx2

e chamado o quociente de Rayleigh de x. A funcao r : Rn −→ R e chamada o funcional deRayleigh (ou tambem o quociente de Rayleigh).

6.2 Teorema. (Princıpio de Rayleigh) Seja A

∈Mn (R) uma matriz simetrica. Se x e um ponto crıtico do

funcional de Rayleigh, ent˜ ao x e um autovetor de A e r (x) e o autovalor correspondente.

Prova: Escrevendo

r (x) =

aijxixji,j=1

∂xk(x) =

2 x2 i=1

aikxi − 2xk

aijxixj

x2 [(Ax)k − r (x) xk] ,

de modo que

r (x) =

−r (x) x] .

Portanto,r (x) = 0 se e somente se Ax = r (x) x.

6.3 Corolario. O quociente de Rayleigh e uma aproximac˜ ao de segunda ordem para os autovalores de A,ou seja, se v e um autovetor de A, segue que

r (x) − r (v) = Ox − v2

quando x → v

Prova: Segue da formula de Taylor, ja que r (v) = 0. Podemos obter uma descricao geometrica mais precisa dos pontos crıticos do funcional de Rayleigh:

6.4 Teorema. (Princıpio de Rayleigh) Seja A ∈ Mn (R) uma matriz simetrica. Sejam λ1 . . . λn osautovalores de A, de modo que λ1 e o menor autovalor de A e λn e o maior autovalor de A. Ent˜ ao

λ1 = minx∈Rn

Ax,xx2 (6.1)

λn = maxx∈Rn

Ax,xx2 (6.2)

Prova: Seja B = v1, . . . , vn uma base ortonormal de autovetores de A correspondentes aos autovalores

λ1, . . . , λn. Entao, para todo x =n

i=1xivi temos

λ1 x2 =n

λ1x2i

λix2i =

ni,j=1

λixixj vi, vj =

ni,j=1

λixivi, xjvj

λixivi,n

xiAvi,n

= Ax,x .

Portanto, para todo x ∈ Rn, x = 0, vale

λ1 Ax,xx2 .

O mınimo e atingido em x = v1 ou em qualquer outro autovetor de A associado a λ1. Da mesma forma,obtemos

λn x2 =n

λnx2i n

λix2i = Ax,x .

Os outros autovalores de A, λ2, . . . , λn−1, sao pontos de sela e podem ser encontrado atraves de um

princıpio de minimax:

6.5 Teorema. (Princıpio de Minimax para Autovalores) Seja A ∈ Mn (R) uma matriz simetrica. Sejam λ1 . . . λn os autovalores de A. Ent˜ ao

λj = minW ⊂Rn subespaco

dimW =j

maxx∈W x=1

Ax,x . (6.3)

Prova: Seja W ⊂ Rn um subespaco de dimensao j. Primeiro mostraremos que

maxx∈W x=1

Ax,x λj .

Seja B = v1, . . . , vn uma base ortonormal de autovetores de A correspondentes aos autovalores λ1, . . . , λn.Seja Z = v1, . . . , vj−1. Como Z ⊥ = vj , . . . , vn, temos

W + Z ⊥

= dim W + dim Z ⊥ − dim

W ∩ Z ⊥

= j + n − ( j − 1) − dim

W ∩ Z ⊥

de modo quedim

W ∩ Z ⊥

e existe um vetor x ∈ W ∩ Z ⊥ tal que x = 1. Escrevendo x =n

xkvk, temos x =n

|xk|2 = 1, donde

Ax,x =

xkAvk,

xkλkvk,

nk,l=j

λkxkxl vk, vl

λk |xk|2 λj

|xk|2 = λj .

Para completar a demonstracao, devemos encontrar um subespaco W ⊂ R

de dimensao j tal queAx,x λj para todo x ∈ W com x = 1. Tomemos W = v1, . . . , vj. Temos

Ax,x =

xkAvk,

xkλkvk,

jk,l=1

λkxkxl vk, vl

λk |xk|2 λj

|xk|2 = λj.

O minimax e atingido em vj .

6.2 Metodo das Potencias

O metodo das potencias ou metodo das iterac˜ oes e o algoritmo mais simples para o calculo de autovalores

de matrizes, mas ele pode encontrar apenas o maior autovalor (em modulo) de uma matriz A ∈M

),chamado o autovalor dominante de A, desde que haja apenas um. Para simplificar a exposicao, suponhaque A e uma matriz diagonalizavel cujo maior autovalor (em modulo) e um autovalor simples (isto e, seuautoespaco associado tem dimensao 1). Ordene os autovalores de A na forma

|λ1| > |λ2| . . . |λn|

e seja v1, . . . , vn uma base correspondente de autovetores. Assim, λ1 e o autovalor dominante de A ev1 um autovetor dominante. Quando A tem um autovalor dominante, este e um correspondente autovetordominante podem ser encontrados atraves do metodo das potencias, que consiste essencialmente em tomarum vetor v0 arbitrario e considerar as potencias

v0, Av0, A2v0, . . . , Akv0, . . . (6.4)

E essencial que o vetor v0 possua uma componente na direcao do autovetor dominante v1. Este nao e apriori conhecido, mas se a escolha e arbitraria ha grande probabilidade que isso ocorra na pratica. De fato,para quase todas as escolhas de v0 devemos ter

com a1 = 0; raramente uma escolha aleatoria de v0 produzira um vetor no subespaco v2, . . . , vn. Temosentao

Akv0 =

aiλvi,

donde escrevemosAkv0 = λk

a1v1 +

EmboraAkv0

→ ∞ se λ1 > 1 eAkv0

→ 0 se λ1 < 1, comoλi

→ 0,

para todo i = 2, . . . , n, segue que a sequencia reescalada

Akv0λk1

→ a1v1

converge para um autovetor dominante. No entanto, como o autovalor λ1 nao e conhecido a priori, eimpossıvel trabalhar com esta sequencia. Portanto, trabalhamos ao inves com a sequencia normalizada

wk =Akv0

Akv0 (6.5)

onde · e uma norma qualquer (por exemplo, a norma do maximo), que converge para um autovetordominante unitario.

6.6 Proposicao. Seja A ∈ Mn (C) uma matriz diagonaliz´ avel e assuma que o seu autovalor dominante λ1e simples. Dado um vetor arbitr´ ario v0 ∈ Cn que possui uma componente n˜ ao-nula no autoespacoassociado a λ1, defina a sequencia

w0 = v0,

wk+1 =Awk

ondeαk = Awk .

Ent˜ ao

wk → v1,

αk → λ1,

onde v1 e um autovetor dominante unit´ ario. Alem disso, a taxa assint´ otica de convergencia e

Se A e uma matriz simetrica real e definirmos

µk = Awk, wk ,

ent˜ aoµk → λ1

com taxa assint´ otica de convergencia

λ2λ1

Prova: Temos

wk =Akv0αk

onde αk = α1 . . . αk e simplesmente o escalar apropriado que normaliza o vetor Akv0, isto e, αk =Akv0

.Escrevendo

segue que

wk =λk1

a1v1 +

a1v1 +n

vi → a1v1

e wk sendo uma sequencia unitaria possui uma subsequencia convergente, concluımos que wk converge paraum vetor unitario na direcao de v1.

ComoAwk = αkwk,

tomando o limite em ambos os lados concluımos que

Av1 = (lim αk) v1,

logo lim αk = λ1.Finalmente, a taxa assintotica de convergencia segue de

ai λiλ1

|ai| λiλ1

k vi ni=2

|ai| vi λ2λ1

k C (v0) λ2λ1

O caso A simetrico segue do Corolario 6.3. Vemos que a velocidade de convergencia do metodo das potencias pode ser muito lenta se a diferenca entreo maior e o segundo maior autovalores nao for muito grande, uma situacao frequentemente encontrada napratica. O metodo das potencias funciona mesmo quando o autovalor dominante nao e simples, desde quenao existam outros autovalores de A diferentes do autovalor dominante que tenham o mesmo valor emmodulo, isto e quando existe apenas um autovalor dominante (Exercıcio 6.1). E claro que o metodo nao vaiproduzir uma base para o autoespaco dominante, apenas um autovetor deste autoespaco, correspondente aovetor unitario na direcao da componente do vetor inicial. Quando existem varios autovalores dominantes, ometodo nao pode ser aplicado. Em particular, o metodo nao pode ser aplicado a matrizes reais que possuemum autovalor dominante complexo, ja que neste caso o seu conjugado tambem e um autovalor dominante.Esta situacao ocorre tambem com matrizes ortogonais, ja que todos os autovalores de uma matriz ortogonaltem norma 1.

Se A nao e diagonalizavel, o autovalor dominante de A ainda pode ser encontrado pelo metodo daspotencias (desde que nao haja mais de um autovalor dominante, como observado no paragrafo anterior),como discutido no Exercıcio 6.2.

6.2.1 Metodo das Potencias Inverso

O metodo das potencia permite apenas encontrar o autovalor dominante. Para obter o menor autovalorde A, podemos aplicar o metodo das potencias a matriz inversa A−1, pois se λ e o menor autovalor de A,1/λ sera o maior autovalor de A−1. Este metodo e chamado metodo das potencias inverso ou iterac˜ aoinversa (quando o metodo das potencias e chamado iterac˜ ao direta ).

6.2.2 Metodo das Potencias com Deslocamento

Teoricamente, o metodo das potencias poderia ser aplicado diretamente para encontrar todos os autovaloresde A. Por exemplo, para encontrar λ2 e um autovetor associado, uma vez encontrado o autovetor associadoao primeiro autovalor, bastaria tomar um novo vetor inicial que nao tivesse componentes na direcao doautovetor dominante (ou autoespaco dominante; veja Exercıcio 6.1), mas apenas na direcao de v2. Isso seriafacil de conseguir se os autovetores de A fosse ortogonais (por exemplo, se A e simetrica): bastaria tomarum vetor inicial aleatorio v0, com componentes na direcao de todos os autovetores de A, e subtrair dele asua componente ortogonal na direcao do autovetor dominante. Na notacao da secao anterior, bastaria tomar

v0 = v0 − a1v1 =n

i=2 aivi,

e proceder desta maneira ate encontrar todos os autovalores de A (desde que nao haja autovalores distin-tos mas iguais em modulo). Na pratica isso nao funciona, porque erros de arredondamento apareceriamimediatamente:

Av0 = ελ1v1 +n

aiλivi;

ao inves de obter λ2 e um autovetor associado, voltarıamos a obter λ1 e um autovetor dominante.Para encontrar os demais autovalores da matriz A, observe que se A tem autovalores λ1, . . . , λn, entao

A − σI tem autovalores λ1 − σ , . . . , λn − σ. O escalar σ e chamado um deslocamento. Podemos entao aplicar

o metodo das potencias a matriz (A − σI )−1

, pois os autovalores de A sao

λ1 − σ

, . . . ,1

λn − σ

de modo que o autovalor dominante de (A − σI )−1 e

λi − σ(6.6)

onde λi e o autovalor de A mais proximo de σ. Assim, podemos encontrar todos os autovalores de Avariando o deslocamento σ. Este metodo e chamado metodo das potencias com deslocamento ouiterac˜ ao com deslocamento. Ele e particularmente eficiente quando possuımos boas estimativas para osautovalores de A (estimativas grosseiras podem ser obtidas atraves do teorema dos discos de Gershgorin).Como ja observado anteriormente, a convergencia do metodo das potencias direto sera lenta quando λ1 eλ2 forem muito proximos. No caso do metodo das potencias com deslocamento, uma escolha cuidadosa dodeslocamento σ pode aumentar substancialmente a velocidade de convergencia. Com efeito, observe queneste caso temos (para simplificar a compreensao, novamente supomos A diagonalizavel e, adicionalmente,que todos os autovalores sao simples):

(A − σI )−1

λi − σ

aivi +

nj=1j=i

λi − σ

λj − σ

(A − σI )−1k

v0 −

λi − σ

nj=1j=i

λi − σ

λj − σ

nj=1j=i

|ai| |vj |

λi − σ

λe i − σ

de modo que a taxa assintotica de convergencia e dada porλi − σ

λe i − σ

onde λ

e i e o autovalor mais proximo a λi. Tomando o deslocamento σ significantemente mais proximo de λi

do que de λe i, podemos obter λi − σ

λe i − σ

acelerando a convergencia do metodo.E importante observar que tanto na iteracao inversa, quanto na iteracao com deslocamento, em nenhum

momento e necessario calcular a inversa A−1 explicitamente, o que consumiria muito tempo e recursos.Embora as iteradas satisfazem

wk+1 =1

σk+1(A − σI )−1 wk,

basta resolver o sistema(A − σI ) wk+1 = wk

e entao tomar

wk+1 =1

Alem disso, apesar de A − λI ser uma matriz singular quando λ e um autovalor de A, e portanto tomar umdeslocamento σ muito proximo a λ produz uma matriz A − σI muito mal condicionada, isso nao atrapalhaa eficencia da iteracao com deslocamento em nada (veja [Parlett]).

Finalmente, notamos que se os autovalores de uma matriz ja sao conhecidos, o metodo padrao paraencontrar os autovetores de A e o metodo das potencias com deslocamento, ja que os deslocamentos podemser escolhido arbitrariamente proximos dos autovalores, tornando a convergencia muito rapida.

6.2.3 Iteracao do Quociente de Rayleigh

Quando a matriz A e simetrica, combinando a iteracao inversa e o quociente de Rayleigh e possıvel obterum metodo extremamente rapido, de tal forma que depois de 2 ou 3 passos o numero de dıgitos corretos noautovalor triplica a cada iteracao. A ideia e nao manter o valor de deslocamento constante, mas atualiza-loa cada iteracao com uma aproximacao melhor do autovalor dada pelo quociente de Rayleigh. O algoritmo

para a iteracao do quociente de Rayleigh e o seguinte:

Iteracao do Quociente de RayleighAtribua v0;v0 ← v0/

λ0 = Av0, v0 ;Para k = 0, 1, 2, . . ., ate limite de tolerancia Resolva

A − λkI

w = vk;

vk+1 ← w/ w ;λk+1 ←

Avk+1, vk+1

;fim do laco

Vamos verificar que a convergencia da iteracao de Rayleigh e cubica:

6.7 Proposicao. Seja A ∈ Mn (R) uma matriz simetrica e assuma que o autovalor λi e simples. Dado um vetor arbitr´ ario v0 ∈ Rn que possui uma componente nao-nula no autoespaco associado a λi, tomeλ0 =

Av0, v0

e defina a sequencia

vk+1 =

A − λkI

−1vk(A − λkI )

−1vk ,

λk+1 =

Avk+1, vk+1

Ent˜ ao vk converge para um autovetor unit´ ario vi associado a λi e λk → λi com uma taxa de con-vergencia que satisfaz

− vi = O vk

− (±vi)3e λk+1 − λi

= Oλk − λi

Prova: Pelo Corolario 6.3, λk − λi

= Ovk − vi

Pelas estimativas para a iteracao inversa com deslocamento obtidas na subsecao anterior, temos

vk+1 − vi C

λi − λk

λe i − λk

vk − vi .

Como λk esta proximo de λi, podemos substituirλ

e i − λk por

λe i − λi

no denominador, de modo que

vk+1 − vi = O λk − λi vk − vi = O vk+1 − vi

As constantes implıcitas no sımbolo O sao uniformes para vizinhancas suficientemente pequenas de λi e vi.Para obter a taxa de convergencia para os autovalores, use o resultado obtido e o Corolario 6.3 duas vezesescrevendo λk+1 − λi

= Ovk+1 − vi

2 = Ovk − vi

6 = Oλk − λi

Este resultado vale mesmo quando o autovalor nao e simples (Exercıcio 6.3).

No caso em que A nao e simetrica, a iteracao do quociente de Rayleigh ainda pode ser usada, masa convergencia e apenas quadratica (veja [Watkins]). Para uma analise mais rigorosa da convergencia dometodo das potencias e todas as suas variacoes, inclusive a iteracao do quociente de Rayleigh, veja [Parlett].

6.3 Algoritmo QRO algoritmo QR (nao confundir com a decomposicao QR) e o algoritmo preferido para encontrar todos osautovalores de uma matriz nao-simetrica densa. O algoritmo basico QR pode ser descrito da seguinte forma.Seja A ∈ Mn (C) uma matriz cujos autovalores queremos calcular. Comecando com

A0 = A, (6.7)

definimos iterativamente uma sequencia de matrizes A1, A2, . . ., recursivamente da seguinte maneira. Primeirofazemos a decomposicao QR da matriz obtida no passo anterior:

Ak−1 = QkRk. (6.8)

Em seguida definimos Ak = RkQk. (6.9)

Observe que, comoAk = Q∗

kAk−1Qk, (6.10)

todas as matrizes da sequencia, que denominaremos sequencia QR, possuem os mesmos autovalores. Veremosmais tarde que o algortimo QR e simplesmente uma implementacao de um procedimento conhecido comoiterac˜ ao simultanea , o qual e uma extensao natural do metodo das potencias. Consequentemente, pode sermostrado que a sequencia QR converge, sob certas condicoes, para uma matriz triangular superior na forma

λ1 ∗ · · · ∗

λ2. . .

. . . ∗λn

onde os autovalores da diagonal principal aparecem em ordem descrescente de magnitude. Em particular,como as matrizes da sequencia QR sao semelhantes, se A e hermitiana entao a sequencia converge para umamatriz diagonal.

O algoritmo basico QR e ineficiente para uso pratico. Cada decomposicao QR custa 43

n3 flops e cadamultiplicacao matricial custa O

flops. Alem disso, a convergencia para a forma triangular e muitovagarosa, de forma que um numero muito grande de passos e necessario antes que se atinja um limite detolerancia razoavel. No que se segue, veremos procedimentos para diminuir os custos das decomposicoesQR e aumentar a velocidade de convergencia do metodo. O primeiro procedimento, reduzir a matriz a sua

forma de Hessenberg, reduz cada passo no algoritmo QR a um custo de O

flops para uma matriz gerale O (n) para uma matriz hermitiana. O segundo procedimento, deflacao e deslocamento usando o quocientede Rayleigh, reduz o numero de iteracoes necessarias para produzir convergencia na precisao da maquina a

O (n) iteracoes. Assim o custo total do algoritmo QR na sua implementacao mais eficiente sera O n3 flops

para matrizes gerais e O

flops para matrizes hermitianas.

6.3.1 Reducao de uma matriz a sua forma de Hessenberg

O custo das decomposicoes QR e reduzido drasticamente se reduzirmos a matriz A a sua forma de Hessenbergantes de comecar as iteracoes QR, ja que o custo de uma decomposi cao QR para matrizes de Hessenberge O

; se alem disso a matriz for Hermitiana, ou seja, tridiagonal, o custo e apenas O (n). Tambem ocusto da multiplicacao, de uma matriz de Hessenberg superior por uma matriz triangular, e reduzido paraO

. Essa reducao funciona porque o algoritmo QR preserva a forma de Hessenberg, de modo que todasas matrizes da sequencia QR sao de Hessenberg assim como os fatores Q:

6.8 Proposicao. Seja H

∈Mn (C) uma matriz de Hessenberg superior. Ent˜ ao toda matriz da sequencia

QR e tambem uma matriz de Hessenberg superior. Alem disso, os fatores Qk da decomposic˜ ao Ak−1 =QkRk tambem s ao Hessenberg superiores.

Prova: Assuma A invertıvel, de modo que todas as matrizes da sequencia QR sao invertıveis; em particular,os fatores Qk, Rk tambem sao invertıveis. Suponha por inducao que Ak−1 e uma matriz de Hessenbergsuperior. Seja Ak−1 = QkRk uma decomposicao QR de Ak−1. Afirmamos que

Qk = Ak−1R−1k

e uma matriz de Hessenberg superior. De fato, como a inversa de uma matriz triangular superior e umamatriz triangular superior, Qk e o produto de uma matriz de Hessenberg superior e de uma matriz triangularsuperior, logo tambem e uma matriz de Hessenberg superior. Segue que Ak = RkQk e o produto de umamatriz triangular superior e uma matriz de Hessenberg superior, logo tambem e uma matriz de Hessenberg

superior.O caso geral, em que A e singular, e um pouco mais difıcil. De fato, nao e verdade que toda decomposicao

QR de uma matriz de Hessenberg superior vai produzir um fator Q Hessenberg superior. Mas e possıvelprovar que e sempre possıvel escolher a decomposicao QR de tal forma que o fator Q produzido e Hessenbergsuperior (veja [Watkins]).

Antes de descrever o algoritmo que transforma uma matriz geral em uma matriz de Hessenberg superior(o custo da transformacao sera de 10

3 n3 flops) vamos introduzir o conceito de refletores de Householder quesao usados para introduzir zeros abaixo da subdiagonal inferior.

No que se segue assumiremos sempre a norma vetorial como sendo a norma euclidiana.

6.9 Definicao. Seja u ∈ Rn um vetor unitario. Entao o operador Q : Rn −→ Rn definido por

Q = I −

2uuT (6.11)

e chamado um refletor de Householder (ou simplesmente um refletor ).

A proposicao a seguir resume as propriedades que caracterizam uma reflexao:

6.10 Proposicao. Sejam u ∈ Rn um vetor unit´ ario e Q = I − 2uuT um refletor. Ent˜ ao

(i) Qu = −u.

(ii) Qv = v para todo v ⊥ u.

(iii) Q = QT ( Q e simetrico).

(iv) QT = Q−1 ( Q e ortogonal).

(v) Q−1 = Q ( Q e uma involuc˜ ao).

Prova: (i) Usando o fato que uT

u = u, u = 1, temos

Qu = u − 2

u = u − 2u

= u − 2u = −u

(ii) Usando o fato que uT v = u, v = 0, temos

Qv = v − 2

v = u − 2u

= u − 0 = u.

I − 2uuT T

= I − 2

uT = I − 2uuT = Q.

(iv),(v) Usando (iii) segue que

QQT = QQ = I − 2uuT

I − 2uuT

= I − 4uuT + 4uuT uuT

= I − 4uuT + 4u uT uuT = I − 4uuT + 4uuT

Em outras palavras Q = I − 2uuT leva cada vetor x ∈ Rn em sua reflexao com relacao ao hiperplanoH = v : u, v = 0 ortogonal a u.

A possibilidade do uso de refletores para criar zeros em matrizes segue do seguinte resultado:

6.11 Teorema. Sejam x, y ∈ Rn tais que x = y mas x = y. Ent˜ ao existe um ´ unico refletor tal que

Qx = y.

Prova: (Existencia) Para encontrar um vetor u tal que I −

2uuT x = y, primeiro notamos que o hiperplanode reflexao bisecta o angulo entre x e y, de modo que o vetor x − y deve ser perpendicular a este plano.Portanto, nosso candidato e

u =x − y

x − y . (6.12)

De fato, de (i) e (ii) da proposicao anterior, temos

Q (x − y) = y − x,

Q (x + y) = x + y,

poisx − y, x + y = x, x + x, y − y, x − y, y = x2 − y2 = 0.

Logo,Qx =

2[Q (x − y) + Q (x + y)] =

2[y − x + x + y] = y.

6.12 Corolario. Seja x ∈ Rn um vetor n˜ ao nulo. Ent˜ ao existe um refletor Q tal que

x1x2...

∗0...0

Prova: Escolha y = (±x , 0, . . . , 0) no teorema anterior, com o sinal escolhido de tal forma a garantir quex = y.

No caso complexo, basta tomar

Q = I − 2uu∗

(6.13)e temos resultados analogos, bastando substituir simetrico ortogonal por hermitiano unitario.

Vamos agora descrever o algoritmo para reduzir uma matriz geral A a forma de Hessenberg. Cada passointroduz os zeros nas posicoes desejadas de cada coluna, da primeira ate a ultima, em um total de n−2 passos(ja que evidentemente nao ha necessidade de transformar as ultimas 2 colunas da matriz para coloca-la naforma de Hessenberg). Primeiro faca uma particao por blocos de A na forma

a11 cT

Q1 : Fn−1 −→ Fn−1 um refletor (onde F = R ou C) tal que

τ 10...0

onde |τ 1| = b e τ 1b1 < 0. Defina o refletor Q1 : Fn −→ Fn

e tome

A1/2 = Q1A = a11 cT

A1 = Q1AQ−11 = Q1AQ1 = A1/2Q1 =

a11 cT Q1

τ 10...0

Q1A Q1

a11 ∗ · · · ∗τ 10...0

Este e o fim do primeiro passo: a matriz A1, semelhante a matriz A atraves de uma matriz ortogonal, temzeros na primeira coluna abaixo do primeiro elemento da subdiagonal.O segundo passo cria zeros na segunda coluna de A1, isto e, na primeira coluna de A1, nas posicoes

desejadas. Assim, usamos um refletor Q2 : Fn−2 −→ Fn−2 exatamente como no primeiro passo, exceto queusamos A1 ao inves de A, e definimos

1 00 1

0 · · · 00 · · · 0

0 0...

...0 0

A3/2 = Q2A1 =

a11 ∗ ∗ · · · ∗τ 1 ∗ ∗ · · · ∗0...0

τ 2...0

A2 = Q2A1Q−12 = Q2A1Q2 = A3/2Q2 =

a11 ∗ ∗ · · · ∗τ 1 ∗ ∗ · · · ∗0...0

τ 2...0

Q2A1 Q2

Procedemos desta forma em n−2 passos ate encontrar uma matriz de Hessenberg An−2 semelhante a matrizoriginal A atraves de uma matriz ortogonal Q = Qn−2 . . . Q2Q1.

6.3.2 Aceleracao do algoritmo QR

Ordene os autovalores de A na forma

|λ1| |λ2| . . . |λn| .

Considere uma sequencia (Ak) de iteradas do algoritmo QR tal que cada matriz Ak e de Hessenberg superior.Denote

ak11 ak

12 ak13 ak

14 . . . . . . ak1n

ak21 ak

22 ak23 ak

24 . . . . . . ak2n

0 ak32 ak

33 ak34 . . . . . . ak

0 0 ak43 a

. .. . . . a

0 0 0. . .

. . .. . .

......

. . .. . .

......

. . .. . .

. . . akn−1,n

0 0 0 0 . . . 0 akn,n−1 ak

No algoritmo QR as entradas subdiagonais (ou a maioria delas) convergem para 0 quando n → ∞. Maisprecisamente, como veremos mais tarde, se

|λi| > |λi+1| ,

aki+1,i → 0 com taxa de convergencia λi+1

, i = 1, . . . , n − 1.

Portanto, uma maneira de acelerar a convergencia do algoritmo e decrescer os quocientes |λi+1/λi|. Um modode fazer isso e atraves do uso de um deslocamento, como no metodo das potencias. A matriz deslocada A−σI tem autovalores

|λ1 − σ| |λ2 − σ| . . . |λn − σ|e as taxas de convergencia associadas saoλi+1 − σ

λi − σ

, i = 1, . . . , n − 1.

Assim, se escolhermos σ suficientemente proximo de um autovalor arbitrario que chamaremos λn apos re-ordenar os ındices (e assumindo λn−1 = λn), aplicando o algoritmo QR a A − σI observaremos que a

(A − σI )kn,n−1 converge para 0 rapidamente. Uma vez que (A − σI )

kn,n−1 seja suficientemente pequeno, esta

entrada pode ser considerado 0 na pratica e, adicionando σI a iterada (A − σI )k do algoritmo QR, obtemos

0 · · · 0 aknn

com aknn uma boa aproximacao para λn. Os autovalores restantes de Ak sao os autovalores de Ak. Podemos

entao aplicar o algoritmo QR a matriz Ak, que tem ordem um a menos que a ordem de A. Continuandodesta forma, usaremos o algoritmo QR em matrizes cada vez menores ate obter todos os autovalores de A.Este processo, em que o tamanho da matriz e reduzido cada vez que um autovalor e encontrado, e chamadodeflacao.

O proprio algoritmo QR pode ser usado para obter os valores para os deslocamentos σ, ja que depoisde algumas iteracoes a matriz esta proxima da forma triangular e os valores na diagonal principal estaoproximos aos autovalores de A. De fato, as entradas na diagonal principal sao quocientes de Rayleigh, jaque

akii = eT i Akei = Akei, ei .

Assim, o deslocamento pode ser modificado em cada iteracao, como no metodo da iteracao do quociente deRayleigh, usando-se

σk = aknn

de modo que

λi+1 − σk

λi − σk

→ 0 quando k → ∞

e obtemos uma taxa de convergencia melhor que linear. De fato, veremos que, como no metodo da iteracaodo quociente de Rayleigh, este algoritmo QR com deslocamento dado pelo quociente de Rayleighpossui convergencia quadratica em geral e cubica para matrizes hermitianas.

Na pratica, depois de apenas uma iteracao QR ja e seguro usar σ1 = a1nn. O unico efeito dessa escolha eque a ordem dos autovalores obtidos no processo nao e necessariamente crescente.

O deslocamento dado pelo quociente de Rayleigh pode falhar as vezes, por exemplo quando o deslocamentoobtido esta a mesma distancia de dois autovalores distintos, fazendo com que o metodo tenha dificuldadede “decidir” qual autovalor aproximar. Para evitar esta situacao, e preferıvel usar o deslocamento deWilkinson, que e definido como sendo o autovalor da submatriz 2 × 2

akn−1,n−1 ak

n−1,n

akn,n−1 ak

que esta mais proximo de ak

nn. Ele e facil de calcular porque e a raiz de um polinomio do segundo grau. Epossıvel provar para matrizes simetricas tridiagonais o algoritmo QR com deslocamento de Wilkinson sempreconverge. Alem disso, como estamos usando maior informacao para obter o deslocamento, a taxa convergenciano mınimo igual a do algoritmo QR usando o deslocamento dado pelo quociente de Rayleigh e muitas vezesmelhor. Em geral, existem apenas casos muito especiais de matrizes para as quais o deslocamento deWilkinson falha. A experiencia tem mostrado que sao necessarias apenas 5 ou 9 iteracoes do algoritmoQR para obter uma aproximacao satisfatoria para o primeiro autovalor e de 3 a 5 iteracoes em media paraos autovalores restantes (as vezes menos); para matrizes hermitianas, 2 ou 3 iteracoes em media bastam.O deslocamento de Wilkinson tem a vantagem inicial de que pode ser usado para aproximar autovalorescomplexos de matrizes reais, ja que ele pode ser um numero complexo, enquanto que o quociente de Rayleigh

de uma matriz real sempre e um valor real. Para maiores detalhes sobre as informacoes contidas este paragrafoveja [Watkins].

Por fim, as vezes ocorre durante as iteracoes do algoritmo QR que um elemento da subdiagonal inferior

localizado proximo ao meio da matriz e suficientemente proximo de 0. Neste caso a matriz Ak tem a formaem blocos B11 B12

e o problema pode ser quebrado em dois, aplicando o algoritmo QR aos blocos B11 e B22 separadamente.Como o custo de uma iteracao QR de Hessenberg e O

, dividindo o tamanho da matriz pela metadeimplica numa diminuicao do custo por um fator de 4.

6.3.3 Implementacao pratica do algoritmo QR

Veja [Watkins].

6.4 Iteracao de subespacos e iteracao simultaneaNo metodo das potencias ou iteracao direta, ao inves de iterarmos apenas um vetor, podemos considerar aiteracao de um subespaco inteiro: se S ⊂ Fn (onde F = R ou C), consideramos as iteradas

S,AS,A2S , . . .

Cada iterada AkS e um subespaco de Fn que pode ser caracterizado por

Akx : x ∈ S

Como no metodo da iteracao direta as iteradas convergem para o autovetor dominante, esperamos que estessubespacos iterados convirjam para um autoespaco. Para verificar isso, precisamos definir uma nocao de

distancia entre subespacos vetoriais.

6.13 Definicao. Dados dois subespacos S, T ⊂ Fn, a distancia entre eles e definida por

dist(S, T ) = sen θ

onde θ e o maior angulo principal entre S e T . Dizemos que uma sequencia de subespacos S kconverge para S se dist(S k, S ) → 0 e denotamos este fato por S k → S .

6.14 Teorema. Seja A ∈ Mn (F) diagonaliz´ avel com autovalores

|λ1| |λ2| . . . |λn|

e uma correspondente base de autovetores

v1, . . . , vn

. Suponha que|λm

|λm+1

|para algum m.

T m = v1, . . . , vm ,

U m = vm+1, . . . , vn .

Seja S um subespaco vetorial de dimens˜ ao m tal que S ∩ U m = 0. Ent˜ ao existe uma constante C tal que

AkS, T m C

Em particular, AkS → T m linearmente com taxa de convergencia |λm+1/λm|.

Prova: Uma demonstracao rigorosa deste teorema esta alem dos propositos deste curso. Daremos apenasalgumas ideias para justificar o resultado.

Em primeiro lugar, observe que dim AkS = m para todo k. De fato, temos

ker Ak ⊂ U m. (6.14)

Isso pode ser facilmente visto escrevendo os vetores em coordenadas: dado um vetor v =n

i=1 aivi, temos

Akv =n

aiλki vi,

de modo que Akv = 0 implica a1 = . . . = am = 0 pois v1, . . . , vn sao linearmente independentes e λ1, . . . , λm

sao nao nulos, ja que |λ1| . . . |λm| > |λm+1| 0. Daı, (6.14) juntamente com dim S = m e S ∩U m = 0implicam imediatamente que dim AkS = m para todo k.

Agora, seja v ∈ S um vetor nao nulo. Escrevendo

segue de S ∩U m = 0 que pelo menos um dos escalares a1, . . . , am e nao nulo (assim, a condicao S ∩U m = 0e equivalente a exigir no metodo das potencias que o vetor inicial tenha uma componente na direcao doautovetor dominante; aqui exigimos que cada vetor do subespaco tenha uma componente no autoespacodominante). Temos

ni=m+1

As componentes do vetor “normalizado” Akv/λkm no subespaco U m tendem a zero quando k aumenta com

taxa de convergencia

|λm+1/λm

|ou melhor (dependendo dos valores de am+1, . . . , an), consequentemente o

vetor limite esta no subespaco T m. Como cada subsespaco AkS tem dimensao m, o limite dos subespacosnao pode ser um subespaco proprio de T m. Observe que a condicao S ∩ U m = 0 ocorre quase sempre para uma escolha aleatoria do subespaco m-dimensional S (por exemplo, no caso de R3 a escolha aleatoria de uma reta e um plano quase sempre resultaraque o unico ponto em que eles se interceptam e a origem).

Para fazer a iteracao de subespacos na pratica, deve-se escolher uma base para S e iterar todos osvetores desta base simultaneamente. No processo de iterar o subespaco, devemos obviamente ortonormalizara base do subespaco AkS em cada passo da iteracao, usando um algoritmo robusto tal como o MGS comreortogonalizacao. Este processo todo e chamado iteracao simultanea.

Em notacao matricial, a iteracao simultanea pode ser descrita da seguinte maneira. Seja S um subespacode dimensao m com base v1, . . . , vm. Utilizando um algoritmo robusto, encontramos uma base ortonormalq1, . . . , qm. Formamos entao uma matriz inicial n × m com colunas ortonormais:

Q0 = q01 · · · q0m .

Em cada passo k da iteracao, calculamosBk = AQk

e fazemos a decomposicao QR de Bk para obter uma base ortonormal para o subespaco AkS : se

Bk = Qk+1Rk+1,

entao as colunas ortonormais de Qk+1 formam uma base ortonormal para AkS . No limite, teremos que ascolunas das matrizes Qk convergem para os m autovetores dominantes (nas condicoes do teorema anterior).

6.4.1 Equivalencia entre o Algoritmo QR e Iteracao Simultanea

O algoritmo QR puro e equivalente a iteracao simultanea aplicada a matriz identidade, isto e, tomandoQ0 = I . Ou seja, se na iteracao simultanea Q0 = I,

Bk−1 = AQk−1,Bk−1 = QkRk,

(6.15)

definirmos

Ak = Q∗kAQk, (6.16)

Rk = Rk · · · R1 (6.17)

e, reciprocamente, no algoritmo QR

A0 = A,Ak−1 = QkRk,Ak = RkQk,

(6.18)

definirmos Qk = Q1 · · · Qk, (6.19) Rk = Rk · · · R1 (6.20)

segue que

Ak = Ak, (6.21)

Qk, (6.22)

Rk = Rk. (6.23)

De fato, afirmamos que as matrizes Qk, Rk e as matrizes Qk, Rk sao ambas caracterizadas como sendo adecomposicao QR (portanto unica) da matriz Ak, a k-esima potencia de A:

Ak = QkRk = Qk Rk. (6.24)

A verificacao de todos estes fatos segue por inducao. O caso k = 0 e imediato, ja que B0 = A. Comohipotese de inducao, assumimos

Ak−1 = Ak−1,

Ak−1 =

Qk−1

Rk−1 = Qk−1Rk−1,

Qk−1 = Qk−1,

Rk−1 = Rk−1.

Daı, no caso da iteracao simultanea temos

Ak = AAk−1 = AQk−1Rk−1 = QkRkRk−1 = QkRk,

enquanto que no algoritmo QR temos

Ak = AAk−1 = A

Qk−1

Rk−1 =

Qk−1Ak−1

Rk−1 =

Qk−1QkRk

Rk−1 =

Portanto,

Ak = QkRk =

Qk = Qk,

Rk = Rk.

Finalmente, pelo algoritmo QR podemos escrever (como em (6.10))

Ak = Q∗kAk−1Qk,

donde, pela hipotese de inducao,

Ak = Q∗kAk−1Qk = Q∗

k−1AQk−1Qk = Q∗k

k−1A

Qk−1Qk

= Q∗kQ∗

· · ·Q∗1AQ1

· · ·Qk−1Qk = Q

∗kA Qk

6.4.2 Convergencia do Algoritmo QR

Por simplicidade considere A simetrica. A relacao

Ak = Qk Rk = (Q1 · · · Qk) (Rk · · · R1)

explica porque o algoritmo QR encontra os autovetores de A: ele constroi bases ortonormais para o espacocoluna das potencias sucessivas Ak (e as colunas de Ak sao Ake1, . . . , Aken). A relacao

explica porque o algoritmo QR encontra os autovalores de A: os elementos da diagonal de Ak sao os quocientesde Rayleigh correspondentes as colunas de Qk, isto e, aos autovetores de A. Como os autovetores de A saoortogonais e A-ortogonais, os elementos fora da diagonal principal tambem convergem para 0.

6.5 Metodo de Arnoldi e Algoritmo de Lanczos

Para matrizes esparsas, nao simetricas, o metodo de Arnoldi e o metodo mais usado para encontrar osautovalores e autovetores, e para matrizes simetricas esparsas o metodo escolhido e o algoritmo de Lanczos.

Na Proposicao 5.7 vimos que no metodo de Arnoldi obtemos

AQm = Qm+1

H m (6.25)

q1 . . . qm

Qm+1 =

q1 . . . qm qm+1

sao matrizes com colunas ortonormais e H m e uma matriz de Hessenberg superior (m + 1) × m (na notacaodaquela proposicao, a matriz Qm e denotada por V m). Como naquela proposicao, denote por H m a matriz

de Hessenberg superior quadrada obtida atraves de H m quando suprimimos a ultima linha desta. Segue que

AQm = QmH m + qm+1

0 . . . 0 hm+1,m

ouAQm = QmH m + qm+1hm+1,metm. (6.26)

Como vimos no capıtulo anterior, se q , A q , . . . , Amq sao linearmente independentes, entao hm+1,m

= 0. Se

eles sao linearmente dependentes, entao hm+1,m = 0 e

AQm = QmH m. (6.27)

6.15 Proposicao. Sejam A ∈ Mn (F) e q1, . . . , qm ∈ Fn linearmente independentes. Sejam S = q1, . . . , qme considere a matriz n × m

q1 . . . qm

Ent˜ ao S e invariante sob A se e somente se existe algum B ∈ Mm (F) tal que

AQ = QB.

Alem disso, todo autovalor de B e um autovalor de A com autovetor correspondente em S .

Prova. Se existe tal B, entao

Aqj =mi=1

qibij ∈ S.

Reciprocamente, se S e invariante sob A, entao para cada ındice j = 1, . . . , m existem escalares bij tais que

bijqi.

Defina B = (bij). Se w e um autovetor de B com autovalor λ, entao v = Qw ∈ S e um autovetor de A comautovalor λ. Portanto, os autovalores da matriz de Hessenberg H m sao tambem autovalores de A. Se m nao e muito

grande, podemos entao usar o algoritmo QR para encontrar os autovalores de H m. Na pratica, dificilmenteobteremos hm+1,m = 0 exatamente, mas se hm+1,m e proximo de zero podemos esperar que estamos proximosde um subespaco invariante e, portanto, que os autovalores de H m estao proximos aos autovalores de A:

6.16 Teorema. Sejam Qm, H m e hm+1,m gerados pelo metodo de Arnoldi. Seja λ um autovalor de H mcom autovetor unit´ ario x. Seja v = Qmx. Ent˜ ao

Av − λv = |hm+1,m| |xm|

onde xm denota a ´ ultima componente de x.

O metodo de Arnoldi em geral obtem os autovalores perifericos. Os autovalores interiores podem ser encon-tradas atraves da estrategia do deslocamento.

Quando A e simetrica, como vimos no capıtulo anterior H m e uma matriz tridiagonal T m que pode serobtida atraves de uma formula de recorrencia.

Veja [Watkins] para detalhes sobre implementacoes eficientes do metodo de Arnoldi e algoritmo de Lanczospara encontrar autovalores e autovetores de matrizes esparsas.

6.6 O Problema de Autovalor Simetrico

Para matrizes simetricas, existem algoritmos bem mais eficiente que o algoritmo QR. Veja [Parlett],[Trefethen-Bau], entre outros.

6.7 Exercıcios

6.1 Suponha que A ∈ Mn (C) e uma matriz diagonalizavel tal que nenhum autovalor de A diferente do

autovalor dominante λ1 tem modulo igual a A. Em outras palavras, se r e a dimensao do autoespacoassociado a λ1, ou autovalores de A satisfazem

|λ1| = . . . = |λr| > |λ2| . . . |λn|

comλ1 = . . . = λr.

Mostre que o metodo das potencias pode ser aplicado a A para encontrar λ1 e um autovetor unitariono autoespaco associado a λ1.

6.2 Usando a forma canonica de Jordan , mostre que a hipotese de A ser diagonalizavel pode ser removidada hipotese do exercıcio anterior decompondo o vetor inicial v0 como a soma de um vetor na direcaodo autovetor dominante v1 e de vetores principais nos subespacos de Jordan da matriz.

6.3 Prove a Proposicao 6.7 sem assumir que o autovalor e simples.

6.4 Prove que o produto de uma matriz triangular superior e uma matriz de Hessenberg superior e umamatriz de Hessenberg superior. O que se pode dizer sobre o produto de duas matrizes de Hessenbergsuperiores?

6.5 Prove a unicidade do refletor na Proposicao 6.11.

Referencias Bibliograficas

[BHM] William L. BRIGGS, Van Emden HENSON e Steve F. McCORMICK, A Multigrid Tutorial , 2nd. Ed., SIAM, 2000.

[Demmel] James W. DEMMEL, Applied Numerical Linear Algebra , SIAM, 1997.

[Hackbusch] W. HACKBUSCH, Iterative Solutions of Large Sparse Systems of Equations, AppliedMathematical Sciences 95, Springer-Verlag, 1994.

[Hoffman-Kunze] K. HOFFMAN e R. KUNZE, Linear Algebra , 2nd. Ed., Prentice Hall, 1971.

[Horn-Johnson] Roger A. HORN e Charles R. JOHNSON, Matrix Analysis, Cambridge UniversityPress, 1985.

[Komzsik] Louis KOMZSIK, The Lanczos Method: evolution and application , SIAM, 2003.

[Kreyszig] KREYSZIG, E., Introductory Functional Analysis with Applications, John Wiley &Sons, 1978.

[Mak] Ronald MAK, Java Number Cruncher: the Java Programmer’s Guide to Numerical

Computing , Prentice Hall, 2003.[Meurant] Gerard MEURANT, The Lanczos and Conjugate Gradient Algorithms: from theory

to finite precision computations, SIAM, 2006.

[Parlett] Beresford N. PARLETT, The Symmetric Eigenvalue Problem , SIAM, 1998.

[Saad] Yousef SAAD, Iterative Methods for Sparse Linear Systems, 2nd Ed., SIAM, 2003.

[Stoer-Bulirsch] Josef STOER e Roland BULIRSCH, Introduction to Numerical Analysis, 3rd Ed.,Springer, 2002.

[Strang] Gilbert STRANG, Linear Algebra and its Applications, 3rd Ed., Harcourt Brace Jo-vanovich, 1988.

[Trefethen-Bau] Lloyd N. TREFETHEN e David BAU, Numerical Linear Algebra , SIAM, 1997.

[van der Vorst] Henk A. van der VORST, Iterative Krylov Methods for Large Linear Systems, Cam-bridge University Press, 2003.

[Watkins] David S. WATKINS, Fundamentals of Matrix Computations, 2nd Ed., John Wiley &Sons, 2002.

[Young] David M. YOUNG, Iterative Solutions of Large Linear Systems, Academic Press,1971.

Algebra Linear Numerica

Documents