Apostila Econometria Matriz

7/27/2019 Apostila Econometria Matriz

http://slidepdf.com/reader/full/apostila-econometria-matriz 1/81



UNIVERSIDADE FEDERAL DO AMAZONASFACULDADE DE ESTUDOS SOCIAIS

DEPARTAMENTO DE ECONOMIA E ANÁLISE

INTRODUÇÃO À ECONOMETRIA: ANÁLISE DE DADOSQUANTITATIVOS E REGRESSÃO LINEAR SIMPLES

Material didático para as aulas iniciaisdo curso de econometria do curso deciências econômicas da UniversidadeFederal do Amazonas - UFAM

Anderson Litaiff Feitosa da CostaSalomão Franco Neves

Orientador: Prof. Dr. Luiz Roberto Nascimento Coelho

Manaus2007



ÍNDICE

Apresentação......................................................................................................... 4

Introdução.............................................................................................................. 5

Definições e Conceitos Básicos.......................................................................... 6

1. População......................................................................................................... 6

2. Amostra............................................................................................................. 6

3. Unidade Observacional.................................................................................... 6

4. Variável............................................................................................................. 65. Medidas Estatísticas......................................................................................... 6

6. Inferência.......................................................................................................... 7

Capítulo 1: Descrevendo Dados Quantitativos................................................... 8

1.1 Representação Tabular.................................................................................. 8

1.2 Medidas Estatísticas....................................................................................... 9

1.2.1 Medidas de Posição (Tendência Central)................................................. 10

1.2.1.1 Média Aritmética.................................................................................. 10

1.2.1.2 Mediana............................................................................................... 12

1.2.1.3 Moda................................................................................................... 12

1.2.1.4 Exemplo de aplicação......................................................................... 131.2.2 Medidas de Variação................................................................................ 13

1.2.2.1 Medidas Absolutas de Variação.......................................................... 14

1.2.2.2 Medida Relativa de Variação.............................................................. 17

1.2.2.3 Exemplo de Aplicação......................................................................... 17

1.2.3 Medidas de Assimetria.............................................................................. 18

1.2.4 Outras Medidas Descritivas...................................................................... 19

1.3 Representação Gráfica................................................................................ 20

1.3.1 Histograma............................................................................................. 20

1.3.2 Box Plot.................................................................................................. 21

Capítulo 2: Correlação.......................................................................................... 23

Capitulo 3: O Modelo Linear a Duas Variáveis (Regressão Linear Simples)... 27

Capítulo 4: Testes do Modelo: ANOVA e t de Student....................................... 34

Capítulo 5: Análise dos Resíduos e Previsão..................................................... 37

Considerações Finais............................................................................................ 40

Bibliografia............................................................................................................. 41

ANEXOS.................................................................................................................. 42



APRESENTAÇÃO

Anderson Litaiff Feitosa da Costa: Graduado em Filosofia pela UniversidadeFederal do Amazonas - UFAM. Atualmente é finalista do curso de Economia eMestrando em Desenvolvimento Regional na área de industrialização. Trabalhouem Consultoria Econômica, pesquisador na área de Economia da População peloPIATAM e atualmente trabalha na área de Comércio Exterior. Entre suas

atividades como discente foi monitor e um dos elaboradores do material didáticodas aulas do curso de Contabilidade Social ministradas pelo professor Franciscode Assis Mourão.

Salomão Franco Neves: Graduado em Economia pela Universidade Federal doAmazonas - UFAM. Atualmente está em processo de preparação para o exame dequalificação no Mestrado em Desenvolvimento Regional na área deIndustrialização e está em processo de conclusão de sua especialização emAdministração de Empresas pelo Instituto Superior de Administração e Economiada Amazônia - ISAE/FGV. Foi estagiário do Departamento de Análise Econômicada Secretaria de Estado de Planejamento e Desenvolvimento Econômico -

SEPLAN/AM e é atualmente monitor presencial do curso de Especialização emDesenvolvimento Regional Sustentável pelo consórcio INEPAD/ UFMT. No que serefere às atividades em sala de aula, foi monitor nos cursos de ContabilidadeSocial, Teoria Macroeconômica I e II, Desenvolvimento Sócio Econômico eEconomia dos Recursos Naturais e do Meio Ambiente e prestou estágio deDocência nos cursos de Política e Planejamento Econômico e TeoriaMacroeconômica II.



INTRODUÇÃO

Salomão Neves

A sociedade se transforma a toda hora: à medida que o tempo passa novastendências são criadas e novos comportamentos são observados. Dada anecessidade de não apenas observar o comportamento da sociedade, mas tambémde notar suas particularidades e apontar novos rumos, a busca por maneiras demensurar todos esses fenômenos tem tido um nível de importância cada vez maior.

Uma das formas mais eficientes de se mensurar tas processos tem sido obtidas viaanálise de dados estatísticos, onde quanto maior for a sua disponibilidade e nível dehomogeneidade maior a capacidade de se conseguir explicar, pelo menos de formaaproximada, a realidade.

A utilização de técnicas estatísticas se estende a praticamente todas as áreas doconhecimento, dada a sua capacidade de simplificar e fornecer uma noçãoquantitativa e qualitativa dos fenômenos que afetam a sociedade. Na economia nãoé diferente: independente da área onde o economista trabalha a estatística estápresente, ora em seus estudos de mercado, ora em seus artigos e papers publicados em periódicos especializados, ora em projeções e pesquisas de ordemgovernamental. Ao conjunto de técnicas estatísticas aplicadas à economia dá-se onome de econometria.

Dado isto, cabe a seguinte pergunta: de que forma a econometria está presente navida do economista? A econometria está presente através de várias técnicas, ondese costuma dividi-las basicamente em análise de dados quantitativos e qualitativos,ambas com suas respectivas medidas e particularidades.

O objetivo destas notas de aula é fornecer aos alunos do curso de econometria eáreas afins noções básicas da análise de dados quantitativos, onde especificamente

serão apresentadas algumas de suas técnicas mais importantes nesse sentido.Estas notas de aula estão divididas em cinco capítulos: o primeiro capítulo destina-se a conceituação das principais medidas estatísticas utilizadas para se analisar ocomportamento de uma variável de forma singular; os capítulos seguintes abordamas principais técnicas para a análise das variáveis de forma conjunta, enfatizandotécnicas como correlação, regressão linear simples e análise de variância e deresíduos.

As técnicas econométricas são de extrema importância na vida do economista: odomínio da econometria fornece ao usuário uma base mais ampla para a realização

de análises mais complexas sobre a realidade, o que acaba sendo um diferencial noato de tomadas de decisão e consequentemente nos efeitos de política econômica ecaptação de recursos tornando a análise econômica muito mais eficiente e eficaz



Definições e conceitos básicos

1. População

É o conjunto de todos os elementos (unidades observacionais) que constituem aabrangência do estudo.

Exemplos:1.1. Conjunto dos 5507 municípios brasileiros.1.2. Conjunto constituído pelos alunos deste curso.1.3. Conjunto dos discursos proferidos pelo presidente da república desde a sua

posse.

2. Amostra

É um subconjunto da população.

Exemplos:2.1. Conjunto de municípios da região Nordeste2.2. Alunos deste curso que residem no Rio de Janeiro.2.3. Discursos proferidos pelo presidente da república em recintos abertos.

3. Unidade Observacional

É a portadora da(s) característica(s), ou propriedade(s), que se deseja investigar.

Exemplos:3.1. Cada um dos 5507 municípios brasileiros.3.2. Cada discurso presidencial.

4. Variável

É a representação simbólica da característica ou propriedade que se desejainvestigar.

Exemplos:

4.1. Receita tributária municipal arrecadada no ano passado.4.2. Gênero dos alunos4.3. Emprego da expressão “jamais neste país”.

5. Medidas Estatísticas

São os parâmetros da população, ou amostra, em apreço. Permitem reduzir atotalidade dos dados a apenas um certo número de medidas.

Exemplos:5.1. Receita tributária municipal média.

5.2. Percentagem de mulheres.5.3. Freqüência com que a expressão “jamais neste país” foi utilizada em cadadiscurso



6. Inferência

É o processo de generalizar na população os resultados obtidos em uma

amostra.

Exemplos:6.1. Como a receita tributária municipal média da região Nordeste é de $

150.000.000 podemos concluir que, no Brasil, esta receita é de $150.000.000, em média.

6.2. Como a turma do Rio de Janeiro tem 40% de mulheres, concluímos quetodas as turmas deste curso têm 40% de mulheres.

6.3. Como o presidente utilizou a expressão “jamais neste país” 25 vezes, emmédia, nos discursos em recintos abertos desde a sua posse, podemosconcluir que em seus discursos utilizam, em média, 25 vezes essa

expressão.



UFAM/ FES/ DEA Econometria Ficha I

Capítulo 1: Descrevendo dados quantitativos

Dados quantitativos são aqueles expressos pelas variáveis com níveis demensuração intervalar ou de razão. Ou seja, são aqueles nos quais as variáveis

assumem valores numa escala métrica definida por uma origem e uma unidade –fixas ou não. Como esses valores têm significado concreto:

• Todas as operações matemáticas envolvendo os valores da distribuição sãoválidas;

• As medidas de posição, variação e forma permitem a simplificação de todosos valores da distribuição para alguns poucos parâmetros;

• As representações tabulares servem apenas para efeito de simplificaçãovisual dos valores da distribuição;

• As representações gráficas são muito mais informativas.

As variáveis quantitativas podem ser também, classificadas como discretas , quandoassumem um número finito – pontual – de valores, ou contínuas , quando assumemum número infinito de valores, geralmente em intervalos.

1.1 Representação Tabular

Quando o número de observações é grande e os valores são diferenciados entre si,há que se representa-los de modo resumido. Para dados quantitativos, a melhorforma de representação tabular é por meio de distribuições de freqüência porclasses de valores.

Não há um modo único para se construir uma tabela de freqüência por classe devalores. No entanto, algumas regras são apresentadas abaixo, visando facilitar esseprocedimento.

A escolha do número de classes a ser considerado depende do número deobservações, do menor e do maior valor da série. Embora subjetiva, essa escolhadeve recair para algo entre cinco e dez classes, devendo se evitar classes combaixo número de observações. Um modo aproximado de se determinar o número declasses é calculando a raiz quadrada do número de observações.

As classes não precisam ter amplitude constante, mas, por uma questão desimplificação da construção da representação gráfica, geralmente consideramosclasses com intervalos constantes. O cálculo da amplitude dos intervalos dasclasses pode ser feito dividindo-se a amplitude da distribuição – diferença entre omaior e o menor valor da amostra – pelo número de classes.

Como as classes devem ser exaustivas – não pode haver uma observação semclasse – e mutuamente exclusivas – uma observação tem que ser alocada em umaa apenas uma classe –, é importante definir os limites das classes que serãoincluídas ou excluídas em cada classe.

Como se pode notar, esse procedimento deve ser feito apenas para efeito derepresentação dos dados. O cálculo das medidas estatísticas deve ser feitoutilizando se os dados efetivamente observados Quando estes não são disponíveis



UFAM/ FES/ DEA Econometria Ficha I 9

e apenas uma tabela é fornecida – dados secundários – as medidas estatísticas sãocalculadas assumindo-se que nesse caso, são valores aproximados.

Exemplo: uma amostra de 40 pessoas selecionadas de uma população forneceu aseguinte distribuição das idades, em anos completos:

71 74 65 72 64 41 62 62 58 8249 83 58 65 68 60 76 86 74 5378 64 55 89 56 50 71 58 57 7558 86 64 56 45 73 54 85 70 73

Para analisar os dados expostos, a primeira coisa que deve ser feita é a definir emquantas classes vamos organizar a amostra, que é obtida através da raiz quadradado número de valores da amostra. Como 4,640 ≈ e a escolha das 6 classes

levaria a baixa freqüência na maior parte delas, optamos por trabalhar com 5 classesde idades. A amplitude de cada classe será igual a:

anosh 106,95

4189≈=

−=

A tabela contendo a distribuição de freqüência por classe de valores será da forma:

Classes deIdades(anos)

Freqüência

40 -| 50 450 -| 60 1160 -| 70 970 -| 80 1080 -| 90 6

TOTAL 40

De acordo com a notação utilizada, as classes incluem o limite superior, mas nãoincluem o limite inferior de cada classe.

1.2 Medidas Estatísticas

O conhecimento de uma população, ou de uma amostra é, por extensão, oconhecimento dos parâmetros, ou medidas estatísticas, associados a essapopulação, ou amostra. Assim, a representação, ou caracterização, de uma série dedados quantitativos por uns poucos parâmetros permite um conhecimento razoávelda população ou amostra. Geralmente, são utilizados três tipos de medidasestatísticas:

• Medidas de posição: média, separatrizes e moda. Posicionam a distribuiçãono eixo da escala da variável estudada;

• Medidas de variação: amplitude, desvio médio, desvio padrão e coeficiente

de variação. Informam o grau de homogeneidade da distribuição;• Medidas de forma: assimetria. Verifica a forma de distribuição e a

d ã d t â t




Há que se fazer uma distinção entre a notação utilizada para as medidas estatísticasrelativas a uma população e uma amostra. Por convenção, parâmetrospopulacionais são representados por letras gregas, enquanto os parâmetrosestimados de uma amostra são representados por letras latinas. Assim, a média deuma população é representada por µ e a de uma amostra por X , por exemplo.

1.2.1 Medidas de Posição (Tendência Central)

Representar os valores de uma série de observações a respeito de uma variável nãoé uma tarefa das mais simples. O maior problema prático é decorrente da aplicaçãodo parâmetro certo para a distribuição inadequada. Por exemplo, a renda per capita de um país mede a riqueza produzida pelo país, num período, dividida pelo tamanhoda população nesse período, fornecendo uma idéia de riqueza média dessa

população. No entanto, quando o grau de concentração dessa riqueza não éinformado, pode-se ter uma idéia errada da riqueza individual para os países comelevada concentração de renda. Conclusão: medidas de posição devem, sempreque possível ser analisadas juntamente com outros tipos de medidas para umconhecimento mais amplo do objeto de interesse.

O objetivo das medidas de posição é o de fixar a distribuição dos valores no eixo daescala da variável em termos do seu valor central, posicional e de maior freqüência.Abaixo são apresentadas as três principais medidas de posição, com suasaplicações, vantagens e desvantagens.

1.2.1.1 Média Aritmética

Uma das medidas estatísticas mais utilizadas na representação de uma distribuiçãode dados é a média aritmética, na sua forma simples, ou ponderada. No primeirocaso, dividimos a soma de todos os valores da série pelo número de observações,enquanto, no segundo, mais utilizados nas distribuições de freqüências, os valoressão ponderados pelas freqüências com que ocorrem e depois divididos pelo totaldas freqüências. Considere o exemplo das idades das 40 pessoas de uma amostra,conforme representado acima. Como se trata de uma distribuição de freqüências porclasses de valores, devemos supor que as observações de cada classe estãoconcentradas no ponto médio de cada classe e esse serão valor considerado nocálculo da média das idades, conforme abaixo:


Ponto Médio(Xi)

Freqüência(fi)

Xifi

40 -| 50 45 4 18050 -| 60 55 11 60560 -| 70 65 9 58570 -| 80 75 10 75080 -| 90 85 6 510

TOTAL 40 2630




A segunda coluna representa o ponto médio de cada classe, a terceira o número depessoas com idade nas respectivas classes e a última coluna é o total das idades decada classe, isto é, o produto entre os pontos médios de cada classe e asrespectivas freqüências. Se somarmos as idades de todas as pessoas da amostraencontraremos 2.630 anos. Dividindo esse valor pelo número de pessoas naamostra, 40, encontraremos a média da amostra igual a 65,75 anos, ou 65 anos e 9meses.

Essa média, assim como qualquer medida calculada a partir de uma distribuição defreqüências por classes de valores, não é exata. Uma rápida inspeção nadistribuição dos valores levará ao cálculo da média como sendo 66 anos. Esse valor,sim, representa a verdadeira média da amostra, por considerar os valoresefetivamente observados, sem a assunção de que os valores de cada classe estãoconcentrados em torno do ponto médio. Com isso, podemos concluir que, se

dispormos dos valores observados, podemos organizá-los e representá-los por meiode uma tabela, mas calculamos as medidas estatísticas diretamente com eles.

Se considerarmos uma distribuição de freqüências, podemos calcular a médiaaritmética por:

∑

∑

=

==

m

i

i

m

i

ii

f

f X

1

1 µ para dados populacionais, e

∑

∑

=

==

m

i

i

m

i

ii

f

f X

X

1

1 para dados amostrais,

Onde m representa o número de classes na população e na amostra.

A média representa o centro da distribuição de valores e é expressa na mesmaunidade das observações – R$, cm, etc. Pela simplicidade e facilidade de cálculo e

de interpretação, a média é a medida estatística mais utilizada para representar umadistribuição de valores muitas vezes, no entanto, sua utilização é precária e nãoindicada.

A principal vantagem da média é a facilidade de cálculo tanto para grupos quantopara subgrupos ou extratos. Como a média é influenciada por valores extremos dadistribuição, ela só deve ser utilizada em distribuições simetrias ou levementeassimétricas e em distribuições não heterogêneas. Sua aplicação nesses dois casosé precária e de pouca utilidade, pois perde sentido prático e capacidade derepresentar a distribuição que a originou.

Também nos casos de distribuições em que o fenômeno tem uma evolução nãolinear, como as séries de valores financeiros no tempo, de acordo com umacapitalização composta a média mais recomendada seria a geométrica Finalmente




não se recomenda a aplicação da média aritmética nas séries cujos valoresrepresentam relações recíprocas, como por exemplo velocidades, expressas pelarelação entre espaço e tempo. Nesse último caso, recomenda-se a utilização damédia harmônica.

1.2.1.2 Mediana

O que fazer quando a média aritmética não puder ser utilizada face ao alto grau deheterogeneidade da distribuição, ou por sua assimetria elevada devido a existênciade valores afastados da distribuição? Pense nas taxas de retorno de portfolios diferentes, ou dos valores obtidos em uma pesquisa de salários para um cargo emparticular. Ainda assim, podemos representar uma distribuição por uma medidamenos sensível a valores extremos. É o caso da mediana, medida que divide adistribuição de valores em duas partes iguais: 50% acima e 50% abaixo do seu

valor. Como a média, a mediana é expressa na mesma unidade de observações –R$, cm, etc. Ao contrário da média, no entanto, o seu tratamento algébrico não é tãoamigável. Como definida,essa medida não é influenciada pelos valores observados,mas pela freqüência com que os valores ocorrem na distribuição.

Ordenada a série de valores, crescente ou decrescentemente, determina-se aposição dividindo-se o número de observações por 2, que é o número de partesiguais em que a distribuição será dividida. O valor mediano será o da variávelrelativa à posição encontrada. Caso a série tenha um número par de observações, amediana será a média dos 2 termos centrais.

De volta à distribuição de idades, ordenando os valores de modo crescente, nosentido horizontal, teríamos a nova distribuição:

41 45 49 50 53 54 55 56 56 5758 58 58 58 60 62 62 64 64 6465 65 68 70 71 71 72 73 73 7474 75 76 78 82 83 85 86 86 89

Como a série tem um número par de observações, 40, há dois termos centrais, ovigésimo e o vigésimo primeiro, cujos valores são 64 e 65, respectivamente.

Identificados os termos centrais, a mediana será a média desses termos centrais, ouseja:

anos M d 5,642

6564=

+=

Caso a série tivesse um número ímpar de observações, teríamos apenas um termocentral e a mediana seria o valor referente a esse termo central.

1.2.1.3 Moda

É o valor, ou classe de valores, de maior freqüência na distribuição. Sua importânciaé ressaltar o valor, ou classe, dominante na distribuição. Como é função da




freqüência, sua aplicação não depende do nível de mensuração da variável, sendoaplicada tanto a fenômenos qualitativos quanto quantitativos.

Uma distribuição pode ser amodal, quando não existir uma valor dominante, oubimodal, trimodal, etc. à medida que a distribuição apresente duas, três, ou maisvalores modais.

Não há cálculo envolvido na determinação da moda, porém sua aplicação é maisrestrita do que os parâmetros anteriores. Como a mediana, seu valor não éinfluenciado pela existência de valores extremos na distribuição.

A idade de 58 anos é aquela que aparece o maior número de vezes sendo, portantoa idade modal. De acordo com a tabela de freqüência e classe modal é a segunda,ou seja, aquela cujas idades variam entre 50 e 60 anos, com 11 pessoas nela

posicionadas.1.2.1.4 Exemplo de aplicação

Considere a distribuição do número de horas semanais de estudo de uma amostrade 15 alunos deste curso, conforme a série: 15, 20, 18, 16, 18, 21, 19, 10, 14, 18,17, 20, 18, 15, 16.

A média da amostra é expressa por:

1715

16182015

15

40

1=

++++== ∑= K

f X

X i ii horas semanais

Ordenando os valores de modo crescente e considerando que a série tem númeroímpar de observações, a mediana será o número de horas estudadas pelo 8º alunoque mais estuda:

18=d M horas

A quantidade de horas estudadas de maior freqüência, ou modal, é de 18 horas.

Quatro pessoas na amostra estudam 18 horas por semana ( 18=o M ), que faz dela ovalor dominante – modal – da série.

Os valores das medidas estatísticas permitem antecipar a forma da distribuição doponto de vista de sua assimetria. De um modo geral, quando od M M X >> , dizemosque a distribuição é assimétrica à direita (ou positivamente assimétrica). Quando

od M M X << , a distribuição é dita assimétrica à esquerda (ou negativamenteassimétrica), que é o caso do exemplo acima.

1.2.2 Medidas de Variação

As medidas de posição se propõem a representar uma distribuição de valores, comojá i P it t bé ã d di t ib i õ d




mesmo fenômeno em locais ou períodos diferentes como, por exemplo, acomparação entre as expectativas de vida das populações dos países nos cincocontinentes. Além disso, a média aritmética é uma medida de representação quandoa distribuição for simétrica e não heterogênea. Mas o que entendemos pordistribuição heterogênea? Quando uma distribuição é dita homogênea? Relatóriosfinanceiros utilizam o termo volatilidade. O que isso representa? Essas e outrasquestões são respondidas à luz das medidas de variação.

As medidas de variação constituem importante instrumento para avaliar a amplitudecom que as observações variam e como os valores estão distribuídos em torno dealgum valor-critério. Elas podem ser de caráter absoluto ou relativo – percentual –,como apresentadas a seguir.

1.2.2.1 Medidas Absolutas de Variação

As medidas absolutas de variação são expressas na mesma unidade da variável, oualguma função dela. As principais são:

Amplitude da Distribuição

A amplitude da distribuição é a diferença entre o maior e o menor valor dadistribuição, ou seja:

x X H −= ,

Onde X é o maior e x é o menor valor da distribuição.

Apesar de fornecer uma idéia do espectro de variação dos dados, essa medida épobre, pois só considera dois de seus valores, deixando de informar como osdemais valores estão distribuídos. Com essa medida, podemos avaliar apenas qualextremo está influenciando mais a média, por exemplo.

Observando a distribuição ordenada das idades das pessoas na amostra, notamosque a menor idade foi 41 e a maior 89 anos, logo as idades tiveram uma amplitudede variação na ordem de 48 anos.

Desvio Médio

Para suprir as deficiências da amplitude da distribuição, é necessário definirmosuma medida de variação não só incorpore todas as observações mas também meçacomo essas observações estão dispostas em relação a um valor-critério.Estabeleceu-se como valor-critério a média da distribuição. Como a soma dosafastamentos das observações em relação à média é nula – a média é o valorcentral da distribuição –, tornou-se a média dos valores absolutos dos desvios dasobservações em relação à média da distribuição, ou seja:




∑

∑

=

=

−

=∆m

i

i

m

i

ii

f

f X

1

1

.|| µ

para a população e

∑

∑

=

=

−

=m

i

i

m

i

ii

f

f X X

DM

1

1

.||

para a amostra.

Note que, para o cálculo do desvio médio da população, usamos a média dapopulação, µ , enquanto, para a amostra, usamos a média da amostra, X .

De volta ao exemplo das idades, calculamos o desvio médio das idades utilizando adistribuição das freqüências como planilha de cálculo, de acordo com o quadroabaixo:


Ponto Médio(Xi)

Freqüência(fi)

|Xi-66| |Xi-66|fi

40 -| 50 45 4 21 8450 -| 60 55 11 11 12160 -| 70 65 9 1 970 -| 80 75 10 9 90

80 -| 90 85 6 19 114TOTAL 40 418

Aplicando a fórmula acima encontramos 45,1040

418== DM anos.

Variância

Embora o desvio médio seja uma medida melhor do que a amplitude da distribuição,por utilizar todos os valores da distribuição, ainda não é uma medida ideal, pois não

discrimina os pequenos dos grandes afastamentos em relação à média. Se, paraeliminar o problema, dos sinais, ao invés de considerarmos os valores absolutos,elevarmos os afastamentos ao quadrado, estaremos não apenas eliminando oproblema dos sinais como também potencializando os afastamentos, enfatizando –penalizando – os grandes desvios em relação às observações mais próximas damédia. Como resultado, definimos a medida de variação, denominada variância,como:

N

f X m

i

ii∑=

−

=1

2

2

.)( µ

σ para a população e




1

.)(1

2

2

−

−

=

∑=

n

f X X

S

m

i

ii

para a amostra.

A razão de termos (n – 1) no denominador da variância da amostra está relacionadaao processo de estimação de parâmetros de uma população por dados amostrais.

Embora a variância represente um passo à frente em relação às mediadas devariação anteriormente apresentadas, ela padece de um problema complicado: suaunidade de medida do fenômeno, elevada ao quadrado. Avaliar uma medidaquadrática não é uma tarefa das mais simples, certo?

Classes deIdades

(anos)

Ponto Médio(Xi)

Freqüência(fi)

(Xi-66)2 (Xi-66)2fi

40 -| 50 45 4 441 176450 -| 60 55 11 121 133160 -| 70 65 9 1 970 -| 80 75 10 81 81080 -| 90 85 6 361 2166TOTAL 40 6080

Aplicando a fórmula da variância da amostra obtemos 9,15539

60802==S anos2. O

julgamento da ordem de grandeza desse número fica prejudicado porque ele

representa uma medida quadrática.

Desvio Padrão

Para manter as mesmas propriedades da variância e restituir a unidade de medidado fenômeno, expressa pela variável X, devemos extrair a raiz quadrada davariância. Definimos, então, a medida de dispersão dos dados em relação à médiada distribuição como o desvio padrão.

N

f X m

i

ii∑=

−

= 1

2.)( µ

σ para a população e

1

.)(1

2

−

−

=

∑=

n

f X X

S

m

i

ii

para a amostra.

No exemplo das idades, extraindo a raiz quadrada da variância obtemos5,129,155 ==S anos. Restituímos, então, a mesma unidade de medida da variável

estudada – anos. Note que o desvio padrão é maior do que o desvio médio. Isso édecorrente do fato do desvio padrão dar maior ênfase aos valores mais afastados damédia potencializando-os.




O único problema do desvio padrão é a dificuldade de se avaliar a sua ordem degrandeza, ou seja, julgar se um valor do desvio padrão calculado para umadistribuição é elevado ou baixo. A alternativa é trabalhar com medidas relativas devariação.

1.2.2.2 Medida Relativa de Variação

Medidas absolutas, via de regra, face à dificuldade de se estabelecer uma base decomparação que permita concluir sobre a ordem de grandeza na medida obtida. Porexemplo, até que ponto podemos dizer que 144 anos2 exprime uma grande variaçãodas idades? Como vimos, a variância é uma medida quadrática, o que torna a suaordem de grandeza difícil de ser avaliada. Tudo bem, extraímos a sua raiz quadrada.Será que 12 anos pode ser considerada uma alta dispersão das idades em torno damédia? A amostra é heterogênea em relação a idade média de seus membros? Por

que, numa distribuição, uma dispersão igual a 12 é baixa e, em outra, alta? Comocomparar dispersões oriundas de distribuições com médias diferentes?

Como se vê, a medida absoluta de dispersão dos dados tem limitações no tocanteàs conclusões. Principalmente na comparação de grupos com médias diferentes.Como o desvio padrão varia com a ordem de grandeza da média, comparar grupos,quanto à sua variação, quando as respectivas médias são diferentes, não pode serfeito com os desvios padrões. Surge, então, a medida relativa, adimensional, isto é,sem unidade de medida, definida como coeficiente de variação:

µ

σ γ = para a população e

X

S CV = para a amostra

O coeficiente de variação mede a percentagem de dispersão dos dados em relaçãoà média, podendo ser expressa em termos decimais ou percentuais – multiplicando-o por 100. Dizemos que uma distribuição é homogênea quando a variabilidaderelativa, expressa pelo coeficiente de variação, não ultrapassar 20%. Obviamente, adistribuição não deixa de ser homogênea para valores acima de 20%, mas vai

perdendo grau de homogeneidade na medida em que o coeficiente aumenta.

O coeficiente de variação das idades é 19,066

5,12==CV ou 19%, dentro dos limites

de homogeneidade estabelecidos por essa medida.

1.2.2.3 Exemplo de Aplicação

Considere, ainda, a distribuição das horas de estudo dos 15 alunos deste cursoapresentada no item 1.2.1.4. Identificamos quantas horas o aluno que menosestudou na amostra como sendo 10 horas e 21 horas o que mais estudou, isto é, a

amostra apresentou intervalo de variação de 11 horas.




Calculando a média dos desvios absolutos das observações em relação à média de17 horas da distribuição, pelo desvio médio da amostra, obtemos:

13,215

|17|

40

1=

−=∑=i

i X DM horas.

O desvio padrão da amostra, expresso como a raiz quadrada da variância, é igual a:

8,286,714

)17(40

1

2

2==

−

==

∑=i

i X

S S horas

Note que é difícil tomarmos o desvio padrão para classificarmos a distribuiçãoquanto ao seu grau de homogeneidade. Como a média da amostra é igual a 17horas, a variação relativa, expressa pelo coeficiente de variação da amostra é iguala:

16,017

8,2===

X

S CV , ou 16%.

Como o coeficiente de variação é inferior a 20%, podemos concluir que a amostra éhomogênea em relação às horas de estudo dos alunos.

1.2.3 Medidas de Assimetria

Sabemos que a média é uma medida estatística de representação de umadistribuição, mas sua distribuição está sujeita a algumas características dessadistribuição. Uma dessas características é o baixo grau de assimetria de distribuição.Para verificarmos o tipo e o grau de assimetria da distribuição, utilizamos a medidaestatística adimensional denominada coeficiente de assimetria, definido como:

3

1

3)(

σ

µ

α N

X N

i

i∑=

−

= para população e

3

1

3)(

nS

X X

CA

n

i

i∑=

−

= para a amostra

Quando esse coeficiente é positivo, dizemos que a distribuição tem assimetriapositiva, ou à direita, isto é, há algumas poucas observações mais elevadas à direitada média. Quando assume valor negativo, a assimetria é negativa, ou assimétricanegativa, com algumas observações mais afastadas à esquerda da média. Quando

o valor desse coeficiente se aproxima de zero, dizemos que a distribuição tende asimetria, o que faz com que os valores das medidas de posição se igualem.




No exemplo das idades, o coeficiente de assimetria é igual ao 0,08 – ou 8% –,indicando que a distribuição das idades na amostra pode ser considerada simétrica – ou levemente assimétrica à direita.

1.2.4 Outras Medidas Descritivas

Muitas vezes torna-se necessário complementar a informação de uma distribuiçãocom outras medidas que possam descreve-la melhor. Podemos, também, estardiante de problemas que exijam outros tipos de tratamento como, por exemplo,escolher os 10% dos alunos mais adiantados, ou dos 25% dos melhores candidatosa um cargo. A exemplo da mediana, que separa metade da distribuição acima emetade abaixo do seu valor, podemos fazer cortes com base em separatrizes ,definidas como medidas que dividem a distribuição em partes iguais. Um tipoconhecido de separatriz são os percentis , que dividem uma distribuição em 100

partes iguais. Note que, como definida, a mediana é o percentil de ordem 50 ou 50ºpercentil – em uma distribuição ordenada de valores. Outros casos particulares depercentis são, por exemplo, os quartis – definidos como as separatrizes que cortama distribuição em quatro partes iguais , 25% (Q1), 50%(Q2 ou Md) e 75%(Q3) –, e osdecis que dividem a distribuição em dez partes iguais – D1 a D9. Resumindo, paradividir uma distribuição em K partes iguais definimos (K – 1) separatrizes.

A tabela abaixo fornece um resumo das principais medidas que descrevem adistribuição das idades das 40 pessoas que compõem a amostra fornecida no item1.1. Para a elaboração da tabela foi utilizado o Microsoft Excel.

Estatística Descritiva

Média 66Erro padrão 1,887203874Mediana 64,5Modo (moda) 58Desvio padrão 11,9357253Variância da amostra 142,4615385

Curtose-

0,629280346Assimetria 0,086382124Intervalo (amplitude) 48

Mínimo 41Máximo 89Soma 2640Contagem (observações(n)) 40Nível de confiança(95,0%) 3,817230104




No que se refere aos dados para os percentis da amostra, os resultados foram osseguintes:

percentil valores10 52,725 57,7550 64,575 7490 83,2

Analise as medidas acima e tire conclusões acerca da distribuição.

1.3 Representação Gráfica

As variáveis quantitativas, ao contrário das qualitativas, devido ao fato de possuíremuma escala com origem e unidade – fixas ou não –, permitem representação gráficacom maior grau de informação sobre a distribuição de seus valores.

A definição da melhor forma de representar a distribuição de uma variávelquantitativa depende do tipo da série estudada – temporal, geográfica ouespecificativa. Séries temporais são representadas por gráficos de linha quepermitem a visualização da tendência do fenômeno no tempo, este localizado noeixo das abscissas. Séries geográficas são representadas por barras ou blocos quepermitem identificar as localizações onde o fenômeno estudado atua com maisintensidade. As demais distribuições podem ser representadas por dois tipos

principais de gráficos: Histogramas e Box Plots .1.3.1 Histograma

Histograma é um gráfico de barras justapostas contendo as classes de valores naabscissa e as freqüências, absolutas ou relativas nas ordenadas, centradas nospontos médios das classes. Quando os intervalos de classes da variável não sãoconstantes, a área da barra deve ser proporcional à freqüência da classe. Nessecaso, devemos dividir a freqüência de cada classe pela amplitude da respectivaclasse.

Considere o histograma construído para os dados das idades do exemplo do item1.1. Note que, pela linha unindo as barras do histograma, também denominadapoligonal característica, a distribuição, embora não simétrica, guarda uma moderadasimetria em relação aos valores centrais. A linha poligonal característicadesempenha um papel importante na identificação da simetria dos dados. Noexemplo, notamos que ela mostra uma forma levemente assimétrica, como asmedidas descritivas já haviam antecipado.




Segue abaixo o gráfico do histograma elaborado com o Software Minitab 14.2

Idade (anos)

F r e q u e n c y

908070605040

7

6

5

4

3

2

1

0

Mean 66

StDev 11,94

N 40

Histogram of Idade (anos)

Normal

1.3.2 Box Plot

O diagrama de Box Plot é uma forma de representar graficamente os dados dadistribuição de uma variável quantitativa em função de seus parâmetros descritivos.O gráfico abaixo representa o Box Plot para os dados das idades da amostra do item1.1. Na sua construção, são considerados os quartis e os limites da distribuição,permitindo uma visualização do posicionamento da distribuição na escala davariável. Para melhor compreensão deste gráfico, note que a escala de medida davariável encontra-se na linha vertical do quadrado onde está inserido o gráfico.

Na caixa retangular vertical do gráfico, são fornecidos os quartis – Q1 na parteinferior, e Q3 na parte superior da caixa. Entre eles, encontra-se a mediana dadistribuição. Alguns Box Plots apresentam, ainda, a média dentro da caixa. Observeque 50% da distribuição têm valores dentro da caixa.

As linhas verticais que saem da caixa terminam nos limites inferior, x, e superior, X,

da distribuição quando esses valores estiverem a uma distancia inferior a 1,5 desvioquartílico dos respectivos quartis. Entre esses limites, encontram-se os valoresconsiderados típicos da distribuição. Define-se como desvio quartílico a distânciaentre o 1º e o 3º quartil:

13QQd q −=

Observações com afastamento superior a 1,5 desvio quartílico acima do 3º quartil ouabaixo do 1º quartil são consideradas atípicas, ou possivelmente outliers ,aparecendo no gráfico como asteriscos. Nesse caso, ao invés dos limites dadistribuição, estes são substituídos no Box Plot pelo valor:




qd Q 5,13 + – limite teórico superior – se houver valor atípico superior;

Ou

qd Q 5,1

1− – limite teórico inferior – se houver valor atípico inferior.

Quanto maior for o valor do desvio quartílico, maior a variabilidade da distribuição, equanto mais próxima a caixa estiver de um dos extremos, maior a evidência sobre aassimetria da distribuição.

Os Box Plots são de grande utilidade também quando uma variável quantitativa éanalisada à luz das categorias de uma variável qualitativa, como, por exemplo, adistribuição de salários para cada categoria da variável formação educacional, estamedida pelo último nível de instrução completo das unidades observáveis – sem

formação, nível fundamental, nível médio, nível superior e pós-graduação.

I d a d e

( a n o s )

90

80

70

60

50

40

Boxplot of Idade (anos)

Q3

Md

Q1

x

X

Até 1,5dq

dq

Até 1,5dq

I d a d e

( a n o s )

90

80

70

60

50

40

Boxplot of Idade (anos)

Q3

Md

Q1

x

X

Até 1,5dq

dq

Até 1,5dq



UFAM/ FES/ DEA Econometria Ficha II

Capítulo 2: Correlação

Considere a tabela abaixo, contendo os dados oriundos de uma amostra constituídade 10 empresas. Foram levantados os valores gastos em propaganda (X) e os

volumes de vendas (Y), ambas em R$1.000, durante um mês.

Propaganda (X) Vendas (Y)

25 75

27 89

24 70

28 82

23 70

26 85

30 84

28 80

26 78

23 67

Podemos dispor esses dados em um gráfico denominado Diagrama de Dispersão,conforme abaixo:

Diagrama de Dispersão

60

65

70

75

80

85

90

22 24 26 28 30 32

Gastos em propaganda (R$ 1.000)

V o l u m e d e V e n d a s ( R $ 1 . 0

0 0 )

Pelos pontos dispostos nesse gráfico, percebemos que existe um certo padrão decomportamento envolvendo essas duas variáveis. Mais ainda, podemos dizer que háuma associação positiva entre elas, no sentido que, para uma variação de umaunidade numa variável, digamos gastos em propaganda , corresponderá uma

variação no mesmo sentido de outra variável, volume de vendas. Em outraspalavras, quanto mais uma firma gasta em propaganda, maior será o volume devendas. Pode-se também em princípio, antecipar que a relação é aproximadamente



UFAM/ FES/ DEA Econometria Ficha II 24

linear, isto é, que as variações correspondentes à variável volume de vendas sãoconstantes para variações de R$1.000 em gastos em propaganda . A questão que secoloca, então, é saber o quão relacionadas essas variáveis estão, isto é, o grau deassociação entre elas. Para entendermos melhor o processo de obtenção destamedida, façamos uma mudança na origem dos dados, definindo um novo sistemacoordenado, passando pelo ponto das médias das medidas de acordo com o graficoabaixo.

Note que ao trocarmos de escala de X para X X x −= e de Y para Y Y y −= ,

estamos fazendo do ponto );( Y X a nossa nova origem do plano x0y. Ao fazermos taltransformação, estamos definindo no novo espaço quatro quadrantes.

-15

-10

-5

0

5

10

15

-4 -3 -2 -1 0 1 2 3 4 5

Volume de Vendas (R$ 1.000)

G a s t o s e m P

r o p a g a n d a ( R $ 1 . 0

0 0 )

IV

III

III

Considere agora, o produto x.y – ou )).(( Y Y X X −− na escala anterior. Se somarmostodos esses produtos e dividirmos por (n-1) teremos uma idéia do tipo de variação

conjunta das duas variáveis. Caso o resultado seja positivo, significa que a maiorparte dos pontos está concentrada em torno dos quadrantes I e III, ao passo que, seo resultado for negativo a contração dos pontos estará em torno dos quadrantes II eIV. No primeiro caso, teríamos a informação de que a variação conjunta é positiva –a um aumento de uma unidade em uma das variáveis corresponderá umadiminuição da outra. Quando houver uma nuvem de pontos distribuídos em tornodos quatro quadrantes, a variação conjunta será aproximadamente zero e dizemosque não há associação relevante entre as variáveis.




Definimos, assim, uma medida de associação que mede como as variáveis estãorelacionadas, positiva ou negativamente, por meio da medida de variação conjuntaou covariância :

1

)).((

1

11

−

−−

=

−=

∑∑==

n

Y Y X X

n

xy

S

n

i

ii

n

i XY

Embora tenhamos a informação de como as variáveis estão relacionadas, ou osentido de relação, o resultado dessa medida é pouco informativo. A sua ordem ougrandeza depende da unidade utilizada na mensuração das variáveis. Se asvariáveis tivessem sido medidas em Euros, por exemplo, o valor da covariância iriavariar, sem que, necessariamente, o grau da associação entre as variáveis sealterasse. Para evitarmos esse problema e fixarmos uma medida do grau de relação

entre as variáveis, trabalhamos com as variáveis na forma padronizada, definindouma medida adimensional, relativa, da associação entre elas – o coeficiente decorrelação linear de Pearson.

De acordo com o estabelecido acima, esse coeficiente é expresso na seguinteforma:

Y X

n

i

ii

XY S S n

Y Y X X

r )1(

)).((1

−

−−

=

∑=

Ou simplesmente

∑∑

∑=

22

ii

ii

XY

y x

y xr

Concluímos, então, que o coeficiente de correlação é nada mais do que acovariância entre as variáveis, quando essas são expressas na forma padronizada.Seu intervalo de variação é [-1; 1]. Tal como a covariância, quando positiva, acorrelação indica que as variáveis são diretamente relacionadas e, quando negativa,

que as variáveis são inversamente relacionadas. Usualmente, dizemos que acorrelação é forte quando seu valor absoluto for de pelo menos 80%.

Uma observação importante: o coeficiente de correlação mede o grau de associaçãolinear entre as variáveis, portanto, caso seu valor esteja próximo de zero, nãosignifica, necessariamente, ausência da relação. Simplesmente as variáveis não sãolinearmente associadas, podendo estar associadas de modo curvilíneo, porexemplo.

Outra observação é que as formulas acima fornecem a covariância e o coeficientede correlação para os dados amostrais. Caso os dados sejam oriundos de umapopulação deve-se utilizar N ao invés de (n-1) no denominador e também as médiasserão as da população. A notação do coeficiente de correlação da população é a




Considerando o exemplo da distribuição dos gastos em propaganda e o volume devendas, temos, inicialmente, as estatísticas descritivas:

Variaveis

(R$ 1.000) Média DesvioPropaganda 26 2,309

Vendas 78 7,333

A matriz das covariâncias1 apresenta, na diagonal principal, o valor das variânciasde cada variável e, fora da diagonal, as covariâncias entre as variâncias. Note que acovariância de uma variável com ela mesma nada mais é do que a variância davariável.

Propaganda (X) Vendas (Y)

Propaganda (X) 5,3 13,7Vendas (Y) 13,7 53,8

Covariância

A matriz das correlações apresenta a unidade na diagonal principal, porque acorrelação de uma variável com ela mesma é de 1,000. Fora da diagonal, apresentaa correlação entre as variáveis. Nos dois casos, covariância e correlação, asmatrizes são simétricas, obviamente.

Propaganda (X) Vendas (Y) Propaganda (X) 1

Vendas (Y) 0,807 1

Correlação

Concluímos, no nosso exemplo, que as idades e os pesos são fortemente ediretamente relacionados, pois a correlação é de aproximadamente 81%.

1 A matriz das covariâncias calcula um resultado aproximado desse quando calculada no Microsoft

Excel, dado o fato de este programa calcular a covariância como se fosse para uma população,

através da fórmula ∑=

−−=

n

i

Y X n

Y X Cov1

))((1

),( µ µ , obtendo o seguinte resultado:Propaganda (X) Vendas (Y)

Propaganda (X) 4 8



UFAM/ FES/ DEA Econometria Ficha III

Capitulo 3: O Modelo Linear a Duas Variáveis (Regressão Linear Simples)

Conceitualmente, um modelo pode ser caracterizado como uma representaçãoteórica da realidade que se deseja investigar. Os modelos podem ser classificados

de várias maneiras, dependendo da área do estudo, do número de variáveis e deoutros fatores. No presente caso, seria importante a distinção entre um modelodeterminístico e um probabilístico.

Um modelo é dito determinístico quando expressa uma relação exata entre asvariáveis que o compõem. Seus parâmetros são obtidos diretamente por umatransformação ou calculados em função de outros. Nos modelos determinísticos, osparâmetros não são estimados por meio de amostras. Sabemos, por exemplo, quenum triangulo-retângulo, o quadrado da hipotenusa é obtido pela soma dosquadrados dos catetos. Isto é sempre verdadeiro, independente das dimensões dtriângulo. Outro exemplo de um modelo determinístico é fornecido pela teoria das

medidas, que nos permite transformar uma medida expressa em graus Fahrenheitpara graus Celsius pela relação:

9

180

9

5−= F C

Geralmente, o grau de certeza que depositamos nas relações expressas pormodelos determinísticos é denominado certeza lógica.

Um modelo é dito probabilístico quando seus parâmetros são estimados com base

em informações amostrais e inferidos na população de interesse. À medida quecada amostra nos levará a estimativas diferentes, haverá sempre uma flutuaçãoentre o valor do parâmetro estimado na amostra e o verdadeiro, mas desconhecido,valor do parâmetro na população. A esta flutuação, chamamos erro amostral que,por ser não tão observável, impõe uma série de premissas. Logo, um modeloprobabilístico é constituído de duas parcelas: uma determinística, que expressa aforma analítica da relação entre as variáveis; e outra aleatória – probabilística –, queexpressa a diferença entre o valor observado da variável explicada na amostra e seuverdadeiro valor na população. Ao contrário dos modelos determinísticos, que sãosempre verdadeiros, os modelos probabilísticos podem ter a sua veracidade testadaantes de utilizados o grau de certeza que depositamos nas inferências feitas com

base nesses modelos é denominado certeza probabilística ou certeza estatística.

Como exemplo de um modelo probabilístico, suponha que uma fábrica produzapeças de reposição e aloca a mão de obra mensalmente no processo de produção,de acordo com a demanda deste produto. O total de pecas produzido em um mêspode ser estimado se tivermos uma série de observações (Xi, Yi), onde Xi representao quantitativo de mão de obra alocada no mês i (variável independente), e Yi o totalde pecas produzidas naquele mês i (variável dependente). O quadro abaixoapresenta uma amostra de 10 meses de observações. Ao plotarmos os pontos numdiagrama de dispersão, teremos uma idéia preliminar do tipo de relação funcionalexistente entre as variáveis, assim como fizemos quando avaliamos a associação

entre as variáveis no capítulo anterior.



UFAM/ FES/ DEA Econometria Ficha III 28

MêsPeças

(1.000)

Mao de Obra

(Homens-Hora)

1 51 20

2 68 30

3 72 304 89 40

5 108 50

6 125 60

7 130 60

8 135 60

9 150 70

10 170 80

De acordo com os dados acima, construímos um diagrama de dispersão conforme ográfico abaixo para melhor visualizar o padrão da relação entre as variáveis.

Segundo o gráfico, podemos concluir que existe, efetivamente, uma relação positivaentre a mão de obra alocada e a quantidade de pecas produzidas, como se era deesperar. Traçando uma linha vertical e horizontal pelas médias das variáveis,notamos que todos os pontos estão concentrados nos quadrantes I e III,confirmando essa conclusão.

Título do gráfico

-80

-60

-40

-20

0

20

40

60

80

-40 -30 -20 -10 0 10 20 30 40

Mão de Obra (homens-hora)

P e ç a s ( 1 . 0

0 0 )

y

x

Y

X

Se houver um padrão de comportamento entre as duas variáveis, será razoáveltentar ajustar o conjunto de pontos observados a uma função matemática f(x) quepossibilite fazer projeções sobre uma delas, Y, em função de valores observados daoutra, X. Nesse caso, estaremos querendo conhecer a quantidade de pecasproduzidas em função da quantidade de homens-hora alocada ao processo. Para

isso, assumindo um padrão de relação linear entre as variáveis, fazemos passaruma reta que aponte a tendência do comportamento expresso pelos pontos (X, Y)

b d E t f l ti d^

Y d iá l d d t




quantidade de peças produzidas, para diferentes valores da variável independente,mão de obra. Note que a reta não passa por todos os lados, senão por alguns, logopodemos expressar cada valor observado Y como a soma de duas parcelas: uma

fornecida pela reta,

^

Y , e outra relativa a um resíduo, definido pela distância verticalentre o ponto Y e a reta

^

Y para cada valor X , na amostra.

Então, definidas as variáveis que serão o ponto da nossa investigação, e antecipadaa forma linear da relação entre elas, postulamos, matematicamente, o modelo deregressão linear simples para a população como:

ε β β ++= X Y 10

,

Onde:

• Y é o vetor contendo as observações da variável explicada na população;• X é o vetor contendo as observações da variável explicativa na população;• β0 é o coeficiente linear do modelo, na população;• β1 é o coeficiente angular do modelo na população;• ε é o vetor n-dimensional relativo ao erro amostral de cada observação na

população.

O coeficiente linear, ou intercepto, β0 é entendido como o valor da variável explicadaquando a variável explicativa for igual a zero e é expressa na mesma unidade de

medida de Y. no caso presente, como Y está expresso em 1.000 peças, então β0 fornece a quantidade de milheiros de peças produzidas quando nenhuma mão deobra é alocada. O coeficiente angular, ou inclinação, β1 fornece a variação em Ypara uma unidade de variação em X, sendo expresso na unidade de Y sobre a de X.Assim, no nosso exemplo, a inclinação β1 fornece a quantidade de peças que serãoproduzidas para cada homem-hora a mais alocado ao processo (1.000 peças porhomem-hora).

O erro amostral é uma variável aleatória não observável e é estimado pelosresíduos, isto é, a diferença entre o valor observado Y e o valor estimado pela reta,^

Y , para cada valor observado de X na amostra. A inclusão desse termo no modelopode ser justificada por:

1. Erros na mensuração das variáveis;2. Não inclusão de variáveis relevantes para explicar o comportamento de Y;3. Problema na especificação da forma linear à relação funcional entre X e Y.

Consequentemente conclui-se que o modelo linear é composto por doiscomponentes:

• Determinístico: X 10 β β + ;

• Probabilístico: erro aleatório ε




O que irá ditar a forma da relação funcional envolvendo as variáveis X e Y é a daforma da distribuição dos pontos no diagrama de dispersão.

Como não trabalhamos com os valores da população, mas com os dados daamostra, precisamos estimar os coeficientes linear e angular da reta e, com basenos resultados, podemos avaliar a acuidade, ou grau de ajustamento, da retaestimada aos dados observados na amostra.

Estimadores de Mínimos Quadrados

Como o modelo apresentado refere-se aos dados da população, e como os dadoscom que trabalhamos são, invariavelmente, oriundos de uma amostra, a questãoagora se resume em estabelecer um critério para estimar os parâmetros da reta.Sabemos que uma reta fica perfeitamente caracterizada quando conhecemos seus

coeficientes (linear e angular). No caso, temos três parâmetros para estimarmos osdois coeficientes e a variância dos erros, 2

ε σ . Temos definido acima o conceito deerro, para os dados da população, e mencionamos que estimamos esses valorespelos resíduos, definidos como a diferença entre os dados observados, Y, na

amostra, e os estimados pela reta, X bbY 10

^

+= . Para estimar os parâmetros da

população, β0 e β1, precisamos definir um critério. O critério dos mínimos quadradospermite a estimação daqueles parâmetros por meio da minimização da soma dosvalores residuais de todas as observações da amostra, elevados ao quadrado. Istoequivale a dizer:

∑∑∑===

−−=−=

n

i

i

n

i

ii

n

i

i X bbY Y Y e1

2

10

1

2^

1

2)(min)(minmin .

Estimando os coeficientes da reta e a variância dos erros por esse método, obtemosa melhor reta que pode ser obtida para explicar a tendência na relação entre as duasvariáveis e a variância dos erros. Como resultado da minimização acima, chegamosàs equações normais da reta:

X bbY 10 +=

Onde

∑

∑=

1

2

11

x

xy

b , para )( X X x −= e )( Y Y y −=

Além disso,2

)(2

^

22

−

−

==

∑

n

Y Y

S i

ii

ε ε σ estima a variância dos erros pela variância

residual.




Esses valores são fornecidos pelos pacotes estatísticos e pelo Excel, de modo quenão há necessidade de guardarmos as fórmulas para cálculos à mão. No entanto,em uma rápida observação na primeira equação normal, notamos que um ponto

particular pertence à reta: o ponto constituído pelas médias das variáveis,),(

Y X .Como mencionado anteriormente, esse ponto não precisa ser, necessariamente,observado, embora no exemplo das peças produzidas e mão de obra alocada noponto (50, 110), observado por uma firma, pertença à reta. O gráfico permitetambém uma visualização deste fato. Utilizando a opção regressão , da ferramentaanálise de dados, o Excel fornece os valores do coeficiente intercepto (b0 = 10,1) e oda inclinação, referente à variável mão de obra (b1 = 2,0), com uma casa decimal. Ainterpretação desses coeficientes é que, caso nenhuma mão de obra seja alocadaao processo de fabricação das pecas, seriam produzidas 10,1 mil peças, o quecarece de sentido, e que para cada homem-hora adicional alocado no processo deprodução, seriam produzidas 2 mil peças. A falta de sentido do intercepto é

resultante do problema da escala com que as variáveis foram obtidas. Nenhumaobservação próxima de 0 mão de obra foi feita, sendo todos os valores referentes aesta variável observados a partir de 35 homens-hora, até mesmo porque nãohaveria sentido em registrarmos tal observação. Por esse motivo, nós iremosconcentrar nossos esforços no teste e interpretação apenas da inclinação.

Todos os pacotes estatísticos, incluindo o Excel, resumem os resultados de umaanálise de regressão linear em três blocos de resultados. No primeiro, é feita umaavaliação do grau de ajustamento do modelo como um todo; no segundo, érealizado um teste estatístico para avaliar se o modelo é realmente linear;finalmente, o terceiro bloco fornece os valores dos coeficientes e seus valores

padronizados, pela estatística t de Student, para testar até que ponto eles sãoefetivamente diferentes de zero. Como medida profilática, sugere-se uma análisedos resíduos, para avaliarmos a possível existência de alguns valores maisafastados do conjunto de pontos observados, ou outliers . Os resíduos sãoextremamente úteis também na análise de plausibilidade das premissas do modelo.Esse tópico, no entanto, não será coberto neste tópico.

Avaliação do Modelo

Obter a equação da reta não nos autoriza a utilizá-la para fazer as previsões einferências que desejamos fazer. Antes, algumas avaliações devem ser realizadaspara termos alguma idéia da eficácia e adequação do modelo. Caso nenhumavariável independente explique as variações de Y, provavelmente podemos trabalharapenas com a variável Y, de modo unidimensional, e resumir todas as observaçõesde Y pela sua média.

Dentre as técnicas utilizadas para avaliar a eficácia do modelo, o coeficiente decorrelação seria uma primeira possibilidade. Como ele mede o grau de associaçãolinear entre as variáveis, a correlação poderia indicar a adequação da reta aosdados. Quanto maior o valor de r, mais confiança nós teremos no modelo. Outramedida de adequação é o coeficiente de determinação do modelo, expresso pelo

percentual da variação total de Y que é explicada pelo modelo. Para melhorentendimento desse conceito, considere o gráfico abaixo:




De acordo com o gráfico acima, para um particular valor de X, X i, podemos associartrês possíveis pontos envolvendo valores de Y: o par de valores observados (X, Y ); o

par com o valor estimado, ou previsto de Y, sobre a reta de regressão (X ,^

Y ); e,finalmente o par com a média de Y, (X ,Y ). Da mesma forma, definimos trêsdistâncias envolvendo os valores de Y: a distância total )( Y Y − ; a não explicada pela

reta, obtida pelo resíduo )(^

Y Y − ; e a explicada pela reta )(^

Y Y − . Pode-se provar quea distância total é igual à soma entre a não explicada e a explicada, conforme ográfico.

Definimos como medida de variação a soma das distâncias ao quadrado. Podemosprovar que a variação total pode ser desmembrada pela variação não explicada e aexplicada, ou seja:

∑∑∑ −+−=− 2^

2^

2)()()( Y Y Y Y Y Y

A medida de variação total, à esquerda do sinal de igualdade, não depende dosvalores de X, logo, independentemente da variável explicativa no modelo, a variaçãototal não se altera. As parcelas à direita do sinal de igualdade, no entanto,

dependem dos valores de X, que resultarão em

^

Y . Portanto, como a variação total éfixa, o modelo será tanto melhor quanto maior for a variação explicada, o que resulta

X

Y

Y

X i

Reta de

Regressão

)(Pr^

iY evisto

)( iY Observado

Explicada

Não Explicada

Total




em uma menor variação não explicada. Dividindo-se ambos os membros pelavariação total, ficamos com:

∑∑

∑∑

−−+

−−=

2

2^

2

2^

)(

)(

)(

)(1Y Y

Y Y

Y Y

Y Y

A primeira parcela da soma à direita do sinal de igualdade expressa o percentual davariação total não explicada pelo modelo, enquanto a segunda parcela é apercentagem da variação total que é explicada pelo modelo. A esta última, damos onome de coeficiente de determinação, cuja notação é r2. Quanto maior for essecoeficiente, melhor será o modelo, pois maior a capacidade da variávelindependente em explicar a variação da variável dependente. Sendo o quadrado docoeficiente de correlação, o coeficiente de determinação varia entre 0 e 1.

Finalmente, uma medida absoluta de avaliação do modelo é a raiz quadrada da

variância residual, conhecida como erro padrão de estimativa do modelo, 2

ε ε S S = .

Quanto menor for o valor desta medida, melhor será o modelo. Por ser uma medidaabsoluta, essa medida deve servir como um parâmetro de escolha entre duaspossíveis variáveis independentes, candidatas a explicar Y pelo modelo linear – avariável X que levar ao menor valor de ε S deverá ser a escolhida para explicar Y.



UFAM/ FES/ DEA Econometria Ficha IV

Capítulo 4: Testes do Modelo: ANOVA e t de Student

Como visto no capítulo anterior, a variação total da variável dependente é invariávelà presença da variável dependente. Vimos ainda que esta variação pode ser

desmembrada entre as variações explicada e não explicada pelo modelo. Portanto,faz sentido testarmos até que ponto vale a pena a incorporação de X no modelo. Emprincípio, bastaria comparar a variação explicada com a não explicada e, se aprimeira fosse maior do que a segunda, maior a evidência da adequação daincorporação da variável independente, X, no modelo. Esta é a idéia que está portrás da análise de variância: achar a razão entre a variação explicada e a nãoexplicada para ver se ela é grande. Intuitivamente, quanto maior essa razão, melhor.

Considere a Tabela de ANOVA abaixo. Ela foi extraída do exemplo das peçasproduzidas em relação à mão de obra alocada.

ANOVAFontes de Variação gl SQ MQ F F de significação

Regressão 1 13520,12 13520,12 1703,80 1,30684E-10

Resíduo 8 63,48 7,94

Total 9 13583,60

Na primeira coluna, definimos as três fontes de variação: a variação total; a nãoexplicada, ou devida aos resíduos; e a devida ao modelo, ou explicada. Na segundacoluna, encontramos os graus de liberdade associados a cada fonte de variação. Aidéia é que, cada vez que um parâmetro é estimado, a fonte de variação perde 1grau de liberdade, dentre os n (observações) que constituem o número de parcela

das variações. Assim, para a variação total, como precisamos estimar a média Y , avariação total fica com (n – 1) graus de liberdade. Para os resíduos, como são

estimados dois parâmetros para se obter^

Y , isto é, de a e b, perde-se dois graus deliberdade e fica-se com (n – 2). Os graus de liberdade da regressão podem serobtidos por diferença.

As somas dos quadrados na terceira coluna fornecem os valores da decomposiçãodas variações feitas acima. Não seria justo comparar a soma dos quadrados daregressão com a soma dos quadrados dos resíduos, pois elas tem graus deliberdade diferentes, portanto, antes de acharmos a razão entre as duas fontes de

variação, devemos achar as médias dos quadrados , de acordo com a coluna 4,dividindo a soma dos quadrados pelos respectivos graus de liberdade. Se a razãoentre as médias dos quadrados calculada, e denominada como F, for muito grande,maior será a evidencia de que o modelo é bom, pois maior será a participação daregressão sobre os resíduos, em média. A medida de quão grande é fornecida pelaúltima coluna, F, de significação. Quanto maior for o valor da razão F, menor será ovalor F de significação. O primeiro está numa escala de valores reais não negativos,enquanto o segundo representa uma medida de probabilidade. Assim, quanto menorfor o F de significação, abaixo de 5% por exemplo, maior a nossa crença no modelo.No caso do exemplo acima, o valor do F de significação é bem menor do que 5%,logo podemos dizer que o modelo linear deve ser aceito, isto é, a variável X explicaa variável Y de modo significativo.




35

Em geral, o que se faz com uma tabela de ANOVA é um teste de hipóteses:

contraY H ,:00

ε β +=

.: 101 ε β β ++=

X Y H

A hipótese nula H0 é a de que o modelo, no caso expresso pela variável X, nãoexplica as variações de Y. A alternativa, ao contrário, postula a validade do modelocom a variável independente X explicando Y. Por exemplo: se o valor de significaçãode F for menor do que 0,05, devemos rejeitar a hipótese nula, concluindo que omodelo explica as variações de Y. Quando apenas uma variável explicativa estápresente no modelo, testar modelo será, por extensão, testar a significância davariável X no modelo.

Além do teste, a tabela de ANOVA fornece algumas informações importantes. Se

dividirmos a soma dos quadrados da regressão pela soma dos quadrados total,teremos o coeficiente de determinação, r²; a média dos quadrados dos resíduosnada mais é dos quadrados dos resíduos nada mais é dos que a medida devariância residual S². No nosso exemplo, o coeficiente de determinação do modelo éigual a 13.520,12/13.583,60 = 0,995, o que significa que 99,5% da variação total daquantidade de peças produzidas pode ser explicada pela quantidade de homens-hora alocados ao processo de produção. A variância residual de 7,93 peças2 sódeve ser analisada para comparar com outra possível variável que possa competircom a mão de obra para explicar a variação das quantidades de peças produzidas.

De um modo geral, podemos especificar uma tabela de ANOVA da seguinte forma:

Fontes de Variação

Graus de Liberdade

Soma dos Quadrados Quadrado

Médio F c Calculado

F Significação

Regressão 1 SQReg SQReg /1

Resíduos (n - 2) SQRes SQRes /(n - 2)

Total (n - 1) SQTot = SQReg + SQRes SQTot /(n - 1)

SQReg /[SQRes /(n - 2)] P(F > Fc)

Onde

• Soma dos quadrados total: SQTot – variação das observações em torno damédia:∑ − )²( Y Y i

• Soma dos quadrados da regressão (modelo): SQReg – variação dos valores

estimados em torno da média:∑ − )²(^

Y Y i

• Soma dos quadrados dos resíduos (erros) SQRes – variação das observações

em torno dos valores estimados:∑ − )²(^

ii Y Y

.Finalmente, os pacotes estatísticos e o Excel apresentam estatísticas relativas às

estimações dos coeficientes: seus valores, os desvios das suas distribuições deamostragem; os valores da estatística t; e os valores de significação para o teste da




36

significância de seus valores. Para o caso do nosso exemplo, o quadro gerado peloExcel foi:

Coeficientes Erro padrão Stat t valor-P

Interseção - b0 10,1 2,57 3,921 0,00441

Mao de Obra (Homens-Hora) - b1 2,0 0,048 41,277 1,31E-10

A primeira coluna especifica o coeficiente, enquanto a segunda fornece os valoresestimados pelo método de mínimos quadrados. A terceira coluna apresenta o valordo desvio padrão dos coeficientes (caso várias amostras tivessem sido selecionadase as estimativas dos coeficientes anotadas, essa medida fornece o nível de variaçãodas estimativas dos coeficientes). Dividindo o valor do coeficiente pelo erro padrão,obtemos o valor da estatística t, como consta a quarta coluna. A última colunaapresenta o valor significância do teste de cada coeficiente e é análogo ao valor de

F de significação do teste da ANOVA: quanto menor for o seu valor em relação aonível de significância do teste, 5% por exemplo, maior a evidência na rejeição de H0.O teste em questão é definido como:

0:0 = β H (X não explica Y)

0:1 ≠ β H (X explica Y)

Geralmente, estaremos interessados em testar apenas o coeficiente angular domodelo. Caso não se consiga rejeitar H0, concluiremos que a variável X não é

significativa ao nível de significância com que se trabalha. No modelo de regressãolinear simples, este teste é mesmo do teste da ANOVA realizado acima. Noexemplo, note que o valor-p é igual ao F de significação da ANOVA, o que implicaque estamos aceitando o modelo, ou a variável independente, como significativa,com o mesmo grau de certeza.

A regra básica para o teste de hipóteses, tanto pela ANOVA como pelo teste t, écomparar o valor da significação do teste (F de significação ou valor-p) com o nívelde significância do teste, 5% geralmente. Caso F de significação (ou valor-p) sejamenor que 0,05, rejeitamos H0, caso contrário, não podemos rejeitá-la. No nossoexemplo, como os valores de significação são (bem) menores do que 5%, podemos

rejeitar H0 com bastante evidência em favor do modelo.

Testar hipóteses com base nos valores de significação é sempre mais convenientedo que com os valores da estatística, pois, ao contrário desta, aquela dispensa o usode tabelas de distribuição de probabilidades, como a normal ou a t, pois só dependedo nível de significância que é estabelecido por nós.



UFAM/ FES/ DEA Econometria Ficha V

Capítulo 5: Análise dos Resíduos e Previsão

Independentemente da aceitação da adequação do modelo, devemos sempreproceder a uma análise já conhecida: a possibilidade da existência de outlier na

distribuição. A inclusão de dados que não pertencem à distribuição é sempre umafonte de ruído ao processo de aceitação do modelo, na medida em que aumentademasiadamente e de modo espúrio a variância residual. Como resultado, a somados quadrados dos resíduos fica inflada, aumentando a probabilidade decometermos um erro ao rejeitarmos o modelo (não rejeitando H0) quando ele éverdadeiro. A utilização de um modelo que passa a prova dos testes de hipóteses,mas traz problemas não detectados é perigosa e pode levar a conclusões nefastasem aplicações, como por exemplo, nos processos de planejamento estratégico dasempresas, nos quais uma previsão de vendas baseada em um modelo pode colocarem risco a própria saúde financeira da empresa.

O elemento fundamental, tanto para uma investigação da existência de outlier , comopara uma análise de falta de plausibilidade nas premissas, é a análise dos resíduos.É por meio dos resíduos que descobrimos problemas em um processo de utilizaçãode um modelo de regressão

Avaliação da Existência de Outlier

Consideramos como outlier a observação que se afasta do padrão de tendência dosdemais pontos. Para efeito de ilustração, considere o gráfico abaixo:

4

6

8

10

12

14

2 4 6 8 10 12 14 16

X

Y

Note que, se não fosse a ocorrência da observação afastada, o padrão dos pontosindicaria uma relação quase perfeita entre X e Y. com aquela observação, ainclinação aumentou fortemente, influenciado por um ponto acima dos demais. Adistância vertical entre os pontos e a reta, sem a observação, seria praticamentenula, enquanto com a observação passa a ser elevada considerando o padrãoalterado.

Existem varias formas de se identificar um possível outlier , inclusive testesestatísticos, porém, para efeito deste módulo, será indicada a utilização dos resíduos




38

padronizados. Resíduos padronizados acima de 2,5, em valor absoluto, já podemser considerados, em princípio, candidatos a outlier .

Devemos procurar as possíveis causas da ocorrência de valores espúrios nadistribuição. Muitas vezes pode ser simplesmente em erro de digitação, ou até aexistência de algum valor efetivamente observado e que seja o próprio motivo dainvestigação. A possibilidade de expurgo de uma observação outlier deve serconsiderada, porém, a repercussão desse expurgo também deve ser avaliada.

A distribuição dos resíduos padronizados2 das regressões, com e sem o outlier , dográfico acima é mostrado abaixo3:

Y X ResiduoResiduo

padrao

Resíduo

sem outlier

Resíduo padrão

sem outlier

7,46 10 7,9995 -0,5395 -0,4600 0,0004 0,13776,77 8 7,0001 -0,2301 -0,1962 0,0012 0,4130

12,74 13 9,4986 3,2414 2,76377,11 9 7,4998 -0,3898 -0,3323 -0,0042 -1,4455

7,81 11 8,4992 -0,6892 -0,5876 0,005 1,7208

8,84 14 9,9983 -1,1583 -0,9876 -0,0012 -0,4130

6,08 6 6,0007 0,0793 0,0676 0,002 0,6883

5,39 4 5,0013 0,3887 0,3314 0,0028 0,9636

8,15 12 8,9989 -0,8489 -0,7238 -0,0004 -0,1377

6,42 7 6,5004 -0,0804 -0,0685 -0,0034 -1,1701

5,73 5 5,5010 0,2290 0,1952 -0,0026 -0,8948

^

Y

Note que o 3º caso tem resíduo padronizado igual a 2,7637 quando a observaçãoestá presente e, sem ela, a distribuição dos resíduos padronizados não apresentagrandes distorções, tendo maior valor o 5º caso com um resíduo padrão de 1,72.

Previsão

Somente após a realização de todas as análises e testes pertinentes, estaremos emcondições de utilizar o modelo de regressão, caso este se mostre adequado. Fazerprevisões nada mais é do que estimar um valor da variável dependente para umparticular valor da variável independente. Como todo processo de estimação, esta

pode ser feita de modo pontual com intervalos. Para efeito deste curso apenas asestimações pontuais serão feitas.

2 O resíduo padrão é encontrado dividindo-se o resíduo pelo seu desvio padrão, ou seja:

2

)(

)()(Re

2^

^^

−

−

−=

−=

∑

n

Y Y

Y Y

S

Y Y Padrãosíduo

i

ii

ii

ε

3 Vale lembrar que os dados de resíduo padrão, quando calculados no Excel, podem sofrer pequenasdistorções em relação aos dados calculados manualmente, devido aos problemas dearredondamento e principalmente pelo fato da variância dos resíduos (erros) ser calculada com n-1




39

Pode-se provar que o processo de estimação, de acordo com o modelo deregressão linear, fornece estimativas não tendenciosas dos verdadeiros valorespopulacionais quando o modelo é correto. Assim, dado um valor de X0 de X,obtemos uma estimativa não tendenciosa de Y0 por meio de:

010

^

0 X bbY +=

Note que a equação da reta estimada não possui o termo aleatório, nem suaestimativa (resíduos). A estimativa do valor de Y é fornecida diretamente pelomodelo, substituindo X pelo valor dele assumido, X0. No exemplo das peças e damão de obra, podemos estimar, ou fazer uma previsão de qual seria a produçãocaso o processo trabalhasse com X0 = 60 homens-hora por mês. O valor estimadoseria então:

130)60.(21,10^

0=+=Y peças

Nada mais simples, mas para se chegar a esse valor foi necessário todo o trabalhode investigação da adequação, ou não, do modelo.



Considerações Finais

Muitas vezes, apenas uma variável não é suficiente para explicar um percentual davariação total que permita previsões confiáveis. Se o objetivo da modelagem não se

restringir à investigação de relação entre as variáveis, mas permitir previsõesconfiáveis, devemos incorporar mais variáveis ao modelo. Não de modoindiscriminado, mas considerando que desejamos explicar grande parte da variaçãode Y por meio do menor número possível de variáveis independentes. Assim, acomplexidade do modelo ficará reduzida, permitindo inferências mais precisas esimples de interpretar.

Este texto deve ser entendido como uma introdução ao modelo de regressão linearsimples. O aluno interessado em expandir os seus conhecimentos poderá recorrer àbibliografia constante no programa da disciplina.



Bibliografia

BALASSIANO, Moises. Aplicando Métodos Quantitativos à Administração. 2.ed.

Rio de Janeiro: FGV - Curso FGV Executivo Jr., 2005. 104 p.

MICROSOFT OFFICE® EXCEL 2003. Ajuda do Microsoft Excel. 1985-2003Microsoft Corporation.

MINITAB® Release 14.20. 1972 - 2005 Minitab Inc.

HOFFMANN, Rodolfo. Estatística para Economistas. 3.ed. São Paulo: PioneiraThomson Learning, 2001. 1ª reimpressão da 3.ed. rev. e ampl. de 1998. 430 p.



ANEXOS

Com o propósito de ampliar ainda mais o leque de opções de material acerca dotema proposto, segue como anexos alguns textos complementares às técnicasestatísticas abordadas até então. O texto referente a análise de regressão utilizandoo Minitab 14 foi utilizada como material didático nas aulas de um minicurso com omesmo nome, durante a I Semana de Economia da UFAM. Já os textos sobrenúmeros-índice e matrizes de insumo-produto foram pertencem ao material didáticodo curso de Contabilidade Social do curso de Economia da UFAM, elaborada em

parceria entre o professor Francisco de Assis Mourão e Anderson Litaiff, na épocaseu monitor.





Fundamentos de Minitab: Análise de Regressão

INTRODUÇÃO

Um dos grandes trunfos do economista sempre foi o seu potencial de análise.Basicamente, quando se observa um determinado problema na sociedade, os

cientistas tentam, de alguma forma, sistematiza-lo, procurando de alguma formaencontrar uma possível explicação para tais fatos. Da convergência entre o lado dasistematização da realidade, e do perfil psico-social (juízos de valor) das partesenvolvidas no estudo, surge o que chamamos de análise econômica. É justamenteatravés da análise econômica que obtemos insumos para poder então aplicar assuas diretrizes de política econômica, onde todos os agentes envolvidos atuarão deforma aplicar a solução encontrada para o problema em questão. Para que issoaconteça, a obtenção de dados estatísticos que possam explicar a natureza do fatoé fundamental para que se tenha um bom modelo, devido ao fato de que, quantomais dados forem disponíveis, e quanto mais homogeneizados eles forem, nosentido de critérios de mensuração, melhor vai ser o modelo, pois melhor será a

capacidade de o modelo explicar a realidade. Por isso, o economista que temdomínio não somente sobre os dados estatísticos em si, mas que tem a capacidadede demonstrar um determinado grau de relação entre eles, tem grande vantagem,pois sua análise da realidade será muito mais rica.

Dado isso, o objetivo deste trabalho é mostrar como é feita análise de regressãolinear, utilizando o software Minitab 14.2 sendo que, especificamente, se procurarámostrar quais são os recursos oferecidos pelo programa na análise de regressão,assim como enfatizar a importância da regressão linear como instrumento de análiseeconômica.

A regressão linear é uma das mais importantes ferramentas de trabalho doeconomista, devido a sua capacidade de demonstrar não somente o relacionamentoentre as variáveis, mas também o grau de explicabilidade e influência que umadeterminada variável tem sobre as demais. As equações de oferta, demanda, custo,etc. não foram determinadas aleatoriamente: normalmente, pegam-se os dadosobtidos via uma pesquisa estatística, onde obtemos uma série histórica; com osdados em mãos, utiliza-se os métodos de regressão, para demonstrar o grau depoder explicativo tem uma variável sobre as demais. Por exemplo: Nos cursos demacroeconomia, é muito comum estudarmos o comportamento da função consumo,para entendermos o quanto que as variações da renda disponível podem influenciar

no consumo privado. Contudo, é apenas a renda disponível que pode influenciar asdecisões de consumo? Qual a intensidade desse grau de influência? Para respondera estas e muitas outras perguntas que utilizamos das técnicas de regressão.

Este trabalho estará dividido em duas partes: na primeira, será realizada umapequena revisão sobre regressão linear simples; na outra, utilizaremos o Minitab14.2 para calcular a regressão, interpretando os coeficientes obtidos.



Fundamentos de Minitab: Análise de Regressão3

REGRESSÃO LINEAR SIMPLES: CONCEITOS BÁSICOS

O principal objetivo da análise de regressão é avaliar o relacionamento entrevariáveis. Basicamente, procura mostrar a capacidade de uma variável ser explicada

pelas variações de outra. Esse grau de dependência é normalmente demonstradoatravés de uma relação linear, por uma equação da reta:

X Y β α +=

Onde α é o intercepto ou valor independente, e o β é o coeficiente angular. Paraestimarmos os valores de α e β, utilizamos as seguintes equações:

n

X X

n

Y X Y X

i

i

ii

ii

2

2

^

)(

)(

∑∑

∑∑∑

−

•

−= β e X Y β α −=

^

Onde

n

Y Y

ii∑

=

n

X X

ii∑

=

Quando formos calcular os dados considerando o desvio, ou seja, o grau devariação dos dados em torno da média, as equações são as seguintes:

X Y β α += , sendo X Y β α −=

∑∑

=2

x

y xii

β , para )()( Y Y ye X X x −=−=

Para determinar em que grau de precisão as duas variáveis se correlacionam,obtém-se um coeficiente de correlação dado por:

∑∑

∑=

22

ii

ii

y x

y xr

Quanto mais próximo de 1 for o r2, mais razão há para assumir que as duasvariáveis apresentam uma função linear. Elevando o valor de r ao quadrado,obtemos o coeficiente de determinação, que explica a capacidade das variações deX explicarem as variações em Y.

Aplicando as equações, encontramos a equação de regressão, com a relação entre

as variáveis do modelo explicadas sob a forma de uma função X Y β α += .




ANOVA

Como já dito, a variação total da variável dependente é invariável à presença davariável dependente. Vimos ainda que esta variação pode ser desmembrada entre

as variações explicada e não explicada pelo modelo. Portanto, faz sentido testarmosaté que ponto vale a pena a incorporação de X no modelo. Em princípio, bastariacomparar a variação explicada com a não explicada e, se a primeira fosse maior doque a segunda, maior a evidência da adequação da incorporação da variávelindependente, X, no modelo. Esta é a idéia que está por trás da análise de variância:achar a razão entre a variação explicada e a não explicada para ver se ela é grande.Intuitivamente, quanto maior essa razão, melhor.

Na primeira coluna, definimos as três fontes de variação: a variação total; a nãoexplicada, ou devida aos resíduos; e a devida ao modelo, ou explicada. Na segundacoluna, encontramos os graus de liberdade associados a cada fonte de variação. A

idéia é que, cada vez que um parâmetro é estimado, a fonte de variação perde 1grau de liberdade, dentre os n (observações) que constituem o número de parceladas variações. Assim, para a variação total, como precisamos estimar a média Y , avariação total fica com (n – 1) graus de liberdade. Para os resíduos, como são

estimados dois parâmetros para se obter^

Y , isto é, de α e β, perde-se dois graus deliberdade e fica-se com (n – 2). Os graus de liberdade da regressão podem serobtidos por diferença.

As somas dos quadrados na terceira coluna fornecem os valores da decomposiçãodas variações feitas acima. Não seria justo comparar a soma dos quadrados da

regressão com a soma dos quadrados dos resíduos, pois elas tem graus deliberdade diferentes, portanto, antes de acharmos a razão entre as duas fontes devariação, devemos achar as médias dos quadrados , de acordo com a coluna 4,dividindo a soma dos quadrados pelos respectivos graus de liberdade. Se a razãoentre as médias dos quadrados calculada, e denominada como F, for muito grande,maior será a evidencia de que o modelo é bom, pois maior será a participação daregressão sobre os resíduos, em média. A medida de quão grande é fornecida pelaúltima coluna, F, de significação. Quanto maior for o valor da razão F, menor será ovalor F de significação. O primeiro está numa escala de valores reais não negativos,enquanto o segundo representa uma medida de probabilidade. Assim, quanto menorfor o F de significação, abaixo de 5% por exemplo, maior a nossa crença no modelo.

Em geral, o que se faz com uma tabela de ANOVA é um teste de hipóteses:

contraY H ,:00 ε β +=

.:101

ε β β ++= X Y H

A hipótese nula H0 é a de que o modelo, no caso expresso pela variável X, nãoexplica as variações de Y. A alternativa, ao contrário, postula a validade do modelocom a variável independente X explicando Y. Por exemplo: se o valor de significaçãode F for menor do que 0,05, devemos rejeitar a hipótese nula, concluindo que o

modelo explica as variações de Y. Quando apenas uma variável explicativa estápresente no modelo, testar modelo será, por extensão, testar a significância da

iá l X d l




Além do teste, a tabela de ANOVA fornece algumas informações importantes. Sedividirmos a soma dos quadrados da regressão pela soma dos quadrados total,teremos o coeficiente de determinação, r²; a média dos quadrados dos resíduos

nada mais é dos quadrados dos resíduos nada mais é dos que a medida devariância residual S².

De um modo geral, podemos especificar uma tabela de ANOVA da seguinte forma:

Fontes de Variação

Graus de Liberdade

Soma dos Quadrados Quadrado

Médio F c Calculado

F Significação

Regressão 1 SQReg SQReg /1

Resíduos (n - 2) SQRes SQRes /(n - 2)

Total (n - 1) SQTot = SQReg + SQRes SQTot /(n - 1)

SQReg /[SQRes /(n - 2)] P(F > Fc)

Onde

Soma dos quadrados total: SQTot – variação das observações em torno damédia:∑ − )²( Y Y

i

Soma dos quadrados da regressão (modelo): SQReg – variação dos

valores estimados em torno da média:∑ − )²(^

Y Y i

Soma dos quadrados dos resíduos (erros) SQRes – variação das

observações em torno dos valores estimados:∑ − )²

(

^

ii Y Y




ANÁLISE DE REGRESSÃO UTILIZANDO O MINITAB

O Minitab é um programa estatístico que calcula não apenas a regressão, comotambém muitas outras ferramentas utilizadas na estatística, sendo um ótimo pacote

para auxílio na construção de insumos para a análise econômica, principalmentepara pesquisas e estudos de mercado.

Aqui temos a tela inicial do Minitab. Ela é composta por 3 janelas: uma destinada aexibição dos cálculos realizados (session); outra para se colocar os dados em quese vai trabalhar (worksheet) e por fim o gerenciador dos projetos em que você estátrabalhando (Project Manager). O Project Manager é uma das novidades que ousuário encontra no Minitab 14, pois ele não se encontra disponível nas versõesanteriores.

Para exemplificar, vamos montar uma equação da reta baseada no seguinteexemplo: a equação que expressa o consumo é uma das mais conhecidas por partedos alunos do curso de economia. Basicamente, demonstramos como a decisão deconsumo é influenciada por duas situações bem distintas: a influenciada e a nãoinfluenciada pelo nível de renda disponível. A parte não influenciada pelo consumo

chamamos de consumo autônomo, ou incompressível, e corresponde a situaçõesque não são influenciadas pelo nível de renda do agente econômico, comoalimentação, vestuário, algo que ele adquire acima de seu poder orçamentário, etc.A parte que é influenciada pelas variações do nível de renda disponível, chamadatambém de propensão marginal a consumir, vai explicitar a intensidade da variaçãodo consumo, dada as possíveis variações no nível de renda disponível.




Para montarmos a nossa equação de consumo, vamos nos basear nos dadosdisponibilizados pelas Contas Nacionais, do IBGE.

Tabela 2072 - Contas econômicas trimestrais

Brasil

Variável

Trimestre

Renda disponível bruta Despesas de consumo final

janeiro-março 1991(Milhões de Cruzeiros) 18.619 -15.377

abril-junho 1991 (Milhõesde Cruzeiros) 28.908 -22.049

julho-setembro 1991(Milhões de Cruzeiros) 41.534 -34.578

outubro-dezembro 1991(Milhões de Cruzeiros) 73.519 -59.743

janeiro-março 1992(Milhões de Cruzeiros) 132.337 -104.483

abril-junho 1992 (Milhõesde Cruzeiros) 248.690 -192.738

julho-setembro 1992(Milhões de Cruzeiros) 463.303 -375.079

outubro-dezembro 1992(Milhões de Cruzeiros) 890.819 -712.819 janeiro-março 1993(Milhões de CruzeirosReais) 1.771 -1.402

abril-junho 1993 (Milhõesde Cruzeiros Reais) 3.959 -3.105

julho-setembro 1993(Milhões de Cruzeiros

Reais) 9.665 -7.560outubro-dezembro 1993(Milhões de CruzeirosReais) 22.533 -18.073

janeiro-março 1994(Milhões de Reais) 18.565 -17.688

abril-junho 1994 (Milhõesde Reais) 65.421 -54.858

julho-setembro 1994(Milhões de Reais) 127.655 -92.584

outubro-dezembro 1994(Milhões de Reais) 133.130 -105.514


abril-junho 1995 (Milhões

de Reais) 152.518 -121.408 julho-setembro 1995(Milhões de Reais) 165.320 -133.994








julho-setembro 1997





















janeiro-março 2002

(Milhões de Reais) 293.375 -238.700







outubro-dezembro 2003(Milhões de Reais)

400.784 -328.411 janeiro-março 2004(Milhões de Reais) 384.857 -293.117











Nota:

1 - Até 1994 , a poupança bruta inclui as transferências de capital.

2 - Até 1999, a conta de capital equivale às transferências de capital enviadas e recebidas doresto do mundo. A partir de 2000, a mesma inclui transferências de capital e bens não financeirosnão produzidos-cessão de marcas e patentes.

3 - Até 1999, os dados anuais são equivalentes aos dados das publicações do Sistema de ContasNacionais. Após 2000, os dados do Balanço de pagamentos estão ajustados com as séries maisrecentes divulgados pelo Banco Central.

Fonte: IBGE - Contas Nacionais (Trimestral)

Antes de realizar os cálculos, vamos multiplicar a coluna despesas de consumo finalpor -1, para caracterizarmos apenas o consumo em si. Pode-se fazer issorapidamente utilizando o Excel. Depois disso, copie os dados do Excel para aplanilha de trabalho do Minitab (Worksheet).

Realizar cálculos de regressão linear com o Minitab é bastante simples. Vá em Stat,Regression, Regression.




Tendo selecionado a opção, aparecerá a seguinte tela, pedindo para você colocar osdados:

Onde Response é o local onde deve-se colocar a variável Explicada, ou seja, Y; ePredictors, onde colocamos as variáveis explicativas, o que vai caracterizar se aregressão linear é simples (uma variável explicativa) ou múltipla (mais de umavariável explicativa)

Neste caso, como estamos querendo mostrar como o consumo é influenciado pelasvariações da renda disponível, escolheremos Despesas de consumo final como Y

(Response) e a renda disponível bruta como X (Predictor). Além disso, o Minitabpossui outras funções que podem melhorar o potencial de análise do modeloestudado. Estes recursos estão classificados nesta tela, da seguinte forma:

GRAPHS

Mostra os gráficos que você pode colocar em sua análise de regressão.




Residuals for Plots: Pergunta quais os resíduos que você vai querer no gráfico, sesão os normais (Regular), padronizados (Standarized), que são os resíduos normaisdivididos pelo desvio padrão dos resíduos, com o objetivo padronizar as variáveis, epor fim, os resíduos deletados pelo modelo. Nesse exemplo, vamos escolher os

resíduos normais.Na plotagem dos resíduos, escolhemos os gráficos que vão aparecer na sua análise.Podemos escolher os seguintes:

Histogram of residuals: Mostra a freqüência dos resíduos.Normal plot of residuals: Plota os resíduos.Residuals versus fits: Mostra os resíduos e os dados ajustados pela

equação (^

Y )Residuals versus order: Mostra os resíduos e os dados observados (Y )

Uma novidade do Minitab 14 é que agora podemos pedir para colocar os quatrograficos em um só (four in one). Você também pode comparar os resíduos comqualquer outra variável estudada no seu modelo (Residuals versus the variables)

RESULTS

Mostra o que você deseja que apareça no cálculo da regressão. As opções são asseguintes:

Display nothig: não mostra nadaRegression equation, table of coefficients, s, R-squared, and basicanalysis of variance: Mostra a equação da regressão, a tabela doscoeficientes obtidos, o desvio dos erros, o coeficiente de determinação (r²)e o quadro da análise de variância simplificada (ANOVA)In addition, sequential sums of squares and the unusual observations inthe table of fits and residuals: mostra todo o item anterior mais as somasdos quadrados mais as observações incomuns (outliers) nas tabelas dosdados ajustados e na tabela dos resíduos.

In addition, full table of fits and residuals: mostra todos os itens anterioresmais a tabela completa dos dados ajustados e dos resíduos.




OPTIONS

Aqui temos as seguintes opções: em weights podemos escolher uma variável – pesono modelo, caso se queira fazer uma regressão ponderada. Em Fit intercept, decide-

se se quer colocar ou não um termo constante (coeficiente a). Caso não se escolhaessa opção, a reta de regressão passará pela origem.Em Display, as opções são as seguintes:

Variance Inflation Factors (VIF): é utilizado para detectar a presença demulticolearidade (associação linear forte) entre as variáveis peditoras. Se VIF for = 1,indica que não há associação linear e se for maior do que 1, existe associaçãolinear. Se o valor de VIF for maior o que 10, há multicolinearidade grave.Durbin-Watson statistic: calcula a estatística D de Durbin-Watson, que vai detectarautocorrelação nos resíduos; o valor obtido deve ser comparado à tabela do teste.Se D > limite superior, não há correlação; se D < limite inferior, existe correlação

positiva e se D estiver entre os limites, o teste é inconclusivo.PRESS and predicted R-square: opção utilizada para calcular a estatística PRESS eo r² ajustado.

Outra caixa desse submenu é Prediction intervals for new observations. Nessa caixapodemos entrar com um valor ou com uma coluna de valores de variável preditora,com base na qual queremos prever a variável resposta.

As outras opções deste submenu nos permitem escolher o intervalo de confiança(confidence level) e ainda inserir as seguintes estatísticas na planilha: Fits (valoresajustados pela reta de regressão), SE of Fits (erros padrão dos ajustes) ConfidenceLimit (limites de confiança) e Prediction Limits (intervalos de previsão)




STORAGE

Mostra os dados adicionais que você quer que sejam mostrados em sua planilha(worksheet). Você pode colocar em sua planilha os valores dos resíduos, dos

resíduos padrão, etc (Diagnostic Measures). Além destes, pode-se colocar tambémos valores que mostram as características da sua equação de regressão(Characteristics of Estimated Equation), como os coeficientes obtidos, os dadosajustados, a matriz inversa, caso se esteja fazendo uma regressão múltipla, etc.

Para este exemplo, vamos pedir para amostrar os resíduos, os resíduos padrão, oscoeficientes e os dados ajustados pela equação.

Tendo escolhido todos os recursos que se utilizará no modelo em questão econfirmando na tela principal da regressão, vamos obter os resultados da seguinteforma:




Regression Analysis: Despesas de cons versus Renda disponível

The regression equation is

Despesas de consumo final = 4432 + 0,784 Renda disponível bruta

Predictor Coef SE Coef T P

Constant 4432 2214 2,00 0,050

Renda disponível bruta 0,783912 0,007488 104,69 0,000

S = 9126,25 R-Sq = 99,5% R-Sq(adj) = 99,5%

Analysis of Variance

Source DF SS MS F P

Regression 1 9,12872E+11 9,12872E+11 10960,37 0,000

Residual Error 58 4830730531 83288457

Total 59 9,17703E+11

Unusual Observations

Despesas

Renda de

disponível consumo

Obs bruta final Fit SE Fit Residual St Resid

8 890819 712819 702755 4938 10064 1,31 X

44 307261 264342 245297 1253 19045 2,11R

54 421047 312098 334496 1738 -22398 -2,50R

55 447275 331147 355056 1887 -23909 -2,68R

58 464615 349828 368649 1990 -18821 -2,11R

59 485735 365059 385205 2120 -20146 -2,27R

R denotes an observation with a large standardized residual.

X denotes an observation whose X value gives it large influence.

Durbin-Watson statistic = 1,35988

Normplot of Residuals for Despesas de consumo final

Residuals vs Fits for Despesas de consumo final

Residual Histogram for Despesas de consumo final

Residuals vs Order for Despesas de consumo final

A equação de regressão encontrada foi:

Despesas de consumo final = 4432 + 0,784 Renda disponível bruta

O termo 4432 corresponde ao consumo autônomo, que acontece independente donível de renda disponível. Significa que, caso o nível de renda disponível for zero, o

consumo vai ser 4432. já 0,784 corresponde ao coeficiente angular da equação,considerada também como a propensão marginal a consumir: para cada aumento darenda disponível em 1 unidade o consumo vai crescer em 0 784




Analisando as estatísticas de regressão, chegamos aos seguintes resultados:

S = 9126,25 R-Sq = 99,5% R-Sq(adj) = 99,5%

O coeficiente de determinação r² (R-Sq) mostra que as variações de X podemexplicar as variações de Y em 99,5%, caracterizando um bom modelo; o coeficientede determinação dos dados ajustados (R-Sq(Adj)) mostra que as variações de Xpodem explicar as variações dos dados ajustados pela equação de regressão em99,5%, o que comprova que o modelo é bom. Já S corresponde ao desvio dos errose está em 9126,25, fato que indica que a probabilidade de erro é bastante alta.

Para comprovar mesmo se o modelo é bom ou não, deve-se fazer a análise dosresíduos. Esse é o principal objetivo dos gráficos de plotagem dos resíduos.

Observemos os gráficos:

Histogram of the Residuals

Residual

F r e q u e n c y

20000100000-10000-20000

16

14

12

10

8

6

4

2

0

Histogram of the Residuals(response is Despesas de consumo final)

O histograma vai amostrar as freqüências dos resíduos.




Normal Probability Plot of the Residuals

Residual

P e r c e n t

3000020000100000-10000-20000-30000

99,9

99

95

90

80

7060504030

20

10

5

1

0,1

Normal Probability Plot of the Residuals

(response is Despesas de consumo final)

Este gráfico mostra como os resíduos vão estar organizados, de acordo com cadapercentil da amostra.

Residuals Versus the Order of the Data

Observation Order

R e s i d u a l

605550454035302520151051

20000

10000

0

-10000

-20000

-30000

Residuals Versus the Order of the Data(response is Despesas de consumo final)

Mostra o comportamento dos resíduos em relação aos valores observados.




Residuals Versus the Fitted Values

Fitted Value

R e s i d u a l

7000006000005000004000003000002000001000000

20000

10000

0

-10000

-20000

-30000

Residuals Versus the Fitted Values

(response is Despesas de consumo final)

Mostra como estão se comportando os resíduos em relação aos dados ajustadospela equação de regressão. Para que o modelo seja realmente bom, os dados

observados aqui devem estar os mais dispersos possível, de forma homogênea,sem se concentrarem em torno na linha do ponto zero do gráfico. Nesse caso,observa-se que os dados estão muito concentrados no canto esquerdo do gráfico,fazendo uma tendência em forma de < (heterocedasticidade). Isso indica que estemodelo não é bom, mesmo tendo um coeficiente de determinação de 99,5%, pois aanálise dos resíduos mostra que os dados utilizados podem ser tendenciosos ou nãosuficientes para explicar as variações no nível de consumo.

Portanto, chega-se a seguinte conclusão: apesar de haver uma correlação muitoforte entre a renda disponível e o consumo, ela não é suficiente para explicartotalmente as variações do consumo. Isso significa que existem outras variáveis que

podem explicar o aumento do consumo, como por exemplo o lançamento de umnovo produto, variações nos níveis de preços, fatores sazonais, etc.




FITTED LINE PLOT

Outra maneira de fazer os cálculos de regressão linear é utilizando o comando fittedline plot (Stat, Regression, Fitted Line Plot).

Este comando calcula a regressão de forma mais rápida e dinâmica, sendo muito útilquando queremos elaborar modelos com regressão a nível potencial ou logarítmico.Quando ativar a opção, a seguinte tela vai aparecer:

Onde se determinará não apenas as variáveis explicativas e explicadas do modelo,mas também o tipo de regressão a ser obtido: linear, quadrático ou cúbico. Assimcomo no método anterior, também temos opções para tornar mais completa aanálise do modelo.




A única diferença do comando Fitted Line Plot, em realacao ao método anterior, vaiestar no comando OPTIONS:

Em transformations podemos pedir para mostrarem o log de Y e de X. Em DisplayOptions, pode-se mostrar o intervalo de confiança e o intervalo de predição.

Ainda utilizando o mesmo exemplo, a única novidade é o gráfico que mostra osintervalos e valores da estatística de regressão, assim como a equação da reta e osintervalos de confiança e de previsão:

Renda disponível bruta

D e s p e s a s d e c o n s u m o f i n a l

9 0 0 0

0 0

8 0 0 0

0 0

7 0 0 0

0 0

6 0 0 0

0 0

5 0 0 0

0 0

4 0 0 0

0 0

3 0 0 0

0 0

2 0 0 0

0 0

1 0 0 0 0 0 0

800000

700000

600000

500000

400000

300000

200000

100000

0

S 9126,25

R-Sq 99,5%

R-Sq(adj) 99,5%

Regression

95% CI

95% PI

Fitted Line PlotDespesas de consumo final = 4432 + 0,7839 Renda disponível bruta

Onde PI é o intervalo de previsão e CI é o intervalo de confiança. Para eles

aparecerem no gráfico, deve-se ativar essas opções no submenu OPTIONS.




BIBLIOGRAFIA

BUARQUE, Cristovam. Avaliação Econômica de Projetos: uma apresentação

didática. 8º reimp. Com a colaboração de Hugo Javier Ochoa; Traduzido do

espanhol por Maria do Carmo Duarte de Oliveira. Rio de Janeiro: Elvesier, 1984.

272 p. 20ª reimpressão.

BALASSIANO, Moises. Aplicando Métodos Quantitativos à Administração.

2.ed. Rio de Janeiro: FGV - Curso FGV Executivo Jr., 2005. 104 p.

HOFFMANN, Rodolfo. Estatística para Economistas. 3.ed. São Paulo: PioneiraThomson Learning, 2001. 1ª reimpressão da 3.ed. rev. e ampl. de 1998. 430 p.



Contabilidade Social: Apostila 6

Prof. Assis Mourão

METODOLOGIA DE PROGRAMAÇÃO MACROECONÔMICA ATRAVÉS DA MATRIZ INSUMO-PRODUTO

1. OBSERVAÇÕES INICIAIS

O Sistema de Contas Nacionais ocupa-se dos resultados finais da atividade econômica, conforme os cálculos

do PIB-RIB-DIB.

A articulação contábil desse conjunto de fluxos e a própria concepção teórica dos sistemas de Contas

Nacionais, foram diretamente influenciadas pela necessidade de mensuração dos agregados macroeconômicos dos

modelos keynesianos, destacando, assim, cada uma das principais categorias integrantes da OFERTA e DEMANDAAGREGADAS, além de outras transações significativamente relacionadas com o nível da atividade e do emprego na

economia, atendendo, portanto, às necessidades da análise e das políticas econômicas voltadas para o objetivo do

equilíbrio global da economia.

Pode-se, agora, trazer um outro método quantitativo desses mesmos agregados, isto é a MATRIZ

INSUMO/PRODUTO, que nesse caso, envolve também, as relações existentes nas diversas CADEIAS PRODUTIVAS

(Relações Intra e Intersetoriais) da economia a exemplo da Demanda Intermediária – BI. Em outras palavras, as

relações que integram a CADEIA PRODUTIVA, definem as responsabilidades de cada setor, desde a extração das

matérias primas, passando pelo processamento intermediário, transformação em produto acabado e devida

comercialização no mercado final, caracterizando, assim, uma “radiografia” do VBP - Valor Bruto da Produção.

Numa interpretação complementar, a metodologia de insumo-produto objetiva, por conseguinte, registrar as

transações que se efetuam no decorrer do PPG - Processo Produtivo Geral. Nas tabelas de INSUMO/PRODUTO além

da mensuração do Produto e da Renda, o que se procura, em essência, é quantificar como se geram o Produto e a

Renda, em circunstâncias de interdependência entre os diversos ramos de atividade econômica. O método em foco,

possibilita o cálculo dos COEFICIENTES TÉCNICOS DE PRODUÇÃO, indicador que determina o grau de dependência

inter-setorial, ou seja o “estado da tecnologia” do Sistema Econômico. O nível tecnológico, é portanto, dado pelas

proporções de insumo necessárias, em cada setor, para a produção da totalidade de bens e serviços finais. Tais

coeficientes, convertem-se nos instrumentos de manipulação das políticas de Programação Macro-econômicas, uma

vez que, estar-se-á lidando com os eventuais pontos de estrangulamento da produção.

2. UM MODELO DE MATRIZ DE INSUMO-PRODUTO



DEMANDA INTERMEDIÁRIA DEMANDA FINALDestinação dos

Produtos

Origem dos

Insumos

Madereira Serraria Movelaria Comércio

Demanda

dos Bens

Intermediá

rios (Sub-

Total 1)

Consumo

(Privado e

Governo)

FBFK ± ∆E

(Privado e

Governo)

Exportação

Demanda

Agregada

(Sub-Total

2)

Valor Bruto de

Produção

(Faturamento Geral

dos Mercados) =

Sub-Totais (1 + 2)

Madereira 3 7 10 0 20 8 6 4 18 38

Serraria 2 2 23 20 47 17 13 3 33 80

Movelaria 1 3 4 55 63 44 16 7 67 130

Comércio 2 5 8 10 25 88 23 17 128 153

Sub-Total 3 8 17 45 85 155 157 58 31 246 401

Importação 2 10 13 17 42

Sub-Total 4 10 27 58 102 197

CTEX , Salários, TIR,

Juros e Lucros Brutos

25 43 57 39 164

Impostos Indiretos

Líquidos (ii –s)

3 10 15 12 40

Sub-Total 5 28 53 72 51 204

Valor Bruto da

Produção = Sub-

Totais (4 + 5)

38 80 130 153 401

ΣΣΣΣVABpma = PIBpma

Demanda Agregada




Prof. Assis Mourão

3. POLÍTICAS DE PLANEJAMENTO E PROGRAMAÇÃO ECONÔMICA

A título de exemplificação de uma Política de Planejamento e Programação Econômica, utilizar-se-á a MATRIZ

DE INSUMO/PRODUTO demonstrada acima, para projeção de um aumento de 50% na DEMANDA AGREGADA, e a

respectiva necessidade de adequação da OFERTA AGREGADA respeitado o nível tecnológico da economia, conforme

os COEFICIENTES TÉCNICOS DE PRODUÇAO.

RESOLUÇÃO:

1) Projetou-se um aumento de 50% da DEMANDA AGREGADA, portanto, os seus novos valore serão:

Demanda

Agregada (Y)

27

49,5

100,5

192

2) O passo seguinte é a construção da matriz dos COEFICIENTES TÉCNICOS DE PRODUÇÃO. Observando-se as

colunas da MATRIZ DE INSUMO-PRODUTO, nas quais estão relacionados os totais das compras de insumos, o

total de importações e as remunerações pagas aos fatores mobilizados pela produção, que constituem o VAB, por

dedução lógica, dividindo-se cada um dos valores da DEMANDA INTERMEDIÁRIA pelo total do Faturamento (VBP)

de cada setor, obtém-se o COEFICIENTE TÉCNICO DE PRODUÇÃO.

a11= x11/X1 = 3 / 38 a12= x12/X2 = 7 / 80 a13= x13/X3 = 10 / 130 a14= x14/X4 = 0 / 153

A = a21= x21/X1 = 2 / 38 a22= x22/X2 = 2 / 80 a23= x23/X3 = 23 / 130 a24= x24/X4 = 20 / 153

a31= x31/X1 = 1 / 38 a32= x32/X2 = 3 / 80 a33= x33/X3 = 4 / 130 a34= x34/X4 = 55 / 153

a41= x41/X1 = 2 / 38 a42= x42/X2 = 5 / 80 a43= x33/X3 = 8 / 130 a44= x44/X4 = 10 / 153




Prof. Assis Mourão

0,078947 0,0875 0,076923 0

A = 0,052632 0,025 0,176923 0,130719

0,026316 0,0375 0,030769 0,359477

0,052632 0,0625 0,061538 0,065359

Obs.: O VBP representa os 100% do Faturamento Total, logo calculando-se os COEFICIENTES do Total das

Importações e do VAB e somando-os aos COEFICIENTES da Demanda Intermediária (todos convertidos em

porcentagens), o valor obtido corresponderá aos 100%.

b11 = M1 / X1 = 2 / 38 b12 = M12 / X2 = 10 / 80 b13 = M13 / X3 = 13 / 130 b14 = M14 / X4 = 17 / 153

B = b21 = V21 / X1 = 25 / 38 b22 = V22 / X2 = 43 / 80 b23 = V23 / X3 = 57 / 130 b24 = V24 / X4 = 39 / 153

b31 = V31 / X1= 3 / 38 b32 = V32 / X2 = 10 / 80 b33 = V33 / X3 = 15 / 130 b34 = V34 / X4 = 12 / 153

0,052632 0,125 0,1 0,111111

B = 0,657895 0,5375 0,438462 0,254902

0,078947 0,125 0,115385 0,078431

⇒ Somando-se os vetores-coluna das Matrizes A e B (em percentagem), obtem-se:

7,894737% 8,75% 7,692308% 0%

A = 5,263158% 2,5% 17,69231% 13,0719%

2,631579% 3,75% 3,076923% 35,94771%

5,263158% 6,25% 6,153846% 6,535948%+

5,263158% 12,5% 10% 11,11111%

B = 65,78947% 53,75% 43,84615% 25,4902%

7,894737% 12,5% 11,53846% 7,843137%

VBP = 100% 100% 100% 100%




Prof. Assis Mourão

3) A Metodologia utilizada para construção da MATRIZ DE INSUMO-PRODUTO estabelece a seguinte relação

algébrica:

x11 + x12 + x13 + x14 + Y1 = X1

x21 + x22 + x23 + x24 + Y2 = X2

x31 + x32 + x33 + x34 + Y3 = X3

x41 + x42 + x43 + x44 + Y4 = X4

⇒ Por meio da Matriz A, reescrever-se-á os termos x da forma que se segue:

a11.X1 + a12.X2 + a13.X3 + a14.X4 + Y1 = X1

a21.X1 + a22.X2 + a23.X3 + a24.X4 + Y2 = X2

a31.X1 + a32.X2 + a33.X3 + a34.X4 + Y3 = X3

a41.X1 + a42.X2 + a43.X3 + a44.X4 + Y4 = X4

⇒ Transfere-se X para o 1º. membro e Y para o 2º. membro da equação, multiplicar-se-á todos os termos por (–1) e

colocar-se-á o X em evidência:

a11.X1 + a12.X2 + a13.X3 + a14.X4 - X1 = -Y1

a21.X1 + a22.X2 + a23.X3 + a24.X4 - X2 = -Y2

a31.X1 + a32.X2 + a33.X3 + a34.X4 - X3 = -Y3

a41.X1 + a42.X2 + a43.X3 + a44.X4 - X4 = - Y4

X1 - a11.X1 - a12.X2 - a13.X3 - a14.X4 = Y1

- a21.X1 + X2 - a22.X2 - a23.X3 - a24.X4 = Y2

- a31.X1 - a32.X2 + X3 - a33.X3 - a34.X4 = Y3

- a41.X1 - a42.X2 - a43.X3 + X4 - a44.X4 = Y4




Prof. Assis Mourão

(1 - a11) . X1 - a12.X2 - a13.X3 - a14.X4 = Y1

- a21.X1 (1 - a22) . X2 - a23.X3 - a24.X4 = Y2

- a31.X1 - a32.X2 (1 - a33) . X3 - a34.X4 = Y3

- a41.X1 - a42.X2 - a43.X3 (1 - a44) . X4 = Y4

⇒ Percebe-se, portanto, que a Matriz acima é resultado da seguinte equação:

[ I – A ] . [ X ] = [ Y ]

onde: I = Matriz Identidade;

A = Matriz dos Coeficientes Técnicos de Produção; X = Matriz dos Valores Brutos da Produção (VBP);

Y = Matriz da Demanda Agregada.

⇒ Interessa-nos, entretanto, calcular os novos Valores Brutos da Produção decorrentes da projeção de uma expansão

da DEMANDA AGREGADA. Isolando a Matriz X tem-se:

[ X ] = [ Y ] / [ I – A ] ou [ X ] = [ I – A ]-1 . [ Y ]

PORTANTO:

[ I – A ] =

1 0 0 0 0,07894 0,0875 0,07692 0 0,921053 - 0,0875 - 0,07692 0

0 1 0 0 - 0,05263 0,025 0,17692 0,13071 = - 0,05263 0,975 - 0,17692 - 0,13071

0 0 1 0 0,02631 0,0375 0,03076 0,35947 - 0,02631 - 0,0375 0,969231 - 0,35947

0 0 0 1 0,05263 0,0625 0,06153 0,06535 - 0,05263 - 0,0625 - 0,06153 0,934641

[ I – A ]-1 =

1,098221 0,10647 0,110233 0,057288

0,079563 1,055729 0,213618 0,229815

0,059254 0,073951 1,076902 0,424536

0,071065 0,081462 0,091397 1,116476




Prof. Assis Mourão

[ X ] = [ I – A ]-1 . [ Y ]

X1 1,098221 0,10647 0,110233 0,057288 27

X2 = 0,079563 1,055729 0,213618 0,229815 x 49,5

X3 0,059254 0,073951 1,076902 0,424536 100,5

X4 0,071065 0,081462 0,091397 1,116476 192

X1 57

X2 = 120

X3 195X4 229,5

4) Conhecendo-se os Valores Brutos da Produção, recorre-se à Matriz dos Coeficientes Técnicos de Produção, para o

estabelecimento da nova estrutura da MATRIZ DE INSUMO-PRODUTO.

⇒ DEMANDA INTERMEDIÁRIA

MADEIREIRA SERRARIA MOVELARIA COMÉRCIO

MADEIREIRA x11 = a11.X1 = 0,078947 . 57 x12 = a12.X2 = 0,0875 . 120 x13 = a13.X3 = 0,076923 . 195 x14 = a14.X4 = 0 . 229,5

SERRARIA x21 = a21.X1 = 0,052632 . 57 x22 = a22.X2 = 0,025 . 120 x23 = a23.X3 =0,176923 . 195 x24 = a24.X4 = 0,130719 . 229,5

MOVELARIA x31 = a31.X1 = 0,026316 . 57 x32 = a32.X2 = 0,0375 . 120 x33 = a33.X3 =0,030769 . 195 x34 = a34.X4 =0,359477 . 229,5

COMÉRCIO x41 = a41.X1 = 0,052632 . 57 x42 = a42.X2 =0,0625 . 120 x43 = a43.X3 =0,061538 . 195 x44 = a44.X4 =0,065359 . 229,5


MADEIREIRA4,5 10,5 15 0

SERRARIA3 3 34,5 30

MOVELARIA1,5 4,5 6 82,5

COMÉRCIO3 7,5 12 15




Prof. Assis Mourão

⇒ IMPORTAÇÃO E VAB


IMPORTAÇÃOM1 = b11 . X1

= 0,052632 . 57

M2 = b12 . X2

= 0,125 . 120

M3 = b13 . X3

= 0,1 . 195

M4 = b14 . X4

= 0,111111 . 229,5

CTEX, Salários, TIR,

Juros e Lucros Brutos

V21 = b21 . X1

= 0,657895 . 57

V22 = b22 . X2

= 0,5375 . 120

V23 = b23 . X3

= 0,438462 . 195

V24 = b24 . X4

= 0,254902 . 229,5

Impostos Indiretos

Líquidos (ii – s)

V31 = b31 . X1

= 0,078947 . 57

V32 = b32 . X1

= 0,125 . 120

V33 = b33 . X3

= 0,115385 . 195

V34 = b34 . X4

= 0,078431 . 229,5


IMPORTAÇÃO 3 15 19,5 25,5

CTEX, Salários, TIR,

Juros e Lucros Brutos37,5 64,5 85,5 58,5

Impostos Indiretos

Líquidos (ii – s)

4,5 15 22,5 18

⇒ DEMANDA FINAL Ano 1:

Consumo FBFK ±±±± ∆∆∆∆E Exportação

c11 = C1 / Y1 = 8 / 18 c12 = F1 / Y1 = 6 / 18 c13 = E1 / Y1 = 4 / 18

C = c21 = C2 / Y2 = 17 / 33 c22 = F2 / Y2 = 13 / 33 c23 = E2 / Y2 = 3 / 33

c31 = C3 / Y3 = 44 / 67 c32 = F3 / Y3 = 16 / 67 c33 = E3 / Y3 = 7 / 67

c41 = C4 / Y4 = 88 / 128 c42 = F4 / Y4 = 23 / 128 c43 = E4 / Y4 = 17 / 128


0,444444 0,333333 0,222222

C = 0,515152 0,393939 0,090909

0,656716 0,238806 0,104478

0,6875 0,179688 0,132813




Prof. Assis Mourão

Ano 2:


C1 = c11.Y1 = 0,4444 . 27 F1 = c12.Y1 = 0,3333 . 27 E1 = c13.Y1 = 0,2222 . 27

C = C2 = c21.Y2 = 0,515152 . 27 F2 = c22.Y2 = 0,393939. 49,5 E2 = c23.Y2 = 0,090909 . 49,5

C2 = c21.Y2 = 0,515152 . 27 F2 = c22.Y2 = 0,393939. 49,5 E2 = c23.Y2 = 0,090909 . 49,5

C2 = c21.Y2 = 0,515152 . 27 F2 = c22.Y2 = 0,393939. 49,5 E2 = c23.Y2 = 0,090909 . 49,5


12 9 6C =

25,5 19,5 4,5

66 24 10,5

132 34,5 25,5

5) A seguir, a nova estrutura da MATRIZ DE INSUMO-PRODUTO:



DEMANDA INTERMEDIÁRIA DEMANDA FINALDestinação dos

Produtos

Origem dos

Insumos

Madereira Serraria Movelaria Comércio

Demanda

dos Bens

Intermediá

rios (Sub-

Total 1)

Consumo

(Privado e

Governo)

FBFK ± ∆E

(Privado e

Governo)

Exportação

Demanda

Agregada

(Sub-Total

2)

Valor Bruto de

Produção

(Faturamento Geral

dos Mercados) =

Sub-Totais (1 + 2)

Madereira 4,5 10,5 15 0 30 12 9 6 27 57

Serraria 3 3 34,5 30 70,5 25,5 19,5 4,5 49,5 120

Movelaria 1,5 4,5 6 82,5 94,5 66 24 10,5 100,5 195

Comércio 3 7,5 12 15 37,5 132 34,5 25,5 192 229,5

Sub-Total 3 12 25,5 67,5 127,5 232,5 235,5 87 46,5 369 601,5

Importação 3 15 19,5 25,5 63

Sub-Total 4 15 40,5 87 153 295,5

CTEX , Salários, TIR,

Juros e Lucros Brutos37,5 64,5 85,5 58,5 246

Impostos Indiretos

Líquidos (ii –s) 4,5 15 22,5 18 60

Sub-Total 5 42 79,5 108 76,5 306

Valor Bruto da

Produção = Sub-

Totais (4 + 5)

57 120 195 229,5 601,5

Demanda Agregada

ΣΣΣΣVABpma = PIBpma




Prof. Assis Mourão

OS AGREGADOS MACROECONÔMICOS À PREÇOS CONSTANTES

1. OBSERVAÇÕES INICIAIS

Neste capítulo examinar-se-ão os principais métodos estatísticos aplicados para o cálculo de valores agregados

que sejam intertemporalmente e internacionalmente comparáveis.

Cabe considerar que, ao longo de sucessivos períodos de tempo, ocorrem variações no valor da unidade

monetária. Ou seja, que o poder aquisitivo da moeda, em determinado período, pode ser distinto daquele que se

observa em outro período. Logicamente, essa alteração repercute sobre o sistema de preços relativos. Em

conseqüência, quando se deseja analisar o comportamento do sistema econômico em períodos de tempos distintos, ou

seja, quando se deseja estabelecer comparações intertemporais, é mister eliminar-se a variação no poder aquisitivo da

moeda – sem o que a comparação perderia sentido analítico.

É necessário, portanto, encontrar uma forma de expressar os fluxos econômicos – reais ou financeiros – em

TERMOS CONSTANTES, pois como os preços, de forma geral, expandem-se de um ano para outro, o valor do produto

agregado assimila essa expansão, refletindo assim não apenas a expansão real da economia, resultante do esforço

social de produção, mas também o crescimento inflacionário dos preços. Em outras palavras, trata-se de medir os

grandes agregados macroeconômicos a preços constantes, abstraindo-se das variações no valor da moeda. Assim

procedendo, haverá sentido econômico na afirmativa de que o Produto Interno Bruto, ou qualquer outro agregadomacroeconômico, durante certo período de tempo e em determinado país, cresceu a uma taxa acumulativa de 5% ao

ano, por exemplo.

No âmbito destas comparações, estabelecer-se-á inicialmente a diferença conceitual básica entre VARIAÇÃO

NOMINAL e VARIAÇÃO REAL, para, em seguida, estudarmos os principais métodos de transformação de estimativas

nominais e reais, com o emprego de números-índices.

2. AS COMPARAÇÕES INTERTEMPORAIS

2.1. VARIAÇÃO NOMINAL E VARIAÇÃO REAL

Para a análise dos problemas relacionados às comparações intertemporais, faz-se necessário inicialmente

diferenciar os conceitos de VARIAÇÃO NOMINAL e de VARIAÇÃO REAL dos agregados macroeconômicos.




Prof. Assis Mourão

A razão de ser desta diferenciação está em que a estimativa final dos agregados é apresentada em UNIDADES

MONETÁRIAS. Não restando dúvidas quanto à única unidade de medida que se pode empregar para a mensuração

dos valores dos agregados macroeconômicos, cabem algumas observações quanto à representatividade das

estimativas resultantes para fins de comparações intertemporais, pois o valor da moeda não permanece constante ao

longo de sucessivos períodos de tempo. Praticamente todas as transações econômicas contabilizadas entre os

diferentes agentes econômicos que transacionam em econômicas sob pressão inflacionária, incorporarão aumentos

nominais, ainda que o nível real das quantidades transacionadas não registre nenhuma alta.

Pode-se extrair, então, por meio das observações, as diferenças fundamentais entre os conceitos de variação

nominal e variação real :

VARIAÇÃO NOMINAL – Incorpora não só as variações havidas nas quantidades transacionadas, comotambém as variações do valor da moeda.

VARIAÇÃO REAL – Limita-se a registrar as variações quantitativas dos bens e serviços finais produzidos e

adquiridos (Óticas da Produção e da Despesa), ou então, as variações quantitativas do emprego de recursos

produtivos e dos correspondentes níveis de duas remunerações.

Portanto, para que as comparações intertemporais dos agregados macroeconômicos tenham sentido, faz-se

necessária à depuração da variação nominal (pressão inflacionária) do valor da moeda. Em outras palavras, as

estimativas precisam ser expressas a preços constantes. Mantendo-se constantes os preços, os agregados registrarão

apenas as variações reais das transações, ou seja, variações ocorridas no QUANTUM das transações econômicas,

eliminando-se, desta forma, as influências nominais decorrentes das variações havidas no poder aquisitivo da moeda.

3. METODOLOGIAS PARA O CÁLCULO DOS AGREGADOS À PREÇOS CONSTANTES

3.1 OS ÍNDICES DE LASPEYRES, PAASCHE E FISHER

Há dois caminhos diferentes para se calcular os índices acima mencionados. O primeiro caminho, denominado

MÉTODO DIRETO, consiste em aplicar os preços vigentes (os “pesos”) no período base ao volume físico transacionado

nos sucessivos períodos em consideração, obtendo-se, desta forma, o que se convencionou chamar de ÍNDICES DE

QUANTUM. O segundo caminho, denominado MÉTODO INDIRETO, consiste em calcular a expansão média ponderada




Prof. Assis Mourão

dos preços, por meio destes ÍNDICES DE PREÇOS, se deflacionam os valores correntes das estimativas dos

sucessivos períodos, por meio dos.

3.1.1. OS ÍNDICES DE QUANTUM – MÉTODO DIRETO

Designando por p0 os preços dos artigos incluídos no índice, vigorantes no ano base; por q0 as quantidades

consumidas no mesmo ano, e por p1 e q1 respectivamente os preços e as quantidades no ano cujo índice se quer

determinar, temos, entre muitas outras, as seguintes fórmulas para o cálculo dos índices de quantidade. Vale ressaltar

que os preços constituem os “pesos” destes índices.

a) Fórmula de LASPEYRES :

L = ∑ p0 x q1

L = ∑ p0 x q0

b) Fórmula de PAASCHE :

P = ∑ p1 x q1

P = ∑ p1 x q0

c) Fórmula ideal de FISHER :

F = √ ∑ p0 x q1 x ∑ p1 x q1

P = ∑ p0 x q0 = ∑ p1 x q0

Média geométrica entre as duas primeiras expressões (Laspeyres e Paasche)




Prof. Assis Mourão

3.1.2. OS ÍNDICES DE PREÇO – MÉTODO INDIRETO

Utilizando-se a mesma nomenclatura empregada nos ÍNDICES DE QUANTUM, tem-se as seguintes fórmulas

para o cálculo dos índices ponderados ou ÍNDICES DE PREÇOS. Vale ressaltar que as quantidades constituem os

“pesos” destes índices.

a) Fórmula de LASPEYRES :

L = ∑ p1 x q0

L = ∑ p0 x q0

Expressão que tem a vantagem de não exigir os valores q1, sempre os mais difíceis de obter.

b) Fórmula de PAASCHE :

P = ∑ p1 x q1

P = ∑ p0 x q1

c) Fórmula ideal de FISHER :

F = √ ∑ p1 x q0 x ∑ p1 x q1

P = ∑ p0 x q0 = ∑ p0 x q1

Média geométrica entre as duas primeiras expressões (Laspeyres e Paasche)

As fórmulas que contiverem a expressão q1, isto é, quantidades consumidas nas diversas épocas, são de

execução mais difícil na prática, porque é muito rara a obtenção de tais dados a tempo.




Prof. Assis Mourão

4. A MENSURAÇÃO DOS AGREGADOS À PREÇOS CONSTANTES NO BRASIL

De acordo com o manual de metodologia publicado pelo DCS/IBRE, “os dois métodos utilizados para o cálculo

de dados a preços constantes são o da deflação dos valores a preços correntes (MÉTODO INDIRETO) e o da projeção

dos valores do ano base através da aplicação de índices de quantum adequados (MÉTODO DIRETO).

Internacionalmente, o primeiro método – INDIRETO – é mais difundido, mas o Brasil tem-se, de um modo geral,

optado pelo segundo – MÉTODO INDIRETO. Uma primeira razão da dessa escolha tem sido a não disponibilidade de

índices de preços específicos, que reflitam adequadamente a variação ocorrida dentro de cada fluxo. Outra causa são

os elevadíssimos níveis históricos de inflação registrados no país, que fazem com que qualquer desvio no cálculo dos

índices gere distorções de grande monta na estimativa do crescimento real.”

Dentre as fórmulas empregadas para o cálculo dos ÍNDICES DE QUANTUM, o Brasil utiliza a do tipoLASPEYRES.

Por indisponibilidade de dados básicos, só tem sido possível estimar índices do produto real para os setores

agropecuário, industrial (subdividido por seus quatro subsetores: Indústrias Extrativas, de Transformação, Produção e

Distribuição de Eletricidade, Gás e Água e Indústria de Construção) e, no âmbito do setor serviços, para os subsetores

de comércio e de transportes e comunicações. Desta maneira, a hipótese implícita é de que os setores para os quais

não há índices de quantum específicos teriam evoluído a um ritmo idêntico ao da média ponderada da variação dos

setores cujo comportamento pode ser medido diretamente.

A responsabilidade de mensuração dos Índices de QUANTUM no Brasil faz parte do conjunto de atribuições do

IBGE. Uma vez calculado o índice de QUANTUM, o IBGE o aplica sobre a série de preços correntes para obter o PIB a

preços constantes. A partir dessas duas séries correlatas, diversos cálculos podem ser realizados objetivando a

facilitação na manipulação desses mesmos dados, a exemplo do DEFLATOR IMPLÍCITO, que conceitualmente é o

resultado do quociente entre o produto a preços correntes e o produto a preços constantes. A partir da série de

Deflatores Implícitos calculada, é possível a mensuração da variação anual deste indicador, informação esta

disponibilizada no periódico CONJUNTURA ECONÔMICA, publicado pela FUNDAÇÃO GETÚLIO VARGAS.

Portanto, este capítulo objetiva a demonstração de uma metodologia para o cálculo do PIB a preços constantes

a partir da manipulação das informações disponíveis no apêndice CONJUNTURA ESTATÍSTICA, tabela CONTAS

NACIONAIS, do periódico CONJUNTURA ECONÔMICA/FGV.




Prof. Assis Mourão

4.1. UM EXEMPLO PRÁTICO

Por meio dos dados disponíveis no periódico CONJUNTURA ECONÔMICA, construiu-se a tabela a seguir.

Cabe-nos agora a tarefa de calcular as informações restantes, implicando na mensuração dos AGREGADOS A

PREÇOS CONSTANTES.

Variação do PIB Real

Preços CorrentesPreços Constantes

(Ano-Base 1994)

Base (%)

1994 = 100

Variação

Anual (%)Variação Anual (%)

1990 0,0116

1991 0,0603 416,68

1992 0,641 969,01

1993 14,1 1996,15

1994 349 349 100 2240,17

1995 646 77,55

1996 779 17,41

1997 871 8,25

1998 914 4,85

1999 974 5,7

2000 1101 8,36

2001 1199 7,44

2002 1346 10,16

2003 1556 14,992004 1769 22,26

Período

PIB em milhões de Reais Deflator Implícito

As informações disponíveis no periódico, extraídas para a construção da tabela são: O PERÍODO, o PIB À

PRECOS CORRENTES (no qual está computado a alta dos preços ocasionada pela pressão inflacionária) e a

VARIACAO ANUAL DO DEFLATOR IMPLÍCITO, ou seja, as variações ano a ano dos índices de QUANTUM.

Portanto, por meio dessas informações, torna-se possível o cálculo do PIB À PREÇOS CONSTANTES e da sua

VARIAÇÃO REAL.

1º . PASSO:

Escolher um dos anos do período como ANO-BASE. Todas as informações calculadas terão como referênciaeste ano. O ano escolhido para o exemplo será 1994 e suas implicações serão as seguintes: O PIB À PREÇOS CONSTANTES de 1994 será igual ao seu PIB À PREÇOS CORRENTES; A BASE do DEFLATOR IMPLÍCITO será igual à 100, no ano-base de 1994.




Prof. Assis Mourão

2º . PASSO:

Calcular as BASES do DEFLATOR IMPLÍCITO para todos os anos, através das seguintes fórmulas:

Para anos INFERIORES ao ANO-BASE:

DEFLATOR IMPLÍCITO ano n = (DEFLATOR IMPLICÍTO ano (n+1) /100) . [1 + (VARIAÇÃO DO DEFLATOR IMPLÍCITO ano (n+1) / 100)]

EXEMPLO:

DEFLATOR IMPLÍCITO ano 93 = (DEFLATOR IMPLICÍTO ano 94 /100) . [1 + (VARIAÇÃO DO DEFLATOR IMPLÍCITO ano 94 / 100)]

DEFLATOR IMPLÍCITO ano 93 = (100/100) . [1 + (2.240,17/ 100)]

DEFLATOR IMPLÍCITO ano 93 =0,04273194 4,273194%

Para anos SUPERIORES ao ANO-BASE:

DEFLATOR IMPLÍCITO ano n = (DEFLATOR IMPLÍCITO ano (n–1)/100)x[1 + (VARIAÇÃO DO DEFLATOR IMPLÍCITO ano n)]100

EXEMPLO:

DEFLATOR IMPLÍCITO ano 95 = (DEFLATOR IMPLÍCITO ano 94/100)x[1 + (VARIAÇÃO DO DEFLATOR IMPLÍCITO ano 95)]100

DEFLATOR IMPLÍCITO ano 95 = (100/100)x[1+(77,55)/100]

DEFLATOR IMPLÍCITO ano 95 = 1,7755 177,55%

3º . PASSO:

Calcular o PIB À PREÇOS CONSTANTES para todos os anos, através da seguinte fórmula:

DEFLATOR IMPLÍCITO BASE ano n = PREÇOS CORRENTES ano n

PREÇOS CONSTANTES ano n OU




Prof. Assis Mourão

PREÇOS CONSTANTES ano n = PREÇOS CORRENTES ano n

DEFLATOR IMPLÍCITO BASE ano n EXEMPLO 1:

PREÇOS CONSTANTES ano 93 = PREÇOS CORRENTES ano 93

DEFLATOR IMPLÍCITO BASE ano 93

PREÇOS CONSTANTES ano 93 = __14,1___

0,04273194

PREÇOS CONSTANTES ano 93 = R$ 329,96397 Bilhões de Reais

EXEMPLO 2:

PREÇOS CONSTANTES ano 95 = PREÇOS CORRENTES ano 95

DEFLATOR IMPLÍCITO BASE ano 95

PREÇOS CONSTANTES ano 95 = __646___

1,7755

PREÇOS CONSTANTES ano 93 = R$ 363,8411715 Bilhões de Reais

4º . PASSO:

Calcular a VARIAÇÃO REAL DO PIB para todos os anos, através da seguinte fórmula:

∆∆∆∆ PIB ano n = [(. PIB À PREÇOS CONSTANTES ano n .) – 1] x 100PIB À PREÇOS CONSTANTES ano (n – 1)

EXEMPLO:

∆∆∆∆ PIB ano 91 = [(. PIB À PREÇOS CONSTANTES ano 91 .) – 1] x 100PIB À PREÇOS CONSTANTES ano 90

∆∆∆∆ PIB ano 91 = [(. 316,2050816 .) – 1] x 100

314,2904414

∆∆∆∆ PIB ano 91 = 0,609194512%




Prof. Assis Mourão

5º . PASSO:

Completar a Tabela:



(Ano-Base 1994)

Base (%)

1994 = 100

Variação


1990 0,0116 314,2904414 0,0036909 - -

1991 0,0603 316,2050816 0,0190699 416,68 0,609194512

1992 0,641 314,4327648 0,2038592 969,01 -0,560495961

1993 14,1 329,96397 4,2731938 1996,15 4,939435991

1994 349 349 100 2240,17 5,769123823

1995 646 363,8411715 177,55 77,55 4,252484671

1996 779 373,6901865 208,46146 17,41 2,706954513

1997 871 385,9797187 225,65953 8,25 3,288695461

1998 914 386,2994513 236,60401 4,85 0,082836615

1999 974 389,4591082 250,09044 5,7 0,817929444

2000 1101 406,2760588 270,998 8,36 4,318027292

2001 1199 411,800714 291,16025 7,44 1,359827896

2002 1346 419,6517561 320,74213 10,16 1,906514930

2003 1556 421,8844357 368,82138 14,99 0,5320315342004 1769 392,3081698 450,92102 22,26 -7,010513647

Período


6º . PASSO:

Construir uma nova tabela, tendo como ano-base 2001 e construir outra com ano-base 2004::



(Ano-Base 1994)

Base (%)

1994 = 100

Variação


1990 0,0116

1991 0,0603 416,68

1992 0,641 969,01

1993 14,1 1996,15

1994 349 2240,17

1995 646 77,55

Período


Date post:	02-Apr-2018
Category:	Documents
Upload:	andre-frazao-teixeira
View:	219 times
Download:	0 times

Apostila Econometria Matriz

Documents