Estatística Básica

  • Uploaded by: Nagib Yassin
  • 0
  • 0
  • February 2021
  • PDF

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA


Overview

Download & View Estatística Básica as PDF for free.

More details

  • Words: 54,440
  • Pages: 207
Loading documents preview...
Prof. Nagib Yassin

Rio Verde-Go 2012

ESTATÍSTICA BÁSICA

2

UNIVERSIDADE DE RIO VERDE PRÓ-REITORIA DE GRADUAÇÃO PLANO DE ENSINO 1. IDENTIFICAÇÃO Professor: Nagib Yassin Disciplina: Estatística Básica Ano: 2012 Carga horária: 72h Semestre letivo: 2012/1 Pré-requisitos: Cálculo Diferencial e Integral Oferecido para o curso: Biologia, Matemática, Medicina Veterinária 2. EMENTA Estatística Descritiva, Elementos de Probabilidade e de Inferência Estatística, Base conceitual, Métodos e Aplicações da Estatística em Ciência e Tecnologia. 3. OBJETIVOS 3.1. Objetivo geral Habilitar o estudante para a compreensão da base conceitual e metodológica da estatística requerida no planejamento, análise de dados e interpretação de resultados de pesquisa científica. 3.2. Objetivos específicos Fundamentação estatística para o estudo de disciplinas do ciclo profissional. 4. CONTEÚDO PROGRAMÁTICO I. Introdução • História, conceito, funções e aplicações da estatística; estatística na pesquisa científica; • Conceito de população e amostra; tipos de variáveis e escalas de mensuração;

II. Estatística Descritiva • Organização e Apresentação de dados;

3

• Tabelas de freqüências; histograma e polígono de freqüências; resumo de cinco pontos;

diagrama de ramo e folhas; gráfico de caixas (“Box-Plot”); • Síntese Numérica: Medidas de tendência central (médias aritmética, harmônica e

geométrica, moda e mediana); Medidas separatrizes: quartis, decis e percentis; Medidas de Variabilidade (amplitude, amplitude interquartílica, variância, desvio-padrão e coeficiente de variação); III. Elementos de Probabilidade • Introdução aos principais conceitos de probabilidade: Experimento aleatório, espaço

amostral e eventos. • Definição clássica e frequentista de probabilidade; • Probabilidade Condicional e Independência de eventos. • Variáveis aleatórias unidimensionais discretas e contínuas; Modelo Binomial, de

Poisson. E modelos Normais; IV. Inferência Estatística • Introdução aos principais conceitos de Inferência Estatística; • Distribuição amostral da média e da proporção; teorema central do limite; • Estimação pontual e por intervalo da média e proporção populacional: conceitos;

métodos de estimação; propriedades dos estimadores; • Teste de hipótese: conceitos; hipótese estatística; erros de decisão; nível de

significância e potência do teste; • Teste de hipótese referente à média de uma população normal; teste de hipótese de

igualdade de médias e teste de hipótese da igualdade de variâncias de duas populações normais; testes de hipóteses referentes às proporções. 5. METODOLOGIA A disciplina será conduzida através da exposição da matéria, discussão do conteúdo programático e de exemplos ilustrativos. Eventualmente, tópicos não expostos em classe serão assinalados para estudo extraclasse. Sempre que possível, as exposições serão auxiliadas com recursos visuais, especialmente providos Por projetores de transparências e de slides. Exercícios para desenvolvimento do tirocínio serão assinalados para resolução extraclasse. Alguns minutos de cada aula serão dedicados para o esclarecimento de dúvidas e dificuldades encontradas pelo estudante. Os estudantes também terão disponível, para esses esclarecimentos, atendimento extraclasse, provido pelo docente e monitor da disciplina, em horários

4

apropriados, previamente estabelecidos. Texto próprio elaborado pela equipe docente será colocado à disposição do estudante, para auxílio ao estudo da disciplina. 6. ESTRATÉGIAS DE AVALIAÇÃO A média de aproveitamento (MA) será obtida, calculando:

3 (NP ) + 3 (NT ) + 4(MEP) 7

MA = Sendo:

(NP) Nota de uma única prova (NT) Nota referente a um trabalho mensal (MEP) Nota referente a 4 listas menais de exercícios. Trabalhos Obs: As notas de NT e de MEP não darão direito ao aluno requerer 2a chamada A freqüência comporá o sistema de avaliação – (5% a menos para cada falta e/ou capítulo) 7. MATERIAL DIDÁTICO Textos redigidos pelo corpo docente e bibliografia existente na biblioteca da Universidade de Rio Verde. Coleção de exercícios versando sobre o conteúdo programático. 8. BIBLIOGRAFIA RECOMENDADA BLACKWELL, D. Estatística Básica. São Paulo: McGraw-Hill do Brasil Ltda. 1974. 143p. BOTELHO, E.M.D.; MACIEL, A.J. Estatística Descritiva (Um Curso Introdutório). Viçosa: Imprensa Universitária, Universidade Federal de Viçosa. 1992. 65p. BUSSAB, W.O.; MORETTIN, P.A. Estatística Básica. São Paulo: Atual Editora. 1987. HOEL, P.G. Estatística Elementar. São Paulo: Editora Atlas S.A. 1980. IEMMA, A.F. Estatística Descritiva. Piracicaba: Fi Sigma Rô Publicações. 1992. 182p. MEYER, P.L. Probabilidade, Aplicações à Estatística. Rio de Janeiro; Ao Livro Técnico S.A. 1976. MORETTIN, P.A. Introdução à Estatística para Ciências Exatas. São Paulo: Atual Editora Ltda. 1981. 211p.

5

PARADINE, C.G.; RIVETT, B.H.P. Métodos Estatísticos para Tecnologistas. São Paulo: Ed. Polígono/ Editora da Universidade de São Paulo. 1974. 350p. PIMENTEL GOMES, F. Iniciação à Estatística. 6 ed. São Paulo; Livraria Nobel S.A. 1978.211p. SILVA, J.G.C. da. Estatística Básica. Versão preliminar. Instituto de Física e Matemática, Universidade Federal de Pelotas. Pelotas, 1992. 173p. SILVEIRA, Jr., P.S., MACHADO, A.A., ZONTA, E.P., SILVA, J.B. Curso de Estatística, vol.1. Pelotas: Editora Universitária, UFPEL. Pelotas, 1989.135p. SILVEIRA, Jr., P.S., MACHADO, A.A., ZONTA, E.P., SILVA, J.B. Curso de Estatística, vol.2. Pelotas: Editora Universitária, UFPEL. Pelotas, 1992.234p. SPIEGEL, M.R. Estatística. São Paulo: McGraw-Hill do Brasil. 1975.580p. TRIOLA, M. F. Introdução à Estatística, 9 ed. São Paulo: LTC. 2005. 662p.

6

Sumário 1. INTRODUÇÃO

12

1.1. Divisão da estatística

13

1.1.1. Estatística Descritiva:

13

1.1.2. Estatística Indutiva ou Inferencial.

13

2. POPULAÇÃO E AMOSTRA

15

2.1. População ou universo

15

2.2. Amostra

16

2.3. Técnicas de Amostragem

18

2.3.1.

19

Amostragem aleatória simples

2.3.2. Amostragem sistemática

20

2.3.3.

Amostragem estratificada

20

2.3.4.

Amostragem por conglomerados

21

2.3.5.

Amostragem de conveniência (não-probabilística)

21

3. Variável

23

3.1. Classificação das variáveis

23

3.2. Contínuas

23

3.3. Discretas

23

3.4. Nominais ou categóricas

23

3.5. Ordinais

24

4. Escalas de Mensuração

25

5. Análise Exploratória de Dados

26

5.1. Introdução

26

5.2. Tabelas

27

6. SÉRIES E GRÁFICOS ESTATÍSTICOS

29

6.1. Introdução

29

6.1.1. Séries Estatísticas

29

6.1.1.1. Séries Históricas, Cronológicas, Temporais ou Marchas

29

6.1.1.2. Séries Geográficas, Espaciais, Territoriais ou de Localização

30

6.1.1.3. Séries Conjugadas e Tabela de Dupla Entrada

30

6.1.1.4. Séries Específicas ou Categóricas

31

6.2.

32

Gráficos Estatísticos

6.2.1. Gráficos de linha

32

6.2.2. Gráfico de colunas e gráfico de barras

32

6.2.3. Gráfico em setores (pizza)

33

6.2.4.

34

Outros tipos de gráficos

6.2.4.1. Cartograma

34

6.2.4.2. Estereograma

34

6.2.4.3. Pictograma

34

7. DISTRIBUIÇÃO DE FREQÜÊNCIAS

35

7.1. Introdução

35

7.2. Distribuições por ponto ou valores.

35

7

7.3. Distribuições por classes ou intervalos

36

7.4. Elementos de uma distribuição de frequências

37

7.4.1. Classes

37

7.4.2. Limites de classe

37

7.4.3. Amplitude de um intervalo de classe, ou, simplesmente, intervalo de classe

37

7.4.4. Amplitude total da distribuição (AT)

38

7.4.5. Amplitude amostral (AA)

38

7.4.6. Ponto médio de uma classe (xi)

38

7.4.7. Freqüência simples ou freqüência absoluta ou, simplesmente, freqüência de uma classe ou de um valor individual

38

7.5. Tipos de frequências

38

7.5.1. Freqüências simples ou absolutas (fi)

38

7.5.2. Freqüências relativas (fri)

39

7.5.3. Freqüência acumulada (Fi)

39

7.5.4. Freqüência acumulada relativa (Fri) de uma classe

39

7.6. Apresentação de uma distribuição de freqüências

39

7.6.1. Distribuição de freqüências por pontos ou valores.

39

7.6.2. Distribuição de freqüências por classes ou intervalos

40

7.7. Gráficos de distribuições de frequências

41

7.7.1. Histograma de frequências

41

7.7.2.

42

Polígono de frequência

7.7.3. Polígono de frequência acumulada

43

7.7.4. Gráfico stem-and-leaf (tronco e folhas)

43

8. MEDIDAS DE POSIÇÃO

45

8.1. Média aritmética

45

8.1.1. Média nas séries de dados não agrupados

45

8.1.2. Média nas séries de dados agrupados sem intervalo de classe

46

8.1.3. Média nas séries de dados agrupados com intervalos de classes

47

8.2.1. Moda nas séries de dados agrupados sem intervalos de classes

48

8.2.2. Moda nas series de dados com intervalos de classe

48

8.3. Mediana (Md)

49

8.3.1. Medianas nas series de dados sem intervalos de classe

49

8.3.2. Mediana nas séries de dados com intervalos de classe

50

8.4. Medidas de ordenamento e posição

51

8.4.1. Quartis

51

8.4.2. Centil ou Percentil

52

8.5. Que promédio usar?

53

9. MEDIDAS DE DISPERSÃO

54

9.1 Variância

54

9.2. Desvio padrão

56

9.2.1. Desvio padrão nas séries de dados não agrupados

56

9.2.1.1. Desvio padrão nas séries de dados agrupados sem intervalo de classe

57

9.2.1.2 Desvio padrão nas séries de dados agrupados com intervalos de classe

58

8

9.3. Coeficiente de variação

59

9.5. Amplitude entre quartis

59

9.6. Box-and-Whisker plots

60

Exercícios

61

Exercícios diversos

63

10. PROBABILIDADES

73

10.1. Entendendo a probabilidade

74

10.2. Experimento aleatório

74

10.3. Cálculo de probabilidades

76

10.4 Eventos mutuamente exclusivos

77

10.5. Eventos independentes

78

10.6. Regras das probabililidades

78

10.6.1. Regras da multiplicação

79

10.6.2. Regras da adição

79

10.7. Probabilidade condicional

81

10.8. Permutações

82

10.9. Combinações

83

Exercícios

85

11. Distribuições de probabilidade

87

11.1. Distribuições discretas de probabilidade

88

11.2. Distribuição binomial

88

11.2.1. Hipóteses do modelo Binomial

88

11.2.2. Propriedades da distribuição binomial

91

11.3. Distribuição de Poisson

93

11.3.1. Propriedades da distribuição de Poisson

96

11.4.

96

Relação entre as distribuições Binomial e Poisson

Exercícios

98

11.5. Distribuições contínuas de probabilidade

100

11.5.1. Distribuição normal ou Gaussiana

100

11.5.2 - Propriedades da Distribuição Normal

100

11.5.3 - Distribuição Normal Padronizada

101

12. Distribuição amostral das médias

103

12.1. Teorema central do limite

104

12.2. Desvio padrão da média

104

12.3. Distribuição t de "Student"

105

12.3.1. Propriedades da distribuição t de "Student"

106

Exercícios Diversos

107

13 ESTIMAÇÃO ESTATÍSTICA

116

13.1. Estimação de parametros populacionais

116

13.2. Intervalo de confiança para a média populacional

117

13.2.1. Intervalo de confiança para a média populacional (µ) com o desvio padrão (σ) conhecido

117

9

13.2.2. Intervalo de confiança para a média populacional (µ) com o desvio padrão (σ) desconhecido.

118

13.3. Duas amostras independentes

119

13.3.1. Intervalo de confiança para a diferença entre duas médias populacionais

121

13.4. Teste t emparelhado

124

13.5. Determinação do tamanho da amostra

125

Exercícios

126

Exercicios diversos

128

14. TESTES DE HIPÓTESES

132

14.1. Hipótese estatística

132

14.2. Regra de decisão

133

14.3. Erros de decisão

134

14.4. Probabilidade dos erros de decisão

134

14.5. Valor P

136

14.6. Significância estatística versus importância científica

136

14.7. Testes unicaudal e bicaudal

137

14.8. Execução do teste de hipótese

138

Exercícios

139

15 TESTES PARA A COMPARAÇÃO ENTRE DUAS MÉDIAS

140

15.1. Fundamento dos testes de significância

140

15.2. Teste do valor da média

141

15.3. Comparação entre a média de uma amostra e a média da população ( conhecido)

142

15.4. Região crítica:

143

15.5. Teste t

144

15.6. Comparação entre a média de uma amostra ea média da população

145

15.7. Comparação entre duas variãncias testes de Fisher (F)

147

15.8. Comparação entre as medias de duas amostras independentes

149

15.9. Duas amostras de mesmo tamanho

149

15.10. Duas amostras de tamanhos diferentes

151

15.11. Comparação entre médias de duas amostras emparelhadas

153

15.12. Resumo da aplicação de testes para comparar duas séries de dado

156

15.13. Tamanho da amostra

156

Exercícios

158

Exercícios diversos

160

16. CORRELAÇÃO E REGRESSÃO

167

16.1. Correlação

167

16.1.1. Introdução

167

16.2. Padrões de associação

167

16.3. Indicadores de associação

168

16.4. Coeficiente de correlação

171

16.5. Hipóteses básicas

171

16.7. Distribuição amostral de r (quando ρ = 0)

172

10

16.8. Distribuição amostral de r (quando ρ ≠ 0)

174

16.9. Propriedades de R

175

16.20. Regressão

175

16.21. Estimativa dos parâmetros de regressão

178

16.22. Estimativa da variância do termo erro

179

16.23. Distribuições das estimativas

182

16.23.1. Distribuição do estimador “b”

182

16.24. Decomposição da soma dos quadrados

184

16.24.1. Decomposição dos desvios

184

16.24.2. Cálculo das variações

185

16.25. Intervalos de confiança

185

16.25.1. Intervalo para o coeficiente linear (α)

185

16.25.2. Intervalo para o coeficiente angular (β)

185

16.25.3. Intervalo para previsões

186

16.26. Testes de hipóteses

187

16.26.1. Teste para a existência da regressão

188

16.26.2. Teste para o coeficiente linear

188

16.27. Coeficiente de determinação ou de explicação

189

Exercícios

190

11

1. INTRODUÇÃO Objetivos 1. Definir “estatística” 2. Listar algumas razões para o estudo da estatística 3. Definir variável 4. Distinguir entre: •

Estatística descritiva e inferencial



Variável dependente e variável independente

5. Definir variáveis nominal, ordinal, intervalar e de razão. 6. Conceituar variável aleatória 7. Distinguir entre: •

Variáveis qualitativas s quantitativas



Variáveis discretas e contínuas

Por onde quer que se olhe ou escute uma coleção de números são normalmente enunciados como estatísticas. Estes números referem-se aos mais diversos campos de atividades: esportes, economia, finanças, etc. Assim tem-se, por exemplo: * O número de carros vendidos no país aumentou em 30%. * A taxa de desemprego atinge, hoje, 7,5%. * As ações da Telebrás subiram R$ 1,5, hoje. * Resultados do Carnaval no trânsito: 145 mortos, 2430 feridos. Um número é denominado uma estatística (singular). No fechamento da bolsa as ações da Vale foram cotadas a R$ 45.50. As vendas de uma empresa no mês constituem uma estatística. Já uma coleção de números ou fatos é denominado de estatísticas (plural). Por exemplo, As vendas da empresa Picuínhas totalizaram: 2,5 milhões em janeiro, 2,7 em fevereiro e 3.1 em março. No entanto o termo Estatística tem um sentido muito mais amplo, do que apenas números ou coleção de números. A Estatística pode ser definida como: A ciência de coletar, organizar, apresentar, analisar e interpretar dados numéricos com o objetivo de tomar melhores decisões.

12

Assim como advogados possuem “regras de evidência” e contabilistas possuem “práticas comumente aceitas”, pessoas que tratam com dados numéricos seguem alguns procedimentos padrões. Alguns destes métodos serão vistos nesta disciplina e outros em uma segunda disciplina. Não esquecendo que mesmo duas disciplinas de Estatística não esgotam o assunto, ou seja, elas dão apenas uma idéia dos procedimentos e técnicas existentes para se lidar com dados numéricos.

1.1. Divisão da estatística A estatística divide-se em três (quatro) grandes áreas de conhecimento: Teoria da Amostragem, Métodos Descritivos e Inferência Estatística – a quarta grande área é a Probabilidade, porém, segundo alguns autores, Probabilidade não é parte da Estatística, mas sim um ramo da Matemática. Toda a Estatística é baseada em eventos aleatórios e sua ocorrência é baseada em probabilidades. Deste modo é impossível estudar a Estatística sem possuir conhecimentos probabilísticos.

1.1.1. Estatística descritiva: Os procedimentos usados para organizar, resumir e apresentar dados numéricos. Conjuntos de dados desorganizados são de pouco ou nenhum valor. Para que os dados se transformem em informação é necessário organizá-los, resumi-los e apresentá-los. O resumo de conjuntos de dados é feito através das medidas e a organização e apresentação através das distribuições de freqüências e dos gráficos ou diagramas. 1.1.2. Estatística Indutiva ou Inferencial. Consiste em inferir (deduzir ou tirar conclusões a respeito das) propriedades de um universo a partir de uma amostra. O processo de generalização, que é característico do método indutivo, está associado a uma margem de incerteza. A medida da incerteza é tratada mediante técnicas e métodos que se fundamentam na Teoria das Probabilidades. Dessa forma, poderíamos resumir os passos necessários para se atingir bons resultados ao realizar um experimento: ● Planejar o processo amostral e experimental. ● Obter inferências sobre a população.

13

● Estabelecer níveis de incerteza envolvidos nessas inferências

Técnicas de Amostragem População características

Amostra

Análise Descritiva

Conclusões sobre as características da população

Inferência Estatística

Informações contidas nos dados

14

2.

POPULAÇÃO E AMOSTRA

Objetivos 1. Distinguir entre: •

População e amostra



Parâmetro e estatística

2. Explicar porque o método de seleção de uma amostra é importante 3. Explicar as razões para o uso de amostras 4. Definir amostra aleatória

5. Selecionar uma amostra empregando a tabela de números aleatórios Para a realização de inferência estatística e imprescindível o conhecimento de dois conceitos básicos: a população e a amostra. É a partir deles que são extraídos os dados que dão origem aos cálculos estatísticos e que permitem descrevê-las sob diferentes aspectos. 2.1.

População ou universo: Consiste em todo o conjunto de indivíduos (pessoas, animais ou coisas) que apresentam uma ou mais características em comum susceptíveis de serem observadas e/ou determinadas. Por exemplo, peso dos habitantes de uma cidade. Cada habitante tem um peso. O conjunto de pesos de todos os seus habitantes constitui uma "população de pesos". Em estatística, a população se refere a um conjunto de seres ou a um conjunto de observações. Os valores descritivos e verdadeiros da população são chamados parâmetros. Os valores dos parâmetros devem ser estimados a partir dos dados das amostras. São simbolizados por caracteres gregos: µ = media da população. σ = desvio padrão da população. Assim, a população de pesquisa é um conjunto de indivíduos delimitados por características como: 1. O conjunto das rendas de todos os habitantes de Rio Verde-GO; 2. O conjunto de todas as notas dos alunos de Estatística; 3. O conjunto das alturas de todos os alunos da Universidade de Rio Verde;

etc. Um levantamento efetuado sobre toda uma população é dito de levantamento censitário ou simplesmente censo.

15

Fazer levantamentos, estudos, pesquisas, sobre toda uma população (censo) é, em geral, muito difícil. Isto se deve a vários fatores. O principal é o custo. Um censo custa muito caro e demanda um tempo considerável para ser realizado. Assim, normalmente, se trabalha com partes da população denominadas de amostras. Uma amostra pode ser caracterizada como: Uma porção ou parte de uma população de interesse.

2.2.

Amostra: É um subconjunto selecionado da população na qual se pretende estudar suas características, A pesquisa biomédica é usualmente realizada em amostras. Os dados de observação registrados na amostra fornecem informações sobre a população. O processo pelo qual se tira conclusões sobre a população, com base em resultados obtidos da amostra, é chamado inferência estatística. Os valores obtidos na amostra, calculados ou estimados, são denominados estatísticas. A estatística é uma estimativa do valor verdadeiro da população (parâmetro). Assim a média calculada da amostra e uma estatística e como tal, uma estimativa da média verdadeira da população. As estatísticas são simbolizadas por caracteres latinos. O processo pelo qual o parâmetro populacional é estimado pela estatística é

chamado estimação, Em virtude da variação dentro da população, diferentes amostras tiradas de uma mesma população diferem umas das outras. Por isso, com base numa única amostra, é possível apenas estimar os atributos de populações; o investigador jamais os conhecerá exatamente os valores dos parâmetros, a não ser que examine toda a população. Uma estimação eficiente do parâmetro requer uma estatística não viciada. Vício (viés, biased, tendenciosidade) é um processo em qualquer sistematicamente dos valores verdadeiros. Na estimação de parâmetros populacionais, entre os muitos cuidados a serem observados, dois são de particular importância. 3.

Definir a população a ser amostrada: A abrangência de uma população é determinada pelas características do fenômeno estudado. Essa definição deve ser criteriosa, caso contrario a amostra poderá ser inadequada. Às vezes essa definição é relativamente fácil, por exemplo, a população de trabalhadores que exercem suas atividades em determinada fábrica. Mais complexa é a situação para se estudar

16

diabéticos que procuram postos de saúde para fazer controle. 4.

Utilizar amostras representativas da população: As amostras devem possuir as mesmas características básicas da população, no que diz respeito ao fenômeno que se deseja estudar. Para atender a esse requisito, usam-se amostras aleatórias representativas da população (v adiante). Procedendo-se dessa forma, elimina-se a tendenciosidade (viés) pessoal na constituição das amostras, eliminando a escolha intencional para a comprovação de certa hipótese. No entanto, deve ser lembrado que o processo de amostragem, mesmo bem elaborado e executado, traz em si a possibilidade do erro amostral devido à variabilidade, por obra do acaso e ao fato de apenas parte da população ser examinada. Utilizar amostras para se ter conhecimento sobre populações é realizado

intensamente na Agricultura, Política, Negócios, Marketing, Governo, etc., como se podem ver pêlos seguintes exemplos: ● Antes da eleição diversos órgãos de pesquisa e imprensa ouvem um conjunto selecionado de eleitores para ter uma idéia do desempenho dos vários candidatos nas futuras eleições. ● Uma empresa metal-mecânica toma uma amostra do produto fabricado em intervalos de tempo especificados para verificar se o processo está sob controle e evitar a fabricação de itens defeituosos. ● O IBGE faz levantamentos periódicos sobre emprego, desemprego, inflação, etc. ● Redes de rádio e Tv se utilizam constantemente dos índices de popularidade dos programas para fixar valores da propaganda ou então modificar ou eliminar programas com audiência insatisfatória. ● Biólogos marcam pássaros, peixes, etc. para tentar prever e estudar seus hábitos. O processo de escolha de uma amostra da população é denominado de amostragem. Os problemas de amostragem podem ser mais ou menos complexos, dependendo das populações e das variáveis que se deseja estudar. Na indústria, para efeito de controle de qualidade, as amostras são freqüentemente retiradas dos produtos e materiais. Nela os problemas de amostragem são mais simples de resolver. Por outro

17

lado, em pesquisas sociais, econômicas ou de opinião, a complexidade dos problemas de amostragem é normalmente bastante grande. Em tais casos, deve-se ter extremo cuidado quanto à caracterização da população e ao processo usado para selecionar a amostra, a fim de evitar que os elementos constituam um conjunto com características fundamentalmente distintas das da população. Em resumo, a obtenção de soluções adequadas para o problema de amostragem exige, em geral, muito bom senso e experiência. Além disso, é muitas vezes conveniente que o trabalho de elaboração do plano de amostragem seja baseado em informações de um especialista do assunto em questão. Cuidado especial deve ser tomado nas conclusões em situações em que a amostra coletada não seja extraída exatamente da população de interesse (população alvo) e sim de uma população mais acessível, conveniente, nesse caso chamada de população amostrada. Veja os exemplos: 1) Suponha que um sociólogo deseja entender os hábitos religiosos dos homens com 20 anos de idade em certo país. Ele extrai uma amostra de homens com 20 anos de uma grande cidade para estudar. Neste caso, tem-se: População alvo – homens com 20 anos do país; População amostrada – homens com 20 anos da cidade grande amostrada. Então, ele pode fazer conclusões válidas apenas para os elementos da grande cidade (população amostrada), mas pode usar o seu julgamento pessoal para extrapolar os resultados obtidos para a população alvo, com muita cautela e certas reservas. 2) Um pesquisador agrícola está estudando a produção de certa variedade de trigo em determinado estado. Ele tem a sua disposição cinco fazendas espalhadas pelo estado, nas quais ele pode plantar trigo e observar a produção. A população amostrada, neste caso, consiste das produções de trigo nas cinco fazendas, enquanto a população alvo consiste das produções de trigo em todas as fazendas do estado.

2.3.

Técnicas de Amostragem Existem dois tipos de amostragem: probabilística e não-probabilística. A

amostragem será probabilística se todos os elementos da população tiverem probabilidade conhecida, e diferente de zero, de pertencer à amostra.

18

Caso contrário, a amostragem será não-probabilística. Uma amostragem nãoprobabilística é obtida quando o acesso a informações não é tão simples ou os recursos forem limitados, assim o pesquisador faz uso de dados que estão mais a seu alcance, é a chamada amostragem por conveniência. Por exemplo, podemos realizar um estudo para avaliar a qualidade do serviço prestado por uma operadora de telefonia celular. Caso tenhamos recursos suficientes, podemos realizar um plano amostral bastante abrangente de toda a população de usuários do serviço. Isso caracteriza uma amostra probabilística. Mas se por restrições orçamentárias ou de outra ordem não for possível obter uma amostra tão numerosa ou ela seja de difícil acesso, podemos restringir nossa amostra a uma pequena região delimitada de fácil acesso e de custo reduzido, usuários de uma cidade, por exemplo. Essa é uma amostragem não-probabilística. Segundo essa definição, a amostragem probabilística implica sorteio com regras bem determinadas, cuja realização só será possível se a população for finita e totalmente acessível. A utilização de uma amostragem probabilística é a melhor recomendação que se deve fazer no sentido de garantir a representatividade da amostra, pois o acaso é o único responsável por eventuais discrepâncias entre população e amostra. No caso em que a única possibilidade é o uso de uma amostragem não-probabilística, deve-se ter a consciência de que as conclusões apresentam alguma limitação. A seguir, apresentamos algumas das principais técnicas de amostragem probabilística. 2.3.1. Amostragem aleatória simples Esse tipo de amostragem, também chamada simples ao acaso, casual, elementar, randômica etc., é equivalente a um sorteio lotérico. Nela, todos os elementos da população têm igual probabilidade de pertencer à amostra e todas as possíveis amostras têm igual probabilidade de ocorrer. Sendo N o número de elementos da população e n o número de elementos da amostra, cada elemento da população tem probabilidade n/N de pertencer à amostra. A essa relação n/N

denomina-se fração de amostragem. Por outro lado, sendo a

N amostragem feita sem reposição, supomos, em geral, que existem   possíveis n amostras, todas igualmente prováveis.

19

Na prática, a amostragem simples ao acaso pode ser realizada numerando-se a população de 1 a N, sorteando-se, a seguir, por meio de um dispositivo aleatório qualquer, n números dessa seqüência, os quais correspondem aos elementos sorteados para a amostra. 2.3.2. Amostragem sistemática Quando os elementos da população se apresentam ordenados e a retirada dos elementos da amostra é feita periodicamente, temos uma amostragem sistemática. Assim, por exemplo, em uma linha de produção, podemos, a cada dez itens produzidos, retirar um para pertencer a uma amostra da produção diária. Assim, teremos uma produção total de N itens e extrairemos uma amostra de tamanho n, selecionando as unidades a cada dez itens. Para seleção do primeiro item, um número entre 1 e 10 é sorteado aleatoriamente e os demais subseqüentes são obtidos sistematicamente.Por exemplo, as unidades sorteadas poderão ser 8, 18, 28, 38, 48, e assim por diante, repetindo-se o procedimento até o N-ésimo item. Denomina-se k = N/n como a razão de amostragem. No exemplo, portanto, k = 10. A principal vantagem da amostragem sistemática está na grande facilidade na determinação dos elementos da amostra. O perigo em adotá-la está na possibilidade da existência de ciclos de variação da variável de interesse, especialmente se o período desses ciclos coincidir com o período de retirada dos elementos da amostra. Por outro lado, se a ordem dos elementos na população não tiver qualquer relacionamento com a variável de interesse, então a amostragem sistemática tem efeitos equivalentes à amostragem casual simples, podendo ser utilizada sem restrições. 2.3.3. Amostragem estratificada Muitas vezes, a população se divide em subpopulações ou estratos, sendo razoável supor que, de estrato para estrato, a variável de interesse apresente um comportamento

substancialmente

diverso,

tendo,

entretanto,

comportamento

razoavelmente homogêneo dentro de cada estrato. Em tais casos, se o sorteio dos elementos da amostra for realizado sem se levar em consideração a existência dos estratos, pode acontecer que os diversos estratos não sejam convenientemente representados na amostra, a qual seria mais influenciada pelas características da variável nos estratos mais favorecidos pelo sorteio. Evidentemente, a tendência à ocorrência de

20

tal fato será tanto maior quanto menor o tamanho da amostra. Para evitar isso, pode-se adotar uma amostragem estratificada. Constituem exemplos em que uma amostragem estratificada parece ser recomendável, a estratificação de uma cidade em bairros, quando se deseja investigar alguma variável relacionada à renda familiar; a estratificação de uma população humana em homens e mulheres, ou por faixas etárias; a estratificação de uma população de estudantes conforme suas especificações etc. 2.3.4. Amostragem por conglomerados Neste método, em vez da seleção de unidades da população, são selecionados conglomerados dessas unidades. Essa é uma alternativa para quando não existe o cadastro das unidades amostrais. Se a unidade de interesse, por exemplo, for um aluno, pode ser que não exista um cadastro de alunos, mas sim de escolas. Portanto, podem ser selecionadas escolas e nelas investigar todos os alunos. Esse tipo de amostragem induz indiretamente aleatoriedade na seleção das unidades que formam a amostra e tem a grande vantagem de facilitar a coleta de dados. 2.3.5. Amostragem de conveniência (não-probabilística) A amostra de conveniência é formada por elementos que o pesquisador reuniu simplesmente porque dispunha deles. Então, se o professor tomar os alunos de sua classe como amostra de toda a escola, está usando uma amostra de conveniência. Os estatísticos têm muitas restrições ao uso de amostras de conveniência. Mesmo assim, as amostras de conveniência são comuns na área de saúde, em que se fazem pesquisas com pacientes de uma só clínica ou de um só hospital. Mais ainda, as amostras de conveniência constituem, muitas vezes, a única maneira de estudar determinado problema. De qualquer forma, o pesquisador que utiliza amostras de conveniência precisa de muito senso crítico. Os dados podem ser tendenciosos. Por exemplo, para estimar a probabilidade de morte por desidratação não se deve recorrer aos dados de um hospital. Como só são internados os casos graves, é possível que a mortalidade entre pacientes internados seja maior do que entre pacientes não-internados. Conseqüentemente, a amostra de conveniência constituída, nesse exemplo, por pacientes internados no hospital, seria tendenciosa.

21

Finalmente, o pesquisador que trabalha com amostras sempre pretende fazer inferência, isto é, estender os resultados da amostra para toda a população. Então é muito importante caracterizar bem a amostra e estender os resultados obtidos na amostra apenas para a população da qual a amostra proveio. Exemplos de planos amostrais: Exemplo 1: Uma agência de seguros tem N = 100 clientes comerciantes. Seu proprietário pretende entrevistar uma amostra de 10 clientes para levantar possibilidades de melhora no atendimento. Escolha uma amostra aleatória simples de tamanho n = 10. Primeiro passo – atribuir a cada cliente um número entre 1 e 100. Segundo passo – recorrer a um gerador de números aleatórios de uma planilha eletrônica para selecionar aleatoriamente 10 números de 1 a 100. Os clientes identificados pelos números selecionados compõem a amostra. Exemplo 2: Uma operadora de celular tem um arquivo com N = 5 000 fichas de usuários de um serviço e é selecionada, sistematicamente, uma amostra de n = 1 000 usuários. Nesse caso, a fração de amostragem é igual a n/N = 1 000/5 000 e assim podemos definir k = 5 (N/n = 5 000/1 000 = 5), ou seja, teremos 5 elementos na população para cada elemento selecionado na amostra. Na amostragem sistemática, somente o ponto de partida é sorteado dentre as 5 primeiras fichas do arquivo. Admitamos que foi sorteado o número 3, então a amostra será formada pelas fichas 3 , 8, 13 , 18, . . . , 4993, 4998.

22

3.

VARIÁVEL É a característica que se deseja estudar de uma dada população.

Ex.: Cor dos olhos dos moradores da cidade de Rio Verde - GO, altura dos alunos da FESURV, resistência muscular localizada para exercícios abdominais em obesos etc.

3.1. Classificação das variáveis As variáveis são classificadas segundo suas características particulares em quatro categorias. Tais classificações não são simplesmente didáticas, mas assumem papel importante na estatística, pois terão tratamentos diferentes como será visto adiante.

3.2.

Contínuas: são aquelas que podem assumir qualquer valor dentro de um intervalo de interesse. Os dados advindos deste tipo de variável são ditos contínuos. Ex.: peso, estatura, distância percorrida em um teste de esforço etc. Em geral estão associadas a medidas que tenham unidade (m, kg, l, m/s etc.) Exemplo 1: (variável quantitativa contínua) População: moradores de uma determinada cidade. Variável: estatura dos indivíduos.

3.3.

Discretas: são aquelas que só podem assumir valores inteiros dentro de um intervalo de interesse. Os dados discretos são resultados da contagem do número de itens referente à variável. Ex.: número de repetições executadas em uma tarefa, número de filhos de um casal, quantidade de aves abatidas por um frigprífico, etc. Exemplo 2: (variável quantitativa discreta) População: hospitais de uma determinada cidade. Variável: número de leitos (0, 1, 2,...).

3.4.

Nominais ou categóricas: são aquelas que só podem assumir alguns estados ou categorias e geralmente não são numéricas: Os dados nominais surgem quando se definem categorias e se conta suas observações. Ex.: Sexo de uma

23

população (masculino e feminino) queixas de dor lombar (sim e não), cor dos olhos de uma população (azuis, castanhos, pretos, verdes) etc. Exemplo 3: (variável qualitativa nominal) População: moradores de uma cidade. Variável: cor dos olhos (pretos, castanhos, azuis e verdes). Exemplo 4: (variável qualitativa ordinal) População: moradores de um condomínio. Variável: grau de instrução (fundamental médio e superior).

3.5.

Ordinais: São aquelas que se relacionam a avaliações subjetivas segundo preferência ou desempenho. Os dados ordinais constituem valores relativos, atribuídos para denotar ordem. Ex.: primeiro, segundo, terceiro, quarto, o melhor, o maior etc.

24

4. ESCALAS DE MENSURAÇÃO Existem quatro formas de mensuração ou tipos ou níveis de medidas ou ainda, escalas. Elas são conhecidas como nominal, ordinal, intervalar e razão. • Nominal: Na classificação tenta-se separar conjuntos de elementos com respeito a certas categorias, tomando decisões sobre quais elementos são mais parecidos e quais são diferentes. Por exemplo: religião, sexo, estado civil. • Ordinal: O nível ordinal é o nível nominal onde se pode ordenar as características ou categorias. A única diferença entre os dois níveis é a relação de ordem que se pode estabelecer entre as categorias. A avaliação através de conceitos é feita por uma escala ordinal. Outros exemplos: classe social, nível de instrução. • Intervalar: Pode ser utilizada para se referir as situações em que se pode, não somente ordenar objetos com respeito ao grau que eles possuem certa característica, mas também indicar a exata distância entre eles. A escala de medida intervalar é uma escala nominal em que a distância entre as categorias, ao contrário da ordinal, é sempre a mesma. As escalas de medir temperatura como Celsius e Fahrenheit são exemplos de escalas de intervalo. Não se pode afirmar que uma temperatura de 40º é 2 vezes mais quente que uma de 20º, porém a diferença entre 20º e 40º é a mesma que entre 75º e 95º. Isto ocorre, pois não existe zero absoluto, ié, 0º não indica ausência de calor e é apenas um ponto de referência. Escores padronizados são exemplos deste tipo de medida. • Nível de razão: É o mais alto nível de medida. Caracteriza-se por apresentar todas as características do nível intervalar mais um zero absoluto. O zero absoluto aqui é entendido como ausência da característica e a comparação de valor tem sentido. Por exemplo: Peso. 0 kg indica ausência de peso e 20 kg é duas vezes mais pesado que 10 kg.

25

5. ANÁLISE EXPLORATÓRIA DE DADOS

5.1.

Introdução As técnicas estatísticas clássicas foram concebidas para serem as melhores

possíveis, desde que se assuma um conjunto de pressupostos rígidos. Sabe-se que essas técnicas se comportam deficientemente à medida que este conjunto de pressupostos não é satisfeito. As técnicas de Análise Exploratória de Dados contribuem para aumentar a eficácia da análise estatística, de forma fácil e rápida. Geralmente, devem ser aplicadas antes da formulação das hipóteses estatísticas para identificar padrões e características dos dados. Uma amostra é um subconjunto de uma população, necessariamente finito, pois todos os seus elementos são examinados para efeito da realização do estudo estatístico desejado. É intuitivo que, quanto maior a amostra, mais precisas e confiáveis devem ser as induções realizadas sobre a população. Levando esse raciocínio ao extremo, concluiríamos que os resultados mais perfeitos seriam obtidos pelo exame completo de toda a população, ao qual costuma-se denominar Censoou Recenseamento. Mas essa conclusão, na prática, muitas vezes não se verifica. O emprego de amostras pode ser feito de tal modo que se obtenham resultados confiáveis. Ocorre, em realidade, que diversas razões levam, em geral, à necessidade de recorrer-se apenas aos elementos de uma amostra. Entre ela, podemos citar o custo do levantamento de dados e o tempo necessário para realizá-lo, especialmente se a população for muito grande. O objetivo da Estatística Descritiva é resumir as principais características de um conjunto de dados por meio de tabelas, gráficos e resumos numéricos. A análise estatística deve ser extremamente cuidadosa ao escolher a forma adequada de resumir os dados. Apresentamos na tabela a seguir um resumo dos procedimentos da Estatística Descritiva.

26

Tabela 1: Principais técnicas de estatística descritiva Tabelas de Freqüência

Gráficos

Medidas Descritivas

Apropriada para resumir um grande conjunto de dados, agrupando informações em categorias. As classes que compõem a tabela podem ser categorias pontuais ou por intervalos. Possibilita uma visualização das principais características da amostra. Alguns exemplos de gráficos são: diagrama de barras, diagrama em setores, histograma, Box-plot, ramo-e-folhas, diagrama de dispersão. Por meio de medidas ou resumos numéricos podemos levantar importantes informações sobre o conjunto de dados, tais como: a tendência central, variabilidade, simetria, valores extremos, valores discrepantes, etc.

Um dos objetivos da Estatística é sintetizar os valores que uma ou mais variáveis podem assumir, para que tenhamos uma visão global da variação dessa ou dessas variáveis. Isso se consegue, inicialmente, apresentando esses valores em tabelas e gráficos, que fornecem rápidas e seguras informações a respeito das variáveis.

5.2.

Tabelas Uma tabela resume os dados por meio do uso de linhas e colunas, nas quais são

inseridos os números. Uma tabela compõe-se de: ● Corpo – conjunto de linhas e colunas que contém informações sobre a variável em estudo. ● Cabeçalho – parte superior da tabela que especifica o conteúdo das colunas. ● Coluna Indicadora – parte da tabela que especifica o conteúdo das linhas. ● Linhas – retas imaginárias que facilitam a leitura, no sentido horizontal, de dados que se inscrevem nos seus cruzamentos com as colunas. ● Casas ou Células – espaço destinado a um só número. ● Título – conjunto de informações (as mais completas possíveis) localizado no topo da tabela. Existem ainda, elementos complementares que são: a fonte, as notas e as chamadas, os quais devem ser colocados no rodapé da tabela. As notas devem esclarecer aspectos relevantes do levantamento dos dados ou da apuração. As chamadas dão esclarecimentos sobre os dados. Devem ser feitas de algarismos arábicos escritos entre parênteses, e colocados à direita da coluna.

27

Exemplo: Tabela 2: População brasileira residente, com 15 anos e mais, segundo o estado conjugal, de acordo com o censo demográfico de 1980. Estão computados, como Estado conjugal Freqüência Percentual separados, os desquitados e os Solteiros1 25 146 484 34,18 divorciados. Casados2

41 974 865

57,06

Separados

1 816 046

2,47

Viúvos

3 616 046

4,92

Sem declaração

1 005 234

1,37

1

Exclusive as pessoas solteiras, vivendo em união consensual estável.

2

Inclusive 4 939 528 pessoas vivendo em união consensual estável.

Observação: Nas casas ou células devemos colocar: Um traço horizontal ( __ ) quando o valor é zero, não só quanto a natureza das coisas, como quanto ao resultado do inquérito; Três pontos ( ... ) quando não temos dados; Ponto de interrogação ( ? ) quando temos dúvida quanto a exatidão de um valor; Zero ( 0 ) quando o valor é muito pequeno para ser expresso pela unidade utilizada.

28

6. SÉRIES E GRÁFICOS ESTATÍSTICOS 6.1. Introdução Foi estabelecido que a etapa final do método estatístico envolve a análise e interpretação de números, obtidos na etapa de coleta de dados. O conjunto de números proveniente da coleta de dados, sem qualquer manipulação na sua forma de apresentação, é denominado de dados brutos. Nesta forma de apresentação, ainda sem qualquer tipo de processamento, a tentativa de análise e interpretação de uma característica, além de extremamente árdua, pode confundir ao invés de esclarecer, quando se considera nossa limitada capacidade de lidar com um grande conjunto de dados. Surge então a necessidade de organização e redução. O processamento dos dados torna-se necessário para reduzir a quantidade de detalhes, facilitando a identificação da essência dos dados. Tanto os resumos visuais, utilizados no que denominamos de apresentação gráfica, quanto os resumos numéricos, provenientes das técnicas de apresentação tablar, proporcionam facilidades na identificação das características mais importantes dos dados. Este capítulo tem por objetivo apresentar os principais conceitos envolvidos na apresentação de dados nas formas tabular e gráfica.

6.1.1. Séries Estatísticas Toda tabela que apresenta a distribuição de um conjunto de dados estatísticos em relação à época, local ou espécie, é denominada de séries estatísticas. Em função dos fatores apontados, as séries numéricas podem ser classificadas em quatro grandes classes: históricas, geográficas, conjugadas e específicas. Nesta última classe, podemos enquadrar um tipo especial de representação de dados estatísticos: a distribuição de frquencias.

6.1.1.1. Séries Históricas, Cronológicas, Temporais ou Marchas Descrevem os valores da variável, em determinado local, discriminados segundo intervalos de tempo variáveis.

29

Exemplo

Efetivo de rebanhos bovinos (cabeças) Rio Verde-GO, 2004-2010 Ano 2004

Cabeças (1.000) 325

2005

343

2006

320

2007

375

2008

390

2009

412

2010

400

Fonte: Seplan-GO

6.1.1.2. Séries Geográficas, Espaciais, Territoriais ou de Localização Descrevem

os

valores

da

variável,

em

determinado

instante,

discriminados segundo regiões. Exemplo Produção mundoal de soja, Safra 2010/2011 Área Colhida (mil hectares)

Participação %

Estados Unidos

31.006

30,2

Brasil

24.200

23,5

Argentina

18.300

17,8

Índia

9.400

9,1

China

8.520

8,3

Paraguai

2.840

2,8

Canadá

1.477

1,4

Ucrânia

1.037

1,0

Rússia

1.036

1,0

Demais Países (33)

5.007

4,9

Área Colhida Total

102.823

100,0

País

Fonte: IBGE

6.1.1.3. Séries Conjugadas e Tabela de Dupla Entrada Muitas vezes temos necessidade de apresentar, em uma única tabela, a variação de valores de mais de uma variável, isto é, fazer uma conjugação de duas ou mais séries. Conjugando duas séries em uma única tabela, obtemos uma tabela de dupla entrada. Em uma tabela desse tipo ficam criadas duas ordens de classificação: uma horizontal (linha) e uma vertical (coluna).

30

Exemplo: Terminais telefônicos em serviço 1991-93 REGIÕES Norte Nordeste Sudeste Sul Centro-Oeste

1991

1992

1993

342.938 1.287.813 6.234.501 1.497.315 713.357

375.678 1.379.101 6.729.467 1.608.989 778.925

403.494 1486.649 7231.634 1.746.232 884.882

FONTE: Ministério das Comunicações

6.1.1.4. Séries Específicas ou Categóricas Descrevem os valores da variável, em determinado tempo e local, discriminados segundo especificações ou categorias. Exemplo: Efetivo da pecuária do Estado de Goiás Espécies Aves Codornas Galináceos Rebanho de Asininos Rebanho Bovino

Cabeças 55.156.362 243.150 54.913.212 6.084 21.347.881

Rebanho de Bubalinos

32.656

Rebanho de Caprinos

39.737

Rebanho de Equinos

428.367

Rebanho de Muares

42.530

Rebanho de Ovinos

201.173

Rebanho de Suínos

2.046.727

Rebanho de Vacas Ordenhadas

2.479.869

Fonte: SEPLAN-GO

31

6.2.

Gráficos Estatísticos Os gráficos constituem uma forma clara e objetiva de apresentar dados

estatísticos. A intenção é a de proporcionar aos leitores em geral a compreensão e a veracidade dos fatos. De acordo com a característica da informação precisamos escolher o gráfico correto. Os mais usuais são: gráfico de segmentos, gráfico de barras e gráfico de setores 6.2.1. Gráficos de linha – útil quando se deseja representar a evolução de diversas variáveis ao longo de vários momentos de tempo. É um grá fico de duas dimensões formado por dois eixos perpendiculares. Em que o tempo é representado no eixo horizontal X e os resultados das variáveis no eixo vertical Y. Exemplo Uma locadora de filmes em DVD registrou o número de locações no 1º semestre do ano de 2008. Os dados foram expressos em um gráfico de segmentos

6.2.2.

Gráfico de colunas e gráfico de barras – apresentam os resultados por meio do

desenho de diversas barras. Em que cada categoria da variável em estudo é associada a uma barra e o comprimento da barra diz respeito ao resultado indicado para a categoria. Pode

ser

usada

também

em

representações

envolvendo

diversas

variáveis.

Acompanhadas em diversos momentos de tempo Os exemplos a seguir mostram o consumo de energia elétrica no decorrer do ano de 2005 de uma família

32

6.2.3. Gráfico em setores (pizza) – composto de um círculo repartido em n fatias. Com tamanhos proporcionais à ocorrência da variável nos resultados da pesquisa. Representando um certo instante no tempo. Sugere-se que seja aplicado em variáveis com no máximo 8 categorias. O gráfico a seguir mostrará a preferência dos clientes de uma locadora quanto ao gênero dos filmes locados durante a semana

33

Guerra 14%

Outros 5% Ficção 22%

Terror 15%

Aventura 19% Comédia 25%

6.2.4. Outros tipos de gráficos 6.2.4.1.

Cartograma: Utilizado para representar mapas;

6.2.4.2.

Estereograma: tereograma: Utilizado para representar volume;

6.2.4.3.

Pictograma:: Utilizado para representar figuras

Exemplos Cartograma

Estereograma

Pictograma

34

7. DISTRIBUIÇÃO DE FREQÜÊNCIAS 7.1.

Introdução

Objetivos 1. Construir uma tabela de freqüência que inclua classes, limites de classe freqüência simples, freqüências relativa, freqüência acumulada e freqüência acumulada relativa.

2. Interpretar uma tabela de freqüências. Para se trabalhar com grandes conjuntos de dados é necessário inicialmente agrupar estes dados. O agrupamento é feito em tabelas, denominadas de distribuições de freqüências. Para se construir uma distribuição de freqüências é comum fazer a distinção entre dois tipos de variáveis. A variável (ou conjunto) discreta (valores que são resultados de contagem) e a variável (ou conjunto) contínua (valores que são resultados de uma medida). Em geral variáveis discretas são agrupadas em distribuições por ponto ou valores e variáveis contínuas em distribuições por classes ou intervalos. A separação não é rígida e depende basicamente dos dados considerados. Poderá ser necessário usar uma distribuição por classes ou intervalos mesmo quando a variável é discreta. 7.2.

Distribuições por ponto ou valores. Considere-se um conjunto de valores resultados de uma contagem. Poderia ser,

por exemplo, o número de irmãos dos alunos da turma U, disciplina de Estatística. Número de irmãos dos alunos da turma U - disciplina Estatística 0

1

1

6

3

1

3

1

1

0

4

5

1

1

1

0

2

2

4

1

3

1

2

1

1

1

1

5

5

6

4

1

1

0

2

1

4

3

2

2

1

0

2

1

1

2

3

0

1

0

Esta coleção de valores não constitui informação, mas pode ser transformada em informação mediante sua representação em uma distribuição de freqüências por pontos ou valores. Para tal, colocase o conjunto em uma tabela em que a coluna da esquerda é representada pelos diferentes números ordenados (os pontos ou valores) e a coluna da

35

direita pelo número de vezes que cada valor se repetiu (as freqüências simples ou absolutas). Para o exemplo, na tabela três, tem-se: Tabela 03 - Distribuição de freqüências por ponto ou valores do número de irmãos dos alunos da turma U. Disciplina Estatística. Número de irmãos

7.3.

Número de alunos

0

7

1

21

2

8

3

5

4

4

5

3

6

2

Σ

50

Distribuições por classes ou intervalos Considere-se um conjunto de valores resultados de uma medida. Poderia ser, por

exemplo, a idade dos alunos da turma U da disciplina de Estatística. Idade (em meses) dos alunos da turma U - Disciplina Estatística

230

234

276

245

345

240

270

310

368

369

334

268

288

336

299

236

239

355

330

247

287

344

300

244

303

248

251

265

246

266

240

320

308

299

312

324

289

320

264

275

252

298

315

255

274

264

263

230

303

281

Este conjunto de valores, obviamente não pode ser apresentado da mesma forma que o anterior, pois quase não há repetições. Neste caso é necessário construir uma tabela denominada de ”distribuição de freqüências por classes ou intervalos”. Evidentemente haverá perda de informação neste processo, mas o ganho obtido pela facilidade compreensão dos dados compensa. O procedimento para construir esta distribuição envolve os seguintes passos (algoritmo): ● Determinar a amplitude dos dados: h = xmax - xmin. ● Decidir sobre o número de classes “i“ a ser utilizado. Recomenda-se um número de classes entre 5 e 15. Para que a decisão não seja totalmente arbitrária pode-se usar

36

n g o l 3 3 1

i≅ + , .

ou

i≅ n

● Determinar a amplitude de cada classe. Sempre que possível manter todas as amplitudes iguais. Para tanto deve-se dividir a amplitude dos dados “h” pelo número de classes “i”, arredondando para mais, ou seja, h i ≅

h . i

● Contar o número de valores pertencentes a cada classe. Em geral, utiliza-se a simbologia (|--- ), para indicar um intervalo fechado à esquerda e aberto à direita. Também poderia ser utilizado o intervalo aberto à esquerda e fechado à direita (---|), aberto de ambos os lados ( --- ) ou ainda fechado de ambos os lados (|---|). Um exemplo de uma distribuição por classes ou intervalos é apresentado na tabela 04. Tabela 04 - Idades dos alunos da turma U - Disciplina Estatística.

7.4.

Idades

Número de alunos

230 |---- 250

12

250 |---- 270

9

270 |---- 290

8

290 |---- 310

7

310 |---- 330

6

330 |---- 350

5

350 |---- 370

3

Total

50

Elementos de uma distribuição de freqüências

7.4.1. Classes São intervalos de variação da variável. As classes são representadas simbolicamente por i, sendo i = 1, 2, 3, ..., k (onde k é o número total de classes da distribuição). 7.4.2. limites de classe São os extremos de cada classe. O menor número é o limite inferior da classe (li) e o maior número, o limite superior da classe (Li).

37

7.4.3. Amplitude de um intervalo de classe, ou, simplesmente, intervalo de classe É a medida do intervalo que define a classe. Ela é obtida pela diferença entre os limites superior e inferior dessa classe e indicada por hi. Assim: hi = Li - li 7.4.4. Amplitude total da distribuição (AT) É a diferença entre o limite superior da última classe (limite superior máximo) e o limite inferior da primeira classe (limite inferior mínimo): AT = L(máx) – l(mín)

7.4.5. Amplitude amostral (AA) É a diferença entre o valor máximo e o valor mínimo da amostra: AA = x(máx) – x(mín)

2

7.4.6. Ponto médio de uma classe (x i ) É como o próprio nome indica, o ponto que divide o intervalo de classe em duas partes iguais. Para obtermos o ponto médio de uma classe, calculamos a semi-soma dos limites de da classe (média aritmética): ( l + Li ) xi = i 7.4.7. Freqüência simples ou freqüência absoluta ou, simplesmente, freqüência de uma classe ou de um valor individual É o número de observações correspondentes a essa classe ou a esse valor. A freqüência simples é simbolizada por f i (lemos: f índice i ou freqüência da classe i).

7.5.

Tipos de Freqüências

7.5.1. Freqüências simples ou absolutas (f i ) São os valores que realmente representam o número de dados de cada classe. Como vimos, a soma das freqüências simples é igual ao número total dos dados:

38

∑ fi = n

7.5.2. Freqüências relativas (fr i ) São os valores das razões entre as freqüências simples e a freqüência total: Como vimos, a soma das freqüências simples é igual ao número total dos dados:

fri =

fi n

7.5.3. Freqüência acumulada (F i ) É o total das freqüências de todos os valores inferiores ao limite superior do intervalo de uma dada classe: F k = f 1 + f 2 + ... + f k

ou

F k = ∑ f i (i = 1, 2, ..., k)

7.5.4. Freqüência acumulada relativa (Fr i ) de uma classe É a freqüência acumulada da classe, dividida pela freqüência total da distribuição:

Fri =

Fi n

Exemplo: Na tabela 05, abaixo, estão ilustrados os cálculos das freqüências relativas percentuais, da freqüência acumulada simples e da freqüência acumulada percentual.

Tabela 05 - Exemplos de freqüências Fi

fri

7

0,14

28

fri

Fri

0,14

14,0

14,0

0,42

0,56

42,0

56,0

36

0,16

0,72

16,0

72,0

41

0,1

0,82

10,0

82,0

45

0,08

0,9

8,0

90,0

48

0,06

0,96

6,0

96,0

50

0,04

1

4,0

100,0

1,00

Fri

100,0

39

7.6.

Apresentação de uma distribuição de freqüências

7.6.1. Distribuição de freqüências por pontos ou valores. Uma distribuição de freqüências por pontos ou valores é apresentada graficamente através de um diagrama de linhas ou colunas, onde a variável “xi” é representada no eixo das abcissas (horizontal) e as freqüências (que podem ser de qualquer tipo) no eixo das ordenadas (vertical). Veja-se um exemplo de diagrama de colunas simples na figura 01. Figura 01 - Diagrama de colunas simples da variável "número de irmãos dos alunos da turma U Disciplina de Estatística" 25

20

15

10

5

0 1

2

3

4

5

6

7

7.6.2. Distribuição de freqüências por classes ou intervalos Uma distribuição de freqüências por classes ou intervalos é apresentada graficamente através de um diagrama denominado de histograma. Um histograma é um gráfico de retângulos justapostos onde a base de cada retângulo é a amplitude de cada classe e a altura é proporcional a freqüência (simples ou relativa) de modo que a área de cada retângulo seja igual a freqüência considerada. Desta forma a altura de cada retângulo será igual a: fi / hi ou então fri / hi. Veja-se o cálculo das alturas na tabela 06 e o exemplo na figura 02. Também pode ser construído um histograma utilizando-se as freqüências acumuladas. Neste caso o diagrama resultante é denominado de ogiva. Se os pontos médios de cada classe de um histograma forem unidos através de segmentos de retas teremos então um diagrama denominado de polígono de freqüências.

40

7.7. Gráficos de distribuições de frequências As distribuições de freqüências de uma variável contínua são representadas graficamente por histogramas de freqüências, polígonos de freqüências e polígonos de freqüências

acumuladas.

Empregando

a

tabela

abaixo

como

exemplo

serão

confeccionados os gráficos correspondentes. Tabela 4.6 –

Notas dos alunos da Disciplina de Genética do Curso de Medicina – 1978 Notas f F 0├2 2├4 4├6 6├8 8 ├ 10

i

i

2 7 11 10 5 35

2 9 20 30 35

Fonte: dados fictícios

7.7.1. Histograma de frequências O histograma é formado por um conjunto de retângulos justapostos, cujas bases se localizam sobre o eixo horizontal (eixo x), onde são representados os intervalos de classe numa escala contínua, não sendo necessário que a escala inicie de zero. As freqüências são representadas no eixo vertical (eixo y) começando de zero. As larguras dos retângulos são iguais às amplitudes dos intervalos de classe. As alturas dos retângulos devem ser proporcionais às freqüências, absoluta ou relativa, das classes. A distribuição da Tabela 4.6 de notas dos alunos do curso de Genética corresponde ao histograma da Figura 4.5. Figura 4.5 – Histograma

41

12

Frequência

10 8 6 4 2 0

2

4

61

8

10

Fonte: dados fictícios

Notas: 1. O histograma goza de uma propriedade de considerável utilidade: a área de um histograma é proporcional à soma das freqüências. 2. Ao empregar as freqüências relativas obtêm-se um gráfico de área unitária. 3. Para comparar duas distribuições, o ideal é fazê-lo pelo histograma de freqüências percentuais. 4. Nas distribuições contínuas com classes de intervalos diferentes é necessário o ajuste das freqüências para que a figura geométrica seja proporcional à freqüência de ocorrência da variável. 7.7.2. Polígono de frequência O polígono de freqüência é um gráfico em linha de uma distribuição de freqüências. As freqüências são marcadas sobre perpendiculares ao eixo horizontal, levantadas pêlos pontos médios dos intervalos de classe. Para realmente obter um polígono (linha fechada), deve-se completar a figura, ligando os extremos da linha obtida aos pontos médios da classe anterior à primeira e posterior à última, da distribuição. Para a distribuição da Tabela de notas dos alunos do curso de Genética (Tabela 4.6) corresponde o polígono de freqüência a seguir: Figura 4.6 - Polígono de frequências12

42

12

Frequência

10 8 6 4 2 0 0---2

2---4

4---6

6---8

8---10

Fonte: dados fictícios

7.7.3. Polígono de frequência acumulada O polígono de freqüência acumulada é traçado marcando-se as freqüências acumuladas sobre perpendiculares ao eixo horizontal c levantadas nos pontos correspondentes aos limites superiores dos intervalos de classe. Assim a distribuição da Tabela 4.6 corresponde ao polígono de freqüência acumulada a seguir: Figura 4.9 – Polígono de freqüências acumuladas 40 35

Frequência

30 25 20 15 10 5 0 0---2

2---4

4---6

6---8

8---10

Fonte: dados fictícios

43

A representação gráfica de uma distribuição de freqüências sem intervalos de classe será dada por um diagrama onde cada valor da variável será representada por um segmento da rela vertical e de comprimento proporcional à respectiva freqüência. 7.7.4. Gráfico stem-and-leaf (tronco e folhas) O gráfico stem-and-leaf (tronco e folhas) (Tukey 1977) é semelhante a um histograma deitado, com maior quantidade de informações. Um gráfico stem-and-leaf bem construído informa a amplitude da série de dados, mostra a localização da maior densidade de dados e revela a presença ou ausência de simetria. A vantagem do gráfico stem-and-leaf sobre o histograma é a preservação das informações contidas em cada dado. Essas informações são perdidas quando os dados são reunidos em um intervalo de classe. Para construir um gráfico stem-and-leaf cada dado é dividido em duas partes. A primeira parte é denominada stem (tronco) e a segunda é chamada leaf (folha). O stem consiste de um ou mais dígitos iniciais do dado e a Jeaf é composta de um ou mais dos dígitos restantes. Todos os números são dispostos em um único gráfico; os troncos formam uma coluna ordenada com o menor valor no topo e o maior na base. As linhas do gráfico contêm as folhas, ordenadas c listadas a direita de seus respectivos troncos (stem). Decimais, quando presentes nos dados originais, são omitidos no gráfico stemand-leaf. O tronco é separado das suas folhas por uma linha vertical. Os gráficos stem-and-leaf são mais efetivos com conjuntos de dados relativamente pequenos. Não são recomendáveis para um grande número de dados. São de grande valor para subsidiar investigadores nas tomadas de decisão sobre a natureza dos dados. Para documentos de circulação externa, os histogramas são mais apropriados. Como exemplo empregam-se os dados da tabela a seguir: 17 17 19 22 23 25 28 29 30 34 34 34

Fonte: dados fictícios

37 38 38 39 41 42 43 45 47 47 48 49

49 50 51 51 51 53 56 56 57 58 59 59

59 63 64 65 67 67 68 68 68 69 74 75

76 79 79 79 82 83 85 85 86 86 87 89

44

Como todos os dados são constituidos de dois digitos, o primeiro será o tronco e o segundo a folha: Tronco (Stem) 1 2 3 4 5 6 7 8

Folha (Leaf) 779 23589 04447889 123477899 011136678999 344578889 456999 23556679

Fonte: dados fictícios

45

8. MEDIDAS DE POSIÇÃO As medidas de posição, também conhecidas como medidas de tendência central, indicam os valores em torno do quais ocorre a maior concentração do fenômeno quantitativo em estudo. A média aritmética, a moda e a mediana são as três medidas de tendência central ou promédios mais utilizados para descrever o conjunto de valores representativos do fenômeno que se deseja estudar. Outros promédios menos utilizados são a média geométrica, harmônica, quadrática, cúbica e biquadrática. Essas últimas não serão descritas nesse trabalho. 8.1. Média aritmética A média aritmética é o mais simples dos valores descritivos de uma amostra. A média da amostra é uma estatística representada pelo símbolo X (x barra). 8.1.1. Média nas séries de dados não agrupados É a média aritmética dos dados de observações da amostra:

X=

∑ xi n

A variável è representada por xi, sendo xi o valor numérico da primeira observação, x2 o da seguinte, e assim por diante, até i = n, isto é, xn sendo n o número total de observações da amostra. O ∑ (letra grega sigma) significa "notação de somatório". ∑ xi, é a soma de todas as observações xi. Portanto, a média é a soma dos valores de todas as observações da amostra, dividida pelo número (n) de valores. Exemplo 5.1 A determinação de glicose plasmática em 9 indivíduos forneceu os seguintes resultados (em mg/dL): 90, 86, 78, 90, 98, 90, 82, 76 e 84 Calcular a média.

x=

90 + 89 + 78 + 90 + 98 + 90 + 82 + 76 + 84 9

= 86mg / dL

A média amostrai, X é uma medida descritiva de uma amostra e é uma estimativa da média da população, simbolizada pela letra grega, µ (mu). Ou seja. µ é uma medida descritiva da população (parâmetro populacional).

46

8.1.2. Média nas séries de dados agrupados sem intervalo de classe Nesse caso, como as freqüências são números indicadores da intensidade de cada valor da variável, elas funcionam como fatores de ponderação, o que leva a calcular a média aritmética ponderada, dada pela fórmula: X=

∑x f

i i

n

Onde: xi= valor variável

f i = Freqüência Exemplo 5.2 Considerando-se a distribuição relativa a 40 requisições médicas encaminhadas a um laboratório clínico, toma-se para variável o número de exames solicitados cm cada requisição (ver tabela abaixo). Um modo prático de obtenção da media ponderada abrir, na tabela, uma coluna correspondente aos produtos xifi, assim:

xi 2 3 4 5 6 7

fi 8 23 9 6 3 1 ∑ =40

xifi 16 39 36 30 18 7 ∑ = 146

Cálculo:

∑ fi

=

5 6 3

∑ xi fi

6 4 0 1 4

X=

= ,

exames

47

8.1.3. Média nas séries de dados agrupados com intervalos de classes Nesse caso, utiliza-se o ponto médio de cada classe como uma aproximação de todos os valores contidos na classe. Determina-se a média aritmética por meio da fórmula:

X=

∑ x i fi ∑ fi

Onde: Σxifi = É o somatório dos produtos de cada ponto médio de classe (xi) pela respectiva

freqüência (fi) Σfi = É o número total de observações

Exemplo 5.3 Para o exemplo da determinação do colesterol em uma amostra controle (v. Cap. 3), abre-se uma coluna para os produtos médios das classes c outra para os produtos xi,fi: Concentração 154├ 158 158├ 162 162├ 166 166├ 170 170├ 174 174├ 178

i 1 2 3 4 5 6

∑ xi fi ∑ fi

=

xifi 624 1920 2296 1680 1204 528 Σ = 8252

5 6 1 2 5 0 2 5 8

Cálculo:

X=

xi 156 160 164 168 172 176

fi

4 12 14 10 7 3 Σ=50

=

mg / dL

Nota: A média aritmética de dados agrupados em classes não pode ser calculada quando a primeira e a última classe apresentam extremos indefinidos indefinidos. 8.2. Moda (Mo) A moda (Mo) (ou norma) é o valor que ocorre com maior freqüência em um conjunto de valores. É uma medida de dominância. Não é afetada por valores

48

extremos. Para o conjunto de dados do exemplo 5.1: 76, 78, 82, 84, 86, 90, 90, 90, 98 a moda é 90. Pode-se deparar com conjunto de dados, onde nenhum valor é repetido e, portanto, não existe moda. Essa é uma distribuição amodal. Ex.: a serie 3,5,8,10,12,13. Em outro casos, pode haver mais de um valor repetido. Diz-se distribuição plurimodal. Na serie: 2, 3, 4, 4, 4, 5, 6, 7, 7, 7, 8, 9, temos duas modas: 4 e 7 (distribuição bimodal). 8.2.1. Moda nas séries de dados agrupados sem intervalos de classes Nesses casos a moda é o elemento que apresenta a maior freqüência: xi

fi

2 8

3 13

4 9

5 6

6 3

7 1

No Exemplo supra-citado o elemento que apresenta a maior freqüência (13) é o 3. Portanto ,a moda é 3. 8.2.2. Moda nas series de dados com intervalos de classe A classe que apresenta a maior freqüência e chamada classe modal. A moda, nesse caso, e o valor dominante compreendido entre os limites da classe modal. O processo mais comum para o cálculo da moda emprega a fórmula de Czuber:

Mo = ℓ. * +

∆1 ∆1 + ∆ 2

.h *

ℓ * = é o limite inferior da classe que contém a moda ∆1 = diferença entre a freqüência da classe modal e a freqüência da classe imediatamente inferior. ∆2 = diferença entre a freqüência da classe modal e freqüência da classe imediatamente posterior. h* = é a amplitude da classe que contem a moda. Exemplo 5.4 Assim para a distribuição:

49

i

Concentração

fi

1 154├ 158 4 2 158├ 162 12 3 162├ 166 14 4 166├ 170 10 5 170├ 174 7 174├ 178 3 6 Identifica-se a classe modal, ou seja, aquele que possuir maior freqüência. No caso tratase da 3ª classe: 162├166. A seguir aplica-se a fórmula:

Mo = ℓ. * +

∆1 ∆1 + ∆ 2

.h *

Onde: ℓ* = 162 ∆1 = 14 - 12 = 2 ∆2 = 14 - 10 = 4 Portanto:

  162 

2 2X4 8 4  162   162  1,33   163, 33 24 6 6

8.3. Mediana (Md) A mediana (Md) é o valor que ocupa a posição central quando todos os itens do grupo estão disposto, em termos de valor, em ordem crescente ou decrescente de magnitude. Não é afetada por valores extremos e é indicada quando existem valores discrepantes. Para o exemplo 5.1 dos valores da determinação da glicose (76, 78, 82, 84, 86, 90, 90, 90, 98) a Md é 86. Quando o numero de observação for par deve-se somar os dois números centrais e dividir por dois. 8.3.1. Medianas nas series de dados sem intervalos de classe Nesse caso, é o bastante independente identificar a freqüência acumulada que é imediatamente superior à metade da soma das freqüências. A mediana será aquele valor da variável que corresponde a tal freqüência acumulada. Exemplo 5.5 Tome-se a distribuição relativa à tabela dos dados agrupados, completando-a com a coluna correspondente à freqüência acumulada. No exemplo do número de exames solicitados por requisição médica, tem-se:

50

Números de exames 2 3 4 5 6 7 Sendo:

fi

Fi

8 13 9 6 3 1 Σ = 40

8 21 30 36 39 40

Σ 40   20 2 2 A menor freqüência acumulada que supera esse valor é 21, que corresponde ao

valor 3 da variável, sendo esse o valor mediano logo: Md = 3 exames 8.3.2. Mediana nas séries de dados com intervalos de classe Inicialmente determina-se a classe em que está compreendida a mediana (classe mediana). Tal classe evidentemente, aquela correspondente à freqüência acumulada imediatamente superior a Σfi/2. Procedendo desse modo, um problema de interpolação resolve a questão. Admitindo-se, agora, que os valores se distribuam uniformemente em todo o intervalo de classe. Para o cálculo são realizados os seguintes passos: 1 Determinar as freqüências acumuladas. 2 Calcular Σfi/2. 3 Marcar a classe correspondente à freqüência acumulada imediatamente superior a Σfi/2.- classe mediana – e, em seguida, empregar a fórmula: Σf  2  F ant . h! Md  ℓ f!

Na qual:

ℓ* = é o limite inferior da classe que contém a mediana F (ant) = é a freqüência acumulada da classe anterior a classe que contém a mediana. f* = é a freqüência simples da classe que contém a mediana.

51

h* = é a amplitude do intervalo da classe que contém a mediana. Exemplo: 5.6 Considerando a distribuição da tabela de concentração de colesterol em uma amostra controle, acrescida das freqüências acumuladas:

i

Concentração

fi

F

1 2 3 4 5 6

154├ 158 158├ 162 162├ 166 166├ 170 170├ 174 174├ 178

4 12 14 10 7 3 Σ = 50

4 16 30 40 47 50

← classe mediana

Σ 50   25 2 2 Logo, a classe mediana é a ordem 3. Então: ℓ* = 162: F (ant) = 16: f* = 14 e h* = 4 Substituindo esses valores na fórmula, obtém-se: #$%&.'

Md = 162 +

'

(&

 162  '  162  2,57  164,57 / dL

8.4. Medidas de ordenamento e posição De um modo geral, existem três grandes grupos de medidas de ordenamento: quartis, decis e percentís. 8.4.1.Quartis Quartis são os valores que subdividem uma distribuição de medidas quanto dispostas em termos de valores em ordem crescente ou decrescente, em quatro partes iguais, Há portanto, três quartis. •

Primeiro quartil (Q1) e o primeiro da série tal quem um quarto dos dados está abaixo dele (25%) e as três quartas partes restantes (75%) estão acima dele. Para encontrar o Q1 emprega-se:



* 

+1 4

Segundo quartil (Q2) é evidentemente, coincidente. Com a mediana (Q2 = Md). O Q2 é obtido:

*# 

2+  1 +1  4 2

52



Terceiro quartil (Q3), é o número da série tal que três quartos dos dados estão abaixo dele (75%) e uma quarta parte (25%), estão acima dele, Calcula-se:

*# 

3+  1 4

Para determinar o primeiro quartil de dados agrupados em classes, emprega-se a expressão:

Σf  4  F ant . h! Q   ℓ!  f!

Exemplo 5.7

Nas duas equações acima, F(ant) é a freqüência acumulada da classe anterior a classe do quartil a ser calculado. Concentração

fi

154├ 158 158├ 162 162├ 166 166├ 170 170├ 174 174├ 178

4 12 14 10 7 3 Σ = 50

Primeiro quartil (K = 1):

Σ 4

Aplicando a fórmula: *  158 

##,$%' #

Terceiro quartil (k = 3):

Aplicando a fórmula:

*(  166 



 158 

F 4 16 ← Q1 30 40 ← Q3 47 50

50  12.5 4 -,$ . ' #

 158  2,8  160,8 mg/ dL

3Σ 3 X 50   37.5 4 4

(/,$%(0 0

 166 

(0 0

 166  3  169 mg/ dL

8.4.2. Centil ou Percentil

53

Os centis ou percentis são os noventa e nove valores que separam uma série de 100 partes iguais: P1, P2, ..., P42,..., P99 É evidente que: P50 = Md; P25 = Q1 e P75 = Q3 O cálculo de um percentil segue a mesma técnica do cálculo da mediana, porém, a fórmula obedece a ordem do percentil.

Exemplo 5.8 Para a tabela anterior têm-se para o 12° percentil (k = 12): tem-se: 12 ∑ f  100   F ant . h! P#  ℓ!  f!

Considerando a tabela acima tem-se para o décimo segundo percentil

Logo:

12 ∑  12 X 50  6 100 100

8.5. Que promédio usar? Com um pouco de experiência, facilmente é determinada qual das medidas de tendência central deve ser para cada situação. A média aritmética é de longe a mais usada. Em geral, são usadas a moda para os dados nominais, a mediana para os dados ordinais e a média para os dados intervalares ou de razão.

54

9. MEDIDAS DE DISPERSÃO

Objetivos 1. Calcular as medidas de variância, desvio padrão, coeficiente de variação, amplitude e amplitude entre quartis de dados simples e agrupados. 2. Listar alguns usos das medianas de variação: variação, desvio padrão, amplitude e amplitude entre quartis. 3. Comparar diferentes dados de um paciente de variação. 4. Interpretar o gráfico Box-and-Whisker Plot. A dispersão ou variabilidade representa um dos mais importantes grupos de medidas da estatística. Para o conhecimento pleno e adequado de uma série ou uma distribuição de freqüências. É necessário determinar não apenas determinar não apenas a posição central dos valores, através das medidas de posição, mas também é preciso conhecer o real grau de dispersão dos valores em questão. As medidas de dispersão indicam o grau de afastamento de um conjunto de número em relação à sua média.

9.1 Variância As

medidas

de

tendência

central

são

insuficientes

para

descrever

adequadamente uma amostra. É necessário também descrever em que medida os dados de observação estão ao redor da média. A variação media dispersão dos dados de observações de uma amostra em relação à respectiva média. A variância amostral, simbolizada por s2, é calculada pela fórmula: 4# 

∑5  56 +1

Em que xi são as observações da amostra e n o número total de observações. Em termos,a variância é a soma dos quadrados dos desvios em relação à média, dividida pelo número das observações da amostra menos uma.

55

Exemplo 6.1 Empregando os dados do exemplo 5.1 cuja média (56) = 86 mg/ dL

x - 56 90 – 86 =4 – 86 = 0 78 – 86 = -8 90 – 86 = 4 98 – 86 = 12 90 – 86 = 4 82 – 86 = -4 76 – 86 = -10 84 – 86 = -2 0

x 90 86 78 90 98 90 82 76 84 Σ

(x - 56)2 (4)2 = 16 (0)2 = 0 (-8)2 = 64 (4)2 = 16 (12)2 = 144 (-4)2 = 16 (-4)2 = 16 (-10)2 = 100 (-2)2 = 4 376

Aplicando-se a fórmula, a variância amostral é calculada: 4# 

376  47 91

A variância s2, como estatística calculada da amostra, é uma estimativa nãoviciada da variância populacional – um valor fixo representado por σ2 (sigma ao quadrado). O denominador n-1 é chamado graus de liberdade (GL). O uso de n em lugar de n – l como denominador no cálculo da variância amostral obter-se-ia um valor denominador da variância amostral obter-se-ia um valor menor do que o verdadeiro valor do parâmetro populacional (σ2). A situação é corrigida reduzindo o denominador pela subtração de uma unidade. A

Variância

amostral

pode

também

ser

calculada

por

uma fórmula

particularmente bem adaptada para o emprego de calculadoras: 4# 

∑ 7 # +  +1

∑ 57#

O termo ∑ 57# é a soma dos quadrados das observações individuais da amostra e

(Σxi)2 /n é de correção, FC.

56

Exemplo 6.2 Aplicando esta equação ao exemplo anterior: x 90 86 78 90 98 90 82 76 84 774

8# 

x2 8100 7396 6084 8100 9604 8100 6724 5776 7056 66940

∑ 7 # 774# 66940  +  9  66940  66546  47 + 1 91 8

∑ #

9.2. Desvio padrão O desvio padrão é a mais importante medida de dispersão dos valores individuais ao redor da média. Apresenta a vantagem sobre a variância de utilizará mesma unidade de medida de dados (kg, cm etc.) que as empregadas na tomada das observações. É representado por s.

9.2.1. Desvio padrão nas séries de dados não agrupados É cálculos pela fórmula: x; # ∑  ∑x;  x6# 9 + 89 < 8  +1 +1 O desvio padrão e, portanto, a raiz quadrada da variância.

57

Exemplo 6.3 =  >B%C  √E@ = 6,85 mg/dL ?@A

O desvio padrão da amostra é uma estimativa do valor paramétrico σ (sigma), o desvio padrão verdadeiro da população. Para os dados de medição, especialmente em grandes amostras. O desvio padrão indica os limites prováveis dentro do quais se situam certas proporções das observações. Assim verifica-se que cerca de 68% das observações da amostra estará entre os limites 56 F 2s; e 99% das obrigações entre 56 F 3s.

9.2.1.1. Desvio padrão nas séries de dados agrupados sem intervalo de classe Nesse caso emprega-se o ponto médio de cada classe para apresentar as medidas incluídas naquela classe. Deve-se levar em consideração, também, as freqüências de cada classe aplicando-se a fórmula:

s=

∑ fi x 2i n

∑ f x  −  i i   n 

2

Exemplo 6.4 Considerando a tabela de distribuição de freqüência sem intervalos de classe do exemplo dos exames solicitados por requisição médica. O modo mais prático para a obtenção do desvio padrão é abrir, na tabela dada, uma coluna para os produtos f,x,, e outra para fix12 lembrando que para obter fiXi2 basta multiplicar cada fiXi2 pelo seu respectivo Xi. Assim:

58

xi 2 3 4 5 6 7

fi fixi fi 7# 8 16 32 13 39 117 9 36 144 6 30 150 3 18 108 1 7 49 Σ = 40 Σ = 146 Σ = 600

Logo: 600 156 # 21316 89  G H  915   I15  13,32  I1,68  1,29 40 40 1600 9.2.1.2 Desvio padrão nas séries de dados agrupados com intervalos de classe Para os dados grupados com intervalo de classe, emprega-se a mesma fórmula acima descrita. Exemplo 6.5 Utilizando como exemplo a distribuição da determinação da concentração de colesterol em uma amostra controle, abrir as colunas para xi (ponto médio), para fi xi e para fixi2. Assim: I 1 2 3 4 5 6

Concentração 154├158 158├162 162├166 166├170 170├174 174├178

fi 4 12 14 10 7 3 Σ = 50

xi 156 160 164 168 172 176

fixi 624 1920 2296 1680 1204 528 Σ = 8252

2

fixi 97344 3076544 376544 282240 207088 92928 Σ = 136344

Cálculo: 136344 8252 # 9 8  G H  >27266,9  27238,2  I28,68  5.355 50 50 59

9.3. Coeficiente de variação O coeficiente de variação (CV) é a magnitude relativa do desvio padrão expresso em porcentagem da média. É uma estatística usada quando se deseja comparar a variabilidade relativa em diferentes tipos de dados, inclusive dados medidos em diferentes unidades de medição. O coeficiente de variação independe da unidade de medição empregado. Isto permite a comparação de vários tipos de dados, tais como. pressão arterial com temperatura.

CV 

s x 100 x6

Exemplo 6.6 Para o exemplo da secções anteriores cujos dados são: 90, 86, 78, 90, 98, 90, 82, 76, 84 com média de 86, tem-se:

CV 

6,85 x 100  7,96% 86

9.4. Amplitude A amplitude é a mais simples e precária medida de variabilidade, isto é, a diferença entre o valor mais alto (H) e o valor mais baixo (L) de uma série.. A=H-L Para o exemplo 6.6 tem-se: 98 - 76 = 22 mg/dL O inconveniente da amplitude é depender dos valores extremos, não considerando os valores intermediários. Portanto, a amplitude não é influenciada pela dispersão dos demais valores entre o escore máximo e o escore mínimo.

9.5. Amplitude entre quartis É a diferença entre o valor do terceiro quartil (Q3) e o valor do primeiro quartil (Q1); compreende os 50% dos dados centrais da série em distribuições simétricas. É menos afetado pêlos valores extremos do que a amplitude, tornando-se uma medida de grande utilidade. Medidas de dispersão baseadas nos quartis são válidas para dados ordinais, intervalares ou de razão. AEQ = Q3 – Q1

60

Valores elevados de AEQ indicam grande variabilidade dos 50% dos dados relevantes, enquanto valores reduzidos indicam pequena variabilidade entre as mesmas observações. Como esses valores muitas vezes parecem vagos, foi proposta uma razão interquartil com toda a série de dados analisada. A razão obtida por AEQ/A (amplitude entre quartis/amplitude) é multiplicada por 100. Ou seja, 100(AEQ/R) relata a percentagem da AEQ em relação a amplitude total. Ex.: um valor da razão de 34% indica que a AEQ corresponde a 34% da amplitude (de toda a série de dados).

9.6. Box-and-Whisker plots Um dispositivo visual útil para a comunicação de características de uma série de dados é o gráfico tipo hox-and-whisker plot. A construção do gráfico utiliza o primeiro quartil (Q1) e o terceiro quartil (Q3) obtidos a partir da série de dados. Para a construção devem ser observados os seguintes ifens: 1. A variável de interesse é representada no eixo horizontal; 2. Desenhar uma caixa no espaço acima do eixo horizonlal, de tal modo que o lado esquerdo fique alinhado com o primeiro quartil (Q1) e o lado direito fique alinhado com o terceiro quartil (Q3). 3. Dividir a caixa em duas partes por um traço vertical que corresponde ao valor da mediana. 4. Traçar uma linha horizontal (whisker) a partir do lado esquerdo da caixa ate o ponto que alinha com o menor valor contido na série de dados. 5. Traçar uma linha horizontal (whisker) a partir do lado direito da caixa até o ponto que alinha com o maior valor contido na série de dados.

61

Vocabulário Amplitude

Graus de liberdade

Amplitude entre quartis

Box-and-whisker Plots

Coeficiente de variação

Variância

Desvio padrão

Exercícios 6.1. Encontrar a média, mediana, variância e desvio padrão para os seguintes dados: 9, 6, 2, 6, 3, 4, 7, 4. 6.2. Calcular a média, mediana e desvio padrão para os seguintes dados: 2, 3; 2,7; 3,4; 3,2; 1,9; 4,1; 3,7; 2,2; 1,8; 2,7; 3,0. 6.3. Todas as seguintes medidas são de dispersão, EXCETO A. Variância; B. Amplitude; C. Moda; D. Desvio padrão; E. Coeficiente de variação.

62

6.4. O cálculo da variância da altura em centímetros de estudantes de determinada escola é dado em:

A. √NO+PQROPS8 B. Centímetros

C. (centímetros)2 D. Sem unidade E. Nenhuma das respostas 6.5 O seguinte polígono de freqüência acumulado foi obtido de batimentos cardíacos de 1.000 estudantes:

Qual dos seguintes é falsa? A.

a amplitude da distribuição é 60 a 100 batimentos por minuto

B.

a moda da distribuição c 100 batimentos por minuto

C.

a mediana da distribuição é 77 batimentos por minuto

D.

92% dos valores são menores que 90 batimentos por minuto

E.

95% dos valores são maiores que 65 batimentos por minuto

63

EXERCÍCIOS

DIVERSODS

1.

População ou universo é: a) Um conjunto de pessoas; b) Um conjunto de elementos quaisquer c) Um conjunto de pessoas com uma característica comum; d) Um conjunto de elementos com pelo menos uma característica em comum; e) Um conjunto de indivíduo de um mesmo município, estado ou país.

2.

Uma parte da população retirada para analisá-la denomina-se: a) Universo; b) Parte; c) Pedaço; d) Dados Brutos; e) Amostra.

3.

A parte da estatística que se preocupa somente com a descrição de determinadas características de um grupo, sem tirar conclusões sobre um grupo maior denominase: a) Estatística de População; b) Estatística de Amostra; c) Estatística Inferencial d) Estatística Descritiva; e) Estatística Grupal.

4. Uma série estatística é denominada Temporal quando? a) O elemento variável é o tempo; b) O elemento variável é o local; c) O elemento variável é a espécie; d) É o resultado da combinação de séries estatísticas de tipos diferentes; e) Os dados são agrupados em subintervalos do intervalo observado. 5.

Suponha que uma pesquisa de opinião pública deve ser realizada em um estado que tem duas grandes cidades e uma zona rural. Os elementos na população de interesse são todos os homens e mulheres do estado com idade acima de 21 anos. Que tipo de amostragem você sugeriria?. Amostragem Estratificada

6.

Um médico está interessado em obter informação sobre o número médio de vezes em que 15.000 especialistas prescreveram certa droga no ano anterior (N = 15.000). Deseja-se obter uma amostra n = 1.600. Que tipo de amostragem você sugeriria e por que? Amostragem A Sistemática

7.

De acordo com as normas para representação tabular de dados, quando o valor de um dado é muito pequeno, para ser expresso com o número de casa decimais utilizadas ou com a unidade de medida utilizada, deve-se colocar na célula correspondente. a) Zero (0); b) Três pontos (...); c) Um traço horizontal (-) d) Um ponto de interrogação (?); e) Um ponto de exclamação (!).

64

8.

Assinale a afirmativa verdadeira: a) Um gráfico de barras ou colunas é aquele em que os retângulos que o compõem estão dispostos horizontalmente. b) Um gráfico de barras ou colunas é aquele em que os retângulos que o compõem estão dispostos verticalmente. c) Um gráfico de barras é aquele em que os retângulos que o compõem estão dispostos verticalmente e um gráfico de colunas, horizontalmente. d) Um gráfico de barras é aquele em que os retângulos que o compõem estão dispostos horizontalmente e um gráfico de colunas, verticalmente. e) Todas as alternativa anteriores são falsas.

9.

Um dado foi lançado 50 vezes e foram registrados os seguintes resultados 5 4 6 1 2 5 3 1 3 3 4 4 1 5 5 6 1 2 5 1 3 4 5 1 1 6 6 2 1 1 4 4 4 3 4 3 2 2 2 3 6 6 3 2 4 2 6 6 2 1 Construa uma distribuição de freqüência sem intervalo de classe e determine: a.A amplitude Total (n) a) 5 b) 6 c) 7 d) 10 e) 50 b. f) g) h) i) j)

A freqüência total 5 6 7 10 50

c. A freqüência simples absoluta do primeiro elemento: k) 10% l) 20% m) 1 n) 10 o) 20 d. p) q) r) s) t)

A freqüência simples relativa do primeiro elemento: 10% 20% 1 10 20

e. A freqüência acumulada do primeiro elemento: u) 10%

65

v) 20% w) 1 x) 10 y) 20 f. A freqüência acumulada relativa do primeiro elemento: z) 10% aa) 20% bb) 1 cc)10 dd) 20 g. A freqüência simples absoluta do segundo elemento: ee) 19 ff) 9 gg) 2 hh) 38% ii) 18% h. A freqüência simples relativa do quinto elemento: jj) 12% kk)84% ll) 5 mm) 6 nn) 42 i. A freqüência acumulada relativa do sexto elemento: oo) 50 pp) 8 qq) 6 rr) 100% ss)16% 10. Dado o rol de medidas das alturas (dadas em cm) de uma amostra de 100 indivíduos de uma faculdade: 151 161 166 168 169 170 173 176 179 182

152 162 166 168 169 170 173 176 179 182

154 163 166 168 169 171 174 176 180 183

155 163 167 168 169 171 174 177 180 184

158 163 167 168 169 171 174 177 180 185

159 164 167 168 170 171 175 177 180 186

159 165 167 168 170 172 175 177 181 187

160 165 167 168 170 172 175 178 181 188

161 165 168 169 170 172 175 178 181 190

161 166 168 169 170 173 176 178 182 190

calcule: a) a amplitude amostral; b) o número de classes; c) a amplitude de classes;

66

d) os limites de classes; e) as freqüências absolutas da classes; f)

as freqüências relativas;

g) os pontos médios da classes; h) as freqüências acumuladas; i)

o histograma e o polígono de freqüência;

j)

o polígono de freqüência acumulada;

k) faça um breve comentário sobre os valores das alturas desta amostra através da distribuição de frequência. 11. Os dados seguintes representam 20 observações relativas ao índice pluviométrico em determinado município do Estado: Milímetros de chuva 144 160 154 142 141

a) b) c) d)

152 151 145 146 150

159 157 151 142 143

160 146 150 141 158

Determinar o número de classes pela regra de Sturges; Construir a tabela de freqüências absolutas simples; Determinar as freqüências absolutas acumuladas; Determinar as freqüências simples relativas;

12. Considere a seguinte distribuição de frequência correspondente aos diferentes preços de um determinado produto em vinte lojas pesquisadas. Preços 50 51 52 53 54 Total

No. De lojas 2 5 6 6 1 20

e) Quantas lojas apresentaram um preço de R$52,00? f) Construa uma tabela de freqüências simples relativas. g) Construa uma tabela de freqüências absolutas acumuladas. h) Quantas lojas apresentaram um preço de até R$52,00 (inclusive)? i) Qual o percentual de lojas com preço maior de que R$51,00 e menor de que R$54,00?

67

13. O quadro seguinte representa as alturas (em cm) de 40 alunos de uma classe. 162 164 170 160 166

j) k) l) m)

163 165 157 158 169

148 159 176 163 152

166 175 157 165 170

169 155 157 164 172

154 163 165 178 165

170 171 158 150 162

166 172 158 168 164

Calcular a amplitude total. Admitindo-se 6 classes, qual a amplitude do intervalo de classe? Construir uma tabela de frequência das alturas dos alunos. Determinar os pontos médios das classes.

14. Vinte alunos foram submetidos a um teste de aproveitamento cujos resultados fornam os que se seguem. 26 18 20 27

28 25 21 22

24 18 15 13

13 25 28 19

18 24 17 28

Pede-se agrupar tais resultados em uma distribuição de freqüências 15. Construa uma tabela para mostrar que, em determinado curso, o número de alunos matriculados nas 1ª , 2ª e 3ª séries era, respectivamente, 40, 35 e 29 em 1997 e 42, 36 e 32 em 1998. 16. Construa uma tabela para mostrar que, de acordo com a Pesquisa Nacional por Amostra de Domicílios, PNAD, em 1992 havia no Brasil 73,1 milhões de pessoas com renda familiar mensal até 330 reais (pobres e miseráveis), 45 milhões de pessoas com renda familiar mensal de 330 reais até 1300 reais (emergentes) e 13,6 milhões de pessoas com renda familiar mensal acima de 1300 reais (classe média e ricos). Apresente, também, percentuais. 17. Faça um gráfico de linhas para apresentar o crescimento em altura de crianças do sexo masculino. Os dados estão na tabela a seguir. Idades 7 8 9 10 11 12

Altura Média (cm) 119,7 124,4 129,3 134,1 139,2 143,2

68

18. Dado o rol do número de erros de impressão da primeira página de um jornal durante 50 dias, obteve-se os seguintes resultados: 5 7 10 12 14

5 8 10 12 14

5 8 10 12 14

6 8 10 12 14

6 8 10 12 14

6 8 11 12 14

7 8 11 12 15

7 8 11 12 16

7 9 11 13 19

7 9 12 14 22

a) Complete a tabela de distribuição de frequência: Classe

P.M.

f

F

fr

05 |- 08 08 |- 11 11 |- 14 14 |- 17 17 |- 20 20 |- 23 Total

-

-

Segundo nos mostra a tabela acima responda: i) Qual a amplitude total (r) ? ii) Qual o valor de k (número de classe) ? iii) Qual o intervalo de cada classe (h) ?

19. Complete a tabela a seguir: Classes

f

P.M.

Fi

fr 0,02

12 62 - 65

0,06 66,5

84 126

36 225 0,15 Total

-

300 -

20. Considere a seguinte tabela: Classes 2,75 |- 2,80 2,80 |- 2,85 2,85 |- 2,90 2,90 |- 2,95 2,95 |- 3,00 3,00 |- 3,05 3,05 |- 3,10 3,10 |- 3,15 3,15 |- 3,20 3,20 |- 3,25 Total

fi 2 3 10 11 24 14 9 8 6 3 90

69

Identificar os seguinte elementos da tabela: a) Freqüência simples absoluta da quinta classe. b) Freqüência total. c) Limite inferior da sexta classe. d) Limite superior da quarta classe. e) Amplitude do intervalo de classe. f) Amplitude total. g) Ponto médio da terceira classe. 21. Responda as questões abaixo: Média, Mediana e Moda são medidas de : a) ( ) Dispersão b) ( ) posição c) ( ) assimetria d) ( ) curtose Na série 10, 20, 40, 50, 70, 80 a mediana será: a) ( ) 30 b) ( ) 35 c) ( ) 40 d) ( ) 45 50% dos dados da distribuição situa-se: a) ( ) abaixo da média c) ( ) abaixo da moda b) ( ) acima da mediana d) ( ) acima da média 22. Calcule para cada caso abaixo a respectiva média. a) 7, 8, 9, 12, 14 b) c)

Xi Fi

3 2

4 5

Classes Fi

7 8

8 4

68 - 72 8

12 3

72 - 76 20

76 - 80 35

80 - 84 40

23. Calcule o valor da mediana. d) 82, 86, 88, 84, 91, 93 e)

f)

Xi Fi

Classes Fi

73 2

75 10

1-3 3

77 12

3-5 5

79 5

5-7 8

81 2

7-9 6

9 - 11 11 - 13 4 3

24. Calcule a moda g) 3, 4, 7, 7, 7, 8, 9, 10 h) i)

Xi Fi

2,5 7

Classes Fi

3,5 17 10 - 20 7

4,5 6,5 10 5 20 - 30 19

30 - 40 28

40 - 50 32

70

25. Para a distribuição abaixo calcular D2, P4 Q3 Classes 20 - 30 30 - 40 40 - 50 50 - 60 60 - 70 Fi 3 8 18 22 24

26. Desvio Médio, Variância e Coeficiente de variação são medidas de : a) ( ) Assimetria c) ( ) Posição b) ( ) Dispersão d) ( ) Curtose 27. Desvio Médio para o conjunto de dados abaixo será:

xi 5 7 8 9 11

Fi 2 3 5 4 2

a) ( ) 1,28 b) ( ) 1,20

c) ( ) 1,00 d) ( ) 0,83

28. O Desvio Padrão de um conjunto de dados é 9. A variância é: a) ( ) 3 c) ( ) 81 b) ( ) 36 d) ( ) 18 29. Na distribuição de valores iguais, o Desvio padrão é: a) ( ) negativo c) ( ) zero b) ( ) a unidade d) ( ) positivo 30. O calculo da variância supõe o conhecimento da: a) ( ) Fac c) ( ) mediana b) ( ) média d) ( ) moda 31. A variância do conjunto de dados tabelados abaixo será:

Classes 03 |- 08 08 |- 13 13 |- 18 18 |- 23 a) ( ) 1,36 b) ( ) 18,35

Fi 5 15 20 10 c) ( ) 4,54 d) ( ) 20,66

71

32. Numa empresa o salário médio dos homens é de R$ 4000,00 com um desvio padrão de R$1500,00, e o das mulheres é na média de R$3000,00 com desvio padrão de R$1200,00. Qual dos sexos apresenta maior dispersão. (Analise pelo C.V.) a) ( ) as mulheres c) ( ) homens e mulheres b) ( ) os homens d) ( ) nenhuma das anteriores 33. Analisando as curvas abaixo marque a resposta correta.

(I)

(II)

(III)

a) a curva I é simétrica ; b) a curva II é assimétrica positiva c) a curva I é simétrica; d) a curva III é simétrica positiva; 34. Para as distribuições abaixo foram calculados Distrib. A Distrib. B Distrib. C Classes Fi Classes Fi Classes Fi 02 |- 06 6 02 |- 06 6 02 |- 06 6 06 |- 10 12 06 |- 10 12 06 |- 10 30 10 |- 14 24 10 |- 14 24 10 |- 14 24 14 |- 18 12 14 |- 18 30 14 |- 18 12 18 |- 22 6 18 |- 22 6 18 |- 22 6

Marque a alternativa correta: a) a distribuição I é assimétrica negativa; b) a distribuição II é assimétrica positiva; c) a distribuição III é assimétrica negativa moderada. d) a distribuição I é simétrica; 35. Todas as seguintes medidas são de dispersão, EXCETO F. Variância; G. Amplitude; H. Moda; I. Desvio padrão; J. Coeficiente de variação. 36. O cálculo da variância da altura em centímetros de estudantes de determinada escola é dado em

72

a) √NO+PQROPS8 b) Centímetros

c) (centímetros)2 d) Sem unidade e) Nenhuma das respostas 37. O seguinte polígono de freqüência acumulado foi obtido de batimentos cardíacos de 1.000 estudantes:

Qual dos seguintes é falsa? a) a amplitude da distribuição é 60 a 100 batimentos por minuto b) a moda da distribuição c 100 batimentos por minuto c) a mediana da distribuição é 77 batimentos por minuto d) 92% dos valores são menores que 90 batimentos por minuto e) 95% dos valores são maiores que 65 batimentos por minuto

73

10. PROBABILIDADES Objetivos 1. Compreender as propriedades básicas da probabilidade. 2. Selecionar e aplicar as regras apropriadas da probabilidade para uma dada aplicação. 3. Selecionar e aplicar a regra de probabilidade apropriada para determinada situação. 4. Distinguir entre eventos mutuamente exclusivos e eventos independentes. 5. Distinguir ente permutações e combinações. 6. Explicar o que é uma distribuição de probabilidades e seus principais usos. Probabilidade é um conceito filosófico e matemático que permite a quantificação da incerteza, permitindo que ela seja aferida, analisada e usada para a realização de previsões ou para, a orientação de intervenções. É aquilo que torna possível se lidar de forma racional com problemas envolvendo o imprevisível. Os mecanismos probabilísticos são as estruturas e dinâmicas que se acredita estarem subjacentes às probabilidades observadas para um dado fenômeno qualquer. Em outras palavras, seriam a causa do padrão de incerteza percebido num determinado instante. O conhecimento dos mecanismos probabilísticos permite não apenas o estabelecimento de expectativas quanto às probabilidades de um evento específico mas também a identificação de quais os fatores que influem em tais probabilidades e como eles atuam.

Exemplo: Cartas de Baralho Os fatores subjacentes à probabilidade de uma dada carta surgir ao acaso num baralho constituem um mecanismo probabilístico relativamente complexo, envolvendo principalmente a disposição inicial das cartas, a quantidade total das mesmas, o método de embaralhamento e o procedimento de sorteio da carta. Coisas como o material de que as cartas são feitas, seu tamanho e formato, a temperatura e umidade do ambiente, e as correntes de ar no local também podem ser relevantes.

74

Dizer que todos os componentes acima constituem um mecanismo probabilístico significa que mudanças em qualquer um desses parâmetros tende a alterar as probabilidades associadas ao surgimento de cada carta ou tipo de carta.

Exemplo: Fecundação A fecundação humana apresenta um mecanismo probabilístico bastante complexo, com a probabilidade de sucesso num determinado intercurso sexual dependendo de uma série de fatores que envolvem a contagem de espermatozóides no sêmen, a quantidade e a força da ejaculação, o pH vaginal, a fase do ciclo menstrual feminino, a fase da espermatogênese masculina, a data do coito anterior do homem e da mulher, a idade de ambos os envolvidos, a ausência de infecções e outros. Todas essas variáveis atuam conjuntamente para permitir a reprodução, de modo que elas também condicionam a sua probabilidade.

10.1. Entendendo a probabilidade A teoria das Probabilidades estuda os fenômenos aleatórios com vários resultados possíveis, quantificando as suas possibilidades de ocorrência. Com base na teoria das probabilidades, jamais será possível dizer o que vai ocorrer num experimento aleatório - pois isso dependerá sempre do acaso; no entanto, ela permite prever o que pode ocorrer e ainda dimensiona a chance de ocorrência de cada uma das possibilidades. Entende-se por "chance" a medida da ocorrência das circunstâncias favoráveis.

10.2. Experimento aleatório Um experimento pode ser pensado como um teste para se demonstrar uma afirmativa, para examinar a validade de uma hipótese, ou para se determinar a eficácia de alguma coisa nunca tentada previamente. A conduta de um tal teste constitui um experimento. Um bom exemplo de experimento é o ato de jogar uma moeda sobre uma superfície plana e anotar o resultado (cara ou coroa), assim como o lançamento de um dado ou o sorteio cego de uma bola a partir de uma urna com múltiplas bolas coloridas. Um ingrediente fundamental na teoria da probabilidade é a noção de um experimento que, ao menos hipoteticamente, pode ser repetido sob condições essencialmente idênticas, porém conduzindo a resultados diferentes em tentativas

75

diferentes. Em outras palavras, trata-se de uma situação onde, para todos os fins práticos, causas iguais geram (ou podem gerar) efeitos diferentes. Quando se diz ser possível repetir um experimento sob condições essencialmente idênticas, naturalmente está-se pensando no controle de um certo número de fatores. É claro que seria impossível controlar absolutamente todos os fatores em questão. Na realidade, são justamente esses fatores não controlados (também chamados de variáveis de confusão, variáveis estranhas ou variáveis espúrias) que irão constituir a aleatoriedade do fenômeno. Esta é uma forma de visualizar o conceito. Tome-se, por exemplo, o caso do .lançamento de uma moeda. De um lançamento para o outro, não se pode garantir que as condições sejam exatamente as mesmas. A exata posição inicial dos objetos e personagens envolvidos, bem como a intensidade e direção precisas da força de lançamento, não serão rigorosamente as mesmas. As condições gerais, contudo, tais como a moeda, o indivíduo que faz o lançamento e a mesa. podem ser idênticas, mas muitos fatores simplesmente não serão controlados. Caso tudo fosse absolutamente controlado, então poder-se-ia supor que os resultados seriam os mesmos, ou talvez nem assim, visto que, aparentemente, existem incertezas fundamentais no universo, tais como as que são evidenciadas no fenômeno quântico. O conjunto de todos os resultados possíveis em um experimento é denominado de espaço amostral (S). A soma de todos os resultados em um espaço amostra tem uma probabilidade de 1,0. Como todos os resultados tem a mesma probabilidade de ocorrência, qualquer um deles é igual a 1 dividido pelo número total de resultados possíveis. Qualquer conjunto de resultados de um experimento denomina-se evento (e). Sendo evento um subconjunto de S, indica-se os eventos por letras maiúsculas: A. B, C, ..

Exemplo 7.1 No experimento lançar um dado: Espaço amostral será o conjunto S = {1, 2, 3, 4, 5, 6}. Seja o evento A: sair um número par. Assim, A = {2, 4, 6}. Evento simples é aquele formado por um único do espaço amostral, ao passo que o evento composto c aquele que possui mais de um elemento. No exemplo acima A é composto.

76

Diante das explicações sobre o conceito de eventos, nota-se que S (espaço amostrai) e φ (conjunto vazio) também são eventos, e são chamados respectivamente evento certo e evento impossível. Assim, o evento obter um naipe na retirada de uma carta é um evento certo. Enquanto que obter um sete no lançamento de um dado constitui um evento impossível.

10.3. Cálculo das probabilidades Uma das características dos fenômenos aleatórios é a imprevisibilidade. Na impossibilidade de prever exatamente qual dos resultados ocorrerá numa repetição isolada de um fenômeno aleatório, mede-se o grau de confiança de um determinado resultado pelo cálculo de probabilidade. A probabilidade de ocorrência de determinado evento pode ser estabelecido de duas formas diferentes: método clássico e método das freqüências relativas. O símbolo P é empregado para designar a probabilidade de um evento. Assim. P(A) denota a probabilidade de ocorrência do evento A em uma só observação ou experimento. Método clássico. Quando se supõe que os eventos elementares têm certa chance

de

ocorrência.

As

probabilidades

são

teóricas

e

determinadas

independentemente da realização ou não do experimento. A probabilidade de ocorrência do evento A, é dada por:

P ( A) =

n N

=

[ número de eventos favoráveis ] [ número de eventos possíveis ]

O método clássico é também chamado de a priori, porque ele permite determinar as probabilidades antes da ocorrência dos eventos e até independentemente deles ocorrerem ou não. Assim, a probabilidade de dar cara num lançamento de uma moeda é /para toda e qualquer moeda, lançada ou não, pelo simples fato de que as moedas têm duas faces, das quais uma é cara. As únicas observações feitas são: a moeda é honesta e ela nunca cai de pé.

Exemplo 7.2 Qual a probabilidade de aparecer uma face par no lançamento de um dado? Solução:

77

Seja A o evento: (aparecer um número par). Então A = {2, 4, 6}, ou seja, n = 3 (número de resultados favoráveis). O número de resultados possíveis, N = 6, pois o espaço amostral desse experimento é S = {1, 2, 3, 4, 5, 6}. Portanto:

3 1 P ( par ) = = 6 2 Logo, a probabilidade de aparecer um número par no lançamento de um dado é 1/2, 0,5 ou 50% (a primeira maneira de expressar a resposta é a mais comum). Método das freqüências relativas. A probabilidade de ocorrência de certo evento A é igual à freqüência relativa observada nas experimentações ou observações passadas e a rigor, só se aplicam a elas. Pode ser utilizado para a avaliação de eventos futuros que tenham razoável semelhança com os passados. Se tal não ocorrer, os resultados podem ser totalmente inválidos. Assim, a probabilidade de ocorrência do evento A é dada por:

P ( A) =

n N

=

[número de vezes que ocorreu ] [ número de vezes que a exp eriência foi realizada ]

=

A n

Esse método e denominado a posteriori porque as probabilidades somente são determinadas após a ocorrência do evento ou experimento. Desse modo, as probabilidades podem mudar com novos experimentos. O método das freqüências pressupõe que os resultados do passado são representativos e que servem de estimativa para o que se espera do futuro. Entretanto, deve-se ter sempre em mente que a "realidade" não tem memória nem compromisso com o passado, podendo diferir significativamente dele. Retomando o caso do lançamento da moeda, aqui não há restrição alguma; ela tanto pode ser viciada como cair em pé, que não há mudança de resultados. Esse conceito, do ponto de vista prático, é importante porque permite estimar a probabilidade de um evento a partir de observações. O teorema de Bernoulli, mais conhecido como a Lei dos Grandes Números, afirma que, numa série imensa de experimentos, a freqüência relativa de um evento se aproxima cada vez mais da sua probabilidade. Em outras palavras, quando se repete um experimento um número suficientemente grande de vezes é possível, na equação acima, as expressões "Freqüência Relativa" e "Probabilidade" podem ser intercambiáveis com erro desprezível. Assim, dada uma longa série de experimentos, pode-se calcular a probabilidade de um evento ou então dada a probabilidade de um evento, se pode calcular o número de vezes que ele deve ocorrer numa longa série de tentativas. A Lei dos Grandes Números é válida para qualquer tipo de experimento aleatório, de modo que, substituindo-se o "lançamento de um dado" por um resultado

78

observacional ou experimental qualquer, se pode ter, numa série longa de registros, a probabilidade de um diagnóstico específico, de um determinado achado laboratorial ou de um certo desenvolvimento clínico. E interessante notar, contudo, que o número de observações precisa ser grande o suficiente para que se possa ter uma precisão aceitável para a probabilidade estimada, o que costuma implicar em números realmente "grandes", como sugere o nome da Lei.

10.4. Eventos mutuamente exclusivos Dois ou mais eventos são mutuamente exclusivos quando a realização de um exclui a realização do(s) outro(s). Assim, no lançamento de uma moeda, o evento "tirar cara" e o evento "tirar coroa" são mutuamente exclusivos, já que, ao se realizar um deles, o outro não se realiza. Se dois eventos são mutuamente exclusivos , a probabilidade de que um ou outro se realize é igual à soma das probabilidades de que cada um deles se realize: P(A UB2) = P(A ou B) = P(A) + P(B) Exemplo: No lançamento de um dado qual a probabilidade de se tirar o nº 3 ou o nº 4 ? Os dois eventos são mutuamente exclusivos então: P = 1/6 + 1/6 = 2/6 = 1/3

10.5. Eventos independentes Dizemos que dois eventos são independentes quando a realização ou a não-realização de um dos eventos não afeta a probabilidade da realização do outro e vice-versa. Dois eventos A e B são ditos independentes se::

Por exemplo, quando lançamos dois dados, o resultado obtido em um deles independe do resultado obtido no outro. Se dois eventos são independentes, a probabilidade de que eles se realizem simultaneamente é igual ao produto das probabilidades de realização dos dois eventos. Assim, sendo p1 a probabilidade de realização do primeiro evento e p2 a probabilidade de realização do segundo evento, a probabilidade de que tais eventos se realizem simultaneamente é dada por: p = p1 x p2 Exemplo: Lançamos dois dados. A probabilidade de obtermos 1 no primeiro dado é: p1 = 1/6

79

A probabilidade de obtermos 5 no segundo dado é: p2 = 1/6 Logo, a probabilidade de obtermos, simultaneamente, 1 no primeiro e 5 no segundo é: p = 1/6 x 1/6 = 1/36

10.6. Regras das probabililidades Duas importantes regras ajudam a responder as questões mais comuns com a relação a probabilidades de eventos compostos (aqueles compostos de dois ou mais eventos individuais). Essas são as regras da multiplicação e a regra da soma.

10.6.1.

Regras da multiplicação

Dois eventos são independentes quando a ocorrência de um evento não tem efeito algum na probabilidade de ocorrência de outro evento. Os resultados de lançamentos sucessivos de uma moeda ilustra os eventos independentes, uma vez que o resultado de um lançamento não tem efeito algum nas probabilidades de ocorrência no segundo lançamento. Para determinar a probabilidade de ocorrência de dois eventos independentes, emprega-se a regra da multiplicação. A regra da multiplicação estabelece que a probabilidade de ocorrência de dois eventos independentes. A e B. é igual ao produto das probabilidades dos eventos individuais. Simbolicamente: P(A e B) = P(A) * P(B)

Exemplo 7.4 No lançamento de duas moedas, qual é a probabilidade de ocorrência de "cara" tanto na primeira moeda (C1) como na segunda moeda (C2)?

1 1 1 P C e C#   UP C V UPC# V  G H G H  2 2 4

Exemplo 7.5 Supor que a probabilidade de um motorista ter um acidente em um ano é 1/10. Qual é a probabilidade que dois motoristas, escolhidos aleatoriamente, terem um acidente por ano cada um?

80

1 1 1 W  G HG H  10 10 100 10.6.2.

Regras de adição

Para determinar a probabilidade de ocorrer um evento ou outro (ou ambos) em uma só observação emprega-se a regra de adição. A regra de adição estabelece que a probabilidade de ocorrência do evento A ou evento B (ou ambos) é a soma das probabilidades de cada evento individual menos a probabilidade da ocorrência de A c B simultaneamente. Simbolicamente: P(A ou B) = P(A) + P(B) - P(A e B) A razão da subtração de P(A e B) é que alguns elementos estão incluídos tanto em A como em B; desse modo existe uma superposição desses dois conjuntos de eventos. Quando as áreas incluídas em A e em B são adicionadas em tais eventos não mutuamente exclusivos, a área de superposição é contada em dobro. Esse raciocínio c mostrado no diagrama de Venn.

Exemplo 7.6 No lançamento de duas moedas. a probabilidade de ocorrer "cara" na primeira moeda (H1),a segunda (H2) ou em ambas (H1H2) é dada por: P(H1 ou H2) =

1 1 1 3 − − = 2 2 4 4

Exemplo 7.7 Qual é a probabilidade de obter 3 ou 4 em um lançamento de um dado? Pela regra de edição tem-se:

W3 < 4  W3  W4  W3 O 4 

1 1 1   0 6 6 3

Relembrando: quando os dois exemplos são mutuamente exclusivos a probabilidade dos dois eventos ocorrer é igual a zero . Ao obter um 3, foi excluída a probabilidade de se obter 4. Do mesmo modo, é impossível obter simultaneamente uma “cara” e uma “coroa” em um lançamento de uma moeda. Desse modo a regra de adição é simplificada quando os eventos são mutuamente excessivos. A regra torna-se: P( A ou B ou ambos ) = P(A) + P(B) Exemplo 7.8

81

Em determinada comunidade a probabilidade das mulheres sobreviverem até 65 anos é, aproximadamente. 8/10, ou seja, P(M65) = 8/10. A probabilidade que um homem sobreviver até 65 anos de idade é, aproximadamente,2/3, isto é, P(H65) = 2/3. Qual é a probabilidade de uma mulher morrer antes dos 65 anos? Utilizando uma das propriedades dos eventos mutuamente exclusivos (v. acima) tem-se que a probabilidade de uma mulher morrer antes dos 65 anos, P(Mm), é calculada pela subtração da probabilidade de sobreviver aos 65 anos de 1

PMX   1  PM&$   1 

8  0,2 8

Continuando com o exemplo pode-se calcular outras probabilidades aplicando as regras da multiplicação e adição: 1. A probabilidade de tanto homens como mulheres sobreviverem até aos 65 anos:

2 8 P  PH&$ PM&$   G H G H  0,533 3 10

2. A probabilidade de somente os homens sobreviverem até aos 65 anos: P  PH&$ PMX   G1 

8 H  0,13 10

3. A probabilidade de só a mulheres sobreviverem até aos 65 anos: P  PH&$ e HX   PHX  

8 2 G1  H  0,267 10 3

4. A probabilidade que ao menos um dos dois sobreviverá até aos 65 anos de idade: P= P(um ou ambos estarão vivos) P = P (M65 e H65) + P (H65 eMm) + P (H65 eMm) = 0,533 + 0,133 + 0,267 = 0,933. Essa resposta pode também ser obtida pelo cálculo da probabilidade do complemento de morte tanto de homens como mulheres, que é, 1  PHX e MX   1 

1 2 X  0,933 3 10

10.7. Probabilidade condicional Quantifica a "chance" de dois eventos dependentes e não excludentes ocorrerem em certa ordem. A expressão P(A|B) indica a probabilidade de ocorrer o evento A, dado que tenha ocorrido o evento B. A expressão algébrica para calcular a probabilidade condicional de A após ter ocorrido B 6:

82

PZA B] 

^_ ` a ^a

desde que P (B) não seja igual a zero.

A linha vertical em P(AJB) é lida "dado". Exemplo 7.9 A partir da tabela abaixo onde são descritos os dados referentes a mães que pararam de fumar durante a gravidez relacionada ao nível de instrução, pode-se calcular várias probabilidades.

Primeiro grau 350 1905

Parou Não parou Total

2255

Nível de inscrição Segundo grau Terceiro grau 204 214 732 670 936

884

Total 768 3307

% 18.8 81,2

4075

100

Por exemplo, se A é o evento "parar de fumar durante a gravidez" e B é o evento "todas as mães pesquisadas", têm-se:

PA 

768  0,188 4075

é a probabilidade de selecionar uma mãe que parou de fumar. A probabilidade de selecionar uma mãe com terceiro grau é PB 

884  0,2169 4075

é a probabilidade de selecionar uma mãe que tanto parou de fumar como tem terceiro grau é.

PA A B 

214  0,0525 4075

A probabilidade condicional de parar de fumar durante a gravidez dado que a mãe tem terceiro grau é obtido pelo emprego da seguinte fórmula: WZb c] 

Wb b c 0,0525   0,242 Wc 0,2169

Notar que a probabilidade obtida peio emprego da fórmula. P(A/B) = 0.242, é a mesma obtida diretamente a partir das freqüências na tabela, 214  0,242 884

Para eventos dependentes, a probabilidade de ocorrência conjunta de A e B é a probabilidade de A multiplicada peia probabilidade condicional de B dado A. Ou seja P( A e B) = P(A) P (BA)

83

Essa Fórmula é frequentemente chamada de regra geral da multiplicação, porque para eventos independentes, o valor da probabilidade condicional. P(BA), seria o mesmo que o respectivo valor da probabilidade não-condicional. P(B), que então corresponderia à fórmula P(A e B) = P(A) P (B) para eventos independentes. Essas duas probabilidades não são as mesmas a menos que os dois eventos sejam independentes. Para o exemplo 7.6 os eventos A e B não são independentes visto que P(AB) = 0,242 não é igual a P(A) = 0.1885.

10.8. Permutações Ao determinar o número de maneiras pelas quais um grupo de objetos podem ser arranjados, deve-se inicialmente conhecer se a ordem desses objetos segue alguma regra. Por exemplo, a ordem de arranjos de uma pessoa perder os dentes é importante, mas a ordem de seleção de um grupo de pessoas para constituir uma comissão não é, pois qualquer ordem resulta na mesma comissão. Permutar é (re)ordenar os elementos de um conjunto numa seqüência previamente definida. Ou seja. é uma seleção de objetos de um grupo de n objetos. levando em conta a ordem de seleção. O número de diferentes maneiras pêlos quais n objetos podem ser; arranjados é dado por n!. O símbolo n!: designa "fatorial de n": n! (fatorial do número n) é igual ao produto de todos os números naturais, começando em n e terminando em 1. Por definição. 0! = 1. Exemplo 7.10 Para identificar os frascos de uma medicação emprega-se três diferentes símbolos, x, y e z. Quantos são os modos diferentes dos frascos serem identificados? A resposta é 3! = 3 x 2 x 1 = 6 Os seis modos diferentes de identificação são xyz, xzy, yxz, yzx, zxy e zyx. Geralmente há interesse no número de permutações de algum subgrupo dos n objetos. Ou seja. há interesse no número de permutações de n objetos tomados r de cada vez. onde r é menor do que n:

W +, S 

+! +  S!

Exemplo 7.11

84

Supor a existência de três maneiras efetivas de tratamento de um paciente com determinado tipo de câncer - cirurgia (C), radioterapia (R) e quimioterapia (Q) - quais os diferentes modos de tratar o paciente com dois diferentes tratamentos? W 3,2 

3! 3 5 2 51  6 3  2! 1

ou CR, RC, QC, CQ, RQ e QR.

10.9. Combinações Nas combinações interessa o número de arranjos de diferentes agrupamentos de objetos que podem ocorrer sem levar em consideração a ordem, como a seleção de livros em uma estante. Uma combinação e uma seleção de um subgrupo de objetos distintos, onde a ordem não é importante. A equação para a obtenção do número de combinações para selecionar r objetos a partir n objetos é: e +, S 

+! S! 3  2!

onde C denota o número total de combinações dos objetos. Exemplo 7.12 Três pacientes picados por serpente foram conduzidos a um pronto-socorro. O plantonista descobre só possuir duas doses de anti-ofídico. Os três pacientes são: uma mulher grávida (M), uma criança (C) e um idoso (I). Antes de decidir qual dos dois tratar, ele examina as chances existentes:

e 3,2 

3! 35251  3 3 2!  2! 251

As três escolhas são: MC, MI, Cl. Notar que CM, M e IC são as mesmas das primeiras três pois a ordem não é importante.

85

Vocabulário Combinações Eventos mutuamente exclusivos Permutações Probabilidade Probabilidade condicional Regra da multiplicação Regra de adição Questões de revisão 1. Definir distribuição de probabilidade de uma variável aleatória discreta. 2. Definir distribuição de probabilidade de uma variável aleatória continua. Exercícios 7.1. Duas moedas são lançadas e os resultados observados. Calcular as probabilidades de observar zero "cara", uma "cara" e duas "caras". 7.2 Uma moeda não viciada é lançada três vezes e o número de "caras" é observada. Determinar a probabilidade de observar: A. Exatamente duas "caras" B. No máximo duas "caras" 7.3 Um casal planeja ter três filhos. Encontrar as seguintes possibilidades: A.

Dois do sexo masculino e um do sexo feminino

B.

Nenhum do sexo feminino

C.

Dois do sexo masculino seguidos por um do sexo feminino

7.4 Uma bola é retirada aleatoriamente de uma caixa conferido 10 bolas vermelhas, 30 bolas brancas, 20 bolas azuis e 15 bolas laranjas. Calcular as seguintes probabilidades: A.

Laranja ou vermelha

B.

Não azul

C.

Vermelha ou branca ou azul

86

7.5 Em um experimento envolvendo uma substância tóxica, a probabilidade que um rato branco permaneça vivo por 10 horas é 7/10, e a probabilidade que um rato preto permaneça vivo por 10 horas é 9/10. Encontrar a probabilidade que, no final de 10 horas, A.

Ambos estarão vivos

B.

Somente o rato preto estará vivo

C.

Ao menos um rato estará vivo

7.6 De quantas maneiras podem ser arranjados cinco cubos coloridos em uma linha? 7.7 De quantos modos diferentes pode ser escolhida uma comissão de cinco pessoas a partir de nove candidatos? 7.8 Usando os dados da tabela abaixo com a relação da pressão sanguínea sistólica de fumantes e não-fumantes onde os eventos: A = um não-fumante, B= um fumante e C = uma "pressão sanguínea sistólica de 170 ou mais. Encontrar: A. P(A) B. P(B) C. P(C) D. P(CA) E. P(CB) F. Comparar a D e E (comentar). O "status" de fumante e nível depressão sanguínea são independentes?

Pressão sanguínea 90-109 110-129 130-149 150-169 170-189 190-209 Total

Não fumantes

Fumantes

fi

fi

Total

10 24 18 9 2 0 63

5 15 10 3 2 2 37

15 39 28 12 4 2 100

87

11. Distribuições de probabilidade Uma importante aplicação da estatística é a estimação das probabilidades de ocorrência de diferentes eventos. Por exemplo, pode-se desejar saber a probabilidade de ter uma família de três meninos e uma menina ou a probabilidade de sete entre dez pacientes serem curados com determinado medicamento. Conhecendo-se as várias probabilidades associadas com diferentes desfechos de um dado fenômeno, pode-se determinar quais os desfechos são comuns e quais não são. Assim é possível decidir se certos eventos são significantes. A lista completa de todos os desfechos possíveis, juntamente com a probabilidade de cada um, constitui uma distribuição de probabilidade. As distribuições de probabilidade são modelos matemáticos para as distribuições reais de freqüências. São modelos teóricos construídos na expectativa de explicar a realidade. Essas distribuições teóricas de probabilidade permitem solucionar a maioria dos problemas práticos de estatística. Ou seja. a partir dessas distribuições é possível fazer inferências sobre dados observados, permitindo generalizações, comparações ou previsões, acerca de fenômenos aleatórios. Os desfechos de eventos podem ser descritos numericamente (ex.: número de três meninos em uma família). O símbolo X geralmente denota a variável de interesse. Essa variável pode assumir qualquer valor numérico e é denominada variável aleatória, assim chamada pois seus valores são determinados por processos ao acaso que não estão sob o controle do observador. Desse modo. pode-se dizer que uma distribuição de probabilidade é uma lista de probabilidades associadas com os valores de uma variável aleatória obtidos em um experimento. As variáveis aleatórias podem ser discretas ou contínuas. 1. Distribuições discretas de probabilidade. A distribuição de probabilidade de uma variável aleatória discreta (dados contáveis ou enumeráveis) é uma tabela, gráfico, fórmula ou outro dispositivo empregado para especificar todos os possíveis valores da variável junto com suas respectivas probabilidades. São exemplos de específicos modelos discretos de probabilidade, as distribuições de probabilidade binomial e de Poisson. 2. Distribuições contínuas de probabilidade. Quando a variável aleatória for contínua (pode assumir qualquer valor fracionário dentro de um intervalo definido de valores). As probabilidades são determinadas por uma função matemática e descritas por uma função de densidade ou por uma curva de probabilidade. Entre as distribuições de

88

probabilidade de variáveis contínuas, algumas são de essencial importância para a estatística: distribuição normal, distribuição de t e distribuição F de Snedecor. Conhecida a distribuição de probabilidade de um fenômeno aleatório considerado, é possível a resolução de dois problemas da inferência estatística: a estimação de parâmetros e os testes de hipóteses.

11.1.

Distribuições discretas de probabilidade

A distribuição de probabilidade de uma variável aleatória discreta (dados contáveis ou enumeráveis) é uma tabela, gráfico, fórmula ou outro dispositivo empregado para especificar todos os possíveis valores da variável junto com suas respectivas probabilidades. São exemplos de específicos modelos discretos de probabilidade as distribuições de probabilidade binomial de Poisson.

Objetivos 1 Descrever as propriedades de uma distribuição binomial. 2 Calcular as propriedades usando a distribuição binomial. 3 Descrever o processo de Bernoulli. 4 Identificar os componentes da fórmula binomial. 5 Identificar os componentes da fórmula de Poisson.

11.2. Distribuição binomial A distribuição binomial é uma distribuição discreta de probabilidade em que a variável aleatória envolvida é enumerável ou contável. Estuda o comportamento amostrai de eventos dicotômicos (ex.: masculino/feminino, curado/não-curado, infectado/nãoinfectado). A distribuição binomial é aplicável sempre que o processo de amostragem é do tipo do de Bernoulli.

11.2.1. Hipóteses do modelo Binomial 1. O experimento é repetido n vezes nas mesmas condições. 2. Os resultados das repetições são independentes, ou seja, uma repetição não interfere nas subseqüentes.

89

3. Cada repetição admite apenas dois resultados: sucesso ou fracasso. 4. As probabilidades de sucesso “p” e de insucesso “q” (q=1-p) se mantêm constantes durante as repetições. Teorema: Se X é uma variável aleatória com um comportamento Binomial, então a probabilidade de X assumir um dos valores do conjunto X(S) é calculada por:

n  n! f (x) = P(X = k) =   .pk .qn −x = .pk .qn −k , para k = 0, 1, 2, ..., n. ( n − k ) !.k ! k  Para a melhor compreensão exemplifica-se que a probabilidade de nascer uma criança do sexo masculino é p = 1/2. Como o sexo é uma variável binária, considera-se que a probabilidade de nascer uma criança do sexo feminino é q = l - 1/2 = 1/2. Na distribuição binomial a média é igual ao número de eventos estudados vezes a probabilidade de ocorrência do evento. Ou seja: µ = np. O desvio padrão é igual a raiz quadrada do produto: n x p x g. Ou, expresso pela fórmula:

f  Ighi.

Pode-se empregar a distribuição binomial para determinar a probabilidade de se obter um dado número de sucessos (k) em um processo de Bernoulli. A fórmula empregada é f (x) = P(X = k)

n! .p k .q n − k ( n − k ) !.k !

n = é o número de tentativas ou repetições do experimento k = é o número/proporção/freqüência desejada de sucessos n-k = é o número/proporção/freqüência esperada de fracassos P = é a probabilidade/proporção/freqüência de sucessos q=l-p = é a probabilidade/proporção/freqüência de fracassos O símbolo ! indica o fatorial de um número inteiro, ou seja, o produto de todos os números naturais desde um até esse número; "fatorial de n" é definido como n! = n * (n-I) * (n-2) *... * 1. Por definição. O! = I. Ex.: 4! = 4 * 3 * 2 * l = 24. A distribuição binomial dada pela fórmula acima, c determinada pelo número de tentativas, e a probabilidade p de sucesso numa tentativa isolada. Os símbolos n e p são denominados parâmetro da distribuição.

90

Exemplo 8.1 Admite-se que a probabilidade de nascimento de um menino, como também de uma menina, é igual 1/2. Quais são as probabilidades em uma família de seis filhos de ter O, I, 2, 3, 4, 5 e 6 crianças do sexo masculino? (M = masculino; F = feminino) 6! 1 0 1 &%0 1 G H G H   0,0156 ou 1,56%para 6M e 0F 0! 6  0! 2 2 64

1 # 1 &% 20 6! G H G H   0,0937 ou 9,37%para 5M e 1F 2 64 1! 6  1! 2

6! 1 # 1 &%# 20 G H G H   0,2343 ou 23,43%para 4M e 2F 2! 6  2! 2 2 64

6! 1 ( 1 &%( 20 G H G H   0,3125 ou 31,25%para 3M e 3F 3! 6  3! 2 2 64

6! 1 ' 1 &%' 15 G H G H   0,2343 ou 23,43%para 2M e 4F 4! 6  4! 2 2 64 6! 1 $ 1 &%$ 6 G H G H   0,0937 ou 9,37%para 0M e 5F 5! 6  5! 2 2 64

6! 1 & 1 &%& 1 G H G H   0,0156 ou 1,56%para 0M e 6F 6! 6  6! 2 2 64

A probabilidade de que numa família de 6 filhos, 5 ou mais sejam do sexo masculino,e a soma das probabilidades de 5 e 6 filhos do sexo masculino, isto é, 0,0937 + 0,0156 = 0,1093. Cerca de 10% das famílias de 6 filhos tem 5 ou mais meninos. Parâmetros binomial. A distribuição binomial tem dois parâmetros, e p. São parâmetros no sentido em que são suficientes para especificar uma distribuição binomial. Na realidade, a distribuição binomial é uma família de distribuições cada uma com valores específicos para n e p. A média e a variância da distribuição binomial são: µ = np e o2 = np(l -p), respectivamente Para a distribuição de freqüências de famílias de 6 filhos, do exemplo acima, com 6, 5, 4, 3, 2, l ou 0 filhos do sexo masculino, a média é,evidentemente, (6)(l/2) = 3. A variância é (6)( l/2)( 1/2) = 1,5 e o desvio padrão é I1,5  1.22 Exemplo 8.2

91

Considerando k como sendo a VAD igual a “número de vezes que ocorre face cara em 5 lançamentos de uma moeda equilibrada”, determinar a probabilidade de ocorrer: (a) Duas caras (b) Quatro caras (c) No máximo duas caras Solução: Neste caso, tem-se: n = 5 = número de lançamentos. k = número de caras nos 5 lançamentos ⇒ X(S) = { 0, 1, 2, 3, 4, 5 } p = P(Cara em 1 lançamento ) = 0,50, pois a moeda é equilibrada. Logo q = 1 - p = 0,50 5 5 0 5 0 5

Então:

k

−k

. ,

5 5 0 2 5 0 5 2

2

5 5 0 2 5 0 5 2

2

  f(x) = P(X = x) =   . , k 

. ,



= 10.0,25.0,125 = 31,25%

= 10.0,25.0,125 = 31,25%

  +  . ,  

. ,



2



1

0

    (c) P(X ≤ 2) =   . , . , − +   . , . ,     = 0,55 + 5.0,55 + 10.0,55 = 50%

5 5 0 2 5 0 5 2

  (a) P(X = 2) =   . ,  



5 5 0 1 5 0 5 1

. ,

5 5 0 0 5 0 5 0

  (a) P(X = 2) =   . ,  

, para k = 0, 1, 2, 3, 4, 5

11.2.2. Propriedades da distribuição binomial A vantagem de se ter um modelo conhecido é que podemos determinar suas características de um modo geral. Assim se X é uma VAD com uma distribuição Binomial tem-se: Média, expectância ou valor esperado n  µ = E(X) = ∑ x.f(x) = ∑ x   p x qn −k = np , isto é, a média de uma variável aleatória com k 

distribuição binomial é igual ao produto dos parâmetros “n” e “p“. Variância

92

2

2

2

2

n σ = E(X) − µ Ex   p x qn − x = npq, isto é, a variância de uma variável aleatória x

com distribuição binomial é igual ao produto dos parâmetros “n” e “p” e multiplicados ainda por “q”. O desvio padrão σ = npq

Exemplo 8.3 A probabilidade de um exemplar defeituoso com que opera certo processo produtivo é de 10%. Considerando k a variável “número de unidades defeituosas em uma amostra ocasional de 20 unidades, determinar: (a) O número médio de item defeituosos na amostra. (b) O desvio padrão do número de item defeituosos na amostra. Solução:

. ,

=

. ,

0 8 1

(b) σ = npq =

0 9 0 0 1 0 0 2

(a) E(X) = np = 20.0,10 = 2 itens defeituosos ,

= 1,34 itens defeituosos.

Exemplo 8.4 Num determinado processo de fabricação 10% das peças são consideradas defeituosas. As peças são acondicionadas em caixas com 5 unidades cada uma. (a) Qual a probabilidade de haver exatamente 3 peças defeituosas numa caixa? (b) Qual a probabilidade de haver duas ou mais peças defeituosas numa caixa? (c) Se a empresa paga uma multa de R$ 10,00 por caixa em que houver alguma peça defeituosa, qual o valor esperado da multa num total de 1000 caixas?

.( ,

2

)

0 9 0

  a) P(X = ) =   . ( ,  

3

0 1 0

3

5 3

Solução:

) = 10.0,001.0,81 = 0,81%

b) P(Duas ou mais defeituosas) = P(X = 2) + P(X = 3) + P(X = 4) + P(X = 5). Ao invés de calcular desta forma é mais conveniente utilizar o complementar. Assim: P(X ≥ 2) = 1 - P(X ≤ 1) = 1 - [P(X = 0) + P(X = 1)] = 1 - (0,5905 + 0,3280] = 8,15% (c) A probabilidade de uma caixa pagar multa é:

93

P(PM) = P(X ≥ 1) = 1 - P(X = 0) = 1 - 0,5905 = 40,95% Neste caso tem-se uma nova Binomial com n = 1000 e p = 40,95%. O número esperado de caixas que vão pagar multa, isto é, com uma ou mais peças defeituosas será: E(PM) = np = 1000.0,4095 = 409,5 caixas. Como cada uma paga R$ 10,00 de multa, o valor total da multa será: PM = R$ 10,00.409,5 = R$ 4 095,00 Aproximação da distribuição binomial à normal. A forma de distribuição binomial aproxima-se da forma da distribuição normal (v. adiante), quando p for pequeno e n for grande. Essa propriedade torna permissível o uso da distribuição normal para cálculos de freqüência relativas e testes de hipóteses, para amostras de populações binomiais. De fato, o cálculo de probabilidades com base na distribuição binomial pode tornar-se penoso para valores altos de n, sendo vantajoso então o emprego da distribuição normal. Não há maior inconveniente nessa substituição, quando p tiver valores entre 0.20 e 0,80, e np e (1-p) forem maiores do que 5.

Esperança Matemática de Distribuição Binomial E(X)=n.p Variância de uma Distribuição Binomial V(X) n. p.q

11.3. Distribuição de Poisson Na distribuição binomial, a variável de interesse era o número de sucessos (ocorrências do evento A) em um intervalo discreto (n repetições do experimento E). Muitas vezes, entretanto, o interesse reside no número de sucessos em um intervalo contínuo, que pode ser de tempo, comprimento, superfície, etc. Para se caracterizar uma distribuição que leve em conta o número de sucessos (valores) em um intervalo contínuo, será suposto que: (i) Eventos definidos em intervalos não sobrepostos são independentes; (ii) Em intervalos de mesmo comprimento, são iguais as probabilidades de ocorrência de um mesmo número de sucessos; (iii) Em intervalos muito pequenos, a probabilidade de mais de um sucesso é desprezível; (iv) Em intervalos muito pequenos, a probabilidade de um sucesso é proporcional ao comprimento do intervalo.

94

Se os valores de uma variável satisfazem as hipóteses (i) a (iv) acima se dirá que ela segue um processo de Poisson.

Hipóteses do modelo de Poisson 1. A probabilidade de observar apenas um sucesso no intervalo é estável. 2. A probabilidade de observar mais que um sucesso no intervalo é zero. 3. A ocorrência de um sucesso em qualquer intervalo é independente da ocorrência de sucesso em qualquer outro intervalo. A distribuição de Poisson é caracterizada apenas pelo parâmetro λ, que representa o valor esperado ou média, do número de sucessos por intervalo t. Em outras palavras, λ é a taxa de ocorrência dos eventos no intervalo de tempo. Então: f (x) = P(X = k) =

e− λ .λk , para k = 0, 1, 2, 3, ... , onde k é o número de eventos que k!

ocorrem em um intervalo sobre o qual se espera uma média λ de ocorrências. Além disso, X pode ser definida como o número de eventos que ocorrem sobre um período de tempo t, substituindo λ na equação acima por λt. Desta forma a distribuição de Poisson pode ser escrita como: e − λt .(λt)k , para x = 0, 1, 2, 3, ... k! A distribuição de Poisson será representada por P(λ). f (x) = P(X = k) =

Exemplo 8.5 Em um certo tipo de fabricação de fita magnética, ocorrem defeitos a uma taxa de 1 a cada 2000 metros. Qual a probabilidade de que um rolo com 2000 metros de fita magnética: (a) Não tenha defeitos? (b) Tenha no máximo dois defeitos? (c) Tenha pelo menos dois defeitos? Solução: Neste caso, tem-se: λ = Taxa de defeitos a cada 2000 metros. X = número de defeitos a cada dois mil metros. x = 0, 1, 2, 3, ...

95

Então: f (x) = P(X = k) =

= ,

= = 36,79% 2

1

0

e− . e− . e− . + + = , ! ! !

=

7 9 1 9

7 9 1 9 0

1

2 1

1 1

1

1

0 1

!

7 6 3 0

0

2

b) P(X ≤ ) =

e−

1

0

a) p(X = ) =

0 1

e λ .λk , para k = 0, 1, 2, 3, ... k!

,

%

1

1 1

0 1

1

1

1

1

0

1

1

2

 e− . e− .  − +  = 1 - 2e =0,2642= 26,42% ! !  

c) P(X ≥ ) = − P(X ≤ ) = − 

Exemplo 8.6 Um dado é formado por chapas de plástico de 10x10 cm. Em média aparecem 50 defeitos por metro quadrado de plástico, segundo uma distribuição de Poisson. (a) Qual a probabilidade de uma determinada face apresentar exatamente 2 defeitos? (b) Qual a probabilidade de o dado apresentar no mínimo dois defeitos? (c) Qual a probabilidade de que pelo menos 5 faces sejam perfeitas? Solução: (a) Em média aparecem: d = 50 defeitos/m2 = 50/10 000 defeitos/cm2 Como cada face tem a = 10cm x 10 cm = 100 cm2, tem-se então: λ = (50/10000) defeitos/cm2 x 100 cm2 = 0,5 defeitos por face. e− , .( , ) = , !

8 5 7

8 5 7 0 0

2

5 0 2

2

P(X = ) =

5 0

A probabilidade de uma face apresentar dois defeitos será: = ,

%

(b) No dado inteiro, a área total será a = 6x100 cm2 = 600 cm2 e o número médio de 2

2

λ=

0 0 0 0 5 0 1

defeitos será então:

defeitos /cm x 600 cm = 3 defeitos

. 2

A probabilidade de o dado apresentar no mínimo dois defeitos será: P(X ≥ ) = P(X = 2) + P(X = 3) + ... = 1 - P(X ≤ 1) = 1 - [P(X = 0) + P(X =1)] = 3

1 3

3

0 3

1

1

0

 e − .   e − .   = −  +   = 1 - [0,0498 + 0,1494] =0,8008= 80,08% !   !  

(c) A probabilidade de pelo menos 5 faces perfeitas é:

96

P(Y ≥ 5) = P(Y = 5) + P(Y = 6). A probabilidade de uma face ser perfeita é a 5 6 0 6 0

0

5 0

e − , .( , ) = , ! 0

0

P(X = ) =

5 0

probabilidade de ela não apresentar defeitos, isto é: = 60,65%

Tem-se então uma binomial Y com n = 6 (número de faces do dado) e p = 60,65% = probabilidade de uma face ser perfeita. Então a probabilidade de pelo menos 5 perfeitas, será: 6 3 4 2 0

)

0

  + ( 0 39350 ) +   . ( ,  

6

5 6 0 6 0

6 6

)

1

  =   .( ,  

5

5 6 0 6 0

6 5

P(Y ≥ 5) = P(Y = 5) + P(Y = 6) =

+ ( 0 39350 ) = ,

= 24,36%

11.3.1. Propriedades da distribuição de poisson Se X for uma VAD com distribuição de Poisson, então:

Média, expectância ou valor esperado 2

µ = E(X ) = ∑ kf (k) = ∑ x

e − λ .λk =λ k!

Variância e − λ .λk =λ k!

2

2

2

2

σ = E(X ) − µ = ∑ x

O desvio padrão σ= λ

11.4.

Relação entre as distribuições Binomial e Poisson

Seja X uma variável aleatória discreta com distribuição Binomial de parâmetros “n” e “p”. Isto é: n  f (x) = P(X = k) =   .p k .qn −k k 

97

Admita-se que quando n → ∞ , tenha-se np = α = constante, ou de uma forma equivalente, quando n → ∞ , p → 0, de modo que np → α. Nestas condições tem-se então: n  e − λ .λk lim P(X = k) = lim   .p k .q n −k = n →∞ n →∞ k k!  

O teorema diz essencialmente, que é possível obter uma aproximação das probabilidades binomiais com as probabilidades da distribuição de Poisson, toda vez que “n” seja grande e “p” seja pequeno. Exemplo 8.7 Uma amostra de 50 peças é retirada da produção de uma máquina que trabalha com um índice de defeitos de 2%. Determinar a probabilidade de se encontrarem duas peças defeituosas na amostra.

)

7 5 8 1 7 5 8 1 0

.( ,

8 4

)

2

  .( , 

8 9 0

2 0 0

2

 (a) Pela Binomial, tem-se: P(X = ) =  

0 5 2

Solução:

= ,

=

,

%

9 3 8 1 0

1

e− . = , ! 2

2

= 1,tem-se: P(X = ) =

2 1

(b) Usando uma aproximação pela distribuição de Poisson de média µ = np = 50.0,02 = 18, 39%

Vocabulário Distribuição binomial Distribuição de Poisson Processo de bernoulli

Questões de revisão 1. Que é uma variável aleatória discreta? Dar três exemplos de interesses na área biomédica; 2. Descrever a distribuição binomial; 3. Que é um processo de Bernoilli?; 4. Dar um exemplo de uma variável aleatória que segue a distribuição binimial; 5. Dar um exemplo de uma variável aleatória que segue a distribuição de

98

Poisson.

Esperança Matemática da Distribuição de Poisson E(x) = λ Variância da Distribuição de Poisson V(X) λ

99

Exercícios 8.1 Dentre 6.654 partos sucessivos que ocorreram em uma maternidade, e que resultaram em crianças vivas. 50 foram gêmeos e 2 foram de trigêmios. Quais as probabilidades (em percentagem) de nascimentos de gêmeos e de trigêmeos entre recém-nascidos vivos que podem ser estimados a partir desses dados? 8.2 Crianças com determinada doença genética são, quase sempre, filhos de casais assintomáticos que correm um risco de 25% de gerar outra criança com esse defeito. Entre tais casais com 5 filhos, qual o percentual esperado daqueles com a doença genética manifestada em: A.

Um filho.

B.

Três filhos.

C.

Todos os filhos?

8.3. Um estudo mostrou que 26% da população adulta de determinada cidade é obesa. A partir de uma amostra de 20 adultos, encontrar a probabilidade que o número de obesos nessa amostra será: A.

Exatamente três.

B.

T ré s ou m ais.

C.

Menor que três.

D.

Entre três e sete, inclusive.

8.4. Suponha que certa área de uma grande cidade apresente uma média de cinco ratos por quarteirão. Pressupondo que o número de ratos siga a distribuição de Poisson, encontrar a probabilidade que era um quarteirão selecionado ao acaso tenha: A.

Exatamente cinco ratos.

B.

Mais que cinco ratos.

C.

Menos que cinco ratos.

D.

Entre cinco e sete ratos, inclusive.

8.5. Se o número médio de acidentes sérios por ano em uma grande (onde o número de empregados permanece constante) é cinco. Encontrar a probabilidade que nesse ano ocorrerá: A.

Exatamente sete acidentes.

100

B.

Dez ou mais acidentes.

C.

Nenhum acidente.

D.

Menos que cinco acidentes.

8.6. Em certa população uma média de 13 novos casos de câncer de esôfago são diagnosticados cada ano. Se a incidência anual segue a distribuição de Poisson, encontrar y probabilidade que em determinado ano o número de novos casos de câncer de esôfago sejam: A. Exatamente 10 B. Menos que 12 C. No mínimo 8 D. Entre 9 e15, inclusive

101

11.5.

Distribuições contínuas de probabilidade

Quando a variável aleatória for contínua (pode assumir qualquer valor fracionário dentro de um intervalo definido de valores). As probabilidades são determinadas por uma função matemática e descritas por uma função de densidade ou por uma curva de probabilidade. Entre as distribuições de probabilidade de variáveis continuas algumas são de essencial importância para a estatística. Distribuição normal, distribuição t, distribuição do quiquadrado e distribuição F de Snedecor.

11.5.1.

Distribuição normal ou Gaussiana

É um modelo de distribuição contínua de probabilidade, usada tanto para variáveis aleatórias discretas como contínuas. Uma variável aleatória X, que tome todos os valores reais -∞< x < +∞ tem distribuição normal quando sua função densidade de probabilidade (f.d.p.) for da forma:

f ( x)

1 2π.σ

2 1  x −µ    e 2  σ  ,−∞ < x < +∞

Os parâmetros µ e σ seguem as seguintes condições:

-∞ < µ < + ∞ e σ > 0 . 11.5.2 - Propriedades da Distribuição Normal a) O aspecto gráfico da função f tem semelhança de um sino, unimodal e simétrico em relação a média µ. b) A especificação da média µe do desvio padrão σ é completamente evidenciado. c) A área total da curva equivale a 100%.

102

FIGURA 11.1 - Distribuição Normal em função da µ e σ

Esperança Matemática da Distribuição Normal E(X) = µ Variância da Distribuição Normal V(X) = σ² 11.5.3 - Distribuição Normal Padronizada Tem como objetivo solucionar a complexidade da f(x) através da mudança de variável. f(z).

FIGURA 11.2 - Complemento da Distribuição Normal Padronizada

Fazendo z=

x−µ e z ~ N(0,1) temos que σ 103

f ( Z) =

−z2 2 1 +∞ e ∫ 2π − ∞

com E(z) = 0 e VAR(z) = 1. onde: z = número de desvios padrões a contar da média x = valor arbitrário µ = média da distribuição normal σ = desvio padrão da distribuição normal Estas probabilidades estão tabeladas e este caso particular é chamado de Forma Padrão da Distribuição Normal.

104

12. DISTRIBUIÇÃO AMOSTRAL DAS MÉDIAS

Objetivos 1. Distinguir entre a distribuição de uma população e a distribuição amostrai de médias (DAM). 2. Explicar a importância do teorema central do limite. 3. Identificar os principais pontos do teorema central do limite. 4. Calcular e interpretar o erro padrão da média. 5. Determinar quando usar uma distribuição t. Valores de medidas estatísticas, tais como, a média e o desvio padrão, não são necessariamente iguais aos de outras amostras obtidas de uma mesma população. Essa variação é atribuída a diferenças na composição das amostras aleatórias e é conhecida como variação amostral. A partir do estudo da variabilidade do resultado, de amostra para amostra, c possível construir distribuições de freqüências (distribuições amostrais) que é a base para a inferência estatística. Dada uma população de valores x com distribuição normal, com média µ . e desvio padrão a e dela extraindo-se um grande número de amostras casuais simples de

n n dessas amostras levam a valores para X mesmo tamanho n, o cálculo das médias X

diferentes entre si. Essas séries de médias resultantes poderão ser classificadas numa tabela de freqüências e representadas por um histograma. Repetindo-se a amostragem indefinidamente, o histograma tenderá para uma curva que representa a distribuição estatística das médias amostrais, denominada distribuição amostral de médias (DAM) .

Amostra Amostra 1 Amostra 2 Amostra 3 ........... Amostra n Média das médias

Obtenção da média das medias

Medias n X n# X n( X ............ n Xo n pn  ΣX n/n X

As propriedades dessas distribuições teóricas conferem um papel importante no processo de inferências estatísticas. A partir dessa distribuição, é possível calcular a

105

média e o desvio padrão da DAM e verificar como estes valores se relacionam com os parâmetros da população.

12.1. Teorema central do limite Pelo Teorema Central do Limite, a distribuição amostrai das médias tende para uma distribuição normal com média (igual a média da população) e com desvio padrão

σ/√n (desvio padrão da população dividida pela raiz quadrada do tamanho da amostra). A partir do Teorema Central do Limite obtêm-se:

1. A média da distribuição amostra! das médias (a "média das médias") é igual à média populacional. Ou seja: µt6  µ

2. O desvio padrão da distribuição amostral das médias é igual ao desvio padrão da população dividida pela raiz quadrada do tamanho da amostra -

isto é σpn  σ √n ou seja. é √n vezes menor que a variação existente na população.

3. A distribuição amostral de médias aproxima-se de uma curva normal. Quando n for bastante grande, a forma de distribuição amostral de médias é, aproximadamente, uma curva normal, qualquer que seja a forma da distribuição populacional da quais as médias foram extraídas (normal ou não). 4. As áreas sob a curva de distribuição amostral de média, são as mesmas da curva normal. Ao redor de 68% das médias estão entre σ  µ/√n e µ  σ/√n,

enquanto 95% estão entre µ  2σ/√n e µ  2σ/√n.

A maior parte das amostras tende a estimar os parâmetros populacionais com boa aproximação. Isto justifica a relativa confiança nas inferências baseadas nos dados de observações obtidas de uma amostra. A confiança a ser depositada numa amostra, naturalmente cresce com o aumento de tamanho dessa amostra. Outro aspecto a ser relacionado é, quanto menor a variabilidade mais consistente e reprodutível são os resultados obtidos e, portanto, mais correta a inferência.

106

12.2. Desvio padrão da média (erro padrão da média) É possível estimar o desvio padrão da distribuição amostral de médias a partir de dados fornecidos por uma única amostra. Essa estimativa é conhecida como erro padrão da media ou desvio padrão das médias. O desvio padrão da distribuição amostral de médias é σpn  σ/√n é igual ao desvio padrão da população original. Na prática o raramente é conhecido, no entanto, pode ser estimado a partir do desvio padrão da amostra; conseqüentemente, a equação usada para calcular o desvio padrão da média é:

spn 

s

√n

 9

s# n

Exemplo 10.1 Para o exemplo 5.1 (Capítulo 5: Medidas de posição) onde os valores de glicose dados em mg/dL (90, 86, 78, 90, 98, 90, 82, 76, 84) apresentam média: 86: desvio padrão: 6,85; n = 9. A aplicação da equação para o cálculo do desvio padrão da média fornece:

Sx =

s n

=

6,85 9

= 2,28 mg / dL

12.3. Distribuição t de “student” A distribuição T ou de "student" (pseudônimo de W. S. Gosset) é uma distribuição teórica de probabilidades, introduzida na metodologia estatística para trabalhar com pequenas amostras (n<30), aleatórias e independentes; a variável observacional precisa ter distribuição normal (na população) e o desconhecido.

n, estimada a partir de uma O valor de t é a medida do desvio entre a média X

amostra aleatória de tamanho n, e a média µ da população, usando o des

(s

x

)

= s / n vio padrão da média como unidade de medidai: t

n X µ s/√n

107

A diferença fundamental entre as variáveis t e z, está nos respectivos denominadores. O desvio padrão da população o impõe restrições ao uso de z, pois se trata de um parâmetro geralmente desconhecido, ou que deve ser estimado de uma amostra relativamente grande. No denominador de t. entra o desvio padrão s, calculado a partir de amostra formada por um número relativamente pequeno de observações.

12.3.1.

Propriedades da distribuição t de student

1. A média é igual a zero. 2. As curvas t são simétricas em torno da média, tem forma de sino e assemelham-se a curva normal, porém mais "achatadas".

3. O intervalo da variável t é: — ∞ a + ∞.

4. A distribuição de t não é descrita por uma distribuição única, como no caso da distribuição normal padronizada, mas por uma família de distribuições. Há uma curva t diferente para cada número de graus de liberdade da amostra (n1). 5. A variação de t é maior com amostras pequenas, do que com amostras grandes. Quando n tende para o ∞, o desvio padrão s tenderá para a; consequentemente, a distribuição t aproxima-se da distribuição normal padronizada. Para amostras com n ≥ 30, a distribuição de t é, praticamente, a distribuição normal padronizada. Por outro lado, a medida que os graus de liberdade diminuem, a distribuição t torna-se cada vez mais espalhada em comparação com a norma. Uma distribuição t é apropriada para inferências sobre a média sempre quando a for desconhecido e a população normalmente distribuída, qualquer que seja o tamanho da amostra. A distribuição de t tem como principais aplicações: 1. Estimação aos, intervalos de confiança para a média populacional, 2. Comparação de duas médias pelo teste t. A tabela do Anexo D apresenta os valores de t que delimitam as áreas nos dois extremos da curva de distribuição, para distintos valores de graus de liberdade. As duas áreas nos dois extremos são chamadas regiões críticas ou zonas de rejeição

Vocabulário Distribuição amostral de médias

Distribuição t de Student

108

Distribuição populacional

Graus de liberdade

Erro padrão da média

Teorema central do limite

109

Exercícios Diversos 1. No lançamento simultâneo de 2 dados, considere as faces voltadas para cima e determine a) espaço amostral S. b) evento E1 : números cuja soma á igual a 5. c) evento E2: números iguais. d) evento E3: números cuja soma é um número par. e) evento E4: números ímpares nos 2 dados. f) evento E5: número 2 em pelo menos 1 dos dados. g) evento E6: números cuja soma é menor que 12. h) evento E7: números cuja soma é maior que 12. i) evento E8: números divisores de 7 nos 2 dados. 2. Um casal planeja ter 3 filhos. Determine os eventos: a) os 3 são do sexo feminino. b) pelo menos 1 é do sexo masculino. c) os 3 do mesmo sexo. 3. Uma urna contém 20 bolinhas numeradas de 1 a 20. Escolhe-se ao acaso uma bolinha e observa-se o seu número. Determine os seguintes eventos: a) o número escolhido é ímpar. b) o número escolhido é maior que 15. c) o número escolhido é múltiplo de 5. d) o número escolhido é múltiplo de 2 e de 3. e) o número escolhido é primo. f) o número escolhido é par e múltiplo de 3. g) o número escolhido é ímpar e múltiplo de 7. 4 Qual a probabilidade de ocorrer o número 5 no lançamento de um dado? 5 Qual a probabilidade de se obter um número par no lançamento de um dado? 6. Um disco tem uma face branca e a outra azul. Se o disco for lançado 3 vezes, qual a probabilidade de a face azul ser sorteda pelo menos uma vez? 7 Um casal planeja ter 3 filhos. Qual a probabilidade de os 3 serem do mesmo sexo? 8.João lança um dado sem que Antônio veja. João diz que o número mostrado pelo dado é par. Qual a probabilidade de Antônio descobrir esse número?

110

9.Um baralho de 12 cartas tem 4 ases. Retiram-se 2 cartas, uma após a outra. Determine a probabilidade de a segunda ser um ás, sabendo que a primeira é um ás. 10.Uma urna tem 10 bolas idênticas, numeradas de 1 a 10. Se retirarmos uma bola da urna, qual a probabilidade de não obtermos a bola número 7 ? 11. Uma urna contém 2 bolas brancas e 5 bolas vermelhas. Retirando-se 2 bolas ao acaso e sem reposição, calcule a probabilidade de: a) as bolas serem de cores diferentes. b) as bolas serem vermelhas. 12. Uma caixa contém 11 bolas numeradas de 1 a 11. Retirando-se uma delas ao acaso, observa-se que ela tem um número ímpar. Determine a probabilidade de esse número ser menor que 5. 13.Uma bola é retirada de um urna que contém bolas coloridas. Sabe-se que a probabilidade de ter sido retirada uma bola vermelha é 5/17. Calcule a probabilidade de ter sido retirada uma bola que não seja vermelha. 14.A probabilidade de que a população atual de um país seja de 110 milhões ou mais é de 95%. A probabilidade de ser 110 milhões ou menos é de 8%. Calcule a probabilidade de ser 110 milhões. 15. Uma urna contém 30 bolinhas numeradas de 1 a 30. Retirando-se ao acaso uma bolinha da urna, qual a probabilidade de essa bolinha ter um número múltiplo de 4 ou 3? 16. Jogando-se um dado, qual a probabilidade de se obter o número 3 ou um número ímpar? 17. Consultadas 500 pessoas sobre as emissoras de tevê que habitualmente assistem, obteve-se o seguinte resultado: 280 pessoas assistem ao canal A, 250 assistem ao canal B e 70 assistem a outros canais, distintos de A e B. Escolhida uma pessoa ao acaso, determine a probabilidade de que ela assista: a) ao canal A. b) ao canal B. c) ao canal A ou ao canal B. 18. Num grupo, 50 pessoas pertencem a um clube A, 70 pertencem a um clube B, 30 a um clube C, 20 pertencem aos clubes A e B, 22 aos clubes A e C, 18 aos clubes B e C e 10 pertencem aos 3 clubes. Escolhida ao acaso uma das pessoas presentes, a probabilidade de ela: a) pertencer aos 3 clubes é 3/5.

111

b) pertencer somente ao clube C é zero. c) pertencer a pelo menos dois clubes é de 60%. d) não pertencer ao clube B é 40%. 19. De uma reunião participam 200 profissionais, sendo 60 médicos, 50 dentistas, 32 enfermeiras e os demais nutricionistas. Escolhido ao acaso um elemento do grupo, qual é a probabilidade de ele ser médico ou dentista?

20. Escolhido ao acaso um elemento do conjunto dos divisores de 30, determinar a probabilidade de que ele seja primo? 21. Uma bola será retirada de uma sacola contendo 5 bolas verdes e 7 bolas amarelas. Qual a probabilidade desta bola ser verde?

22. Três moedas são lançadas ao mesmo tempo. Qual é a probabilidade de as três moedas caírem com a mesma face para cima?

23. Um casal pretende ter filhos. Sabe-se que a cada mês a probabilidade da mulher engravidar é de 20%. Qual é a probabilidade dela vir a engravidar somente no quarto mês de tentativas?

24. Um credor está à sua procura. A probabilidade dele encontrá-lo em casa é 0,4. Se ele fizer 5 tentativas, qual a probabilidade do credor lhe encontrar uma vez em casa?

25. Em uma caixa há 2 fichas amarelas, 5 fichas azuis e 7 fichas verdes. Se retirarmos uma única ficha, qual a probabilidade dela ser verde ou amarela?

26. Alguns amigos estão em uma lanchonete. Sobre a mesa há duas travessas. Em uma delas há 3 pastéis e 5 coxinhas. Na outra há 2 coxinhas e 4 pastéis. Se ao acaso alguém escolher uma destas travessas e também ao acaso pegar um dos salgados, qual a probabilidade de se ter pegado um pastel?

27. O jogo de dominó é composto de peças retangulares formadas pela junção de dois quadrados. Em cada quadrado há a indicação de um número, representado por uma certa quantidade de bolinhas, que variam de nenhuma a seis. O número total de combinações possíveis é de 28 peças. Se pegarmos uma peça qualquer, qual a probabilidade dela possuir ao menos um 3 ou 4 na sua face?

28. Em uma caixa há 4 bolas verdes, 4 azuis, 4 vermelhas e 4 brancas. Se tirarmos sem reposição 4 bolas desta caixa, uma a uma, qual a probabilidade de tirarmos nesta ordem bolas nas cores verde, azul, vermelha e branca?

112

29. Em uma escola de idiomas com 2000 alunos, 500 alunos fazem o curso de inglês, 300 fazem o curso de espanhol e 200 cursam ambos os cursos. Selecionando-se um estudante do curso de inglês, qual a probabilidade dele também estar cursando o curso de espanhol?

30. De uma sacola contendo 15 bolas numeradas de 1 a 15 retira-se uma bola. Qual é a probabilidade desta bola ser divisível por 3 ou divisível por 4?

31. a) a. Qual é a diferença entre as distribuições de Poisson e Binomial? b. Dê alguns exemplos de quando podemos aplicar a distribuição de Poisson. c. Dê a fórmula da distribuição de Poisson e o significado dos vários símbolos. d. Sob que condições pode a distribuição de Poisson ser usada como uma aproximação da distribuição Binomial? Por que isto pode ser útil?

32. Um departamento de polícia recebe em média 5 solicitações por hora. Qual a probabilidade de receber 2 solicitações numa hora selecionada aleatoriamente? 33. A experiência passada indica que um número médio de 6 clientes por hora param para colocar gasolina numa bomba. a. Qual é a probabilidade de 3 clientes pararem qualquer hora? b. Qual é a probabilidade de 3 clientes ou menos pararem em qualquer hora? c. Qual é o valor esperado, a média, e o desvio padrão para esta distribuição?

33. A experiência passada mostra que 1% das lâmpadas incandescentes produzidas numa fábrica são defeituosas. Encontre a probabilidade de mais que uma lâmpada numa amostra aleatória de 30 lâmpadas sejam defeituosas, usando: a. A distribuição Binomial e b. A distribuição de Poisson. 34. Qual a probabilidade de obter três números primos em cinco jogadas de um dado? 35. Jogando-se uma moeda honesta, qual a probabilidade de obter ao menos quatro caras em cinco jogadas? 36. Suponha que você compareça a um exame com 100 questões do tipo verdadeiro-falso; você nada sabe sobre o assunto do exame, e vai responder as questões por adivinhação. Qual é a chance de acertar ao menos 60 questões (use aproximação)?

113

37. Quantas vezes devemos jogar uma moeda para que a probabilidade de aparecerem ao menos duas caras seja superior a 1/2? 38. Suponha que 10% da população seja de canhotos. Escolhidas três pessoas aleatoriamente, qual é a probabilidade de ao menos uma ser canhota? 39. Qual é a probabilidade de dois dos próximos três presidentes do Brasil terem nascido em um domingo? 40. Suponha que 2/5 da população tenham sangue tipo 0+. Escolhidas aleatoriamente seis pessoas, qual a probabilidade de quatro delas terem sangue 0+? 41. Suponha que 45% dos Almeida no mundo sejam mulheres. De três Almeida escolhidos aleatoriamente, qual é a probabilidade de ao menos dois serem mulheres? 42. Seja X uma variável aleatória que representa o número de vezes que a palavra platypus é pronunciada em determinado dia. Supondo que X tenha distribuição de Poisson com parâmetro m= 1/2, quanto é Pr(X> 1)? 43. Se X é uma variável aleatória de Poisson com parâmetro m = 10, quanto é Pr(1 £ X £ 3)? 44. Seja X uma variável aleatória de Poisson com parâmetro m=3, representando o número de pessoas que usam um dicionário em uma biblioteca em dado dia. Qual o valor de P(X£4)? 45. Suponha que o índice pluviométrico em uma cidade tenha distribuição normal com média 40 e desvio-padrão 5. Qual é a probabilidade de a cidade ter menos de 33 polegadas de chuva no próximo ano? Qual é a probabilidade de a cidade ter mais de 38 polegadas de chuva? 46. Suponha que o escore de um estudante no vestibular seja uma variável aleatória selecionada de uma distribuição normal com média 550 e variância 900. Se a admissão em certa faculdade exige um escore de 575, qual é a probabilidade de ser admitido? E se o escore mínimo for 540? 47. Suponha que você está medindo a velocidade da luz. Os resultados de suas medidas são dados por uma variável aleatória normal cuja média é o verdadeiro valor e cujo desvio-padrão é 5 x 109 centímetros por segundo. Qual é a probabilidade de a sua medida estar a menos de 2 x 109 centímetros por segundo do verdadeiro valor? Nos Exercícios 17 a 21, seja X uma variável aleatória normal com parâmetros m e s2. Com auxílio da Tabela Normal, calcule:

114

48. 49. 50. 51. 52.

Se m = 0 e s2 = 100, quanto é P(5 <X< 10)? Se m = -3 e s2 = 9, e P(X < a) = 0,6, quanto é a? Se m = 0 e P(X < 5) = 0,8, quanto é s2? Se m = 73 e s2 = 81, quanto é P(|X|> 100)? Se m = 25 e s2 = 100, quanto é P(X = 25)?

53. Considere um conjunto de n=4 bezerros prestes a nascer. Supondo que a probabilidade de nascer um bezerro macho seja p=1/2, calcule a probabilidade de se ter 0, 1, 2, 3, ou 4 bezerros machos

54. Vamos supor que a taxa normal de glicose no sangue humano seja uma variável aleatória com distribuição normal de média x = 100 mg/dl de sangue e desvio padrão s = 6 mg/dl de sangue. Calcule a probabilidade de um indivíduo com taxa normal de glicose, apresentar: a) taxa superior a 110mg/dl de sangue; b) taxa inferior a 90 mg/dl de sangue; c) taxa entre 90 e 110 mg/dl de sangue. 55. Supondo que o peso médio de ovos de uma certa linhagem de galinhas seja uma variável de distribuição aproximadamente Normal com média de 59 gramas e desvio padrão de 1 grama. Calcule a probabilidade de encontrar, em determinado lote de produção, ovos com peso: a) inferior a 58 gramas; b) superior a 61 gramas; c) entre 58 e 60 gramas 56. Vamos supor que uma galinha da linhagem Shaver 579 produza, em um período de 72 semanas, 300 ovos em média, com desvio padrão de 5 ovos, e que esta variável (produção de ovos) apresente distribuição aproximadamente Normal. Calcule a probabilidade de uma galinha dessa linhagem produzir, em 72 semanas, um número: a) inferior a 290 ovos; b) superior a 310 ovos; c) entre 290 e 310 ovos. 57. Considere ninhadas de n = 3 filhotes de coelhos. Construir o espaço amostral considerando os nascimentos de fêmeas e machos, utilizando um diagrama de árvore e considerar os eventos nascer macho e nascer fêmea como equiprováveis. a) Sendo X a ocorrência de fêmeas, construa a distribuição de probabilidade de X; b) Calcule as probabilidades dos seguintes eventos por meio da distribuição de probabilidade construída: i) nascimento de exatamente duas fêmeas. ii) nascimento de pelo menos um macho.

115

iii) nascimento de pelo menos duas fêmeas. iv) nascimento de no máximo uma fêmea. c) Suponha que você faça uma amostragem de 500 ninhadas de 3 filhotes. Em quantos, em média, você espera encontrar com exatamente 1 fêmea? 58. Considere nascimentos de n = 4 filhotes de coelhos de um determinada raça. Nesta raça há um distúrbio genético e a probabilidade de nascer fêmea é 5=8. Sendo X a ocorrência de fêmeas e utilizando a distribuição binomial obter: a) a distribuição de probabilidade de X, ou seja, os valores e as probabilidades associadas aos respectivos valores x; b) a média e variância da variável aleatória X, com distribuição binomial; c) o número esperado (médio) de ninhadas em uma amostra de 1:000 ninhadas de tamanho n = 4 para cada valor da variável aleatória X. 59. Numa lâmina verificou-se que existiam em média 4 bactérias/cm2. A lâmina foi subdividida em 600 quadrados de 1 cm2. Qual é o modelo probabilístico adequado para modelar a ocorrência de bactérias por cm2, supondo que a distribuição espacial segue um padrão aleatório? Em quantos dos 600 quadrados, em média, você espera encontrar no máximo 1 bactéria? Qual é a probabilidade de se encontrar mais de 2 bactérias por centímetro quadrado? Qual é a probabilidade de não encontrar bactérias em um quadrado tomado aleatoriamente destes 600 quadrados? 60. Um pesquisador da área de zootecnia conseguiu uma série de dados dos últimos 120 anos com o registro do número de uma doença rara em equinos da localidade em que trabalhava. Os dados obtidos foram: Número de doenças (x) Número de anos (Fi)

0 55

1 40

2 17

3 5

4 2

5 1

a) Estime o número médio de doenças /ano; b) Calcule para cada valor da variável aleatória X, as probabilidades associadas. Suponha que X possua distribuição de Poisson e que a média amostral é o estimador do parâmetro λ da distribuição Poisson; c) Calcule a frequência esperada (em anos) para cada valor da variável aleatória X; d) Compare os resultados esperados com os observados. Com base nesta comparação, você pode afirmar que a distribuição de Poisson é adequada para explicar a ocorrência desta doença na região de estudo? Justifique. 61. Uma plantação de tomate possui em média 2 galhas de M. incógnita por planta. Qual é a probabilidade de que uma planta amostrada desta população não possua galha? Suponha que o modelo Poisson é apropriado para modelar a ocorrência de galhas de nematóide. Qual é a probabilidade de que em uma amostra de tamanho n = 5 plantas, as 5 não apresentem galhas?

116

62. Suponha que o tempo necessário para atendimento de clientes em uma central de atendimento telefônico siga uma distribuição normal de média de 8 minutos e desvio padrão de 2 minutos. a)Qual é a probabilidade de que um atendimento dure menos de 5 minutos? b)E mais do que 9,5 minutos? c)E entre 7 e 10 minutos? d)75% das chamadas telefônicas requerem pelo menos quanto tempo de atendimento? 63. A distribuição dos pesos de coelhos criados numa granja pode muito bem ser representada por uma distribuição Normal, com média 5 kg e desvio padrão 0,9 kg. Um abatedouro comprará 5000 coelhos e pretende classificá-los de acordo com o peso do seguinte modo: 15% dos mais leves como pequenos, os 50% seguintes como médios, os 20% seguintes como grandes e os 15% mais pesados como extras. Quais os limites de peso para cada classificação? 64. Os resultados de um exame nacional para estudantes recém-formados apresentarem uma média m = 500 com o desvio padrão s = 100. Os resultados têm uma distribuição aproximadamente normal. Qual a probabilidade de que o grau de um indivíduo escolhido aleatoriamente esteja: a) entre 500 e 650? b) entre 450 e 600? c) inferior a 300? d) superior a 650? 65. O número de pessoas que almoçam num restaurante suburbano é aproximadamente normal com média de 250 e desvio padrão de 20 pessoas, por dia. Determine a probabilidade de que, em um dia qualquer, sejam atendidas: (a) menos de 200 pessoas (b) entre 225 e 275 pessoas 66. A vida média dos habitantes de um país é de 68 anos, com uma variância de 25 anos. Faz-se um estudo em uma pequena cidade de 10.000 habitantes: a)Quantas pessoas superam os 75 anos? b)Quantos viverão menos de 60 anos? 67. Os balancetes semanais realizados em uma empresa mostraram que o lucro realizado distribui-se normalmente com média US$ 48.000 e desvio padrão US$ 8.000. Qual a probabilidade de que na próxima semana o lucro esteja entre US$ 40.000 e US$ 45.000? 68. O Departamento de Marketing de uma empresa resolve premiar 4% dos seus vendedores mais eficientes. Um levantamento das vendas individuais por semana mostrou que elas se distribuíam normalmente com média R$240.000,00 e desvio

117

padrão R$30.000,00. Qual o volume mínimo de vendas que um vendedor deve realizar para ser premiado? 69. O consumo médio anual de cerveja dos habitantes de um país é de 59 litros, com uma variância de 36 litros. Supõe-se que se distribui segundo uma distribuição normal. a) Se você presume ser um bom bebedor, quantos litros de cerveja teria que beber ao ano para pertencer aos 5% da população que mais bebe? b) Se você bebe 45 litros de cerveja o que poderia argumentar em sua defesa para não ser considerado um beberrão? c) Quantos litros bebem os 15% da população que mais bebem? 70. Trace uma curva normal e sombreie a área desejada obtendo então a informação. a) Área à direita de Z = 1 b) Área à esquerda de Z = 1 c) Área entre Z = 0 e Z = 1,5 d) Área entre Z = -0,56 e Z = -0,2 e) Área entre Z = 0,5 e Z = 0,5 f)

Área entre Z = 0 e Z = -2,5

118

13 ESTIMAÇÃO ESTATÍSTICA

Objetivos 1. Computar um intervalo de confiança a partir de um conjunto de dados para (a) a média de uma população; (b) a diferença entre a média de duas populações. 2. Descrever três modos de estreitar o intervalo de confiança. 3. Listar os prós e os contras na realização de um experimento emparelhado. 4. Determinar o tamanho da amostra. O propósito da estatística inferência! é tirar conclusões a partir de dados de amostras baseadas na probabilidade de ocorrência de certo tipo de fenômeno. A partir dessas informações, é possível decidir se um fato observado é verdadeiro ou provocado pela variação ao acaso. Existem duas grandes áreas da inferência estatística: a estimação de parâmetros e o teste, de hipótese. O parâmetro desconhecido de uma população é, geralmente, estimado a partir de dados obtidos de amostras. Tanto na estimação de parâmetros como no teste de hipótese são avaliadas características de uma população ou de populações diferentes. As duas abordagens podem ser atingidas de diferentes modos: (1) pela estimação das diferenças nas médias entre um grupo experimental e um grupo controle e (2) pela estimação de diferenças nas médias de um grupo antes e depois de um tratamento. No primeiro caso são examinadas duas amostras aleatórias de duas diferentes populações; no segundo, com duas amostras obtidas do mesmo grupo antes e depois de um tratamento. Além disso, no primeiro caso, as observações são independentes; no segundo, as observações são dependentes pois foram obtidas a partir da mesma população mas em momentos diferentes.

13.1. Estimação de parametros populacionais Denomina-se estimação ao procedimento de obtenção de um valor amostral para substituir o respectivo parâmetro. O valor numérico obtido e uma estimativa do parâmetro.

119

A estimação de um parâmetro populacional (a média, a variância, o desvio padrão, etc) é realizada a partir de uma estatística (calculada com base em valores observados de amostras) de modo a indicar o valor mais próximo do valor verdadeiro. O valor numérico obtido de amostras é uma estimativa do valor numérico do parâmetro populacional. Existem dois tipos de estimação de parâmetros de emprego comum na estatística: 1. Estimação por ponto. É um valor numérico obtido de computações sobre os dados

da

amostra

usado

para

estimar

o

parâmetro

populacional

correspondente. Por exemplo, a média da amostra x6 é uma estimativa por

ponto da média da população µ

2. Estimação por intervalo. É um intervalo de valores numéricos possíveis obtidos de computações sobre os dados da amostra que se espera contenha o valor do parâmetro populacional, no seu interior. Tais estimativas por intervalo são chamadas de intervalo de confiança.

13.2. Intervalo de confiança para a média populacional O objetivo dos intervalos de confiança é o de se fazer uma estimativa de um

parâmetro populacional. A média x6 calculada da amostra, é apenas uma estimativa da

média "verdadeira" µ da população. A média verdadeira é um parâmetro que na grande maioria das vezes nunca é determinado com absoluta certeza. Entretanto, a partir do conhecimento da distribuição teórica de z e t pode-se estimar um intervalo ao redor de x6

que deve conter a verdadeira média populacional µ.

O intervalo de confiança é delimitado por dois limites numéricos (limites fiduciais), entre os quais se situa o verdadeiro valor do parâmetro, com um nível de confiança especificado, em geral, fixado em 95%. Denomina-se estimador uma grandeza, baseada em observações de uma amostra, utilizada como indicador do valor do parâmetro populacional desconhecido.

120

13.2.1. Intervalo de confiança para a média populacional (µ) com o desvio padrão (σ) conhecido O intervalo de confiança associado a um determinado nível de confiança (NC), para a media populacional, µ quando o desvio padrão, σ. é conhecido, é calculado pela fórmula:

ICwx para µ 

σ

√n

O intervalo de confiança de 95% para ji, é dado por: σ ICy$% para µ  Xn F 1,96 √n

n  1,96 σ/ √n. e x + 1,96σ / n. Há 95% de chance de µ estar entre: X

O valor 1,96 foi obtido a partir da Tabela do Anexo C para 95% (47,5% de cada lado da curva, a partir do centro). No entanto, existe 5% de chance que o intervalo não contenha a média µ da população. Há 2.5% de chances que o µ verdadeiro situe-se acima de Z = 1,96 (ou abaixo de Z = -1,96). Para um intervalo de confiança de 99% emprega-se a fórmula: σ n F 2,58 ICyy% para µ  X √n

O valor 2,58 foi obtido a partir da Tabela do Anexo C para 99,% (49.5% de cada

lado da curva, a partir do centro).

13.2.2. Intervalo de confiança para a média populacional (µ) com o desvio padrão (σ) desconhecido. As equações anteriores para o cálculo do intervalo de confiança são pouco usadas pois dependem do conhecimento do verdadeiro valor de σ, geralmente desconhecido. Já foi estabelecido que σ pode ser estimado a partir de s, o desvio padrão da amostra. É possível empregar um intervalo de confiança (1- α ) 100% para a média da população µ que é um intervalo construído a partir de dados amostrais onde existe a probabilidade 1 - α de conter a média da população. Para construir o intervalo, e utilizada a distribuição t (com n - 1, graus de liberdade) em lugar do valor Z. Desse modo, é possível obter o intervalo de confiança para pequenas amostras quando somente s (e não σ) é conhecido:

nF t Intervalo de confiança de (l - α) 100% para µ  X

z

√o

121

onde t Zs./√n]é a margem de erro para o intervalo de confiança e é uma medida

do erro da amostra. O valor crítico de t é dado na tabela do Anexo E.

Em geral, é utilizado (1 - 0,05) 100% = 95%. Nesses casos, afirma-se. com uma confiança de 95%, que a média verdadeira está no intervalo: s n F t 00,$ o% ICy$% para µ  X √n

Não se diz que µ tem uma probabilidade de 0,95 de encontrar-se entre os limites

estimados. Sendo um valor fixo, µ não tem probabilidade; está ou não está no intervalo estimado. Para um nível de confiança de 99%, o intervalo será: s n F t 00, o% ICy$% para µ  X √n

Este intervalo é mais amplo, sendo a confiança de 99% d que a média

verdadeira µ se encontra entre os limites calculados.

Exemplo 11.1 Dada a amostra de observações da determinação de glicose X: 90, 86, 78, 90, 98, 90, 82, 76 e 84 mg/dL. Determinar o intervalo de confiança (IC) de 95% para a média populacional.

Especificações n=9

x6 = 86 mg/dL

s = 6.85 mg/dL Valor de t obtido para 8 graus de liberdade (n - 1 ) e nível de confiança de 95% e t.0,05(8)= 2,306

Cálculos: ICy$% para µ  86 F 2,306

6,85 √9

 86 F 5.26  80,7 a 91,26 mg/dL

122

A média verdadeira está compreendida entre os limites 80,7 e 91,26, com uma confiança de 95%. Em outras palavras, há 95% de confiança de que o valor médio da população, da qual provém a amostra, está dentro desses limites.

13.3. Duas amostras independentes Em muitos estudos biomédicos, as unidades experimentais (pacientes, animais etc) que devem receber tratamentos são repartidos por sorteio em duas amostras independentes, denominadas grupo experimental e grupo controle. Muitas vezes, esses grupos são identificados como tratamento A para o grupo experimental e tratamento B para o grupo controle. Tratamento em estatística, representa qualquer procedimento aplicado em reagente, cujos resultados são medidos e comparados. Diferentes épocas de semeadura de feijão, diferentes dietas para pacientes obesos etc., constituem tratamentos. Dois métodos para a determinação de colesterol no sangue, são tratamentos diferentes. O chamado grupo controle, também é tratamento. Assim, pacientes com tratamento terapêutico (grupo experimental) comparados com pacientes sem tratamento (grupo controle), constituem dois tratamentos. A diferença observada no comportamento de duas unidades experimentais com tratamentos diferentes (grupo experimental e grupo controle), poderá ser atribuída tanto a uma diferença real devido aos efeitos dos tratamentos, como a uma variação intrínseca das unidades experimentais. Deve-se aceitar como norma o fato de duas unidades experimentais nunca serem exatamente iguais, independentes da aplicação dos tratamentos diferenciais. Duas parcelas de campo, mesmo próximas, variam em sua fertilidade; dois pacientes apresentam diferenças, tais como, fatores genéticos, sexo, idade, massa corpórea, hábitos alimentares, etc. As diferenças intrínsecas entre os grupos experimentais tendem a mascarar o efeito diferencial dos tratamentos. A verificação estatística da diferença real entre os tratamentos num experimento exige um número mínimo de repetições ou grupos experimentais por tratamento.

n# e A partir do teorema central do limite é possível demonstrar que Xn √ X # 

# #

normalmente distribuído com média de µ1 - µ2 e uma variância igual a σ /n  σ /n# A sua raiz quadrada é o erro padrão da diferença entre duas médias e é descrita como:

123

σ# σ## EPx6  x6#   9  n n#

A equação denota que as médias são normalmente distribuídas com suas respectivas variância de Enquanto a variância da diferença é a soma das duas variâncias individuais. A equação para o cálculo do escore Z é

z

n  X n #   µ  µ#  X σ# σ# 9  # n n#

Em muitos casos, um dado fenômeno é comparado em grupo tratado e um não tratado. Como os experimentos e os controles são obtidos da mesma população, é lógico supor que σ# = σ## , e, assim, é possível simplificar a equação anterior

z

n  X n #   µ  µ#  X 9

€

σ# σ## n  n#

A σ2 raramente é conhecida, mas pode ser estimada a partir da variância obtida dos dados de uma amostra. Esse procedimento desloca da distribuição normal para a distribuição t de student. Nesses casos, geralmente são obtidos duas estimações

diferentes de σ2 - ou seja, s# e s## Se for seguro pressupor que essas duas variâncias são uma estimativa da variância cm comum, σ2, pode-se obter uma estimativa combinada de

σ2, s0# , a partir da media ponderada das variâncias amostrais:

S0# 

S# n#  1  S## n#  1 n  n#  2

Essa equação toma a soma dos quadrados de duas amostras diferentes e as divide pela soma dos graus de liberdade. Esse procedimento fornece uma estimativa não viciada de σ2.

Após o cálculo de s0# , pode-se obter S0 (estimativa combinada do desvio

padrão) pela extração da raiz quadrada. O valor de só é necessário para calcular o escore t:

t

n  X n #   µ  µ#  X >

‚ƒ

1 1 n  n#

124

Graus de liberdade = soma dos graus de liberdade de cada amostra isolada [(n1 - 1) + (n2 - 1)].

13.3.1. Intervalo de confiança para a diferença entre duas médias populacionais Após a estimação da diferença entre duas medias populacionais (µ1 - µ2). o passo lógico seguinte é o estabelecimento de um intervalo de confiança ao redor da diferença. Intervalo de confiança para a estimação da diferença entre duas médias com σ1 e σ2 conhecidos. A equação é a que segue:

σ# σ# n  X n # F 1,96 „9   # … ICy$% para µ  µ#  X n n#

Intervalo de confiança para a estimação da diferença entre duas médias com

σ 1σ 2 desconhecidos Emprega a seguinte equação:

‚ƒ 1 1 n# F t „ 9  … n  X IC de 1 † 100% para µ  µ#   X n n#

Onde t é o valor correspondente a l - α, proporção da área central para n1 + n2 -2 graus de liberdades graus de liberdade. Essas fórmulas não fornecerão resultados corretos a menos que os dados tenham sido coletados de amostras aleatórias.

Exemplo 11.2 A medida do colesterol em 54 vegetarianos e em 51 não-vegetarianos forneceram os seguintes resultados: Vegetarianos 115 125 140 140 160 160 165 170 175 180 215 215

125 140 160 170 180 225

130 145 160 170 180 230

130 145 165 170 180

130 150 165 170 185

130 150 165 170 185

135 150 165 170 185

135 155 165 175 185

140 160 165 175 200

125

Não - vegetarianos 105 110 150 160 175 175 190 190 210 210 245

115 165 175 190 210

125 165 180 195 210

125 165 180 200 215

130 170 180 200 220

135 170 180 200 230

145 170 185 200 230

245 170 185 200 240

150 170 190 205 240

Encontrar uma estimativa para µ1 - µ2 e calcular o intervalo de confiança de 99% para a diferença entre as médias populacionais. Especificações:

n X = 163,33

n X # = 179,90

S1 = 25.07 S2 = 33.87

Valor de t obtido para (54 - 1) + (51 - 1) = 103 graus de liberdade e nível de confiança de 0,99 a partir de dados bicaudais é t 0,005 (103) =2,63. Cálculos: a. Cálculo da estimativa combina do desvio padrão da população:

S# n  1  S## n#  1 S0  9 n  n#  2

S0 =

(25,07 )(53) + (33,87 ) (50) = 29,67 2

2

54 + 51 − 2

b. Cálculo do intervalo de confiança de 99% para as diferenças das médias populacionais:

 1 1  IC de 99% para ( µ1 − µ 2 ) = x1 − x 2 ± t 0, 005  s0 +   n n2  1 

= 16,57 ± 2,63(29,67)

1 1 + 54 51

=16,57 + 15,24 =1,33 a 31,81 Desse modo, tem-se uma confiança de 99% que a diferença da média da população para o colesterol em vegetarianos versus não vegetarianos está situada entre

126

1,33 mg/dL e 31,81 mg/dL. Como os dois limites de confiança são positivos, o intervalo não inclui o valor zero. Os resultados significam que qualquer que seja a diferença verdadeira, os não vegetarianos quase certamente têm o colesterol mais elevado que os vegetarianos. Para a comprovação desse fenômeno é necessário empregar o teste t. Se mais amostras fossem obtidas a partir das mesmas populações do exemplo anterior,

seriam

encontradas

diferentes

médias,

diferentes

desvios

padrão

e,

consequentemente, diferentes intervalos de confiança. Intervalos de confiança estreitos são de grande valor na realização de estimativas, pois permitem estimar um parâmetro desconhecido com erro menor. Como o

n F Z Zσ/ √n], as observado para intervalo de confiança para uma média populacional, X quantidades que afetam os valores do intervalo são o tamanho da amostra, o valor Z e o desvio padrão. O intervalo de confiança pode ser estreitado por: 1. Aumento no tamanho da amostra.

2. Redução do nível de confiança (por exemplo, em lugar de usar Z = 2.58 para uma confiança de 99%, usar Z = 1,96 para 95% de confiança). 3. Melhorando a precisão pela redução dos erros nas mensurações (ou outros erros não-aleatórios) produzindo assim uma variância menor.

13.4. Teste t emparelhado Amostras emparelhadas (ou pareadas) são dados referentes a um mesmo conjunto de indivíduos, tomadas em duas situações diferentes. Em muitos estudos, o grupo tratado é usado como o seu próprio controle. Essa técnica gera comparações apropriadas pois eliminam-se eventuais fontes de variação de dados, já que os resultados do experimento provêm dos mesmos indivíduos. Com a redução da variabilidade, o valor do erro padrão será menor, produzindo um intervalo de confiança mais estreito. No entanto, existem alguns contras. Primeiro, é sacrificada a independência das amostras onde os mesmos itens são medidos. Segundo, fica-se com a metade dos graus de liberdade que se obteria usando duas amostras independentes. Com um número menor de graus de liberdade, o valor de t será maior e. consequentemente, o intervalo de confiança será mais amplo. A expressão para o cálculo do teste t emparelhado é

onde:

ICy$% para δ  d6 F t wx,‰Š



√n

127

δ = diferença

d = média das diferenças emparelhadas sd = desvio padrão das diferenças

Exemplo 11.3 Para determinar o intervalo de confiança da diferença de resultados pareados da medida de glicose no plasma e no soro foi usada uma amostra de 10 indivíduos normais. Os resultados apresentados na tabela abaixo são em mg/dL. Qual o intervalo de confiança da diferença na avaliação de glicose no plasma e no soro para um nível de confiança de 95%'? n 1 2 3 4 5 6 7 8 9 10

Plasma (x1) 96 81 100 92 103 85 94 97 104 90 Totais

Soro (x2) 94 79 97 92 100 86 93 93 103 88

( d = x1 – x2) 2 2 3 0 3 -1 1 4 1 2 17

2

d 4 4 9 0 9 1 1 16 1 4 49

Especificações: n = 10 (número de pares) GL = 9(10- 1, números de pares-1 ) Nível de confiança = 95% Valor critico de t para o teste bicaudal t0,05(9) = ± 2, 262

6 = 17/10 = 1,7 mg/dL (média das emparelhadas) é uma estimativa de δ (delta) – d

a média das diferenças populacionais. Σdi = 17 Σdi2 = 49 Cálculos:

a. Cálculo de Sd (desvio padrão das diferenças) que é uma estimativa de δ o desvio

padrão das diferenças populacionais:

128

17# 49  9 10  1,49 S‹  10  1

b. Cálculo do intervalo de confiança de 95% para δ:

ICy$% para δ  d6 F t 0,0#$

 1,7 F 2,62

1,57



√n

 1,7 F 0,71  0,99 Œ 2,41 √25 6 = 1,7 mg/dL e indica a diferença entre a medida A estimativa amostral de δ é d

da glicose no plasma e no soro. Os resultados sugerem que essa diferença não é menor que 0,99 mg/dL nem maior que 2,41 mg/dL para um nível de confiança de 95%.

13.5. Determinação do tamanho da amostra A determinação do número de observações de uma amostra, isto é. O número de repetições a usar numa investigação, deve ser realizada antes do início da cólera de dados. Uma investigação com poucas observações pode falhar na descoberta de uma diferença importante, um experimento desnecessariamente grande representa um desperdício de tempo e de material. O valor n é obtido a partir da equação:

Zδ # n  G H d

Onde. Z = valor de Z (ex.: 1,96 para um nível de confiança de 95%).

d=n X - µ (diferença considerada significativa no estudo a ser realizado),

σ2 variância estimada

A fórmula requer o conhecimento da variância a σ2 no entanto esse valor, em geral, é desconhecido. Sendo assim, a σ2 deve ser estimada. A estimação da σ2 é pode ser realizada de dois modos diferentes: 1. A partir de uma amostra piloto ou preliminar obtida da população. A variância calculada a partir dessa amostra pode ser empregada como uma estimativa de σ2.. 2. Â estimativa da σ2 pode estar disponível a partir de estudos prévios ou similares.

Vocabulário

129

Duas amostras independentes

Estimativa por intervalo

Erro padrão da diferença

Estimativa por ponto

Erro padrão da média

Intervalo de confiança

Estimativa combinada da variância

Teste t emparelhado

Exercícios 11.1 A medida da hemoglobina em homens adultos normais é 15 g/dL com desvio padrão d = 2 g/dL. Para um grupo de 25 homens com certo tipo de ocupação foi encontrada hemoglobina de 16 g/dL. A. Obter um intervalo de confiança de 95% para µ e interpretar. B. Calcular intervalos de confiança para os seguintes tamanhos amostrais: 36, 49 e 64. C. Com o aumento do tamanho das amostras, os intervalos de confiança estreitam-se ou ampliam-se? 11.2. Calcular o intervalo de confiança de 99% para a u1 - µ2 entre homens e mulheres. Especificações: 38 Homens, n X = 74.9 e S# = 144, e 45 mulheres, n X2 : =71,8 e 55 = 121.

11.3, O teor de colesterol sérico de 25 homens com idades entre 65-74 c 236, com s1 = 50. Para 25 mulheres da mesma idade, a média é 262, com s2 = 49, A. Qual é o intervalo de confiança de 95% para a diferença nas médias do colesterol sérico entre homens c mulheres? B. Qual é o intervalo de confiança de 99%°

130

Exercicios diversos 1. O peso dos ovos de certa raça de galinha tem distribuição normal, com média de 65 gramas e desvio padrão de 5 gramas. Considere uma caixa desses ovos como uma AAS de tamanho 12 da população de todos os ovos. Qual a probabilidade de que o peso de uma embalagem caia entre 750 g e 825 g?. 2. Para avaliar a precisão de uma balança de laboratório, pesa-se repetidas vezes um objeto padrão de peso conhecido igual a 10 gramas. As leituras da balança têm distribuição normal com média desconhecida (essa média é 10 gramas, se a balança é

131

equilibrada). Sabe-se que o desvio padrão das leituras é 0,0002 grama. Pesa-se o objeto 5 vezes e o resultado médio é 10,0023 gramas. Estabeleça um intervalo de 95% de confiança para a média de repetidas pesagens do objeto. Quantas observações ou medidas devem entrar no cálculo da média, a fim de que se obtenha uma margem de ±0,0001 de erro com 95% de confiança? 3. Suponha que estejamos interessados em estimar a porcentagem de consumidores de certo produto. Se a amostra de tamanho 300 forneceu 100 indivíduos que consomem o dado produto, determine: a) o intervalo de confiança de p, a proporção de pessoas que consomem o produto, com coeficiente de 95% (interprete o resultado). b) o tamanho da amostra para que o erro da estimativa não exceda a 2% com probabilidade de 95% (interprete o resultado). 4. Numa pesquisa sobre a opinião dos moradores de duas cidades, A e B, com relação a um determinado projeto, obteve-se a tabela abaixo. Utilize o Int. confiança para avaliar a diferença entre os percentuais de favoráveis nas duas cidades. Cidade

A

B

Num entrevistados

400

600

Num. favoráveis

180

350

5. Um estudo de saúde envolve 1000 mortes selecionadas aleatoriamente, dentre as quais 131 causadas por intoxicação alimentícia. a) com os dados amostrais, construa um int. de confiança de 99% para a proporção de mortes causadas por intoxicação. b) utilizando os dados amostrais como estudo piloto, determine o tamanho da amostra necessário para estimar a proporção de mortes por intoxicação em uma cidade. Admita um nível de confiança de 95%, em que o erro da estimativa não supere 0,01. c) Sabe-se que a cidade tem cerca de 250.000 habitantes. Você acha que esse dado poderia ser utilizado para melhorar a estimativa do tamanho da amostra? Como? 6. Uma pesquisa de opinião visa a calcular a proporção de eleitores que irão votar no candidato democrata em uma campanha presidencial americana. A pesquisa de votos almeja ter 90% de confiança de uma previsão correta, em uma margem de erro de ±0,04 da proporção da população. (a) Que tamanho de amostra é necessário?

132

(b) Se a pesquisa de opinião visa a ter 95% de confiança, que tamanho de amostra é necessário? Se ela almeja ter 95% de confiança e um erro de amostragem de ±0,03, que tamanho de amostra é necessário? 7. Um teste de auditoria, para estabelecer com que freqüência ocorrem falhas no processamento de determinado procedimento de controle interno, está para ser feito. O auditor decide que a taxa máxima de erro tolerável permitida é de 5%. (a) Que tamanho de amostra é necessário para atingir uma precisão de amostra de ±2%, com 99% de confiança? (qual seria sua resposta em (a) se a taxa máxima tolerável de erro fosse 10%? 8. Uma agência de propaganda, que atende a uma das principais estações de rádio, gostaria de calcular a quantidade média de tempo que a audiência gasta diariamente ouvindo radio. A partir de estudos do passado, o desvio padrão é calculado em 45 minutos. (a) Que tamanho de amostra é necessário se a agência quiser ter 90% de confiança de estar correta num intervalo de ±5 minutos? (b) Se for desejado um nível de 99% de confiança, que tamanho de amostra é necessário? 9. Dentre 100 peixes capturados num certo lago, 18 não estavam apropriados para

consumo devido aos níveis de poluição do ambiente. Construa um intervalo de confiança de 99% para a correspondente verdadeira proporção. 10. Em um estudo da utilização da hipnose para aliviar a dor, obtiveram-se as taxas

sensoriais para 16 indivíduos, com os resultados dados a seguir (com base em dados de “An Analysis of Factors That Contribute to the Efficacy of Hypnotic Analgesia”, por Price e Barber, Journai of Abnonnal Psvchologv, Vol. 96, No. 1). Com esses dados amostrais, construa o intervalo de confiança de 95% para a taxa sensorial média da população da qual se extraiu a amostra. 8,8 6,6 8,4 6,5 8,4 7,0 9,0 10,3 8,7 11,3 8,1 5,2 6,3 8,7 6,2 7,9

Nota: considere o desvio padrão 1,6.

133

11. Quantas residências com TV a Nielsen deve pesquisar para estimar a percentagem

das que estão sintonizadas no programa Jô Soares Onze e Meia? Adote a margem de 95% de confiança em que sua percentagem amostral tenha uma margem de erro de dois pontos percentuais. Admita também que nada se sabe sobre a percentagem de residências sintonizadas para qualquer show de TV após 11 horas da noite. 12. De uma distribuição normal com variância 2,25, obteve-se a seguinte amostra:

27,5; 25,6; 28,2; 26,1 e 25,0 Determinar um intervalo de confiança para a média desta população com confianças de:

(13.1) 95% (13.2) 99% 13. De uma população normalmente distribuída foi extraída uma aas de n = 10 que

apresentou os valores abaixo:

4

8

12

5

7

9

10

11

6

8

(a) Determine uma estimativa da variância populacional. (b) Determine uma estimativa da média populacional e do correspondente erro amostral? (c) Determine um intervalo de confiança de 95% para a média desta população. 14. Um antropólogo considera que o índice cefálico de índios de certa tribo é uma

variável aleatória normal com desvio-padrão de 3,4 cm.

(a) Baseado em uma amostra de 8 observações: 85; 90; 89; 91; 87; 84; 92; 83, obtenha um intervalo de confiança ao nível de 96% de confiança para o índice cefálico médio.

(b) Qual o tamanho da amostra necessário, para que ao estimarmos a média do índice cefálico, o erro cometido não seja superior a 0,1 cm com probabilidade de ao menos 95%? 15. A polícia

rodoviária fez recentemente uma pesquisa sobre as velocidades

desenvolvidas na rodovia no período de 2 a 4 horas da madrugada. No período das observações 120 carros passaram por um aparelho de radar a uma velocidade média de 70 km/h com desvio-padrão de 15 km/h.

(a) Suponha que Velocidade é uma variável aleatória com distribuição normal e construa um intervalo de confiança em coeficiente de confiança de 98% para a velocidade média

(b) Qual o erro máximo associado ao intervalo calculado na parte (a)?

134

(c) A suposição da normalidade na parte (a) é importante? Justifique.

14. TESTES DE HIPÓTESES

Objetivos

135

1. 1 Descrever e explicar a execução de um teste de hipótese. 2. Explicar o significado da hipótese nula e hipótese alternativa 3. Definir significância e estatística.

4. Explicar o significado do nível de significância, †

5. Distinguir entre um teste caudal e bicaudal

6. Distinguir entre “estatisticamente significante” e “cientificamente importante” 7. Explicar o significado e a relação dos dois tipos de erro no teste de hipótese. 8

Explicar o significado do valor P.

14.1. Hipótese estatística A situação em que normalmente se encontra o investigador, é a de caracterizar a população com base nas informações obtidas a partir da amostra dessa população. O raciocínio se faz do particular para o gerai, chamando-se esse processo de inferência estatística. Objetiva a estimação dos parâmetros da população, através de fatos observados em amostras apropriadas. Ainda que desconhecidas as características descritivas da população, é possível formular alguma hipótese sobre a mesma. Uma hipótese estatística é uma afirmação qualquer sobre os parâmetros (média, mediana, variância, desvio padrão ou coeficiente de variação), de uma distribuição de probabilidades. Para ter valor científico, as hipóteses estatísticas precisam ser postas à prova. O mecanismo de comprovação para verificar se um pressuposto é verdadeiro ou não, é chamado de teste de hipóteses. As hipóteses feitas pelos pesquisadores são transformadas, pelos estatísticos, em hipóteses estatísticas, para que possam ser submetidas aos testes. Nesse capítulo, as hipóteses se referem as médias das populações.

Existem sempre duas hipóteses em testes: 1. Hipótese de nulidade ou nula, H0 (agá-zero). As médias são iguais (H0: µ = µ0

136

ou H0: µ - µ0 = 0). Em outros termos, as duas médias são extraídas da mesma população;

2. Hipótese alternativa, HA (agá-a). As médias são diferentes (HA:µ ≠ µ0 ou HA:µ - µ0 ≠ 0).Em outras palavras, as duas médias não são extraídas da mesma população.

14.2. Regra de decisão As regras de decisão são critérios para a aceitação ou rejeição da hipótese de nulidade a partir do resultado de um teste estatístico. A hipótese representada por H0:µ = µ0 (hipótese de nulidade) estipula que a média µ de uma população é igual a uma constante especificada µ0. Essa hipótese vai ser posta à prova por meio de um teste estatístico. Diante do resultado do teste, tira-se uma das duas conclusões: 1. Aceitar a hipótese de nulidade, Ho. Quando não houver evidência suficiente para duvidar de sua validade e concluir que µ = µo. Ou seja, qualquer diferença observada entre as médias é considerada como uma ocorrência casual e não representa uma real diferença entre as médias populacionais. 2. Rejeitar a hipótese de nulidade, H0 Quando houver evidencia suficiente para duvidar de sua validade. Concluir que µ ≠ µo;. Nesse caso, µ pode ser maior ou maior ou menor do que µo. A diferença obtida na comparação entre as médias é grande demais para ser explicada apenas pelo erro amostral. Quando se rejeita a hipótese h0, a diferença µ-µo é atribuída a uma real diferença entre dois procedimentos em estudo. Quando a hipótese não é rejeitada, a diferença observada é geralmente atribuída a uma variação de amostragem (variação ao acaso). A demonstração de uma diferença real satisfaz normalmente ao objetivo visado num experimento. Uma diferença atribuída à variação de amostragem é considerada, em geral, inconclusiva.

14.3. Erros de decisão Uma vez formulada a hipótese e realizado o respectivo teste estatístico, a regra de decisão está sujeita a dois tipos de erro: 1. Rejeitar a hipótese H0, sendo ela verdadeira; comete-se um erro do tipo I, cuja probabilidade máxima de ocorrência permitida é representada por α . É

137

aceita como verdadeira uma diferença que não existe e que, na realidade, se deve à variabilidade das amostras. Os erros do tipo l ocorrem em função de pequenas amostras e muitas análises - muitas variáveis ou muitos subgrupos sendo comparados entre si. 2. Não rejeitar a hipótese H0, sendo ela falsa; comete-se um erro tipo II, cuja probabilidade máxima de ocorrência permitida é representada por β. Existe, de fato, uma diferença que não foi reconhecida. Ocorrem devido a pequenas amostras e de grande variabilidade das mesmas. A hipótese é meramente um postulado, certo ou falso. Se os fatos registrados na amostra estipularem a aceitação da hipótese, sendo ela verdadeira, a decisão será correta. Igualmente, será correta a decisão para rejeitar a hipótese, sendo ela falsa. Mas, a rejeição de uma hipótese verdadeira ou a aceitação de uma hipótese falsa constituem erro de decisão.

14.4. Probabilidade dos erros de decisão As conclusões baseadas em testes em amostras estão sempre acompanhadas de incerteza. Somente há certeza quanto à veracidade ou à falsidade, de uma hipótese, examinando-se toda a população. Na impossibilidade prática de estudar toda a população, a metodologia estatística oferece a alternativa de medir o erro provável de uma decisão a partir de dados obtidos em amostras. A especificação da probabilidade máxima de cometer erro tipo I (rejeitar a hipótese H0 sendo ela verdadeira) é denominado nível de significando sendo designado por a. São frequentemente empregados 0,05 (5%) e 0,01 (1%) como valores para α Uma vez efetuado o teste estatístico, a diferença entre os grupos (µ e µ0) pode ser: 1. Estatisticamente significante. É quando a hipótese de nulidade é, rejeitada pois o valor calculado do teste a partir da amostra não é compatível com o valor estabelecido. Nesses casos, a variação dos dados amostrais (ao acaso) não é a explicação provável para o desvio entre o valor amostral e o correspondente valor populacional estabelecido pela hipótese de nulidade.

Assim, o desvio n X  µ0 , observado representa uma real diferença entre as populações e não apenas produto de erro amostral.

2. Não estatisticamente significante. A hipótese de nulidade não é rejeitada quando o desvio entre o resultado amostral e o correspondente valor

n  µ0 , populacional ocorre pela variação amostral. Isto indica que o desvio X

138

pode ser explicado pelo acaso e não representa uma real diferença. Para decidir se uma diferença entre duas medias é significante ou não, é necessário um método que teste as hipóteses formuladas para um determinado nível de significância estabelecido, nível esse que representa a probabilidade com que a hipótese de nulidade pode ser rejeitada com confiança, ou a probabilidade com que a hipótese alternativa pode ser aceita com confiança. Por esses motivos, os testes de hipóteses são também chamados testes de significância. A tabela 12.1 resume a distinção entre os tipos de erro I e II e as conseqüências possíveis de decisões na realização do testes de hipótese. Tabela 12.1 Conseqüências de decisões em teste de hipóteses Decisão Aceitação da H0 Rejeição da H0

Realidade Hipótese nula verdadeira (1 –α) Decisão correta (1 - α) Erro do tipo I (erro α.)

Hipótese nula falsa Erro do tipo II (erroβ) Decisão correia (l – β)

Denomina-se poder do teste de hipótese o valor (1 - β), que é a probabilidade de rejeitar uma Ho quando ela é falsa e a hipótese verdadeira é HA. Quando se aceita um erro beta de 0,1, está-se aceitando uma chance de 10% de deixar de reconhecer uma diferença que realmente existe. O poder detecta, assim, uma diferença real, ou seja, está associado à região de rejeição de H0). De fato um estudo é "poderoso'" se ele tem grande probabilidade de detectar diferenças nos tratamentos que são realmente diferentes. Desse modo, quanto menor o α, menor o poder do teste de hipótese. No entanto, pode existir o interesse em correr o menor risco possível de cometer um erro tipo I garantindo ao mesmo tempo um poder razoável ao teste de hipótese. Para contornar essa dificuldade, o: é fixado e o poder da prova é tornado máximo pelo aumento do tamanho da amostra.

14.5. Valor P Após a realização de um experimento, a diferença entre os grupos é testada pêlos níveis de significância clássicos, como exposto acima. E possível também determinar a probabilidade de ocorrência do erro tipo I (a) após a aplicação do teste estatístico através do valor P (valor crítico amostral). O valor P - que varia de 0 a 1 -

139

representa o grau de compatibilidade existente entre os dados observados e a hipótese nula. Dessa forma, quando P ≤ α rejeita-se a hipótese de nulidade, convencionalmente P ≤ 0,05. Quando P > 0,05 aceita-se a hipótese de nulidade. Quando P > 0,05 (ou qualquer outro valor escolhido para α ) e H0 não é rejeitada não prova que H0 seja correta. Isto indica somente que a probabilidade não é suficientemente baixa para rejeitála. O valor P e a estão intimamente relacionados. O valor P é calculado a partir dos dados obtidos em um estudo, enquanto o valor a é escolhido previamente, baseado nas conseqüências dos erros do tipo I e tipo II. O α é o limiar do valor P, abaixo do qual a diferença encontrada é considerada estatisticamente significante, ou seja, com pouca chance de ser causada pela variabilidade das amostras. Assim, em um teste estetístico com um nível de significância α = 0,05, um valor P = 0,021 representa que tem-se uma probabilidade igual a 2,1% de que observações como as encontradas sejam devidas ao acaso (variabilidade das amostras) e, portanto, a diferença encontrada é significante, O valor P é o resultado observado após o término do estudo e é baseado nos resultados observados. É calculado empregando-se programas estatísticos para computador. Para alguns testes são apresentados os valores de P já calculados em tabelas. O resultado "não estatisticamente significante" (P ≥ α) não comprova a veracidade da hipótese de nulidade. Só permite afirmar que os resultados não forneceram evidências suficientes para pôr em dúvida a validade de H0 isto é, os resultados são "inconclusivos" até que alguma outra evidência seja obtida.

14.6. Significância estatística versus importância científica A expressão "estatisticamente significante" não deve ser entendida como "cientificamente importante". Deve-se, isto sim, levar em consideração o tamanho da diferença que está sendo avaliada. Por exemplo: Suponha que o medicamento A foi testado em 100.000 indivíduos e comprovou-se que o mesmo reduz efetivamente a pressão arterial de qualquer hipertenso de forma estatisticamente significante (ou seja, diferente de zero) em 1,0 mm de Mg. Isto tem relevância clínica já que foi estatisticamente significante? A resposta e não, pois a redução de 1,0 mm de Hg não representa um efeito importante apesar de ser estatisticamente significante. Desse modo,

140

em grandes amostras, mesmo pequenas diferenças serão significativas estatisticamente, mesmo que não sejam cientificamente importantes. O termo significante não é sinônimo de importante, mas está associado à certeza da decisão estatística. Com amostras pequenas é comum que ocorra o oposto. Muitas vezes, mesmo existindo uma grande diferença entre os resultados de dois grupos, obtidos a partir de uma amostra muito pequena (n<10), o teste pode não rejeitar a hipótese de nulidade. Ou seja, os dados são tão imprecisos que é arriscado afirmar que a diferença se deva a alguma causa, pois o erro amostral é muito elevado.

14.7. Testes unicaudal e bicaudal Ao rejeitar a hipótese de nulidade conclui-se que a µ ≠ µ0 e, portanto, µ pode ser maior ou menor do que o verdadeiro valor populacional µ0 Nesse caso, os afastamentos em ambas as direções são considerados e o teste é bicaudal (ou bilateral). Em certas situações, porém, há interesse apenas no caso em que o efeito de um tratamento experimental seja maior (ou menor) que o efeito de outro tratamento. Por exemplo, uma nova droga interessaria apenas se sua ação for melhor que a do grupo controle. Nessa situação, é permissível formular uma hipótese alternativa HA: µ > µ0, Isto é, a ação µ da nova droga é maior que µ0 da nova droga padrão. Esse é o teste unicaudal (ou unilateral).Para testar a hipótese trabalha-se apenas com um lado da curva da distribuição Teórica da estatística no leste . A zona de rejeição α é transferida para um lado só da curva. A escolha entre um teste unicaudal ou bicaudal deve ser realizada antes da obtenção dos dados amostrais, desse modo, a escolha não é influenciada pêlos dados coletados. O pesquisador deve definir se é importante considerar a probabilidade geral de µ ser diferente de µ0 ou se deve considerar apenas a probabilidade de µ ser maior (ou menor) que µ0. Decisão Não significante Significante

Cauda esquerda µ =µ0 µ <µ0

Teste unicaudal Cauda direita µ =µ0 µ >µ0

bicaudal µ =µ0 µ ≠µ0

Quando o teste de hipótese é unicaudal o valor P é obtido a partir de tabelas estatísticas bicaudais cujos valores são, então, divididos por 2.

14.8. Execução do teste de hipótese 141

O teste de hipótese (teste de significância) sempre se refere a uma hipótese de nulidade. Para decidir por uma das hipóteses - isto é, para decidir se as médias na população são, ou não são, estatisticamente significantes - o pesquisador submete os dados de sua amostra a um teste de hipóteses. A aplicação segue as seguintes etapas: 1. Formular a hipótese de nulidade e a hipótese alternativa. Dentre as duas hipóteses estatísticas envolvidas a hipótese nula é a hipótese testada. A hipótese deve ser formulada de modo a representar uma contradição ao efeito procurado. Normalmente a hipótese de nulidade satisfaz essa condição. Por exemplo, havendo interesse em demonstrar que µ0 é maior ou menor que µ0 (testes bicaudais), então H0: µ = µ0 representa uma contradição. A rejeição da hipótese ensejará a decisão desejada, desde que

n, a estimativa por ponto de µ, seja maior do que µ0. A hipótese alternativa, X

isto é, a que será adotada no caso de rejeição de H0 será HA: µ ≠ µ0, podendo µ ser maior ou menor do que µ0. Para os testes unicaudais as hipóteses são: H0 µ ≤ µ0 e HA: µ > µ0; ou H0: µ ≥ µ0 e HA: µ < µ0. 2. Especificar o nível de significância de α . Isto é, o padrão estatístico especificado para rejeitar a hipótese nula. Para nível de significância de 5% (ou 1%), existe uma probabilidade de 0,05 (ou 0,01) de rejeitar a hipótese nula sendo a mesma verdadeira (erro tipo I). Essa especificação (a = 0,05 ou a = 0,01) deve ser parte integrante do planejamento do estudo. Em geral não se especifica (3, a probabilidade do erro de decisão do tipo II; se a hipótese formulada foi de nulidade ou de contradição, há sempre interesse em que a mesma seja rejeitada pelo teste. Nesse caso, o que mais deve preocupar é a rejeição de uma hipótese verdadeira, isto é, o erro de decisão do tipo I. Para os testes bicaudais o nível de significância é α/2 em cada cauda. 3. Escolher o teste. O teste deve ser adequado ao material sob investigação os tipos de variável e seus níveis de medida. Dependendo das pressuposições e da hipótese formulada, sempre na suposição de ser a hipótese verdadeira, o teste a escolher será um dos seguintes: teste z, teste t, teste F ou teste x2-. As estatísticas z, t. F ou x2, são calculadas dos dados de observações

142

colhidos no experimento. 4. Verificar a probabilidade. A probabilidade de ocorrência aleatória da estatística calculada, deve ser verificada na respectiva tabela de distribuição teórica. Quando o valor observado da estatística obtida pela aplicação do teste for igual ou menor do que o valor crítico da tabela para o nível de significância escolhido, a hipótese de nulidade é então, não rejeitada. Se os valores estiverem localizados na zona de rejeição, maiores do que os encontrados na tabela, a hipótese nula é rejeitada e a hipótese alternativa (HA) aceita. 5. Concluir. Elaborar a decisão em termos de material estudado, evitando sempre que possível o emprego de terminologia estatística.

Vocabulário Erro tipo I

Erro tipo II

Falso negativo

falso positivo

Hipótese alternativa

hipótese nula

Poder do teste

Significância estatística

Teste bicaudal

valor P

Exercícios 12.1. Para cada uma das questões abaixo, elaborar a hipótese nula (H0) e a hipótese alternativa (HA): A. A média de partículas suspensas no ar em determinada comunidade, ultrapassou 30 unidades por metro cúbico em outubro? B. A área média transversal do lúmem das artérias coronárias em homens entre 40-59 anos é menor que 31,5% da área total transversal? C. O nível médio de hemoglobina de um grupo de trabalhadores de altas altitudes é diferente de 16 g/dL?

143

15 TESTES PARA A COMPARAÇÃO ENTRE DUAS MÉDIAS

Objetivos 1. Determinar quando usar o teste z e quando usar o teste t. 2. Determinar se a diferença entre duas médias é estatisticamente significante tanto para médias de amostras dependentes como independentes. 3. Listar os prós e os contras da realização de um “experimento antes e depois”. 4. Determinar o tamanho da amostra necessária para uma variável a um deter4minado nível de exatidão.

15.1. Fundamento dos testes de significância Em um teste de significância, inicia-se com um valor suposto (hipotético) de um parâmetro da população (por exemplo, a média, µ.). Depois de coletar uma amostra aleatória, compara-se a estatística da amostra, tal como a média amostral, com o parâmetro suposto (média populacional hipotética, µ). Então, aceita-se ou rejeita-se o valor hipotético como sendo correto. O valor hipotético é rejeitado somente se o resultado da amostra for claramente improvável de ocorrer quando a hipótese for verdadeira. A distribuição normal de probabilidades pode ser utilizada para testar um valor hipotético da média da população (a) quando n ≥ 30, devido ao teorema do limite central, ou (b) quando n < 30, no caso de a população ser normalmente distribuída e o ser conhecido. Em lugar de estabelecer valores críticos em termos da média da amostra como tal, os valores críticos nos testes de hipótese são tipicamente especificados em termos de valores Z. Por exemplo, para um nível de significância a = 0,05 (5%) os valores críticos de Z para um teste bicaudal são + 1,96. Quando o valor da média da amostra estiver determinado, ele será transformado para um valor de Z, de modo a poder ser comparado com os valores críticos de Z (v. adiante). Para variáveis com distribuição normal de probabilidades são considerados nãosignificantes os desvios representados por valores ao redor da média populacional (aceitação da hipótese de nulidade). Para um nível de significância de α = 0,05 o intervalo de desvios não-significantes corresponde a 95% das diferenças amostrais e. em conseqüência, 5% no máximo corresponde a região de significância (rejeição da hipótese

144

de nulidade). Essas áreas são definidas pelo valor de Z ± 1,96 unidades de desvios padrão contados a partir de zero. Para determinar a porcentagem da freqüência total associada aos 1,96 unidades de desvios padrão examina-se a tabela de distribuição normal padronizada (anexo C). Em testes bicaudais, o valor 1,96 unidades de desvios padrão em ambas as direções demarcam 2,5% das diferenças médias amostrais (50% 47,5% = 2,5%). Ou seja, 95% das diferenças amostrais caem entre -1,96 e +1,96 unidades de desvios padrão contados a partir das média (zero); somente 5% situam-se além de 1.96 (região de rejeição) (1,96)(2,5% + 2,5% = 5%). Os níveis de significância podem ser estabelecidos para qualquer grau de probabilidade. Os valores críticos de z α α mais usados em testes de hipótese bicaudais são: Nível de significância 0,050 (5%) 0,025 (2,5%) 0,010 (1%) 0,005 (0,5%) 0,001 (0,1%)

Z (numero de unidade de desvios padrão a partir da média) 1,96 2,24 2,58 2,81 3,29

Por exemplo, a adoção do nível de significância a = 0,05 implica em rejeitar a hipótese de nulidade somente no caso de haver 5 possibilidades em 100 de que a diferença amostral encontrada deve-se apenas à ação do acaso (erro de amostragem). Um desvio será significante se estiver a uma distância inferior ou superior ao número de desvios padrão em relação à média.

15.2. Teste do valor da média A partir da distribuição de probabilidade da variável na amostra l e da distribuição de probabilidade correspondente na amostra 2 é possível se calcular a distribuição de probabilidade da diferença entre médias das duas amostras.

145

Para séries de números extraídos de distribuições normais, a fórmula geral a para o teste estatístico é aplicável para testar a hipótese de que a média µ é igual a um valor particular µ0 ( H0 : µ = µ0): Estatística do teste =

Media amostral – média alegada Desvio padrão da média

15.3.Comparação entre a média de uma amostra e a média da população ( σ 2 conhecido) É possível solucionar problemas relativos à significância de uma diferença entre uma média amostral e uma média populacional. Se as médias x de amostras aleatórias de tamanho n são variáveis aleatórias com distribuição normal de média, µ , e desvio padrão, σ / n , é possível encontrar a área sob a curva da distribuição normal padronizada – após calcular o escore Z para as médias amostrais. A equação para Z é:

Z=

x−µ σ/ n

Onde

x = média calculada a partir de uma amostra da população

µ = média das médias ( que corresponde à verdadeira média populacional)

σ / n = erro padrão da média (estimativa do desvio padrão da distribuição amostral de médias.

146

A partir dessa fórmula é possível transformar a média da amostra para um valor Z, de modo da poder ser comparado com os valores críticos de Z. Os valores críticos de Z são encontrados na tabela da distribuição normal padronizada (anexo C).

Exercício 13.1 A idade média de uma população é µ = 53 anos com desvio padrão

σ =5,5. Uma amostra aleatória de n = 100, apresentou média x =54,86 anos. As duas médias são iguais para um nível de significância α = 0,05? Especificações: H0 µ =53 versus HA: µ ≠ 53 Nível de significância α = 0,05 Teste estatístico:

Z

6X1 666  µ σ/√n



54,85  53 5,5/√100



1,85  3,36 0,55

15.4. Região crítica: A partir da distribuição Z (tabela do Anexo C) é encontrado para um teste bicaudal ( α /2 = 0,025) o valor Z = ± 1,96: Como o valor calculado Z = 3,36 cai dentro da região crítica (além dos valores críticos + 1,96), rejeita-se a hipótese nula, ou seja, que a amostra é proveniente da população com média de 53 anos e, portanto, aceita-se a hipótese alternativa que a amostra é proveniente de uma população com média diferente de 53 anos. Esse resultado é considerado "significaste ao nível α = 0,05" pois a probabilidade de sua ocorrência ao acaso é menor que 0,05. A partir do resultado do teste estatístico pode-se afirmar que a probabilidade de obter uma média amostral de 54,85 ou maior em qualquer direção (acima ou abaixo de µ = 53) é menor que 0,002. Esse valor é designado P e é obtido pela soma da área além de Z = + 3,36 que é no máximo 2 (0,5 - 0,4990) = 2 (0,001) = 0,002. (como o valor 3,36

147

não aparece na tabela C, emprega-se a área 0,4990 correspondente a 3,09, o maior valor da tabela. O valor P de 0,002 indica que a probabilidade de selecionar ao acaso uma média > 3,36 erros padrão acima ou abaixo da média da população (µ. = 53) é muito pequena, isto e, menor que 0,002. No exemplo acima, nota-se que o teste está baseado no quanto a média da amostra se ajusta na estimação do parâmetro (µ Se H0, e verdadeira, pode-se esperar

X - µ seja pequena. Se a HA é verdadeira, espera-se que n X - µ, seja que a diferença n

grande. Pela comparação da diferença n X - µ. relativa ao erro padrão - computado no teste

estatístico - pode-se estimar a probabilidade que esse teste fornece evidências contra a suposição realizada pela H0. Pelo exame de onde o teste estatístico cai na distribuição amostral do Z ou t calculado, é possível obter a probabilidade do desfecho e confirmar H0,

ou HA. Essa probabilidade é medida pelo valor P. Para P pequeno, as evidências são fortes que H0 é falsa, enquanto P elevados a evidência ê vigorosa na falsidade de HA. Especificamente, decide-se que o resultado estatisticamente significante quando o valor P é menor que o valor do nível de significância o escolhido para definir a região critica.

15.5. Teste t O teste t é um teste de significância estatística empregado na análise para a comparação de duas médias amostrais (frequentemente grupos tratamento e controle) ou

da diferença da média de uma amostra em relação a um parâmetro especificado, n X - µ. É

evidente que, quanto maior essa diferença, maior será o valor calculado de t. Esse (este

permite estabelecer se a diferença entre as médias tem significância estatística). A equação já descrita no capítulo 10 é:

t

n Xµ s/√n

Quando um resultado do cálculo apresenta uma diferença com significância

estatística conclui-se pela rejeição da média n X (t cai na região de rejeição), por não

pertencer à população de médias com parâmetro µ . Essa conclusão, em geral como qualquer conclusão estatística, está acompanhada de risco. A probabilidade do erro de decisão é da ordem de 0,05 ou 0,01. Deve ser lembrado que amostras invulgares, com desvios significantes, podem ocorrer por pura obra do acaso.

148

Os requisitos para o uso do teste t como teste de significância dados a seguir devem ser observados para evitar confusões e falsas conclusões: 1. Possibilita a comparação entre duas médias de amostras (aleatórias) independentes ou a comparação entre médias de dois conjuntos de dados relativos a mesma amostra, porém obtidos em momentos distintos. Ex.: drogas x placebos, casos x controles etc. 2. As variáveis devem pertencer ao nível de mensuração intervalar ou de razão. 3. Amostras devem ser aleatórias (casuais). 4. O emprego do teste t em amostras pequenas pressupõe que a variável observacional apresente distribuição normal na população. A tabela do Anexo D apresenta os valores de t que delimitam as áreas nos dois extremos da curva de distribuição, para distintos valores de graus de liberdade. As duas áreas nos dois extremos são chamadas regiões críticas ou regiões de rejeição A figura 13.1 ilustra a distribuição teórica de t para 9 graus de liberdade. Os valores de t, estão representados na abscissa. A área sombreada em ambos os lados da curva, correspondem a valores de t > 2,262. à direita, e valores de t < -2.262. à esquerda. Em ambos os casos a freqüência relativa é de 0,025 ou 2,5% da freqüência total. Quando se despreza o sinal (positivo ou negativo) de t e se considera o seu valor absoluto, diz-se que valores de t maiores que 2.262 estão na região de rejeição 0,05, dada pela soma das freqüências relativas (0,025 + 0,025) dos dois extremos da curva. Pelo mesmo critério, valores de - 2.262 ≤ t < 2,262, não estão situados na região de rejeição. Esses têm uma freqüência relativa de 0,95 ou 95%, enquanto que os situados na região de rejeição tem uma freqüência relativa de 0.05 ou 5%. Um valor calculado de t, quando se situa na região de rejeição 5%, é dito significante. Um t que não se situa numa região de rejeição é chamado não significante. O t teórico é representado simbolicamente por t α (GL) em que α , (alfa) é a freqüência relativa da região de rejeição delimitada pelo valor de t, e, GL os graus de liberdade da distribuição.

149

Figura 13.1. Curva de distribuição de t.

15.6. Comparação entre a média de uma amostra ea média da população Em certos trabalhos de pesquisa, a experiência adquirida com um material em um procedimento quaisquer, permite estabelecer um valor padrão

para a média.

Suponha-se agora uma amostra de observações obtida com o mesmo material, mas

n das observações xi dessa amostra tratado com um procedimento novo. A média X apresentará, por certo, um desvio em relação ao padrão pré-estabelecido. Nessas

condições, há interesse em verificar se o desvio observado n X - µ0 representa uma diferença real, atribuível a modificação do procedimento, ou se nada mais é do que o

resultado de uma variação de amostragem. No caso de diferença real o desvio n X - µo terá

significando, estatística caso contrário, o desvio será atribuído à variação da amostragem.

n, de n observações de uma amostra, e o valor Quando se dispõe da média X

padrão pré-estabelecido µo o teste do desvio n X - µo, é dado por:

t

n X  µ0 s/√n

A diferença entre o novo procedimento e o procedimento padrão terá significância estatística aos níveis de probabilidade 0.05 ou 0.01. quando t calculado for maior que os valores teóricos dados na tabela, para t0,005 (n-1) respectivamente. O erro de conclusão será de 0,05 (ou uma vez em 20 investigações similares) ou 0,01 (1/100).

150

Hipóteses bicaudais com referência à média. Empregam-se a hipótese nula e a hipótese alternativa para realizar a comparação entre a média da população (µ.) e um determinado valor específico (µ0). H0 : µ = µ0 H0 : µ ≠ µ0 Para teste tem-se: set ≥ t α

GL,

a H0 é rejeitada.

Exemplo 13.2 Dada a amostra de observação da determinação de glicose X: 90. 86, 78,90, 82 mg/dL. Determinar a probabilidade de essa amostra pertencer a uma população cuja média é 75 mg/dL para α = 0,05. Especificações: H0: µ1 = 75 mg/dL HA: µ1 ≠ 75 mg/dL N=9 Graus de liberdade (n - 1 = 9 - 1): 8 Valor crítico de t0,05(8). = ± 2,306 Cálculos: Média da amostra

n X

90  86  78  90  98  90  82  76  84  86 mg/dL 9

Desvio padrão da amostra (v. capítulo 6):

774# ∑ X # # 66940  9∑ X  9 9  966940  66564  6,85 n S  n1 91 8 Valor de t:

151

t

n µ X s/√n



86  75 6,85/√9



11 1,82 2,28

O valor calculado t = 4,82 é significante, por ser maior que o t crítico t05 (8)= 2,306 dado na tabela do Anexo D. Portanto, o t calculado se encontra na região de rejeição da hipótese de nulidade. Desse modo, aceita-se a hipótese alternativa, qual seja, a de que a amostra analisada estima uma media diferente da especificada, ou seja, HA : µ1 ≠ µ0 para o nível de significância de 0,05 (5%).

Conclusão: o resultado é estatisticamente significante. Os resultados amostrais não pertencem a população cuja média é 75 mg/dL.

15.7. Comparação entre duas variãncias testes de Fisher (F) Sabe-se que uma população com distribuição normal é definida pela média e pelo desvio padrão (ou variância). Duas amostras extraídas de uma mesma população apresentam as médias e as variâncias que não diferem significantemente entre si. Ou seja. para demonstrar que duas amostras são extraídas de uma mesma população devese provar que tanto as médias quanto as variâncias dessas amostras não diferem significantemente. O teste de comparação entre duas variâncias é utilizado para determinar se duas amostras (A e B) possuem variabilidades semelhantes ou variabilidades diferentes. Muitas vezes é necessário pôr à prova a hipótese de igualdade entre duas variâncias. Nesse caso em lugar de considerar a diferença entre as duas variâncias, fazse o quociente entre elas. Isto porque, se σ# / σ## = 1. As hipóteses propostas são: H0: σ# / σ## = 1

HA: σ# / σ## > 1

Sabe que a estimativa da variância e dada pela formula:

∑ X # # # ∑  n X  ∑X   X n S#   ou S #  n1 n1

Exemplo 13.3 Empregando uma amostra de soro analista A determinou 9 vezes a glicose. Um analista B determinou 6 vezes a glicose pelo mesmo método. Os resultados são

152

fornecidos a seguir em mg/dL. Existe variação entre os analistas para um nível de significância de 0,05? Ž  7396 7744 7225 6869 7744 7569 7396 7056 7569 66.588

Analista A 86 88 85 83 88 87 86 84 87 774

Hipóteses:

H0 : H0 :

Analista B 81 87 87 86 85 84

Ž ‘ 6561 7569 7569 7396 7225 7056

510

43.376

S_# 1 Sa#

S_# “1 Sa#

Calculo das variâncias:

S_#  Sa# 

774# ∑ X# 66588  66588  66564 9 n   3 n1 91 8

∑ Ž 

510# ∑ X# 43376  43376  43350 6 n    5,2 n1 61 5 Variância maior F Variância menor

∑ Ž 

—

$,# (

= 1,73

O valor de F dado na tabela (Anexo E) para 5 graus de liberdade (6 1-5) do numerador e 8 graus de liberdade (9-1=8) do denominador é 3.69, Portanto, o valor calculado de F = t1,73 é menor o F critico ao nível de significância de 0,05 encontrado na tabela.

Conclusão: a hipótese H0 não é rejeitada, pois, não existe evidencia de que as variâncias dos dois analistas sejam diferentes.

153

Sem essa hipótese auxiliar não é possível tirar conclusões sobre a prova realizada, pois se H0 for rejeitada fica-se na dúvida se o foi por diferença entre as médias, por diferença entre as variâncias. Ou simultaneamente pelas duas razões. Denomina-se hemocedásicas quando as variâncias de duas populações são iguais e heterocedásicas quando as variâncias são diferentes.

15.8. Comparação entre as medias de duas amostras independentes Aqui também são comparadas duas médias sendo que, nesse caso, tanto as médias como o desvio padrão da população são desconhecidos. Para a aplicação do teste t para amostras independentes, as variáveis xA e xB devem ter distribuição normal ou aproximadamente normal. É importante também que as variâncias populacionais sejam iguais, ou seja, quando comparado o tratamento A com o B, o efeito altera uniformemente os valores, de tal modo que a dispersão dos dados permanece inalterada. A comparação de duas séries de dados independentes que não tenham distribuição normal deve ser realizado pelo teste de Mann Whitney um teste nãoparamétrico (ver capitulo 18).

15.9. Duas amostras de mesmo tamanho Quando os tamanhos das amostras são iguais, ou seja, nj = n2, = n, o valor de t com 2n-2 graus de liberdade é calculado pela fórmula:

t

n _% pn X ˜

>S _  S a n #

#

n a (média da primeira e da segunda amostra, respectivamente) A diferença n X_ X

terá significância estatística quando t calculado for maior do que t critico da tabela, para nA + nB -2 graus de liberdade, ou para 20 -2 graus de liberdade quando nA = nB = n para o α especificado (0,05 ou 0,01). Caso contrário, a diferença não é significante.

Exemplo 13.4 De um lote de pintos machos de um dia foram formados, por sorteio, dois grupos de 11 pintos. O primeiro grupo foi tratado com o hormônio testosterona e o segundo grupo não recebeu tratamento. Os pintos foram identificados e mantidos juntos numa mesma criadeira. Após 15 dias determinou-se o peso da crista de cada pinto, segundo a tabela abaixo. Houve efeito do hormônio sobre o peso da crista para α = 0,01?

154

Com hormônios # X_ X_ 57 3.249 120 14.400 101 10.201 137 18.769 119 14.169 117 13.689 104 10.816 73 5.329 53 2.809 68 4.624 118 13.924 1.067 111.971

Sem hormônios Xa X# a 89 7.921 30 900 82 6.724 50 2.500 39 1.521 22 484 57 3.249 32 1.024 96 9.216 31 961 88 7.744 616 42.244

Especificações H0:µ1 = µ2 H0:µ1 ≠ µ2

α = 0,01 Graus de liberdade = 20 (soma dos graus de liberdade de cada amostra isolada) Valor crítico de t0,01(20) = ± 2,845 nA = nB = n = 11 Cálculo da média de cada amostra:

n _ = 1067/11 = 97 X n X a = 616/11 =56

Cálculo da variância de cada amostra:

1138489 111971  103499 11    847,2 11  1 10 379456 42244  11  42244  34496  774,8 # Sa  11  1 10

S_#

111971 

Cálculo do valor de t:

t

n na X_  X

# >S _

 n

Sa#



97  56

>847,2  774,8 11



41

I147,45



41  3,38 12,14

155

O t calculado (3,38) é maior do que o da tabela para a α = 0,01 e 20 graus de liberdade (2,845); portanto, a diferença é significante. Valor de P = 0,003.

Conclusão: a administração de harmônio aumentou o peso da crista dos pintos, aos 15 dias de idade.

15.10. Duas amostras de tamanhos diferentes Prefere-se, em geral, empregar o mesmo número n de dados para a amostra. Não raro ocorre que amostras diferem quanto ao tamanho. Para que seja possível fazer comparações entre amostras de tamanhos diferentes, é necessário encontrar um modo de atribuir peso adequado à influência de cada amostra. Essa dificuldade é contornada mediante a designação de n1 ao número de repetições da primeira amostra e por n2 o número de repetições da segunda amostra e de cujos dados são calculadas as médias

x A e x B , respectivamente.

n_  X n a é dada por: A significância estatística das diferenças X

t

n_  X na X

>s0# ™

1 1 n_  na š

O denominador da fórmula acima é o erro padrão da diferença entre as médias das amostras e depende do conhecimento da variância da população. Quando as variâncias são desconhecidas é necessário fazer uma hipótese

suplementar que elas são iguais a um valor comum σ# σ#  σ##  σ# . A obtenção da estimativa combinada de σ2 realizada pelo cálculo da mídia ponderada das variâncias das duas amostras estudadas, S_# e Sa# , pelo emprego da fórmula:

S0#

n_  1 S_#  na  1Sa#  n_  na  2

S_# = variância da primeira amostra

Sa# = variância da seguinte amostra nA = tamanho da primeira amostra

nB = tamanho da segunda amostra

Exemplo 13.5

156

Deseja-se saber se a resistência de cabos de aço é influenciada por dois diferentes processos de fabricação (α = 0,05). Cinco cabos foram manufaturados pelo processo l, e sete pelo processo 2. Postos a prova no laboratório, as cargas máximas registradas para os cabos foram as seguintes, em toneladas: X_ 9 6 10 9 11 45

Xa 14 10 9 13 12 13 8 79

X_# 81 36 100 81 121 419

Xa# 196 100 81 169 144 169 64 923

Especificações: H0: µ1 = µ 0 H1: µ1 ≠ µ 0 nA = 5 nB = 7

α = 0,05 Graus de liberdade = 10 (soma dos graus de liberdade de cada amostra isolada). Valor crítico de t0,05 (10), = ± 2,228 Cálculo da média de cada amostra:

n _ = 45/5 = 9 t X

n a - 79/7 = 11,3 t X

Cálculo da variância de cada amostra:

2025 5  419  405  3,5  51 4 6241 923  7 923  291,5 # Sa    5,25 71 6 S_#

419 

Cálculo da média ponderada das variâncias:

S0#

n_  na  S_#  na  1Sa# 5  13,5  7  15,25    4,45 n_  na 2 572

157

t

n_  X na X

1 1 >S0# ™  n_ na š



9,0  11,3

>4,55 ™1  1š 5 7

 1,85

O t calculado (1,85) c menor do que o t crítico da tabela para a = 0,05 e 10 graus de liberdade (2,228): portanto, a diferença não é significante. Valor de P = 0,097

Conclusão: os testes de laboratório não forneceram suficiente evidência para diferenciar os dois processos de fabricação de cabos de aço.

15.11. Comparação entre médias de duas amostras emparelhadas Os testes t descritos anteriormente não distinguem a variação entre indivíduos, da variação devida a diferenças entre grupos. Quando houver uma razão lógica para que dois tratamentos sejam aplicados cm pares homogêneos de unidades experimentais, os grupos devem ser pareados e tratados por teste t específico. Como os membros do par nunca são exatamente iguais por razões intrínsecas ou ambientais introduzidas no curso do experimento, deve-se usar vários pares. As repetições tendem a contrabalançar as diferenças individuais e evidenciar o efeito real dos tratamentos em estudo. Em cada par os dois tratamentos são sorteados sobre os mesmos membros do par. A análise emparelhada é apropriada para: •

Quando a variável em cada indivíduo é medida antes e depois de uma intervenção (ex.: peso antes e depois de um regime).



Quando os indivíduos são recrutados como pares, emparelhados por variáveis como idade ou diagnóstico. Um dos pares recebe uma intervenção, enquanto o outro não (ou recebe um tratamento alternativo).



Quando medir uma variável em gêmeos ou pares criança/pais.



Experimentos laboratoriais repetidos.

O teste t que compara dois grupos emparelhados, calcula a diferença entre cada conjunto de pares e analisa as diferenças portanto que observados os seguintes pressupostos: •

Os pares devem ser selecionados ao acaso de uma grande população (ou no mínimo representativa de uma grande população).



As amostras devem ser emparelhadas. O emparelhamento entre os valores da coluna A e os da coluna B devem ser baseados no projeto experimental e decidido antes dos dados serem coletados.

158



Cada par deve ser selecionado independentemente dos outros.



A distribuição das diferenças na população deve se aproximar de uma distribuição normal.

Se a distribuição das diferenças na população não for normal, deve-se empregar o teste de Wilcoxon um teste não-paramétrico para dados emparelhados (ver capítulo 15). Na análise estatística de comparações emparelhadas, não são empregados os dados originais mas as diferenças (d1) entre as observações numéricas x de cada par.

6  Σd; /n em que Σdi e a soma algébrica das Calcula-se a média das diferenças d diferenças e n é o número de pares ou repetições e não o número total de indivíduos ou

6 X n  X n # a diferença das médias observações. A diferença média é também dada por d dos tratamentos l e 2 cm comparação. A hipótese nula (µd = 0) é testada por:

t

6 d

s‹ /√n

onde sd/ n é o erro padrão da diferença média: o cálculo de sd (desvio padrão das diferenças) é dado por:

∑ d; # # # ∑ 6 d  ∑Zd  d ] ; ; 9 n S‹  9  n1 n1

6 terá significância estatística quando o t calculado for maior A diferença média d

do que o tα da tabela para um nível de significância estabelecido (a = 0,05 ou 0,01) e o n-

1 graus de liberdade. Conclui-se então que há uma real diferença entre os dois tratamentos. Caso contrário, a diferença não é significante. Apesar do reduzido número de graus de liberdade, a redução da variabilidade (sj) obtida pelo parcamente, geralmente resulta em grande melhora na eficiência estatística. O exemplo a seguir é de um teste t emparelhado bicaudal.

Exemplo 13.6 Comparação da diferença de resultados pareados da determinação de glicose no plasma e no soro era uma amostra de 10 indivíduos normais. Os resultados apresentados na tabela abaixo são em mg/dL. Deseja-se saber: houve diferença na determinação de glicose no plasma e no soro para α = 0,05?

159

N 1 2 3 4 5 6 7 8 9 10

Plasma (xi) 96 81 100 92 103 85 94 97 104 90 Totais

Soro (x2) 94 79 97 92 100 86 93 93 103 88

(d = x1 – x2) 2 2 3 0 3 -1 1 4 1 2 17

d2 4 4 9 0 9 1 1 16 1 4 49

Especificações; H0 :µd = 0 HA :µd ≠ 0

α = 0,05 n = 10 Graus de liberdade (número de pares - t) = 9 Valor critico de t0,05 (9) = ± 2,262

Observações: 6 = 17/10 = 1,7 rag/dL (média das diferenças emparelhadas) d Σdi = 17

∑ d#; = 49

17# ∑ d;  # ∑ 49  d  9 ; 10  1,49 n  9 S‹  n1 n1 t

6 d 1,7 1,7    3,597 S‹ 1,49 0,471 √10 √n

160

Para 9 graus de liberdade e a = 0,05, o valor de t na tabela é 2,262. Como o t calculado (3,597) é maior do que o t critico da tabela, rejeita-se a hipótese H0. Valor P = 0,0058.

Conclusão: existe diferença na determinação da glicose no plasma e no soro.

15.12. Resumo da aplicação de testes para comparar duas séries de dado Dados

Teste

Não emparelhados

Distribuição normal, s iguais

Teste t não emparelhado

Não emparelhados

Distribuição normal, s diferente

Teste t de Welch

Emparelhados

Distribuição normal das diferenças

Teste t emparelhado

Distribui não gaussiana

Teste de Mann-Whitney

Distribuição não gausiana

Teste de Wilcoxon

Não emparelhados Emparelhados

15.13. Tamanho da amostra A determinação do número de observações de uma amostra, isto é. o número de repetições a usar numa investigação, é um problema que sempre se apresenta na fase do planejamento dos estudos. Uma investigação com poucas observações pode falhar na descoberta de uma diferença importante, um experimento desnecessariamente grande representa um desperdício de tempo e de material. Seja no caso da determinação do número n de observações necessárias, em cada um de dois grupos independentes, para assinalar uma diferença estatisticamente significante entre as médias de dois grupos. O objetivo é atingido quando.

t

n n# n n# X  X X  X  n# Spn›  X I2S # /n

For maior do que t α especificado.

Quando se especifica a diferença entre as médias a ser testada e se conhece por experiência prévia (levantamento "piloto'") a variância s2 , pode-se calcular n para um tα especificado:

n  2G

# st † H n n# X  X

161

n = C, o coeficiente de variação em %, e n n #, por Substituindo s por (100) S/X X  X

n # )/ X n = D , a diferença entre as médias em % da média geral obtém-se: (100)(n X  X Ct † # n  2G H D

Os valores de C e D, são conhecidos. O valor de t α varia em função de n. O valor final de n é determinado por tentativas, começando com um valor n qualquer e achando na tabela o valor t α para n-1 graus de liberdade. Para fins práticos, t pode ser igualado a 2, quando α = 0.05. A equação simplifica-se para n = 8(C/D)2. A segurança dessa estimativa de n é de 50%; pode ser satisfatória ou não. Para maior segurança sugere-se a equação n = 10 (C/D)2.

Exemplo 13.7 Qual o número de pintos a usar por grupo, na comparação de duas rações, o atributo a medir sendo o aumento de peso? O teste deverá acusar significância estatística quando a diferença entre as duas médias é D = 10%. Antecipa-se um coeficiente de variação para ganhos de peso C = 20%. Nessas condições: n = 10(20/10)- = (10) (4) = 40. Um mínimo de 40 pintos deverá ser usado em cada grupo. É interessante assinalar aqui o efeito da heterogeneidade do material experimental ou das unidades experimentais, sobre o número de repetições a usar numa investigação. A redução do coeficiente de variação à metade, reduz a 1/4 o número de repetições necessárias. O uso de pintos com um coeficiente de variação igual a 10%, isto é, mais uniformes no aumento de peso, diminuiria de 40 para 10 o número de pintos necessários por grupo.

Vocabulário Desvio padrão da média

Tamanho da amostra

Estimação de parâmetros

Teste emparelhado

populacionais Estimação por intervalo

Teste para amostras independentes

162

Estimação por ponto

Teste T

Exercícios 13.1. Amostras de sangue de dez pessoas foram enviadas a dois laboratórios para a determinação de colesterol. Os resultados foram: Colesterol sérico 9 (mg/dL) Individuo 1 2 3 4 5 6 7 8 9 10 Σx 2 ΣX

Lab 1 296 268 244 272 240 244 282 254 244 262 2.606 682.316

Lab2 318 287 260 279 245 249 294 271 264 285 2.750 760.706

Existe uma diferença estatisticamente significante na determinação do colesterol entre o lab 1 e o lab 2 para a = 0,01. A. A Qual o teste a ser usado: teste t para duas amostras independentes ou teste t para amostras paredas? B. B Realizar o teste escolhido em A e responder a questão. C. Realizar o teste não escolhido em A e comparar o resultado com o obtido em B. O que foi observado? 13.2. Um estudo foi conduzido utilizando 139 acadêmicos, que voluntariamente participaram de uma pesquisa sobre o consumo diário máximo de álcool no mês anterior.

163

Baseado nos dados da tabela seguinte, existe diferenças entre homens e mulheres quanto a quantidade máxima de álcool ingerida diariamente no mês anterior? Quantidade máxima diária de álcool consumida no ultimo mês (Carey & Correia, 1997). Homens Média = 8,2 S = 5,9 N = 54

Mulheres Média = 5,6 S = 5,7 N = 85

A. Escrever a hipótese nula e a hipótese alternativa usando a notação estatística correta.

B. Qual e o valor citico† para = 0,05?

C. Esses grupos são independentes ou dependentes? Explicar? D. Qual é o valor calculado de t? E. Quais as conclusões? F. Calcular o intervalo de confiança de 95%.

164

Exercícios diversos 1. Pretende-se lançar uma moeda 5 vezes e rejeitar a hipótese de que a moeda é nãotendenciosa, isto é, pretende-se rejeitar Ho: π = 0,50, se em 5 (cinco) jogadas ocorrerem 5 coroas ou 5 caras. Qual é a probabilidade de se cometer erro do tipo I? 2. Você suspeita que um dado é viciado, isto é, você suspeita que a probabilidade de obter face 6 é maior do que 1/6. Você decide testar a hipótese de que o dado é nãoviciado, jogando-o cinco vezes e rejeitando essa hipótese se ocorrer a face 6 (seis), 4 ou 5 vezes. Qual o nível de significância do teste? 3. Uma urna contém 6 fichas, das quais θ são brancas e 6 - θ são pretas. Para testar a hipótese de nulidade de que θ = 3, contra a alternativa de que θ ≠ 3, são retiradas 2 (duas) fichas da urna ao acaso e sem reposição. Rejeita-se a hipótese nula se as duas fichas forem da mesma cor.

(a) Determine P(Erro do Tipo I). (b) Determine o poder do teste para os diferentes valores de θ. (c) Considere, agora, que a segunda ficha é retirada após a reposição da primeira. Calcule, novamente, o nível de significância e os valores do poder do teste.

(d). Compare os dois procedimentos (com e sem reposição da segunda ficha retirada). Qual a conclusão?

165

4. Para decidirmos se os habitantes de uma ilha são descendentes da civilização A ou B, iremos proceder da seguinte forma:

(i) Selecionamos uma amostra aleatória de 100 moradores adultos da ilha e determinamos a altura média;

(ii) Se a altura média for superior a 176 cm, diremos que os habitantes são descendentes de B, caso contrário, admitiremos que são descendentes de A. Os parâmetros das duas civilizações são: A: µA = 175 cm e σA = 10 cm e B: µB = 177 cm e σB = 10 cm. Define-se ainda: erro do tipo I como sendo “dizer que os habitantes são descendentes de B quando, na realidade, são de A” e erro do tipo II “dizer que os habitantes são de A quando, na realidade, são descendentes de B”.

(a) Qual a probabilidade de erro do tipo I e do tipo II? (b) Se σA = σB = 5, como ficariam os valores dos erros do tipo I e II? (c) Qual deve ser a regra de decisão se quisermos fixar a a probabilidade de Erro I em 5%. Qual a probabilidade de erro II neste caso?

(d) Quais as probabilidades de Erro II, se as médias forem: µA = 178 e se µB = 180? 5. Fazendo o teste H0: µ = 1150 (σ = 150) contra H1: µ = 1200 (σ = 200) e com n = 100, estabeleceuse a seguinte região crítica: RC = [1170, +∞).

(a) Qual a probabilidade α de rejeitar H0 quando verdadeira? (b) Qual a probabilidade β de Aceitar H0 quando H1 é verdadeira? 6. Numa linha de produção é importante que o tempo gasto numa determinada operação não varie muito de empregado para empregado. Em operários bem treinados a variabilidade fica em 100 u2. A empresa colocou 11 novos funcionários para trabalhar na linha de produção, supostamente bem treinados, e observou os seguintes valores, em segundos:

125 135 115 120 150 130 125 145 125 140 130 Testar se a tempo despendido por estes funcionários pode ser considerado mais variável do que os demais funcionários. Utilize 5% de significância. 7. Diversas políticas, em relação às filiais de uma rede de supermercados, estão associadas ao gasto médio dos clientes em cada compra. Deseja-se comparar estes parâmetros de duas novas filiais, através de duas amostras de 50 clientes,selecionados ao acaso, de cada uma das novas filiais. As médias obtidas foram 62 e 71 unidades

166

monetárias. Supondo que os desvios padrões sejam idênticos e iguais a 20 um, teste a hipótese de que o gasto médio dos clientes não é o mesmo nas duas filiais. Utilize uma significância de 2,5%? 8. Em dois anos consecutivos foi feito um levantamento de mercado sobre a preferência dos consumidores pelo por um determinado produto. No primeiro ano o produto era anunciado com freqüência semanal nos veículos de comunicação e no segundo ano com freqüência mensal. No levantamento foram utilizados duas amostras independentes de 400 consumidores cada. No primeiro ano o percentual de compradores ficou em 33% e no segundo ano em 29%. Considerando o nível de significância de 5%, teste a hipótese de que a freqüência do anúncio tem influência na manutenção da fatia de mercado. 9. Para verificar se uma moeda é honesta, com base em 20 lançamentos independentes, adotamos o seguinte critério: consideramos a moeda não honesta se o resultado for menor do que 7 ou maior do que 13.

(a) Formule esse problema como um problema de teste de hipóteses. (b) Quais são os significados dos erros tipo I e II? (c) Qual é o nível de significância do teste? 10. No ano de 2003 foi feita uma pesquisa em uma estância turística e constatou-se que apenas 60% dos visitantes estavam satisfeitos com a infraestrutura oferecida. Com o intuito de aumentar essa proporção a prefeitura fez algumas melhorias na cidade e depois de um ano, resolveu verificar se as mesmas produziram o efeito desejado. Para isso entrevistou 50 turistas.

(a) Formule esse problema como um problema de teste de hipóteses. (b) Quais são os significados dos erros tipo I e tipo II? (c) Qual é a região crítica associada a um nível de significância de 10%. (d) Se 37 dos 50 turistas entrevistados estavam satisfeitos com a infraestrutura oferecida, qual é asua conclusão?

11. A marca Z de um produto é responsável por 50% das vendas desse produto em um supermercado. Uma campanha promocional foi contratada e os promotores garantem que a marca Z passará a ser responsável por uma porcentagem maior das vendas. O dono do supermercado propõe entrevistar alguns clientes após o encerramento da campanha promocional e perguntar a cada um deles se ele usualmente compra a marca

167

Z do produto.Sendo p a porcentagem de vendas do produto Z após a campanha (a) Estabeleça as hipóteses apropriadas.

(b) Quais são os significados dos erros tipo I e tipo II para o problema? (c) Se entre 18 clientes entrevistados, 12 responderam sim, qual é a sua conclusão com base no nível descritivo?

(d) Se entre 324 clientes entrevistados, 178 responderam sim, qual é a sua conclusão com base no nível descritivo? 12. Com o objetivo de testar uma hipótese H0 contra a hipótese alternativa Ha, um pesquisador fixou as probabilidades de erros de 1ª e 2ª espécies, respectivamente, em 5% e 10%. Realizado o teste, imaginem-se 2 situações diferentes: Em A: O pesquisador rejeitou a hipótese de nulidade Em B: O pesquisador não rejeitou a hipótese de nulidade. Para cada situação (A e B) assinale a alternativa correta e justifique. a) O pesquisador certamente estará cometendo um erro cuja probabilidade de ocorrência é igual a 5%; b) O pesquisador certamente estará cometendo um erro cuja probabilidade de ocorrência é igual a 10%; c) Se o pesquisador estiver cometendo um erro, a probabilidade de ocorrência associada a este erro é de 15%; d) Se o pesquisador estiver cometendo um erro, a probabilidade de ocorrência associada a este erro é de 10%; e) Se o pesquisador estiver cometendo um erro, a probabilidade de ocorrência associada a este erro é de 5%. 12. A resistência ao resfriado comum em uma dada indústria, durante o inverno, é de p=0,60. Foi proposto um tratamento preventivo com a finalidade de aumentar a resistência ao resfriado para p=0,70. Então: a) formule as hipóteses. b) fixando a= 0,05 (ou valor mais próximo) e admitindo ter sido sorteada uma amostra de tamanho n=20, observou-se que 4 operários ficaram resfriados. Nestas condições, qual é a conclusão quanto à eficiência do medicamento?

168

13.

Para se estimar a letalidade da doença B, acompanhou-se uma amostra de 30

doentes durante um ano. Após esse período, cinco deles haviam morrido. Testar a hipótese de que essa letalidade é igual a 20%. Fixe o erro de 1º espécie em um a=10%. 14.

Certa comunidade apresentou em um período de vários anos coeficiente de

incidência da doença X de 12 por 10.000 hab.. Em 1999, a incidência foi de 70 casos e a população estimada foi igual a 50.000 habitantes. Nestas condições, ao nível de significância de 1% (ou mais próximo) diga se concorda com as autoridades sanitárias que consideraram a situação dentro do esperado. 15.

Desejando-se conhecer o coeficiente de prevalência de determinada doença na

cidade A, selecionou-se uma amostra aleatória de 500 pessoas. Nesta amostra detectaram-se 20 doentes. Teste a hipótese de que a prevalência é semelhante à descrita na literatura de 10%. (Fixando a=5%) 16. Uma nova espécie de trigo desenvolvida em laboratórios será testada quanto a sua produtividade, em comparação com a espécie tradicional. Dados do governo revelam que a produtividade média de lavouras que se utilizam da espécie tradicional é de 25 ton/ha. A produtividade de uma fazenda é uma variável aleatória normalmente distribuída. Dezesseis fazendas foram preparadas para a avaliação da nova espécie. Qual seria o seu parecer sobre a nova espécie se, em seu experimento você observasse na amostra média de 28 ton/ha e variância de 12 ( ton / ha ) 2 . 17. Um novo método de emagrecimento é anunciado como o fim das gordurinhas a mais que perseguem a parcela mais abonada da sociedade. Preocupado com a seriedade profissional dos responsáveis pelo uso do método, o conselho de medicina decide promover um experimento para avaliar a eficácia do tratamento. Trinta e dois voluntários são divididos em 2 grupos de igual tamanho, recebendo cada grupo um tratamento diferente. Um deles recebe o novo método e o outro o método tradicional. Anotou-se a variação de peso de cada indivíduo após o final do tratamento. Os resultados foram: ind.

1

2

3

4

5

6

7

8

9

10

11

1

13

14

15

16

2

169

Novo

5.3

trad.

4.2

-

-

-

3.4

8.1

9.0

-

-

-

2.0

5.0

3.0

1.3 2.8

-

-

2.3

3.4

8.0

-

-

-

0.3

6.0

3.1

-

-

-

3.

-

-

-

2.0

3.1

13.4

8.9

1

4.3

3.0

3.2

0.3

-

-

2.

-

-

-

-

12.0

6.0

0

2.1

1.0

2.0

1.0

Suponha que tanto a variação do peso com o tratamento novo, quanto a variação com o tratamento tradicional sejam variáveis aleatórias com distribuições normais. (a) Teste a hipótese de que não há diferença entre os dois métodos, a um nível de 0,01. Suponha que os dois grupos de voluntários sejam independentes (b) suponha agora que os indivíduos do primeiro grupo são irmãos gêmeos dos indivíduos do outro grupo(pares de gêmeos, é claro). Para cada par aplicou-se a um dos gêmeos o tratamento novo e ao outro o tradicional. Teste com base nessa informação adicional a mesma hipótese do item anterior, ao mesmo nível de significância. 18.

Um novo método de aprendizagem foi testado através do seguinte experimento.

Em uma turma de 30 alunos utilizou-se o método novo e em outra turma de 30 alunas de outra escola manteve-se o método tradicional. Ao final do curso aplicou-se um mesmo exame às duas turmas. Os resultados foram: Turma1-método novo: média=69 desvio padrão=10 Turma2-método antigo: média=60 desvio padrão=9. Com base nestas informações, teste se há diferença significativa entre os dois métodos, a um nível de 0,05. Suponha as notas individuais de cada aluno como v.a. normais de mesma variância e médias possivelmente diferentes. 19. Um novo tratamento anti-corrosivo para chapas de aço foi testado. O experimento realizado foi o seguinte: 9 chapas diferentes foram selecionadas sendo cada uma dividida em duas. A uma das metades aplicou-se o tratamento novo e a outra metade o tratamento antigo. Anotou-se, então, o tempo até o início da corrosão em cada metade.Os resultados obtidos foram: chapa

1

2

3

4

5

6

7

8

9

metade/novo

36.2

48.3

35.4

39.3

40.2

37.4

39.3

42.3

36.0

metade/antig

31.4

39.2

35.0

33.4

41.3

36.8

38.1

43.0

35.0

o

Suponha que o tempo até a corrosão em cada metade é uma variável com distribuição normal, e que o tratamento não influencia na variância desta variável, mas apenas na sua média. Qual dos tratamentos voce recomendaria que fosse utilizado?

170

20. Um estudo é desenvolvido para investigar o efeito de um certo tratamento para controlar a temperatura do corpo de porcos criados em laboratório e que possuem uma deficiência genética que provoca redução na temperatura corpórea dos porcos. As temperaturas de interesse foram medidas um dia antes e um dia depois de submeterem os porcos ao tratamento. Os dados obtidos estão apresentados na tabela abaixo. animal

1

2

3

4

5

6

7

8

9

10

antes

38.1

38.4

38.3

38.2

38.2

37.9

38.7

38.6

38

38.2

depois

38.9

38.6

38.2

38.2

39.4

38.5

38.3

38.4

38.8

38.7

a) Há evidências de que o tratamento permite o controle da temperatura ? b) Calcule um intervalo de confiança para a temperatura após a aplicação do tratamento. 21. Um entomologista está investigando se um inseto é predador de uma variedade de uma espécie de plantas com folhas rugosas e uma outra com folhas lisas. Ele acompanha o crescimento de cinco plantas de cada variedade e conta o número de ovos do inseto em cada uma delas. Infelizmente ele perde uma observação referente a planta de folha lisa. Para as 9 plantas que sobraram , ele obtem uma quantidade média de 48,5 para lisa e 37,2 para rugosa. Fazendo os cálculos ele encontra um valor t=2,65 com 7 graus de liberdade. Após verificar melhor seus registros ele encontra a observação perdida, cujo valor é 110. a) qual é agora o número médio de ovos do inseto para a planta lisa? b) como você acha que ele determinou o valor de t? c) quando ele repete os cálculos fica surpreso de não encontrar diferença sigificativa entre o número médio de ovos para os dois tipos de folhas. O que pode ter acontecido?

171

16. CORRELAÇÃO E REGRESSÃO 16.1. Correlação 16.1.1. Introdução Ao se estudar uma variável o interesse eram as medidas de tendência central, dispersão, assimetria, etc. Com duas ou mais variáveis além destas medidas individuais também é de interesse conhecer se elas tem algum relacionamento entre si, isto é, se valores altos (baixos) de uma das variáveis implicam em valores altos (ou baixos) da outra variável. Por exemplo, pode-se verificar se existe associação entre a taxa de desemprego e a taxa de criminalidade em uma grande cidade, entre verba investida em propaganda e retorno nas vendas, etc. A associação entre duas variáveis poder ser de dois tipos: correlacional e experimental. Numa relação experimental os valores de uma das variáveis são controlados pela atribuição ao acaso do objeto sendo estudado e observando o que acontece com os valores da outra variável. Por exemplo, pode-se atribuir dosagens casuais de uma certa droga e observar a resposta do organismo; pode-se atribuir níveis de fertilizante ao acaso e observar as diferenças na produção de uma determinada cultura. No relacionamento correlacional, por outro lado, não se tem nenhum controle sobre as variáveis sendo estudadas. Elas são observadas como ocorrem no ambiente natural, sem nenhuma interferência, isto é, as duas variáveis são aleatórias. Assim a diferença entre as duas situações é que na experimental nós atribuímos valores ao acaso de uma forma não tendenciosa e na outra a atribuição é feita pela natureza. Freqüentemente é necessário estudar o relacionamento entre duas ou mais variáveis. Ao estudodo relacionamento entre duas ou mais variáveis denominamos de correlação e

regressão. Se o estudo tratar apenas de duas variáveis tem-se a correlação e a regressão simples, se envolver mais do que duas variáveis, tem-se a correlação e a regressão múltiplas. A regressão e a correlação tratam apenas do relacionamento do tipo linear entre duas variáveis. A análise de correlação fornece um número que resume o grau de relacionamento linear entre as duas variáveis. Já a análise de regressão fornece uma equação que descreve o comportamento de uma das variáveis em função do comportamento da outra variável.

16.2. Padrões de associação

172

Independente do tipo (correlacional ou experimental) a relação entre as variáveis pode ser resumida através de uma equação indicando o padrão de associação entre as duas variáveis.. Quando não é possível perceber uma relação sistemática entre as variáveis é dito que as variáveis são não correlacionadas, são independentes ou ainda que são ortogonais.

16.3. Indicadores de associação Suponha-se que queiramos determinar se duas variáveis aleatórias estão de alguma forma correlacionadas. Por exemplo, suponha-se que se queira determinar se o desempenho dos empregados no trabalho está de alguma forma associado ao escore obtido num teste vocacional.

Tabela de contingência 2x2. Uma vez que a correlação entre duas variáveis aleatórias reflete o quanto os altos escores de uma delas implicam em altos escores da outra e baixos escores de uma implicam em baixos escores da outra e vice-versa, no caso de uma relação negativa, pode-se começar a análise identificando, justamente quantos elementos de uma das variáveis são altos e quantos são baixos. Para determinar se um escore ou valor é alto ou baixo, pode-se convencionar que qualquer valor acima da mediana é alto e qualquer valor abaixo da mediana é baixo. Classificando desta forma pode-se ter então, para o exemplo, 4 possíveis resultados: • Tanto o desempenho no trabalho quanto no teste estão acima da mediana (+ +) • O desempenho no trabalho está acima mas o do teste está abaixo da mediana (+ −) • Tanto o desempenho no trabalho quanto o do teste estão abaixo da mediana (− −) • O desempenho no trabalho está abaixo da mediana mas o teste não (− +) Estas quatro possibilidades podem ser arranjadas em uma tabela de contingência 2x2, como a mostrada abaixo:

Tabela 1.1 − Desempenho no trabalho e no teste Desempenho no trabalho

Escore no teste vocacional Abaixo da mediana (-)

Acima da mediana (+)

Acima da mediana (+)

(-, +) 10 empregados

(+, +) 40 empregados

Abaixo da mediana (-)

(−, −) 40 empregados

(+, −) 10 empregados

Observe−se que se não existir relação entre as duas variáveis deve−se esperar número idêntico de empregados em cada uma das células da tabela, isto é, se a pessoa o escore

173

da pessoa no teste vocacional está acima ou abaixo da mediana não tem nada a ver com o seu escore no desempenho no trabalho estar acima ou abaixo da mediana. O que pode ser visto na tabela acima é que parece existir uma forte correlação entre as duas variáveis, pois ao invés de igual número em cada célula o que se tem é um número grande de ambas as variáveis acima da mediana e um número grande de escores de ambas as variáveis abaixo da mediana. Das 50 pessoas com escore acima da mediana no teste, 40 deles (80%) apresentaram escore acima da mediana no desempenho do trabalho. Da mesma forma dos 50 que tiverem classificações abaixo da mediana, 40 deles apresentaram escore abaixo da mediana no desempenho do trabalho. Se não houvesse correlação seria de se esperar que dos 50 que tiveram escores acima da mediana no teste 25 tivessem escores acima da mediana no desempenho do trabalho e 25 abaixo. A tabela 1.2 mostra outras possíveis saídas para este tipo de esquema de classificação cruzada. Novamente 100 elementos são classificados em 4 células de acordo com o critério anterior. A parte (a) da tabela mostra uma associação positiva, a parte (b) uma negativa e a parte (c) que não deve existir associação entre duas variáveis X e Y.

Tabela 1.2 - Indicativos da presença de associação entre duas variáveis X e Y. (a) Relação positiva

(b) Relação negativa

Valor de Y

Valor de Y

(c) Sem relação Valor de Y

Valor de X

Abaixo da mediana

Acima da mediana

Valor de X

Abaixo da mediana

Acima da mediana

Valor de X

Abaixo da mediana

Acima da mediana

Acima da mediana

15

35

Acima da mediana

35

15

Acima da mediana

25

25

Abaixo da mediana

35

15

Abaixo da mediana

15

35

Abaixo da mediana

25

25

Diagramas de dispersão. As tabelas de contingência 2x2 fornecem somente a indicação grosseira da relação entre duas variáveis, a não ser o fato de que os valores estão situados acima e abaixo da mediana, qualquer outra informação é desperdiçada. Vamos considerar um exemplo, envolvendo duas variáveis contínuas. Um comerciante de temperos está curioso sobre a grande variação nas vendas de loja para loja e acha que as vendas estão associadas com o espaço nas prateleiras dedicados a sua linha de produto em cada ponto de venda. Dez lojas foram selecionadas

174

ao acaso através do país e as duas seguintes variáveis foram mensuradas: (1) total de espaço de frente (comprimento x altura em cm2) dedicados a sua linha de produtos e (2) total das vendas dos produtos, em reais, no último mês. Os dados são apresentados na tabela 1.3.

Tabela 1.3 – Vendas x espaço dedicado aos produtos (em cm2). Local

Espaço

Vendas

1

340

71

2

230

65

3

405

83

4

325

74

5

280

67

6

195

56

7

265

57

8

300

78

9

350

84

10

310

65

Pela observação da tabela não é fácil perceber o tipo de relacionamento que possa existir entre as duas variáveis. Para ter uma idéia melhor, as variáveis são colocadas no que é denominado de diagrama de dispersão. Uma das variáveis (X) é representada no eixo horizontal e a outra variável (Y) no eixo vertical, conforme figura 1.2.

175

Vendas x Áreas de prateleira 90 80 70 60 50 40 30 20 10 0 0

100

200

300

400

500

Uma olhada rápida no diagrama de dispersão mostra a existência de um relacionamento entre as variáveis, com altos valores de uma das variáveis associados a altos valores da outra variável. Se não houvesse relacionamento entre elas, os pontos estariam distribuídos ao acaso no gráfico sem mostrarem alguma tendência.

16.4. Coeficiente de correlação Apesar do diagrama de dispersão nos fornecer uma idéia do tipo e extensão do relacionamento entre duas variáveis X e Y, seria altamente desejável ter um número que medisse esta relação. Esta medida existe e é denominada de coeficiente de correlação. Quando se está trabalhando com amostras o coeficiente de correlação é indicado pela letra r que é, por sua vez, uma estimativa do coeficiente de correlação populacional: ρ (rho). O coeficiente de correlação pode variar de –1,00 a + 1,00, com um coeficiente de +1, indicando uma correlação linear positiva perfeita. Neste caso, as duas variáveis serão exatamente iguais em termos de escores padronizados z, isto é, um elemento apresentando um escore padronizado de 1,5 em uma das variáveis vai apresentar o mesmo escore padronizado na outra variável. Um coeficiente de correlação de –1, indica correlação linear perfeita negativa, com os escores padronizados exatamente iguais em valores absolutos, diferindo apenas no sinal. Uma correlação de +1 ou –1 é raramente observado. O mais comum é que o coeficiente fique situado no intervalo entre estes dois valores. Um coeficiente de correlação “0”, significa que não existe um relacionamento linear entre as duas variáveis.

176

16.5. Hipóteses básicas A suposição básica sobre o coeficiente de correlação é que o relacionamento entre as duas variáveis seja linear. Isto é, o coeficiente de correlação é adequado para avaliar somente o relacionamento linear. As duas variáveis podem estar perfeitamente relacionadas, mas se não for de forma linear o valor do coeficiente pode ser zero ou próximo de zero. Uma segunda hipótese é que as variáveis envolvidas sejam aleatórias e que sejam medidas no mínimo em escala de intervalo. Ele não se aplica a variáveis em escala nominal ou ordinal ou quando uma das variáveis é manipulada experimentalmente, pois neste caso, a escolha dos valores experimentais vai influenciar o valor de r obtido. Uma terceira hipótese é que as duas variáveis tenham uma distribuição conjunta normal bivariada. Isto é equivalente a dizer que para cada x dado a variável y é normalmente distribuída. Suponha-se que existam apenas duas variáveis X e Y. Uma amostra da variável “X”, assumindo os valores particulares X1, X2, ..., Xn e uma amostra da variável “Y” assumindo os valores particulares Y1, Y2, ..., Yn são obtidas e suponha-se ainda que o objetivo é saber se existe algum tipo de relacionamento linear entre estas duas variáveis. Isto poderá ser medido pelo coeficiente de correlação que fornece o grau de relacionamento linear entre duas variáveis.

1.6. DEFINIÇÃO Na população o coeficiente de correlação é representado por ρ e na amostra por r. Assim dadas duas amostras, uma da variável X e outra da variável Y, o coeficiente de correlação amostral poderá ser calculado através da seguinte expressão: 2

nXi .Yi − ( ∑ X i ) . ( ∑ Yi ) 2

i

=

2

i

i

2

i

2

∑ ( x − X) .( y − Y ) ∑ ( x − X ) .∑ ( y − Y ) 2

r=

n X − ( X )   n Y − ( Y )  ∑ i   ∑ i ∑ i   ∑ i

Uma população que tenha duas variáveis não correlacionadas linearmente pode produzir uma amostra com coeficiente de correlação diferente de zero. Para testar se a amostra foi ou não retirada de uma população de coeficiente de correlação não nulo entre duas variáveis, precisamos saber qual é a distribuição amostral da estatística r.

16.7. Distribuição amostral de r (quando ρ = 0) A distribuição amostral de r depende somente do valor de ρ (coeficiente de correlação

177

populacional) e do tamanho da amostra. Se for admitido que ρ = 0, a distribuição amostral de r (coeficiente de correlação na

−r n−

2

σr =

2

1

amostra) será simétrica em torno de “0” com variabilidade dada por:

2

tem uma distribuição t com n

2

−r n−

2

−r n−

r

2

r

1

– 2 graus de liberdade. Isto é: t =

r = σr

1

Neste caso, pode-se mostrar que o quociente:

Exemplo:

Quer-se testar se existe ou não correlação linear entre X = toneladas de adubo orgânico por ha e Y = produção da cultura A por ha. Para tanto é realizado um experimento com duração de 5 anos que mostrou os resultados da tabela 1.4. Verificar se existe relacionamento linear entre as duas variáveis.

Tabela 1.4 − Valores das variáveis X e Y Anos

X

Y

1989

2

48

1990

4

56

1991

5

64

1992

6

60

1993

8

72

Para saber se há ou não correlação linear entre estas duas variáveis na população de onde foi retirada esta amostra é necessário realizar um teste de hipóteses, ou seja, é preciso testar: H0: ρ = 0 (Não existe relacionamento linear na população) H1: ρ ≠ 0 (Existe relacionamento linear na população) A tabela 1.5 mostra os cálculos necessários para se obter o coeficiente de correlação para esta amostra das variáveis X e Y.

178

Tabela 1.5 − Valores das variáveis X e Y e cálculos para obter r 2

2

Anos

X

Y

XY

X

1989

2

48

96

4

2304

1990

4

56

224

16

3136

1991

5

64

320

25

4096

1992

6

60

360

36

3600

1993

8

72

576

64

5184

25

300

1576

145

18320

Total

Y

O valor de r será dado então por: 5 9 0

.

)−(

)

2

)   .( 

0 0 3

)−(

0 2 3 8 1 5

i

 .(

5.(1576 )-25.300 2

i

=

5 2

i

5 4 1 5

i

2

∑ (x − X).(y − Y) ∑ ( x − X ) .∑ ( y − Y ) 2

r=

 

= ,

A estatística teste será:

2

−r n−

2

r

1

t=

que neste caso, tem uma distribuição t com n - 2 = 3 graus de liberdade. O valor de t (calculado) é: 5 5 93 9 0 5 0 1 ,

−( , −

=5,270

2

=

2

−r n−

2

r

1

t=

)

O valor tabelado de t com 3 g.l. e a 5% de significância, considerando um teste bilateral é: 3,182. Com estes valores rejeita-se H0 e pode-se afirmar, com 5% de significância, que as duas variáveis possuem um relacionamento linear na população. Dado que há fortes evidências de que as duas variáveis possuem um relacionamento linear pode-se então ajustar uma linha de regressão entre elas.

16.8. Distribuição amostral de r (quando ρ ≠ 0) Para testar a existência de um certo grau de correlação entre duas variáveis X e Y, isto é, para testar

179

H0: ρ = ρ0 contra H1: ρ ≠ ρ0 ρ > ρ0 ρ < ρ0 é necessário determinar a distribuição de “r”, quando ρ é diferente de zero. A distribuição de “r” só é simétrica quando ρ é zero, se isto não ocorre a distribuição será assimétrica. Esta falta de normalidade impede que se use o teste tradicional, o teste t, neste caso. Contudo, mediante uma transformação apropriada, “r” pode ser alterado para uma estatística que é aproximadamente normal. Esta transformação é denominada de

1 1

1 2

transformação Z de Fischer.

 +r  A expressão para realizá-la é: r' = ln    −r  1

1 1

3

 +r ln   e variância σ = n − (  −r  2

µ=

1 2

Esta quantidade tem distribuição aproximadamente normal com média

)

3), quando “n” não for muito pequeno, ou seja, n ≥

20 Exemplo: Suponha que de experiências anteriores pode ser suposto que a correlação entre a idade e a pressão sangüínea sistólica é ρ = 0.85. Para testar a hipótese nula, a 5% de significância, de que ρ é este valor contra a alternativa de que ele é diferente deste valor supõem-se que foi extraída uma amostra de tamanho n = 30 e que forneceu um r = 0,66. Então o teste pode ser realizada através dos seguintes cálculos: 6 6 0 1

 + , ln   − ,

  = 0,7928 

6 6 0 1

 +r r' = ln  =  −r 

1 2

1 1

1 2

Solução:

5 8 0 1

 + , ln   − ,

  = 1,2561 

5 8 0 1

0,7928 -1,2561

1 2

 +ρ ln  =  −ρ

0 1 33

z=

1 1

µ=

1 2

A distribuição de r' é dada por:

= -2,41

180

Para um nível de significância de 5% o valor tabelado de z é -1,96. Rejeita-se, então a hipótese nula. Isto é, pode-se afirmar que o valor da correlação populacional é diferente de 0,85.

16.9. Propriedades de R As propriedades mais importantes do coeficiente de correlação são: 1. O intervalo de variação vai de -1 a +1. 2. O coeficiente de correlação é uma medida adimensional, isto é, ele é independente das unidades de medida das variáveis X e Y. 3. Quanto mais próximo de +1 for “r”, maior o grau de relacionamento linear positivo entre X e Y, ou seja, se X varia em uma direção Y variará na mesma direção. 4. Quanto mais próximo de -1 for “r”, maior o grau de relacionamento linear negativo entre X e Y, isto é, se X varia em um sentido Y variará no sentido inverso. 5. Quanto mais próximo de zero estiver “r” menor será o relacionamento linear entre X e Y. Um valor igual a zero, indicará ausência apenas de relacionamento linear.

16.20. Regressão Uma vez constatado que existe correlação linear entre duas variáveis, pode-se tentar prever o comportamento de uma delas em função da variação da outra. Para tanto será suposto que existem apenas duas variáveis. A variável X (denominada variável controlada, explicativa ou independente) com valores observados X1, X2, ..., Xn e a variável Y (denominada variável dependente ou explicada) com valores Y1, Y2, ..., Yn. Os valores de Y são aleatórios, pois eles dependem não apenas de X, mas também de outras variáveis que não estão sendo representadas no modelo. Estas variáveis são consideradas no modelo através de um termo aleatório denominado “erro”. A variável X pode ser aleatória ou então controlada. Desta forma pode-se considerar que o modelo para o relacionamento linear entre as variáveis X e Y seja representado por uma equação do tipo:

Y = α + βX + U, onde “U” é o termo erro, isto é, “U” representa as outras influências na variável Y além da exercida pela variável “X”. Esta equação permite que Y seja maior ou menor do que α + βX, dependendo de “U” ser positivo ou negativo. De forma ideal o termo “U” deve ser pequeno e independente de X,

181

de modo que se possa modificar X, sem modificar “U”, e determinar o que ocorrerá, em média, a Y, isto é:

E(Y/X) = α + βX Os dados {(Xi, Yi), i = 1, 2, ..., n} podem ser representados graficamente marcando-se cada par (Xi, Yi) como um ponto de um plano. Os termos Ui são iguais a distância vertical entre os pontos observados (Xi, Yi), e os pontos calculados (Xi, α + βXi). Isto está ilustrado na figura 2.1.

Figura 2.1 − O modelo de regressão linear

Y



E(Y/X) = α + βX

Erro ↑ U ˆ Y





X Um modelo de regressão consiste em um conjunto de hipóteses sobre a distribuição dos termos “erro” e as relações entre as variáveis X e Y. Algumas destas hipóteses são: (i) E(Ui) = 0; (ii) Var(Ui) = σ2 esperado igual a zero e na (ii) que a variância de cada Ui é a mesma e igual a σ2, para todos os valores de X. Supõem-se ainda que a variável independente X, permaneça fixa, em observações sucessivas e que a variável dependente Y seja função linear de X. Os valores de Y

182

devem ser independentes um do outro. Isto ocorre em geral, mas em alguns casos, como, por exemplo, observações diferentes são feitas no mesmo indivíduo em diferentes pontos no tempo está suposição poderá não ocorrer. Como o valor esperado de Ui é zero, o valor esperado da variável dependente Y, para um determinado valor de X, é dado pela função de regressão α + βX ou seja: E(Y/X) = E(α + βX + U) = α + βX + E(U) = α + βX [1] já que α + βX é constante para cada valor de X dado. O símbolo E(Y/X) é lido valor esperado de Y, dado X. A variância de Y, para determinado valor de X, é igual a: V(Y/X) = V(α + βX + U) = V(U) = σ2 [2] A hipótese de que V(Y/X) é a mesma para todos os valores de X, denominada de homocedasticidade, é útil pois permite que se utilize cada uma das observações sobre X e Y para estimar σ2. O termo “homo” significa “o mesmo” e “cedasticidade” significa “disperso”. De [1] e [2] decorre que, para um dado valor de X, a variável dependente Y tem função densidade de probabilidade (condicional) com média α + βX e variância σ2. A figura 2.2, ilustra a função densidade. Na parte superior da figura é ilustrado o caso heterocedástico e na parte inferior o caso homocedástico. A posição da função densidade f(Y/X) varia em função da variação do valor de X. Note-se que a média da função densidade se desloca ao longo da função de regressão α+ βX. Em resumo, o modelo de regressão proposto consiste nas seguintes hipóteses:

1. Y = α+ βX + U; 2. E(Y/X) = α+ βX; 3. V(Y/X) = σ2; 4. Cov(Ui, Uj) = 0, para i ≠j; 5. A variável X permanece fixa em observações sucessivas; 6. Os erros U são normalmente distribuídos. 16.21. Estimativa dos parâmetros de regressão Se fosse conhecido toda a população de valores (Xi, Yi) então seria possível determinar os valores exatos dos parâmetros α, β e σ2. Como, em geral, se trabalha com amostras se faz necessário, então, estimar estes parâmetros com base nos valores da amostra.

183

Existem alguns métodos para ajustar uma linha entre as variáveis X e Y o mais utilizado é o denominado método dos mínimos quadrados (MMQ). A reta obtida através deste método, não é necessariamente, o “melhor” ajustamento possível, mas possui muitas propriedades estatísticas que são desejáveis. Sejam a e b estimadores de α e β e Ei = Yi - a - bXi o desvio observado em relação a reta ajustada, isto é, Ei é um estimador do termo Ui. O método dos mínimos quadrados exige que os estimadores a e b sejam escolhidos de tal forma que a soma dos quadrados dos desvios dos mesmos em relação à reta de regressão ajustada seja mínima, isto é: 2

21

n

n

i=

i=

1

∑ E =∑ ( Y − a − bXi ) = mínimo 1

ф=

parcialmente em relação aos valores a e b. Após algumas simplificações vai-se obter: ΣYi = na + bΣXi (i) ΣXiYi = a ΣXi + b_(Xi)2 (ii) que são denominadas de equações normais da regressão, onde “n” é o número de pares de observações.

Obs.: Para simplificar a notação foram desconsiderados os índices nos somatórios. Dividindo-se a equação (i) por “n” e isolando o valor de a vem: a=∑

 ∑ Xi yi − b  n  n

  = Y − bX 

levando-se este resultado na equação (ii) tem-se: i

i

i

=

n ∑ X i Yi − ∑ X i ∑ Yi n ∑ Xi − ∑ ( X i )

2

i

2

− X)

i

i

2

i

X Y ∑ X Y − ∑ n∑ = (X ) ∑X − ∑ 2

∑(X

2

b=

∑ ( Xi − X )( Yi − Y )

n

A reta estimada de regressão será então: ˆ = a + bX Y

com os valores de “a” e “b” obtidos através das seguintes expressões:

n∑ Xi − ∑ ( Xi )

2

n ∑ Xi Yi − ∑ X i ∑ Yi 2

b=

e a = Y − bX

184

Utiliza-se o valor _Y , porque o valor de Y, obtido a partir da reta estimada de regressão, para um dado valor de X, é uma estimativa do valor E(Y/X), isto é, do valor esperado de Y dado X. Exemplo: São fornecidos 5 pares de valores, na tabela abaixo, correspondentes as variáveis X e Y. A estimativa da reta de regressão entre X e Y, é obtida utilizando as expressões de a e b acima e usando os resultados obtidos na tabela 2.1. X

Y

X2

XY

1

3

1

3

2

3

4

6

4

7

16

28

5

6

25

30

8

12

64

96

20

31

110

163

Y=

2 4 6 0 1 2 53 5

X=

=

= ,

.

.

)

0 3 1

(

)−( )−

1 3 0 0 0 2 4

0 3 1 6 1 1 5 5

( . b= 

= ,

ˆ = , Então a linha estimada será: Y

X+

1

0 3 1

a = Y − bX = 6,20 - 1,30.(4) = 1

Esta reta é o “melhor” ajustamento para estes dados e seria diferente para cada amostra das variáveis X e Y, retiradas desta mesma população. Esta reta pode ser considerada uma estimativa da verdadeira linha de regressão onde 1,3 seria uma estimativa do valor β (parâmetro angular) e 1 uma estimativa do valor α (parâmetro linear), que são os verdadeiros coeficientes de regressão.

16.22. Estimativa da variância do termo erro O termo erro, U, é uma variável aleatória, supostamente com média zero e variância constante.

185

Então, intuitivamente parece plausível usar os resíduos da reta de regressão pelos método dos mínimos quadrados para se estimar a variância σ2 dos termos “erro”. A

2

σˆ =

∑ (E − E)

2

variância amostral desses resíduos é igual a: onde E =

n

∑ E Observe-se entretanto que: n

ΣE = Σ(Y − a − bX) = Σ Y − na − bΣ X = 0, pela primeira equação normal (i). 2

2

2

∑E Portanto, σˆ ~ pode ser escrito como: σˆ ~ = n 2

Mas σˆ , neste caso, é um estimador tendencioso. Pode-se obter um estimador não 2

tendencioso, multiplicando σˆ por n / (n - 2). O novo estimador, não tendencioso, será representado S2 e sua raiz quadrada:

n−

2

∑ ( Y − a − bX )

=

2

n−

2

=

∑ ( Y − Yˆ ) 2

n−

2

S=

2

∑E

é denominada de “erro-padrão da estimativa” ou “erro-padrão amostral da

regressão”. Obs.: A utilização de “n - 2” é conseqüência do fato de que se deve estimar dois parâmetros, α e β, antes de obter os resíduos E. Como resultado, há somente “n - 2” graus de liberdade associados à quantidade ΣE2 . A expressão acima, para o cálculo do erro amostral da regressão, apresenta o inconveniente de exigir o cálculo de cada valor previsto de Y, através da linha de regressão, tornando sua obtenção muito trabalhosa. Existe, entretanto, uma alternativa para se obter este valor (erro padrão da estimativa) sem a necessidade de calcular todos os valores previstos. Observe-se que:

n

∑ ( X − X )( Y − Y ) = ∑ XY −

2

(∑ Y)

2

n

= Sxx 2



(∑ X)

2

− 2

2

∑(Y − Y) = ∑ Y

2

2

∑ ( X − X) = ∑ X

− b ∑ ( X − X )( Y − Y ) + ∑ b ( X − X )

2

Fazendo:

2

2

2

2

2

∑ E = ∑ ( Y − Yˆ ) = ∑ ( Y − a − bX ) = ∑ Y − Y + b ( X − bX ) = ∑ ( Y − Y )

= Syy

∑ X∑ Y = Sxy n

186

Lembrando que:

2

, segue que

=

Y X X X S S

bbbb

i

i

2

n∑ Xi − ∑ ( Xi )

i

i

2

2

b=

X Y ∑ X Y − ∑ n∑ = (∑ X ) ∑X − n

n ∑ X i Yi − ∑ X i ∑ Yi

e que

i

i

SXY = bSXX Então vem: 2

2

∑ E = ∑ ( Y-a-bX )

=S YY - 2b 2 S XX + b 2 S XX = S YY - b 2 S XX

Assim: S YY − b S XX S YY − bS XY = n− n−

2

=

2

n−

2

∑ ( Y − a − bX )

2

=

2

n−

2

∑E

2

2

S =

Pode-se verificar que S2 definido desta maneira é um estimador não-tendencioso de σ2, isto é, E(S2) = σ2. O erro padrão da regressão será dado, então, por: 2

2

S YY -b 2 S XX S YY - bS XY = n− n−

s=

Exemplo: Considerando as variáveis X e Y acima e a linha de regressão anterior determinar uma estimativa do erro padrão da regressão. Os cálculos necessários estão na tabela 2.2.

Tabela 2.2 − Determinação do erro padrão da regressão 2

X

Y

Yc

E=Y-Yc

E

1

3

2,3

0,7

0,49

2

3

3,6

-0,6

0,36

4

7

6,2

0,8

0,64

5

6

7,5

-1,5

2,25

8

12

11,4

0,6

0,36

20

31

31

0

4,1

O erro padrão da regressão será então:

n−

=

0 3 1 4 5

∑ ( Y − a − bX )

2

=

2

n−

2

∑E

2

s=

, −

= 1,17

Este mesmo cálculo poderá ser efetuado pela expressão definida acima, sem a necessidade de se obter os valores estimados.

187

Tabela 2.3 − Determinação do erro padrão da regressão X

Y

X2

Y2

XY

1

3

1

9

3

2

3

4

9

6

4

7

16

49

28

5

6

25

36

30

8

12

64

144

96

20

31

110

247

163

n ∑ X∑ Y n

(



=

)

( )

3 6 1

S XY = ∑ XY −

=



7 4 2

∑(Y)

2

2

S YY = ∑ Y −

n

=

0 1 1

∑(X)

2

2

S XX = ∑ X −

1 0 3 3 5 0 2 2 1 52 0 5 3 2

Neste caso, tem-se:



=

= 54,80

( )( ) = 39

O valor de “b” será: b = SXY/SXX = 39/30 = 1,30

2

S YY − b S XX S YY − bS XY = = n− n−

2

s=

,

9 3 3 1 2 5

2

0 8 4 5

Portanto o erro padrão da regressão será:

−( , −

)( ) = 1,1690 = 1,17

16.23. Distribuições das estimativas Observando-se as expressões dos estimadores “a” e “b” da reta estimada, pode-se notar que ambos dependem de Y que é uma variável aleatória com distribuição supostamente normal de média f(X) e desvio padrão σ2. Como os estimadores “a” e “b” são funções lineares de uma variável aleatória normal, também serão variáveis aleatórias com distribuição normal. O que precisa ser determinado, então, é a média e a variância de cada um deles. Antes disso vai-se determinar uma estimativa de σ2 a variância da variável Y, que no modelo é suposta a mesma para cada valor de X (homocedasticidade).

188

16.23.1. Distribuição do estimador “b” Tem-se que:

S XX

S XX

Mas

∑ ( X = X) =

0

∑ ( X = X )( Y − Y ) = ∑ Y ( X − X ) ∑ Y ( X − X )

b = S XY / S XX =

logo,



∑ Y (X − X) b= S XX

Mas Y = α + βX = U , então  Y X−X ∑ ∑ ( α + βX + U ) ( X − X ) = α ∑ ( X − X ) = β∑ ( X − X ) + U ( X − X ) b= = S XX S XX S XX S XX S XX

(

)

Vem b = β +

∑ (X - X)(X - X) = ∑ X(X - X) - X∑ (X - X) = ∑ X(X - X)

, pois

∑ (X - X) =

0

2

S XX = (X-X) =

∑ U ( X − X) S XX

Logo a expectância de “b” será:

E(b) = E(β) + E

∑ U ( X − X ) = E(β)+ ∑ ( X − X ) E(U).Mas E(U) = 0, por hipótese S XX

S XX

Então: E(b) = E(β) = β, uma vez que a média de uma constante é a própria constante. Isto, também, mostra que “b” é um estimador não-tendencioso de β. Para a variância, tem-se: 2

2

 ∑ U ( X − X )  = V  ∑ U ( X − X )  = ∑ ( X − X ) V(U) V(b) = V  β +     S XX S XX ( S XX )     2.3.2. DISTRIBUIÇÃO DO ESTIMADOR “A” Quanto à distribuição da variável aleatória “a”, tem-se: a = Y - b X . Mas Y =

a=

∑ Y , então: n

∑ Y − bX = ∑ ( α − βX + U ) − bX = ∑ α + β ∑ X + ∑ U − bX = α + βX + ∑ U − bX n

n

n

n

n

n

Assim:

189

 ∑U  ∑ E(U) − βX, E(a) = E(α) + E(β X ) +E  − E ( bX ) = α + βX +  n  pois E(b) = β n  

Então E(a) = α, pois E(U) = 0. Vê-se que “a” é um estimador não-tendencioso de α. 2

1 +X

2

2

2

∑ V(U) + X V(b) = n ∑ σ

2

2

1

2

2

2

 E(U)  V(a) = V(α) + V ( βX ) + V   + V ( bX ) = + + n  n 

2

0 0

1

Quanto à variância, tem-se:

σ = S XX

 σ σ X X  + =σ  +  n S XX  n S XX  2

=

2

1

 X Portanto a distribuição de “a” é: N  α,σ +  n S XX 

   

16.24. Decomposição da soma dos quadrados

Y−Y

Y Y−Y ˆ Y ˆ −Y Y

Y

X

X

Figura 2.3 − Desvios na regressão 16.24.1. Decomposição dos desvios

190

Pelo figura 2.3, pode-se perceber que o desvio em relação a Y (desvio total), isto é, Y - Y pode ser decomposto em dois outros desvios: ˆ −Y •O desvio explicado pela linha de regressão, isto é, Y ˆ • O desvio não-explicado (resíduos) pela linha de regressão, isto é Y − Y

∑ ( Y − Y ) , é a soma da variação explicada, ∑ ( Y − Y ) , pois:

É fácil perceber que a variação total,

∑ ( Yˆ − Y ) , e a não-explicada,

ˆ +Y ˆ − Y , então: Y−Y =Y−Y Aplicando somatório a ambos os membros vem: ( Y − Y ) = Y − Yˆ `+ Yˆ − Y

∑(



) ∑(

)

Pode-se verificar também que a propriedade aditiva dos desvios é extensiva à soma dos quadrados desses desvios, ou seja: 2

2

2

∑ ( Y − Y ) = ∑ ( Y − Yˆ ) + ∑ ( Yˆ − Y ) De fato:

∑ ( Y − Yˆ ) ( Yˆ − Y )

2

2



2

2

2

2

2

2

∑ ( Y − Y ) = ∑ ( Y − Yˆ + Yˆ − Y ) = ∑ ( Y − Yˆ ) + ( Yˆ − Y )  = ∑ ( Y − Yˆ ) + ( Yˆ − Y ) Mas

∑ ( Y − Yˆ )( Yˆ ^ Y ) = ∑ ( Y − Yˆ ) ( â + bX − a − bX ) = b∑ X ( Y − Yˆ ) ^ −bX∑ X ( Y − Yˆ ) 0

0

Pelas condições do método dos mínimos quadrados, tem-se: ˆ −Y = e ˆ = em consequência Y X Y−Y

0

) ) ∑( ∑ ( ∑ ( Y − Yˆ )( Yˆ − Y ) = , logo, segue que: ∑ ( Y − Y ) = ∑ ( Y − Yˆ ) + ∑ ( Yˆ − Y ) 2

2

2

isto é, que a soma dos quadrados dos desvios calculados em torno da média de Y (variação total = VT) é igual à soma dos quadrados dos desvios em torno da linha de regressão (variação residual = VR) mais a soma dos quadrados dos desvios da linha de regressão em torno da média (variação explicada = VE).

16.24.2. Cálculo das variações 2

(a) Variação Total: VT ou S Y

∑Y

2

2

2

VT = ( Y − Y ) = S YY ,onde S YY = ∑ Y −

n

191

2

(b) Variação Explicada: VE ou S Y 2

∑ ( X − X)

2

= b ( X − X )  = b

2

2

) = ∑ ( a + bX − Y ) = ∑ ( Y − bX + bX − Y )

2

2

2

(

ˆ −Y VE = ∑ Y

= b S XX

Logo, 2

S  VE = b 2S XX ou VE  XY  = S XX = bS XY  S XX  2

(c) Variação Residual: VR ou S Y / X De acordo com a propriedade aditiva das variações, pode-se calcular VR por diferença. Assim:

VR = (Y - Y )2 = VT - VE ou VR = S YY - bS XY

16.25. Intervalos de confiança Da mesma forma que foram obtidos intervalos de confiança para a média, variância e proporção de uma população, pode-se determinar os intervalos de confiança para os parâmetros da regressão. Ou seja, pode-se determinar um intervalo de confiança para o coeficiente linear (α), um intervalo de confiança para o parâmetro angular (β) e pode-se ainda determinar um intervalo de confiança para um valor previsto de Y, dado X. Este intervalo pode ser para o valor médio de Y paraum dado X, isto é, E(Y/X) ou, então, para um valor individual de Y, isto é, _Y . A estimativa pontual para os dois últimos casos é a mesma. O que vai mudar é o intervalo de confiança correspondente. Isto se deve ao fato de que o modelo desenvolvido é associado principalmente à média do grupo do que a uma informação individual.

2

1

16.25.1. Intervalo para o coeficiente linear (α)

1

2

1

2

1

 X  Considerando que a distribuição do coeficiente linear é dado por N  α,σ + .  n S XX   Então, fixada uma confiança de 1 - α, o intervalo será:  X X  P  a − t n − .S + ≤ α ≤ a + t n − .S +  = −α  n S XX n S XX   com tn-2 sendo um valor da distribuição “t” com “n - 2” graus de liberdade e S uma 2

2

estimativa de σ.

16.25.2. Intervalo para o coeficiente angular (β)

192

 σ Considerando que a distribuição do coeficiente angular é dado por N  b,  S XX 

  . Então,  

fixada uma confiança de 1 - α, o intervalo será: 1

2

2

2

 S S P  b − t n− . ≤ β ≤ b + t n − .t n − .  S XX S XX 

  = −α  

com tn-2 sendo um valor da distribuição “t” com “n - 2” graus de liberdade e S uma estimativa de σ

16.25.3. Intervalo para previsões ˆ (a) Intervalo para o valor médio de Y ˆ = a + bX é um estimador de E(Y/X) ou f(X). Para construir um intervalo de Tem-se que Y

confiança para este valor é necessário conhecer a sua distribuição. Isto é, deve-se ˆ . conhecer a média e a variância de Y ˆ ) = E(a + bX) = E(a) + E(bX) = α + βE(X) = α + βX = f(X) = E(Y/X), pois, neste caso, E( Y

X é constante para cada valor de Y. ˆ = a + bX, mas a = Y-bY , então: Tem-se: _ Y ˆ = Y - b X + bX = Y + b(X - X ) . A variância de _Y , será: Y

2

1

2

2

2

2

2

2

2

1

  ˆ ) = V[ Y - b(X - X )] = V( Y ) + V[b(X - X )]=V  ∑ Y  + (X - X )2 V(b)= V( Y  n     ( X − X )  σ σ σ = ∑ V(Y)(X - X )2 = + ( X − X) =σ  + n S XX S XX n S XX   

Portanto: 2

1

 ( X − X) ˆ tem distribuição N  α + βX,σ Y +  n S XX  

    

ˆ , então o intervalo de confiança de “1 - α“ de probabilidade Conhecida a distribuição de Y

2

2

 X X ˆ − t .S ˆ + t .S PY + ≤ E(Y / x) ≤ Y + n− n−  n S n S XX XX 

1

2

1

2

1

para f(X) ou E(Y/X) será:

  = − α , onde tn-2 é o valor da  

distribuição t com “n - 2” graus de liberdade.

193

(b) Intervalo para um valor individual ( _Y ) Uma estimativa do valor individual de Y é dado pela reta de regressão _Y = a + bX, para ˆ , cujas propriedades são: um dado X e o desvio de previsão será dado por Y - Y

Para a média:

E(Y - Yˆ ) = E(Y) - E( Yˆ ) = f(X) - f(X) = 0 Para a variância, tem-se: 2

 ( X − X)  + +  n S XX 

2

  =σ  

1 1

2

1

 X − X) ˆ ) = V(Y) + V( Y) ˆ = σ2 + σ2  + ( V(Y - Y n S XX 

   

Então: +

n

( X − X) + S XX

2

1 1

0

 ˆ Y - Y tem distribuição N  ,σ   

    

ˆ , então o intervalo de confiança de “1 - α“ de Conhecida a distribuição de Yi - Y

probabilidade para um valor individual de Y (Yi) para um dado X, será:

ˆ + t .S ;Y n−

n S XX com “n - 2” graus de liberdade

( X − X)

n

S XX

+

+

2

( X − X)

1 1

+

2

+

2

1 1

2

ˆ − t .S Y n−

, onde tn-2 é o valor da distribuição t

16.26. Testes de hipóteses Conhecidas as distribuições dos estimadores dos coeficientes angular e linear, pode-se realizar um teste de hipóteses.

16.26.1. Teste para a existência da regressão Testar a existência da regressão é testar se o parâmetro β é diferente de zero. Desta forma o que se quer testar é: H0: β = 0 contra as alternativas: H1: β ≠ 0; β > 0 ou β<0 Fixado um nível de significância α a variável teste será a “t” de Student com “n - 2” graus de liberdade, pois sabe-se que:

194

b tem distribuição Normal com média β e desvio padrão

σ S XX

, ou seja,

b−β Z = σ tem distribuição normal padrão. Porém como σ não é conhecido é necessário S XX

2

estimá-lo através de S. Então: t n −

b−β = S S XX

16.26.2. Teste para o coeficiente linear Testar o coeficiente linear da regressão “α“ é testar o valor inicial da regressão, isto é, é testar o valor de Y quando X = 0. As hipóteses são: H0: α = 0 contra as alternativas: H1: α ≠ 0; α > 0 ou α<0

 X σ +  n S XX 

   

n

+

2

2

a−α 1

Então: Z =

2

 liberdade, pois sabe-se que o estimador “a”, tem uma distribuição: N  σ  

1

Fixado um nível de significância a variável teste será a “t” de Student com “n - 2” graus de X S XX

 .  

tem distribuição normal padrão. Porém como σ não é conhecido

é necessário estimá-lo através de S. Então: 2

a−α 1

2

t n− =

 X S +  n S XX 

   

16.27. Coeficiente de determinação ou de explicação Além dos testes de hipóteses e dos intervalos de confiança, outro indicador que fornece elementos para a análise do modelo adotado é o coeficiente de determinação ou de 2

explicação, definido por: R =

VE bS XY = VT S YY

195

O coeficiente de determinação indica quantos por cento a variação explicada pela regressão representa sobre a variação total. Deve-se ter: 2

0≤R ≤1 2

Se R for igual a 1, isto significa que todos os pontos observados se situam “exatamente” sobre a reta de regressão. Tendo-se, neste caso, um ajuste perfeito. As variações da variável Y são 100% explicadas pelas variações da variável X, não ocorrendo desvios em torno da função estimada. 2

Por outro lado, se R = 0, isto quer dizer que as variações de Y são exclusivamente aleatórias e explicadas pelas variações de outros fatores que não X.

196

Exercícios 1 Para cada uma das situações abaixo, diga o que é mais adequado: a análise de regressão ou a análise de correlação. Por quê?

(a) Uma equipe de pesquisadores deseja determinar se o rendimento na Universidade sugere êxito na profissão escolhida.

(b) Deseja-se estimar o número de quilômetros que um pneu radial pode rodar antes de ser substituído.

(c) Deseja-se prever quanto tempo será necessário para executar uma determinada tarefa por uma pessoa, com base no tempo de treinamento.

(d) Deseja-se verificar se o tempo de treinamento é importante para avaliar o desempenho na execução de uma dada tarefa.

(e) Um gerente deseja estimar as vendas semanais com base nas vendas das segundas e terçasfeiras.

2. Suponha que uma cadeia de supermercados tenha financiado um estudos dos gastos com mercadorias para famílias de 4 pessoas. O estudo se limitou a famílias com renda líquida entre 8 e 20 salários mínimos. Obteve-se a seguinte equação: ΣY = -1,20 + 0,40X, onde ΣY = despesa mensal estimada com mercadorias e X = renda líquida mensal.

(a) Estimar a despesa de uma família com renda mensal líquida de 15 s.m. (b) Um dois diretores da empresa ficou intrigado com o fato de que a equação sugerir que uma família com renda de 3 s.m. líquidos mensais não gaste nada em mercadorias. Qual a explicação?

(c) Explique por que a equação acima não poderia ser utilizada para estimar (a) As despesas com mercadorias de famílias de 5 pessoas. (b) As despesas com mercadorias de famílias com renda de 20 a 40 s.m. líquidos mensais.

3. Utilize os valores abaixo para estimar as equações de regressão: (a) ΣX = 200, ΣY = 300, ΣXY = 6200, ΣX2 = 3600 e n = 20 (b) ΣX = 7,2, ΣY = 37, ΣXY = 3100, ΣX2 = 620 e n = 36

197

4. Para cada uma das situações abaixo, grafe os valores em um diagrama e se uma equação linear parecer apropriada para explicar os dados, determine os seus parâmetros.

(a) Tamanho do pedido(X) Custo Total (Y)

25

20

40

45

22

63

70

60

55

50

30

2000

3500

1000

800

3000

1300

1500

1100

950

900

1600

(b) Vendas em mil (X)

201

225

305

380

560

600

685

735

510

725

450

370

150

Lucro em mil (Y)

17

20

21

23

25

24

27

27

22

30

21

19

15

5. Suponha que uma população se constitua dos seis pontos seguintes: (1, 2), (4, 6), (2, 4), (2, 3), (3, 5) e (5, 10)

(a) Grafe os pontos em um diagrama de dispersão. (b) Determine a equação de regressão: Y = α + βX + u. (c) Os termos-erro verificam a condição E(u) = 0? (d) Selecione uma amostra de tamanho n = 4, da população acima e estime a equação de regressão determinada no item 5.2. Grafe o resultado no mesmo diagrama construído em 5.1.

6. Verifique que a reta de regressão ΣY = a + bX, sempre passa pelo ponto ( X , Y ). 7. Os dados abaixo forma colhidos de cinco fábricas diferentes de uma determinada indústria:

Custo total (Y) Produção (X)

80

44

51

70

61

12

4

6

11

8

ˆ = a + bX para o custo total dessa indústria. (a) Estime uma função linear da forma Y

(b) Qual o significado econômico das estimativas “a” e “b”? (c) Teste a hipótese de que o custo fixo da produção do artigo em questão seja igual a 5, contra a alternativa de diferente do que 5, utilizando uma significância de 5%.

198

8. Em uma amostra aleatória de 1990, 50 homens americanos entre 35 e 54 anos de idade acusaram a seguinte relação entre renda anual Y (em dólares) e a escolaridade X ˆ = 1200 + 800X. (em anos). Y

A renda média foi de 10000 dólares e a escolaridade média foi de 11,0 anos. Sabendo, ainda, que ΣX

2

= 9000 e que o desvio padrão residual em relação à reta ajustada foi de 7300 dólares, determine:

(a) A renda de uma pessoa que tenha completado 2 anos de educação secundária (x = 10 anos).

(b) O intervalo de 95% de confiança para o coeficiente angular populacional.. (c) Se a renda para a escolaridade é estatisticamente discernível ao nível de 5%. (d) Se é válida a afirmação que cada ano de escolaridade custa 800 dólares? 9. Uma pesquisa foi realizada com o objetivo de determinar os efeitos da falta de sono sobre a capacidade de as pessoas resolverem problemas simples. Foram testadas 10 pessoas, mantendo-se cada grupo de 2 pessoas sem dormir por um determinado número de horas. Após cada um destes períodos, cada pessoa teve de resolver um teste com adições simples, anotando-se então os erros cometidos. Os dados resultantes estão na tabela abaixo: Número de erros (Y)

6, 8

6, 10

8, 14

12, 14

12, 16

8

12

16

20

24

Número de horas sem dormir (X)

(a) Determine a estimativa da linha de regressão do número de erros em função do número de horas sem dormir.

(b) Determine a dispersão dos termos erro em torno da linha de regressão. 10. Determine um intervalo de 95% de confiança para o coeficiente angular da reta do exercício acima. Interprete o intervalo obtido.

11. Realizou-se uma pesquisa de mercado com o objetivo de estudar a relação entre o tempo necessário para um consumidor tomar uma decisão (sobre o que comprar) e o número de embalagens alternativas do mesmo produto apresentadas a esse consumidor.

199

Eliminaram-se as marcas das embalagens, a fim de reduzir o efeito da preferência por uma ou outra marca. Os consumidores fizeram suas escolhas somente com base na descrição do produto, anotada nas embalagens pelos fabricantes. O tempo necessário, Y, para que cada um tomasse sua decisão foi anotado para 15 participantes, resultando nos seguintes dados: Tempo para decisão, Y (em segundos)

5, 7, 8, 8, 9

Número de alternativas (X)

7, 8, 9, 9, 10

2

9, 10, 10, 11, 12

3

4

(a) Determine a reta dos mínimos quadrados de Y em função de X. (b) Determine o erro padrão da estimativa, ou seja, o desvio padrão amostral da regressão.

(c) Há evidência suficiente nestes dados de que o tempo de decisão se relaciona linearmente ao número de alternativas oferecidas a esses consumidores?

12. Na fabricação de um antibiótico, a produção depende do tempo. Os dados indicados na tabela, mostram que um processo resultou na seguinte produção (em quilogramas) de antibióticos por período de tempo (dias) indicados

Tempo (X = dias) Produção (Y = em kg.)

1

2

3

4

5

6

23

31

40

46

52

63

(a) Por várias razões é conveniente esquematizar a produção em ciclos de 4 dias. Estime ovalor médio da produção final de antibiótico produzido em um período de 4 dias. Considere umintervalo de 95% de confiança.

(b) Suponha que o processo de produção, no futuro, se desenvolverá em 4 dias. Determine umintervalo de previsão de 95% para a produção. Compare com o intervalo para a produção média de um período de 4 dias que foi obtido em (a).

13. Mediu-se a altura de uma amostra de 5 meninos (em polegadas) na idade de 4 anos e novamente na idade de 18 anos. Os resultados obtidos estão abaixo:

Na idade de 4 anos Na idade de 18 anos

40

43

40

40

42

68

74

70

68

70

(a) Determine o coeficiente de correlação entre as duas categorias de alturas. (b) Teste a hipótese de que existe uma relação linear entre a altura aos 4 anos de idade e a altura aos 18 anos de idade.

200

(c) Se fosse feito o gráfico de toda a população de alturas, calculando-se a correspondente reta dos mínimos quadrados, qual seria o seu coeficiente angular? Responda com um intervalo suficientemente amplo que permita uma aposta de 95%.

(d) Repita o item 13.3 só que para o coeficiente linear. 14. A equação de regressão estimada abaixo resume um estudo da relação entre o uso do fumo e a incidência de câncer pulmonar, relacionando o número X de anos que uma pessoa fumou com a percentagem Y de incidência de câncer pulmonar em cada grupo. ˆ = -2 + 1,70.X e r = 0,60. Y

(a) Explique o significado das estimativas “-2” e “ 1,70” na equação de regressão. (b) Qual a taxa de incidência de câncer pulmonar para as pessoas que fumam há 20 anos?

(c) Se “r” fosse igual a “um” seria possível concluir que o fumo é a única causa de câncerpulmonar?

(d) Suponha-se que a equação estimada tenha sido obtida de uma amostra aleatória de 50 fumantes. Teste a hipótese de que o coeficiente de correlação seja igual a zero a uma significância de 1%.

15. Explique se concorda ou não com as seguintes afirmativas: (a) Um coeficiente de correlação de +1,0 entre duas variáveis X e Y indica que X causa Y, mas um coeficiente de correlação de -1,0 significa que X não causa Y.

(b) Se o coeficiente de regressão é zero, o coeficiente de correlação é também zero. (c) Se o coeficiente angular é 1 (um), isto significa que existe perfeita correlação entre X e Y.

(d) É possível que o coeficiente de correlação amostral seja positivo, quando não existe, de fato, nenhuma correlação entre as variáveis X e Y.

(e) Não se pode utilizar a técnica da regressão pelo método dos mínimos quadrados quando a relação básica entre X e Y não for linear.

16 Um estudo de duas safras forneceu as seguintes informações: ˆ = 200 + 0,8X, r = 0,70 e S = 30 Safra B: Y ˆ = 50 + 1,20X, r = 0,9 e S = 20, Safra A: Y

onde Y é a produção por alqueire e X é a quantidade de chuva (em polegadas) no período da safra.

201

(a) Se não houvesse chuva, estas duas equações poderiam ser usadas para predizer a quantidade produzida nas duas safras? Por quê?

(b) Qual das duas safras tira mais proveito do aumento das chuvas? Por quê? (c) Para qual das duas safras é possível predizer a produção com melhor aproximação? Por quê?

17. Os dados abaixo foram obtidos de cinco fábricas diferentes de uma determinada indústria. Custo total (Y = em milhões)

80

44

51

70

61

Produção (X = toneladas)

12

4

6

11

8

(a) Determine um intervalo de confiança de 90% para o custo fixo dessa indústria. (b) Determine um intervalo de confiança de 95% para o custo marginal dessa indústria. (c) Faça uma previsão, através de um intervalo, para o custo total médio dessa indústria, para uma produção de 15t, utilizando uma confiança de 95%.

(d) Faça uma previsão, através de um intervalo, para o custo total dessa indústria, para uma produção de 15t, utilizando uma confiança de 95%.

(e) é possível afirmar, com uma significância de 1%, que o custo total dessa indústria está linearmente relacionado ao nível de produção?

(f) Testar se o custo fixo pode ser considerado menor do que 30. (g) Testar se o custo marginal pode ser considerado menor do que 5. 18. Qual é o tamanho mínimo da amostra necessária para que se possa concluir que um coeficiente de correlação de 0,32 difere significativamente de zero ao nível de 0,05?

19. Um coeficiente de correlação, baseado em uma amostra de tamanho n = 18, foi calculado como sendo 0,32. Pode-se concluir aos níveis de significância (19.1) 0,05 e (19.2) 0,01, que o coeficiente de correlação, correspondente na população é diferente de zero?

20. Se o coeficiente de correlação entre X e Y é 0,80, que percentagem da variação total permanece não-explicada pela equação de regressão?

202

21. Examine os cinco pares de pontos dados na tabela X

-2

-1

0

1

2

Y

4

1

0

1

4

(a) Qual é a relação matemática entre X e Y? (b) Determine o valor de r. (c) Mostre que calculando-se a linha de regressão de Y em relação a X tem-se b = 0. (d) Por que, aparentemente, não existe relação entre X e Y como estão indicando b e r? 22. Os dados abaixo representam o número de rendas pessoais tributáveis e o registro de automóveis de passageiros, em uma determinada região.

X = número de rendas tributáveis (em milhares) Y = Número de carros de passageiros (milhares)

192

80

162

246

310

23

11

13

31

91

(a) Verificar se existe correlação entre as duas variáveis. (b) Determine a equação de regressão de Y em função de X, caso o coeficiente de correlação seja significativamente diferente de zero.

(c) Faça uma previsão do número de carros se o número de contribuintes tributáveis for de 500 mil.

(d) Determine a equação de regressão de X em função de Y.

203

Tabela da Distribuição Normal Padrão P(Z
0,0 0,5000 0,5398 0,5793 0,6179 0,6554 0,6915 0,7257 0,7580 0,7881 0,8159 0,8413 0,8643 0,8849 0,9032 0,9192 0,9332 0,9452 0,9554 0,9641 0,9713 0,9772 0,9821 0,9861 0,9893 0,9918 0,9938 0,9953 0,9965 0,9974 0,9981 0,9987 0,9990 0,9993 0,9995 0,9997 0,9998 0,9998 0,9999 0,9999 1,0000

0,01 0,5040 0,5438 0,5832 0,6217 0,6591 0,6950 0,7291 0,7611 0,7910 0,8186 0,8438 0,8665 0,8869 0,9049 0,9207 0,9345 0,9463 0,9564 0,9649 0,9719 0,9778 0,9826 0,9864 0,9896 0,9920 0,9940 0,9955 0,9966 0,9975 0,9982 0,9987 0,9991 0,9993 0,9995 0,9997 0,9998 0,9998 0,9999 0,9999 1,0000

0,02 0,5080 0,5478 0,5871 0,6255 0,6628 0,6985 0,7324 0,7642 0,7939 0,8212 0,8461 0,8686 0,8888 0,9066 0,9222 0,9357 0,9474 0,9573 0,9656 0,9726 0,9783 0,9830 0,9868 0,9898 0,9922 0,9941 0,9956 0,9967 0,9976 0,9982 0,9987 0,9991 0,9994 0,9995 0,9997 0,9998 0,9999 0,9999 0,9999 1,0000

0,03 0,5120 0,5517 0,5910 0,6293 0,6664 0,7019 0,7357 0,7673 0,7967 0,8238 0,8485 0,8708 0,8907 0,9082 0,9236 0,9370 0,9484 0,9582 0,9664 0,9732 0,9788 0,9834 0,9871 0,9901 0,9925 0,9943 0,9957 0,9968 0,9977 0,9983 0,9988 0,9991 0,9994 0,9996 0,9997 0,9998 0,9999 0,9999 0,9999 1,0000

0,04 0,5160 0,5557 0,5948 0,6331 0,6700 0,7054 0,7389 0,7704 0,7995 0,8264 0,8508 0,8729 0,8925 0,9099 0,9251 0,9382 0,9495 0,9591 0,9671 0,9738 0,9793 0,9838 0,9875 0,9904 0,9927 0,9945 0,9959 0,9969 0,9977 0,9984 0,9988 0,9992 0,9994 0,9996 0,9997 0,9998 0,9999 0,9999 0,9999 1,0000

0,05 0,5199 0,5596 0,5987 0,6368 0,6736 0,7088 0,7422 0,7734 0,8023 0,8289 0,8531 0,8749 0,8944 0,9115 0,9265 0,9394 0,9505 0,9599 0,9678 0,9744 0,9798 0,9842 0,9878 0,9906 0,9929 0,9946 0,9960 0,9970 0,9978 0,9984 0,9989 0,9992 0,9994 0,9996 0,9997 0,9998 0,9999 0,9999 0,9999 1,0000

0,06 0,5239 0,5636 0,6026 0,6406 0,6772 0,7123 0,7454 0,7764 0,8051 0,8315 0,8554 0,8770 0,8962 0,9131 0,9279 0,9406 0,9515 0,9608 0,9686 0,9750 0,9803 0,9846 0,9881 0,9909 0,9931 0,9948 0,9961 0,9971 0,9979 0,9985 0,9989 0,9992 0,9994 0,9996 0,9997 0,9998 0,9999 0,9999 0,9999 1,0000

0,07 0,5279 0,5675 0,6064 0,6443 0,6808 0,7157 0,7486 0,7794 0,8078 0,8340 0,8577 0,8790 0,8980 0,9147 0,9292 0,9418 0,9525 0,9616 0,9693 0,9756 0,9808 0,9850 0,9884 0,9911 0,9932 0,9949 0,9962 0,9972 0,9979 0,9985 0,9989 0,9992 0,9995 0,9996 0,9997 0,9998 0,9999 0,9999 0,9999 1,0000

0,08 0,5319 0,5714 0,6103 0,6480 0,6844 0,7190 0,7517 0,7823 0,8106 0,8365 0,8599 0,8810 0,8997 0,9162 0,9306 0,9429 0,9535 0,9625 0,9699 0,9761 0,9812 0,9854 0,9887 0,9913 0,9934 0,9951 0,9963 0,9973 0,9980 0,9986 0,9990 0,9993 0,9995 0,9996 0,9997 0,9998 0,9999 0,9999 0,9999 1,0000

0,09 0,5359 0,5753 0,6141 0,6517 0,6879 0,7224 0,7549 0,7852 0,8133 0,8389 0,8621 0,8830 0,9015 0,9177 0,9319 0,9441 0,9545 0,9633 0,9706 0,9767 0,9817 0,9857 0,9890 0,9916 0,9936 0,9952 0,9964 0,9974 0,9981 0,9986 0,9990 0,9993 0,9995 0,9997 0,9998 0,9998 0,9999 0,9999 0,9999 1,0000

204

P(Z
0,0 0,5000 0,4602 0,4207 0,3821 0,3446 0,3085 0,2743 0,2420 0,2119 0,1841 0,1587 0,1357 0,1151 0,0968 0,0808 0,0668 0,0548 0,0446 0,0359 0,0287 0,0228 0,0179 0,0139 0,0107 0,0082 0,0062 0,0047 0,0035 0,0026 0,0019 0,0013 0,0010 0,0007 0,0005 0,0003 0,0002 0,0002 0,0001 0,0001 0,0000

0,01 0,4960 0,4562 0,4168 0,3783 0,3409 0,3050 0,2709 0,2389 0,2090 0,1814 0,1562 0,1335 0,1131 0,0951 0,0793 0,0655 0,0537 0,0436 0,0351 0,0281 0,0222 0,0174 0,0136 0,0104 0,0080 0,0060 0,0045 0,0034 0,0025 0,0018 0,0013 0,0009 0,0007 0,0005 0,0003 0,0002 0,0002 0,0001 0,0001 0,0000

0,02 0,4920 0,4522 0,4129 0,3745 0,3372 0,3015 0,2676 0,2358 0,2061 0,1788 0,1539 0,1314 0,1112 0,0934 0,0778 0,0643 0,0526 0,0427 0,0344 0,0274 0,0217 0,0170 0,0132 0,0102 0,0078 0,0059 0,0044 0,0033 0,0024 0,0018 0,0013 0,0009 0,0006 0,0005 0,0003 0,0002 0,0001 0,0001 0,0001 0,0000

0,03 0,4880 0,4483 0,4090 0,3707 0,3336 0,2981 0,2643 0,2327 0,2033 0,1762 0,1515 0,1292 0,1093 0,0918 0,0764 0,0630 0,0516 0,0418 0,0336 0,0268 0,0212 0,0166 0,0129 0,0099 0,0075 0,0057 0,0043 0,0032 0,0023 0,0017 0,0012 0,0009 0,0006 0,0004 0,0003 0,0002 0,0001 0,0001 0,0001 0,0000

0,04 0,4840 0,4443 0,4052 0,3669 0,3300 0,2946 0,2611 0,2296 0,2005 0,1736 0,1492 0,1271 0,1075 0,0901 0,0749 0,0618 0,0505 0,0409 0,0329 0,0262 0,0207 0,0162 0,0125 0,0096 0,0073 0,0055 0,0041 0,0031 0,0023 0,0016 0,0012 0,0008 0,0006 0,0004 0,0003 0,0002 0,0001 0,0001 0,0001 0,0000

0,05 0,4801 0,4404 0,4013 0,3632 0,3264 0,2912 0,2578 0,2266 0,1977 0,1711 0,1469 0,1251 0,1056 0,0885 0,0735 0,0606 0,0495 0,0401 0,0322 0,0256 0,0202 0,0158 0,0122 0,0094 0,0071 0,0054 0,0040 0,0030 0,0022 0,0016 0,0011 0,0008 0,0006 0,0004 0,0003 0,0002 0,0001 0,0001 0,0001 0,0000

0,06 0,4761 0,4364 0,3974 0,3594 0,3228 0,2877 0,2546 0,2236 0,1949 0,1685 0,1446 0,1230 0,1038 0,0869 0,0721 0,0594 0,0485 0,0392 0,0314 0,0250 0,0197 0,0154 0,0119 0,0091 0,0069 0,0052 0,0039 0,0029 0,0021 0,0015 0,0011 0,0008 0,0006 0,0004 0,0003 0,0002 0,0001 0,0001 0,0001 0,0000

0,07 0,4721 0,4325 0,3936 0,3557 0,3192 0,2843 0,2514 0,2206 0,1922 0,1660 0,1423 0,1210 0,1020 0,0853 0,0708 0,0582 0,0475 0,0384 0,0307 0,0244 0,0192 0,0150 0,0116 0,0089 0,0068 0,0051 0,0038 0,0028 0,0021 0,0015 0,0011 0,0008 0,0005 0,0004 0,0003 0,0002 0,0001 0,0001 0,0001 0,0000

0,08 0,4681 0,4286 0,3897 0,3520 0,3156 0,2810 0,2483 0,2177 0,1894 0,1635 0,1401 0,1190 0,1003 0,0838 0,0694 0,0571 0,0465 0,0375 0,0301 0,0239 0,0188 0,0146 0,0113 0,0087 0,0066 0,0049 0,0037 0,0027 0,0020 0,0014 0,0010 0,0007 0,0005 0,0004 0,0003 0,0002 0,0001 0,0001 0,0001 0,0000

0,09 0,4641 0,4247 0,3859 0,3483 0,3121 0,2776 0,2451 0,2148 0,1867 0,1611 0,1379 0,1170 0,0985 0,0823 0,0681 0,0559 0,0455 0,0367 0,0294 0,0233 0,0183 0,0143 0,0110 0,0084 0,0064 0,0048 0,0036 0,0026 0,0019 0,0014 0,0010 0,0007 0,0005 0,0003 0,0002 0,0002 0,0001 0,0001 0,0001 0,0000

205

Distribuição t de Student g.l. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120

0,25 1,000 0,816 0,765 0,741 0,727 0,718 0,711 0,706 0,703 0,700 0,697 0,695 0,694 0,692 0,691 0,690 0,689 0,688 0,688 0,687 0,686 0,686 0,685 0,685 0,684 0,684 0,684 0,683 0,683 0,683 0,681 0,679 0,677

0,1 3,078 1,886 1,638 1,533 1,476 1,440 1,415 1,397 1,383 1,372 1,363 1,356 1,350 1,345 1,341 1,337 1,333 1,330 1,328 1,325 1,323 1,321 1,319 1,318 1,316 1,315 1,314 1,313 1,311 1,310 1,303 1,296 1,289

0,05 6,314 2,920 2,353 2,132 2,015 1,943 1,895 1,860 1,833 1,812 1,796 1,782 1,771 1,761 1,753 1,746 1,740 1,734 1,729 1,725 1,721 1,717 1,714 1,711 1,708 1,706 1,703 1,701 1,699 1,697 1,684 1,671 1,658

0,025 12,706 4,303 3,182 2,776 2,571 2,447 2,365 2,306 2,262 2,228 2,201 2,179 2,160 2,145 2,131 2,120 2,110 2,101 2,093 2,086 2,080 2,074 2,069 2,064 2,060 2,056 2,052 2,048 2,045 2,042 2,021 2,000 1,980

0,01 31,821 6,965 4,541 3,747 3,365 3,143 2,998 2,896 2,821 2,764 2,718 2,681 2,650 2,624 2,602 2,583 2,567 2,552 2,539 2,528 2,518 2,508 2,500 2,492 2,485 2,479 2,473 2,467 2,462 2,457 2,423 2,390 2,358

0,005 63,657 9,925 5,841 4,604 4,032 3,707 3,499 3,355 3,250 3,169 3,106 3,055 3,012 2,977 2,947 2,921 2,898 2,878 2,861 2,845 2,831 2,819 2,807 2,797 2,787 2,779 2,771 2,763 2,756 2,750 2,704 2,660 2,617

0,001 318,309 22,327 10,215 7,173 5,893 5,208 4,785 4,501 4,297 4,144 4,025 3,930 3,852 3,787 3,733 3,686 3,646 3,610 3,579 3,552 3,527 3,505 3,485 3,467 3,450 3,435 3,421 3,408 3,396 3,385 3,307 3,232 3,160



0,674

1,282

1,645

1,96

2,326

2,576

3,09

206

207

More Documents from "Nagib Yassin"