Livro Estatística Probabilidades Ead

  • Uploaded by: Djanine Raphael
  • 0
  • 0
  • February 2021
  • PDF

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA


Overview

Download & View Livro Estatística Probabilidades Ead as PDF for free.

More details

  • Words: 39,851
  • Pages: 173
Loading documents preview...
Estatística e Probabilidades Bráulio Roberto Gonçalves Marinho Couto Janaína Giovani Noronha de Oliveira Octávio Alcântara Torres Reinaldo Carvalho de Morais

Bráulio Roberto Gonçalves Marinho Couto Janaína Giovani Noronha de Oliveira Octávio Alcântara Torres Reinaldo Carvalho de Morais

ESTATÍSTICA E PROBABILIDADES

Belo Horizonte Junho de 2015

COPYRIGHT © 2015 GRUPO ĂNIMA EDUCAÇÃO Todos os direitos reservados ao: Grupo Ănima Educação Todos os direitos reservados e protegidos pela Lei 9.610/98. Nenhuma parte deste livro, sem prévia autorização por escrito da detentora dos direitos, poderá ser reproduzida ou transmitida, sejam quais forem os meios empregados: eletrônicos, mecânicos, fotográficos, gravações ou quaisquer outros. Edição Grupo Ănima Educação Vice Presidência Arthur Sperandeo de Macedo Coordenação de Produção Gislene Garcia Nora de Oliveira Ilustração e Capa Alexandre de Souza Paz Monsserrate Leonardo Antonio Aguiar Equipe EaD

CONHEÇA

CONHEÇA

Bráulio Roberto Gonçalves Marinho Couto é

Janaína

doutor em Bioinformática, mestre em Ciência

é mestre em Estatística e graduada

da Computação, especialista em Estatística,

em Licenciatura em Matemática com

bacharel em Engenharia Química e técnico

Habilitação em Física. Possui experiência

em Química. Atuante nas áreas de Estatística,

como docente na área de Matemática

Cálculo Numérico, Informática em Saúde,

e

Epidemiologia Hospitalar e Bioinformática.

médio. Experiência com orientação de

Professor do Centro Universitário de Belo

Monografias.

O AUTOR

Horizonte (UniBH).

A AUTORA

Giovani

Estatística

do

Noronha

Ensino

de

Oliveira

superior

e

CONHEÇA

CONHEÇA

Octávio Alcântara Torres é bacharel em

Reinaldo Carvalho de Morais é mestre

Estatística e mestre em Demografia. Possui

e bacharel em Administração Pública,

experiência nas áreas de probabilidade e

graduado em Estatística e especialista

estatística, regressão e correlação, análise

em Gestão Financeira. Possui experiência

estatística multivariada e controle estatístico

em pesquisas sobre economia e finanças

de processo. Áreas de interesse: projeções

públicas mineiras, bem como docência nas

populacionais, projeções de mão de obra

disciplinas de estatística, de economia,

qualificada, pesquisa de mercado, estatística

de engenharia econômica, de matemática

aplicada.

financeira e de administração da produção.

O AUTOR

O AUTOR

APRESENTAÇÃO

DA DISCIPLINA Egressos de cursos de Engenharia e

A ideia é usar ferramentas como o Excel

Tecnologia são profissionais que resolvem

para construir tabelas e gráficos, como

problemas. E como isso ocorre? Pela

histograma, diagrama de dispersão, Pareto

aplicação eficiente do método científico.

e calcular valores como média, mediana,

Pois bem, é disso que se trata essa

desvio padrão, e coeficiente de variação.

disciplina:

ferramentas

Na Unidade 3 são introduzidos conceitos

estatísticas que possibilitarão a você

básicos de probabilidades, cruciais para

transformar-se

em

que se entenda o processo de tomada

qualquer área do conhecimento e, portanto,

de decisão na presença de incerteza. A

apto a resolver problemas. A disciplina é

Unidade 4 é uma continuação da terceira

dividida em oito unidades cujo objetivo é

unidade, são apresentados os modelos

introduzir o aluno na área da Estatística

probabilísticos mais importantes para se

e Probabilidades, tornando-o capaz de

modelar problemas de pequeno e médio

planejar e de executar experimentos de

porte na área de Engenharia e Tecnologia.

apresentar num

especialista

pequeno e médio porte nas áreas de Ciências Exatas e de Engenharia. Além de

A partir da Unidade 5 caminhamos para

fazer a análise exploratória dos dados e de

a área “nobre” da Estatística, que envolve

realizar inferências, por meio da tomada de

as inferências, isto é, o processo de

decisão na presença de incerteza.

generalização

de

resultados

parciais,

observados em amostras, para toda a definições

população envolvida num problema. Nessa

fundamentais para a correta compreensão

unidade é discutida a forma de obter os

do processo de coleta e de análise de dados.

intervalos de confiança, tanto para média

Conceitos sobre população e amostra,

quanto para proporção. Na Unidade 5

censo e amostragem, e variáveis são

discute-se, por exemplo, como o resultado

discutidos nessa unidade. A Unidade 2 trata

de uma pesquisa eleitoral é calculado e o

da análise exploratória de dados, quando

significado do intervalo definido pela soma

são apresentadas técnicas de Estatística

e subtração de uma “margem de erro”.

A

Unidade

Descritiva.

1

O

apresenta

objeto

dessa

unidade,

bastante intuitiva, é trabalhar a síntese

A Unidade 6 é voltada para o planejamento

numérica, gráfica e tabular dos dados.

de experimentos, quando é apresentado,

por exemplo, como calcular o tamanho de uma amostra. Em alguns livros este item é colocado na primeira unidade, o que tem certa lógica por tratar da coleta de dados, primeira etapa de qualquer análise estatística. Entretanto, como são necessários conceitos probabilísticos e de inferência para entender o planejamento de experimentos, optamos por colocar essa unidade logo após a discussão sobre intervalos de confiança. As Unidades 7 e 8 fecham a disciplina, apresentado as ferramentas mais úteis para que você finalmente se transforme num especialista em uma área qualquer e, portanto, realmente apto a resolver seus problemas. Na Unidade 7 são discutidos os métodos para fazer e interpretar testes de hipóteses, num contexto uni variado e, na Unidade 8, discute-se métodos de correlação e regressão, introduzindo a análise multivariada. Ao longo das oito unidades, procuraremos apresentar

uma

abordagem

baseada

em PPL – Aprendizagem Baseada em Problemas,

além

de

usarmos

como

ferramentas computacionais o Microsoft® Excel e o software de domínio público, EpiInfo. Bom trabalho! Bráulio, Janaína, Octávio e Reinaldo.

UNIDADE 1  Introdução à Estatística  Conceitos básicos O papel das variáveis numa base de dados: identificação, auxiliares, variáveis explicativas e variável reposta (desfecho) Tipos de variáves Uso do excel como um sistema de gerenciamento de dados e dos formulários do google docs para coleta de informações Revisão

003 004 006

UNIDADE 2  Análise exploratória de dados  Síntese gráfica de dados  Síntese tabulador de dados  Síntese numérica de dados Revisão

019 020 021 038 038 048

UNIDADE 3  Introdução à teoria de probabilidades  Probabilidade clássica e probabilidade frequentista  Leis básicas de probabilidade União e interseção de eventos Tabelas de contigência Eventos independentes Teorema de Bayes Revisão

049 050 053 053 054 056 057 058 061

UNIDADE 4  Modelos probabilísticos  Varieaveis aleatórias  Modelos probabilísticos Distribuição binomial Distribuição Poisson Distribuição normal Revisão

063 064 065 071 071 072 072 076

010 013 015 017

UNIDADE 5 Estimação de médias e proporções  Teorema central do limite  Estimação pontual e por intervalos de confiança para uma média populacional  Estimação pontual e por intervalos de confiança para uma proporção populacional Uso do excel no cálculo de intervalos de confiança para média e proporção Introdução ao programa Epiinfo Revisão

077 078 079

UNIDADE 6 Planejamento de experimentos  Cálculo de tamanho de amostra baseado em intervalos de confiança para uma proporção  Cálculo de tamanho de amostra baseado em intervalos de confiança para uma média  Planejamento de experimentos Revisão

098 099

UNIDADE 7  Testes de hipóteses  A construção e o significado de uma hipótese estatística  Testes para uma amostra  Testes para duas ou mais amostras Revisão

115 116 117 118 133 137

UNIDADE 8  Análise de correlação e regressão  Análise de correlação  Regressão linear simples  Regressão linear múltipla Revisão

139 140 141 149 157 160

082 089 091 094 095

100 103 106 113

REFERÊNCIAS117

INTRODUÇÃO À

ESTATÍSTICA

P

odemos entender o método estatístico como um processo para obter, apresentar e analisar características ou valores numéricos, identificando padrões que possibilitam a tomada de decisão em situações de incerteza. Pode acreditar, se você aplicar o

método estatístico para a análise e solução de problemas, muito rapidamente se tornará um especialista de qualquer área do conhecimento! Num mundo real, completamente cercado de incertezas, ser capaz de identificar padrões de comportamento de pessoas, projetos, produtos, serviços, etc pode transformá-lo num “mago”.

Entretanto, antes de você transformar-se num “mago”, é necessário um entendimento adequado do método estatístico, que tem suas “armadilhas”. Costumo dizer que Estatística não é Matemática... é muito mais “difícil”. Na verdade, Estatística é uma das áreas da Matemática que, por sinal, é a Ciência cuja aplicação no mundo real possibilitou ter uma vida incrivelmente confortável. Bom, quando afirmo que “Estatística não é Matemática”, quero dizer que, na Matemática que você aprendeu no Ensino Fundamental e Médio, os problemas têm usualmente uma única forma de serem resolvidos e devem todos chegar ao mesmo resultado (uma única resposta correta). Na Estatística, os problemas têm várias formas de serem resolvidos, podem chegar a resultados diferentes e todos estão corretos! Isso ocorre porque a Estatística requer a habilidade de considerarmos as coisas dentro de uma perspectiva probabilística, o que vai completamente contra a conceituação usual dos problemas em simplesmente certo ou errado. Não buscaremos a “verdade absoluta”, mas padrões de comportamento que nos possibilitarão tomar decisões com alto grau de confiança.

004

unidade 1

ESTATÍSTICA E PROBABILIDADES

Para melhor entendermos o que será discutido, o método estatístico será dividido em quatro grandes áreas: 1) amostragem e coleta de dados; 2) análise exploratória de dados (estatística descritiva); 3) teoria de probabilidades; 4) decisão na presença de incerteza (inferência). A ideia por trás dessa unidade é levar até você o conhecimento fundamental que lhe permitirá entender a coleta de dados. Estudaremos conceitos fundamentais de Estatística, questões simples, mas essenciais para que tenhamos sucesso nas outras etapas do método estatístico, que serão discutidas nas próximas unidades. Estes são os objetivos da Unidade 1: a) apresentar conceitos básicos de Estatística e Probabilidades; b) identificar as funções e os principais tipos de dados e de variáveis; c) identificar e corrigir problemas de dados faltantes (missing); d) configurar o Excel como instrumento de coleta de dados; e) entender o sistema de endereçamento de células do Excel. f) construir formulários de coleta de dados no Google Docs; g) enviar formulários de coleta de dados por meio de mala direta. É crucial que você entenda os conceitos que serão discutidos nessa unidade. Sem o entendimento do que seja, por exemplo, uma variável, o seu tipo e a sua função na base de dados, não há como você ser feliz nas outras etapas do processo!

005

unidade 1

ESTATÍSTICA E PROBABILIDADES

CONCEITOS

Entretanto, a cozinheira sabe que para fazer

BÁSICOS

inferências válidas, deve tomar cuidado para não trabalhar com amostras viciadas.

Você sabe o que é população? E

E o que seria isso?

amostra? Vejamos o exemplo a seguir. Se ela retirar uma amostra somente da Vamos supor que uma cozinheira esteja

parte de cima da sopa, muito provavelmente

preparando dois litros de sopa.

terá uma amostra viciada, isto é, sem representantes de todos os componentes da sopa como um todo que, neste caso, é a

Como ela sabe se a sopa está temperada?

população amostrada. Os dois litros de sopa formam a população e, se a cozinheira comer/provar toda a sopa,

E

como

ela

retira

uma

amostra

estará fazendo um censo, o que geraria um

representativa da sua população (“sopa”)?

absurdo do tipo “É, a sopa estava ótima!”.

Como a cozinheira procede para obter uma amostra com “representantes” de cada

A cozinheira sabe que em experimentos

estrato da sopa?

baseados em ensaios destrutivos, quando a própria análise destrói o dado coletado, o

Simples, ela mistura a sopa fazendo uma

censo é um absurdo. Na verdade, ela sabe

homogeneização e sorteia uma porção/

que censos, de modo geral, são inviáveis,

pitada que será usada no seu processo

muito caros e/ou muito demorados. Mais

decisório.

ainda, ela sabe que se usar uma pequena

aleatória, a cozinheira sabe que terá

amostra cuidadosamente retirada, chamada

grande chance de trabalhar com amostras

amostra

representativas.

representativa,

poderá

tomar

Fazendo

uma

amostragem

decisões sobre toda a população envolvida no problema com um alto grau de confiança.

Podemos agora resumir esses conceitos.

A cozinheira então retira uma pequena

População:

amostra, uma “pitada” da comida, prova-a e generaliza o resultado para toda a sopa.

a) consiste na totalidade das unidades de observação a partir dos quais ou sobre

Isso é chamado de inferência: tomar

os quais deseja tomar uma decisão;

decisões sobre toda uma população com base em informações parciais de uma

b) conjunto de elementos que formam o universo do nosso estudo e que são

amostra (veja a FIGURA 1).

006

unidade 1

ESTATÍSTICA E PROBABILIDADES

b) gases, líquidos e alguns sólidos em

passíveis de serem observados; c) conjunto de indivíduos sobre os quais recairão todas as generalizações das

que as suas unidades não podem ser identificadas e contadas.

conclusões obtidas no estudo; d) usualmente, as unidades de observações são pessoas, objetos ou eventos;

Amostra:

conjunto

de

unidades

selecionadas de uma população, ou seja, uma parte dos elementos da população.

e) é o universo a ser amostrado; f) do ponto de vista matemático, a população é

definida

como

um

conjunto

de

elementos que possuem pelo menos uma característica em comum (SILVA, 2001).

em miniatura da população, exatamente como ela é, somente menor. A amostra representativa segue o modelo populacional, tal que suas características importantes

População finita: o número de unidades de observação pode ser contado e é limitado. Exemplos: a) alunos

Amostra representativa: é uma versão

são distribuídas similarmente entre ambos os grupos. Unidade amostral: é a menor parte distinta

matriculados

na

disciplina

de uma população, identificável para fins de seleção e construção da amostra.

Estatística e Probabilidades; b) todas as declarações de renda recebidas pela Receita Federal;

Amostra aleatória: é aquela obtida por meio de um processo de sorteio ou aleatorização.

c) todas as pessoas que compram telefone Amostra viciada: é aquela que representa

celular num determinado ano;

apenas parte da população, não possuindo

d) um lote com N produtos. População

infinita:

a

elementos quantidade

de

unidades de observação é ilimitada, ou a sua composição é tal que as unidades da população não podem ser contadas. Exemplos:

todos

os

estratos

ou

subconjuntos que formam a população como um todo. Censo: exame de todas as unidades de observação de uma população. Como discutido no exemplo da cozinheira, se

a) conjunto de medidas de determinado comprimento;

de

a pesquisa envolve ensaio destrutivo, o censo é inviável. Na verdade, somente se a

007

unidade 1

ESTATÍSTICA E PROBABILIDADES

população alvo for pequena é razoável observá-la por inteiro, através do censo, pois mesmo quando viáveis, censos são caros e demorados. Outros exemplos de ensaios destrutivos, nos quais é impossível aplicar censo: pesquisa sobre a força de tração de um lote de barras de aço para construção; pesquisa sobre contaminação de soro fisiológico em um lote; testes de resistência e durabilidade de um lote de concreto; tempo de pega de um lote de cimento. Amostragem: processo pelo qual uma amostra de unidades da população é retirada e observada. É a parte mais importante do processo de pesquisa. O principal e fundamental objetivo de qualquer plano de amostragem é selecionar a amostra, de tal maneira que ela retrate fielmente a população pesquisada. FIGURA 1 - População alvo, população amostrada e amostra

População alvo do estudo

Inferência

População amostrada

Amostra

Fonte: Elaborado pelo autor.

Inferir significa generalizar resultados de uma amostra para toda a população. Por que usar amostras? Por que não incluir no estudo todos os indivíduos da população? A amostragem deve ser usada porque torna o processo eficiente e preciso. E ela é eficiente, uma vez que o recurso que poderia ser despendido na coleta de dados desnecessários de um grande número de indivíduos pode ser gasto em outra atividade, como na monitoração da qualidade da própria coleta dos dados. As amostras, por serem menores que a população, podem ser estudadas mais rapidamente que censos e são também mais baratas. Além disso, se o processo de amostragem gerar uma amostra representativa da população alvo do estudo, os resultados observados poderão ser generalizados, sem risco de chegar a uma conclusão diferente daquela que seria obtida se trabalhar com toda a população.

008

unidade 1

ESTATÍSTICA E PROBABILIDADES

Vejamos

agora

alguns

selecionadas aleatoriamente no

aspectos

território brasileiro?

relevantes para o campo da amostragem. São eles: • Questões da amostragem: Qual o tamanho da amostra? Como a amostra será obtida? Como garantir que a amostra obtida seja representante da população objeto do estudo? A questão mais importante não é o seu tamanho,

No entanto, essa não é uma questão muito

importante

para

obtermos

o

tamanho da amostra adequada para uma pesquisa, visto que é necessário estudarmos

alguns

conceitos

probabilísticos, que serão apresentadas somente nas próximas unidades.

mas como a amostra será obtida, pois a amostragem mal feita

IMPORTANTE

invalida qualquer pesquisa. • Tamanho da amostra (n): está relacionado ao total de unidades

A maioria das pessoas, quando questionadas

amostradas, usadas no processo

sobre qual o tamanho da amostra necessária

de

que

para uma pesquisa, tem o raciocínio equivocado

você esteja curioso em relação

de que o tamanho da amostra (n) tem relação

ao tamanho da amostra, mas,

direta com o tamanho da população amostrada

como

(N).

inferência.

citado

Imagino

anteriormente,

Inevitavelmente, a maioria das pessoas

esta não é de longe a questão

afirma erroneamente que uma boa amostra deve

mais importante. Por exemplo,

conter pelo menos, digamos, 30% da população.

o

mais

O que a cozinheira diria disto? Para provar dois

pesquisa

litros de sopa, quanto de amostra ela teria que

sobre a aceitação (ou não) do

avaliar? Isso mesmo, uma pitada. E para provar

aborto por parte da população

400 litros de sopa, ela beberia um prato inteiro?

brasileira: resultados de pesquisa

Não. Ela provará a mesma pitada, pois sabe que, o

realizada no domingo à noite por

mais importante nesse processo inferencial não é

uma emissora de TV, envolvendo

o tamanho da amostra, mas provar uma amostra

milhões de pessoas que, após

não viciada, representativa de toda a sopa.

que

você

credibilidade

que numa

teria

assistirem a uma reportagem sobre o assunto, responderam

Voltando aos processos de amostragem,

à pesquisa; ou resultados de

as amostras podem ser classificadas em

uma amostra de 2.500 pessoas

probabilísticas e não probabilísticas:

009

unidade 1

ESTATÍSTICA E PROBABILIDADES

Amostra probabilística:

que fossem analisados tal percentual de

- existe uma garantia, em termos de

indivíduos da população, não é o tamanho

probabilidade, de que qualquer membro

que

garante

representatividade

da

da população possa ser selecionado para

amostra, mas a forma com ela é obtida. É

amostra.

a imparcialidade do processo de seleção dos seus elementos e a homogeneidade

Amostra não probabilística:

da distribuição das características da

- os elementos da amostra não são

amostra e da população que garantem a representatividade da amostra.

escolhidos por meio de um sorteio. CARVALHO e COUTO (2003) apresentam as principais características de tipos de amostragem mais comuns, relacionados principalmente com pesquisas de survey. Outras amostras, por exemplo, amostragem de minério, de solo, de gases e de líquidos têm procedimentos próprios que buscam, em última instância, obter amostras que sejam representativas de cada população envolvida. Em suma, qualquer que seja o

O PAPEL DAS VARIÁVEIS NUMA BASE DE DADOS: IDENTIFICAÇÃO,

AUXILIARES, VARIÁVEIS EXPLICATIVAS E VARIÁVEL REPOSTA (DESFECHO)

esquema de amostragem, probabilístico ou

O primeiro passo de qualquer processo

não, deve-se sempre garantir que a amostra

estatístico é a coleta de dados. Portanto,

reflita as características da população da

tudo o mais será alicerçado sobre o que

qual foi retirada.

for coletado. Sendo assim, essa fase deve ser cuidadosamente planejada, já que da qualidade dos dados coletados dependerá

LEMBRE

toda a análise e a tomada de decisão subsequente.

Conforme discutido anteriormente, algumas pessoas acreditam que uma amostra representativa é necessária coletar dados de um percentual mínimo da população, digamos, 30% do total de indivíduos. Isso é absolutamente falso e, o que é pior, mesmo

Antes da coleta de um dado, é importante entender o conceito de variável que está por trás da informação que você procura. A variável contém a informação que você quer analisar, sob a forma de uma medição sobre determinadas características dos

010

unidade 1

ESTATÍSTICA E PROBABILIDADES

indivíduos estudados e das unidades de

O grau de variabilidade de uma variável é

observação.

chave no método estatístico e será foco de discussões nas próximas unidades.

E, por que esse conceito é tão importante?

Entretanto, neste momento, é crucial que

Porque, no fim das contas, é a variável

você entenda dois aspectos básicos de

que é analisada e não a informação que

qualquer variável: o seu tipo e a sua função,

ela contém. Por isso, é importante que

o papel que ela exerce na base de dados.

você, antes de sair coletando informações, analise o seu questionário de coleta de

ATENÇÃO

dados, identifique cada variável envolvida e responda perguntas, tais como: O que exatamente a variável está medindo? Para que serve esta variável e, principalmente, é possível analisá-la? E com que método estatístico?

Toda análise que será feita na base de dados dependerá do seu entendimento sobre o tipo e a função de cada variável coletada!

Vejamos os tipos de funções de cada

CONCEITO Uma

variável

é

a

quantificação

de

variável:

uma

característica de interesse da pesquisa (SOARES e SIQUEIRA, 2002). Refere-se ao fenômeno a ser pesquisado. É o campo de variação de cada tipo de dado a ser pesquisado. Observe que, como o próprio nome diz, uma variável deve variar, ou seja, se você está coletando dados sobre características de alunos da disciplina Cálculo Diferencial, podemos pensar em inúmeras variáveis para a unidade de observação “aluno”: idade, sexo, curso, local do ensino médio, tempo entre final do ensino médio e início da graduação, nota final, percentual de presença às aulas etc. Entretanto, o tipo de disciplina não é uma variável nesse caso, pois ela é constante (Cálculo Diferencial).

011

unidade 1

ESTATÍSTICA E PROBABILIDADES

QUADRO 1 - O papel de uma variável numa base de dados. TIPOS

CARACTERÍSTICAS

Variáveis de identificação e auxiliares

Servem para o rastreamento dos indivíduos e das unidades amostrais, ou são usadas na definição de outras variáveis. Exemplos de variáveis de identificação: CPF, nome, número de matrícula, número da amostra etc. Exemplos de variáveis auxiliares: datas, peso e altura. Variáveis de identificação e auxiliares não são analisadas, mas fazem parte da base de dados.

Variáveis explicativas

São aquelas que, por hipótese, podem influenciar, determinar ou afetar a variável resposta ou desfecho da pesquisa. São chamadas também de co-variáveis ou variáveis independentes. Para cada estudo existem variáveis explicativas próprias, definidas por hipóteses da própria pesquisa ou conforme revisão da literatura. Em processos químicos, quando se busca entender os fatores que afetam o rendimento de uma reação química, são exemplos de variáveis explicativas a temperatura, a pressão, o tipo de catalisador e a concentração de reagentes. Se alguém pesquisar sobre as razões de algumas pessoas serem maiores que outras, as alturas do pai e da mãe, a origem étnica, a idade e o sexo são exemplos de variáveis explicativas.

Variável desfecho

É aquela que queremos explicar, em função de ser influenciada, afetada por outros fatores (variáveis explicativas). Também denominada de variável dependente ou variável resposta. Sempre defina um ou mais desfechos para o estudo, conforme os objetivos da sua pesquisa. Por exemplo, numa pesquisa cujo objetivo é explicar porque imóveis de uma mesma região têm preços tão variados, o preço de venda seria uma variável resposta. Fatores como área, número de quatros, número e tipo de vaga de garagem, quantidade de suítes, presença de salão de festas ou piscina são algumas das possíveis variáveis explicativas para esse problema.

Fonte: Elaborado pelo autor.

A função de cada variável na base de dados, assim como o seu tipo, definirá que tipo de análise será feita. Não subestime esses conceitos pois, sem eles, não há como entender os métodos de análise estatística que serão estuados nas próximas unidades.

012

unidade 1

ESTATÍSTICA E PROBABILIDADES

TIPOS DE

um aluno numa disciplina (aprovado,

VARIÁVEIS

reprovado) etc.

Se considerarmos a maioria absoluta das

A análise de uma variável categórica

variáveis envolvidas em experimentos

é

de pequeno e médio porte nas áreas de

se

Ciências Exatas e Engenharia, teremos

resultados

duas situações para o tipo da variável.

categoria da variável e calcula-se o

muito

restrita

quantas

e

simples:

unidades

conta-

amostrais

observados

em

ou

cada

percentual de ocorrência de cada classe I) Variável qualitativa ou categórica: é

ou categoria.

aquela que expressa características ou atributos de classificação, distribuídos categorias

II) V  ariável quantitativa: é aquela obtida

mutuamente

por meio de um processo de medição

exclusivas de objetos ou entidades.

ou contagem. Por exemplo: peso,

Categorias mutuamente exclusivas ou

altura,

mutuamente excludentes não podem

de

ser

insumos,

em

observadas

simultaneamente

dosagem

produtos

e

concentrações

químicos

temperatura,

e

outros pressão,

num mesmo indivíduo. Por exemplo,

altitude, umidade, largura, diâmetro,

grupo sanguíneo (A, B, AB, O) é uma

comprimento,

variável

quantidade de chuva (mm), número

categórica

mutuamente

falhas,

voltagem, número

de

corrente,

exclusiva: um indivíduo tem somente

de

ligações

um grupo sanguíneo, não podendo

telefônicas, número de mensagens

ser classificado em mais de uma

eletrônicas, número de faltas de um

categoria ao mesmo tempo. Variáveis

aluno numa disciplina, nota final na

qualitativas têm um nível baixo de

disciplina, área, preço, etc.

informação, sendo obtidas por um critério de classificação. Por exemplo,

A variável quantitativa possui o mais

sexo (masculino, feminino), estado civil

alto nível de informação, sendo objeto de

(com companheiro, sem companheiro),

inúmeras técnicas de análise. Para cada

cor de um produto (branco, verde,

variável quantitativa podemos calcular

amarelo, azul), tipo de transmissão

seu valor médio, mediano, modal, mínimo,

de um carro (manual, automática),

máximo, seu desvio padrão, coeficiente

conformidade de qualidade de um

de variação, intervalos específicos de

produto

variação e outras técnicas analíticas que

(aceito,

não

aceito),

dia

chuvoso (sim, não), resultado final de

serão descritas na próxima unidade.

013

unidade 1

ESTATÍSTICA E PROBABILIDADES

As variáveis quantitativas são chamadas

classificação.

As

notas

obtidas

por

essa

um aluno numa prova são tratadas

confusão,

como quantitativas, mesmo que não

pois o simples fato de alocar números

sejam obtidas por meio de um aparelho

aos resultados de uma variável não a

ou dosador.

torna quantitativa. Por exemplo, se os

uma prova é tratada como variável

grupos sanguíneos fossem classificados

quantitativa porque considera-se válido

em 1, 2, 3 e 4 (ao invés de A, B, AB e

aplicar

O), tal codificação não a tornaria uma

seus resultados. Entretanto, será que

variável quantitativa. Na verdade, para

um aluno que obtém 80 pontos numa

que

quantitativa,

disciplina sabe o dobro que um aluno que

deve ser possível aplicarmos operações

obteve 40 pontos? Claro que não. Já uma

aritméticas

A

pessoa de 100 Kg tem o dobro de peso

capacidade de realizarmos, por exemplo,

de uma pessoa de 50 Kg. Outro exemplo,

somas

aos

as temperaturas medidas em Graus

resultados de uma variável é um indicativo

Celsius são tratadas como variáveis

de que ela é quantitativa. Claro que a

quantitativas. Isso quer dizer que um dia

análise do seu processo de obtenção é

com 40ºC tem o dobro de calor de um

mais importante: os resultados de uma

dia com 20ºC? Transforme os valores em

variável quantitativa devem ser obtidos

Graus Celsius para Kelvin e compare o

por medição ou contagem. Além disso,

resultado.

também

numéricas,

de

nomenclatura

uma

pode

variável aos

e

mas

gerar

seja

seus

subtrações

resultados. “válidas”

Nesse caso, a nota de

operações

aritméticas

aos

essas variáveis podem ser contínuas, quando representadas por números reais,

Bom,

os

conceitos

por

trás

dessa

ou discretas, quando representadas por

discussão envolve o nível de mensuração

números inteiros.

da variável (nominal, ordinal, intervalar e de razão) que será tratado a seguir.

Usualmente,

se

ela

é

obtida

por

Para

efeito

prático,

consideraremos

medição, então é contínua. Caso seja

somente duas categorias de variáveis:

obtida por meio de contagem, é uma

quantitativas

variável discreta. Para efeitos práticos,

Conforme citado anteriormente, esses

não faremos distinção entre variáveis

são os tipos de variável coletadas em

contínuas e discretas, o fundamental é

problemas típicos de Ciências Exatas e

entendê-las como quantitativas.

de Engenharia.

Algumas

variáveis

originalmente

de

014

unidade 1

versus

categóricas.

ESTATÍSTICA E PROBABILIDADES

USO DO EXCEL COMO UM SISTEMA DE GERENCIAMENTO DE DADOS E DOS

pelos respondentes são automaticamente armazenadas

em

planilha

eletrônica,

facilitando a coleta e a análise dos dados.

FORMULÁRIOS DO GOOGLE DOCS PARA COLETA DE INFORMAÇÕES

É crucial que você domine o Excel como instrumento de coleta de dados e entenda perfeitamente o papel de cada variável a ser coletada. Identificar variáveis explicativas e desfecho (s), distinguir entre variável

Duas ferramentas essenciais para coleta de dados de experimentos de pequeno e médio porte na área de Ciências Exatas e Engenharia são o Excel, um dos

quantitativa e categórica é uma questão relativamente simples, mas fundamental para as discussões que serão feitas nas próximas unidades.

componentes do pacote Office da Microsoft,

APLICAÇÃO

e os Formulários do Google Docs
PRÁTICA

docs.google.com/forms>. O Excel é uma planilha eletrônica com

Considere o artigo “Utilização de efluente de

origens no Lotus 1-2-3 (GAZZARRRINI,

frigorífico, tratado com macrófita aquática,

2013).

são

no cultivo de tilápia do Nilo”, de autoria de

extremamente práticas, de grande utilidade

Adilson Reidel e outros pesquisadores da

e serão discutidas por meio de vídeo aulas.

Universidade Estadual do Oeste do Paraná

Ambas

as

ferramentas

(REIDEL et al.; 2005) disponível em: Os formulários do Google Docs são ótimos para pesquisas envolvendo pessoas que


têm endereço eletrônico (e-mails). Para

suplemento/index_arquivos/PDF/181.pdf>

usá-los você terá que obter uma lista com os nomes dos respondentes e os respectivos

Neste trabalho, os pesquisadores fizeram

e-mails. Após construir o formulário de

um experimento em que, resumidamente,

coleta de dados no Google Docs, você

foram colocadas amostras aleatórias de

poderá enviá-lo usando o mecanismo de

alevinos (“filhotes”) de tilápia em aquários

“mala direta”, da aba “correspondências”

com água potável (tratamento A) e em

do Word, que também é parte do pacote

tanques com efluente de frigorífico após

Office da Microsoft. As respostas enviadas

passar num sistema de filtro com aguapé

015

unidade 1

ESTATÍSTICA E PROBABILIDADES

(tratamento B), avaliando-se comparativamente o desenvolvimento e a sobrevivência dos peixes. A pergunta principal da pesquisa era: “É possível cultivar tilápias em efluente de frigorífico tratado com aguapé?” Nas tabelas 1 e 2 do artigo, são apresentados alguns resultados e um conjunto de variáveis envolvidas na pesquisa. TABELA 1 – Valores médios dos parâmetros físico-químicos determinados durante o cultivo da tilápia do Nilo (O. niloticus) TRATAMENTOS

PARÂMETROS

A

B

Temperatura média (ºC)

26,4 = 1,60

26,4 = 1,70

Oxigienio Dissolvido (mg L-1)

7,17 = 0,60

7,18 = 0,90

Condutividade Elétrica (uS cm-1)

227,48 = 36

1779,7 = 68

pH

8,44 = 0,12

7,40 = 0,35

Tratamentos: (A) controle (água potável + ração); (B) efluente tratado (efluente do sistema de filtro de aguapé + ração) Fonte: REIDEL et al., 2005.

TABELA 2 – Valores médios de desempenho e sobrevivência de alevinos de tilápia do Nilo, cultivados com água potável e efluente tratado

média

O

média

O

Teste t-Student T calculado

Peso inicial (indivíduo) (g)

0,235 a

43,267

0,232 a

46,113

0

Biomassa inicial (aquário) (g)

1,172 a

2,426

1,160 a

1,901

0,001

Peso final (indivíduo) (g)

1,391 a

42,269

1,054 a

45,582

0,028

Biomassa final (aquário)

5,280 a

38,890

4,300 a

45,721

0,028

75 a

80,467

80 a

25,819

0,08

VARIÁVEIS

Sobrevivência (%)

Tratamento A

Tratamento B

Médias seguidas da mesma letra, na linha, não diferem significadamente pelo teste t de Student ao nível 5% de significância

Fonte: REIDEL et al.; 2005.

Esse é um exemplo prático da aplicação de conceitos discutidos na Unidade 1 em experimentos de pequeno e médio porte na área de Ciências Exatas e de Engenharia. O experimento é baseado em amostragem e analisa o impacto de variáveis explicativas em desfechos diretamente ligados ao objetivo do projeto: sobrevivência dos peixes, peso e biomassa final no aquário.

016

unidade 1

ESTATÍSTICA E PROBABILIDADES

Nesse trabalho são usadas três variáveis

tanto em relação ao desenvolvimento

resposta,

quanto à sobrevivência dos peixes”.

uma

categórica

(“O

peixe

sobreviveu?” “sim ou não”) e dois desfechos quantitativos (peso final e biomassa final,

O entendimento completo das razões

medidos em gramas). Dentre as variáveis

para chegar a essa conclusão será obtido

explicativas envolvidas, a mais importante,

nas próximas unidades. Entretanto, neste

que está diretamente ligada ao objetivo da

momento, é fundamental que você já

pesquisa é o tipo de tratamento (A versus

entenda conceitos referentes ao processo

B), uma variável categórica dicotômica.

de

amostragem/coleta

de

dados

e,

principalmente, que consiga diferenciar Muitas

pessoas

têm

dificuldade

em

identificar essa variável explicativa, apesar

os tipos e as funções das variáveis numa pesquisa.

dela ser a mais importante na pesquisa. As outras variáveis explicativas são todas quantitativas e, como tal, foram obtidas

REVISÃO

por meio de um processo de medição,

Vimos nessa unidade alguns dos principais

contagem ou dosagem: temperatura (ºC),

tópicos

oxigênio Dissolvido (mg L-1), condutividade

Estatística. Em resumo, estudamos sobre:

introdutórios

do

campo

da

Elétrica (μS cm-1), pH, peso inicial (g) e População, amostra, censo e amostragem:

biomassa inicial (g). Nas

tabelas

apresentadas

aparecem

- Censo de toda a população não é viável, devido aos altos custos e/ou quando a

métricas (média, desvio padrão e valor de t

pesquisa envolve ensaios destrutivos.

de student) que são usadas na análise e na conclusão do projeto. Fique tranquilo, esses

- Uma

pequena,

mas

cuidadosamente

conceitos serão tratados nas próximas

escolhida amostra pode ser usada para

unidades!

representar a população.

De qualquer forma, a conclusão da pesquisa

- Os resultados observados numa amostra representativa poderão ser generalizados,

para a pergunta “É possível cultivar tilápias

sem risco de chegar a uma conclusão

em efluente de frigorífico tratado com

diferente daquela que seria obtida no caso

aguapé?”, é: “Sim, é possível cultivar tilápias

de trabalhar com toda a população.

em efluente de frigorífico tratado com aguapé. Os dados não mostraram diferença

- A

significativa entre os dois tratamentos,

017

unidade 1

questão

mais

importante

numa

amostragem não é o tamanho da amostra,

ESTATÍSTICA E PROBABILIDADES

mas como a amostra será obtida, pois o

Ainda compreendemos que alguns sistemas

delineamento amostral mal feito invalida

computacionais são ferramentas essenciais

qualquer pesquisa.

para coleta de dados de experimentos de pequeno e médio porte na área de Ciências Exatas e da Engenharia. São eles: o Excel,

Tipos de variáveis: - Variável qualitativa ou categórica: é aquela que expressa características ou atributos de classificação, distribuídos

um dos componentes do pacote Office da Microsoft, e os Formulários do Google Docs .

em categorias mutuamente exclusivas de

PARA SABER

objetos ou entidades.

MAIS

- Variável quantitativa: é aquela obtida por meio de um processo de medição ou contagem.

Para aprofundar sobre as questões discutidas nessa unidade, leia o Capítulo 1 do livro texto:

Função das variáveis:

LEVINE, David M. et al. Estatística: teoria

- Variáveis de identificação e auxiliares: servem

para

o

rastreamento

dos

indivíduos e das unidades amostrais ou são usadas na definição de outras variáveis. - Variáveis

explicativas:

são

e aplicações usando Microsoft Excel em português, 3º edição ou superior: “Introdução e Coleta de Dados”, assim como o suplemento do capítulo 1 “Introdução à Utilização do Microsoft Excel”.

aquelas

que, por hipótese, podem influenciar, determinar ou afetar a variável resposta ou desfecho da pesquisa. - Variável desfecho: é aquela que queremos explicar, em função de ser influenciada e/ ou afetada por outros fatores (variáveis explicativas).

Também

denominada

de

variável dependente ou variável resposta. Aconselha-se sempre definir um ou mais desfechos para o estudo, conforme os objetivos da sua pesquisa.

018

unidade 1

UNIDADE

ANÁLISE EXPLORATÓRIA

DE DADOS

C

onforme citado na Unidade 1, se você usar técnicas de análise estatística, você poderá rapidamente se transformar num especialista em qualquer assunto, certo? Pois bem, como exemplo, que tal se tornar um especialista em reprovação em disciplinas básicas

de cursos de Engenharia e Tecnologia? E você não precisará “repetir” nenhuma dessas disciplinas para ser um especialista em reprovação...! Esse é um problema bem conhecido, mas suas causas e fatores associados não! Uma hipótese é que durante o ensino fundamental e médio muitos alunos não conseguem adquirir habilidade em resolver problemas matemáticos. Essa deficiência então culmina nos cursos de Engenharia com altos índices de reprovação no ciclo básico. Disciplinas como Cálculo Diferencial, Geometria Analítica e Álgebra Linear (GAAL), Química Geral e Algoritmos (AEDS) podem ser verdadeiros “infernos” para alunos da área de Exatas. Considerando o problema geral “desempenho acadêmico em disciplinas de ciclo básico de cursos de Engenharia”, que tal analisar dados de amostra de alunos, buscando identificar as características e possíveis fatores associados aos desfechos “conceito” (aprovado ou reprovado), “nota histórico” (0 a 100 pontos) e “abandonou a disciplina?” (sim ou não)? Para resolver o problema acima, qual a primeira providência? Muitos podem pensar: “Preciso estudar melhor o assunto, fazer uma revisão da literatura sobre o problema. Em seguida, preciso planejar e executar a coleta dos dados”. Essa primeira etapa já foi feita e faz parte de projeto de iniciação científica do Centro Universitário de Belo Horizonte – UniBH, cujo título da pesquisa é “Fatores associados ao desempenho acadêmico de alunos em disciplinas do ciclo básico de cursos de Engenharia”. A pesquisa foi aprovada pelo Comitê de Ética em Pesquisa (CEP) do UniBH com o nº 920.308, em 17/12/2014 e os dados estão disponíveis para download

020

unidade 2

ESTATÍSTICA E PROBABILIDADES

no link: https://www.dropbox.com/sh/6bvsls6mi6kpqyv/AABy88F2iVFPyEc2ArIIZ2GNa?dl=0. Agora que você já tem acesso aos dados, qual o próximo passo para resolvermos o problema de reprovação e abandono em Cálculo, GAAL, Química Geral e AEDS? A primeira etapa de qualquer análise estatística, ou melhor, a fase preliminar da busca das informações agregadas a dados já coletados, é a análise exploratória dos mesmos. Como o próprio nome diz, a análise exploratória dos dados é o conjunto de ferramentas da Estatística Descritiva que têm como objetivo fazer uma síntese dos dados, organizando-os sob a forma de tabelas, gráficos e números. Portanto, para entendermos e resolvermos nosso problema de reprovação, precisamos estudar as ferramentas da Estatística Descritiva: a) Síntese tabular: Resumo da análise por meio de tabelas; b) Síntese numérica: Medidas de posição (média e mediana) e medidas de variabilidade (soma dos quadrados dos resíduos, variância, desvio padrão, coeficiente de variação); c) Síntese gráfica: Gráficos de pizza, barra, coluna, linha, séries históricas, histograma, gráfico de Pareto, gráfico misto, de coluna e de linha, diagrama de dispersão e box-plot. O objetivo desta unidade é promover o conhecimento fundamental que lhe permitirá entender dados coletados, transformando dados brutos em informações úteis!

SÍNTESE

GRÁFICA DE DADOS Uma figura vale mais que mil palavras! Isso é verdade, entretanto um gráfico vale mais que mil palavras se e somente se ele for desenhado de forma clara, correta e concisa. Sempre desenhe gráficos a partir de seus dados, mas tente fazê-los de tal forma que a frase “basta olhar para entender” seja válida. Os gráficos mais úteis para análise de dados de experimentos de pequeno e médio porte na área de Ciências Exatas e Engenharia são: gráficos de pizza, barras, colunas, linha, séries históricas, histograma, gráfico de Pareto, gráfico misto, de coluna e de linha, diagrama de dispersão e box-plot (tabela 1). De todos esses, somente vejo sentido em construi-los “à mão” histogramas e diagramas de dispersão. Entretanto, na prática devemos construir gráficos usando ferramentas computacionais como o Excel.

021

unidade 2

ESTATÍSTICA E PROBABILIDADES

TABELA 3 - Gráficos mais úteis para análise de dados de experimentos de pequeno e médio porte na área de Ciências Exatas e Engenharia. NÚMERO DE VARIÁVEIS ENVOLVIDAS

TIPO DE VARIÁVEL ANALISADA

Pizza ou setor

Uma

Categórica

Colunas (verticais)

Uma

Categórica

Barras (horizontais)

Uma

Categórica

Histograma

Uma

Quantitativa, mas categorizada numa tabela de distribuição de frequências

Gráficos de linha

Duas

Quantitativa no eixo vertical, e categórica no eixo horizontal

Séries históricas

Duas

Quantitativa no eixo vertical, e o “tempo” no eixo horizontal

Gráfico de Pareto

Uma

Categórica

Gráfico misto, de coluna e linhas

Duas

Quantitativa no eixo vertical, e o “tempo” no eixo horizontal

Diagrama de dispersão

Duas

Variável explicativa quantitativa no eixo horizontal, e desfecho quantitativo no eixo vertical

Uma ou mais

Quantitativa

TIPO DE GRÁFICO

Box-plot Fonte: Elaborado pelo autor.

Como fazer os gráficos? Siga regras e comentários abaixo e você terá sucesso ao desenhar gráficos:

1. Um gráfico deve conter um título, entretanto este não deve ser colocado no próprio gráfico (como o Excel insiste em fazer...). Quando desenhamos um gráfico usando o Excel, por exemplo, este será exportado para algum documento do Word ou para o PowerPoint, ou para outros editores de texto e apresentadores de slides. O título do gráfico será então colocado no slide ou na descrição da figura no editor de textos, sendo desnecessário e errado colocá-lo no meio do próprio gráfico. Mesmo em casos excepcionais, quando o gráfico não é exportado para nenhum outro aplicativo, sendo impresso diretamente do Excel, o título não deve ser colocado no meio da figura. O título deve ser inserido no cabeçalho da planilha que contém o gráfico.



2. Ao escrever um relatório, comece pelas figuras. É impressionante, mas as pessoas leem artigos científicos, relatórios técnicos, jornais e revistas de “fofoca” da mesma forma: começamos pelas figuras! Por isso, o título de gráficos e tabelas deve ser o mais claro

022

unidade 2

ESTATÍSTICA E PROBABILIDADES

possível: toda informação necessária para o entendimento da figura deve estar no seu título. Essa é uma tendência das revistas científicas (Nature, Science, por exemplo) e tem um efeito colateral: o título da figura fica muito longo. Isso não é exatamente uma regra, mas recomendação. Se você quer que seu relatório seja lido, invista nos títulos de figuras e tabelas e sempre coloque respostas claras para pelo menos quatro perguntas: O que? Quem? Quando? Onde? A interpretação das informações no gráfico também deve ser colocada como subtítulo da figura. Se necessário, coloque notas explicativas, usando siglas somente para coisas realmente conhecidas de quem lerá o seu texto (seu chefe ou o chefe do seu chefe...). Veja um exemplo de gráfico de pizza na figura abaixo. FIGURA 2 – Principais ferramentas estatísticas encontradas em artigos publicados no New England Journal of Medicine (NEJM).

A maioria absoluta (58%) dos 760 artigos publicados nos volumes 298 a 301 da NEJM utilizou somente técnicas de Estatística Descritiva na análise dos dados. Praticamente um quarto dos artigos usou teste t de student e 15% aplicou teste de qui-quadrado nas tabelas de contingência, ferramentas que serão discutidas na Unidade 7 deste livro. Fonte: BAILAR & MOSTELLER,1992.



3. Caso o gráfico tenha eixos (horizontal X e vertical Y), estes devem estar rotulados para entendimento. Os rótulos dos eixos devem conter as respectivas unidades de medida envolvidas (g, R$, kg, m/s, etc.). Esse é mais um ponto de erro do Excel! Além de não colocar os rótulos nos eixos, o Excel coloca o título no meio da figura e uma legenda que não tem a menor utilidade. Na verdade, as legendas somente devem ser colocadas se existirem mais de um grupo de dados na figura. Veja um exemplo correto de gráfico de barras na figura abaixo.

023

unidade 2

ESTATÍSTICA E PROBABILIDADES

FIGURA 3 – Risco de reprovação em disciplinas de cursos de Engenharia e Tecnologia do Centro Universitário de Belo Horizonte – UniBH.

Análise de 21 disciplinas avaliadas em sete semestres (2011/1 a 2014/1), considerando amostra de 78.399 alunos. Quatro disciplinas têm mais de 40% de seus alunos reprovados: Cálculo Diferencial, Geometria Analítica e Álgebra Linear, Cálculo de Várias Variáveis e Algoritmo e Estruturas de Dados. Fonte: Elaborado pelo autor.



4. Não existe regra fixa para a escolha da escala do gráfico. Qualquer escala é boa desde que os valores no gráfico não fiquem muito espalhados nem muito juntos numa única região da figura.



5. Sombreamento, efeitos 3D e pequenas figuras relacionadas com o tipo de dado usado no gráfico, colocados para dar vida à figura: na maioria das vezes esses efeitos são inúteis, podendo até mesmo distorcer o gráfico.



6. A  maioria dos gráficos apresenta o valor zero como ponto de início dos eixos, mas isso não é necessário se o ponto de início da escala é devidamente marcado na figura. Na verdade, as pessoas usualmente assumem que o valor zero está na base do gráfico. Para os gráficos de linha isso não é problemático, entretanto, quando se tratar de gráficos de colunas ou de barras, o valor zero deve obrigatoriamente estar na base da coluna. Caso isso não seja feito, ocorre uma distorção do gráfico levando a uma interpretação errada dos dados. Veja o exemplo abaixo. O primeiro gráfico, como não começa no valor zero, está errado, ele “ilude o leitor”: a auditoria foi um sucesso?!

024

unidade 2

ESTATÍSTICA E PROBABILIDADES

FIGURA 4 – Exemplos de gráfico de colunas: o valor zero deve obrigatoriamente ser incluído na figura.

Fonte: Elaborado pelo autor.



7. Mais de uma curva ou linha pode ser desenhada em um único gráfico com o objetivo de comparação. Entretanto, deve-se diferenciar claramente os dados de cada linha para que não haja erro de interpretação (use cores diferentes ou linhas pontilhadas ou mesmo símbolos). Linhas de grade, usualmente colocadas no gráfico para auxiliar a leitura das escalas, devem ser discretas (na cor cinza, por exemplo) ou serem eliminadas. FIGURA 5- Exemplo de gráfico com legenda identificando diferentes dados.

Fonte: Elaborado pelo autor.

025

unidade 2

ESTATÍSTICA E PROBABILIDADES



8. Os gráficos devem ser desenhados no formato de paisagem, com a altura tendo aproximadamente ¾ da sua largura. Caso isso não seja feito, poderá haver distorção da figura e da própria informação, que fica comprometida: o primeiro gráfico está correto, mas os outros estão na categoria “como mentir com estatística”... FIGURA 6 – Formato dos gráficos: a figura deve ser desenhada em formato de paisagem, com a altura tendo aproximadamente 75% da largura.

Fonte: Elaborado pelo autor.

FIGURA 7 – Gráfico distorcido: desenhando a figura com a altura muito pequena, em relação à largura, a informação é falseada e se tem a sensação de estabilidade dos dados.

Fonte: Elaborado pelo autor.

026

unidade 2

ESTATÍSTICA E PROBABILIDADES

FIGURA 8 - Gráfico distorcido: desenhando a figura com a altura muito grande, em relação à largura, a informação é falseada e se tem a sensação de redução dos dados ao longo do tempo

visualizarmos funções matemáticas teóricas (figura 9) quanto funções de relacionamentos empíricos já conhecidos (figura 10), mas a sua grande utilidade é quando tentamos estabelecer a associação entre duas variáveis quantitativas (figura 11). A figura 9 é um diagrama de dispersão mostrando uma relação completamente teórica entre duas variáveis (x e y). Como é uma relação exata, somente é desenhada a linha que liga os pontos do gráfico. Na figura 10 é desenhada uma relação empírica, no caso a lei de Abrams, que relaciona a resistência do concreto à compressão (R) com o

Fonte: Elaborado pelo autor.

fator água/cimento (fx) da seguinte forma: R = α/βfx. Nessa figura, α e



9. Gráficos de pizza, “o queridinho”:

β foram definidos como 100 e 10

Apesar de muito “engraçadinhos”,

respectivamente, de tal forma que

estes gráficos são muitos confusos.

a equação ficou R = 100/10fx, fx

Evite o seu uso, substituindo por

variando de 0 a 3. Já a figura 11

gráficos de barra ou de colunas.

mostra o uso “nobre” dos diagramas

É aceitável construi-los somente

de dispersão, quando tentamos

quando são poucos setores bem

explorar, criar e propor uma nova

definidos (até cinco pedaços). Evitar

relação empírica entre duas variáveis

gráficos de pizza em 3D, com vários

quantitativas.

pedaços. Construi-los como na

ao invés de aplicarmos a relação

figura 2.

empírica de Abrams, usamos dados

Nesse

exemplo,

reais de fator fx de água/cimento

10. Diagrama de dispersão: Ferramenta

e a resistência medida em 28 dias

que nos permite avaliar o efeito de

de uma amostra de concretos

uma variável explicativa quantitativa

(desfecho).

sobre um desfecho. Serve tanto para

linha de tendência linear, estamos

027

unidade 2

Ao

inserirmos

uma

ESTATÍSTICA E PROBABILIDADES

sugerindo que, na faixa de variação medida de fx (entre 0,2 e 1,0), a resistência à compressão do concreto se relaciona com fx por meio de uma equação de reta. FIGURA 9 – Diagrama de dispersão sem os marcadores e com linhas contínuas mostrando a relação de x e sua função f(x) = 2x3 – cos(x+1) – 3. Nesse caso o diagrama está mostrando uma relação teórica exata, tal como aquela encontrada nas disciplinas de Cálculo Diferencial.

Fonte: Elaborado pelo autor.

FIGURA 10 – Diagrama de dispersão com marcadores e linhas contínuas mostrando a relação empírica da lei de Abrams que relaciona a resistência à compressão de concretos, medida em megapascal (MPa), e o fator água/cimento (fx), determinado pela razão do peso de água pelo peso em cimento do concreto.

Fonte: Elaborado pelo autor.

028

unidade 2

ESTATÍSTICA E PROBABILIDADES

FIGURA 11 – Diagrama de dispersão somente com os marcadores e sem linhas contínuas mostrando uma possível relação linear entre resistência à compressão de concretos em 28 dias (MPa) e o fator água/cimento (fx).

Fonte: Elaborado pelo autor baseado nos dados em DAFICO, Dario de Araújo. Método Simples para Explicar a Resistência à Compressão do Concreto de Alto Desempenho. Disponível em: http://www2.ucg.br/nupenge/pdf/ Dario.pdf. Acesso em 14 maio 2015.

A figura 12 mostra possíveis padrões de relacionamento entre uma variável explicativa (X) e o desfecho (Y), ambos quantitativos. Sempre que construir um diagrama de dispersão, você deve interpretar o gráfico gerado em um dos quatro padrões mostrados na figura 12. A) Correlação positiva: Em média, quando X aumenta, Y também aumenta, numa tendência em “linha reta”. Por exemplo, quanto maior a área de um imóvel, maior é o seu preço de venda. B) Correlação negativa: Em média, quando X aumenta, Y tende a diminuir. Por exemplo, quanto mais velho um imóvel, menor é o seu preço de venda. C) Associação curvilinear: Em média, quando X aumenta, Y também aumenta, mas não numa tendência em “linha reta”, e sim “em curva”. Isso pode ocorrer quando, por exemplo, a relação entre a variável resposta (Y) e a explicativa (X) for uma equação de segundo grau (parábola) ou cúbica, de grau três. D) Sem associação: Também é um padrão importante, pois indica que não há relação entre as duas variáveis associadas, que a variável explicativa, na verdade, não explica o desfecho! Por exemplo, frequentemente se observa que a idade do aluno não está associada à sua nota na maioria das disciplinas que ele cursa.

029

unidade 2

ESTATÍSTICA E PROBABILIDADES

FIGURA 12 – Padrões de relacionamentos entre variáveis avaliadas por meio de diagrama de dispersão: correlação positiva (A), correlação negativa (B), associação curvilinear (C) e ausência de associação (D).

Fonte: Elaborado pelo autor.

11. Histograma: A ideia deste gráfico é categorizar uma variável quantitativa, dividindo-a em intervalos ou classes, contar quantos valores se encaixam em cada intervalo e construir um gráfico de colunas com o resultado. Ao se interpretar um histograma, deve-se tentar responder às seguintes questões: Qual é a forma da distribuição dos dados? Existe um ponto central bem definido? Como é a amplitude de variação dos dados? Existe apenas um pico isolado? A distribuição é simétrica? Os exemplos abaixo podem auxiliá-lo na interpretação de um histograma. Procure descobrir com qual destes oito tipos o seu histograma se parece. Exemplo 1 - Histograma simétrico: A frequência de dados é mais alta no centro e decresce gradualmente à esquerda e à direita de forma aproximadamente simétrica, em forma de sino.

030

unidade 2

ESTATÍSTICA E PROBABILIDADES

Exemplo 3 - Histograma tipo despenhadeiro: O histograma termina abruptamente em um ou nos dois lados, dando a impressão de que faltam dados. Na verdade, essa possivelmente deve ser a explicação para histogramas com esse formato: os dados muito pequenos e/ou muito grandes foram

Fonte: Elaborado pelo autor

Exemplo

2

-

Histograma

assimétrico:

A

frequência

eliminados da amostra. fortemente dos

dados

decresce rapidamente num dos lados e muito lentamente no outro, provocando uma assimetria na distribuição dos valores. A distribuição dos salários numa empresa é um exemplo comum de histograma assimétrico: muitas pessoas ganham pouco e poucas pessoas ganham muito (a). A situação (b), apesar de mais rara, também pode acontecer.

Fonte: Elaborado pelo autor

Exemplo 4 - Histograma com dois picos: Ocorrem picos na distribuição e a frequência é baixa entre os picos. Possivelmente, os dados se referem a uma mistura de valores de diferentes populações, devendo ser avaliados com cuidado. Se houve mistura dos dados, é melhor separá-los.

Fonte: Elaborado pelo autor.

Fonte: Elaborado pelo autor

031

unidade 2

ESTATÍSTICA E PROBABILIDADES

Exemplo 5 - Histograma tipo platô: As

Exemplo 7 – Histograma tipo serrote:

classes de valores centrais apresentam

As frequências de valores se alternam

aproximadamente a mesma frequência.

formando vários dentes. Pode indicar algum

Essa situação também sugere mistura de

problema na obtenção (leitura) dos dados.

valores de diferentes populações.

Fonte: Elaborado pelo autor.

Fonte: Elaborado pelo autor.

Vamos usar como exemplo de dados para Exemplo 6 – Histograma com uma pequena

a construção de um histograma notas de

ilha isolada: Alguns valores isolados têm

amostra de alunos em uma prova de Cálculo

frequência elevada, formando uma espécie

Diferencial (n=120):

de ilha. Também pode ter ocorrido uma mistura de dados.

Fonte: Elaborado pelo autor.

032

unidade 2

ESTATÍSTICA E PROBABILIDADES

FIGURA 13 – Dados brutos de notas de amostra de alunos em prova de Cálculo Diferencial. Centro Universitário de Belo Horizonte – UniBH, 2014/2. 0

0

0

1

5

5

6

9

13

17

18

21

0

0

0

1

5

5

6

10

13

17

18

21

0

0

0

1

5

5

6

11

14

17

20

22

0

0

0

2

5

5

9

11

14

17

20

22

0

0

0

2

5

5

9

12

14

17

20

24

0

0

0

3

5

5

9

12

14

17

20

24

0

0

0

3

5

5

9

13

15

17

20

25

0

0

0

5

5

6

9

13

15

17

20

25

0

0

0

5

5

6

9

13

17

18

21

25

0

0

1

5

5

6

9

13

17

18

21

25

Fonte: Elaborado pelo autor.

Passo 1 - Determinar valores mínimo, máximo e amplitude (R):

mín = 0;

máx = 25;

R = máx – mín = 25 – 0 = 25

Passo 2 – Determinar quantas classes ou intervalos (k) serão usados para dividir os dados. O número de classes deve ser algo entre 5 a 20 subintervalos. Regra empírica: k ≈

5 ≤ k ≤ 20 . No exemplo, n ≈ 120; k ≈

√120 ≈ 10.

√n

e

R R 25 Passo 3 – Determinar o tamanho de cada subintervalo (h). h ≈ k . No exemplo, h ≈ k ≈ 10 . ≈ 2,5 Ou seja, no nosso exemplo, temos 120 valores que variam de 0 a 25 e vamos dividi-los em 10 classes de tamanho 2,5. Passo 4 - Contar a frequência de valores em cada classe. No exemplo, começando em zero (valor mínimo), teremos uma tabela de distribuição de frequências, base para construção do histograma, de 2,5 a 2,5 pontos cada subintervalo. Vamos verificar na base de dados quantos valores se encaixam em cada classe. Observe na figura 14 o símbolo --|, ele indica que o valor à direita faz parte do intervalo, mas o valor à sua esquerda não! Ou seja, o intervalo 2,5 --| 5,0 implica em valores acima de 2,5 e menores ou iguais a 5,0. Por exemplo, alunos que tiraram 5,0 são contabilizados somente no segundo intervalo (2,5 --| 5,0), assim como aqueles que tiraram 7,5 pontos

033

unidade 2

ESTATÍSTICA E PROBABILIDADES

entram somente na terceira classe (5,0 --| 7,5). Veja também o símbolo |--|, ele só pode ser usado no primeiro subintervalo e possibilita que incluamos o valor 0,0 na primeira classe (0,0 |--| 2,5). Se não fizéssemos isso, não teríamos onde colocar a frequência de valores iguais a zero. Eventualmente você poderá se deparar com tabelas construídas com o símbolo “invertido”, |--, que indica valores maiores ou iguais ao número colocado à esquerda e menores que o valor colocado à direita. Por exemplo, 30 |-- 40 implica valores maiores ou iguais a 30 e menores que 40. Usei a notação --| que é o padrão usado pelo Excel na construção de histogramas (figura 14). Lembre-se de que o total, a soma da coluna “Frequência”, deve ser exatamente o tamanho da amostra (n). Além da coluna de frequência absoluta, podemos calcular a frequência relativa ou percentual de cada classe (em relação ao total de valores) e a frequência acumulada ou percentual acumulado, útil para a construção de gráficos de Pareto (que será explicado mais à frente). FIGURA 14 – Tabela de distribuição de frequências das notas de amostra de alunos em prova de Cálculo Diferencial. Centro Universitário de Belo Horizonte – UniBH, 2014/2. NOTA FREQUÊNCIA

PERCENTUAL

PERCENTUAL ACUMULADO

0,0 |--| 2,5

35

29%

29%

2,5 --| 5,0

22

18%

48%

5,0 --| 7,5

6

5%

53%

7,7 --| 10,0

9

8%

60%

10,0 --| 12,5

4

3%

63%

12,5 --| 15,0

12

10%

73%

15,0 --| 17,5

10

8%

82%

17,5 --| 20,0

10

8%

90%

20,0 --| 22,5

6

5%

95%

22,5 --| 25,0

6

5%

100%

120

100%

Total Fonte: Elaborado pelo autor.

U

034

unidade 2

ESTATÍSTICA E PROBABILIDADES

FIGURA 15 – Histograma com a distribuição das notas na prova de Cálculo Diferencial: os dados mostram um padrão de distribuição assimétrico, semelhante àquele apresentado no histograma do exemplo 2.

Fonte: Elaborado pelo autor.



12. G  ráfico de Pareto: Esta ferramenta é ótima para ajudar na definição de prioridades, quando precisamos fazer um plano de ação para melhoria de qualidade de um serviço ou produto. Por exemplo, se um determinado problema ou defeito pode ocorrer de diversas formas, como escolher os tipos de defeito prioritários para serem corrigidos? A ideia do “efeito Pareto” é que 80% dos problemas estão associados a 20% dos problemas. Nem sempre esse efeito ocorre, mas esse é o objetivo do gráfico de Pareto: verificar quais itens ou problemas ocorrem com maior frequência num determinado cenário. Por exemplo, numa amostra de 400 defeitos de fabricação de uma peça mecânica, foram observados 16 tipos de defeito: rebarbas, diâmetro menor, diâmetro maior, sem usinagem, altura menor, trincas, altura maior, borda muito fina, enviesado, base maior que o topo, borda muito grossa, cor muito escura, estrutura pouco flexível, base menor que o topo, cor muito clara e estrutura frágil. Ao se construir um gráfico de Pareto com os dados (figura 16), observa-se que a maioria absoluta (66%) dos defeitos se refere somente a três tipos: rebarbas (32%), diâmetro menor (21%) e diâmetro maior (13%). Ou seja, ao fazer um plano de ação para corrigir possíveis defeitos de fabricação dessa peça, “ignore” 13 defeitos e priorize suas ações em apenas esses três. Fazendo isso, 66% do problema estará corrigido!

035

unidade 2

ESTATÍSTICA E PROBABILIDADES

FIGURA 16 – Gráfico de Pareto com a frequência de defeitos de fabricação de uma peça mecânica: 66% dos defeitos são somente de três categorias prioritárias para um plano de ação para melhorar a qualidade do processo de fabricação (rebarbas, diâmetro menor e diâmetro maior).

Fonte: Elaborado pelo autor.



13. Box-plot: Este gráfico, também conhecido como diagrama em caixa ou “caixa e bigode”, informa sobre a distribuição dos dados. Somente se aplica a variáveis quantitativas (figura 17), informando o menor valor (pequena linha horizontal inferior) e valor máximo (pequena linha horizontal superior). A distância entre o valor mínimo e a aresta inferior da caixa cinza é a amplitude em que ocorrem os 25% dos valores mais baixos. Este é conhecido como 1º quartil, sendo delimitado pelo percentil 25 dos dados. As duas caixas, cinza e vermelha, mostram onde estão 50% dos dados. A distância entre a aresta superior da caixa vermelha e a pequena linha horizontal superior, que equivale ao máximo dos dados, refere-se ao intervalo em que ocorrem 25% dos maiores valores da variável. A linha separando as duas caixas representa a mediana, que expressa o valor do meio se todos os dados fossem colocados em ordem. Assim como os histogramas, o box-plot nos informa sobre a maneira de distribuição dos dados, tendo a vantagem de permitir a visualização de grupos de dados (figura 18). Nessa figura, é apresentado um resumo comparativo da taxa de aprovação de oito disciplinas de ciclo básico de cursos de Engenharia.

036

unidade 2

ESTATÍSTICA E PROBABILIDADES

FIGURA 17 – Exemplo de box-plot para uma variável quantitativa genérica: quanto maior o tamanho das duas caixas, vermelho e cinza, maior a variabilidade e dispersão dos dados.

Fonte: Elaborado pelo autor.

FIGURA 18 – Box-plot com as taxas de aprovação de oito disciplinas de ciclo básico de cursos de Engenharia: Desenho e Estatística se destacam das outras disciplinas, que têm taxas de aprovação bem menores e mais heterogêneas. Cálculo Integral é a disciplina com menor taxa de aprovação e maior variabilidade dos dados.

Fonte: Elaborado pelo autor.

037

unidade 2

ESTATÍSTICA E PROBABILIDADES

SÍNTESE TABULAR

DE DADOS

Na análise exploratória de dados, em última instância, todos os resultados são apresentados ou na forma de figuras ou de tabelas. Assim como nos gráficos, invista no título da tabela e sempre coloque respostas claras para pelo menos quatro perguntas: O que? Quem? Quando? Onde? Sugerimos que a interpretação das informações na tabela também seja colocada no próprio título. Se necessário, coloque notas explicativas, usando siglas somente para coisas realmente conhecidas. A tabela 4 é um exemplo de formato de tabelas, apresentando modelo para síntese de variáveis categóricas de uma base de dados. TABELA 4 – Análise exploratória de variáveis categóricas: a síntese de variáveis categóricas, sejam elas explicativas ou desfecho, resume-se a apresentar suas categorias, a frequência de valores em cada categoria e os respectivos percentuais. CATEGORIA

FREQUÊNCIA

PERCENTUAL

Conceito

Aprovado

2287

49%



Reprovado

2386

51%

Local do ensino médio

Instituição privada

1509

32%



Instituição pública

3164

68%

Sexo

Feminino

1948

42%



Masculino

2725

58%

Manhã

1153

25%

Noite

3520

75%

VARIÁVEL

Turno Fonte: Elaborado pelo autor.

SÍNTESE NUMÉRICA

DE DADOS

A síntese numérica de variáveis categóricas é muito simples, basta que você apresente suas categorias, a frequência de valores em cada categoria e os respectivos percentuais, tal como apresentado na tabela 3. Já a síntese de variáveis quantitativas é mais ampla e envolve resumir dois aspectos:

038

unidade 2

ESTATÍSTICA E PROBABILIDADES

1) um valor típico ou característico para a variável; 2) uma medida do grau de variabilidade ou de dispersão dos dados. 1.

Valor típico ou medida de posição: O objetivo é encontrar o valor característico, aquele que melhor represente os dados. Vamos discutir aqui as duas possibilidades mais aplicadas a problemas de pequeno e médio porte na área de Ciências Exatas e Engenharia: a média ( X ) e a mediana ( Md ). A média é obtida pelo resultado da soma de todos os valores, dividido pelo total de dados ou tamanho da amostra (n). Matematicamente, a média é obtida por: n

X = ∑ Xi i =1

n Já a mediana, é na verdade uma medida de ordem, indicando o valor “do meio”, aquele que “divide os dados em duas metades”: Passo 1 – Colocar os dados em ordem crescente. Passo 2 – Encontrar o “valor do meio”, isto é:

se n, o tamanho da amostra, é ímpar, então Md é o valor central;



se n é par, então Md é a média dos dois valores centrais.

Exemplo A (n=11), dados já ordenados: {3; 4; 4; 5; 9; 9; 9; 10; 10; 10; 10}

Para a mediana, como são 11 valores (n é ímpar) e a metade de 11 é 5,5, então Md é o 6º valor, ou seja, o “valor do meio” (lembre-se de que os dados já estão ordenados): Md = 9 Exemplo B (n=18), dados já ordenados: {17; 17; 20; 20; 20; 24; 26; 28; 30; 40; 50; 50; 50; 50; 50; 51; 51; 52}

039

unidade 2

ESTATÍSTICA E PROBABILIDADES

usando a média e quando a mediana é melhor para representar os dados?”. Para essa resposta, é preciso seguir uma regra prática: • Se

Para a mediana, como são 18 valores (n

média

e

mediana

forem

é par) e a metade de 18 é 9, então Md é a

semelhantes, então usar a média

média entre o 9º e o 10º valor, ou seja:

para representar os dados.

Md =

• Se média e mediana forem muito

30 + 40 = 35 2

diferentes, então usar a mediana para representar os dados.

ATENÇÃO

Além de se basear nas regras acima, que exigem uma interpretação caso a caso do que seja “média e mediana muito diferentes”,

Não se esqueça, para obter a mediana é

você poderá construir histogramas e, pelo

necessário, antes de tudo, colocar os dados

padrão do gráfico, escolher uma ou outra

em ordem crescente. Não ordenar os dados é a

medida para representar os dados. Nos

principal fonte de erro no cálculo da mediana!

modelos de histograma colocados no tópico anterior, os exemplos 1 (simétrico),

Algumas pessoas se perguntam: “Quantas

3 (despenhadeiro) e 5 (platô), a média

casas

no

é a melhor medida de posição. Já nos

resultado?”. Quanto menos casas decimais

histogramas dos exemplos 2 (fortemente

você

seus

assimétrico) e 6 (ilha isolada), a mediana é

resultados, melhor para o entendimento

a melhor medida de posição que caracteriza

da informação! Apresente seus resultados

o conjunto de dados.

decimais conseguir

devo

apresentar

apresentar

nos

usando o mesmo número de casas decimais que os dados originais ou, no máximo, uma

2. Medida do grau de variabilidade ou

casa decimal além do original, como foi

de dispersão dos dados: O objetivo

feito nos cálculos anteriores.

é quantificar o quanto os dados são heterogêneos,

são

imprevisíveis,

Outra questão é “Quando escolher entre

em suma, quantificar o grau de

média e mediana para melhor representar

variabilidade

um conjunto de dados?” ou “Em que

quantitativa.

situações resumir uma variável quantitativa

040

unidade 2

de

uma

variável

ESTATÍSTICA E PROBABILIDADES

A princípio, podemos medir a variabilidade de um dado informando o seu valor mínimo (mín) e o valor máximo (máx), o que nos leva à sua amplitude (R): R = máx – mín. Entretanto, essa é uma forma muito “simplista”, pois envolve somente dois valores da variável, o mínimo e o máximo, ignorando todos os outros. Para uma medida mais adequada de variabilidade, uma forma é calcular a sua média ( X ) e, em seguida, calcular quanto os dados estão distantes da média, em média! Soa estranho, mas a ideia faz sentido. Por exemplo, seja uma amostra de n = 5 pessoas e seus respectivos números de filhos: Pessoa A B C D E Número de filhos

0

1

1

2

3

Qual o número médio de filhos? X=

0+1+1+2+3 7 = = 1,4. 5 5

Isso mesmo, essas pessoas têm, em média, 1,4 filhos! Você deve estar se perguntado, “como assim... um e 0,4 filho? Não existe 0,4 filho!!” Não se preocupe, a média funciona como um modelo e, como tal, é uma aproximação da realidade. A média é o melhor valor representativo para esses dados e, caso seja necessário resumir toda a informação num único valor, ela deve ser usada para substituir o verdadeiro número de filhos de cada pessoa. Bom, voltando à variabilidade, como calcular o quanto os dados estão distantes da média, em média? Para cada indivíduo, devemos subtrair o valor observado pela média, calculando um “resíduo”:

Pessoa A B C D E Número de filhos Resíduo

0 0-1,4 = -1,4

1 1-1,4 = -0,4

1 1-1,4 = -0,4

2 2-1,4 = +0,6

3 3-1,4 = +1,6

O resíduo mede a distância de cada valor em relação à média dos dados, ou seja, é uma medida de quanto os dados estão distantes da média. Para resumir os resíduos num único valor, o ideal é então calcular uma média dos resíduos, que refletiria o quanto os dados estão

041

unidade 2

ESTATÍSTICA E PROBABILIDADES

distantes da média, em média! Infelizmente, se fizermos essa média, ela sempre dará zero, pois os resíduos negativos anulam os positivos, dando uma soma dos resíduos igual a zero. Para resolver esse problema, ao invés de simplesmente calcular os resíduos, devemos calcular o resíduo elevado ao quadrado:

Pessoa A B C D E Número de filhos

0

1

Resíduo

0-1,4 = -1,4

1-1,4 = -0,4

Resíduo elevado ao quadrado

(-1,4)2 =

(-0,4)2 = 0,16

1,96

1 1-1,4 = -0,4

2

3

2-1,4 = +0,6

3-1,4 = +1,6

(-1,4)2 =

(+0,6)2 =

(+1,6)2 =

0,16

0,36

2,56

Se somarmos os resíduos elevados ao quadrado teremos a soma dos quadrados dos resíduos n

( ∑ ( Xi -X )2 ), uma métrica que aparece em várias outras análises estatísticas. Quanto maior i =1

a soma dos quadrados dos resíduos, maior a variabilidade dos dados! Para resumir essa métrica, calculamos a sua média, que é chamada de variância amostral ( s2 ): n

s2 = ∑ ( Xi -X )2 i =1

n-1 Nessas fórmulas, Xi representa cada um dos dados individuais, X é a média e n o tamanho da amostra ou total de dados. Observe que, no denominador, dividimos a soma dos quadrados dos resíduos por (n - 1) e não por ( n ). Isso é feito porque nossos dados foram obtidos por meio de amostragem e não por censo. Ou seja, sempre que tivermos dados amostrais, que é a situação mais comum, calcularemos a variância amostral dividindo a soma dos quadrados dos resíduos por (n - 1). Se tivermos acesso à população toda, ou melhor, se fizermos um 2

censo (o que é muito raro), então poderemos calcular a variância populacional (Ợ ), dividindo a soma dos quadrados dos resíduos por (n): 2

n

Ợ = ∑ ( Xi -X )2 i =1

n

042

unidade 2

ESTATÍSTICA E PROBABILIDADES

É importante se lembrar dessa diferença, pois ela aparece nas calculadoras científicas e no 2

Excel, que permite o cálculo tanto de s2 quanto de Ợ . Na prática (e na dúvida), sempre calcule a variância amostral (s2). Uma outra métrica de variabilidade é o desvio padrão amostral (s). Ele é a raiz quadrada da variância e tem uso mais difundido que sua “mãe” (s2), porque, ao tirarmos a raiz quadrada da variância, o resultado tem a mesma unidade de medida que a média e os dados originais. Assim, no exemplo anterior, do número de filhos da amostra de n=5 pessoas, a variância amostral é:

O desvio padrão amostral é:

É muito comum, ao divulgarmos uma síntese de uma variável quantitativa, apresentarmos a sua média, seguida do seu desvio padrão no formato ( X = s ). Ou seja, no exemplo anterior, essas pessoas têm 1,4 = 1,1 filhos. Cuidado, isso não significa que os dados variem somente dentro do intervalo X = s , de 1,4 – 1,1 = 0,3 até 1,4 + 1,1 = 2,5 filhos! Essa é apenas uma forma usada para apresentar ambos os valores, de média ( X ) e desvio padrão (s). Na verdade, se os dados tiverem um histograma de forma simétrica, aproximadamente 95% dos dados ocorrerão dentro do intervalo definido pela média mais ou menos dois desvios padrões ( X = 2s ), e 99,7% dentro da média mais ou menos três desvios padrões ( X = 3s ). Se não tivermos como avaliar a forma de distribuição dos dados, ou seja, se não soubermos o padrão do histograma dos dados, pelo menos 89% dos dados cairão no intervalo X = 3s . Supondo que você já consiga calcular o desvio padrão ( s ) de um conjunto de dados, como interpretar o seu resultado? É fato que, quanto maior o desvio padrão, maior a variabilidade

043

unidade 2

ESTATÍSTICA E PROBABILIDADES

dos dados. Mas, o que é um desvio padrão grande? Essa resposta depende da magnitude da média ( X ), isto é, para sabermos se um desvio padrão é grande ou pequeno, vai depender do valor da média. Por exemplo, sejam os resultados das provas de um atleta, resumidos abaixo: Tempo para correr 100 metros: X = 11,5 e s = 2,1 segundos; Salto em altura: X = 2,2 e s = 0,8 e metros. Em qual prova, salto em altura e tempo para 100 m, o atleta é mais heterogêneo, tem os resultados com maior variabilidade? Se você responder essa questão comparando os dois desvios padrões, estará cometendo dois erros: 1º Não se pode comparar diferentes unidades de medida (s versus m); 2º Deve-se considerar a magnitude da média ao se avaliar um desvio padrão. Então, como efetivamente obter o grau de variabilidade de uma variável? Isso é feito pelo coeficiente de variação (cv), uma relação percentual entre o desvio padrão e a média: s cv = x x 100 (%). Além de ser uma medida adimensional, o que possibilita comparações entre diferentes variáveis, o CV pode ser interpretado de forma absoluta: QUADRO 2 – Definição e interpretação do grau de variabilidade de um conjunto de dados. CV

INTERPRETAÇÃO

CV <= 20% Dados com pouca variabilidade, bem comportados, homogêneos. A variável tem um comportamento bem previsível. 20 < CV <= 30% Dados com variabilidade intermediária. CV > 30% Dados com muita variabilidade, heterogêneos. A variável tem um comportamento muito imprevisível. CV > 100% Neste caso, o desvio padrão é maior que a média. Dados com variabilidade extrema, muito heterogênea. A variável tem um comportamento caótico, completamente imprevisível. Fonte: Elaborado pelo autor.

044

unidade 2

ESTATÍSTICA E PROBABILIDADES

No caso do atleta, teremos os seguintes valores de coeficiente de variação: Tempo para correr 100 metros: cv = Salto em altura: cv =

2,1 x 100 = 19%; 11,5

0,8 x 100 = 36%; 2,2

Podemos dizer então que o atleta tem pouca variabilidade nos seus resultados da corrida de 100 m e muita variabilidade nos saltos em altura.

LEMBRE Quando você fizer uma análise exploratória de dados, lembre-se de corrigir os gráficos produzidos pelo Excel. Lembre-se também de colocar os títulos das tabelas e das figuras o mais informativo possível. E, ao calcular o desvio padrão, não se esqueça de considerar que você tem dados amostrais. Confira na sua calculadora e/ou no próprio Excel qual a fórmula que está sendo usada. Resuma os dados por meio de gráficos, números e tabelas. Esse é o primeiro e fundamental passo para entender os dados e o problema investigado.

A análise exploratória dos dados é o primeiro passo para que você se torne especialista na área investigada. Suas ferramentas de análise não produzem conclusões definitivas sobre um problema, mas possibilitam que hipóteses sejam construídas de forma consistente.

APLICAÇÃO

PRÁTICA

O artigo “Avaliação do impacto do Cálculo Zero no desempenho de alunos ingressantes de cursos de Engenharia”, apresentado em 2013 por COUTO e cols. no COBENGE - Congresso Brasileiro de Educação em Engenharia, teve como objetivo avaliar o impacto do “Cálculo Zero” no desempenho de alunos ingressantes em cursos de Engenharia e Ciência da Computação, tanto em termos da nota final em Cálculo Diferencial e Geometria Analítica e Álgebra Linear (GAAL), quanto na chance de aprovação nessas disciplinas. As perguntas-chave do trabalho eram: O “Cálculo Zero” afeta de forma significativa o resultado dos alunos nas disciplinas obrigatórias de Cálculo Diferencial e GAAL? Vale a pena investir

045

unidade 2

ESTATÍSTICA E PROBABILIDADES

em projetos de “Cálculo Zero”? Quais são os fatores, as características que afetam o desempenho dos alunos nessas duas disciplinas? Várias técnicas de análise exploratória de dados foram utilizadas no artigo. Por exemplo, usando um gráfico de linhas, uma série temporal, mostrou-se no artigo a elevação no número de matrículas nas duas disciplinas-alvo do trabalho, Cálculo Diferencial e GAAL:

FIGURA 19 - Evolução do número de alunos matriculados e o percentual de aprovados em Cálculo Diferencial e GAAL. Entre o 2º semestre de 2009 e o 2º semestre de 2012, o percentual de aprovação em ambas as disciplinas apresentou elevação, principalmente em Cálculo Diferencial. O número de alunos matriculados nas disciplinas também aumentou de forma importante no período, principalmente após o 1º semestre de 2011.

Fonte: COUTO et al., 2013.

Um diagrama de dispersão foi construído mostrando claramente o efeito das faltas às aulas na nota final de Cálculo Diferencial:

046

unidade 2

ESTATÍSTICA E PROBABILIDADES

FIGURA 20 – Gráfico de dispersão considerando o percentual de faltas/ausências às aulas de Cálculo Diferencial e a nota final do aluno nessa disciplina: análise considerando somente alunos em que foram registradas pelo menos uma falta às aulas durante o semestre. Há uma forte correlação negativa (r= -0,77) entre ausências às aulas e a nota final do aluno: quanto mais faltas às aulas o aluno tiver, menor a sua nota final em Cálculo Diferencial. IET/ UniBH, 1º semestre de 2011.

Fonte: COUTO et al., 2013.

Além de gráficos, tabelas com a síntese numérica dos dados coletados no estudo também foram apresentadas no artigo. O uso dessas ferramentas estatísticas de análise de dados mostrou de forma inequívoca que valia a pena implementar ações como o “Cálculo Zero”, pois o fato de se ofertar essa disciplina afetava o resultado dos alunos nas disciplinas obrigatórias de Cálculo Diferencial e GAAL. Esse é um exemplo real de como usar a análise exploratória dos dados e outras técnicas de Estatística e Probabilidades para se entender a fundo um problema, resolvendo-o e se tornando um especialista na área. Referência: XLI CONGRESSO BRASILEIRO DE EDUCAÇÃO EM ENGENHARIA, 2013. Avaliação do Impacto do Cálculo Zero no Desempenho de Alunos Ingressantes de Cursos de Engenharia. Paraná: FADEP, 2013. Disponível em: . Acesso em 14 maio 2015.

047

unidade 2

ESTATÍSTICA E PROBABILIDADES

REVISÃO

coisas realmente conhecidas.

Vimos nesta unidade os principais tópicos da análise exploratória de dados, também denominada de Estatística Descritiva:

Síntese numérica: O resumo de uma variável categórica é muito simples, basta que você apresente suas categorias, a

Síntese gráfica: Uma figura vale mais que mil palavras! Isso é verdade, entretanto um gráfico vale mais que mil palavras se e somente se ele for desenhado de forma clara, correta e concisa. Sempre desenhe gráficos a partir de seus dados, mas tente

frequência de valores em cada categoria e os respectivos percentuais. Já a síntese de variáveis quantitativas é mais ampla e envolve resumir dois aspectos: 1) Um valor típico ou característico para a variável, que é definido pela média ( X ) e

fazê-los de tal forma que a frase “basta

pela mediana (Md). Se média e mediana

olhar para entender” seja válida. Os gráficos

forem semelhantes, então a média deve

mais úteis para análise de dados de

ser usada para representar os dados.

experimentos de pequeno e médio porte na

Entretanto, caso haja discrepância muito

área de Ciências Exatas e Engenharia são:

grande entre média e mediana, então se

gráficos de pizza, barras, colunas, linha,

deve usar a mediana para representar os

séries históricas, histograma, gráfico de

dados;

Pareto, gráfico misto, de coluna e de linha, diagrama de dispersão e box-plot. Na prática devemos construir gráficos usando

2) Uma medida do grau de variabilidade ou de dispersão dos dados, calculada pelo

ferramentas computacionais como o Excel.

desvio padrão amostral ( ) e o coeficiente de variação (CV).

Síntese tabular de dados: Na análise exploratória de dados, em última instância, todos os resultados são apresentados ou

PARA SABER

na forma de figuras ou de tabelas. Assim,

MAIS

invista no título da tabela e sempre coloque respostas claras para pelo menos quatro perguntas: O que? Quem? Quando? Onde?

Caso você deseje aprofundar sobre as questões

Também sugiro que a interpretação das

discutidas nesta unidade, leia os capítulos 2 e 3

informações na tabela seja colocada no

do livro texto: LEVINE, David M. et al. Estatística:

próprio título. Se necessário, coloque notas

teoria e aplicações: usando Microsoft Excel em

explicativas, usando siglas somente para

português. 6. ed. Rio de Janeiro: LTC, 2012,

048

unidade 2

UNIDADE

INTRODUÇÃO À

TEORIA DE PROBABILIDADES

A

origem da teoria das probabilidades é comumente associada à questões colocadas por MÉRÉ (1607-1684) a PASCAL (1623-1662). Todavia, existem autores que sustentam que o cálculo das probabilidades iniciou-se na Itália, com PACCIOLI

(1445-1514), CARDANO (1501-1576), TARTAGLIA (1499-1557) e GALILEO (1564-1642), dentre outros.

Contudo, foi ADOLPHE QUÉTELET (1796 – 1874) o pioneiro na tarefa de mensurar, ou seja, quantificar uma pequena amostra do universo de interesse da investigação, almejando inferir sobre toda a população em estudo, baseando-se em análises probabilísticas e embasando-se em rigorosos métodos científicos. A teoria das probabilidades, porém, só começa a fazer sentido nas engenharias por volta de 1930, quando surgem os primeiros trabalhos práticos destinados aos engenheiros. O primeiro foi executado pelo matemático WILLIAM GOSSET (1876 – 1937), com a aplicação das probabilidades no Controle de Qualidade em uma fábrica de Cervejas. A teoria das probabilidades é uma importante área da estatística que possibilita ao profissional no mercado de trabalho calcular percentuais, trabalhar com estimativas e realizar predições em toda e qualquer área do conhecimento. No que tange às Engenharias, a probabilidade está presente no controle de processos de produtos e serviços, permitindo estimar o risco e o acaso de eventos futuros. Também é amplamente utilizada no que tange ao planejamento de novas técnicas e estratégias de produção e vendas, dentre outras.

050

unidade 3

ESTATÍSTICA E PROBABILIDADES

Suponha que você é o engenheiro responsável pela qualidade na linha de produção de uma grande marca de bebidas. Sabe-se que não é possível “experimentar” todos os produtos antes de disponibilizá-lo ao mercado, pois ninguém compraria uma bebida já provada, e que o processo de fabricação é composto por etapas, por interferências dos funcionários, por equipamentos (que podem estar ou não muito bem regulados), e por uma série de outros fatores controláveis ou não, como até mesmo uma simples umidade excessiva no ambiente de fabricação devido ao período chuvoso. No entanto, você pode suspeitar que um determinado lote, devido à variabilidade inerente ao processo, apresente um percentual de itens não conformes maior que o permitido pelos órgãos fiscalizadores. A teoria das probabilidades vem auxiliá-lo nesse processo de tomada de decisão, permitindo inferir sobre a população em estudo, ou mesmo sobre eventos que ainda irão ocorrer, estimando as “chances” de sucesso do mesmo.

A TEORIA DAS

PROBABILIDADES A teoria das probabilidades nasce na Idade Média com os tradicionais jogos de azar existentes na Corte. Jogos de cartas e dados, ou mesmo os lançamentos de moeda são classificados como fenômenos que envolvem o acaso, assim como a maioria dos jogos esportivos. Uma aplicação direta da teoria das probabilidades no campo das Engenharias é o processo de decisão, seja para aumentar o investimento ou cortar despesas, no qual o profissional do mercado de trabalho deve arriscar-se mantendo “os pés no chão”.

CONCEITO Um dos principais conceitos matemáticos amplamente estudado no que diz respeito à teoria das probabilidades é o de conjunto. Um conjunto pode ser definido como uma coleção de objetos, itens ou serviços que possuem característica (s) comum (s). No contexto da teoria das probabilidades, o conjunto de todos os resultados possíveis a ser estudado em um experimento aleatório é denominado espaço amostral. Espaço Amostral (Ω) é qualquer conjunto de todos os possíveis resultados em um experimento aleatório.

051

unidade 3

ESTATÍSTICA E PROBABILIDADES

Sendo definido como experimento todo e

temos duas possibilidades (cara ou coroa)

qualquer resultado que sugere a incerteza

em cada lançamento, portanto o espaço

antes da observação, ou seja, fenômenos

amostral (Ω) é dado por:

que,

mesmo

repetidos

várias

vezes

sob

Ω = ( possibilidades )(repetições)= 23 = 8

condições semelhantes, apresentam resultados imprevisíveis

(acaso).

Os

resultados

dos

experimentos são nomeados estatisticamente

Se tivermos eventos distintos, como no

como eventos.

lançamento de um dado e uma moeda, o

Um Evento Aleatório (E) é qualquer subconjunto de um espaço amostral.

das probabilidades por definir o espaço de interesse da investigação, permitindo ao pesquisador de toda e qualquer área do conhecimento fazer inferências sobre o todo a partir da parte estudada. Pode ser definido de acordo com o evento de interesse da investigação, podendo ser caracterizado por: (1) o mesmo evento repetidas vezes; ou (2) eventos distintos; ou (3) eventos aleatórios.

no

lançamento

No lançamento de uma moeda e um dado, temos duas possibilidades da moeda (cara ou coroa) e seis possibilidades do dado (os números inteiros de 1 a 6). Portanto, o espaço amostral (Ω) é dado por: Ω = ( possibilidades ) . ( possibilidades ) = 2.6 = 12 Se tivermos eventos aleatórios, como o número de funcionários ausentes em um

Se tivermos o mesmo evento repetidas como

da quantidade de possibilidades de cada evento, como:

O espaço amostral (Ω) é essencial na teoria

vezes,

espaço amostral (Ω) é dado pelo produto

de

um

dado ou de uma moeda, ou mesmo nas possibilidades de filhos de um casal, ou de peças defeituosas em uma linha de produção, o espaço amostral (Ω) é dado pelas possibilidades do evento elevado ao número de repetições realizadas, por exemplo: No lançamento de uma moeda três vezes,

dia de trabalho de uma determinada linha de produção, ou mesmo o número de caminhões presentes em uma determinada rota, não há um modelo matemático que simplifique a mensuração dos elementos que compõem esse espaço amostral. É

preciso

“apelar”

para

o

princípio

fundamental da contagem, ou seja, o serviço “braçal”. Os eventos que compõem o espaço amostral podem ser classificados de acordo

052

unidade 3

ESTATÍSTICA E PROBABILIDADES

com a sua ocorrência. Os eventos nos quais

do que tem”, ou seja:

cada elemento do banco de dados pode

Probabilidade = Quer Tem

ocorrer com a mesma probabilidade são

20 passo 10 passo

chamados de eventos equiprováveis. Existem duas restrições à aplicação da Eventos Equiprováveis são aqueles cujos

definição da probabilidade clássica: (1)

todos os elementos do banco de dados

todos os eventos possíveis devem ter a

têm a mesma probabilidade de ocorrência.

mesma probabilidade de ocorrência, ou seja, os eventos devem ser equiprováveis e

Os

eventos

são

classificados

como

mutuamente exclusivos, se eles não

(2) deve-se ter um número finito de eventos possíveis.

puderem ocorrer simultaneamente, ou seja, A ∩ B= Ø.

LEIS BÁSICAS DE

Se E = Ω, E é chamado de evento certo.

PROBABILIDADES

Se E = Ø , E é chamado de evento impossível. Para qualquer evento E de um espaço amostral Ω : 0 ≤ P ( E ) ≤ 1;

PROBABILIDADE CLÁSSICA E

P ( Ω ) = 1;

PROBABILIDADE FREQUENTISTA

P ( Ac ) = 1 - P ( A ), sendo Ac o evento complementar ao evento A;

A probabilidade de realização de um evento A é dada pelo quociente entre o número de

LEMBRE

ocorrências de A pelo número de eventos possíveis, ou seja: P(A)=

número de orcorrências de A espaço amostral (Ω)

As operações com os eventos utilizam as mesmas propriedades matemáticas, ou seja:

A probabilidade pode ser resumida como o quociente do que se “quer” pelo que se “tem”. Na qual primeiro determina-se o que é possível “ter” e depois retira o que se “quer do que se tem”, não podendo “querer mais

053

unidade 3

ESTATÍSTICA E PROBABILIDADES

QUADRO 3 – Leis Matemáticas PROPRIEDADE

DESCRIÇÃO MATEMÁTICA

Associatividade

(A∩B)∩C=A∩(B∩C) (AUB)UC=AU(BUC)

Comutatividade

A∩B = B∩A AUB = BUA

Distributividade

(A∩B)UC=(AUC)∩(BUC) (AUB)∩C=(A∩C)U(B∩C)

Absorção

ACB → A∩B=A ACB → A∩B=B

Modulares

A ∩Ω = A A ∩Ω = Ω A ∩Ø = Ø A Ø=A A∩B = AUB AUB = A∩B

Leis de De Morgan

A=A

Dupla negação

Fonte: Elaborado pelo autor.

UNIÃO E INTERSEÇÃO

DE EVENTOS

A união de dois eventos A e B, indicada por A U B, é o evento que contém todos os elementos de A e todos os elementos de B. P(AUB)=P(A)+P(B)-P(A∩B) P ( A U B ) = P ( A ) + P ( B ), se A e B são mutuamente exclusivos; A interseção de dois eventos A e B, indicada por A∩B, é o evento que contém todos os elementos comuns a A e B. P(A Ç B) = P(B). P(A | B)

054

unidade 3

ESTATÍSTICA E PROBABILIDADES

Sendo P ( A | B ), a probabilidade condicional, ou seja, a probabilidade de A ocorrer sabendo que o evento B ocorreu. TABELA 12 – Tipo Sanguíneo TIPO SANGUÍNEO

O

A

B

AB

TOTAL

Positivo

156

139

37

12

344

Negativo

28

25

8

4

65

Total

184

164

45

16

409

Fonte: Elaborado pela autora.

A probabilidade de o doador ter tipo sanguíneo O ou A é dada por: 184 + 164 = 0,8508 409 A probabilidade de o doador ter tipo sanguíneo B ou ser Rh negativo é dada por: 45 + 65 - 8 = 0,2494 409

CONCEITO Dois ou mais eventos podem ser classificados como mutuamente exclusivos quando a realização de um exclui a realização do (s) outro (s). No lançamento de uma moeda, o evento "tirar cara" e o evento "tirar coroa" são mutuamente exclusivos, já que a realização de um deles implica, necessariamente, na não realização do outro. Portanto, em eventos mutuamente exclusivos, a probabilidade de que um ou outro se realize é igual à soma das probabilidades de que cada um deles se realize.

055

unidade 3

ESTATÍSTICA E PROBABILIDADES

classificados nas duas categorias. O que

DICAS

se almeja saber é: o tratamento alterou significativamente a proporção de objetos em cada uma das duas categorias?

Eventos mutuamente exclusivos não é a mesma coisa de eventos independentes. O primeiro é

EXEMPLO

utilizado quando apenas um dos eventos pode ocorrer, excluindo qualquer probabilidade de ocorrência do outro. Já o segundo é utilizado quando a ocorrência de um dos eventos não

Em relação à pratica apresentada no início

afeta a ocorrência do outro.

dessa unidade, suponha que em uma amostra

Exemplo: Um grupo de alunos que usa óculos é independente do número de alunos do sexo masculino em sala de aula, mas não são eventos mutuamente exclusivos, pois é possível ter alunos do sexo masculino em sala de aula que usam óculos.

de 2000 produtos disponibilizados ao mercado, sejam 800 refrigerantes e 1200 cervejas, dos quais 5 e 10 apresentaram algum tipo de defeito, respectivamente, seja no rótulo da embalagem, no volume líquido ou qualquer outro tipo de avaria. A tabela 1 apresenta uma tabela de contingência para melhor visualizar esses dados.

TABELAS DE

CONTINGÊNCIA As tabelas de contingência são aplicadas na avaliação do relacionamento das categorias com respeito aos grupos segundo dois modos: independência ou homogeneidade. Ou seja, eventos com dupla entrada. A aplicação de tabela de contingência dois por dois é dada quando n elementos, selecionados

aleatoriamente

de

uma

população, são classificados em duas categorias. Depois dos elementos serem classificados, um tratamento é aplicado e alguns são examinados novamente e

056

unidade 3

ESTATÍSTICA E PROBABILIDADES

TABELA 13 - Produtos Disponibilizados CERVEJA

REFRIGERANTE

TOTAL

Bom

1190

795

1985

Defeito

10

5

15

Total

1200

800

2000

Fonte: Elaborado pela autora.

A partir dessa tabela, é possível estimar que a probabilidade dessa empresa disponibilizar um produto (dentre cervejas e/ou refrigerantes) no mercado com algum tipo de defeito é dada por: P (defeito) = 15 = 0,0075 2000 Portanto, apenas 0,75% dos produtos disponibilizados por essa empresa apresentam algum tipo de defeito.

IMPORTANTE A tabela de contingência é um processo de organizar a informação correspondente a dados dicotômicos. De uma maneira geral, uma tabela de contingência é uma representação dos dados, quer de tipo qualitativo, quer de tipo quantitativo, especialmente quando são de tipo bivariado, isto é, podem ser classificados segundo dois critérios.

EVENTOS

INDEPENDENTES Um ou mais eventos pode (m) ser classificado (s) como independente (s) quando a realização de um dos eventos não afeta a probabilidade de ocorrência do outro, e vice-versa. Quando dois eventos são independentes, P ( A ∩ B ) = P ( A ) . P ( B ).

057

unidade 3

ESTATÍSTICA E PROBABILIDADES

EXEMPLO Nota na prova e ter feito a prova de chinelo; O valor de venda de um produto e a cor do cabelo das funcionárias que o fabricaram.

TEOREMA

DE BAYES A probabilidade condicional, ou seja, as chances de um evento A ocorrer, dado que outro evento B ocorreu, é dada por: P(A|B)=

P(A∩B) P(B)

para P ( B ) > 0. O teorema de Bayes propõe que, se os eventos E1,E2,…,En são partições do espaço amostral Ω, então: P ( Ei | B ) =

P ( B | Ei ) . P ( Ei ) P(B)

Recorrendo à lei de probabilidade total, é possível inferir que: P ( Ei | B ) = ( P ( B | Ei ) . P ( Ei ) ∑ P ( B | Ej )

CONCEITO Seja B1, B2, …, Bn um conjunto de eventos mutuamente exclusivos cuja união forma o espaço amostral Ω. Seja E outro evento no mesmo espaço amostral Ω, tal que P ( E ) > 0, então: P ( E ) = P ( E | B1 ) + P ( E | B2 ) + P ( E | B3 ) + ...⋯+ P ( E | Bn ) P ( E ) = P ( B1 ) . P ( E | B1 ) + P ( B2 ) P ( E | B2 ) + P ( B3 ) P ( E | B3 ) + ...⋯+ P( Bn ) P ( E | Bn )

058

unidade 3

ESTATÍSTICA E PROBABILIDADES

Portanto,

uma simples umidade excessiva no ambiente de fabricação devido ao período chuvoso. Você

P ( E ) = ∑ P ( Bi ) . P ( E | Bi )

pode suspeitar que um determinado lote, devido à variabilidade inerente ao processo, apresente um percentual de itens não conformes maior que

EXEMPLO

o permitido pelos órgãos fiscalizadores? ”

Numa sala de aula, sabe-se que 10% dos homens e 2% das mulheres têm mais de 1,80 m. A sala tem 70% de mulheres e 30% de homens. Um estudante foi escolhido aleatoriamente, e constatou-se que tem mais de 1,80 m. Qual a probabilidade de que seja homem?

Se a empresa aqui citada produzir dois lotes com duas mil unidades em cada por semana, distribuídas entre 1000 cervejas, 600 refrigerantes e 400 sucos por lote, com aproximadamente 0,2, 0,1 e 0,15 por cento de itens defeituosos, respectivamente, podemos utilizar a teoria das

0,10 . 0,70 = 0,9211 0,10.0,70+0,02.0,30

probabilidades para responder questões como:

a) Qual o percentual de refrigerantes distribuídos semanalmente?

APLICAÇÃO

PRÁTICA



b) Qual a probabilidade do consumidor adquirir um suco?

A teoria das probabilidades pode auxiliar



c) Dentre

as

cervejas,

qual

a

facilmente a resolver o problema proposto no

probabilidade do consumidor adquirir

início dessa unidade. Vejamos:

uma cerveja com defeito?

“Suponha que você é o engenheiro responsável



d) Dentre os sucos, qual a probabilidade

pela qualidade na linha de produção de uma

do consumidor adquirir um suco sem

grande marca de bebidas. Está ciente de que

defeito do primeiro lote?

não é possível “experimentar” todos os produtos antes de disponibilizá-lo ao mercado, pois



e) Sabendo que foi adquirido um produto com defeito, qual a probabilidade de

ninguém compraria uma bebida já provada, e

ser um suco?

que o processo de fabricação é composto por etapas, por interferências dos funcionários, por

Para responder essas questões, utilizamos a

equipamentos (que podem estar ou não muito

probabilidade clássica para responder o item (a);

bem regulados), e por uma série de outros

a união de probabilidades para responder o item

fatores controláveis ou não, como até mesmo

(b); a probabilidade condicional para responder o

059

unidade 3

ESTATÍSTICA E PROBABILIDADES

item (c); e o teorema de Bayes para responder o item (d). Ou seja:

a) P (refrigerante ) = 1200 =0,30 = 30% 4000



b) P (suco) = 400 + 400 = 0,40 = 40% 2000 2000

Observe que, neste caso, tanto faz se o consumidor adquirir um suco do primeiro lote ou do segundo lote, independente da ordem de ocorrência do evento. P (cerveja com defeito )



c) P ( defeito│cerveja ) =



d) P ( suco sem defeito do primeiro lote | suco ) =

=

P ( cerveja )

0,5. 0,2 . 0,85

=

0,2.1000 + 0,2 * 1000 1000 + 1000

= 0,0850 = 0,5

0,5.0,2.0,85+0,5.0,2.0,85

0,1700

060

unidade 3

=

400 2000

= 0,20

ESTATÍSTICA E PROBABILIDADES



P ( suco com defeito │defeito ) =

=

2. (0,5 . 0,2 . 0,15 ) 2. ( 0,5 . 0,2 . 0,15 + 0,5 .0,3 .0,1 + 0,5 .0,5 .0,2

= 0,0150 = 0,1875 0,0800

REVISÃO A teoria das probabilidades é utilizada em todas as áreas do conhecimento. Ela visa auxiliar o profissional no mercado de trabalho a predizer valores futuros, estimando as “chances” de ocorrência de um evento antes que ele ocorra. Para calcular a probabilidade, basta dividir o que se “quer” pelo que se “tem”, ou seja: Probabilidade = Quer Tem

20 passo 10 passo

Sendo imprescindível, primeiro, definir o que se “tem” para somente depois retirar do que se “tem” o que se “quer”. Quando a ocorrência de um evento não afeta a realização ou não de um outro evento, eles são classificados como eventos independentes. O Teorema de Bayes é aplicado em situações cuja a probabilidade de ocorrência de um evento está vinculada às chances de sucesso de um outro evento.

061

unidade 3

ESTATÍSTICA E PROBABILIDADES

cartas. Ele é recrutado para integrar o grupo dos

PARA SABER

mais talentosos estudantes da escola, que todos

MAIS

os fins-de-semana vão a Las Vegas, com falsas identidades e com as suas mentes brilhantes,

Filmes

são capazes de aumentar em grande escala as

A Probabilidade Estatística do Amor Á Primeira Vista (Adaptado)

probabilidades de ganhar no blackjack. Além disto, ainda contam com o professor de matemática (e gênio da estatística) Micky

Jennifer E. Smith

Rosa (Kevin Spacey) como líder. A contagem

Com uma certa atmosfera de 'Um dia', mas voltado

das cartas e um, muito bem definido esquemas

para o público jovem adulto, a probabilidade

de sinais, que permitem à equipa vencer nos

estatística do amor à primeira vista é uma

grandes cassinos. Seduzido pelo dinheiro e pelo

história romântica, capaz de conquistar fãs de

estilo de vida de Vegas, e pela sua inteligente

todas as idades. Quem imaginaria que quatro

e sexy amiga Jill Taylor (Kate Bosworth), Ben

minutos poderiam mudar a vida de alguém?

começa a ir até ao limite.

Mas é exatamente o que acontece com Hadley. Presa no aeroporto em Nova York, esperando outro voo depois de perder o seu, ela conhece Oliver. Um britânico fofo, que se senta a seu lado na viagem para Londres. Enquanto conversam sobre tudo, eles provam que o tempo é, sim, muito, muito relativo. Passada em apenas 24 horas, a história de Oliver e Hadley mostra que o amor, diferentemente das bagagens, jamais se

Apesar da contagem da carta não ser ilegal, o risco é cada vez mais elevado e o grande desafio prende-se agora com, não só manter a contagem correta, mas também enganar o chefe de segurança dos casinos: Cole Williams (Laurence Fishburne). Quebrando a Banca. Direção: Robert Luketic. EUA: Sony Pictures, 2008. (123 min), son., color., legendado.

extravia. SMITH, Jennifer E. A Probabilidade Estatística do Amor à Primeira Vista. Rio de Janeiro: Galera Record, 2013

Quebrando a banca (Adaptado). Ben Campbell (Jim Sturgess) é um brilhante estudante do M.I.T. (Instituto Tecnológico de Massachusetts). O seu único problema é não ter dinheiro para pagar as contas escolares, mas a solução está onde ele menos esperava: nas

062

unidade 3

UNIDADE

MODELOS PROBABILÍSTICOS

A

ssim como a Matemática, também a Estatística apresenta funções que norteiam o comportamento de suas variáveis, como as retas, parábolas e hipérboles. Na Estatística temos os modelos probabilísticos. Esses modelos são funções

paramétricas que descrevem o comportamento de uma variável em estudo.

064

unidade 4

ESTATÍSTICA E PROBABILIDADES

VARIÁVEIS

que resultam de processos aleatórios nos

ALEATÓRIAS

quais os resultados possíveis são casuais e formam um conjunto enumerável.

O estudo das variáveis aleatórias é de suma importância nas engenharias ou mesmo

São classificadas como variáveis contínuas

em qualquer outra área do conhecimento

as funções para as quais é possível associar

técnico e científico. Isso porque, nem

infinitos valores a um intervalo ( a, b ), sendo

sempre, os dados que compõem o estudo

que para valores que não pertencem ao

estatístico são números, sendo necessário

intervalo no qual se limita o experimento, a

descobrir um meio de transformá-los em

probabilidade de ocorrência é zero.

números, a partir de uma função chamada de ‘variável aleatória’, visando facilitar a estimativa das medidas estatísticas.

VARIÁVEIS

DISCRETAS

CONCEITO

É função P ( x ) aquela nas quais se associam probabilidades aos valores da variável aleatória X abordada no estudo estatístico. Ou seja, quando uma variável

Probabilidade Seja

um

experimento

aleatório

qualquer

de um espaço amostral Ω e um espaço de probabilidades P. Então a variável aleatória X no espaço de probabilidade é uma função real definida no espaço amostral Ω, tal que ( X ≤ x ) é um evento aleatório para qualquer x real.

As

variáveis

aleatórias

podem

aleatória X assume os valores x1,x2,x3,…,xn com as respectivas probabilidades p ( x1 ), p ( x2 ), p ( x3 ) ,…, p ( xn ) definidas por uma P ( X ), na qual a soma de todas as possíveis probabilidades é igual a um, conforme apresentado na tabela 14, ou seja:

ser

classificadas como contínuas ou discretas, de acordo com o domínio da variável abordada no estudo. São classificadas como variáveis discretas as funções para as quais é possível associar um único número real a cada evento de uma partição do espaço amostral Ω. Portanto são variáveis

065

unidade 4

ESTATÍSTICA E PROBABILIDADES

TABELA 14 - Distribuição de probabilidades discretas X

x1 x2 x3 ... xn

P (X) p ( x1 ) p ( x2 ) p ( x3 ) ... p ( xn ) Fonte: Elaborado pelo autor.

Para uma distribuição discreta de probabilidades, é possível definir a função acumulada indicada por F ( x ) = P ( X ≤ xi ), ou seja, a probabilidade da variável aleatória assumir valores menores ou iguais a xi. O valor esperado, indicado por E ( x ) = μ, é a esperança matemática de uma variável aleatória discreta X que assume os valores x1, x2, x3, …, xn com as respectivas probabilidades p ( x1 ), p ( x2 ), p ( x3 ),…, p ( xn ) definidas por uma P ( Xn ), ou seja, é igual ao valor médio da variável: E ( x ) = x1 . p ( x1 ) + x2. p ( x2 ) + x3 .p ( x3 )+...+ xn. p (xn) n

E (x) = ∑ xi . p ( xi ) i =1

DICAS O valor esperado, indicado por E (x) = μ, é a média de uma variável discreta.

A variância, ou seja, a medida estatística que concentra as probabilidades em torno da média é indicada por Var ( x ) ou σ2 e dada por: Var ( x ) = E ( x2 ) - [ E ( x ) ] 2 sendo E ( x ) o valor esperado, e E (x2 ) dada por: E ( x2 ) = x12 . p ( x1 ) + x22. p ( x2 ) + x32 . p ( x3 ) + ... + xn2 . p ( xn ) n

2

E ( x2 ) = ∑ xi . p ( xi ) i =1

066

unidade 4

ESTATÍSTICA E PROBABILIDADES

DICAS O desvio padrão indicado por DP ( x ) = σ é a raiz da variância, ou seja: DP ( x ) =

√Var ( x )

Para uma variável aleatória n-dimensional (também chamada de vetor aleatório), com n=2, denota-se por ( X,Y ) o vetor aleatório, sendo: TABELA 15 - Distribuição discreta VALORES ASSOCIADOS À VARIÁVEL X

P(Y)

Valores associados à variável Y

Probabilidade conjunta P ( X, Y )

Probabilidade marginal de Y

P(X)

Probabilidade marginal de X

1

X

Y

Pois P (X,Y) é uma f.d.p.

Fonte: Elaborado pelo autor.

IMPORTANTE Só é possível realizar análises estatísticas sobre distribuições que sejam uma função densidade de probabilidade, ou seja, f.d.p. Dizemos que uma ou mais variáveis são uma f.d.p. quando a soma de todas as probabilidades que compõem o evento em estudo é igual a 1, ou seja, 100%. Portanto, uma ou mais variáveis podem ser classificadas como f.d.p. quando: n

∑ p ( xi ) = p ( x1) + ( x2 ) + p ( x3 ) + ... + p ( xn ) = 1

i =1

067

unidade 4

ESTATÍSTICA E PROBABILIDADES

ATENÇÃO As probabilidades são sempre dispostas paralelamente às suas variáveis na construção da tabela bidimensional. Portanto, se invertermos as posições de X e Y na tabela anterior, teremos a seguinte distribuição de probabilidades:

TABELA 16 - Distribuição discreta VALORES ASSOCIADOS À VARIÁVEL Y

P(X)

Valores associados à variável Y

Probabilidade conjunta P ( X, Y )

Probabilidade marginal de X

P(Y)

Probabilidade marginal de Y

1

X

Y

Pois P (X,Y) é uma f.d.p.

Fonte: Elaborado pelo autor.

O valor esperado da distribuição conjunta, indicado por E ( X, Y), é dado pelo produto entre cada valor associado à variável X, com cada valor associado à variável Y e sua respectiva probabilidade conjunta, ou seja: n

n

E ( X, Y ) = ∑ ∑ xi . yj . p ( xi , yj ) i =1 j =1

E ( X, Y ) = a . d . p ( a , d ) + b . d . p ( b, d ) + c . d . p ( c, d ) + a . e . p ( a, e ) + b . e . p ( b , e ) + + c . e . p ( c, e ) + a . f . p ( a, f ) + b . f . p ( b, f ) + c . f . p ( c, f ) Para a tabela de distribuição a seguir: TABELA 16 - Distribuição discreta X

Y

A

B

C

P(Y)

d

P (a, d )

P ( b, d)

P ( c, d )

P(d)

e

P ( a, e )

P ( b, e )

P ( c, e )

P(e)

f

P ( a, f )

P ( b, f )

P ( c, f )

P(f)

P(X)

P ( a )

P ( b )

P(c)

1

Fonte: Elaborado pelo autor.

068

unidade 4

ESTATÍSTICA E PROBABILIDADES

VARIÁVEIS

b

E (x) = ∫ x .f ( x ) dx

CONTÍNUAS

a

É uma função f ( x ) aquela nas quais se associam

probabilidades

aos

infinitos

A variância, ou seja, a medida estatística

valores da variável aleatória X, abordada

que concentra as probabilidades em torno

no estudo estatístico. Ou seja, quando uma

da média é indicada por Var ( x ) ou σ2 e

variável aleatória X assume infinitos valores

dada por:

em um determinado intervalo ( a, b ), sendo a probabilidade igual a zero para valores

Var ( x ) = E ( x2 ) - [ E ( x ) ]2,

fora desse intervalo e a soma de todas as possíveis probabilidades contidas nesse

sendo E ( x ) o valor esperado, e E ( x2 ) dada

intervalo igual a um. Portanto, para as

por:

variáveis contínuas, temos que:

b

E ( x ) = ∫ x2 . f ( x ) dx〗 2

• f (x) ≥ 0, x C R; A



a

+ oo

∫ f ( x ) dx = 1 (toda área sob a - oo



curva de probabilidade, ou curva

de frequência, definida por f ( x ) vale um);

Para

uma

variável

aleatória

contínua

bidimensional, definida em todos os valores dos números reais, a função densidade de probabilidade conjunta f ( x, y ) é uma função que satisfaz:

b



• P ( a ≤ x ≤ b) = (probabilidade

∫a

f ( x ) dx

correspondente

à área sob a curva limitada pelo intervalo compreendido entre x = a e x = b ). Esse assunto será mais detalhado posteriormente no estudo da distribuição normal. O valor esperado, indicado por E ( x ) = μ, é a esperança matemática de uma variável aleatória contínua X, que assume os infinitos valores do intervalo ( a, b ), ou seja:



• f ( x, y ) ≥ 0, para todo ( x, y ) R2;

•∫R



R

f ( x, y ) d x d y =1

O valor esperado da distribuição conjunta, indicado por E ( X, Y ), é dado por: E ( X, Y ) =∫R



R

x . y . f ( x, y ) d x d y

A covariância para as variáveis contínuas ou discretas, ou seja, a medida estatística que possibilita verificar se as variáveis envolvidas na análise são diretamente ou

069

unidade 4

ESTATÍSTICA E PROBABILIDADES

inversamente proporcionais. Isso porque à medida que X aumenta o Y também aumenta, ou à medida que X diminui o Y aumenta, respectivamente. Tal relação é dada por: Cov ( X, Y ) = E ( X, Y ) - E ( X ) . E ( Y ) E o coeficiente de correlação das variáveis contínuas ou discretas, indicado por ρX , Y , ou seja, a medida estatística que mensura a relação entre as variáveis X e Y é dado por: ρ X, Y = Cov ( X, Y ) σX . σY Sendo -1 ≤ ρ X,Y ≤ 1.

IMPORTANTE ndependentemente de a classificação da variável aleatória ser dada como discreta ou contínua, sendo a e b constantes e x e y variáveis aleatórias, valem as propriedades: E(X)=μ

Var ( x ) = σ2

E(a)=a

Var ( a ) = 0

E(ax)=a.E(x)

Var ( a x ) = a2 . Var ( x )

E(a±bx)=a±b.E(x)

Var ( a ± b x ) =b2 . Var ( x )

E(ax±by)=a.E(x)±b.E(y)

Var ( a x ± b y ) = a2 . Var ( x ) = b2 . Var ( y ) ± 2 . a . b . Cov ( x, y )

CONCEITO Duas variáveis aleatórias X e Y são independentes se o produto das distribuições marginais for igual à distribuição conjunta, ou seja: p ( x ) . p ( y ) = p ( x , y ) para distribuição discreta; f ( x ) . f ( y ) = f ( x , y ) para distribuição contínua.

070

unidade 4

ESTATÍSTICA E PROBABILIDADES

MODELOS

Para se caracterizar como distribuição

PROBABILÍSTICOS

binomial, a variável aleatória abordada no estudo deve ter:

Assim como na Matemática, temos os modelos que representam o comportamento

a) n tentativas ou provas independentes, ou seja, eventos sem reposição;

da variável abordada no estudo, ou seja, as retas, parábolas e hipérboles dentre tantas outras funções matemáticas. Na Estatística,

b) cada uma das n tentativas só admite dois

os modelos probabilísticos descrevem o

resultados possíveis, sendo eles sucesso

comportamento de uma variável, sendo

ou falha;

possível calcular a probabilidade associada aos eventos da variável abordada no

c) as probabilidades de sucesso e falha são

estudo, recorrendo apenas aos modelos

complementares e constantes durante

probabilísticos.

todo o processo de observação.

Esses

modelos

são

chamados de distribuições, apresentando particularidades próprias que facilitam a

O valor esperado, ou seja, a média da

sua identificação, podendo ser divididos

distribuição binomial e a variância são

em contínuos e discretos, assim como as

dadas por:

variáveis estudadas no início deste capítulo. E ( x ) = μ = n . p e Var ( x ) = σ2 = np . ( 1 - p ), respectivamente.

DISTRIBUIÇÃO

BINOMIAL

A probabilidade de ocorrência de um determinado

A distribuição binomial é denotada por

casos dicotômicos, ou seja, experimentos aleatórios com apenas duas possibilidades

distribuição

n P ( X = x ) = ( x ). px. ( 1 - p )n-x

amostragens (tentativas) e p a probabilidade uma distribuição discreta, aplicada em

na

binomial é dada por:

X~Bin ( n; p ), sendo n o número de de sucesso do experimento. Trata-se de

evento

n sendo: ( x ) a combinação de n elementos n n! x a x, ou seja: ( x ) = e p a ( n- x) ! . x! probabilidade de sucesso.

de resposta, denotadas por sucesso ou falha. Podemos citar como exemplo o

A distribuição binomial é amplamente

lançamento de uma moeda, um item ter

aplicada para avaliar probabilidades de

defeito ou não, um funcionário faltar ou não.

eventos relacionados com controle de

071

unidade 4

ESTATÍSTICA E PROBABILIDADES

qualidade, mercado de ações, risco de

P(X=x)=

apólices de seguro, análise demográfica e

e-λ . λx x!

vendas, dentre outras inúmeras situações de controle da variabilidade inerente ao processo produtivo.

A distribuição Poisson pode ser aplicada como um caso limite da binomial, quando o

tamanho

da

amostra

em

eventos

dicotômicos é maior que 30.

DISTRIBUIÇÃO

POISSON

A distribuição Poisson é denotada por X~Poisson (λ), sendo λ a taxa média, 1 ou seja, λ = μ e sendo λ também sempre inversamente proporcional ao intervalo de tempo ou espaço definido no problema. Portanto, o seu valor deve corresponder ao tamanho do intervalo apresentado. Assim, para qualquer outro intervalo, o valor da média deve sofrer a correção numérica adequada.

discreta, aplicada em variáveis aleatórias cujo número de sucessos observados num intervalo contínuo, de tempo ou espaço, estar

NORMAL

A distribuição normal é denotada por X~Normal (μ; σ2 ), sendo o valor esperado, ou seja, a média da distribuição normal e a variância dadas por: E ( x ) = μ e Var ( x ) = σ2, respectivamente. Por

A distribuição Poisson é uma distribuição

pode

DISTRIBUIÇÃO

relacionado

à

quantidade

de: carros que passam em um sinal por minuto; defeitos por metro quadrado de um revestimento; chamadas por hora numa

determinado

evento

Poisson é dada por:

com

razões,

tanto

na

teoria

quanto na prática, a distribuição normal é a mais importante das distribuições de probabilidade. Isso porque muitas variáveis no mundo real têm comportamento bastante aproximado

dessa

distribuição.

Sua

relevância pode ser destacada pelo fato de: a) seus resultados serem de fácil operação matemática;

delegacia etc. A probabilidade de ocorrência de um

diversas

b) muitas técnicas estatísticas pressuporem que os dados têm distribuição normal;

distribuição

c) os dados de muitas situações reais,

072

unidade 4

ESTATÍSTICA E PROBABILIDADES

embora não sejam rigorosamente normais, podem gerar bons resultados, facilitando o tratamento matemático; d) a distribuição amostral de muitas estatísticas tenderem à distribuição normal, em face do teorema do limite central. Essa distribuição é classificada como contínua, podendo a variável assumir qualquer valor dentro de um intervalo previamente definido. Essa distribuição, delineada por uma curva em forma de sino com f.d.p, é dada por:

As principais propriedades da distribuição normal são: 1) ter a forma de um sino; 2) ser simétrica em relação à média μ ; 3) ser assintótica1 em relação ao eixo de x; 4) ser unimodal2 e ter achatamento proporcional ao desvio padrão ou variância; 5) ter média, moda e mediana iguais. FIGURA 21 - Distribuição normal

Fonte: TRIOLA, 2011, p.88.

1 - Não toca o eixo x. 2 - Só tem uma moda.

073

unidade 4

ESTATÍSTICA E PROBABILIDADES

Como o cálculo da área abaixo da curva é a integral da f.d.p. nos limites desejados e esse cálculo é, muitas vezes, longo, a área sob a curva pode ser simplificada pela transformação: z=

x-μ w σ

Sendo z uma variável aleatória com distribuição normal, média zero e variância 1, e x sendo uma variável aleatória com distribuição normal, média μ e variância σ2. A área total limitada pela curva normal e pelo eixo das abscissas é 1u.a. (uma unidade de área), ou seja, 100%, sendo as áreas sob a curva limitadas pela distância entre o desvio padrão e a média. Essa área é apresentada na tabela a seguir. TABELA 18 - Área sob a curva da normal

Fonte: BARBETTA, 2010, p. 377.

074

unidade 4

ESTATÍSTICA E PROBABILIDADES

Sendo a primeira coluna e a primeira linha o número inteiro mais a primeira casa decimal e a segunda casa decimal, respectivamente, do número z calculado pela estatística de teste x-μ z= e, no centro da tabela, as probabilidades correspondentes à área entre zero e esse σ ponto, conforme ilustração a seguir. FIGURA 22 - Distribuição normal padrão

Fonte: Elaborado pela autora.

APLICAÇÃO

PRÁTICA

Uma grande indústria compra diversos novos processadores de texto no final de cada ano, sendo que o número exato deles depende da frequência dos reparos no ano anterior. Suponha que o número de processadores, indicado por X, que são comprados a cada ano, tenha a seguinte distribuição de probabilidade:

TABELA 19 - Distribuição de frequências X

0

1

2

P(X)

0,10

0,30

0,40

3 0,20

Fonte: Elaborado pelo autor.

Se o custo do modelo desejado permanecer fixo em R$ 1500,00 durante este ano e um desconto de 50.X2 (em reais) for fornecido em relação a qualquer compra, quanto a empresa espera gastar E ( X ) em novos processadores no final do ano? E ( X ) = 0.0,1 + 1.0,3 + 2.0,4 + 3.0,2 E ( X ) = 1,7

075

unidade 4

ESTATÍSTICA E PROBABILIDADES

REVISÃO A distribuição discreta é usada em casos cujos dados analisados podem ser alocados em uma tabela de probabilidades, sendo que aquelas localizadas no centro da tabela são classificadas como probabilidade conjunta e as localizadas nas laterais, como probabilidades marginais. Probabilidades marginais são aquelas que correspondem a apenas uma das variáveis em estudo, e as probabilidades conjuntas são as que correspondem a duas variáveis analisadas concomitantemente. A distribuição contínua é usada em casos cujos dados analisados podem ser alocados em um intervalo contínuo. No que tange as distribuições de probabilidade, cabe ressaltar: TABELA 20 - Revisão das medidas de tendência central DISTRIBUIÇÃO

LIMITAÇÕES

QUANDO USAR

Binomial

Não usual para amostras com mais de 30 elementos.

Quando os eventos estudados permitem apenas duas respostas possíveis.

Poisson

Quando o foco do estudo é na quantidade do período.

Normal

Quando a média e o desvio padrão são conhecidos.

Fonte: Elaborado pelo autor.

PARA SABER

MAIS

MOORE, David. A estatística básica e sua prática. Rio de Janeiro. LTC, 2014. Para uma fundamentação matemática mais aprofundada sobre o assunto, consulte a seguinte obra: MONTGOMERY, Douglas; RUNGER, George Estatística aplicada e probabilidade para engenheiros. 3 ed. Rio de Janeiro: LTC, 2009.

076

unidade 4

UNIDADE

ESTIMAÇÃO DE MÉDIAS

E PROPORÇÕES

N

as unidades anteriores, você estudou três grandes áreas do método estatístico: amostragem e coleta de dados; análise exploratória de dados; e teoria de probabilidades. A partir de agora, você vai entender como essas áreas se relacionam

para construir a quarta área do método estatístico, que é a decisão na presença de incerteza ou estatística inferencial.

A estatística inferencial recebe esse nome por ser um conjunto de métodos e técnicas que permitem, a partir dos dados provenientes de uma amostra, inferir informações sobre toda a população alvo do estudo. Logicamente existe uma incerteza associada a esse processo, mas ela é quantificada através dos níveis de confiança e margens de erro do estudo. Essa é a grande contribuição da estatística inferencial, permitir que se conheça o nível de incerteza da informação antes de tomar decisões. Existe uma infinidade de técnicas de estatística inferencial, como os intervalos de confiança, testes de hipóteses paramétricos e não paramétricos, análises de correlação e regressão, dentre outras. Para que você tenha noção da quantidade de técnicas, imagine que exista um curso de graduação em Estatística com duração de quatro anos em que o aluno passa a maior parte do tempo estudando técnicas de estatística inferencial. E ainda assim esse tempo não é suficiente para estudar todas as técnicas! A boa notícia é que em todas essas técnicas existe um ponto em comum, conceitos que são utilizados em todas elas, como estimativa pontual, intervalos de confiança e testes de hipóteses. Esses conhecimentos estão presentes em todas as técnicas de estatística

078

unidade 5

ESTATÍSTICA E PROBABILIDADES

inferencial. E é exatamente o que estudaremos nas próximas unidades. Nesta unidade, especificamente, você vai conhecer o teorema principal da estatística, o fundamento de grande parte das técnicas de estatística inferencial: o teorema central do limite. Esse teorema fala sobre a relação entre o modelo normal de probabilidades e a média calculada a partir de uma amostra. Você consegue imaginar qual seja essa relação? Aqui você vai descobrir como são calculadas as margens de erro das pesquisas eleitorais, que são obtidas através das estimativas pontuais e intervalares para médias e proporções populacionais. Vai descobrir como utilizar o Excel para construir uma calculadora para intervalos de confiança. E também um software muito útil para fazer várias análises estatísticas, o EpiInfo.

TEOREMA CENTRAL

DO LIMITE

Imagine a seguinte situação: um engenheiro de produção deseja monitorar um processo de produção de fibra sintética de maneira a garantir que a característica de qualidade resistência à tração esteja sempre dentro dos limites de especificação. É conhecido que a resistência à tração das fibras produzidas naquela empresa é normalmente distribuída com média de 75 psi (libras força por polegada quadrada) com desvio-padrão de 3,5 psi. Como não é viável medir a característica de qualidade em todas as peças produzidas (inspeção 100%) ele decidiu coletar amostras periodicamente para verificar se não houve alteração na média do processo. Acontece que cada vez que ele coleta uma amostra e obtém a média dessa amostra existe uma variação, ou seja, as médias das amostras são sempre diferentes. A dúvida é: o engenheiro pode afirmar que houve alteração na média do processo (de todas as peças produzidas) ou a variação é devida simplesmente à uma flutuação amostral? O teorema central do limite (TCL) poderá auxiliar o engenheiro a interpretar os resultados dessas amostras e resolver a dúvida. O TCL diz que quando trabalhamos com amostras e calculamos médias, as médias das amostras são normalmente distribuídas em torno da verdadeira média populacional. Isso acontece porque, exatamente pelo fato de serem baseadas em sorteio aleatório, as amostras são sempre diferentes e, se calcularmos então a média em cada amostra, é bem difícil encontrarmos exatamente os mesmos valores.

079

unidade 5

ESTATÍSTICA E PROBABILIDADES

Entretanto, apesar de as amostras serem

3,5 psi. Encontre a probabilidade de uma

diferentes

amostra aleatória de n = 25 fibras ter uma

se

e

terem

selecionarmos

médias várias

diferentes,

amostras

e

resistência média menor que 73,6 psi.

obtivermos suas médias, podemos fazer um histograma dessas médias. Ao realizar esse

Note que a distribuição amostral de

procedimento poderemos ver que, à medida

normal, com média μX = ̅75 psi e um desvio-

que aumentamos a quantidade de amostras,

padrão de

é

o histograma mais se assemelha à curva da distribuição normal de probabilidades

σX ̅ = σ = 3,5 = 0,7 psi

√n √25

e, ainda, a média dessas médias mais se aproxima da verdadeira média populacional.

Consequentemente,

probabilidade

desejada corresponde à área sombreada na

Definição do teorema central do limite:

figura abaixo.

Se X é uma variável aleatória com média µ e variância σ2 e

a

FIGURA 23 - Distribuição amostral de X Média 75 e desvio-padrão 0,7

é a média de uma amostra

com n elementos dessa variável aleatória, então podemos dizer que a forma limite da distribuição de z=

X-μ σ ⁄√n

é a distribuição normal padrão quando n Fonte: Elaborada pelo autor.

tende ao infinito. Podemos dizer ainda que X é normalmente distribuído com média μX = μ e desviopadrão σX = σ ⁄

√n

.

Desse modo, podemos dizer que P(

< 73,6 ) = P ( Z < z ) onde o valor de z é

obtido através da padronização:

EXEMPLO

z=

Pensando no exemplo das fibras sintéticas, chamamos de X a variável aleatória

73,6 - 75 = -2 35 ⁄√25

Então,

resistência à tração das fibras. Sabemos que a média é 75 psi e o desvio-padrão é

P(

080

unidade 5

< 73,6 ) = P ( Z < -2 ) = 0,0228 (pela

ESTATÍSTICA E PROBABILIDADES

tabela da distribuição normal padrão). O resultado acima indica que a probabilidade de selecionar uma amostra de fibras e obter resistência média menor que 73,6 psi é de 2,28%. Na Unidade 7 veremos que essa probabilidade pode ser considerada baixa e, portanto, de posse dessa informação, o engenheiro poderia adotar o seguinte critério: ao observar uma amostra de fibras com resistência média menor que 73,6 psi, o processo deve ser verificado. É importante ressaltar que o TCL pode ser utilizado ainda que a distribuição da variável aleatória X não seja normal, ou seja, o teorema é valido para qualquer que seja a distribuição de X. Essa é a grande contribuição do TCL para o desenvolvimento dos métodos estatísticos. Entretanto, nas situações em que a distribuição da variável aleatória X seja muito assimétrica, a aplicação do TCL é adequada para amostras grandes ( n ≥ 30 ). A figura abaixo ilustra as distribuições amostrais de

para diferentes populações e diferentes tamanhos de amostra.

FIGURA 24 - Distribuições amostrais de População original (distribuição de X)

para diferentes populações e tamanhos de amostra

Distribuição amostral de X para n = 2

Distribuição amostral de X para n = 5

Fonte: Elaboração do autor.

081

unidade 5

Distribuição amostral de X para n = 30

ESTATÍSTICA E PROBABILIDADES

Note nos gráficos acima que a aproximação pela distribuição normal é razoável para amostras com 30 ou mais observações. Por essa razão, a utilização do teorema central do limite é adequada quando o tamanho da amostra for ao menos 30 ou quando a distribuição da variável aleatória X for normal. Nos próximos tópicos, você vai descobrir como aplicar o teorema central do limite para obter estimativas intervalares para médias e proporções populacionais a partir da média e proporções amostrais. Na Unidade 7, o TCL será utilizado para realizar testes de hipóteses sobre os parâmetros populacionais.

ESTIMAÇÃO PONTUAL E POR INTERVALOS DE CONFIANÇA

PARA UMA MÉDIA POPULACIONAL

Neste tópico, você vai aprender a obter uma estimativa para média populacional e calcular a precisão dessa estimativa. Você vai entender por que apresentar a margem de erro e o nível de confiança da pesquisa é tão importante quanto apresentar a estimativa pontual para média. Após a leitura deste tópico, você terá um novo olhar sobre as estatísticas que lhe são apresentadas diariamente em jornais ou revistas. Considere que uma montadora desenvolveu um novo modelo e está elaborando a ficha técnica do veículo. Uma informação relevante para o cliente é o consumo médio de combustível. Sabese que o consumo está relacionado ao tipo de combustível (etanol ou gasolina ), à maneira de conduzir, ao tipo de via (cidade ou estrada), à qualidade do combustível, dentre outras variáveis. O consumo pode variar também entre os veículos de mesmo modelo, por essa razão podemos tratar o consumo de combustível como uma variável aleatória. Para definir o consumo médio de combustível do novo modelo de veículo, a montadora coletou dados sobre distância percorrida e consumo de combustível de 35 veículos. Com esses dados, calculou o consumo médio na estrada e na cidade tanto para gasolina quanto para etanol. Os resultados são apresentados na tabela abaixo: TABELA 21 - Revisão das medidas de tendência central TRAJETO

ETANOL (KM/L)

GASOLINA (KM/L)

Cidade

8,7

12,5

Estrada

10,4

15,2

Fonte: Elaborado pelo autor.

082

unidade 5

ESTATÍSTICA E PROBABILIDADES

Os

35

veículos

que

participaram

do

Onde:

experimento podem ser considerados uma amostra do total de veículos produzidos

zα ⁄2 está relacionado ao nível de confiança

pela montadora, já que o objetivo é obter

desejado para o estudo;

informação sobre todos os veículos do referido modelo que são produzidos. Dessa

σ é

forma, a montadora está utilizando a média da amostra

o

desvio-padrão

populacional

da

variável aleatória X;

para estimar µ, o consumo

médio de todos os veículos.

n é o tamanho da amostra coletada.

Dizemos que a média da amostra

O nível de confiança do estudo é definido

representa um único estimador numérico

pelo valor de zα⁄2 que pode ser obtido da

da média da população. Por essa razão,

tabela da distribuição normal padrão. O nível

recebe o nome de estimador pontual.

de confiança é dado em valor percentual e

Observe, por exemplo, na tabela 20 que o

deve ser sempre inferior a 100%. Chamamos

consumo médio do veículo na cidade com

significância (α) o percentual restante, de

etanol foi estimado em 8,7 km/l, mas não foi

maneira que confiança + significância =

apresentada nenhuma informação quanto à

100%. Por exemplo, para um estudo com

precisão dessa estimativa.

95% de confiança, o valor de α será 5%. O valor de z = 1,96 é definido então a partir da

No tópico anterior, vimos que a média

distribuição normal padrão, como ilustra a

amostral

figura abaixo:

pode ser considerada uma

variável aleatória. Isso significa que, caso FIGURA 25 - Definição do valor de z para confiança de 95%

selecionássemos outra amostra de 35 veículos e calculássemos o consumo médio na cidade com etanol, o resultado poderia ser diferente de 8,7 km/l. Por essa razão, a estimativa pontual deve vir sempre acompanhada da margem de erro, informando assim sua precisão. A margem de erro pode ser obtida através da equação abaixo: E = Zα

σ

Fonte: Elaborado pelo autor.

/2 √n

083

unidade 5

ESTATÍSTICA E PROBABILIDADES

Observe também que, para o cálculo da

IC [ μ; ( 100 - α ) % ] =

margem de erro, precisamos conhecer o desvio-padrão populacional da variável aleatória X, isto é, o desvio-padrão do consumo de combustível de todos os veículos do referido modelo produzidos pela

montadora.

Entretanto,

como

a

amostra pode ser considerada grande ( n > 30 ), podemos utilizar o desvio-padrão da amostra s como aproximação de σ, e então o cálculo da margem de erro será:

E = Zα

S

de ( 100 - α ) % de confiança, é dado pela

média amostral menos a margem de erro e a média amostral mais a margem de erro. O resultado do exemplo acima é comumente interpretado da seguinte maneira: “se

correspondentes intervalos com 95% de confiança, esperamos que a proporção de

para o verdadeiro consumo médio de etanol na cidade para esse veículo, com um nível de 95% de confiança, sabendo que o desviopadrão do consumo de etanol na cidade para a amostra dos 35 veículos foi de 4 km/l.

√35

verdadeira média populacional, com um nível

e, para cada uma delas, calcularmos os

/2 √n

4

Ou seja, o intervalo de confiança para μ, a

obtivermos várias amostras de 35 veículos

Vamos obter, portanto, a margem de erro

E = 1,96

±E

intervalos que contenham o verdadeiro consumo médio μ seja igual a 95%”. Exemplo: Para os dados da tabela 20, supondo que o desvio-padrão para o consumo de etanol na estrada seja de 2 km/l, obtenha o intervalo

= 1,325

de 95% para o verdadeiro consumo médio.

O cálculo acima mostra que a margem de erro do estudo é de 1,325 km/l para o consumo do veículo ao rodar com etanol na cidade. Com isso, podemos dizer que o verdadeiro consumo médio do veículo é de 8,7 km/l com

Solução: Para resolver a questão acima, podemos utilizar a equação:

uma margem de 1,325 km/l para mais ou para menos, ou seja, está entre 8,7 - 1,325 = 7,375

IC [ μ; 95% ] =

±E

km/l e 8,7 + 1,325 = 10,025 km/l. O intervalo que acabamos de construir (7,375; 10,025)

Precisamos, portanto, encontrar a margem

é conhecido como intervalo de confiança ou

de erro do estudo. Para isso, vamos utilizar

estimador intervalar e é definido pela equação:

a equação:

084

unidade 5

ESTATÍSTICA E PROBABILIDADES

E = Zα

o desvio-padrão populacional também é

S

/2 √n

desconhecido, o que torna inadequada a aplicação da equação para o cálculo da margem de erro.

Logo: E = 1,96 *

2

√35

= 0,663

Felizmente,

quando

trabalhamos

com

grandes amostras ( n > 30 ), o desvio-

Então:

padrão amostral (s) é uma boa aproximação para o desvio-padrão populacional (σ), o

IC [ μ ; 95% ] = 10,4 ± 0,663

que possibilita a utilização da equação O intervalo é comumente apresentado como

apresentada para o cálculo da margem de

segue:

erro. Mas, o que fazer quando a amostra é pequena ( n < 30 )? É exatamente o que descobriremos aqui.

IC [ μ ; 95% ] = [ 9,737 ; 11,063 ] Dessa forma, afirmamos com 95% de

Nas situações em que a amostra é pequena,

confiança que o consumo médio de etanol

nos deparamos com dois problemas:

na estrada para o novo modelo de veículo está entre 9,737 km/l e 11,063 km/l.

1. Não podemos utilizar o teorema central do limite para dizer que a média amostral (

TCL é válido somente para amostras com

ESTIMAÇÃO POR INTERVALOS DE CONFIANÇA PARA

mais de 30 observações. 2. A

UMA MÉDIA POPULACIONAL (AMOSTRAS PEQUENAS)

pelo

desvio-padrão desvio-padrão

Para contornar o problema 1, lançamos mão do seguinte teorema:

intervalo de confiança exige o conhecimento populacional

do

amostral é considerada pobre.

que o cálculo da margem de erro para o desvio-padrão

aproximação

populacional

Você deve ter observado no tópico anterior

do

) é normalmente distribuída, pois o

(σ).

Entretanto, na maioria das vezes em que se deseja estimar a média populacional,

085

unidade 5

Se X é uma variável aleatória normalmente distribuída, ao selecionar amostras de tamanho n, a distribuição amostral de será uma distribuição normal.

ESTATÍSTICA E PROBABILIDADES

Esse teorema garante que, se a variável aleatória X é normalmente distribuída, então a distribuição amostral de

será normal independente do tamanho da amostra.

Para contornar o problema 2, vamos precisar utilizar uma nova distribuição de probabilidades, a distribuição t-student. Essa distribuição é muito semelhante à distribuição normal: tem forma de sino, é simétrica e tem média zero. A diferença é que a distribuição t-student é mais achatada (tem caudas mais pesadas). Com isso, as estimativas obtidas a partir dessa distribuição serão menos precisas. FIGURA 26 - Comparação entre a distribuição normal e a distribuição t-student (5 gl)

Fonte: Elaborado pelo autor.

A figura abaixo ilustra parte da tabela dos valores mais utilizados para distribuição t-student. Para construção de intervalos de confiança, devemos olhar os valores para área em duas α α caudas e a área deve se referir ao valor de ⁄ + ⁄ . Os graus de liberdade são dados por n 2 2 1, ou seja, o tamanho da amostra menos 1.

086

unidade 5

ESTATÍSTICA E PROBABILIDADES

FIGURA 27 -Valores tabelados para distribuição t-studen

Fonte: TRIOLLA, 2013, p. 614.

Exemplo: Uma equipe de engenharia está desenvolvendo uma nova mistura para concreto e deseja estimar a resistência média do produto à compressão. Como o teste de resistência à compressão é um ensaio destrutivo, o máximo que a equipe conseguiu para realização do estudo foram 10 corpos de prova. A resistência média à compressão da amostra foi de 2.500 psi e o desvio-padrão foi de 45 psi. Sabendo que a resistência do concreto à compressão segue uma distribuição normal, obtenha uma estimativa intervalar para a verdadeira resistência média populacional com 95% de confiança. Solução: Observe que o tamanho da amostra é pequeno, n = 10, e o desvio-padrão foi obtido da amostra (não conhecemos o desvio-padrão populacional). Nesse caso, para construir o intervalo de confiança, é necessário utilizar a distribuição t-student e a margem de erro deve ser calculada utilizando a equação:

087

unidade 5

ESTATÍSTICA E PROBABILIDADES

E = t (α

S

/2 ; n - 1) √n

Onde tα ⁄2 ; n-1 é obtido da tabela t-student, sendo os parâmetros: α⁄2 a área em cada uma das duas caudas e n - 1 os graus de liberdade. Como o intervalo é de 95% de confiança, sabemos que a significância é o α = 5% (para consultar a tabela usamos o valor em decimal, 0,05). Os graus de liberdade são obtidos calculando n-1, ou seja, 10 - 1 = 9. Assim, encontramos que o valor de t0,025;9 é de 2,262. FIGURA 28: Tabela t-student - encontrando t 0,025;9

Fonte: TRIOLA, 2013, p. 614

Com isso, estimamos que a margem de erro será: E = 2,262 45 = 32,189 √10 O intervalo de confiança pode ser então obtido: IC [ μ ; 95% ] = 2.500 ± 32,189 IC [ μ ; 95% ] = [ 2.467,81 ; 2.532,19 ] A equipe de engenharia pôde interpretar o resultado como segue: afirmamos com 95% de confiança que a resistência média do concreto à compressão está entre 2.467,81 psi e 2.532,19 psi.

088

unidade 5

ESTATÍSTICA E PROBABILIDADES

ESTIMAÇÃO PONTUAL E POR INTERVALOS DE CONFIANÇA

PARA UMA PROPORÇÃO POPULACIONAL Como são calculadas as margens de erro das pesquisas eleitorais? Possivelmente no início da unidade você tenha ficado instigado a descobrir como é feito esse cálculo. Antes de dar início, é preciso entender que as pesquisas eleitorais buscam descobrir o percentual de eleitores que são favoráveis ao candidato A ou B, e esses percentuais são tratados na estatística como proporções. Para simplificar os cálculos, vamos pensar em uma eleição que foi para o segundo turno e, portanto, tem apenas dois candidatos. Uma empresa de pesquisa entrevistou 2.500 eleitores quanto à intenção de voto nos candidatos A e B. Note que "candidato" é uma variável qualitativa, e o que queremos descobrir é como estimar a probabilidade de sucesso em um experimento binomial em que p é a probabilidade de que o eleitor escolhido prefira o candidato A, por exemplo. Uma maneira bem intuitiva de estimar p para a população é usar a proporção de sucessos da amostra:

ˆ = Número de eleitores que preferem o candidato A p Número de eleitores amostrados Suponha que dos 2.500 eleitores amostrados 1.300 tenham declarado intenção de votar no candidato A, 950 no candidato B e 250 em branco ou nulo. Assim, podemos estimar a proporção de eleitores que votariam no candidato A por: ˆp ̂= 1.300 = 0,52 2.500 Ou seja, a amostra indica que cerca de 52% dos eleitores têm intenção de votar no candidato A. Entretanto, devemos lembrar que caso fosse realizada outra amostragem e fossem selecionados outros 2.500 eleitores o resultado poderia ser diferente de 0,52. O valor de ˆp ̂ é uma estimativa pontual para p, a verdadeira proporção de eleitores que têm intenção de votar no candidato A em toda a população. Podemos tratar p como uma média, se pensarmos que X é uma variável aleatória que assume 0 quando o eleitor declara votar no candidato B, em branco ou nulo e 1 quando o eleitor declara votar no candidato A. Nesse caso, podemos utilizar o teorema central do limite e dizer que ˆp é

089

unidade 5

ESTATÍSTICA E PROBABILIDADES

normalmente distribuído com média μp =

√p.qn , onde q = 1-p, ou de maneira aproximada σˆ = √ˆp.qˆ , pois n

E o intervalo de confiança será:

p e desvio-padrão σˆp =

IC [ p ; 95% ] = 0,52 ± 0,0196

p

não conhecemos os verdadeiros valores de

IC [ p ; 95% ] = [ 0,5004 ; 0,5396 ]

p e q. Sabemos que o TCL é válido apenas

Podemos afirmar com 95% de confiança

para amostras grandes. No caso de

que a verdadeira proporção de eleitores que

estimativas para proporções, dizemos

votam no candidato A em toda a população

que a amostra é grande quando n . p ≥

está entre 50,04% e 53,96%. Observe que

5 e também n . q ≥ 5, ou seja, ambos os

afirmar com 95% de confiança significa

critérios devem ser satisfeitos.

dizer que, se fossem feitas 100 pesquisas e calculados os intervalos de confiança,

Caso esses critérios tenham sido satisfeitos,

cerca de 95 deles conteriam a verdadeira

podemos calcular a margem de erro através

proporção de eleitores que votam no

da equação:

candidato A. E = Zα

Exemplo:

ˆˆ /2 √ pq n

A empresa XYZ compra tubos de aço do E então o intervalo de confiança para p será:

fornecedor A. Na última semana, a XYZ recebeu uma proposta de comprar tubos de

ˆ±E IC [ p ; ( 100 - α) % ]= p

aço do fornecedor B pela metade do preço do fornecedor A. Para decidir, o gerente de

No exemplo da pesquisa eleitoral, n . p ˆ ̂=

compras deseja estimar qual o percentual de

2.500 * 0,52 = 1.300 e n.q ˆ ̂= 2.500 * 0,48

não conformidade nos tubos do fornecedor

= 1.200. Como ambos os critérios foram

B (proporção de tubos defeituosos). Em um

satisfeitos,

uma

lote de 150 tubos havia 21 não conformes.

amostra grande o bastante para justificar

Obtenha o intervalo de 90% de confiança

a utilização do TCL, logo podemos obter

para a verdadeira proporção de tubos não

a margem de erro com o nível de 95% de

conformes do fornecedor B.

dizemos

que

temos

confiança: E= 1,96



0,52 × 0,48 = 0,0196 2.500

Solução: Uma estimativa pontual para a verdadeira proporção de tubos não conformes é dada por:

090

unidade 5

ESTATÍSTICA E PROBABILIDADES

pˆ = 21 = 0,14 150 Verificamos que a aplicação do teorema central do limite é adequada, pois n . p = 21 ˆ = 150 * 0,86 = 129, ou seja, ambos en.q são maiores que 5, indicando que a amostra é suficientemente grande. Podemos estimar a margem de erro do estudo pela equação: E = Zα

/2 √

E = 1,645

USO DO EXCEL NO CÁLCULO DE INTERVALOS

DE CONFIANÇA PARA MÉDIA E PROPORÇÃO Agora que você já sabe exatamente como são obtidos os intervalos de confiança,

pq ˆˆ

vamos utilizar o Excel para construir uma

n

calculadora de intervalos de confiança.



0,14 × 0,86 = 0,047 150

Começaremos pelo intervalo para média.

Então, definimos o intervalo com 90% de

Nos tópicos anteriores, vimos que o

confiança para p pela equação:

intervalo de confiança para a média populacional pode ser obtido de duas

ˆ±E IC [ p ; 90% ] = p

maneiras:

utilizando

a

distribuição

normal (estatística z) ou a distribuição t-student (estatística t). Vimos também

IC [ p ; 90% ] = 0,14 ± 0,047

que a distribuição t-student é utilizada quando o tamanho da amostra é menor

IC [ p ; 90% ] = [ 0,093 ;0,187 ]

que 30 e o desvio-padrão populacional O gerente de compras pode afirmar,

é desconhecido. Nos outros casos,

com 90% de confiança, que a verdadeira

utilizamos a distribuição normal.

proporção

de

tubos

não

conformes

provenientes do fornecedor B está entre

Vamos construir primeiramente uma

9,3% e 18,7%. O gerente fará sua decisão

calculadora para intervalos de confiança

baseado nessa informação e em outras que

utilizando

julgar convenientes.

Utilizaremos os dados sobre consumo

a

distribuição

normal.

de combustível do primeiro exemplo. A figura abaixo ilustra como deve ficar nossa calculadora nas colunas A e B.

091

unidade 5

ESTATÍSTICA E PROBABILIDADES

FIGURA 29 - Calculadora para intervalo de confiança para média: amostras grandes ou desvio-padrão populacional conhecido

Fonte: Elaborado pelo autor.

Nas linhas 4 a 7 são inseridas as informações iniciais do problema, como: desvio-padrão, que pode ser tanto da população quanto da amostra; a média amostral

̅; o tamanho da

amostra n; e o nível de confiança desejado. Note que a célula B7 deve ser configurada como porcentagem. Nas linhas 9 a 11 são realizados cálculos intermediários como erro padrão da média σx (ou σˆx ̅), o valor de z relativo ao nível de confiança desejado e a margem de erro resultante. As fórmulas utilizadas para cada um dos cálculos são apresentadas exatamente à sua direita. Por exemplo, na célula B9 foi inserida a fórmula = B4/RAIZ(B6), que é o desvio-padrão dividido pela raiz do tamanho da amostra. Nas linhas 13 e 14 é apresentado o intervalo de confiança, sendo limite inferior do intervalo o valor de

- E e o limite superior do intervalo o valor de

+ E.

Para construir a calculadora para amostras pequenas e desvio-padrão populacional desconhecido, vamos utilizar os dados do exemplo sobre a resistência do concreto à compressão. O procedimento é o mesmo do anterior, alterando apenas as informações relativas aos parâmetros da distribuição t-student:

092

unidade 5

ESTATÍSTICA E PROBABILIDADES

FIGURA 30 - Calculadora para intervalo de confiança para média: amostras pequenas e desvio-padrão populacional desconhecido

Fonte: Elaborado pelo autor.

Para construir a calculadora de intervalos de confiança para proporções, vamos utilizar os dados do exemplo da pesquisa eleitoral. Nesse caso, os dados iniciais são o número de sucessos e o tamanho da amostra. Lembrando que a palavra sucesso está relacionada à distribuição binomial e se refere ao número de vezes que ocorreu o evento de interesse. No caso do exemplo sobre as eleições, o número de sucessos é a quantidade de entrevistados que declarou intenção de votar no candidato A, 1300 pessoas. O tamanho da amostra foi de 2500 entrevistados. Com esses dados, calcula-se a proporção estimada p ̂ dividindo o número de sucessos pelo tamanho da amostra (célula B6). O erro padrão da média é calculado através da equação σˆp =

ˆ ˆ = implementada na célula √p.q n

B9. As demais células utilizam as mesmas fórmulas já apresentadas nas calculadoras anteriores.

093

unidade 5

ESTATÍSTICA E PROBABILIDADES

FIGURA 31 - Calculadora para intervalo de confiança para proporção

Fonte: Elaborado pelo autor.

INTRODUÇÃO AO

PROGRAMA EPIINFO O software EpiInfo é uma ferramenta muito útil para análise de dados. Esse software foi desenvolvido pelo Centro de Controle de Doenças (CDC) para análise de dados epidemiológicos, entretanto pode ser utilizado em qualquer área, inclusive em engenharia. O software está disponível no site www.cdc.gov/epiinfo Veja no material web da disciplina os vídeos de instalação do EpiInfo e de introdução à análise de dados utilizando essa ferramenta.

APLICAÇÃO

PRÁTICA

Um fabricante de anéis para pistões de motor deseja verificar se seu produto atende as especificações do cliente. Para isso, resolveu estimar o diâmetro médio dos anéis produzidos. A partir de uma amostra

094

unidade 5

ESTATÍSTICA E PROBABILIDADES

de 40 anéis, registrou-se diâmetro médio de

Então:

74,045 milímetros com desvio-padrão de 0,02

IC [ μ ; 99% ] = 74,045 ± 0,008

milímetros. Construa o intervalo com 99% de confiança para o verdadeiro diâmetro médio dos

O intervalo é comumente apresentado como

anéis.

segue:

Solução:

IC [ μ ;99% ] = [ 74,037 ; 74,053]

Note que o enunciado não informou a distribuição

Dessa forma, afirmamos com 99% de confiança

de probabilidade da variável diâmetro dos anéis

que o diâmetro médio dos anéis está entre

e, além disso, também não temos informação

74,037 milímetros e 74,053 milímetros.

a respeito do desvio-padrão populacional dessa variável. Entretanto, como a amostra é considerada grande (40 anéis), podemos valer

REVISÃO

do teorema central do limite e afirmar que a

Nesta unidade, você aprendeu a construir

distribuição amostral do diâmetro médio dos

estimativas pontuais e por intervalos para

anéis é normal, com média μ e desvio-padrão

os verdadeiros parâmetros populacionais

σ⁄ , √n

onde μ é o verdadeiro diâmetro médio dos

através de dados provenientes de amostras.

anéis e σ o verdadeiro desvio-padrão. Sabemos

Aprendeu também que existem ao menos

ainda que o estimador de μ é X ̅, a média amostral

quatro maneiras de obter estimativas

e o estimador de σ é s, o desvio-padrão amostral.

intervalares, e que a escolha da maneira

Dessa forma, utilizaremos as equações abaixo

adequada para cada situação é determinada

para construir o intervalo com 99% de confiança

basicamente pelo tipo de dados (qualitativo

para o verdadeiro diâmetro médio dos anéis.

ou quantitativo) e pelo tamanho da amostra ( n < 30 ou n ≥ 30 ). O esquema abaixo apresenta de maneira resumida o processo

IC [ μ ;99% ] = x ± E Precisamos, portanto, encontrar a margem

de decisão:

de erro do estudo. Para isso, vamos utilizar a equação:

E = Zα

S

/2 √n

Logo: E = 2,575 *

0,02

√40

= 0,008

095

unidade 5

ESTATÍSTICA E PROBABILIDADES

FIGURA 32– Processo de decisão Tipo de dados Quantitativo parâmetro μ

Qualitativo parâmetro p

Amostra grande ( n ≥ 30 )

Amostra pequena ( n < 30 )

Aplicável quando np ≥ 5 e nq ≥ 5

Pelo teorema central do limite, o intervalo de confiança pode ser obtido pelas equações 1 ou 2.

O intervalo de confiança pode ser obtido pela equação 3 apenas se a população tem distribuição normal.

O intervalo de confiança pode ser obtido pela equação 4.

Fonte: Elaborada pelo autor

PARA SABER

MAIS

Caso você tenha se interessado pelo assunto desta unidade e deseja aprofundar nesse conteúdo, recomendo a leitura do capítulo 5 do livro texto: McCLAVE, James T. George Benson, Terry Sincich. Estatística para administração e economia. trad. Fabrício Pereira Soares e Fernando Sampaio Filho; rev. téc. Galo Carlos Lopez Noriega. São Paulo: Pearson Prentice Hall, 2009. Se você deseja uma leitura mais formal e tem interesse em demonstrações das equações, leia o capítulo 8 do livro texto:

096

unidade 5

ESTATÍSTICA E PROBABILIDADES

MONTGMOMERY, Douglas C. George C. Runger. Estatística

aplicada

e

probabilidade

para

engenheiros. trad. e rev. téc. Verônica Calado. Rio de Janeiro: LTC, 2009. Se você deseja um estudo de caso com aplicação do conteúdo na área de engenharia, leia o artigo: NETO, Antônio Peli. Intervalos de confiança, Intervalos de Predição e Campo de Arbítrio nas Avaliações de Imóveis Urbanos. Associação Brasileira dos Engenheiros Civis - Departamento da Bahia. Bahia, 2010. Disponível em: . Acesso em 16 jun. 2015.

097

unidade 5

UNIDADE

PLANEJAMENTO DE

EXPERIMENTOS

N

a Unidade 5, Estimação de médias e proporções, você aprendeu a estimar parâmetros populacionais a partir de dados amostrais. Você deve ter observado que os resultados amostrais foram disponibilizados, mas não foram apresentados

os métodos utilizados para seleção das amostras ou sequer a justificativa para o tamanho amostral. Nesta unidade você vai aprender a planejar um experimento de pequeno e médio porte na área de Engenharia e Ciências Exatas, bem como calcular o tamanho mínimo de uma amostra que tenha representatividade estatística.

Uma situação que utiliza o planejamento de experimentos muito frequentemente é o estudo dos efeitos do tratamento térmico de metais sobre suas propriedades mecânicas. Considere que uma equipe de engenharia deseja estudar o efeito de três diferentes tipos de banho de têmpera sobre a dureza de um determinado tipo de aço. Os tipos de banho de têmpera1 utilizados são têmpera em água, têmpera em óleo e têmpera em solução aquosa de cloreto de sódio (água salgada). O propósito do estudo é determinar qual banho de têmpera produzirá a dureza máxima do aço. A princípio, a equipe considerou suficiente para o propósito do estudo submeter um determinado número de corpos de provas a cada meio de têmpera e medir a dureza da liga metálica. A partir desses resultados calcular-se-ia a dureza média em cada um dos diferentes tipos de banho. Aquele que apresentasse a maior dureza média seria o mais adequado.

A têmpera consiste essencialmente em aquecer uma peça de aço a uma certa temperatura e, a seguir, resfriála rapidamente em um banho, usualmente água, óleo ou soluções salinas. Seu objetivo é, em geral, aumentar a dureza do aço e tornar mais elevadas suas resistências à tração, à compressão e ao desgaste

099

unidade 6

ESTATÍSTICA E PROBABILIDADES

Entretanto, ao analisar o experimento com cautela, o engenheiro de produção detectou várias questões que deviam ser respondidas antes do início da coleta de dados: água, óleo e água salgada são os únicos banhos de interesse no processo de têmpera? Há outros fatores que possam afetar a dureza do aço e que devem ser pesquisados? Quantos corpos de prova devem ser submetidos a cada banho de têmpera? De que modo os corpos de prova devem ser alocados aos três diferentes banhos? Em que ordem os dados devem ser coletados? Qual método de análise de dados deve ser utilizado? Qual diferença entre dureza média será considerada significativa do ponto de vista prático? Diante de todas essas questões, a equipe constatou a necessidade de utilizar técnicas estatísticas para planejamento do experimento, a fim de assegurar a confiabilidade dos resultados do estudo. São estas técnicas que você irá aprender nessa unidade.

CÁLCULO DE TAMANHO DE AMOSTRA BASEADO EM INTERVALOS DE CONFIANÇA

PARA UMA PROPORÇÃO

Para alguns pesquisadores, a definição do tamanho da amostra é o único cuidado necessário para validade estatística do estudo. Como você observou na introdução dessa unidade, existe uma série de cuidados que devem ser tomados ao conduzir experimentos em engenharia, além do tamanho da amostra. A começar pelo objetivo do estudo. Se o objetivo do estudo é comparar resultados expressos em forma de porcentagens ou proporções, existe um método adequado para o cálculo do tamanho amostral. Se o objetivo é comparar resultados expressos em forma de médias, existe outro método adequado para o cálculo do tamanho amostral. Diversos outros fatores podem ser considerados nestes cálculos, alterando, assim, a adequação de cada método. Neste tópico você aprenderá a calcular o tamanho amostral para um estudo que tem o interesse de estimar uma proporção populacional. Os parâmetros controlados são o nível de confiança e a margem de erro máxima desejados para o estudo. Vejamos um exemplo: Exemplo 8 Uma empresa fabricante de motores deseja comprar correias do fornecedor Borrachão, pois o atual fornecedor tem apresentado um percentual elevado de peças defeituosas (não

100

unidade 6

ESTATÍSTICA E PROBABILIDADES

conformes). Para estimar o percentual de

verdadeira proporção populacional. Esse

correias não conformes produzidas pelo

pressuposto pode não ser satisfeito na

fornecedor Borrachão, a empresa fabricante

prática. Nesse caso, deve-se utilizar o valor

de motores deseja adquirir uma amostra que

ˆ e a equação passa a ser: 0,5 no lugar de p,

seja representativa. A equipe de engenharia deseja que seja conduzido um estudo com

Equação 2: Tamanho de amostra

95% de confiança e margem de erro máxima

exigido para estimativa de uma

da estimativa de 2 pontos percentuais, para

proporção populacional –

mais ou para menos. Qual o tamanho de

Desconhecendo estimativa de pˆ ̂

amostra necessário para esse estudo? A

Zα/220,25 n= E2

equação abaixo deverá ser utilizada para o cálculo do tamanho amostral desejado: Equação 1: Tamanho de amostra

Para o exemplo das correias, a equipe

exigido para estimativa de uma

utilizou a equação 2, uma vez que não havia ˆ conhecimento sobre a estimativa de p.

proporção populacional – Conhecendo uma estimativa de pˆ

n=

2

ˆˆ Zα/2 pq n= 2 E

1,962 x 0,25 0,022

n = 2.401

Onde:

Dessa forma, a equipe concluiu que para estimar a verdadeira proporção de correias

n: é o tamanho da amostra calculado

não conformes produzidas pelo fornecedor

zα⁄2 : escore z que separa uma área de

Borrachão, com 95% de confiança e uma

α/2 na cauda direita da distribuição

precisão de 2%, será necessário coletar uma

normal padrão

amostra de 1.225 correias.

ˆ é uma estimativa da verdadeira proporção p: Note que, caso a equipe tivesse uma

populacional.

informação quanto ao verdadeiro percentual

ˆ ̂: é obtido por 1-p ˆ̂ q

de correias não conformes e desejasse

E: é a margem de erro máxima aceitável

realizar um estudo apenas para confirmação da informação o tamanho amostral, poderia

para o estudo.

ser significativamente menor. Suponha Note que a equação acima exige que

que o fornecedor Borrachão afirmasse

se tenha um conhecimento prévio da

que o percentual de peças não conformes

101

unidade 6

ESTATÍSTICA E PROBABILIDADES

fosse de 5%. A equipe poderia utilizar essa informação como uma estimativa de pˆ e poderia então utilizar a equação 1:

CONFIANÇA PARA UMA PROPORÇÃO – POPULAÇÃO FINITA

1,962 x 0,05 x 0,95 n= 0,022 n = 457 Observe que o tamanho de amostra necessário para confirmar a afirmação do fornecedor é de apenas 233 correias. Isso

sempre

acontecerá,

ou

CÁLCULO DE TAMANHO DE AMOSTRA BASEADO EM INTERVALOS DE

seja,

o

tamanho amostral resultante da equação 1 será sempre menor que o resultante da equação 2, pois na primeira já temos um conhecimento a priori do verdadeiro valor populacional e desejamos apenas confirmá-lo.

No tópico anterior aprendemos a calcular o tamanho de amostra para estimar uma proporção, mas observe que não foi considerado o total de elementos na população. Isso ocorre em situações em que a população é considerada infinita, ou seja, o número de elementos da população é tão grande que pode ser considerado infinito. Em algumas situações, no entanto, esse pressuposto não é minimamente razoável. Nessas situações precisamos utilizar um fator de correção para população finita. Utilizamos, então, a equação 3:

IMPORTANTE

Equação 3: Tamanho de amostra exigido para estimativa de uma

É importante destacar que, para o cálculo do

proporção populacional –

tamanho amostral, o resultado deve ser sempre

Correção para população finita

arredondado para cima, independentemente do valor decimal. Assim, no exemplo anterior,

n=

caso o cálculo exato resultasse em 232,1 ainda

assim

arredondaríamos

para

ˆˆ (zα/ )2 Npq 2

ˆˆ (zα/2)2 + (N - 1) E2 pq

233

correias. Isso ocorre porque o tamanho de

Considere

amostra mínimo necessário para atender aos

percentual de peças defeituosas em um lote

requisitos do nível de confiança e margem

de 100 peças. Qual o tamanho de amostra

de erro seria de 232,1 correias. Como não

necessário, se queremos uma estimativa

faz sentido amostrar 0,1 correia, devemos

com 90% de confiança e margem de erro

selecionar uma peça a mais.

máxima de 3%? Utilizando a equação 2

102

unidade 6

que

desejamos

estimar

o

ESTATÍSTICA E PROBABILIDADES

CÁLCULO DE TAMANHO DE AMOSTRA BASEADO

teríamos o seguinte resultado: n=

1,6452 x 0,25 = 752 0,032

Observe que o resultado da equação é irreal, pois como poderíamos amostrar 457 peças em um lote de 100? Nessa situação devemos utilizar a equação 3, que leva em consideração o tamanho do lote:

aprenderá a calcular o tamanho amostral para um estudo que tem o interesse de

O tamanho da amostra passa a ser então 89 peças, o que é real, ou possível, tendo em vista que o tamanho do lote é de 100 peças. Caso já existisse uma informação sobre o percentual de peças defeituosas e fosse desejável apenas confirmar a informação, o tamanho amostral seria menor. Por considere

que

normalmente

cerca de 5% das peças são defeituosas. Para confirmar tal informação, seriam necessárias 60 peças na amostra. n=

cálculo do tamanho amostral depende o objetivo do estudo. Nesta seção você

n = 89

exemplo,

No início dessa unidade falamos que o de vários fatores, sendo o principal deles

100 x 0,5 x 0,5 (1,645)2 0,5 x 0,5 (1,645)2 + (100 - 1) 0,032

n=

EM INTERVALOS DE CONFIANÇA PARA UMA MÉDIA

estimar

uma

média

populacional.

Os

parâmetros controlados continuam sendo o nível de confiança e a margem de erro máxima desejados para o estudo. Vejamos um exemplo: Exemplo 9 Uma

empresa

fabricante

de

baterias

automotivas desenvolveu um novo produto e deseja estimar a sua vida média. De estudos anteriores, sabe-se que a vida

100 x 0,05 x 0,95 (1,645)2

média das baterias produzidas por esse

0,05 x 0,95 (1,645)2 + (100 - 1) 0,032

fabricante segue uma distribuição normal,

n = 60

com desvio-padrão de seis meses. A equipe de engenharia do produto ressalta a importância da correta estimação da vida média da bateria, pois a partir desta será determinado o tempo de garantia. Por essa razão, decidiu-se que o nível de confiança do estudo será de 99% e a margem de erro máxima aceitável para a estimativa é de três meses. Utilizando a equação abaixo,

103

unidade 6

ESTATÍSTICA E PROBABILIDADES

a equipe poderá determinar o tamanho amostral

necessário

para

atender

arredondar o resultado para cima.

às

exigências do estudo.

Você deve ter observado no exemplo 9 que já dispúnhamos de uma estimativa a

Equação 4: Tamanho de amostra exigido

priori do desvio-padrão populacional (σ),

para estimativa de uma média populacional

ou seja, a equipe utilizou o desvio-padrão

n=

[

Z(α/2)Ợ E

]

das outras baterias. Em muitas situações

2

práticas, o desvio-padrão populacional não é conhecido e nesses casos pode-se utilizar

Onde:

uma das seguintes alternativas:

n: é o tamanho da amostra Zα/2: escore z que separa uma área de

1–U  tilização

σ: é o desvio-padrão populacional

que para estimar a vida média da nova

uma

amostra 87

necessário piloto

de

observações.

conhecimento de σ e, como base nos primeiros resultados, obtenha o desvio-

na estimativa e margem de erro máxima de

padrão amostral s. Use essa estimativa

três meses, será necessária uma amostra

em lugar de σ.

de 27 baterias. 2,575 x 6 E

}

2

3–U  tilize o valor de σ estimado por outros estudos realizados anteriormente.

n = 26,5 ˜ 27 Ao calcular tamanho de amostra para estimativa de uma média populacional, aquela

regra

de

arredondamento apresentada no tópico seja,

coletar

é

2–C  omece o processo de coleta sem o

bateria desenvolvida, com 99% de confiança

ou

alternativa,

regra, consulte Triolla (2013), seção 3-3.

Utilizando a equação 4, a equipe determinou

anterior,

da

Para maior esclarecimento sobre essa

para a estimativa.

valendo

dessa

aproximadamente

E: é a margem de erro máxima aceitável

continua

empírica

padrão: σ ≈ Amplitude⁄4. Para aplicação

normal padrão

{

regra

amplitude para estimação do desvio-

α/2 na cauda direita da distribuição

n=

da

devemos

sempre

104

unidade 6

ESTATÍSTICA E PROBABILIDADES

CÁLCULO DE TAMANHO DE AMOSTRA BASEADO EM INTERVALOS DE

confiança e margem de erro máxima de cinco centímetros. Sabendo que nos anos anteriores o desvio-padrão da altura dos

CONFIANÇA PARA UMA MÉDIA – POPULAÇÃO FINITA Nos

tópicos

anteriores

recrutas era de 30 centímetros, o sargento utilizou a equação 4 para determinar o

tamanho

da

amostra

necessária,

encontrando o valor 139 (maior que o total

apresentamos

de novos recrutas):

uma fórmula alternativa para o cálculo

n=

do tamanho amostral para estimativa de uma proporção populacional, no caso

{ 1,965x 30 }

2

n = 139

de populações finitas. Da mesma forma, para calcular o tamanho amostral para

Sem entender o que havia feito de errado, o

estimativa de uma média populacional, no

sargento decidiu conversar com um soldado

caso de populações finitas, existe também

que tinha conhecimento de estatística para

um fator de correção. A equação abaixo

auxiliá-lo. O soldado informou então que,

apresenta o método correto para essas

neste caso, o sargento deveria utilizar a

situações:

equação 5, que leva em consideração o tamanho populacional. Utilizando o método

Equação 5: Tamanho de amostra

adequado, o sargento decidiu, portanto, que

exigido para estimativa de uma média

para estimar a altura média dos 100 novos

populacional – população finita

recrutas, com 95% de confiança e margem

n=

de erro máxima da estimativa de cinco cm,

Nσ2 (Zα/2)2

era necessária uma amostra de 59 recrutas:

(N - 1) E2 + σ2(Zα/2)2

n=

100 x 302 (1,96)2 (100 - 1) x 52 +302 x (1,96)2

Exemplo 10 Suponha que o exército brasileiro deseje encomendar uma remessa de uniformes para os novos recrutas. Para melhor adequação dos tamanhos dos uniformes, o sargento decidiu obter uma estimativa da altura média deles. Dos 100 novos recrutas, o sargento deseja obter a estimativa a partir de uma amostra com 95% de

105

unidade 6

n = 58,3 ˜ 59

ESTATÍSTICA E PROBABILIDADES

PLANEJAMENTO DE

como uma característica da qualidade do

EXPERIMENTOS O

planejamento

de

produto (ou processo). O planejamento de experimentos pode ser definido assim:

experimentos,

também conhecido como DOE (Design of

Um experimento é um procedimento no

Experiments), é um conjunto de técnicas

qual alterações propositais são feitas

estatísticas que visa garantir uma coleta

nas variáveis de entrada de um processo

de dados eficiente para uma análise de

ou sistema, de modo que se possa

dados que seja informativa e confiável. Esse

avaliar as possíveis alterações sofridas

conjunto de técnicas tem vasta utilização

pela variável resposta como também as

em diversas áreas do conhecimento, desde

razões destas alterações (WERKEMA &

ciências ligadas à saúde até as engenharias.

AGUIAR, 1996).

Em engenharia, especialmente, o DOE é utilizado principalmente em Pesquisa e

Todo processo ou sistema é impactado

Desenvolvimento, ou na área de qualidade e

pelos insumos e por um conjunto de fatores.

desenvolvimento do produto.

O objetivo do DOE é identificar quais são os fatores que atuam sobre o processo, quais

O propósito dos experimentos planejados,

desses fatores são controláveis e, dentre os

estatisticamente, é tornar a análise de

controláveis, qual a relação que têm com o

dados tão informativa quanto possível.

resultado do processo ou a característica

Experimentos

de

que

tenham

sido

mal

qualidade

de

interesse.

A

figura

planejados fornecem pouca ou nenhuma

abaixo ilustra essa situação, podem estar

informação útil, mesmo com sofisticadas

aturando sobre o sistema os insumos, os

técnicas de análise de dados, e podem levar,

equipamentos, as informações do processo,

inclusive, à conclusões completamente

as condições ambientais, as pessoas, os

equivocadas.

métodos e os procedimentos:

Em engenharia, o DOE é utilizado em conjunto com outras técnicas estatísticas, como as cartas de controle de processos, por exemplo, ou combinado ao ciclo PDCA. Nesses casos o objetivo é, normalmente, estudar os efeitos de possíveis fatores sobre o resultado de um processo, expresso

106

unidade 6

ESTATÍSTICA E PROBABILIDADES

FIGURA 33 - Modelo geral de um processo ou sistema Fatores de ruído (não controláveis)

Entradas

SISTEMA

Y Varíaveis resposta

(PRODUTO/PROCESSO

(Características de Qualidade)

Fatores controláveis (especificados pelo pesquisador) Fonte: WERKEMA & AGUIAR, p.15, 2006. Adaptado.

Considere uma situação em que se deseja estudar a resistência à compressão de um concreto. O engenheiro civil identificou que existem quatro tipos de técnicas de mistura desse concreto e ele acredita que a resistência à compressão resultante varia conforme a técnica de mistura utilizada. O objetivo do engenheiro é determinar qual a técnica produzirá o concreto com maior resistência. Com esse objetivo, decidiu produzir uma série de corpos de prova, utilizando cada uma das quatro técnicas e medindo a resistência à compressão desses concretos. A resistência média seria utilizada para determinar qual seria a melhor técnica de mistura. Analisando o experimento com mais cautela, o engenheiro detectou várias questões que deveriam ser respondidas antes do início da coleta de dados: existem apenas essas quatro técnicas de mistura ou existem outras? Por que foram escolhidas estas quatro técnicas? Existem outros fatores que possam afetar a resistência à compressão do concreto? Quantos corpos de prova devem ser produzidos com cada técnica? De que modo os corpos de prova devem ser alocados às diferentes técnicas de mistura? Qual método de análise de dados deve ser utilizado? Qual resistência à compressão deverá ser considerada significativa do ponto de vista prático? Em todo experimento, a forma de coleta dos dados é fundamental para interpretação dos resultados e, consequentemente, para confiabilidade do estudo. Suponha que nesse estudo

107

unidade 6

ESTATÍSTICA E PROBABILIDADES

sobre a resistência à compressão do

é resultado das diferenças inerentes aos

concreto tenham sido utilizados quatro

quatro tipos de cimento utilizados. Nesse

sacos de cimento, provenientes de quatro

caso, dizemos que o efeito da técnica de

fornecedores distintos, sendo alocados da

mistura foi confundido com o efeito do

seguinte maneira:

tipo de cimento. Vamos apresentar agora

Técnica de mistura 1 – cimento do fornecedor A

três princípios básicos do planejamento de experimentos que devem ser sempre utilizados. Estes princípios são: réplica,

Técnica de mistura 2 – cimento do

aleatorização e blocagem.

fornecedor B Técnica de mistura 3 – cimento do fornecedor C

As réplicas são repetições do experimento feitas

sob

as

mesmas

condições

experimentais. No exemplo que estamos

Técnica de mistura 4 – cimento do

considerando, uma réplica do experimento

fornecedor D

completo consiste em medir a resistência à compressão de um corpo de prova

Você concorda com esse procedimento?

produzido pela técnica de mistura 1, outro

Ao adotá-lo, o engenheiro assumiu que as

pela técnica 2, outro pela técnica 3 e outro

características do cimento dos diferentes

pela técnica 4. Se três corpos de prova

fornecedores são idênticas, ou que qualquer

foram

diferença entre os cimentos não exerceria

dizemos que foram produzidas três réplicas

influência sobre a resistência à compressão

do experimento (veja que teremos 3 x 4 = 12

dos corpos de prova. Entretanto, não

corpos de prova, mas apenas três réplicas).

produzidos

para

cada

técnica,

podemos tomar essa conduta, pois é bem provável que existam características

É muito importante que as réplicas sejam

específicas

que

produzidas sob as mesmas condições

à

experimentais. Isso significa que todos

poderiam

de

cada

impactar

na

fornecedor resistência

os demais fatores que possam exercer

compressão dos corpos de prova.

impacto sobre a característica resultante de Da maneira como o estudo foi conduzido

interesse devem ser mantidos constantes.

pelo engenheiro, quando forem obtidas as resistências à compressão médias de

O segundo princípio básico do DOE é a

cada técnica ele não será capaz de dizer

aleatorização. De acordo com esse princípio,

quanto da diferença observada é resultado

são definidos de maneira aleatória tanto a

da técnica de mistura utilizada e quanto

ordem de realização dos ensaios individuais

108

unidade 6

ESTATÍSTICA E PROBABILIDADES

do experimento, quanto a alocação de cada

realizar o experimento da seguinte maneira:

corpo de prova às respectivas condições

Cada pacote de cimento será utilizado

experimentais.

garante

para produzir um corpo de prova para cada

que o efeito dos fatores não controláveis

técnica de mistura. Nesse caso, cada bloco

sejam distribuídos igualmente ao longo de

é um pacote de cimento (fornecedor) que

todos os ensaios, evitando assim que haja

será utilizado para produzir quatro corpos

confusão do efeito desses fatores com o

de prova. A figura 34 ilustra como ficaria o

efeito dos fatores de interesse.

experimento. Cada retângulo vertical (azul

Esse

princípio

claro) é considerado um bloco enquanto No exemplo citado, suponha que os corpos

cada retângulo horizontal (azul escuro) é

de prova serão produzidos por operadores

um corpo de prova produzido por uma das

distintos e, como se sabe, a habilidade dos

quatro técnicas de mistura. Logo, para o

operadores pode influenciar a qualidade

cimento proveniente do fornecedor A, por

do concreto produzido. Logo, se todas as

exemplo, serão produzidos quatro corpos

amostras produzidas através da técnica de

de prova, um para cada técnica de mistura.

mistura 1 forem feitas pelo operador menos

Este procedimento é mais adequado que

experiente, poderemos estar continuamente

aquele proposto pelo engenheiro no início

colocando a técnica de mistura 1 em

da seção, em que cada pacote de cimento

desvantagem,

outras

seria utilizado para produção de quatro

técnicas de mistura. A distribuição aleatória

corpos de prova, utilizando uma única

da ordem de produção de cada corpo de

técnica de mistura.

em

relação

às

prova para cada operador atenuaria esse problema. O terceiro e último princípio básico é o princípio da blocagem. Chamamos de blocos

os

unidades

conjuntos

homogêneos

experimentais.

No

de

exemplo

considerado, os corpos de prova são produzidos com cimento de fornecedores distintos. Logo são bastante heterogêneos em relação a outros fatores além da técnica de mistura. Para resolver esse problema, podemos

109

unidade 6

ESTATÍSTICA E PROBABILIDADES

FIGURA 34 - Blocagem dos cimentos para cada tipo de técnica de mistura do concreto FORNECEDOR A

FORNECEDOR B

FORNECEDOR C

FORNECEDOR D

Téc. 1

Téc. 1

Téc. 1

Téc. 1

Téc. 2

Téc. 2

Téc. 2

Téc. 2

Téc. 3

Téc. 3

Téc. 3

Téc. 3

Téc. 4

Téc. 4

Téc. 4

Téc. 4

Fonte: Elaborado pelo autor

TERMINOLOGIA

BÁSICA

Agora que você já aprendeu quais são os princípios básicos do DOE, vamos aprender alguns termos comuns e muito úteis para o bom planejamento do experimento. Serão apresentados seis termos básicos, a saber: Unidade Experimental, Fatores, Níveis de um Fator, Tratamento, Ensaio e Variável Resposta (ou desfecho). Para melhor entendimento, vamos utilizar o exemplo sobre resistência à compressão do concreto, do tópico anterior, e definir cada termo. A Unidade Experimental é a unidade básica para a qual será feita a medida da resposta. No nosso exemplo, cada unidade experimental corresponde a um corpo de prova do concreto utilizado no estudo. Os Fatores são os tipos distintos de condições que são manipuladas as unidades experimentais. Ou seja, são as variáveis controláveis que podem exercer influência sobre a variável resposta. E desejamos conhecer essa influência. No exemplo citado temos um único fator: técnica de mistura. Os Níveis de um fator são os diferentes modos de presença de um fator no estudo considerado. No exemplo citado, os níveis do fator técnica de mistura são os diferentes tipos de técnica: Técnica 1, Técnica 2, Técnica 3 e Técnica 4. Podemos dizer, portanto, que nosso fator tem quatro níveis.

110

unidade 6

ESTATÍSTICA E PROBABILIDADES

Chamamos de Tratamento as combinações

um tratamento a uma unidade experimental,

específicas dos níveis de diferentes fatores.

realizamos um ensaio. No nosso exemplo

Quanto temos apenas um fator, como no

sobre a resistência à compressão do

nosso exemplo, os tratamentos são os

concreto, cada ensaio consiste em produzir

próprios níveis dos fatores, Tratamento

um corpo de prova utilizando determinada

1 = Técnica 1, Tratamento 2 = Técnica 2,

técnica de mistura do concreto.

Tratamento 3 = Técnica 3 e Tratamento 4 = No exemplo sobre os métodos de pintura de

Técnica 4.

para-choques automotivos, um ensaio seria desejar

aplicar um tratamento em uma unidade

estudar dois ou mais fatores com diferentes

experimental (para-choque), por exemplo,

níveis. Nesses casos, os tratamentos

pintar um para-choque por Imersão usando

seriam a combinação de cada nível do fator

tinta A.

Em

alguns

estudos

podemos

1 com cada um dos diferentes níveis do fator 2. Suponha que um engenheiro deseja

Por fim, o termo Variável Resposta, você

estudar o efeito de dois métodos de pintura

já conheceu nas unidades anteriores,

de para-choques de automóveis (imersão e

nada mais é que o resultado de interesse

aspersão) e de três tipos de tinta (A, B e C)

registrado após a realização de um ensaio.

sobre a força de adesão da tinta.

No exemplo sobre as técnicas de mistura do concreto, a variável resposta é a resistência

Aqui, o fator 1 seria o método de pintura,

à compressão do corpo de prova produzido

que tem dois níveis (Imersão e Aspersão) e

com cada uma das técnicas de mistura. Já

o fator 2 seria o tipo de tinta, que tem três

no exemplo sobre os métodos de pintura

níveis (A, B e C). Para esse estudo, teríamos

de para-choques automotivos, a variável

2x3=6 tratamentos, a saber: T1 = Imersão +

resposta é força de adesão da tinta sobre o

Tinta A, Imersão + Tinta B, Imersão + Tinta

para-choque, medida após a aplicação da

C, Aspersão + Tinta A, Aspersão + Tinta B

tinta com cada método de aplicação e tipo

e por fim, Aspersão + Tinta C. Observe que

de tinta.

a unidade experimental seria cada um dos para-choques sobre os quais aplicaríamos os distintos tratamentos. Definimos como Ensaio cada realização do experimento em uma determinada condição de interesse (tratamento), ou seja, ao aplicar

111

unidade 6

ESTATÍSTICA E PROBABILIDADES

T2=médio e T3 = Alto.

APLICAÇÃO

PRÁTICA

Ensaio: Um ensaio seria secar uma trouxa de roupa utilizando temperatura baixa, por exemplo. Outro ensaio seria secar outra

Considere que você tenha uma máquina de

trouxa de roupa utilizando temperatura alta.

secar roupas que trabalha com diferentes níveis de temperatura e deseja determinar o

Variável resposta: A variável resposta

efeito do nível de temperatura sobre o tempo

desse estudo é o tempo para secagem das

de secagem das roupas.

roupas, que pode ser medido em minutos, por exemplo.

a) Defina para essa situação cada um dos seis termos básicos.

b) Para este estudo, uma réplica seria secar umas três trouxas de roupa, sendo uma

b) O que seria uma réplica nesse estudo?

para cada nível de temperatura da secadora,

c) Descreva um viés de amostragem que

poderia

ser

resolvido

ou seja, um ensaio para cada um dos

pela

aleatorização.

tratamentos existentes. c) A temperatura ambiente poderia ser um fator,

d) Descreva um viés de amostragem que

de maneira que, caso realizássemos todos

poderia ser resolvido pela blocagem.

os ensaios com tratamento 1 (temperatura baixa) no período manhã (normalmente mais

SOLUÇÂO:

frio) e todos os ensaios com tratamento

a) U  nidade Experimental: Cada trouxa de

3 (temperatura alta) no período da tarde

roupa molhada que será introduzida para

(normalmente mais quente), por exemplo,

secagem.

no final não saberíamos dizer quanto da diferença no tempo de secagem é devido

Fator: O fator, nesse caso, é a temperatura

aos diferentes níveis de temperatura da

de operação da máquina de lavar.

máquina, e quanto é devido à variação

Níveis do fator: Os níveis do fator são

da temperatura ambiente. Aleatorizando

as diferentes faixas de temperatura da

a

secadora, podendo ser Baixo, Médio e Alto,

atenuaríamos esse problema.

por exemplo.

ordem

de

realização

dos

ensaios

d) Diferentes tipos de roupa poderiam ser um

Tratamento: Como estamos trabalhando

problema, uma vez que roupas com malhas

com um único fator, os níveis do fator

mais grossas levam um tempo maior para

são o próprio tratamento, logo, T1=baixo,

secar do que outras. Devem-se agrupar as

112

unidade 6

ESTATÍSTICA E PROBABILIDADES

roupas por características semelhantes de fabricação, como leveza do pano, tamanho das peças. A quantidade das mesmas também deve ser controlada para que cada ensaio seja feito de forma mais homogênea possível. Por exemplo, se tiver disponível três peças de moletom, deve-se alocar uma a cada trouxa de roupas, ou se tiver seis peças jeans, deve-se alocar duas para cada trouxa de roupas.

REVISÃO Nesta unidade você aprendeu que, para calcular o tamanho amostral, diversos fatores devem ser levados em consideração. Em especial você aprendeu a calcular o tamanho amostral em quatro situações: quando o objetivo do estudo é a estimativa de uma proporção populacional, sendo o tamanho populacional finito ou “infinito”. E quando o objetivo do estudo é a estimativa de uma média populacional, novamente, sendo o tamanho populacional finito ou “infinito”. O quadro abaixo resume essas situações: QUADRO 4 - Equações para cálculo de tamanho amostral segundo objetivos do estudo Estimar uma proporção populacional

Estimar uma média populacional

População Infinita: Equação 1 n=

População Infinita: Equação 3 Zα/2Ợ 2 n= E

(

ˆˆ Zα/2 pq E2

População Finita: Equação 2 n=

)

População Finita: Equação 4

ˆˆ (Zα/ )2 Nqp 2

n=

ˆˆ (Zα/ )2 + (N - 1) E2 pq 2

Nσ2 (Zα/2)2

(N - 1) E2 + σ2(Zα/2)2

Fonte: Elaborado pelo autor.

Você aprendeu também que em qualquer área do conhecimento a coleta de dados deve ser sempre precedida pelo planejamento do experimento. Essa prática assegura a confiabilidade dos resultados e simplifica os métodos de análise. Por outro lado, a não observância dessa prática inviabiliza a utilização dos resultados a despeito de qualquer técnica estatística, por mais sofisticada que seja. Neste sentido, os princípios básicos que você aprendeu foram: réplica, aleatorização e

113

unidade 6

ESTATÍSTICA E PROBABILIDADES

blocagem. E também os seis termos básicos utilizados de

em

qualquer

experimentos,

a

planejamento

saber:

Unidade

Experimental, Fatores, Níveis de um fator, Tratamento, Ensaio e Variável Resposta.

Ou você pode ler o capítulo 1 do livro: WERKEMA, Maria Cristina Catarino; AGUIAR, Silvio. Planejamento e análise de experimentos: Como

Identificar

as

principais

variáveis

influentes em um processo. Belo Horizonte: Fundação Cristiano Ottoni, Escola de Engenharia

PARA SABER

da UFMG, 1996.

MAIS

Se você tem interesse em aprender mais sobre o cálculo do tamanho de amostra para estimação de médias ou proporções, levando em consideração o nível de confiança e margem de erro da estimativa, leia o capítulo 8 do livro: MONTGMOMERY, Douglas C. George C. Runger. Estatística

aplicada

e

probabilidade

para

engenheiros. trad e rev téc Verônica Calado - Rio de Janeiro: LTC, 2009. Para este assunto você pode ler também o capítulo 7 do livro: TRIOLLA, Mario F. Introdução à Estatística: Atualização da tecnologia. trad e rev téc Ana Maria Lima de Farias, Vera Regina Lima de Farias e Flores. Rio de Janeiro: LTC, 2013. Se você tem interesse em aprofundar sobre Planejamento de Experimentos, leia o capítulo 13 do livro: MONTGMOMERY, Douglas C. George C. Runger. Estatística

aplicada

e

probabilidade

para

engenheiros. trad e rev téc Verônica Calado. Rio de Janeiro: LTC, 2009.

114

unidade 6

UNIDADE

TESTES DE

HIPÓTESES

O

teste de hipóteses é uma técnica estatística utilizada para avaliar alguma afirmação feita sobre uma população de interesse através de dados amostrais. Por exemplo: um engenheiro pode estar interessado em avaliar a hipótese de que

o tempo de duração de um fusível seja de 1.000 horas, contra a hipótese de que tal valor seja diferente de 1.000 horas. Essa seria uma afirmação sobre uma média, uma vez que a variável de interesse – tempo de duração – é quantitativa. Nesse caso, o objetivo é testar se a hipotética média de 1.000 horas é verdadeira. No exemplo em questão, seria impraticável observar o tempo de duração de todos os fusíveis fabricados, ou seja, da população de interesse. De forma que é necessária a utilização de dados amostrais. O engenheiro poderia selecionar alguns fusíveis, calcular o valor da média e comparar com o valor proposto de 1.000 horas. Você irá aprender que, além de avaliar afirmações sobre médias, as hipóteses estatísticas também podem ser testadas para outros parâmetros de interesse, como proporções (em caso de variáveis categóricas), desvio-padrão, medianas, etc.

116

unidade 7

ESTATÍSTICA E PROBABILIDADES

A CONSTRUÇÃO E O SIGNIFICADO DE UMA

representada por H1 ou Ha.

HIPÓTESE ESTATÍSTICA

Exemplo 7.1

Uma

ser

Um fabricante afirma que o tempo médio

construída a partir de alguma teoria sobre

de secagem da tinta de sua marca é de 30

determinado

de

minutos. Uma pessoa decide testar se essa

alguma afirmação sobre certo parâmetro

afirmação é verdadeira. Para isso, marca o

da população em análise. No caso do

tempo de secagem de 40 paredes e depois

engenheiro interessado em testar se o

calcula a média. Quais seriam as hipóteses

tempo médio de duração de um fusível é

nula e alternativa?

hipótese

estatística

assunto,

ou

pode através

1.000 horas, a hipótese não se deu através de uma teoria, mas possivelmente em

SOLUÇÃO: A hipótese nula é o tempo de secagem, igual

função da experiência dele com o assunto.

a 30 minutos. Um teste estatístico tem como objetivo o fornecimento de evidências para subsidiar a decisão de rejeitar ou não rejeitar uma hipótese sobre algum parâmetro de uma população através de dados obtidos por uma amostra.

A hipótese alternativa é o contrário (ou o complemento): o tempo de secagem é diferente de 30 minutos. As hipóteses são representadas da seguinte forma: H0: μ = 30 minutos

A afirmação sobre a média populacional é tida como a hipótese nula. Damos o nome de hipótese alternativa à afirmação contrária à da hipótese nula.

H1: μ ≠ 30 minutos Além da definição acerca das hipóteses, o nível de significância também deve ser escolhido pelo analista.

CONCEITO

CONCEITO

Hipótese nula: Refere-se a uma afirmação do

Nível de significância: Consiste na probabilidade

que queremos provar sobre algum parâmetro.

de rejeitar a hipótese nula, dado que ela é

Geralmente representada por H0.

verdadeira. Geralmente é representado pela letra

Hipótese alternativa: Refere-se a uma afirmação contrária ao que queremos provar. Geralmente

grega alfa (α). O nível de significância também é conhecido como erro tipo I.

117

unidade 7

ESTATÍSTICA E PROBABILIDADES

Qual seria o significado da expressão “...

variável assume. No segundo caso são

rejeitar a hipótese nula, dado que ela é

comparados os valores de média ou

verdadeira”? Assim como no exemplo do

proporção entre dois grupos. Além disso,

tempo de duração do fusível, em que o

podemos

analista resolve testar se a afirmação de

bilaterais. O próximo tópico aborda o teste

que o fusível sobrevive por 1.000 horas,

bilateral com uma amostra.

fazer

testes

unilaterais

ou

a operacionalização do teste ocorre a partir de dados amostrais. Nesse caso, pode ser obtida uma amostra muito ou pouco parecida com a população. Tanto

TESTES PARA

UMA AMOSTRA

no primeiro como no segundo caso existem

probabilidades

associadas.

A distribuição da estatística de teste

Existem chances de coletar uma amostra

tende para o formato de uma distribuição

que dê evidências de que a hipótese seja

normal quando o tamanho da amostra é

rejeitada, mesmo quando, na verdade,

relativamente grande (geralmente maior

a hipótese seja verdadeira. O analista

ou igual a 30). Se o tamanho da amostra

sempre corre o risco de tomar uma

for pequeno (menor do que 30) e o desvio-

decisão equivocada no que se refere à

padrão for desconhecido, a distribuição da

rejeição ou não da hipótese nula, cabendo

estatística de teste apresenta formato mais

a ele escolher quanto risco aceita correr.

próximo da distribuição t de Student. Essa

Esse risco é conhecido como nível de

informação é importante porque definirá até

significância e geralmente é estipulado

que valor da estatística de teste a hipótese

em 10%, 5% ou 1%. Dessa forma, ao

deve ser rejeitada.

efetuar um teste de hipóteses com 5% de significância, podemos afirmar que exista 5% de probabilidade de rejeitar a hipótese nula, quando na verdade ela é verdadeira,

TESTES DE GRANDES AMOSTRAS PARA

tipo I.

UMA MÉDIA POPULACIONAL

Os testes de hipótese com afirmações

O exemplo a seguir consiste numa situação

sobre médias ou proporções podem ser

em que é feita uma afirmação acerca

feitos principalmente com uma ou duas

do valor de uma média (parâmetro mais

amostras. No primeiro caso é testada

testado quando trabalhamos com variáveis

uma afirmação sobre o valor que a

quantitativas).

ou seja, 5% de chance de cometer o erro

118

unidade 7

ESTATÍSTICA E PROBABILIDADES

Suponha que um profissional especializado

Exemplo 7.2 Uma indústria realiza o empacotamento do produto café em grãos. Um dos objetivos é que a embalagem contenha 500 gramas de café. É natural que em situações como essa exista alguma variação no peso do produto empacotado. Dessa forma, podem ter pacotes com 498 gramas, com 502 gramas, com 501 gramas, com 499 gramas, ou qualquer outro valor próximo do especificado. No

entanto,

a

indústria

geralmente

trabalha para que exista certa margem de aceitação tanto para cima quanto para baixo, devido aos seguintes fatores:

a) pacotes

com

volume

muito

em controle estatístico de processos resolva fazer esse teste. Nesse caso, o objetivo é testar a hipótese de que o processo esteja sob controle, ou seja, que o peso médio do café após empacotamento seja de 500 gramas. Para a operacionalização do teste, 36 pacotes foram inspecionados (pesados). Sabendo que a média obtida através dessa amostra foi de 502 gramas, e que o desviopadrão foi de 3 gramas, podemos afirmar que o processo está sob controle? Para operacionalizar esse teste, devemos seguir as seguintes etapas: 1ª  etapa:



as

hipóteses

de

interesse

alto podem provocar aumento exagerado de custos;

Estabeleça

No caso em estudo, o parâmetro2 a ser

b) pacotes com peso muito abaixo

testado é a média. Temos o interesse em

dos 500 gramas podem provocar

verificar se ela é igual a 500 gramas. Então

sanções à indústria junto aos

devemos estabelecer as hipóteses nula e

órgãos de fiscalização.

alternativa. Dessa forma, as hipóteses são:

Para certificar de que o peso esteja

H0: μ = 500 gramas

dentro da margem aceitável, pode ser

H1: μ ≠ 500 gramas

inviável

verificar

todos

os

produtos

embalados (ou seja, toda a população de interesse). Nesse contexto, torna-se interessante utilizar amostras para testar se o processo encontra-se dentro de padrões aceitáveis, ou seja, para testar se o processo encontra-se sobre controle.

2 - Um parâmetro refere-se à determinada medida que caracterize a população de interesse. Os parâmetros mais frequentemente investigados através dos testes de hipóteses são: a média, o desvio-padrão, no caso de variáveis quantitativas e a proporção, no caso de variáveis categóricas.)

119

unidade 7

ESTATÍSTICA E PROBABILIDADES

Note que o teste refere-se à média

36, podemos trabalhar com a distribuição

populacional e não amostral. A média

normal padronizada. Nomeamos o valor

amostral será utilizada como base para

obtido da estatística de teste, que é

tomar a decisão sobre rejeição ou não

calculada de acordo com a fórmula abaixo:

rejeição da hipótese nula.

-μ Z = σx

2ª etapa: Obtenção da estatística de teste Essa

fórmula

permite

que

a

média

=

amostral obtida passe de qualquer escala

502 gramas. Será que esse valor foi obtido

(em gramas, no presente exemplo) para

em função da variabilidade amostral3 , ou

número de desvio-padrão. Isso possibilita

seja, o valor obtido de 502 gramas é próximo

traçar comparações com os valores de

do valor proposto de μ = 500 gramas? Para

probabilidade

respondermos a essa questão devemos

padronizada (em que a unidade de medida

verificar qual a probabilidade de obter o

é a quantidade de desvio-padrão). Sem

valor 502 gramas, levando em consideração

esse procedimento, essa comparação seria

O valor médio obtido pela amostra foi:

a

distribuição

das

médias

amostrais,

ou seja, a possibilidade de obtenção de resultados diferentes de amostra para amostra. Para isso, utilizamos a distribuição

pequena (geralmente menor do que 30) e o

normal

seguintes itens: Z: E  score

da

distribuição

normal

padronizada

conhecido ou quando o tamanho da amostra ou acima de 30). Quando a amostra é

distribuição

pouco viável. A fórmula é composta dos

normal padronizada quando o valor de σ é é razoavelmente grande (geralmente igual

da

: Média obtida através da amostra μ: Valor da média populacional a ser testada σx: Valor do desvio-padrão da distribuição

desvio-padrão é desconhecido, utilizamos

das médias amostrais.

a distribuição t para avaliar a probabilidade

σ σx = √n

em questão. Como no presente exemplo temos uma amostra de tamanho igual a

Caso não se conheça o desvio-padrão 3 - A variabilidade amostral ocorre porque existem chances de tomarmos tanto amostras parecidas com a população de interesse quanto amostras pouco semelhantes à população. Qualquer processo de amostragem sujeita-se a essa situação. Cabe ao pesquisador levar esse fato em consideração ao construir um teste de hipóteses

populacional σ (situação muito comum), podemos utilizar o desvio-padrão obtido através da amostra:

120

unidade 7

σ sx = √n

ESTATÍSTICA E PROBABILIDADES

Dessa forma, a estatística de teste passa a ser: -μ Z = s/√n Com os dados do problema, temos então: Z=

502 - 500 = 4,0 s/√36

O número obtido significa que 502 gramas encontram-se a 4,0 desvios-padrão de distância da média populacional de 500 gramas. Mas esse valor é perto ou longe da média populacional? • Quando Z = 0, pode-se afirmar que a média amostral é exatamente igual ao valor hipotético da média populacional. • Quando Z = 1, a probabilidade do valor da média amostral ter sido obtido devido à flutuação amostral é de aproximadamente 34%, pois 68% dos dados encontram-se a até um desvio-padrão de distância da média, conforme a figura 8.1 FIGURA 8.1: Área da distribuição normal padronizada de acordo com o número de desvios-padrão.

Fonte: TRIOLA, 2013, p. 88.

121

unidade 7

ESTATÍSTICA E PROBABILIDADES

• Quando Z = 2, a probabilidade do valor da média amostral ter sido obtido devido à flutuação amostral é de aproximadamente 5%, pois 95% dos dados encontram-se a até um desvio-padrão de distância da média4. • Quando Z = 3, a probabilidade do valor da média amostral ter sido obtido devido à flutuação amostral é de aproximadamente 0,2%, pois 99,8% dos dados encontram-se a até um desvio-padrão de distância da média. Utilizando o mesmo raciocínio, com o valor de Z = 4,0, depreende-se que a probabilidade do valor da média amostral ter sido obtida devido à flutuação amostral seja bem menor que 0,2%. Dessa forma, o valor de Z = 4 significa que os 502 gramas obtidos pela amostra apresentam uma grande distância dos 500 gramas propostos na hipótese nula (a distância de 2 gramas corresponde a 4 desvios-padrão). O fato dos valores serem tidos como distantes implica na rejeição da hipótese nula. Para definir quais valores do escore Z são considerados altos, utiliza-se o desenho da distribuição normal padronizada, conforme o 3º passo. Os valores acima podem ser obtidos através de um software estatístico, ou pela tabela Z. 3ª etapa: Obtenção da região de rejeição Para tomar a decisão de rejeitar ou não a hipótese nula, podemos utilizar o diagrama da figura 8.2: FIGURA 8.2 - Regiões de rejeição da hipótese nula

Fonte: Elaborado pelo autor.

4 - Observe pela Figura 8.1 que 34% + 13,5% = 47,5%. Ao multiplicarmos esse valor por dois, obtemos os 95%.

122

unidade 7

ESTATÍSTICA E PROBABILIDADES

A figura 8.2 representa a distribuição normal

Devemos procurar na tabela o valor do nível

padronizada. A área em vermelho refere-

de significância dividido por 2, ou seja α⁄2,

se à região de rejeição da hipótese nula.

pois o teste é bilateral, o que implica em

Valores menores que - 1,96 desvios-padrão

duas regiões de rejeição (as caudas direita

ou maiores que + 1,96 desvios-padrão são

e esquerda da distribuição, conforme a

considerados demasiadamente afastados

figura 8.3). Observe que a combinação da

quando consideramos uma significância de

linha com a coluna gera o valor do escore

5% para o teste bilateral (ou seja, podemos

Z = 1,96. O número 1,96 foi obtido através

considerar que tais valores sejam pontos de

da combinação da coluna e linha formados

corte). Dessa forma, cada uma das áreas

pelo valor 0,0250 referente à área da cauda

em vermelho representa 2,5% dos dados. A

direita (ou esquerda) da distribuição normal

área total abaixo dos dados (soma da área

padronizada.

verde com a área vermelha) representa 100% dos dados. Quando o valor da estatística de teste encontra-se

na

região

em

vermelho,

consideramos pouco provável que a média amostral (ou outra estatística) tenha sido resultado das flutuações amostrais. Os valores críticos (- 1,96 e 1,96) foram obtidos pelo percentil 97,5 da tabela da distribuição normal padronizada. Podem ser calculados também através de softwares estatísticos. A figura 8.3 indica de onde os dados foram obtidos.

123

unidade 7

ESTATÍSTICA E PROBABILIDADES

FIGURA 8.3 - Distribuição normal padrão

Fonte: BARBETTA, 2010, p. 377

124

unidade 7

ESTATÍSTICA E PROBABILIDADES

4ª etapa: Conclusão

2ª etapa: Obtenção da estatística de teste -μ Z = s/√n

Com base nos valores obtidos pela estatística de teste e pela região de rejeição, tomamos uma decisão em relação à hipótese nula.

Com os dados do problema, temos então:

No caso em questão, a decisão é rejeitá-la,

Z=

pois o valor 4 desvios-padrão (relativo aos 2 gramas de distância entre a média amostral e a média populacional proposta na hipótese

3ª etapa: Obtenção da região de rejeição

nula) pode ser considerado muito longe da média, uma vez que se encontra na parte vermelha do diagrama. A estatística de teste no valor de 4,00 é maior do que o valor crítico de + 1,96 (número obtido na tabela da Figura 8.3, que serve de referência para rejeição ou não rejeição da hipótese nula). Exemplo 7.3 Um processo foi delineado para fabricar bancadas

de

tamanho

igual

a

120

centímetros. Para verificar se o processo encontra-se sob controle, um especialista coletou uma amostra de 64 peças. Foi obtida uma média amostral

= 120,2

centímetros, com desvio-padrão s = 1,6 centímetros. Teste a hipótese de que o processo encontra-se sob controle, ou seja, que a média populacional μ seja igual a 120 centímetros. Use significância de 10%. 1ª  etapa:

Estabeleça

as

hipóteses

120,2 - 120,0 = 1,0 1,6/√64

de

interesse H0: μ = 120 centímetros H1: μ ≠ 120 centímetros

125

unidade 7

ESTATÍSTICA E PROBABILIDADES

FIGURA 8.4 - Regiões de rejeição da hipótese nula.

Fonte: Elaborado pelo autor.

O valor crítico de 1,645 positivo (ou negativo) foi obtido pela combinação da linha e coluna relativas à área igual a 0,050 (0,100 dividido por 2)5 da tabela da distribuição normal padrão da figura 8.4.

5 - O valor 0,10 refere-se aos 10% escolhidos como nível de significância pelo pesquisador. Tal valor consiste na probabilidade de rejeitar a hipótese nula, dado que ela é verdadeira, ou seja, probabilidade de tomar uma decisão equivocada em relação à hipótese.

126

unidade 7

ESTATÍSTICA E PROBABILIDADES

FIGURA 8.5 - Distribuição normal padrão

Fonte: BARBETTA, 2010, p. 377

127

unidade 7

ESTATÍSTICA E PROBABILIDADES

4ª etapa: Conclusão

a hipótese de que a média seja igual a 10 milímetros. Use significância de 5%.

Como o valor de Z = 1,00 obtido pela estatística de teste não supera a valor

1ª  etapa:

nula. Não podemos descartar a hipótese de que a média seja 120 centímetros. Portanto, há indícios de que o processo encontra-se sob controle.

as

hipóteses

de

interesse

crítico de 1,645, ou seja, não pertence à região crítica, não rejeitamos a hipótese

Estabeleça

H0: μ = 10 milímetros H1: μ ≠ 10 milímetros 2ª etapa: Obtenção da estatística de teste Nesse caso, devemos utilizar o escore t no lugar do Z:

TESTES DE HIPÓTESES

PARA AMOSTRAS PEQUENAS

Com os dados do problema, temos então:

Nos exemplos 7.2 e 7.3 as amostras têm tamanho maior que 30. Quando a amostra for pequena (menor do que 30) e o desviopadrão for desconhecido (situação mais frequente), devemos utilizar a Distribuição t de Student para realizar o teste.

t=

- μ = 10,2 - 10,0 0,2/√16 = 4,0 s/√n

3ª etapa: Obtenção da região de rejeição Nesse caso, devemos trabalhar com a distribuição t:

O exemplo 7.4 consiste num problema de teste de média em que a amostra é pequena e o desvio-padrão (σ) é desconhecido. Exemplo 7.4 Um engenheiro acredita que um processo esteja sob controle produzindo esferas com 10 milímetros de diâmetro. Foi coletada uma amostra com 16 esferas cujo o valor obtido para a média foi X ̅ = 10,2 milímetros e desvio-padrão s = 0,20 milímetros. Teste

128

unidade 7

ESTATÍSTICA E PROBABILIDADES

FIGURA 8.6 - Distribuição t de Student

Fonte: Elaborado pelo autor.

Para saber o valor crítico, devemos consultar a tabela t. Como a amostra conta com 16 elementos, temos 15 graus de liberdade. Como o nível de significância é igual a 5%, devemos procurar o escore t na coluna do 0,05 (área em duas caudas, pois o teste é bilateral)

129

unidade 7

ESTATÍSTICA E PROBABILIDADES

FIGURA 8.7 - Tabela da Distribuição t

Fonte: TRIOLA, 2013, p. 614.

4ª etapa: Conclusão Como o valor 4,0 obtido pela estatística de teste supera a valor crítico 2,13 obtido pela distribuição t, rejeitamos a hipótese de que a média seja de 10 milímetros. Portanto, o processo encontra-se fora de controle.

130

unidade 7

ESTATÍSTICA E PROBABILIDADES

TESTE PARA

firma ficam estressados quando fazem

UMA PROPORÇÃO

horas extras durante a madrugada.

Quando

variáveis

trabalhadores, dos quais 12 afirmaram

quantitativas, o principal parâmetro de

se estressar nessa situação. Teste a

interesse costuma ser a média. Além da

hipótese de que a proporção seja de

média, outros parâmetros também podem

30%. Use significância de 5%.

trabalhamos

com

Foi coletada uma amostra com 49

ser testados, como, por exemplo, o desviopadrão. No caso de variáveis categóricas,

1ª  etapa:

Estabeleça

as

hipóteses

de

interesse

geralmente a medida de interesse a ser testada é uma proporção.

H0: π = 0,30 No teste de hipóteses, o valor do erro padrão

H1: π ≠ 0,30

da proporção geralmente está baseado no uso do valor hipotético:

Sp =

Observação

Enquanto

a

média

é

representada pela letra μ, a proporção é

√π (1n -π)

representada pela letra grega π (pi).

A fórmula para o cálculo de Z para testar uma hipótese voltada para o valor da proporção da população é: Z=

1:

Observação 2: Para representarmos os 30% propostos na hipótese nula, utilizamos a escala decimal. Dessa forma, o valor utilizado nos cálculos é 0,30 (ou seja, 30 dividido por 100).

p-π Sp

2ª etapa: Obtenção da estatística de teste O exemplo 7.5 consiste num teste de proporção.

Antes de obtermos o escore padronizado Z, devemos calcular o desvio-padrão da proporção populacional, dado pela fórmula

Exemplo 7.5

a seguir:

Um engenheiro acredita que 30% dos trabalhadores

de

uma

determinada

131

unidade 7

ESTATÍSTICA E PROBABILIDADES

Sp =

= √0,00428 = 0,0655 √π (1n -π) = √0,30 (149- 0,30) = √0,21 49

O escore padronizado então é: Z=

p-π 0,0655

=

0,2653 - 0,3000 - 0,0347 = = -0,53 0,0655 0,0655

3ª etapa: Obtenção da região de rejeição Como o teste é bilateral e com 5% de significância, obtemos através da tabela Z o valor crítico igual a - 1,96. FIGURA 8.8 - Distribuição normal padronizada

Fonte: Elaborado pelo autor.

4ª etapa: Conclusão O valor - 0,53, obtido pela estatística de teste, encontra-se fora da região de rejeição, sendo próximo de zero e longe do valor crítico de -1,96. Dessa forma, não rejeitamos a hipótese nula. Portanto, não há indícios de que a proporção de trabalhadores estressados na empresa estudada seja diferente de 30%. No próximo tópico você verá situações em que o pesquisador tem como interesse comparar os valores dos parâmetros de duas amostras.

132

unidade 7

ESTATÍSTICA E PROBABILIDADES

TESTES PARA DUAS OU

O numerador apresenta as médias das

MAIS AMOSTRAS

duas amostras, enquanto o denominador

Nos tópicos anteriores aprendemos a

padrão

delinear testes de hipóteses bilaterais

tamanhos de amostras. No exemplo 7.6 é

em que uma afirmação numérica é feita

feito um teste em que são comparadas as

sobre uma média ou uma proporção para

médias de duas amostras.

consiste na raiz da soma dos desviosdivididos

pelos

respectivos

uma amostra. Em algumas situações o pesquisador tem interesse em comparar

Exemplo 7.6

tais valores em dois grupos. Nesse caso, podemos afirmar que temos um teste

Um engenheiro resolveu comparar o tempo

de hipótese para a comparação de duas

de secagem de duas marcas diferentes de

médias ou de duas proporções.

tintas para determinado tipo de parede. Para a marca A foram verificados os tempos de secagem de 50 paredes. O tempo médio

TESTE PARA A COMPARAÇÃO DE DUAS MÉDIAS EM

obtido foi

A

= 80 minutos, com desvio-

padrão s1 = 6 minutos. Para a marca B, foram verificadas 40 paredes, com tempo

AMOSTRAS INDEPENDENTES

médio

B

= 88 minutos e desvio-padrão

s2 = 10 minutos. Teste a hipótese de que não existe diferença entre as médias. Use

Em várias situações devemos decidir se

significância 1%.

uma diferença observada entre as médias de dois grupos pode ser atribuída ao acaso

1ª  Etapa:

Estabeleça

as

hipóteses

interesse

ou se há indícios de que os valores obtidos de fato provêm de populações com médias diferentes. Quando desejamos comparar as médias obtidas por duas amostras independentes,

utilizamos

estatística de teste:

Z=

a

seguinte

H0: μA = μB H1: μA ≠ μB 2ª Etapa: Obtenção da estatística de teste

1



-

2

s s22 + n1 n2 2 1

Aplicando a fórmula, temos:

133

unidade 7

de

ESTATÍSTICA E PROBABILIDADES

Z=

1



-

2

s s + n1 n2 2 1

2 2

=

80 - 88



6 10 + 50 40 2

2

=



-8

36 100 + 50 40

=

-8

-8

-8 = 1,7944 = -4,46 3,22

√0,72 + 2,5 √ =

3º Etapa: Obtenção da região de rejeição. FIGURA 8.9 - Regiões de rejeição da hipótese nula.

Fonte: Elaborado pelo autor.

O valor crítico de 2,33 positivo (ou negativo) foi obtido pela combinação da linha e coluna relativas à área igual a 0,005 (0,010 dividido por 2) da tabela da distribuição normal padrão. 4ª Etapa: Conclusão Como o valor de Z = - 4,46 é bem inferior ao valor crítico - 2,33, obtido pela tabela da distribuição normal padronizada, rejeitamos a hipótese nula. Não há indícios de que o tempo médio de secagem das tintas seja diferente.

TESTE PARA A COMPARAÇÃO

DE DUAS PROPORÇÕES Quando se deseja testar a hipótese de que as proporções em duas populações são iguais, o procedimento é análogo ao teste para a comparação de médias. A fórmula é a seguinte:

134

unidade 7

ESTATÍSTICA E PROBABILIDADES

ˆ1 - p ˆ2 p



Z=

p (1 - p) + p (1 - p) n1 n2

ˆ = x1 e p2 = x2 (proporções amostrais) Onde p n2 n1 x1 + x2 p = n1 + n2 (proporção amostral combinada)

Exemplo 7.7 Um especialista acredita que a proporção de trabalhadores com estresse ocupacional no turno da manhã seja estatisticamente diferente do turno da tarde. Uma amostra de 100 trabalhadores foi estudada, sendo 50 pela manhã e 50 a tarde. No turno da manhã contou-se 10 trabalhadores nessa situação. No turno da tarde contou-se 15. Teste a hipótese de que as proporções sejam diferentes nos respectivos turnos. Nível de significância: 5%. 1ª Etapa: Estabeleça as hipóteses de interesse H0: p1 = p2 H1: p1 ≠ p2 2ª Etapa: Obtenção da estatística de teste Aplicando a fórmula, temos: x1 + x2 10 + 15 25 p = n1 + n2 = 50 + 50 = 100 = 0,25 10 ˆ1 = p 50 = 0,20 15 ˆ2 = p 50 = 0,30



Z=

ˆ1 - p ˆ2 p

p (1 - p) + p (1 - p) n1 n2



- 0,10

0,25 (0,75) + 0,25 (0,75) 50 50

=

=

0,20 - 0,30



0,25 (1 - 0,25) + 0,25 (1 - 0,25) 50 50

- 0,10



0,0075

=

- 0,10 0,0866 = -1,15

135

unidade 7

=

ESTATÍSTICA E PROBABILIDADES

3º Etapa: Obtenção da região de rejeição. FIGURA 8.10 - Regiões de rejeição da hipótese nula.

Fonte: Elaborado pelo autor.

O valor crítico de 1,96 positivo (ou negativo) foi obtido pela combinação da linha e coluna relativas à área igual a 0,025 (0,050 dividido por 2) da tabela da distribuição normal padrão. 4ª Etapa: Conclusão O Z calculado de - 1,15 encontra-se fora da região crítica. Não rejeitamos a hipótese nula. Portanto, não há diferença na proporção de trabalhadores com estresse entre os turnos da manhã e tarde.

APLICAÇÃO

PRÁTICA

Os testes de hipótese são extremamente úteis na engenharia, principalmente no delineamento de experimentos. Em várias situações busca-se a otimização de processos. Espera-se que os insumos sejam combinados da melhor maneira possível, de forma a obter produtos de qualidade ao menor custo possível. Nesse contexto, diversos fatores podem determinar o sucesso de um processo de produção de produtos ou serviços. Num processo produtivo em que determinada mercadoria é embalada de forma manual por um trabalhador, diversos fatores (ou seja, diversas variáveis) exercem influência sobre o desempenho

136

unidade 7

ESTATÍSTICA E PROBABILIDADES

desse trabalhador, como, por exemplo, a

unidade focaram em testes bilaterais.

iluminação, a temperatura, o número de horas trabalhadas, e talvez até a altura de uma

Para definir o tipo de teste a ser utilizado,

bancada. Dessa forma, a execução de um

levamos em consideração o tamanho

experimento com diversas combinações de

da amostra e o conhecimento ou não do

valores que as variáveis possam assumir pode

desvio-padrão

ser útil para a otimização do processo. Por

desconhecemos o desvio-padrão e a

exemplo: o desempenho dos trabalhadores é

amostra tem tamanho inferior a 30,

melhor quando a temperatura de um galpão é

utilizamos o teste t. No caso de conhecer o

de 22 graus celsius, de 23 ou de 24? Como um

desvio-padrão populacional ou a amostra

experimento desse tipo depende da utilização

igual ou superior a 30, utilizamos o teste

de amostras, torna-se fundamental o uso

Z. O nome do teste ocorre em função

de testes de hipóteses para obtenção de

da distribuição da estatística de teste,

conclusões acerca do processo.

que é construída através do conjunto de

populacional.

Quando

possíveis amostras, o que é conhecido como distribuição amostral.

REVISÃO Nessa

unidade

aprendemos

os

Os testes podem ser utilizados para

fundamentos dos testes de hipóteses. O

verificar

principal objetivo deles é contrapor uma

amostra, sobre duas amostras ou sobre

hipótese de interesse, conhecida como

mais de duas amostras. Os dois primeiros

hipótese nula, a uma hipótese contrária,

casos foram abordados nessa unidade.

conhecida

como

hipótese

uma

afirmação

sobre

uma

alternativa,

em relação a um parâmetro de interesse

A grande utilidade do teste de hipóteses

(geralmente a média, no caso de variáveis

para o engenheiro ocorre no delineamento

quantitativas e a proporção, no caso de

de experimentos e no controle estatístico

variáveis categóricas).

de processos.

As hipóteses podem ser unilaterais ou bilaterais. No primeiro caso, a hipótese nula de igualdade contrapõe-se à hipótese alternativa, em que o sinal é de menor ou maior. No caso dos testes bilaterais, na hipótese alternativa temos o sinal de diferente. Todos os exemplos dessa

137

unidade 7

ESTATÍSTICA E PROBABILIDADES

PARA SABER

MAIS

LEVINE, David; BERENSON, Mark; STEPHAN, David. Estatística: teoria e aplicações - usando o Microsoft Excel em português. 6 ed. LTC, 2011, 812 p. MOORE, David. A estatística básica e sua prática. Rio de Janeiro: LTC, 2014. TRIOLA,

Mário.

Introdução

à

Estatística:

Atualização da Tecnologia. 11 ed. LTC, 2013. VitalBook file. Para uma fundamentação matemática mais aprofundada sobre o assunto, consulte a seguinte obra: MONTGOMERY, Estatística

Douglas;

aplicada

e

RUNGER,

George

probabilidade

para

engenheiros. 3 ed. Rio de Janeiro: LTC, 2009.

138

unidade 7

UNIDADE

ANÁLISE DE CORRELAÇÃO E

REGRESSÃO

A

o analisar um conjunto de dados, podemos ter interesse no relacionamento entre duas variáveis quantitativas. Dessa forma, poderíamos traçar o seguinte questionamento: um aumento no valor da variável X se relaciona a um aumento

na variável Y? Qual seria a magnitude dessa relação? As técnicas de análise de correlação e análise de regressão podem ser utilizadas para estudos desse tipo.

A relação entre variáveis quantitativas pode ser modelada através de análise de correlação e regressão. Com a evolução da informática nos últimos 20 anos, essas técnicas têm sido cada vez mais utilizadas no ambiente empresarial. Nesta unidade, você aprenderá a desenvolver cálculos para correlação e regressão tanto passo a passo como através do software Microsoft Excel.

140

unidade 8

ESTATÍSTICA E PROBABILIDADES

ANÁLISE DE

CORRELAÇÃO Quando temos interesse em investigar o quanto duas variáveis quantitativas estão associadas, podemos utilizar uma medida conhecida como coeficiente de correlação.

CONCEITO O coeficiente de correlação mede o grau de intensidade do relacionamento linear entre duas variáveis quantitativas.

DIAGRAMA DE

DISPERSÃO Antes de calcular a correlação entre duas variáveis, é interessante representar os dados num diagrama de dispersão.

CONCEITO Diagrama de dispersão: Consiste na representação gráfica de duas variáveis quantitativas no plano cartesiano.

A figura 8.1 se refere a uma pesquisa com anúncios de vendas de 58 imóveis. As variáveis são: ÁREA DO IMÓVEL (em metros quadrados) e VALOR DO IMÓVEL (em R$ mil).

141

unidade 8

ESTATÍSTICA E PROBABILIDADES

FIGURA 8.1 - Área do imóvel x valor do Imóvel 800

Valor do imóvel (R$ mil)

700 600 500 400 300 200 100 0

50

100

150

200

250

300

Área (em metros quadrados) Fonte: Elaborado pelo autor

Através do gráfico de dispersão é possível visualizar graficamente alguns aspectos relativos ao comportamento conjunto das variáveis, como: direção, forma e força da relação. No que se refere à direção, a figura 8.1 apresenta indícios de que as variáveis (ÁREA e VALOR) estejam positivamente relacionadas, ou seja, parece que a direção é ascendente. Há situações em que as variáveis apresentam associação negativa6 como por exemplo o PREÇO e a QUANTIDADE DEMANDADA (para a maioria das mercadorias, quanto maior o preço, menor a quantidade demandada). Em relação à forma, na figura 8.1 podemos observar que a relação entre as variáveis parece ser linear. Observe a reta que resume a associação. Existem situações em que duas variáveis se encontram associadas, porém de forma não linear, como na figura 8.2.

6 - Associação negativa: Duas variáveis apresentam associação negativa quando o crescimento de uma se associa à diminuição da outra, ou o contrário, a queda em uma se associa ao acréscimo da outra.

142

unidade 8

ESTATÍSTICA E PROBABILIDADES

FIGURA 8.2 - Relação não linear entre as variáveis X e Y 80 70 60 Y

50 40 30 20 10 0 0

5

10

15

20

X Fonte: Elaborado pelo autor

Outro aspecto de grande importância ao observar o diagrama de dispersão é a força da relação. Na figura 8.1, o VALOR DO IMÓVEL se relaciona à ÁREA, mas a intensidade da relação não parece tão extrema. A figura 8.3 mostra um diagrama de dispersão onde as variáveis apresentam ausência de relação. FIGURA 8.3: Ausência de relação entre as variáveis X e Y 15 14 14

Y

13 13 12 12 11 11 10 0

5

10 X

Fonte: Elaborado pelo autor

143

unidade 8

15

20

ESTATÍSTICA E PROBABILIDADES

O grau de intensidade da relação linear entre duas variáveis quantitativas é dado pelo coeficiente de correlação de Pearson.

COEFICIENTE DE

CORRELAÇÃO DE PEARSON O coeficiente de correlação linear de Pearson consiste na medida do grau de intensidade da relação linear entre duas variáveis quantitativas, podendo assumir valores entre -1 e 1. Podemos afirmar que duas variáveis estão positivamente correlacionadas se elas caminham no mesmo sentido, ou seja, quando uma delas aumenta de valor, o valor da outra também aumenta. Nesse caso, quanto mais próxima de 1, maior a intensidade da associação entre as variáveis.

Quando as variáveis caminham em sentidos opostos, dizemos que elas

estão negativamente correlacionadas. Quanto mais próxima de -1, maior a intensidade da associação, porém a relação é inversa. É importante destacar que o fato de duas variáveis estarem associadas não significa, necessariamente, que exista uma relação de causa e efeito. Por exemplo: geralmente crianças mais novas apresentam menor peso, entretanto isso não significa que o envelhecimento causa aumento de peso. É mais provável que a criança aumente o peso pelo fato de aumentar a altura. A análise de correlação tem objetivo exploratório servindo como elemento auxiliar na análise da relação entre variáveis. Dessa forma, em muitas ocasiões o estudo da correlação é utilizado como um recurso a mais na análise dos dados. O coeficiente de correlação de Pearson é dado pela fórmula: Cor ( X, Y ) = r =

∑ ( x -x ) ( y - y ) sxsy ( n - 1)

O numerador da fórmula se refere ao somatório do produto dos desvios da variável X e da variável Y em relação às suas respectivas médias. No denominador, encontra-se o produto dos desvios padrão de cada uma das duas variáveis multiplicado pelo tamanho da amostra menos uma unidade.

144

unidade 8

ESTATÍSTICA E PROBABILIDADES

Exemplo 8.1 (adaptado de HINES et al, 2006) Um engenheiro químico está estudando o efeito da temperatura de operação do processo sobre o resultado da produção. O estudo resultou nos seguintes dados:

X - Temperatura (º Celsius) 100 110 120 130 140 150 160 170 180 190 Y - Resultado (porcentagem) 45 51 54 61 66 70 74 78 85 89

Calcule o coeficiente de correlação entre as variáveis. Solução: Ao realizar uma análise de correlação, é interessante construir o diagrama de dispersão para ter uma ideia sobre a associação entre as variáveis: FIGURA 8.4 - Resultado do processo (em %) em função da temperatura (em °C) 100 90 Y - Resultado (%)

80 70 60 50 40 30 20 10 0 0

50

100

150

200

X - Temperatura (º C) Fonte: HINES et al (2006), pag.369

A figura 8.4 apresenta indícios de que as variáveis estão fortemente associadas. Para confirmar essa suspeita, podemos calcular o coeficiente de correlação, conforme a tabela 8.1:

145

unidade 8

ESTATÍSTICA E PROBABILIDADES

TABELA 8.1 - Dados para o cálculo do coeficiente de correlação entre temperatura (X) e resultado (Y) X Y 100 45 110 51 120 54 130 61 140 66 150 70 160 74 170 78 180 85 190 89 Média (X) = 145 Média (Y) = 67,3 Desv. Pad (X) = 30,3 Desv. Pad (Y) = 14,7

(𝑥𝑥 𝑖𝑖 − 𝑥𝑥 ) 100 - 145 = -45 110 - 145 = -35 120 - 145 = -25 130 - 145 = -15 140 - 145 = -05 150 - 145 = +05 160 - 145 = +15 170 - 145 = +25 180 - 145 = +35 190 - 145 = +45

(𝑦𝑦𝑖𝑖 − 𝑦𝑦 ) 45 - 67,3 = -22,3 51 - 67,3 = -16,3 54 - 67,3 = -13,3 61 - 67,3 = -06,3 66 - 67,3 = -01,3 70 - 67,3 = +02,7 74 - 67,3 = +06,7 78 - 67,3 = +10,7 85 - 67,3 = +17,7 89 - 67,3 = +21,7

(𝑥𝑥 𝑖𝑖 − 𝑥𝑥 )(𝑦𝑦𝑖𝑖 − 𝑦𝑦 ) (-45) × (-22,3) = 1003,5 (-35) × (-16,3) = 570,5 (-25) × (-13,3) = 332,5 (-15) × (-6,3) = 94,5 (-5) × (-1,3) = 6,5 (5) × (2,7) = 13,5 (15) × (6,7) = 100,5 (25) × (10,7) = 267,5 (35) × (17,7) = 619,5 (45) × (21,7) = 976,5

𝑛𝑛

𝑖𝑖 = 1

(𝑥𝑥 𝑖𝑖 − 𝑥𝑥 )(𝑦𝑦 𝑖𝑖 − 𝑦𝑦 ) =

3985

Fonte: Elaborado pelo autor

Cor ( X, Y ) = r =

3985 3985 = = + 0,99 ( 30,3) (14,7) (10 -1) 4008,7

O valor + 0,99 obtido pelo coeficiente de correlação confirma que as variáveis estão fortemente associadas, conforme indício dado pelo diagrama de dispersão (figura 8.4). O exemplo 8.2 se refere a uma situação em que as variáveis apresentam correlação negativa. Exemplo 8.2 O quadro abaixo representa o PREÇO (em R$) e a QUANTIDADE DEMANDADA de uma determinada mercadoria. Preço (X) Quantidade (Y)

10 11 12 13 14 15 16 17 18 19 200 171 168 165 170 147 120 130 105 124

Solução: Antes de calcular o coeficiente de correlação, é interessante construir o diagrama de dispersão para ter uma ideia da direção e da forma da associação entre as variáveis.

146

unidade 8

ESTATÍSTICA E PROBABILIDADES

FIGURA 8.5 - Quantidade x preço 220

Y - Quantidade

200 180 160 140 120 100 8

10

12

14

16

18

20

X - Preço Fonte: Elaborado pelo autor

Para o cálculo do coeficiente de correlação, temos: TABELA 8.2 - Dados para o cálculo do coeficiente de correlação entre preço (X) e quantidade (Y) Preço (X) Quantidade (Y) 10 200 11 171 12 168 13 165 14 170 15 147 16 120 17 130 18 105 19 124 Média (X) = 14,5 Média (Y) = 150 Desv. Pad (X) = 3,0 Desv. Pad (Y) = 29,6

(𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ ) -4,5 -3,5 -2,5 -1,5 -0,5 0,5 1,5 2,5 3,5 4,5

(𝑦𝑦𝑖𝑖 − 𝑦𝑦�)

𝑛𝑛

-225 -73,5 -45 -22,5 -10 -1,5 -45 -50 -157,5 -117

�(𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ )(𝑦𝑦𝑖𝑖 − 𝑦𝑦 �) =

-747

𝑖𝑖 =1

Fonte: Elaborado pelo autor

Cor ( X, Y ) = r =

50 21 18 15 20 -3 -30 -20 -45 -26

(𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ )(𝑦𝑦𝑖𝑖 − 𝑦𝑦�)

-747 = ( 3,0) (29,6) (10 -1)

-747 = - 0,93 799,2

Portanto, as variáveis apresentam forte correlação negativa, conforme indício do diagrama de dispersão. Observações importantes sobre o coeficiente de correlação de Pearson:

147

unidade 8

ESTATÍSTICA E PROBABILIDADES

• O valor da correlação independe da unidade de medida dos dados. Por exemplo, se tivermos interesse em medir a correlação entre ALTURA e PESO de um grupo de pessoas,

USO DA TECNOLOGIA PARA O CÁLCULO DO

COEFICIENTE DE CORRELAÇÃO

tanto faz a ALTURA entrar nos

O cálculo do coeficiente de correlação no

cálculos em centímetros ou em

Excel é dado pela função:

metros; • A correlação não se aplica a mais de duas variáveis;

= CORREL (matriz1;matriz2) Onde os parâmetros (matriz1 e matriz2)

• A correlação não faz distinção sobre qual variável se projeta em

se referem aos dados das duas variáveis. Observe a figura 8.6.

cada eixo do plano cartesiano. Dessa forma, Cor (X,Y) = Cor (Y,X); • As

variáveis

quantitativas.

O

devem coeficiente

ser de

correlação linear de Pearson não se aplica a variáveis categóricas; • A correlação mede o grau de associação linear. Dessa forma, se duas variáveis quantitativas se relacionam de forma quadrática ou exponencial, o coeficiente de correlação linear não é indicado, uma vez que matematicamente tem a capacidade de captar relações lineares.

148

unidade 8

ESTATÍSTICA E PROBABILIDADES

FIGURA 8.6 - Coeficiente de correlação no Excel

Fonte: Elaborado pelo autor

REGRESSÃO

LINEAR SIMPLES A regressão linear simples tem como objetivo estimar uma equação que relacione matematicamente duas variáveis, sendo que uma delas é explicada pela outra. A variável explicada geralmente é denominada variável resposta ou variável dependente. A variável explicativa é denominada variável explanatória ou variável independente. A análise de regressão múltipla tem por objetivo estimar uma equação que relacione matematicamente uma variável resposta a duas ou mais variáveis explicativas. A figura 8.7 reapresenta os dados relativos à figura 8.1 onde a variável resposta VALOR se correlaciona à ÁREA DO IMÓVEL.

149

unidade 8

ESTATÍSTICA E PROBABILIDADES

FIGURA 8.7 - Valor do imóvel x área do imóvel

Fonte: Elaborado pelo autor

Observe que os pontos do diagrama não caem exatamente sobre a reta de regressão, mas a reta é capaz de resumir o padrão geral de comportamento dos dados. Uma das técnicas mais utilizadas para obtenção dessa reta é conhecida como método dos mínimos quadrados.

CONCEITO Método dos mínimos quadrados: É uma técnica estatística utilizada para resumir um conjunto de variáveis quantitativas numa equação. Ela se baseia na minimização da distância quadrática de cada ponto em relação à reta.

A equação que representa o modelo de regressão linear simples é: Y1 = β0 + β1 X1 + ε1

150

unidade 8

ESTATÍSTICA E PROBABILIDADES

Onde:

^ =β ^0 + β ^ 1X Y

Yi = valor da variável dependente na i-ésima A análise de regressão se distingue da

tentativa, ou observação;

correlação por supor uma relação de β0 = primeiro parâmetro da equação de

causalidade entre as variáveis resposta e

regressão, o qual indica o intercepto

explanatória. A análise geralmente se baseia

no eixo Y, ou seja, o valor de Y quando

numa referência teórica, que justifique uma

X = 0;

relação matemática de causalidade.

β1= segundo parâmetro da equação de

^ ^ A estimativa dos parâmetros β0 e β1

coeficiente

do modelo se dá a partir das seguintes

regressão,

chamado

angular, que indica a inclinação da reta

fórmulas:

de regressão; ^ ∑ XY - nXY β1 = ∑ X2 - nX2

εi = o valor do erro, que significa a diferença entre o valor verdadeiro e o valor

^ β o = Y - β 1X

previsto pela equação de regressão (ε é a letra grega épsilon). Após a estimação da equação de regressão, o erro passa a ser denominado resíduo. Os parâmetros β0 e β1 no modelo de regressão linear são estimados pelos valores β0 e β1 que se baseiam nos dados amostrais. O “chapéu” sobre as letras indica que foi feita uma estimativa dos parâmetros do modelo com base em dados obtidos através de uma amostra.

Exemplo 8.3 Um professor acredita que a NOTA na prova de estatística esteja relacionada ao número de HORAS DE ESTUDO dos alunos. Para tentar convencer os estudantes dessa relação, o professor resolve fazer a pesquisa levantando dados de sete estudantes, conforme o quadro abaixo.

Dessa forma, a equação de regressão linear baseada nos dados da amostra que é usada para estimar um simples valor da variável dependente, onde o “chapéu” sobre o Y indica que ele é um valor estimado, é:

151

unidade 8

ESTATÍSTICA E PROBABILIDADES

QUADRO 8.1 -Dados para a estimação da reta de regressão que relaciona nota na prova de estatística (Y) e horas de estudo (X) Estudante 1 2 3 4 5 6 7

Horas de estudo (X) 20 15 35 26 30 24 18

Nota na prova (Y) 72 62 87 77 90 83 68

Fonte: Elaborado pelo autor

[a] Determine a equação da reta de regressão para os dados da tabela. [b] Use a eq uação de regressão para estimar a nota de um estudante que tenha dedicado 20 horas de estudo para a prova. Solução: [a] Podemos incluir mais duas colunas na tabela para facilitar a operacionalização dos cálculos: QUADRO 8.2 - Cálculos para a estimação da reta de regressão que relaciona nota na prova de estatística (Y) e horas de estudo (X) Estudante 1 2 3 4 5 6 7

Horas de estudo (X) 20 15 35 26 30 24 18 MÉDIA (X) = 24

Nota na prova (Y) 72 62 87 77 90 83 68 MÉDIA(Y) = 77

2

X

X.Y

400 225 1225 676 900 576 324 2 ΣX = 4.326

1440 930 3045 2002 2700 1992 1224 ΣXY = 13.333

Fonte: Elaborado pelo autor

Na penúltima coluna foram obtidos os valores da variável X ao quadrado. Na última coluna os valores de X foram multiplicados pelos valores de Y para cada estudante. Em seguida, foram obtidas as médias de cada variável e, finalmente, o somatório das duas últimas colunas. Colocando os dados obtidos nas fórmulas, temos:

152

unidade 8

ESTATÍSTICA E PROBABILIDADES

^ 1 = ∑ XY - nXY β ∑ X2 - nX2

=

13.333 - 7 . 24. 77 13.333 -12.936 397 = = = 1,35 2 4.326 - 4.032 294 4.326 - 7.24

^ o = 77 - (1,35) . (24) = 77 - 32,4 = 44,6 β

A equação estimada foi: Y^ = 44,6 + 1,35 . X Para calcular o valor estimado da nota (Y) com base no número de horas estudadas (X), basta inserir o valor de X na equação. Considerando X = 20, temos: Y^ = 44,6 + 1,35 . 20 = 44,6 + 27 = 71,6 Portanto, estima-se que um estudante que tenha dedicado 20 horas de estudo obtenha aproximadamente 72 pontos na prova. Observe abaixo o diagrama da figura 8.8: FIGURA 8.8 - Previsão da NOTA (Y) com base no número de HORAS DE ESTUDO (X)

Fonte: Elaborado pelo autor

153

unidade 8

ESTATÍSTICA E PROBABILIDADES

INTERPRETAÇÃO DO RESULTADO DA REGRESSÃO Além de permitir a previsão de uma variável resposta em função de uma variável explanatória, a análise de regressão também mede a variação de Y quando variamos X. A partir da equação obtida pelos dados do exemplo 8.3, podemos afirmar que o aumento de uma unidade na variável X (número de horas estudadas) aumenta, em média, 1,35 unidades na variável Y (pontos na prova de estatística). USO DA TECNOLOGIA PARA A ESTIMAÇÃO DA REGRESSÃO Com a evolução da informática, a técnica de regressão múltipla passou a ser cada vez mais utilizada pelas organizações e pelos cientistas, pois os cálculos se tornaram menos tediosos. No exemplo 8.4, os dados do exemplo 8.3 foram rodados no Excel. Exemplo 8.4 Estime a equação de regressão com os dados do exemplo 8.2 utilizando o Excel. Solução: DADOS > ANÁLISE DE DADOS > REGRESSÃO > OK FIGURA 8.9 - Comandos utilizados no Excel para análise de regressão

Fonte: Elaborado pelo autor

Nos intervalos de entrada e saída, insira o endereço das variáveis explanatória (X – horas de estudo) e resposta (Y – nota na prova), respectivamente. Em seguida, aperte OK.

154

unidade 8

ESTATÍSTICA E PROBABILIDADES

FIGURA 8.10 - Comandos utilizados no Excel para análise de regressão

Fonte: Elaborado pelo autor

Após rodar a regressão, o Excel apresenta três quadros. O primeiro mostra, dentre outras estatísticas, o valor do R-quadrado. No exemplo em questão, o valor observado é igual a 0,843. Isso significa que o modelo explica aproximadamente 84,3% da variabilidade em Y a partir da variação em X. TABELA 8.3 - Estatísticas para análise de regressão Estatística de regressão R múltiplo 0,918 R-Quadrado 0,843 R-quadrado ajustado 0,811 Erro padrão 4,470 Observações 7 Fonte: Elaborado pelo autor

A tabela 8.4 diz respeito ao teste de significância do modelo, conhecido como teste F, que produziu uma estatística igual a 26,8, que implica num valor p próximo de zero. Dessa forma, rejeitamos a hipótese de que o modelo não se ajusta bem aos dados. Portanto, o modelo é estatisticamente significativo.

155

unidade 8

ESTATÍSTICA E PROBABILIDADES

TABELA 8.4 - Resultados do teste de adequação do modelo de regressão simples (teste F) ANOVA gl

Regressão Resíduo Total

SQ MQ F Valor p 1 536,085 536,085 26,8271 0,00353 5 99,915 19,983 6 636

Fonte: Elaborado pelo autor

A outra saída se refere a valores p dos testes dos coeficientes β0 e β1. As hipóteses para o intercepto são: H0: β0 = 0 H0: β0 ≠ 0 As hipóteses para a variável explanatória são: H0: β1 = 0 H0: β1 ≠ 0 Os valores p iguais a zero para o intercepto e para a variável X1 implicam na rejeição da hipótese de que os valores sejam não significativos. Portanto os coeficientes ( β0 e β1 ) são significativos com base no teste t para cada um separadamente. TABELA 8.5 - Coeficientes da regressão e estatísticas de interesse

Interseção Variável X 1

Coeficientes Erro padrão 44,59 6,48 1,35 0,26

Stat t 6,88 5,18

valor-P 0,00 0,00

Fonte: Elaborado pelo autor

A equação estimada é: ˆ = 44,6 +1,35 . X1 Y Dessa forma, o modelo se mostra útil tanto para analisar o impacto que a variável explanatória exerce sobre a variável resposta, quanto para previsão.

156

unidade 8

ESTATÍSTICA E PROBABILIDADES

A interpretação do coeficiente da variável X1 é: o aumento de uma unidade na variável X (ou seja, a cada hora a mais de estudo) consiste no aumento de 1,35 unidades na variável Y (1,35 pontos na prova de estatística) Para um estudante que tenha dedicado 30 horas ao estudo, o valor previsto pela equação é 85: ˆ = 44,6 + 1,35 x 30 = 44,6 + 40,5 = 85 Y

REGRESSÃO

LINEAR MÚLTIPLA Na regressão linear simples, uma variável resposta pode ser explicada por uma variável explanatória. Na figura 8.7, o valor do imóvel pode ser previsto com base no seu tamanho (em metros quadrados). O valor obtido para o R2 foi de 0,45. Isso significa que a variável explanatória X explica 45% da variação na variável Y. No exemplo em questão, outras variáveis também podem ser utilizadas para explicar melhor a variação de Y (preço do imóvel), como por exemplo a idade do imóvel, o preço do condomínio, o número de banheiros, etc. Dessa forma, na regressão múltipla, uma variável resposta se relaciona a duas ou mais variáveis explanatórias. O objetivo também é predizer os valores de Y com base nas variáveis explanatórias. Na maioria das vezes, uma variável resposta se relaciona a mais de uma variável explanatória. Nessa situação, também podemos utilizar o método dos mínimos quadrados para obter uma equação que relacione as variáveis. Nesse caso, temos uma regressão múltipla: Yi = β0 + β1 X1 + β2 X2 + … + βk Xk + εi Onde: Yi = variável resposta (variável dependente); β0 = intercepto (valor assumido por Y quando todas as demais variáveis assumem valor igual a zero); β1, β2,..., βk = coeficientes angulares; k = número de variáveis explanatórias (variáveis independentes).

157

unidade 8

ESTATÍSTICA E PROBABILIDADES

A estimação da equação de regressão linear múltipla também se dá através do método dos mínimos quadrados. O objetivo é obter o hiperplano que melhor se ajuste ao conjunto de dados através da minimização dos desvios quadráticos. Com a evolução da informática, a técnica de regressão múltipla passou a ser cada vez mais utilizada pelas organizações e pelos cientistas, pois os cálculos se tornaram menos tediosos. No exemplo 8.5, o preço do imóvel é estimado com base em duas variáveis: ÁREA DO IMÓVEL e NÚMERO DE QUARTOS. Exemplo 8.5 Estime a equação de regressão relacionando o VALOR DO IMÓVEL às variáveis: ÁREA do apartamento e NÚMERO DE QUARTOS.

158

unidade 8

ESTATÍSTICA E PROBABILIDADES

Axis  Title  

Chart  Title    800.000,00      700.000,00      600.000,00      500.000,00      400.000,00      300.000,00      200.000,00      100.000,00      -­‐        

y  =  1868,2x  +  239876   R²  =  0,55094   Series1   Linear  (Series1)  

0  

50  

100  

150  

200  

Axis  Title  

159

unidade 8

250  

300  

ESTATÍSTICA E PROBABILIDADES

Solução DADOS > ANÁLISE DE DADOS > REGRESSÃO > OK Nos intervalos de entrada e saída, insira o endereço das variáveis explanatória e dependente, respectivamente, assim como foi feito para a regressão simples. Em seguida, aperte OK. Após rodar a regressão múltipla, o Excel produz tabelas. Segue a primeira: TABELA 8.7 - Resultados do teste de adequação do modelo de regressão múltipla (teste F) ANOVA Regressão Resíduo Total

gl 2 55 57

SQ MQ 557.278.841.710 278.639.420.855 360.283.037.601 6.550.600.684 917.561.879.310

F 42,5

Valor p 0,000

Fonte: Elaborado pelo autor

A saída da última coluna se refere aos valores p do teste dos coeficientes da regressão. A hipótese nula é de que cada coeficiente é igual a zero, individualmente, versus a hipótese alternativa de que seja diferente de zero, respectivamente.

TABELA 8.8 - Coeficientes de regressão e estatísticas de interesse

Interseção Variável X 1 Variável X 2

Coeficientes 86.873 1.335 67.719

Erro padrão 60.689 285 24.091

Stat t 1,43 4,68 2,81

valor-P 0,16 0,00 0,01

Fonte: Elaborado pelo autor

A equação estimada é: Yˆ = 86.873 + 1.335X1 + 67.719X2 Na última coluna temos os valores p, que mostram que as variáveis são significativas e o intercepto não, conforme os testes t para cada coeficiente separadamente. O intercepto no caso não tem significado prático nesse exemplo.

160

unidade 8

ESTATÍSTICA E PROBABILIDADES

Dessa forma, o modelo se mostra útil tanto para analisar o impacto que cada uma das variáveis explanatórias exerce sobre a variável resposta, mantendo constantes as outras variáveis, quanto para previsão.

ˆ

A interpretação do coeficiente da variável X1 é: a cada uma unidade de aumento na ÁREA (ou seja a cada metro quadrado a mais) a variável Y (VALOR) aumenta em R$ 1.335,00, se mantida constante a variável X2 (NÚMERO DE QUARTOS). A interpretação do coeficiente da variável X2 é: a cada uma unidade de aumento na variável X2 (NÚMERO DE QUARTOS), a variável Y (VALOR) aumenta em média R$ 67.719, se mantida constante a variável X1 (ÁREA). Para um apartamento que tenha 80 metros quadrados e três quartos, o valor previsto pela equação é: Yˆ = 86.873 + 1.335 × 80 + 67.719 × 3= ˆ = 86.873 + 106.800 + 203.157 = R$ 396.830 Y

APLICAÇÃO

PRÁTICA

Os exemplos de análise de regressão utilizados nesta unidade contêm uma variável explicativa, no caso da regressão simples, ou duas variáveis explicativas, no caso da regressão múltipla. Tais situações ilustram a utilização dos modelos de regressão para situações mais simples. Na verdade, esses modelos podem ser utilizados com um número bem maior de variáveis explicativas. Por exemplo, para prever o preço de revenda de um automóvel, o analista de dados pode utilizar diversas variáveis, como: idade, número de quilômetros rodados, presença de vidros elétricos, presença de ar condicionado, consumo de combustível na estrada, consumo de combustível na cidade, estado de conservação dos pneus, estado de conservação da pintura, etc. Nesse sentido, os modelos de regressão se mostram muito úteis para a realização de previsões. Outro exemplo: imagine o gestor de uma empresa de varejo de alimentos que tem que tomar a decisão sobre a quantidade de itens em estoque. Nesse caso, ele não pode estocar muito, pois os produtos podem perder

161

unidade 8

ESTATÍSTICA E PROBABILIDADES

validade, além do custo do espaço utilizado para

o estudo da relação entre duas variáveis é

guardar as mercadorias. Ao mesmo tempo,

a regressão simples, muito útil para fazer

estocar uma quantidade insatisfatória pode

previsões. Além da regressão simples, a

implicar na falta de produtos para a venda.

regressão múltipla também é bastante

Nesse caso, é de grande valia a utilização de

utilizada, pois na maioria das situações

modelos de previsão para estimar a quantidade

as variáveis previstas são associadas a

de mercadorias que serão comercializadas num

diversas

certo espaço de tempo.

quantitativas quanto categóricas.

Um terceiro exemplo do uso de modelos de regressão se refere à decisão dos bancos sobre conceder ou não um empréstimo para determinado candidato. Para isso, o banco geralmente levanta diversas variáveis para estimar a probabilidade de o cliente ser ou não um bom pagador.

variáveis

explanatórias,

tanto

Para que o modelo de regressão seja útil, o analista depende do conhecimento da teoria acerca do assunto e de alguma experiência prática capaz de auxiliar na escolha das melhores variáveis candidatas e explicativas. A utilização dos modelos de regressão na engenharia é muito importante, uma vez

REVISÃO

que vários experimentos são delineados na

A presente unidade tratou do tema relação

otimização de processos de produção.

entre duas ou mais variáveis quantitativas. Foi demonstrado que, para o estudo de duas variáveis

quantitativas

PARA SABER

simultaneamente,

MAIS

faz-se interessante o uso de diagramas de dispersão com o objetivo de inspecionar visualmente se elas apresentam associação.

Para estudar mais sobre os modelos de

Devemos observar, principalmente, a forma,

regressão, consulte as seguintes obras:

a intensidade e a direção da relação entre as variáveis. Além disso, também é importante

DOANE, David, SEWARD, Lori. Estatística

o cálculo do coeficiente de correlação, que

Aplicada à Administração e à Economia.

fornece um valor entre 0 e 1, podendo ser

ArtMed, 2010. VitalBook file.

negativo no caso de relacionamento linear inverso entre as variáveis.

FREUND, John, SIMON, Gary. Estatística Aplicada:

Outra técnica bastante interessante para

Economia,

Administração

e Contabilidade. 9 Ed. Porto Alegre:

162

unidade 8

ESTATÍSTICA E PROBABILIDADES

Bookman, 2007. LEVINE, David; BERENSON, Mark; STEPHAN, David. Estatística: teoria e aplicações usando o Microsoft Excel em português. 6 ed.Rio de Janeiro: LTC, 2011, 812 p. MONTGOMERY, Douglas, RUNGER, George. Estatística aplicada e probabilidade para engenheiros. 3.ed. Rio de Janeiro: LTC, 2009. MOORE, David. A estatística básica e sua prática. Rio de Janeiro: LTC, 2014. TRIOLA, Mário. Introdução à Estatística. 10 ed. Rio de Janeiro: LTC. 2008. 722p.

163

unidade 8

REFERÊNCIAS

FREUND, John. Estatística Aplicada à Economia.

BARBETTA, Pedro Alberto, REIS, Marcelo Menezes,

BORNIA,

Antônio

Cezar.

Estatística: Para Cursos de Engenharia e Informática. 3 ed. Atlas, 2010. VitalBook file. BAILAR III, John.C.; MOSTELLER, Frederick. Medical uses of statistics. 2. ed. Boston: NEJM Books, 1992. CARVALHO, Danilo Heraldo; COUTO, Bráulio Roberto Gonçalves Marinho. Levantamentos por amostragem ou “pesquisas de survey. Relatório técnico DCET, Nº 3/2003. 107p

aplicações usando Microsoft Excel em português. 3 ed. Rio de Janeiro: LTC, 2000

que ajudou a mudar o mundo. 18 fev. 2013. In: Site “TecMundo”. Disponível em: . Acesso em: 15 abr. 2015 GRIFFITHS, Dawn. Use a cabeça! Estatística. Rio de Janeiro: Altabooks, 2009. HINES, William, MONTGOMERY, Douglas, Dave,

BORROR,

Connie.

Probabilidade e Estatística na Engenharia. 4 ed. Rio de Janeiro: LTC, 2006. VitalBook file. KAZMIER, Leonard. Estatística Aplicada à

DOANE, David, SEWARD, Lori. Estatística Aplicada à Administração e à Economia. ArtMed, 2010. VitalBook file.

Administração e Economia. Bookman, 2007. LEVINE, David M. et al. Estatística - teoria e aplicações: usando Microsoft Excel em

DOWNING, Douglas. Estatística Aplicada. Trad. Alfedro Alves de Farias: 2ed São Paulo: Saraiva, 2003

português. 6 ed. Rio de Janeiro: LTC, 2012. 804 p MAGALHÃES, Marcos Nascimento; LIMA, Antônio

FIELD, Andy. Descobrindo a Estatística Usando o SPSS. 2 ed. Porto Alegre: ARTMED, 2009. 688p

Carlos

Acesso

Pedroso.

Noções

de

Probabilidade e Estatística. 6. ed. São Paulo: Editora da Universidade de São Paulo, 2007. MALHOTRA,

FORMULÁRIO GOOGLE DOCS. Disponível em: em: 15 abr. 2015

GAZZARRRINI, Rafael. Lotus 1-2-3: o software

GOLDSMAN,

DAVID M. et al. Estatística: teoria e

.

11 ed. Bookman, 2006. VitalBook file.

Naresh

K..

Pesquisa

de

marketing: uma orientação aplicada. trad. Lene Belon Ribeiro, Monica Stefani. rev. téc. Janaína de Moura Engracia Giraldi. Porto Alegre: Bookman, 2012.

164

McCLAVE, James T.; BENSON, George;

VELLEMAN. Paul. Estatística Aplicada -

SINCICH,

Administração, Economia e Negócios. Porto

Terry.

Estatística

para

administração e economia. trad. Fabrício

Alegre: Bookman, 2011.

Pereira Soares e Fernando Sampaio Filho; rev. téc. Galo Carlos Lopez Noriega. São

SOARES,

José

Francisco;

SIQUEIRA,

Paulo: Pearson Prentice Hall, 2009.

Armanda Lúcia. Introdução à Estatística Médica. Belo Horizonte: UFMG, 2002. 300p

MONTGMOMERY,

Douglas

C;

RUNGER,

George C. Estatística aplicada e probabilidade

STEVENSON, William. Estatística Aplicada

para engenheiros. trad. e rev. téc. Verônica

à Administração. ed 2001. São Paulo:

Calado. Rio de Janeiro: LTC, 2009.

Harbra, 1981.

MOORE, David. A estatística básica e sua

TRIOLA, Mario Farias. Introdução à Estatística:

prática. Rio de Janeiro. LTC, 2014.

tradução de Vera Regina Lima de Farias e Flores, revisão técnica Ana Maria Lima de

NETO, Antônio Peli. Intervalos de confiança,

Farias. 10 ed. Rio de Janeiro: LTC, 2008

Intervalos de Predição e Campo de Arbítrio nas

Avaliações

Urbanos.

TRIOLA, Mario F. Introdução à Estatística:

Associação Brasileira dos Engenheiros

Atualização da Tecnologia, 11 ed. LTC,

Civis - Departamento da Bahia. Bahia, 2010.

03/2013. VitalBook file.

Disponível

em:

de

Imóveis

.

Acesso em 16 jun. 2015.

WERKEMA,

Maria

Cristina

Catarino;

AGUIAR, Silvio. Planejamento e análise de REIDEL, Adilson et al. Utilização de efluente de

experimentos: Como Identificar as principais

frigorífico, tratado com macrófita aquática, no

variáveis influentes em um processo. Belo

cultivo de tilápia do Nilo. R. Bras. Eng. Agríc.

Horizonte:

Ambiental, Campina Grande, v.9, (Suplemento),

Escola de Engenharia da UFMG, 1996.

Fundação

Cristiano

Ottoni,

p.181-185, 2005. Disponível em: . Acesso em: 21 jan. 2015

WALPOLE,

Ronald.

Probabilidade

e

estatística para engenharia e ciências. São SILVA,

Nilza

Nunes.

Amostragem

Paulo: Pears, 2008

probabilística. 2 ed. São Paulo: Editora da Universidade de São Paulo, 2001. 120p SHARP,

Norean,

DE

VEAUX,

Richard,

165

www.animaeducacao.com.br

Related Documents


More Documents from "Toni Rodriguez"

February 2021 2
January 2021 3
Sigils
January 2021 1
January 2021 6