Loading documents preview...
Estatística e Probabilidades Bráulio Roberto Gonçalves Marinho Couto Janaína Giovani Noronha de Oliveira Octávio Alcântara Torres Reinaldo Carvalho de Morais
Bráulio Roberto Gonçalves Marinho Couto Janaína Giovani Noronha de Oliveira Octávio Alcântara Torres Reinaldo Carvalho de Morais
ESTATÍSTICA E PROBABILIDADES
Belo Horizonte Junho de 2015
COPYRIGHT © 2015 GRUPO ĂNIMA EDUCAÇÃO Todos os direitos reservados ao: Grupo Ănima Educação Todos os direitos reservados e protegidos pela Lei 9.610/98. Nenhuma parte deste livro, sem prévia autorização por escrito da detentora dos direitos, poderá ser reproduzida ou transmitida, sejam quais forem os meios empregados: eletrônicos, mecânicos, fotográficos, gravações ou quaisquer outros. Edição Grupo Ănima Educação Vice Presidência Arthur Sperandeo de Macedo Coordenação de Produção Gislene Garcia Nora de Oliveira Ilustração e Capa Alexandre de Souza Paz Monsserrate Leonardo Antonio Aguiar Equipe EaD
CONHEÇA
CONHEÇA
Bráulio Roberto Gonçalves Marinho Couto é
Janaína
doutor em Bioinformática, mestre em Ciência
é mestre em Estatística e graduada
da Computação, especialista em Estatística,
em Licenciatura em Matemática com
bacharel em Engenharia Química e técnico
Habilitação em Física. Possui experiência
em Química. Atuante nas áreas de Estatística,
como docente na área de Matemática
Cálculo Numérico, Informática em Saúde,
e
Epidemiologia Hospitalar e Bioinformática.
médio. Experiência com orientação de
Professor do Centro Universitário de Belo
Monografias.
O AUTOR
Horizonte (UniBH).
A AUTORA
Giovani
Estatística
do
Noronha
Ensino
de
Oliveira
superior
e
CONHEÇA
CONHEÇA
Octávio Alcântara Torres é bacharel em
Reinaldo Carvalho de Morais é mestre
Estatística e mestre em Demografia. Possui
e bacharel em Administração Pública,
experiência nas áreas de probabilidade e
graduado em Estatística e especialista
estatística, regressão e correlação, análise
em Gestão Financeira. Possui experiência
estatística multivariada e controle estatístico
em pesquisas sobre economia e finanças
de processo. Áreas de interesse: projeções
públicas mineiras, bem como docência nas
populacionais, projeções de mão de obra
disciplinas de estatística, de economia,
qualificada, pesquisa de mercado, estatística
de engenharia econômica, de matemática
aplicada.
financeira e de administração da produção.
O AUTOR
O AUTOR
APRESENTAÇÃO
DA DISCIPLINA Egressos de cursos de Engenharia e
A ideia é usar ferramentas como o Excel
Tecnologia são profissionais que resolvem
para construir tabelas e gráficos, como
problemas. E como isso ocorre? Pela
histograma, diagrama de dispersão, Pareto
aplicação eficiente do método científico.
e calcular valores como média, mediana,
Pois bem, é disso que se trata essa
desvio padrão, e coeficiente de variação.
disciplina:
ferramentas
Na Unidade 3 são introduzidos conceitos
estatísticas que possibilitarão a você
básicos de probabilidades, cruciais para
transformar-se
em
que se entenda o processo de tomada
qualquer área do conhecimento e, portanto,
de decisão na presença de incerteza. A
apto a resolver problemas. A disciplina é
Unidade 4 é uma continuação da terceira
dividida em oito unidades cujo objetivo é
unidade, são apresentados os modelos
introduzir o aluno na área da Estatística
probabilísticos mais importantes para se
e Probabilidades, tornando-o capaz de
modelar problemas de pequeno e médio
planejar e de executar experimentos de
porte na área de Engenharia e Tecnologia.
apresentar num
especialista
pequeno e médio porte nas áreas de Ciências Exatas e de Engenharia. Além de
A partir da Unidade 5 caminhamos para
fazer a análise exploratória dos dados e de
a área “nobre” da Estatística, que envolve
realizar inferências, por meio da tomada de
as inferências, isto é, o processo de
decisão na presença de incerteza.
generalização
de
resultados
parciais,
observados em amostras, para toda a definições
população envolvida num problema. Nessa
fundamentais para a correta compreensão
unidade é discutida a forma de obter os
do processo de coleta e de análise de dados.
intervalos de confiança, tanto para média
Conceitos sobre população e amostra,
quanto para proporção. Na Unidade 5
censo e amostragem, e variáveis são
discute-se, por exemplo, como o resultado
discutidos nessa unidade. A Unidade 2 trata
de uma pesquisa eleitoral é calculado e o
da análise exploratória de dados, quando
significado do intervalo definido pela soma
são apresentadas técnicas de Estatística
e subtração de uma “margem de erro”.
A
Unidade
Descritiva.
1
O
apresenta
objeto
dessa
unidade,
bastante intuitiva, é trabalhar a síntese
A Unidade 6 é voltada para o planejamento
numérica, gráfica e tabular dos dados.
de experimentos, quando é apresentado,
por exemplo, como calcular o tamanho de uma amostra. Em alguns livros este item é colocado na primeira unidade, o que tem certa lógica por tratar da coleta de dados, primeira etapa de qualquer análise estatística. Entretanto, como são necessários conceitos probabilísticos e de inferência para entender o planejamento de experimentos, optamos por colocar essa unidade logo após a discussão sobre intervalos de confiança. As Unidades 7 e 8 fecham a disciplina, apresentado as ferramentas mais úteis para que você finalmente se transforme num especialista em uma área qualquer e, portanto, realmente apto a resolver seus problemas. Na Unidade 7 são discutidos os métodos para fazer e interpretar testes de hipóteses, num contexto uni variado e, na Unidade 8, discute-se métodos de correlação e regressão, introduzindo a análise multivariada. Ao longo das oito unidades, procuraremos apresentar
uma
abordagem
baseada
em PPL – Aprendizagem Baseada em Problemas,
além
de
usarmos
como
ferramentas computacionais o Microsoft® Excel e o software de domínio público, EpiInfo. Bom trabalho! Bráulio, Janaína, Octávio e Reinaldo.
UNIDADE 1 Introdução à Estatística Conceitos básicos O papel das variáveis numa base de dados: identificação, auxiliares, variáveis explicativas e variável reposta (desfecho) Tipos de variáves Uso do excel como um sistema de gerenciamento de dados e dos formulários do google docs para coleta de informações Revisão
003 004 006
UNIDADE 2 Análise exploratória de dados Síntese gráfica de dados Síntese tabulador de dados Síntese numérica de dados Revisão
019 020 021 038 038 048
UNIDADE 3 Introdução à teoria de probabilidades Probabilidade clássica e probabilidade frequentista Leis básicas de probabilidade União e interseção de eventos Tabelas de contigência Eventos independentes Teorema de Bayes Revisão
049 050 053 053 054 056 057 058 061
UNIDADE 4 Modelos probabilísticos Varieaveis aleatórias Modelos probabilísticos Distribuição binomial Distribuição Poisson Distribuição normal Revisão
063 064 065 071 071 072 072 076
010 013 015 017
UNIDADE 5 Estimação de médias e proporções Teorema central do limite Estimação pontual e por intervalos de confiança para uma média populacional Estimação pontual e por intervalos de confiança para uma proporção populacional Uso do excel no cálculo de intervalos de confiança para média e proporção Introdução ao programa Epiinfo Revisão
077 078 079
UNIDADE 6 Planejamento de experimentos Cálculo de tamanho de amostra baseado em intervalos de confiança para uma proporção Cálculo de tamanho de amostra baseado em intervalos de confiança para uma média Planejamento de experimentos Revisão
098 099
UNIDADE 7 Testes de hipóteses A construção e o significado de uma hipótese estatística Testes para uma amostra Testes para duas ou mais amostras Revisão
115 116 117 118 133 137
UNIDADE 8 Análise de correlação e regressão Análise de correlação Regressão linear simples Regressão linear múltipla Revisão
139 140 141 149 157 160
082 089 091 094 095
100 103 106 113
REFERÊNCIAS117
INTRODUÇÃO À
ESTATÍSTICA
P
odemos entender o método estatístico como um processo para obter, apresentar e analisar características ou valores numéricos, identificando padrões que possibilitam a tomada de decisão em situações de incerteza. Pode acreditar, se você aplicar o
método estatístico para a análise e solução de problemas, muito rapidamente se tornará um especialista de qualquer área do conhecimento! Num mundo real, completamente cercado de incertezas, ser capaz de identificar padrões de comportamento de pessoas, projetos, produtos, serviços, etc pode transformá-lo num “mago”.
Entretanto, antes de você transformar-se num “mago”, é necessário um entendimento adequado do método estatístico, que tem suas “armadilhas”. Costumo dizer que Estatística não é Matemática... é muito mais “difícil”. Na verdade, Estatística é uma das áreas da Matemática que, por sinal, é a Ciência cuja aplicação no mundo real possibilitou ter uma vida incrivelmente confortável. Bom, quando afirmo que “Estatística não é Matemática”, quero dizer que, na Matemática que você aprendeu no Ensino Fundamental e Médio, os problemas têm usualmente uma única forma de serem resolvidos e devem todos chegar ao mesmo resultado (uma única resposta correta). Na Estatística, os problemas têm várias formas de serem resolvidos, podem chegar a resultados diferentes e todos estão corretos! Isso ocorre porque a Estatística requer a habilidade de considerarmos as coisas dentro de uma perspectiva probabilística, o que vai completamente contra a conceituação usual dos problemas em simplesmente certo ou errado. Não buscaremos a “verdade absoluta”, mas padrões de comportamento que nos possibilitarão tomar decisões com alto grau de confiança.
004
unidade 1
ESTATÍSTICA E PROBABILIDADES
Para melhor entendermos o que será discutido, o método estatístico será dividido em quatro grandes áreas: 1) amostragem e coleta de dados; 2) análise exploratória de dados (estatística descritiva); 3) teoria de probabilidades; 4) decisão na presença de incerteza (inferência). A ideia por trás dessa unidade é levar até você o conhecimento fundamental que lhe permitirá entender a coleta de dados. Estudaremos conceitos fundamentais de Estatística, questões simples, mas essenciais para que tenhamos sucesso nas outras etapas do método estatístico, que serão discutidas nas próximas unidades. Estes são os objetivos da Unidade 1: a) apresentar conceitos básicos de Estatística e Probabilidades; b) identificar as funções e os principais tipos de dados e de variáveis; c) identificar e corrigir problemas de dados faltantes (missing); d) configurar o Excel como instrumento de coleta de dados; e) entender o sistema de endereçamento de células do Excel. f) construir formulários de coleta de dados no Google Docs; g) enviar formulários de coleta de dados por meio de mala direta. É crucial que você entenda os conceitos que serão discutidos nessa unidade. Sem o entendimento do que seja, por exemplo, uma variável, o seu tipo e a sua função na base de dados, não há como você ser feliz nas outras etapas do processo!
005
unidade 1
ESTATÍSTICA E PROBABILIDADES
CONCEITOS
Entretanto, a cozinheira sabe que para fazer
BÁSICOS
inferências válidas, deve tomar cuidado para não trabalhar com amostras viciadas.
Você sabe o que é população? E
E o que seria isso?
amostra? Vejamos o exemplo a seguir. Se ela retirar uma amostra somente da Vamos supor que uma cozinheira esteja
parte de cima da sopa, muito provavelmente
preparando dois litros de sopa.
terá uma amostra viciada, isto é, sem representantes de todos os componentes da sopa como um todo que, neste caso, é a
Como ela sabe se a sopa está temperada?
população amostrada. Os dois litros de sopa formam a população e, se a cozinheira comer/provar toda a sopa,
E
como
ela
retira
uma
amostra
estará fazendo um censo, o que geraria um
representativa da sua população (“sopa”)?
absurdo do tipo “É, a sopa estava ótima!”.
Como a cozinheira procede para obter uma amostra com “representantes” de cada
A cozinheira sabe que em experimentos
estrato da sopa?
baseados em ensaios destrutivos, quando a própria análise destrói o dado coletado, o
Simples, ela mistura a sopa fazendo uma
censo é um absurdo. Na verdade, ela sabe
homogeneização e sorteia uma porção/
que censos, de modo geral, são inviáveis,
pitada que será usada no seu processo
muito caros e/ou muito demorados. Mais
decisório.
ainda, ela sabe que se usar uma pequena
aleatória, a cozinheira sabe que terá
amostra cuidadosamente retirada, chamada
grande chance de trabalhar com amostras
amostra
representativas.
representativa,
poderá
tomar
Fazendo
uma
amostragem
decisões sobre toda a população envolvida no problema com um alto grau de confiança.
Podemos agora resumir esses conceitos.
A cozinheira então retira uma pequena
População:
amostra, uma “pitada” da comida, prova-a e generaliza o resultado para toda a sopa.
a) consiste na totalidade das unidades de observação a partir dos quais ou sobre
Isso é chamado de inferência: tomar
os quais deseja tomar uma decisão;
decisões sobre toda uma população com base em informações parciais de uma
b) conjunto de elementos que formam o universo do nosso estudo e que são
amostra (veja a FIGURA 1).
006
unidade 1
ESTATÍSTICA E PROBABILIDADES
b) gases, líquidos e alguns sólidos em
passíveis de serem observados; c) conjunto de indivíduos sobre os quais recairão todas as generalizações das
que as suas unidades não podem ser identificadas e contadas.
conclusões obtidas no estudo; d) usualmente, as unidades de observações são pessoas, objetos ou eventos;
Amostra:
conjunto
de
unidades
selecionadas de uma população, ou seja, uma parte dos elementos da população.
e) é o universo a ser amostrado; f) do ponto de vista matemático, a população é
definida
como
um
conjunto
de
elementos que possuem pelo menos uma característica em comum (SILVA, 2001).
em miniatura da população, exatamente como ela é, somente menor. A amostra representativa segue o modelo populacional, tal que suas características importantes
População finita: o número de unidades de observação pode ser contado e é limitado. Exemplos: a) alunos
Amostra representativa: é uma versão
são distribuídas similarmente entre ambos os grupos. Unidade amostral: é a menor parte distinta
matriculados
na
disciplina
de uma população, identificável para fins de seleção e construção da amostra.
Estatística e Probabilidades; b) todas as declarações de renda recebidas pela Receita Federal;
Amostra aleatória: é aquela obtida por meio de um processo de sorteio ou aleatorização.
c) todas as pessoas que compram telefone Amostra viciada: é aquela que representa
celular num determinado ano;
apenas parte da população, não possuindo
d) um lote com N produtos. População
infinita:
a
elementos quantidade
de
unidades de observação é ilimitada, ou a sua composição é tal que as unidades da população não podem ser contadas. Exemplos:
todos
os
estratos
ou
subconjuntos que formam a população como um todo. Censo: exame de todas as unidades de observação de uma população. Como discutido no exemplo da cozinheira, se
a) conjunto de medidas de determinado comprimento;
de
a pesquisa envolve ensaio destrutivo, o censo é inviável. Na verdade, somente se a
007
unidade 1
ESTATÍSTICA E PROBABILIDADES
população alvo for pequena é razoável observá-la por inteiro, através do censo, pois mesmo quando viáveis, censos são caros e demorados. Outros exemplos de ensaios destrutivos, nos quais é impossível aplicar censo: pesquisa sobre a força de tração de um lote de barras de aço para construção; pesquisa sobre contaminação de soro fisiológico em um lote; testes de resistência e durabilidade de um lote de concreto; tempo de pega de um lote de cimento. Amostragem: processo pelo qual uma amostra de unidades da população é retirada e observada. É a parte mais importante do processo de pesquisa. O principal e fundamental objetivo de qualquer plano de amostragem é selecionar a amostra, de tal maneira que ela retrate fielmente a população pesquisada. FIGURA 1 - População alvo, população amostrada e amostra
População alvo do estudo
Inferência
População amostrada
Amostra
Fonte: Elaborado pelo autor.
Inferir significa generalizar resultados de uma amostra para toda a população. Por que usar amostras? Por que não incluir no estudo todos os indivíduos da população? A amostragem deve ser usada porque torna o processo eficiente e preciso. E ela é eficiente, uma vez que o recurso que poderia ser despendido na coleta de dados desnecessários de um grande número de indivíduos pode ser gasto em outra atividade, como na monitoração da qualidade da própria coleta dos dados. As amostras, por serem menores que a população, podem ser estudadas mais rapidamente que censos e são também mais baratas. Além disso, se o processo de amostragem gerar uma amostra representativa da população alvo do estudo, os resultados observados poderão ser generalizados, sem risco de chegar a uma conclusão diferente daquela que seria obtida se trabalhar com toda a população.
008
unidade 1
ESTATÍSTICA E PROBABILIDADES
Vejamos
agora
alguns
selecionadas aleatoriamente no
aspectos
território brasileiro?
relevantes para o campo da amostragem. São eles: • Questões da amostragem: Qual o tamanho da amostra? Como a amostra será obtida? Como garantir que a amostra obtida seja representante da população objeto do estudo? A questão mais importante não é o seu tamanho,
No entanto, essa não é uma questão muito
importante
para
obtermos
o
tamanho da amostra adequada para uma pesquisa, visto que é necessário estudarmos
alguns
conceitos
probabilísticos, que serão apresentadas somente nas próximas unidades.
mas como a amostra será obtida, pois a amostragem mal feita
IMPORTANTE
invalida qualquer pesquisa. • Tamanho da amostra (n): está relacionado ao total de unidades
A maioria das pessoas, quando questionadas
amostradas, usadas no processo
sobre qual o tamanho da amostra necessária
de
que
para uma pesquisa, tem o raciocínio equivocado
você esteja curioso em relação
de que o tamanho da amostra (n) tem relação
ao tamanho da amostra, mas,
direta com o tamanho da população amostrada
como
(N).
inferência.
citado
Imagino
anteriormente,
Inevitavelmente, a maioria das pessoas
esta não é de longe a questão
afirma erroneamente que uma boa amostra deve
mais importante. Por exemplo,
conter pelo menos, digamos, 30% da população.
o
mais
O que a cozinheira diria disto? Para provar dois
pesquisa
litros de sopa, quanto de amostra ela teria que
sobre a aceitação (ou não) do
avaliar? Isso mesmo, uma pitada. E para provar
aborto por parte da população
400 litros de sopa, ela beberia um prato inteiro?
brasileira: resultados de pesquisa
Não. Ela provará a mesma pitada, pois sabe que, o
realizada no domingo à noite por
mais importante nesse processo inferencial não é
uma emissora de TV, envolvendo
o tamanho da amostra, mas provar uma amostra
milhões de pessoas que, após
não viciada, representativa de toda a sopa.
que
você
credibilidade
que numa
teria
assistirem a uma reportagem sobre o assunto, responderam
Voltando aos processos de amostragem,
à pesquisa; ou resultados de
as amostras podem ser classificadas em
uma amostra de 2.500 pessoas
probabilísticas e não probabilísticas:
009
unidade 1
ESTATÍSTICA E PROBABILIDADES
Amostra probabilística:
que fossem analisados tal percentual de
- existe uma garantia, em termos de
indivíduos da população, não é o tamanho
probabilidade, de que qualquer membro
que
garante
representatividade
da
da população possa ser selecionado para
amostra, mas a forma com ela é obtida. É
amostra.
a imparcialidade do processo de seleção dos seus elementos e a homogeneidade
Amostra não probabilística:
da distribuição das características da
- os elementos da amostra não são
amostra e da população que garantem a representatividade da amostra.
escolhidos por meio de um sorteio. CARVALHO e COUTO (2003) apresentam as principais características de tipos de amostragem mais comuns, relacionados principalmente com pesquisas de survey. Outras amostras, por exemplo, amostragem de minério, de solo, de gases e de líquidos têm procedimentos próprios que buscam, em última instância, obter amostras que sejam representativas de cada população envolvida. Em suma, qualquer que seja o
O PAPEL DAS VARIÁVEIS NUMA BASE DE DADOS: IDENTIFICAÇÃO,
AUXILIARES, VARIÁVEIS EXPLICATIVAS E VARIÁVEL REPOSTA (DESFECHO)
esquema de amostragem, probabilístico ou
O primeiro passo de qualquer processo
não, deve-se sempre garantir que a amostra
estatístico é a coleta de dados. Portanto,
reflita as características da população da
tudo o mais será alicerçado sobre o que
qual foi retirada.
for coletado. Sendo assim, essa fase deve ser cuidadosamente planejada, já que da qualidade dos dados coletados dependerá
LEMBRE
toda a análise e a tomada de decisão subsequente.
Conforme discutido anteriormente, algumas pessoas acreditam que uma amostra representativa é necessária coletar dados de um percentual mínimo da população, digamos, 30% do total de indivíduos. Isso é absolutamente falso e, o que é pior, mesmo
Antes da coleta de um dado, é importante entender o conceito de variável que está por trás da informação que você procura. A variável contém a informação que você quer analisar, sob a forma de uma medição sobre determinadas características dos
010
unidade 1
ESTATÍSTICA E PROBABILIDADES
indivíduos estudados e das unidades de
O grau de variabilidade de uma variável é
observação.
chave no método estatístico e será foco de discussões nas próximas unidades.
E, por que esse conceito é tão importante?
Entretanto, neste momento, é crucial que
Porque, no fim das contas, é a variável
você entenda dois aspectos básicos de
que é analisada e não a informação que
qualquer variável: o seu tipo e a sua função,
ela contém. Por isso, é importante que
o papel que ela exerce na base de dados.
você, antes de sair coletando informações, analise o seu questionário de coleta de
ATENÇÃO
dados, identifique cada variável envolvida e responda perguntas, tais como: O que exatamente a variável está medindo? Para que serve esta variável e, principalmente, é possível analisá-la? E com que método estatístico?
Toda análise que será feita na base de dados dependerá do seu entendimento sobre o tipo e a função de cada variável coletada!
Vejamos os tipos de funções de cada
CONCEITO Uma
variável
é
a
quantificação
de
variável:
uma
característica de interesse da pesquisa (SOARES e SIQUEIRA, 2002). Refere-se ao fenômeno a ser pesquisado. É o campo de variação de cada tipo de dado a ser pesquisado. Observe que, como o próprio nome diz, uma variável deve variar, ou seja, se você está coletando dados sobre características de alunos da disciplina Cálculo Diferencial, podemos pensar em inúmeras variáveis para a unidade de observação “aluno”: idade, sexo, curso, local do ensino médio, tempo entre final do ensino médio e início da graduação, nota final, percentual de presença às aulas etc. Entretanto, o tipo de disciplina não é uma variável nesse caso, pois ela é constante (Cálculo Diferencial).
011
unidade 1
ESTATÍSTICA E PROBABILIDADES
QUADRO 1 - O papel de uma variável numa base de dados. TIPOS
CARACTERÍSTICAS
Variáveis de identificação e auxiliares
Servem para o rastreamento dos indivíduos e das unidades amostrais, ou são usadas na definição de outras variáveis. Exemplos de variáveis de identificação: CPF, nome, número de matrícula, número da amostra etc. Exemplos de variáveis auxiliares: datas, peso e altura. Variáveis de identificação e auxiliares não são analisadas, mas fazem parte da base de dados.
Variáveis explicativas
São aquelas que, por hipótese, podem influenciar, determinar ou afetar a variável resposta ou desfecho da pesquisa. São chamadas também de co-variáveis ou variáveis independentes. Para cada estudo existem variáveis explicativas próprias, definidas por hipóteses da própria pesquisa ou conforme revisão da literatura. Em processos químicos, quando se busca entender os fatores que afetam o rendimento de uma reação química, são exemplos de variáveis explicativas a temperatura, a pressão, o tipo de catalisador e a concentração de reagentes. Se alguém pesquisar sobre as razões de algumas pessoas serem maiores que outras, as alturas do pai e da mãe, a origem étnica, a idade e o sexo são exemplos de variáveis explicativas.
Variável desfecho
É aquela que queremos explicar, em função de ser influenciada, afetada por outros fatores (variáveis explicativas). Também denominada de variável dependente ou variável resposta. Sempre defina um ou mais desfechos para o estudo, conforme os objetivos da sua pesquisa. Por exemplo, numa pesquisa cujo objetivo é explicar porque imóveis de uma mesma região têm preços tão variados, o preço de venda seria uma variável resposta. Fatores como área, número de quatros, número e tipo de vaga de garagem, quantidade de suítes, presença de salão de festas ou piscina são algumas das possíveis variáveis explicativas para esse problema.
Fonte: Elaborado pelo autor.
A função de cada variável na base de dados, assim como o seu tipo, definirá que tipo de análise será feita. Não subestime esses conceitos pois, sem eles, não há como entender os métodos de análise estatística que serão estuados nas próximas unidades.
012
unidade 1
ESTATÍSTICA E PROBABILIDADES
TIPOS DE
um aluno numa disciplina (aprovado,
VARIÁVEIS
reprovado) etc.
Se considerarmos a maioria absoluta das
A análise de uma variável categórica
variáveis envolvidas em experimentos
é
de pequeno e médio porte nas áreas de
se
Ciências Exatas e Engenharia, teremos
resultados
duas situações para o tipo da variável.
categoria da variável e calcula-se o
muito
restrita
quantas
e
simples:
unidades
conta-
amostrais
observados
em
ou
cada
percentual de ocorrência de cada classe I) Variável qualitativa ou categórica: é
ou categoria.
aquela que expressa características ou atributos de classificação, distribuídos categorias
II) V ariável quantitativa: é aquela obtida
mutuamente
por meio de um processo de medição
exclusivas de objetos ou entidades.
ou contagem. Por exemplo: peso,
Categorias mutuamente exclusivas ou
altura,
mutuamente excludentes não podem
de
ser
insumos,
em
observadas
simultaneamente
dosagem
produtos
e
concentrações
químicos
temperatura,
e
outros pressão,
num mesmo indivíduo. Por exemplo,
altitude, umidade, largura, diâmetro,
grupo sanguíneo (A, B, AB, O) é uma
comprimento,
variável
quantidade de chuva (mm), número
categórica
mutuamente
falhas,
voltagem, número
de
corrente,
exclusiva: um indivíduo tem somente
de
ligações
um grupo sanguíneo, não podendo
telefônicas, número de mensagens
ser classificado em mais de uma
eletrônicas, número de faltas de um
categoria ao mesmo tempo. Variáveis
aluno numa disciplina, nota final na
qualitativas têm um nível baixo de
disciplina, área, preço, etc.
informação, sendo obtidas por um critério de classificação. Por exemplo,
A variável quantitativa possui o mais
sexo (masculino, feminino), estado civil
alto nível de informação, sendo objeto de
(com companheiro, sem companheiro),
inúmeras técnicas de análise. Para cada
cor de um produto (branco, verde,
variável quantitativa podemos calcular
amarelo, azul), tipo de transmissão
seu valor médio, mediano, modal, mínimo,
de um carro (manual, automática),
máximo, seu desvio padrão, coeficiente
conformidade de qualidade de um
de variação, intervalos específicos de
produto
variação e outras técnicas analíticas que
(aceito,
não
aceito),
dia
chuvoso (sim, não), resultado final de
serão descritas na próxima unidade.
013
unidade 1
ESTATÍSTICA E PROBABILIDADES
As variáveis quantitativas são chamadas
classificação.
As
notas
obtidas
por
essa
um aluno numa prova são tratadas
confusão,
como quantitativas, mesmo que não
pois o simples fato de alocar números
sejam obtidas por meio de um aparelho
aos resultados de uma variável não a
ou dosador.
torna quantitativa. Por exemplo, se os
uma prova é tratada como variável
grupos sanguíneos fossem classificados
quantitativa porque considera-se válido
em 1, 2, 3 e 4 (ao invés de A, B, AB e
aplicar
O), tal codificação não a tornaria uma
seus resultados. Entretanto, será que
variável quantitativa. Na verdade, para
um aluno que obtém 80 pontos numa
que
quantitativa,
disciplina sabe o dobro que um aluno que
deve ser possível aplicarmos operações
obteve 40 pontos? Claro que não. Já uma
aritméticas
A
pessoa de 100 Kg tem o dobro de peso
capacidade de realizarmos, por exemplo,
de uma pessoa de 50 Kg. Outro exemplo,
somas
aos
as temperaturas medidas em Graus
resultados de uma variável é um indicativo
Celsius são tratadas como variáveis
de que ela é quantitativa. Claro que a
quantitativas. Isso quer dizer que um dia
análise do seu processo de obtenção é
com 40ºC tem o dobro de calor de um
mais importante: os resultados de uma
dia com 20ºC? Transforme os valores em
variável quantitativa devem ser obtidos
Graus Celsius para Kelvin e compare o
por medição ou contagem. Além disso,
resultado.
também
numéricas,
de
nomenclatura
uma
pode
variável aos
e
mas
gerar
seja
seus
subtrações
resultados. “válidas”
Nesse caso, a nota de
operações
aritméticas
aos
essas variáveis podem ser contínuas, quando representadas por números reais,
Bom,
os
conceitos
por
trás
dessa
ou discretas, quando representadas por
discussão envolve o nível de mensuração
números inteiros.
da variável (nominal, ordinal, intervalar e de razão) que será tratado a seguir.
Usualmente,
se
ela
é
obtida
por
Para
efeito
prático,
consideraremos
medição, então é contínua. Caso seja
somente duas categorias de variáveis:
obtida por meio de contagem, é uma
quantitativas
variável discreta. Para efeitos práticos,
Conforme citado anteriormente, esses
não faremos distinção entre variáveis
são os tipos de variável coletadas em
contínuas e discretas, o fundamental é
problemas típicos de Ciências Exatas e
entendê-las como quantitativas.
de Engenharia.
Algumas
variáveis
originalmente
de
014
unidade 1
versus
categóricas.
ESTATÍSTICA E PROBABILIDADES
USO DO EXCEL COMO UM SISTEMA DE GERENCIAMENTO DE DADOS E DOS
pelos respondentes são automaticamente armazenadas
em
planilha
eletrônica,
facilitando a coleta e a análise dos dados.
FORMULÁRIOS DO GOOGLE DOCS PARA COLETA DE INFORMAÇÕES
É crucial que você domine o Excel como instrumento de coleta de dados e entenda perfeitamente o papel de cada variável a ser coletada. Identificar variáveis explicativas e desfecho (s), distinguir entre variável
Duas ferramentas essenciais para coleta de dados de experimentos de pequeno e médio porte na área de Ciências Exatas e Engenharia são o Excel, um dos
quantitativa e categórica é uma questão relativamente simples, mas fundamental para as discussões que serão feitas nas próximas unidades.
componentes do pacote Office da Microsoft,
APLICAÇÃO
e os Formulários do Google Docs
PRÁTICA
docs.google.com/forms>. O Excel é uma planilha eletrônica com
Considere o artigo “Utilização de efluente de
origens no Lotus 1-2-3 (GAZZARRRINI,
frigorífico, tratado com macrófita aquática,
2013).
são
no cultivo de tilápia do Nilo”, de autoria de
extremamente práticas, de grande utilidade
Adilson Reidel e outros pesquisadores da
e serão discutidas por meio de vídeo aulas.
Universidade Estadual do Oeste do Paraná
Ambas
as
ferramentas
(REIDEL et al.; 2005) disponível em: Os formulários do Google Docs são ótimos para pesquisas envolvendo pessoas que
têm endereço eletrônico (e-mails). Para
suplemento/index_arquivos/PDF/181.pdf>
usá-los você terá que obter uma lista com os nomes dos respondentes e os respectivos
Neste trabalho, os pesquisadores fizeram
e-mails. Após construir o formulário de
um experimento em que, resumidamente,
coleta de dados no Google Docs, você
foram colocadas amostras aleatórias de
poderá enviá-lo usando o mecanismo de
alevinos (“filhotes”) de tilápia em aquários
“mala direta”, da aba “correspondências”
com água potável (tratamento A) e em
do Word, que também é parte do pacote
tanques com efluente de frigorífico após
Office da Microsoft. As respostas enviadas
passar num sistema de filtro com aguapé
015
unidade 1
ESTATÍSTICA E PROBABILIDADES
(tratamento B), avaliando-se comparativamente o desenvolvimento e a sobrevivência dos peixes. A pergunta principal da pesquisa era: “É possível cultivar tilápias em efluente de frigorífico tratado com aguapé?” Nas tabelas 1 e 2 do artigo, são apresentados alguns resultados e um conjunto de variáveis envolvidas na pesquisa. TABELA 1 – Valores médios dos parâmetros físico-químicos determinados durante o cultivo da tilápia do Nilo (O. niloticus) TRATAMENTOS
PARÂMETROS
A
B
Temperatura média (ºC)
26,4 = 1,60
26,4 = 1,70
Oxigienio Dissolvido (mg L-1)
7,17 = 0,60
7,18 = 0,90
Condutividade Elétrica (uS cm-1)
227,48 = 36
1779,7 = 68
pH
8,44 = 0,12
7,40 = 0,35
Tratamentos: (A) controle (água potável + ração); (B) efluente tratado (efluente do sistema de filtro de aguapé + ração) Fonte: REIDEL et al., 2005.
TABELA 2 – Valores médios de desempenho e sobrevivência de alevinos de tilápia do Nilo, cultivados com água potável e efluente tratado
média
O
média
O
Teste t-Student T calculado
Peso inicial (indivíduo) (g)
0,235 a
43,267
0,232 a
46,113
0
Biomassa inicial (aquário) (g)
1,172 a
2,426
1,160 a
1,901
0,001
Peso final (indivíduo) (g)
1,391 a
42,269
1,054 a
45,582
0,028
Biomassa final (aquário)
5,280 a
38,890
4,300 a
45,721
0,028
75 a
80,467
80 a
25,819
0,08
VARIÁVEIS
Sobrevivência (%)
Tratamento A
Tratamento B
Médias seguidas da mesma letra, na linha, não diferem significadamente pelo teste t de Student ao nível 5% de significância
Fonte: REIDEL et al.; 2005.
Esse é um exemplo prático da aplicação de conceitos discutidos na Unidade 1 em experimentos de pequeno e médio porte na área de Ciências Exatas e de Engenharia. O experimento é baseado em amostragem e analisa o impacto de variáveis explicativas em desfechos diretamente ligados ao objetivo do projeto: sobrevivência dos peixes, peso e biomassa final no aquário.
016
unidade 1
ESTATÍSTICA E PROBABILIDADES
Nesse trabalho são usadas três variáveis
tanto em relação ao desenvolvimento
resposta,
quanto à sobrevivência dos peixes”.
uma
categórica
(“O
peixe
sobreviveu?” “sim ou não”) e dois desfechos quantitativos (peso final e biomassa final,
O entendimento completo das razões
medidos em gramas). Dentre as variáveis
para chegar a essa conclusão será obtido
explicativas envolvidas, a mais importante,
nas próximas unidades. Entretanto, neste
que está diretamente ligada ao objetivo da
momento, é fundamental que você já
pesquisa é o tipo de tratamento (A versus
entenda conceitos referentes ao processo
B), uma variável categórica dicotômica.
de
amostragem/coleta
de
dados
e,
principalmente, que consiga diferenciar Muitas
pessoas
têm
dificuldade
em
identificar essa variável explicativa, apesar
os tipos e as funções das variáveis numa pesquisa.
dela ser a mais importante na pesquisa. As outras variáveis explicativas são todas quantitativas e, como tal, foram obtidas
REVISÃO
por meio de um processo de medição,
Vimos nessa unidade alguns dos principais
contagem ou dosagem: temperatura (ºC),
tópicos
oxigênio Dissolvido (mg L-1), condutividade
Estatística. Em resumo, estudamos sobre:
introdutórios
do
campo
da
Elétrica (μS cm-1), pH, peso inicial (g) e População, amostra, censo e amostragem:
biomassa inicial (g). Nas
tabelas
apresentadas
aparecem
- Censo de toda a população não é viável, devido aos altos custos e/ou quando a
métricas (média, desvio padrão e valor de t
pesquisa envolve ensaios destrutivos.
de student) que são usadas na análise e na conclusão do projeto. Fique tranquilo, esses
- Uma
pequena,
mas
cuidadosamente
conceitos serão tratados nas próximas
escolhida amostra pode ser usada para
unidades!
representar a população.
De qualquer forma, a conclusão da pesquisa
- Os resultados observados numa amostra representativa poderão ser generalizados,
para a pergunta “É possível cultivar tilápias
sem risco de chegar a uma conclusão
em efluente de frigorífico tratado com
diferente daquela que seria obtida no caso
aguapé?”, é: “Sim, é possível cultivar tilápias
de trabalhar com toda a população.
em efluente de frigorífico tratado com aguapé. Os dados não mostraram diferença
- A
significativa entre os dois tratamentos,
017
unidade 1
questão
mais
importante
numa
amostragem não é o tamanho da amostra,
ESTATÍSTICA E PROBABILIDADES
mas como a amostra será obtida, pois o
Ainda compreendemos que alguns sistemas
delineamento amostral mal feito invalida
computacionais são ferramentas essenciais
qualquer pesquisa.
para coleta de dados de experimentos de pequeno e médio porte na área de Ciências Exatas e da Engenharia. São eles: o Excel,
Tipos de variáveis: - Variável qualitativa ou categórica: é aquela que expressa características ou atributos de classificação, distribuídos
um dos componentes do pacote Office da Microsoft, e os Formulários do Google Docs .
em categorias mutuamente exclusivas de
PARA SABER
objetos ou entidades.
MAIS
- Variável quantitativa: é aquela obtida por meio de um processo de medição ou contagem.
Para aprofundar sobre as questões discutidas nessa unidade, leia o Capítulo 1 do livro texto:
Função das variáveis:
LEVINE, David M. et al. Estatística: teoria
- Variáveis de identificação e auxiliares: servem
para
o
rastreamento
dos
indivíduos e das unidades amostrais ou são usadas na definição de outras variáveis. - Variáveis
explicativas:
são
e aplicações usando Microsoft Excel em português, 3º edição ou superior: “Introdução e Coleta de Dados”, assim como o suplemento do capítulo 1 “Introdução à Utilização do Microsoft Excel”.
aquelas
que, por hipótese, podem influenciar, determinar ou afetar a variável resposta ou desfecho da pesquisa. - Variável desfecho: é aquela que queremos explicar, em função de ser influenciada e/ ou afetada por outros fatores (variáveis explicativas).
Também
denominada
de
variável dependente ou variável resposta. Aconselha-se sempre definir um ou mais desfechos para o estudo, conforme os objetivos da sua pesquisa.
018
unidade 1
UNIDADE
ANÁLISE EXPLORATÓRIA
DE DADOS
C
onforme citado na Unidade 1, se você usar técnicas de análise estatística, você poderá rapidamente se transformar num especialista em qualquer assunto, certo? Pois bem, como exemplo, que tal se tornar um especialista em reprovação em disciplinas básicas
de cursos de Engenharia e Tecnologia? E você não precisará “repetir” nenhuma dessas disciplinas para ser um especialista em reprovação...! Esse é um problema bem conhecido, mas suas causas e fatores associados não! Uma hipótese é que durante o ensino fundamental e médio muitos alunos não conseguem adquirir habilidade em resolver problemas matemáticos. Essa deficiência então culmina nos cursos de Engenharia com altos índices de reprovação no ciclo básico. Disciplinas como Cálculo Diferencial, Geometria Analítica e Álgebra Linear (GAAL), Química Geral e Algoritmos (AEDS) podem ser verdadeiros “infernos” para alunos da área de Exatas. Considerando o problema geral “desempenho acadêmico em disciplinas de ciclo básico de cursos de Engenharia”, que tal analisar dados de amostra de alunos, buscando identificar as características e possíveis fatores associados aos desfechos “conceito” (aprovado ou reprovado), “nota histórico” (0 a 100 pontos) e “abandonou a disciplina?” (sim ou não)? Para resolver o problema acima, qual a primeira providência? Muitos podem pensar: “Preciso estudar melhor o assunto, fazer uma revisão da literatura sobre o problema. Em seguida, preciso planejar e executar a coleta dos dados”. Essa primeira etapa já foi feita e faz parte de projeto de iniciação científica do Centro Universitário de Belo Horizonte – UniBH, cujo título da pesquisa é “Fatores associados ao desempenho acadêmico de alunos em disciplinas do ciclo básico de cursos de Engenharia”. A pesquisa foi aprovada pelo Comitê de Ética em Pesquisa (CEP) do UniBH com o nº 920.308, em 17/12/2014 e os dados estão disponíveis para download
020
unidade 2
ESTATÍSTICA E PROBABILIDADES
no link: https://www.dropbox.com/sh/6bvsls6mi6kpqyv/AABy88F2iVFPyEc2ArIIZ2GNa?dl=0. Agora que você já tem acesso aos dados, qual o próximo passo para resolvermos o problema de reprovação e abandono em Cálculo, GAAL, Química Geral e AEDS? A primeira etapa de qualquer análise estatística, ou melhor, a fase preliminar da busca das informações agregadas a dados já coletados, é a análise exploratória dos mesmos. Como o próprio nome diz, a análise exploratória dos dados é o conjunto de ferramentas da Estatística Descritiva que têm como objetivo fazer uma síntese dos dados, organizando-os sob a forma de tabelas, gráficos e números. Portanto, para entendermos e resolvermos nosso problema de reprovação, precisamos estudar as ferramentas da Estatística Descritiva: a) Síntese tabular: Resumo da análise por meio de tabelas; b) Síntese numérica: Medidas de posição (média e mediana) e medidas de variabilidade (soma dos quadrados dos resíduos, variância, desvio padrão, coeficiente de variação); c) Síntese gráfica: Gráficos de pizza, barra, coluna, linha, séries históricas, histograma, gráfico de Pareto, gráfico misto, de coluna e de linha, diagrama de dispersão e box-plot. O objetivo desta unidade é promover o conhecimento fundamental que lhe permitirá entender dados coletados, transformando dados brutos em informações úteis!
SÍNTESE
GRÁFICA DE DADOS Uma figura vale mais que mil palavras! Isso é verdade, entretanto um gráfico vale mais que mil palavras se e somente se ele for desenhado de forma clara, correta e concisa. Sempre desenhe gráficos a partir de seus dados, mas tente fazê-los de tal forma que a frase “basta olhar para entender” seja válida. Os gráficos mais úteis para análise de dados de experimentos de pequeno e médio porte na área de Ciências Exatas e Engenharia são: gráficos de pizza, barras, colunas, linha, séries históricas, histograma, gráfico de Pareto, gráfico misto, de coluna e de linha, diagrama de dispersão e box-plot (tabela 1). De todos esses, somente vejo sentido em construi-los “à mão” histogramas e diagramas de dispersão. Entretanto, na prática devemos construir gráficos usando ferramentas computacionais como o Excel.
021
unidade 2
ESTATÍSTICA E PROBABILIDADES
TABELA 3 - Gráficos mais úteis para análise de dados de experimentos de pequeno e médio porte na área de Ciências Exatas e Engenharia. NÚMERO DE VARIÁVEIS ENVOLVIDAS
TIPO DE VARIÁVEL ANALISADA
Pizza ou setor
Uma
Categórica
Colunas (verticais)
Uma
Categórica
Barras (horizontais)
Uma
Categórica
Histograma
Uma
Quantitativa, mas categorizada numa tabela de distribuição de frequências
Gráficos de linha
Duas
Quantitativa no eixo vertical, e categórica no eixo horizontal
Séries históricas
Duas
Quantitativa no eixo vertical, e o “tempo” no eixo horizontal
Gráfico de Pareto
Uma
Categórica
Gráfico misto, de coluna e linhas
Duas
Quantitativa no eixo vertical, e o “tempo” no eixo horizontal
Diagrama de dispersão
Duas
Variável explicativa quantitativa no eixo horizontal, e desfecho quantitativo no eixo vertical
Uma ou mais
Quantitativa
TIPO DE GRÁFICO
Box-plot Fonte: Elaborado pelo autor.
Como fazer os gráficos? Siga regras e comentários abaixo e você terá sucesso ao desenhar gráficos:
1. Um gráfico deve conter um título, entretanto este não deve ser colocado no próprio gráfico (como o Excel insiste em fazer...). Quando desenhamos um gráfico usando o Excel, por exemplo, este será exportado para algum documento do Word ou para o PowerPoint, ou para outros editores de texto e apresentadores de slides. O título do gráfico será então colocado no slide ou na descrição da figura no editor de textos, sendo desnecessário e errado colocá-lo no meio do próprio gráfico. Mesmo em casos excepcionais, quando o gráfico não é exportado para nenhum outro aplicativo, sendo impresso diretamente do Excel, o título não deve ser colocado no meio da figura. O título deve ser inserido no cabeçalho da planilha que contém o gráfico.
2. Ao escrever um relatório, comece pelas figuras. É impressionante, mas as pessoas leem artigos científicos, relatórios técnicos, jornais e revistas de “fofoca” da mesma forma: começamos pelas figuras! Por isso, o título de gráficos e tabelas deve ser o mais claro
022
unidade 2
ESTATÍSTICA E PROBABILIDADES
possível: toda informação necessária para o entendimento da figura deve estar no seu título. Essa é uma tendência das revistas científicas (Nature, Science, por exemplo) e tem um efeito colateral: o título da figura fica muito longo. Isso não é exatamente uma regra, mas recomendação. Se você quer que seu relatório seja lido, invista nos títulos de figuras e tabelas e sempre coloque respostas claras para pelo menos quatro perguntas: O que? Quem? Quando? Onde? A interpretação das informações no gráfico também deve ser colocada como subtítulo da figura. Se necessário, coloque notas explicativas, usando siglas somente para coisas realmente conhecidas de quem lerá o seu texto (seu chefe ou o chefe do seu chefe...). Veja um exemplo de gráfico de pizza na figura abaixo. FIGURA 2 – Principais ferramentas estatísticas encontradas em artigos publicados no New England Journal of Medicine (NEJM).
A maioria absoluta (58%) dos 760 artigos publicados nos volumes 298 a 301 da NEJM utilizou somente técnicas de Estatística Descritiva na análise dos dados. Praticamente um quarto dos artigos usou teste t de student e 15% aplicou teste de qui-quadrado nas tabelas de contingência, ferramentas que serão discutidas na Unidade 7 deste livro. Fonte: BAILAR & MOSTELLER,1992.
3. Caso o gráfico tenha eixos (horizontal X e vertical Y), estes devem estar rotulados para entendimento. Os rótulos dos eixos devem conter as respectivas unidades de medida envolvidas (g, R$, kg, m/s, etc.). Esse é mais um ponto de erro do Excel! Além de não colocar os rótulos nos eixos, o Excel coloca o título no meio da figura e uma legenda que não tem a menor utilidade. Na verdade, as legendas somente devem ser colocadas se existirem mais de um grupo de dados na figura. Veja um exemplo correto de gráfico de barras na figura abaixo.
023
unidade 2
ESTATÍSTICA E PROBABILIDADES
FIGURA 3 – Risco de reprovação em disciplinas de cursos de Engenharia e Tecnologia do Centro Universitário de Belo Horizonte – UniBH.
Análise de 21 disciplinas avaliadas em sete semestres (2011/1 a 2014/1), considerando amostra de 78.399 alunos. Quatro disciplinas têm mais de 40% de seus alunos reprovados: Cálculo Diferencial, Geometria Analítica e Álgebra Linear, Cálculo de Várias Variáveis e Algoritmo e Estruturas de Dados. Fonte: Elaborado pelo autor.
4. Não existe regra fixa para a escolha da escala do gráfico. Qualquer escala é boa desde que os valores no gráfico não fiquem muito espalhados nem muito juntos numa única região da figura.
5. Sombreamento, efeitos 3D e pequenas figuras relacionadas com o tipo de dado usado no gráfico, colocados para dar vida à figura: na maioria das vezes esses efeitos são inúteis, podendo até mesmo distorcer o gráfico.
6. A maioria dos gráficos apresenta o valor zero como ponto de início dos eixos, mas isso não é necessário se o ponto de início da escala é devidamente marcado na figura. Na verdade, as pessoas usualmente assumem que o valor zero está na base do gráfico. Para os gráficos de linha isso não é problemático, entretanto, quando se tratar de gráficos de colunas ou de barras, o valor zero deve obrigatoriamente estar na base da coluna. Caso isso não seja feito, ocorre uma distorção do gráfico levando a uma interpretação errada dos dados. Veja o exemplo abaixo. O primeiro gráfico, como não começa no valor zero, está errado, ele “ilude o leitor”: a auditoria foi um sucesso?!
024
unidade 2
ESTATÍSTICA E PROBABILIDADES
FIGURA 4 – Exemplos de gráfico de colunas: o valor zero deve obrigatoriamente ser incluído na figura.
Fonte: Elaborado pelo autor.
7. Mais de uma curva ou linha pode ser desenhada em um único gráfico com o objetivo de comparação. Entretanto, deve-se diferenciar claramente os dados de cada linha para que não haja erro de interpretação (use cores diferentes ou linhas pontilhadas ou mesmo símbolos). Linhas de grade, usualmente colocadas no gráfico para auxiliar a leitura das escalas, devem ser discretas (na cor cinza, por exemplo) ou serem eliminadas. FIGURA 5- Exemplo de gráfico com legenda identificando diferentes dados.
Fonte: Elaborado pelo autor.
025
unidade 2
ESTATÍSTICA E PROBABILIDADES
8. Os gráficos devem ser desenhados no formato de paisagem, com a altura tendo aproximadamente ¾ da sua largura. Caso isso não seja feito, poderá haver distorção da figura e da própria informação, que fica comprometida: o primeiro gráfico está correto, mas os outros estão na categoria “como mentir com estatística”... FIGURA 6 – Formato dos gráficos: a figura deve ser desenhada em formato de paisagem, com a altura tendo aproximadamente 75% da largura.
Fonte: Elaborado pelo autor.
FIGURA 7 – Gráfico distorcido: desenhando a figura com a altura muito pequena, em relação à largura, a informação é falseada e se tem a sensação de estabilidade dos dados.
Fonte: Elaborado pelo autor.
026
unidade 2
ESTATÍSTICA E PROBABILIDADES
FIGURA 8 - Gráfico distorcido: desenhando a figura com a altura muito grande, em relação à largura, a informação é falseada e se tem a sensação de redução dos dados ao longo do tempo
visualizarmos funções matemáticas teóricas (figura 9) quanto funções de relacionamentos empíricos já conhecidos (figura 10), mas a sua grande utilidade é quando tentamos estabelecer a associação entre duas variáveis quantitativas (figura 11). A figura 9 é um diagrama de dispersão mostrando uma relação completamente teórica entre duas variáveis (x e y). Como é uma relação exata, somente é desenhada a linha que liga os pontos do gráfico. Na figura 10 é desenhada uma relação empírica, no caso a lei de Abrams, que relaciona a resistência do concreto à compressão (R) com o
Fonte: Elaborado pelo autor.
fator água/cimento (fx) da seguinte forma: R = α/βfx. Nessa figura, α e
9. Gráficos de pizza, “o queridinho”:
β foram definidos como 100 e 10
Apesar de muito “engraçadinhos”,
respectivamente, de tal forma que
estes gráficos são muitos confusos.
a equação ficou R = 100/10fx, fx
Evite o seu uso, substituindo por
variando de 0 a 3. Já a figura 11
gráficos de barra ou de colunas.
mostra o uso “nobre” dos diagramas
É aceitável construi-los somente
de dispersão, quando tentamos
quando são poucos setores bem
explorar, criar e propor uma nova
definidos (até cinco pedaços). Evitar
relação empírica entre duas variáveis
gráficos de pizza em 3D, com vários
quantitativas.
pedaços. Construi-los como na
ao invés de aplicarmos a relação
figura 2.
empírica de Abrams, usamos dados
Nesse
exemplo,
reais de fator fx de água/cimento
10. Diagrama de dispersão: Ferramenta
e a resistência medida em 28 dias
que nos permite avaliar o efeito de
de uma amostra de concretos
uma variável explicativa quantitativa
(desfecho).
sobre um desfecho. Serve tanto para
linha de tendência linear, estamos
027
unidade 2
Ao
inserirmos
uma
ESTATÍSTICA E PROBABILIDADES
sugerindo que, na faixa de variação medida de fx (entre 0,2 e 1,0), a resistência à compressão do concreto se relaciona com fx por meio de uma equação de reta. FIGURA 9 – Diagrama de dispersão sem os marcadores e com linhas contínuas mostrando a relação de x e sua função f(x) = 2x3 – cos(x+1) – 3. Nesse caso o diagrama está mostrando uma relação teórica exata, tal como aquela encontrada nas disciplinas de Cálculo Diferencial.
Fonte: Elaborado pelo autor.
FIGURA 10 – Diagrama de dispersão com marcadores e linhas contínuas mostrando a relação empírica da lei de Abrams que relaciona a resistência à compressão de concretos, medida em megapascal (MPa), e o fator água/cimento (fx), determinado pela razão do peso de água pelo peso em cimento do concreto.
Fonte: Elaborado pelo autor.
028
unidade 2
ESTATÍSTICA E PROBABILIDADES
FIGURA 11 – Diagrama de dispersão somente com os marcadores e sem linhas contínuas mostrando uma possível relação linear entre resistência à compressão de concretos em 28 dias (MPa) e o fator água/cimento (fx).
Fonte: Elaborado pelo autor baseado nos dados em DAFICO, Dario de Araújo. Método Simples para Explicar a Resistência à Compressão do Concreto de Alto Desempenho. Disponível em: http://www2.ucg.br/nupenge/pdf/ Dario.pdf. Acesso em 14 maio 2015.
A figura 12 mostra possíveis padrões de relacionamento entre uma variável explicativa (X) e o desfecho (Y), ambos quantitativos. Sempre que construir um diagrama de dispersão, você deve interpretar o gráfico gerado em um dos quatro padrões mostrados na figura 12. A) Correlação positiva: Em média, quando X aumenta, Y também aumenta, numa tendência em “linha reta”. Por exemplo, quanto maior a área de um imóvel, maior é o seu preço de venda. B) Correlação negativa: Em média, quando X aumenta, Y tende a diminuir. Por exemplo, quanto mais velho um imóvel, menor é o seu preço de venda. C) Associação curvilinear: Em média, quando X aumenta, Y também aumenta, mas não numa tendência em “linha reta”, e sim “em curva”. Isso pode ocorrer quando, por exemplo, a relação entre a variável resposta (Y) e a explicativa (X) for uma equação de segundo grau (parábola) ou cúbica, de grau três. D) Sem associação: Também é um padrão importante, pois indica que não há relação entre as duas variáveis associadas, que a variável explicativa, na verdade, não explica o desfecho! Por exemplo, frequentemente se observa que a idade do aluno não está associada à sua nota na maioria das disciplinas que ele cursa.
029
unidade 2
ESTATÍSTICA E PROBABILIDADES
FIGURA 12 – Padrões de relacionamentos entre variáveis avaliadas por meio de diagrama de dispersão: correlação positiva (A), correlação negativa (B), associação curvilinear (C) e ausência de associação (D).
Fonte: Elaborado pelo autor.
11. Histograma: A ideia deste gráfico é categorizar uma variável quantitativa, dividindo-a em intervalos ou classes, contar quantos valores se encaixam em cada intervalo e construir um gráfico de colunas com o resultado. Ao se interpretar um histograma, deve-se tentar responder às seguintes questões: Qual é a forma da distribuição dos dados? Existe um ponto central bem definido? Como é a amplitude de variação dos dados? Existe apenas um pico isolado? A distribuição é simétrica? Os exemplos abaixo podem auxiliá-lo na interpretação de um histograma. Procure descobrir com qual destes oito tipos o seu histograma se parece. Exemplo 1 - Histograma simétrico: A frequência de dados é mais alta no centro e decresce gradualmente à esquerda e à direita de forma aproximadamente simétrica, em forma de sino.
030
unidade 2
ESTATÍSTICA E PROBABILIDADES
Exemplo 3 - Histograma tipo despenhadeiro: O histograma termina abruptamente em um ou nos dois lados, dando a impressão de que faltam dados. Na verdade, essa possivelmente deve ser a explicação para histogramas com esse formato: os dados muito pequenos e/ou muito grandes foram
Fonte: Elaborado pelo autor
Exemplo
2
-
Histograma
assimétrico:
A
frequência
eliminados da amostra. fortemente dos
dados
decresce rapidamente num dos lados e muito lentamente no outro, provocando uma assimetria na distribuição dos valores. A distribuição dos salários numa empresa é um exemplo comum de histograma assimétrico: muitas pessoas ganham pouco e poucas pessoas ganham muito (a). A situação (b), apesar de mais rara, também pode acontecer.
Fonte: Elaborado pelo autor
Exemplo 4 - Histograma com dois picos: Ocorrem picos na distribuição e a frequência é baixa entre os picos. Possivelmente, os dados se referem a uma mistura de valores de diferentes populações, devendo ser avaliados com cuidado. Se houve mistura dos dados, é melhor separá-los.
Fonte: Elaborado pelo autor.
Fonte: Elaborado pelo autor
031
unidade 2
ESTATÍSTICA E PROBABILIDADES
Exemplo 5 - Histograma tipo platô: As
Exemplo 7 – Histograma tipo serrote:
classes de valores centrais apresentam
As frequências de valores se alternam
aproximadamente a mesma frequência.
formando vários dentes. Pode indicar algum
Essa situação também sugere mistura de
problema na obtenção (leitura) dos dados.
valores de diferentes populações.
Fonte: Elaborado pelo autor.
Fonte: Elaborado pelo autor.
Vamos usar como exemplo de dados para Exemplo 6 – Histograma com uma pequena
a construção de um histograma notas de
ilha isolada: Alguns valores isolados têm
amostra de alunos em uma prova de Cálculo
frequência elevada, formando uma espécie
Diferencial (n=120):
de ilha. Também pode ter ocorrido uma mistura de dados.
Fonte: Elaborado pelo autor.
032
unidade 2
ESTATÍSTICA E PROBABILIDADES
FIGURA 13 – Dados brutos de notas de amostra de alunos em prova de Cálculo Diferencial. Centro Universitário de Belo Horizonte – UniBH, 2014/2. 0
0
0
1
5
5
6
9
13
17
18
21
0
0
0
1
5
5
6
10
13
17
18
21
0
0
0
1
5
5
6
11
14
17
20
22
0
0
0
2
5
5
9
11
14
17
20
22
0
0
0
2
5
5
9
12
14
17
20
24
0
0
0
3
5
5
9
12
14
17
20
24
0
0
0
3
5
5
9
13
15
17
20
25
0
0
0
5
5
6
9
13
15
17
20
25
0
0
0
5
5
6
9
13
17
18
21
25
0
0
1
5
5
6
9
13
17
18
21
25
Fonte: Elaborado pelo autor.
Passo 1 - Determinar valores mínimo, máximo e amplitude (R):
mín = 0;
máx = 25;
R = máx – mín = 25 – 0 = 25
Passo 2 – Determinar quantas classes ou intervalos (k) serão usados para dividir os dados. O número de classes deve ser algo entre 5 a 20 subintervalos. Regra empírica: k ≈
5 ≤ k ≤ 20 . No exemplo, n ≈ 120; k ≈
√120 ≈ 10.
√n
e
R R 25 Passo 3 – Determinar o tamanho de cada subintervalo (h). h ≈ k . No exemplo, h ≈ k ≈ 10 . ≈ 2,5 Ou seja, no nosso exemplo, temos 120 valores que variam de 0 a 25 e vamos dividi-los em 10 classes de tamanho 2,5. Passo 4 - Contar a frequência de valores em cada classe. No exemplo, começando em zero (valor mínimo), teremos uma tabela de distribuição de frequências, base para construção do histograma, de 2,5 a 2,5 pontos cada subintervalo. Vamos verificar na base de dados quantos valores se encaixam em cada classe. Observe na figura 14 o símbolo --|, ele indica que o valor à direita faz parte do intervalo, mas o valor à sua esquerda não! Ou seja, o intervalo 2,5 --| 5,0 implica em valores acima de 2,5 e menores ou iguais a 5,0. Por exemplo, alunos que tiraram 5,0 são contabilizados somente no segundo intervalo (2,5 --| 5,0), assim como aqueles que tiraram 7,5 pontos
033
unidade 2
ESTATÍSTICA E PROBABILIDADES
entram somente na terceira classe (5,0 --| 7,5). Veja também o símbolo |--|, ele só pode ser usado no primeiro subintervalo e possibilita que incluamos o valor 0,0 na primeira classe (0,0 |--| 2,5). Se não fizéssemos isso, não teríamos onde colocar a frequência de valores iguais a zero. Eventualmente você poderá se deparar com tabelas construídas com o símbolo “invertido”, |--, que indica valores maiores ou iguais ao número colocado à esquerda e menores que o valor colocado à direita. Por exemplo, 30 |-- 40 implica valores maiores ou iguais a 30 e menores que 40. Usei a notação --| que é o padrão usado pelo Excel na construção de histogramas (figura 14). Lembre-se de que o total, a soma da coluna “Frequência”, deve ser exatamente o tamanho da amostra (n). Além da coluna de frequência absoluta, podemos calcular a frequência relativa ou percentual de cada classe (em relação ao total de valores) e a frequência acumulada ou percentual acumulado, útil para a construção de gráficos de Pareto (que será explicado mais à frente). FIGURA 14 – Tabela de distribuição de frequências das notas de amostra de alunos em prova de Cálculo Diferencial. Centro Universitário de Belo Horizonte – UniBH, 2014/2. NOTA FREQUÊNCIA
PERCENTUAL
PERCENTUAL ACUMULADO
0,0 |--| 2,5
35
29%
29%
2,5 --| 5,0
22
18%
48%
5,0 --| 7,5
6
5%
53%
7,7 --| 10,0
9
8%
60%
10,0 --| 12,5
4
3%
63%
12,5 --| 15,0
12
10%
73%
15,0 --| 17,5
10
8%
82%
17,5 --| 20,0
10
8%
90%
20,0 --| 22,5
6
5%
95%
22,5 --| 25,0
6
5%
100%
120
100%
Total Fonte: Elaborado pelo autor.
U
034
unidade 2
ESTATÍSTICA E PROBABILIDADES
FIGURA 15 – Histograma com a distribuição das notas na prova de Cálculo Diferencial: os dados mostram um padrão de distribuição assimétrico, semelhante àquele apresentado no histograma do exemplo 2.
Fonte: Elaborado pelo autor.
12. G ráfico de Pareto: Esta ferramenta é ótima para ajudar na definição de prioridades, quando precisamos fazer um plano de ação para melhoria de qualidade de um serviço ou produto. Por exemplo, se um determinado problema ou defeito pode ocorrer de diversas formas, como escolher os tipos de defeito prioritários para serem corrigidos? A ideia do “efeito Pareto” é que 80% dos problemas estão associados a 20% dos problemas. Nem sempre esse efeito ocorre, mas esse é o objetivo do gráfico de Pareto: verificar quais itens ou problemas ocorrem com maior frequência num determinado cenário. Por exemplo, numa amostra de 400 defeitos de fabricação de uma peça mecânica, foram observados 16 tipos de defeito: rebarbas, diâmetro menor, diâmetro maior, sem usinagem, altura menor, trincas, altura maior, borda muito fina, enviesado, base maior que o topo, borda muito grossa, cor muito escura, estrutura pouco flexível, base menor que o topo, cor muito clara e estrutura frágil. Ao se construir um gráfico de Pareto com os dados (figura 16), observa-se que a maioria absoluta (66%) dos defeitos se refere somente a três tipos: rebarbas (32%), diâmetro menor (21%) e diâmetro maior (13%). Ou seja, ao fazer um plano de ação para corrigir possíveis defeitos de fabricação dessa peça, “ignore” 13 defeitos e priorize suas ações em apenas esses três. Fazendo isso, 66% do problema estará corrigido!
035
unidade 2
ESTATÍSTICA E PROBABILIDADES
FIGURA 16 – Gráfico de Pareto com a frequência de defeitos de fabricação de uma peça mecânica: 66% dos defeitos são somente de três categorias prioritárias para um plano de ação para melhorar a qualidade do processo de fabricação (rebarbas, diâmetro menor e diâmetro maior).
Fonte: Elaborado pelo autor.
13. Box-plot: Este gráfico, também conhecido como diagrama em caixa ou “caixa e bigode”, informa sobre a distribuição dos dados. Somente se aplica a variáveis quantitativas (figura 17), informando o menor valor (pequena linha horizontal inferior) e valor máximo (pequena linha horizontal superior). A distância entre o valor mínimo e a aresta inferior da caixa cinza é a amplitude em que ocorrem os 25% dos valores mais baixos. Este é conhecido como 1º quartil, sendo delimitado pelo percentil 25 dos dados. As duas caixas, cinza e vermelha, mostram onde estão 50% dos dados. A distância entre a aresta superior da caixa vermelha e a pequena linha horizontal superior, que equivale ao máximo dos dados, refere-se ao intervalo em que ocorrem 25% dos maiores valores da variável. A linha separando as duas caixas representa a mediana, que expressa o valor do meio se todos os dados fossem colocados em ordem. Assim como os histogramas, o box-plot nos informa sobre a maneira de distribuição dos dados, tendo a vantagem de permitir a visualização de grupos de dados (figura 18). Nessa figura, é apresentado um resumo comparativo da taxa de aprovação de oito disciplinas de ciclo básico de cursos de Engenharia.
036
unidade 2
ESTATÍSTICA E PROBABILIDADES
FIGURA 17 – Exemplo de box-plot para uma variável quantitativa genérica: quanto maior o tamanho das duas caixas, vermelho e cinza, maior a variabilidade e dispersão dos dados.
Fonte: Elaborado pelo autor.
FIGURA 18 – Box-plot com as taxas de aprovação de oito disciplinas de ciclo básico de cursos de Engenharia: Desenho e Estatística se destacam das outras disciplinas, que têm taxas de aprovação bem menores e mais heterogêneas. Cálculo Integral é a disciplina com menor taxa de aprovação e maior variabilidade dos dados.
Fonte: Elaborado pelo autor.
037
unidade 2
ESTATÍSTICA E PROBABILIDADES
SÍNTESE TABULAR
DE DADOS
Na análise exploratória de dados, em última instância, todos os resultados são apresentados ou na forma de figuras ou de tabelas. Assim como nos gráficos, invista no título da tabela e sempre coloque respostas claras para pelo menos quatro perguntas: O que? Quem? Quando? Onde? Sugerimos que a interpretação das informações na tabela também seja colocada no próprio título. Se necessário, coloque notas explicativas, usando siglas somente para coisas realmente conhecidas. A tabela 4 é um exemplo de formato de tabelas, apresentando modelo para síntese de variáveis categóricas de uma base de dados. TABELA 4 – Análise exploratória de variáveis categóricas: a síntese de variáveis categóricas, sejam elas explicativas ou desfecho, resume-se a apresentar suas categorias, a frequência de valores em cada categoria e os respectivos percentuais. CATEGORIA
FREQUÊNCIA
PERCENTUAL
Conceito
Aprovado
2287
49%
Reprovado
2386
51%
Local do ensino médio
Instituição privada
1509
32%
Instituição pública
3164
68%
Sexo
Feminino
1948
42%
Masculino
2725
58%
Manhã
1153
25%
Noite
3520
75%
VARIÁVEL
Turno Fonte: Elaborado pelo autor.
SÍNTESE NUMÉRICA
DE DADOS
A síntese numérica de variáveis categóricas é muito simples, basta que você apresente suas categorias, a frequência de valores em cada categoria e os respectivos percentuais, tal como apresentado na tabela 3. Já a síntese de variáveis quantitativas é mais ampla e envolve resumir dois aspectos:
038
unidade 2
ESTATÍSTICA E PROBABILIDADES
1) um valor típico ou característico para a variável; 2) uma medida do grau de variabilidade ou de dispersão dos dados. 1.
Valor típico ou medida de posição: O objetivo é encontrar o valor característico, aquele que melhor represente os dados. Vamos discutir aqui as duas possibilidades mais aplicadas a problemas de pequeno e médio porte na área de Ciências Exatas e Engenharia: a média ( X ) e a mediana ( Md ). A média é obtida pelo resultado da soma de todos os valores, dividido pelo total de dados ou tamanho da amostra (n). Matematicamente, a média é obtida por: n
X = ∑ Xi i =1
n Já a mediana, é na verdade uma medida de ordem, indicando o valor “do meio”, aquele que “divide os dados em duas metades”: Passo 1 – Colocar os dados em ordem crescente. Passo 2 – Encontrar o “valor do meio”, isto é:
se n, o tamanho da amostra, é ímpar, então Md é o valor central;
se n é par, então Md é a média dos dois valores centrais.
Exemplo A (n=11), dados já ordenados: {3; 4; 4; 5; 9; 9; 9; 10; 10; 10; 10}
Para a mediana, como são 11 valores (n é ímpar) e a metade de 11 é 5,5, então Md é o 6º valor, ou seja, o “valor do meio” (lembre-se de que os dados já estão ordenados): Md = 9 Exemplo B (n=18), dados já ordenados: {17; 17; 20; 20; 20; 24; 26; 28; 30; 40; 50; 50; 50; 50; 50; 51; 51; 52}
039
unidade 2
ESTATÍSTICA E PROBABILIDADES
usando a média e quando a mediana é melhor para representar os dados?”. Para essa resposta, é preciso seguir uma regra prática: • Se
Para a mediana, como são 18 valores (n
média
e
mediana
forem
é par) e a metade de 18 é 9, então Md é a
semelhantes, então usar a média
média entre o 9º e o 10º valor, ou seja:
para representar os dados.
Md =
• Se média e mediana forem muito
30 + 40 = 35 2
diferentes, então usar a mediana para representar os dados.
ATENÇÃO
Além de se basear nas regras acima, que exigem uma interpretação caso a caso do que seja “média e mediana muito diferentes”,
Não se esqueça, para obter a mediana é
você poderá construir histogramas e, pelo
necessário, antes de tudo, colocar os dados
padrão do gráfico, escolher uma ou outra
em ordem crescente. Não ordenar os dados é a
medida para representar os dados. Nos
principal fonte de erro no cálculo da mediana!
modelos de histograma colocados no tópico anterior, os exemplos 1 (simétrico),
Algumas pessoas se perguntam: “Quantas
3 (despenhadeiro) e 5 (platô), a média
casas
no
é a melhor medida de posição. Já nos
resultado?”. Quanto menos casas decimais
histogramas dos exemplos 2 (fortemente
você
seus
assimétrico) e 6 (ilha isolada), a mediana é
resultados, melhor para o entendimento
a melhor medida de posição que caracteriza
da informação! Apresente seus resultados
o conjunto de dados.
decimais conseguir
devo
apresentar
apresentar
nos
usando o mesmo número de casas decimais que os dados originais ou, no máximo, uma
2. Medida do grau de variabilidade ou
casa decimal além do original, como foi
de dispersão dos dados: O objetivo
feito nos cálculos anteriores.
é quantificar o quanto os dados são heterogêneos,
são
imprevisíveis,
Outra questão é “Quando escolher entre
em suma, quantificar o grau de
média e mediana para melhor representar
variabilidade
um conjunto de dados?” ou “Em que
quantitativa.
situações resumir uma variável quantitativa
040
unidade 2
de
uma
variável
ESTATÍSTICA E PROBABILIDADES
A princípio, podemos medir a variabilidade de um dado informando o seu valor mínimo (mín) e o valor máximo (máx), o que nos leva à sua amplitude (R): R = máx – mín. Entretanto, essa é uma forma muito “simplista”, pois envolve somente dois valores da variável, o mínimo e o máximo, ignorando todos os outros. Para uma medida mais adequada de variabilidade, uma forma é calcular a sua média ( X ) e, em seguida, calcular quanto os dados estão distantes da média, em média! Soa estranho, mas a ideia faz sentido. Por exemplo, seja uma amostra de n = 5 pessoas e seus respectivos números de filhos: Pessoa A B C D E Número de filhos
0
1
1
2
3
Qual o número médio de filhos? X=
0+1+1+2+3 7 = = 1,4. 5 5
Isso mesmo, essas pessoas têm, em média, 1,4 filhos! Você deve estar se perguntado, “como assim... um e 0,4 filho? Não existe 0,4 filho!!” Não se preocupe, a média funciona como um modelo e, como tal, é uma aproximação da realidade. A média é o melhor valor representativo para esses dados e, caso seja necessário resumir toda a informação num único valor, ela deve ser usada para substituir o verdadeiro número de filhos de cada pessoa. Bom, voltando à variabilidade, como calcular o quanto os dados estão distantes da média, em média? Para cada indivíduo, devemos subtrair o valor observado pela média, calculando um “resíduo”:
Pessoa A B C D E Número de filhos Resíduo
0 0-1,4 = -1,4
1 1-1,4 = -0,4
1 1-1,4 = -0,4
2 2-1,4 = +0,6
3 3-1,4 = +1,6
O resíduo mede a distância de cada valor em relação à média dos dados, ou seja, é uma medida de quanto os dados estão distantes da média. Para resumir os resíduos num único valor, o ideal é então calcular uma média dos resíduos, que refletiria o quanto os dados estão
041
unidade 2
ESTATÍSTICA E PROBABILIDADES
distantes da média, em média! Infelizmente, se fizermos essa média, ela sempre dará zero, pois os resíduos negativos anulam os positivos, dando uma soma dos resíduos igual a zero. Para resolver esse problema, ao invés de simplesmente calcular os resíduos, devemos calcular o resíduo elevado ao quadrado:
Pessoa A B C D E Número de filhos
0
1
Resíduo
0-1,4 = -1,4
1-1,4 = -0,4
Resíduo elevado ao quadrado
(-1,4)2 =
(-0,4)2 = 0,16
1,96
1 1-1,4 = -0,4
2
3
2-1,4 = +0,6
3-1,4 = +1,6
(-1,4)2 =
(+0,6)2 =
(+1,6)2 =
0,16
0,36
2,56
Se somarmos os resíduos elevados ao quadrado teremos a soma dos quadrados dos resíduos n
( ∑ ( Xi -X )2 ), uma métrica que aparece em várias outras análises estatísticas. Quanto maior i =1
a soma dos quadrados dos resíduos, maior a variabilidade dos dados! Para resumir essa métrica, calculamos a sua média, que é chamada de variância amostral ( s2 ): n
s2 = ∑ ( Xi -X )2 i =1
n-1 Nessas fórmulas, Xi representa cada um dos dados individuais, X é a média e n o tamanho da amostra ou total de dados. Observe que, no denominador, dividimos a soma dos quadrados dos resíduos por (n - 1) e não por ( n ). Isso é feito porque nossos dados foram obtidos por meio de amostragem e não por censo. Ou seja, sempre que tivermos dados amostrais, que é a situação mais comum, calcularemos a variância amostral dividindo a soma dos quadrados dos resíduos por (n - 1). Se tivermos acesso à população toda, ou melhor, se fizermos um 2
censo (o que é muito raro), então poderemos calcular a variância populacional (Ợ ), dividindo a soma dos quadrados dos resíduos por (n): 2
n
Ợ = ∑ ( Xi -X )2 i =1
n
042
unidade 2
ESTATÍSTICA E PROBABILIDADES
É importante se lembrar dessa diferença, pois ela aparece nas calculadoras científicas e no 2
Excel, que permite o cálculo tanto de s2 quanto de Ợ . Na prática (e na dúvida), sempre calcule a variância amostral (s2). Uma outra métrica de variabilidade é o desvio padrão amostral (s). Ele é a raiz quadrada da variância e tem uso mais difundido que sua “mãe” (s2), porque, ao tirarmos a raiz quadrada da variância, o resultado tem a mesma unidade de medida que a média e os dados originais. Assim, no exemplo anterior, do número de filhos da amostra de n=5 pessoas, a variância amostral é:
O desvio padrão amostral é:
É muito comum, ao divulgarmos uma síntese de uma variável quantitativa, apresentarmos a sua média, seguida do seu desvio padrão no formato ( X = s ). Ou seja, no exemplo anterior, essas pessoas têm 1,4 = 1,1 filhos. Cuidado, isso não significa que os dados variem somente dentro do intervalo X = s , de 1,4 – 1,1 = 0,3 até 1,4 + 1,1 = 2,5 filhos! Essa é apenas uma forma usada para apresentar ambos os valores, de média ( X ) e desvio padrão (s). Na verdade, se os dados tiverem um histograma de forma simétrica, aproximadamente 95% dos dados ocorrerão dentro do intervalo definido pela média mais ou menos dois desvios padrões ( X = 2s ), e 99,7% dentro da média mais ou menos três desvios padrões ( X = 3s ). Se não tivermos como avaliar a forma de distribuição dos dados, ou seja, se não soubermos o padrão do histograma dos dados, pelo menos 89% dos dados cairão no intervalo X = 3s . Supondo que você já consiga calcular o desvio padrão ( s ) de um conjunto de dados, como interpretar o seu resultado? É fato que, quanto maior o desvio padrão, maior a variabilidade
043
unidade 2
ESTATÍSTICA E PROBABILIDADES
dos dados. Mas, o que é um desvio padrão grande? Essa resposta depende da magnitude da média ( X ), isto é, para sabermos se um desvio padrão é grande ou pequeno, vai depender do valor da média. Por exemplo, sejam os resultados das provas de um atleta, resumidos abaixo: Tempo para correr 100 metros: X = 11,5 e s = 2,1 segundos; Salto em altura: X = 2,2 e s = 0,8 e metros. Em qual prova, salto em altura e tempo para 100 m, o atleta é mais heterogêneo, tem os resultados com maior variabilidade? Se você responder essa questão comparando os dois desvios padrões, estará cometendo dois erros: 1º Não se pode comparar diferentes unidades de medida (s versus m); 2º Deve-se considerar a magnitude da média ao se avaliar um desvio padrão. Então, como efetivamente obter o grau de variabilidade de uma variável? Isso é feito pelo coeficiente de variação (cv), uma relação percentual entre o desvio padrão e a média: s cv = x x 100 (%). Além de ser uma medida adimensional, o que possibilita comparações entre diferentes variáveis, o CV pode ser interpretado de forma absoluta: QUADRO 2 – Definição e interpretação do grau de variabilidade de um conjunto de dados. CV
INTERPRETAÇÃO
CV <= 20% Dados com pouca variabilidade, bem comportados, homogêneos. A variável tem um comportamento bem previsível. 20 < CV <= 30% Dados com variabilidade intermediária. CV > 30% Dados com muita variabilidade, heterogêneos. A variável tem um comportamento muito imprevisível. CV > 100% Neste caso, o desvio padrão é maior que a média. Dados com variabilidade extrema, muito heterogênea. A variável tem um comportamento caótico, completamente imprevisível. Fonte: Elaborado pelo autor.
044
unidade 2
ESTATÍSTICA E PROBABILIDADES
No caso do atleta, teremos os seguintes valores de coeficiente de variação: Tempo para correr 100 metros: cv = Salto em altura: cv =
2,1 x 100 = 19%; 11,5
0,8 x 100 = 36%; 2,2
Podemos dizer então que o atleta tem pouca variabilidade nos seus resultados da corrida de 100 m e muita variabilidade nos saltos em altura.
LEMBRE Quando você fizer uma análise exploratória de dados, lembre-se de corrigir os gráficos produzidos pelo Excel. Lembre-se também de colocar os títulos das tabelas e das figuras o mais informativo possível. E, ao calcular o desvio padrão, não se esqueça de considerar que você tem dados amostrais. Confira na sua calculadora e/ou no próprio Excel qual a fórmula que está sendo usada. Resuma os dados por meio de gráficos, números e tabelas. Esse é o primeiro e fundamental passo para entender os dados e o problema investigado.
A análise exploratória dos dados é o primeiro passo para que você se torne especialista na área investigada. Suas ferramentas de análise não produzem conclusões definitivas sobre um problema, mas possibilitam que hipóteses sejam construídas de forma consistente.
APLICAÇÃO
PRÁTICA
O artigo “Avaliação do impacto do Cálculo Zero no desempenho de alunos ingressantes de cursos de Engenharia”, apresentado em 2013 por COUTO e cols. no COBENGE - Congresso Brasileiro de Educação em Engenharia, teve como objetivo avaliar o impacto do “Cálculo Zero” no desempenho de alunos ingressantes em cursos de Engenharia e Ciência da Computação, tanto em termos da nota final em Cálculo Diferencial e Geometria Analítica e Álgebra Linear (GAAL), quanto na chance de aprovação nessas disciplinas. As perguntas-chave do trabalho eram: O “Cálculo Zero” afeta de forma significativa o resultado dos alunos nas disciplinas obrigatórias de Cálculo Diferencial e GAAL? Vale a pena investir
045
unidade 2
ESTATÍSTICA E PROBABILIDADES
em projetos de “Cálculo Zero”? Quais são os fatores, as características que afetam o desempenho dos alunos nessas duas disciplinas? Várias técnicas de análise exploratória de dados foram utilizadas no artigo. Por exemplo, usando um gráfico de linhas, uma série temporal, mostrou-se no artigo a elevação no número de matrículas nas duas disciplinas-alvo do trabalho, Cálculo Diferencial e GAAL:
FIGURA 19 - Evolução do número de alunos matriculados e o percentual de aprovados em Cálculo Diferencial e GAAL. Entre o 2º semestre de 2009 e o 2º semestre de 2012, o percentual de aprovação em ambas as disciplinas apresentou elevação, principalmente em Cálculo Diferencial. O número de alunos matriculados nas disciplinas também aumentou de forma importante no período, principalmente após o 1º semestre de 2011.
Fonte: COUTO et al., 2013.
Um diagrama de dispersão foi construído mostrando claramente o efeito das faltas às aulas na nota final de Cálculo Diferencial:
046
unidade 2
ESTATÍSTICA E PROBABILIDADES
FIGURA 20 – Gráfico de dispersão considerando o percentual de faltas/ausências às aulas de Cálculo Diferencial e a nota final do aluno nessa disciplina: análise considerando somente alunos em que foram registradas pelo menos uma falta às aulas durante o semestre. Há uma forte correlação negativa (r= -0,77) entre ausências às aulas e a nota final do aluno: quanto mais faltas às aulas o aluno tiver, menor a sua nota final em Cálculo Diferencial. IET/ UniBH, 1º semestre de 2011.
Fonte: COUTO et al., 2013.
Além de gráficos, tabelas com a síntese numérica dos dados coletados no estudo também foram apresentadas no artigo. O uso dessas ferramentas estatísticas de análise de dados mostrou de forma inequívoca que valia a pena implementar ações como o “Cálculo Zero”, pois o fato de se ofertar essa disciplina afetava o resultado dos alunos nas disciplinas obrigatórias de Cálculo Diferencial e GAAL. Esse é um exemplo real de como usar a análise exploratória dos dados e outras técnicas de Estatística e Probabilidades para se entender a fundo um problema, resolvendo-o e se tornando um especialista na área. Referência: XLI CONGRESSO BRASILEIRO DE EDUCAÇÃO EM ENGENHARIA, 2013. Avaliação do Impacto do Cálculo Zero no Desempenho de Alunos Ingressantes de Cursos de Engenharia. Paraná: FADEP, 2013. Disponível em: . Acesso em 14 maio 2015.
047
unidade 2
ESTATÍSTICA E PROBABILIDADES
REVISÃO
coisas realmente conhecidas.
Vimos nesta unidade os principais tópicos da análise exploratória de dados, também denominada de Estatística Descritiva:
Síntese numérica: O resumo de uma variável categórica é muito simples, basta que você apresente suas categorias, a
Síntese gráfica: Uma figura vale mais que mil palavras! Isso é verdade, entretanto um gráfico vale mais que mil palavras se e somente se ele for desenhado de forma clara, correta e concisa. Sempre desenhe gráficos a partir de seus dados, mas tente
frequência de valores em cada categoria e os respectivos percentuais. Já a síntese de variáveis quantitativas é mais ampla e envolve resumir dois aspectos: 1) Um valor típico ou característico para a variável, que é definido pela média ( X ) e
fazê-los de tal forma que a frase “basta
pela mediana (Md). Se média e mediana
olhar para entender” seja válida. Os gráficos
forem semelhantes, então a média deve
mais úteis para análise de dados de
ser usada para representar os dados.
experimentos de pequeno e médio porte na
Entretanto, caso haja discrepância muito
área de Ciências Exatas e Engenharia são:
grande entre média e mediana, então se
gráficos de pizza, barras, colunas, linha,
deve usar a mediana para representar os
séries históricas, histograma, gráfico de
dados;
Pareto, gráfico misto, de coluna e de linha, diagrama de dispersão e box-plot. Na prática devemos construir gráficos usando
2) Uma medida do grau de variabilidade ou de dispersão dos dados, calculada pelo
ferramentas computacionais como o Excel.
desvio padrão amostral ( ) e o coeficiente de variação (CV).
Síntese tabular de dados: Na análise exploratória de dados, em última instância, todos os resultados são apresentados ou
PARA SABER
na forma de figuras ou de tabelas. Assim,
MAIS
invista no título da tabela e sempre coloque respostas claras para pelo menos quatro perguntas: O que? Quem? Quando? Onde?
Caso você deseje aprofundar sobre as questões
Também sugiro que a interpretação das
discutidas nesta unidade, leia os capítulos 2 e 3
informações na tabela seja colocada no
do livro texto: LEVINE, David M. et al. Estatística:
próprio título. Se necessário, coloque notas
teoria e aplicações: usando Microsoft Excel em
explicativas, usando siglas somente para
português. 6. ed. Rio de Janeiro: LTC, 2012,
048
unidade 2
UNIDADE
INTRODUÇÃO À
TEORIA DE PROBABILIDADES
A
origem da teoria das probabilidades é comumente associada à questões colocadas por MÉRÉ (1607-1684) a PASCAL (1623-1662). Todavia, existem autores que sustentam que o cálculo das probabilidades iniciou-se na Itália, com PACCIOLI
(1445-1514), CARDANO (1501-1576), TARTAGLIA (1499-1557) e GALILEO (1564-1642), dentre outros.
Contudo, foi ADOLPHE QUÉTELET (1796 – 1874) o pioneiro na tarefa de mensurar, ou seja, quantificar uma pequena amostra do universo de interesse da investigação, almejando inferir sobre toda a população em estudo, baseando-se em análises probabilísticas e embasando-se em rigorosos métodos científicos. A teoria das probabilidades, porém, só começa a fazer sentido nas engenharias por volta de 1930, quando surgem os primeiros trabalhos práticos destinados aos engenheiros. O primeiro foi executado pelo matemático WILLIAM GOSSET (1876 – 1937), com a aplicação das probabilidades no Controle de Qualidade em uma fábrica de Cervejas. A teoria das probabilidades é uma importante área da estatística que possibilita ao profissional no mercado de trabalho calcular percentuais, trabalhar com estimativas e realizar predições em toda e qualquer área do conhecimento. No que tange às Engenharias, a probabilidade está presente no controle de processos de produtos e serviços, permitindo estimar o risco e o acaso de eventos futuros. Também é amplamente utilizada no que tange ao planejamento de novas técnicas e estratégias de produção e vendas, dentre outras.
050
unidade 3
ESTATÍSTICA E PROBABILIDADES
Suponha que você é o engenheiro responsável pela qualidade na linha de produção de uma grande marca de bebidas. Sabe-se que não é possível “experimentar” todos os produtos antes de disponibilizá-lo ao mercado, pois ninguém compraria uma bebida já provada, e que o processo de fabricação é composto por etapas, por interferências dos funcionários, por equipamentos (que podem estar ou não muito bem regulados), e por uma série de outros fatores controláveis ou não, como até mesmo uma simples umidade excessiva no ambiente de fabricação devido ao período chuvoso. No entanto, você pode suspeitar que um determinado lote, devido à variabilidade inerente ao processo, apresente um percentual de itens não conformes maior que o permitido pelos órgãos fiscalizadores. A teoria das probabilidades vem auxiliá-lo nesse processo de tomada de decisão, permitindo inferir sobre a população em estudo, ou mesmo sobre eventos que ainda irão ocorrer, estimando as “chances” de sucesso do mesmo.
A TEORIA DAS
PROBABILIDADES A teoria das probabilidades nasce na Idade Média com os tradicionais jogos de azar existentes na Corte. Jogos de cartas e dados, ou mesmo os lançamentos de moeda são classificados como fenômenos que envolvem o acaso, assim como a maioria dos jogos esportivos. Uma aplicação direta da teoria das probabilidades no campo das Engenharias é o processo de decisão, seja para aumentar o investimento ou cortar despesas, no qual o profissional do mercado de trabalho deve arriscar-se mantendo “os pés no chão”.
CONCEITO Um dos principais conceitos matemáticos amplamente estudado no que diz respeito à teoria das probabilidades é o de conjunto. Um conjunto pode ser definido como uma coleção de objetos, itens ou serviços que possuem característica (s) comum (s). No contexto da teoria das probabilidades, o conjunto de todos os resultados possíveis a ser estudado em um experimento aleatório é denominado espaço amostral. Espaço Amostral (Ω) é qualquer conjunto de todos os possíveis resultados em um experimento aleatório.
051
unidade 3
ESTATÍSTICA E PROBABILIDADES
Sendo definido como experimento todo e
temos duas possibilidades (cara ou coroa)
qualquer resultado que sugere a incerteza
em cada lançamento, portanto o espaço
antes da observação, ou seja, fenômenos
amostral (Ω) é dado por:
que,
mesmo
repetidos
várias
vezes
sob
Ω = ( possibilidades )(repetições)= 23 = 8
condições semelhantes, apresentam resultados imprevisíveis
(acaso).
Os
resultados
dos
experimentos são nomeados estatisticamente
Se tivermos eventos distintos, como no
como eventos.
lançamento de um dado e uma moeda, o
Um Evento Aleatório (E) é qualquer subconjunto de um espaço amostral.
das probabilidades por definir o espaço de interesse da investigação, permitindo ao pesquisador de toda e qualquer área do conhecimento fazer inferências sobre o todo a partir da parte estudada. Pode ser definido de acordo com o evento de interesse da investigação, podendo ser caracterizado por: (1) o mesmo evento repetidas vezes; ou (2) eventos distintos; ou (3) eventos aleatórios.
no
lançamento
No lançamento de uma moeda e um dado, temos duas possibilidades da moeda (cara ou coroa) e seis possibilidades do dado (os números inteiros de 1 a 6). Portanto, o espaço amostral (Ω) é dado por: Ω = ( possibilidades ) . ( possibilidades ) = 2.6 = 12 Se tivermos eventos aleatórios, como o número de funcionários ausentes em um
Se tivermos o mesmo evento repetidas como
da quantidade de possibilidades de cada evento, como:
O espaço amostral (Ω) é essencial na teoria
vezes,
espaço amostral (Ω) é dado pelo produto
de
um
dado ou de uma moeda, ou mesmo nas possibilidades de filhos de um casal, ou de peças defeituosas em uma linha de produção, o espaço amostral (Ω) é dado pelas possibilidades do evento elevado ao número de repetições realizadas, por exemplo: No lançamento de uma moeda três vezes,
dia de trabalho de uma determinada linha de produção, ou mesmo o número de caminhões presentes em uma determinada rota, não há um modelo matemático que simplifique a mensuração dos elementos que compõem esse espaço amostral. É
preciso
“apelar”
para
o
princípio
fundamental da contagem, ou seja, o serviço “braçal”. Os eventos que compõem o espaço amostral podem ser classificados de acordo
052
unidade 3
ESTATÍSTICA E PROBABILIDADES
com a sua ocorrência. Os eventos nos quais
do que tem”, ou seja:
cada elemento do banco de dados pode
Probabilidade = Quer Tem
ocorrer com a mesma probabilidade são
20 passo 10 passo
chamados de eventos equiprováveis. Existem duas restrições à aplicação da Eventos Equiprováveis são aqueles cujos
definição da probabilidade clássica: (1)
todos os elementos do banco de dados
todos os eventos possíveis devem ter a
têm a mesma probabilidade de ocorrência.
mesma probabilidade de ocorrência, ou seja, os eventos devem ser equiprováveis e
Os
eventos
são
classificados
como
mutuamente exclusivos, se eles não
(2) deve-se ter um número finito de eventos possíveis.
puderem ocorrer simultaneamente, ou seja, A ∩ B= Ø.
LEIS BÁSICAS DE
Se E = Ω, E é chamado de evento certo.
PROBABILIDADES
Se E = Ø , E é chamado de evento impossível. Para qualquer evento E de um espaço amostral Ω : 0 ≤ P ( E ) ≤ 1;
PROBABILIDADE CLÁSSICA E
P ( Ω ) = 1;
PROBABILIDADE FREQUENTISTA
P ( Ac ) = 1 - P ( A ), sendo Ac o evento complementar ao evento A;
A probabilidade de realização de um evento A é dada pelo quociente entre o número de
LEMBRE
ocorrências de A pelo número de eventos possíveis, ou seja: P(A)=
número de orcorrências de A espaço amostral (Ω)
As operações com os eventos utilizam as mesmas propriedades matemáticas, ou seja:
A probabilidade pode ser resumida como o quociente do que se “quer” pelo que se “tem”. Na qual primeiro determina-se o que é possível “ter” e depois retira o que se “quer do que se tem”, não podendo “querer mais
053
unidade 3
ESTATÍSTICA E PROBABILIDADES
QUADRO 3 – Leis Matemáticas PROPRIEDADE
DESCRIÇÃO MATEMÁTICA
Associatividade
(A∩B)∩C=A∩(B∩C) (AUB)UC=AU(BUC)
Comutatividade
A∩B = B∩A AUB = BUA
Distributividade
(A∩B)UC=(AUC)∩(BUC) (AUB)∩C=(A∩C)U(B∩C)
Absorção
ACB → A∩B=A ACB → A∩B=B
Modulares
A ∩Ω = A A ∩Ω = Ω A ∩Ø = Ø A Ø=A A∩B = AUB AUB = A∩B
Leis de De Morgan
A=A
Dupla negação
Fonte: Elaborado pelo autor.
UNIÃO E INTERSEÇÃO
DE EVENTOS
A união de dois eventos A e B, indicada por A U B, é o evento que contém todos os elementos de A e todos os elementos de B. P(AUB)=P(A)+P(B)-P(A∩B) P ( A U B ) = P ( A ) + P ( B ), se A e B são mutuamente exclusivos; A interseção de dois eventos A e B, indicada por A∩B, é o evento que contém todos os elementos comuns a A e B. P(A Ç B) = P(B). P(A | B)
054
unidade 3
ESTATÍSTICA E PROBABILIDADES
Sendo P ( A | B ), a probabilidade condicional, ou seja, a probabilidade de A ocorrer sabendo que o evento B ocorreu. TABELA 12 – Tipo Sanguíneo TIPO SANGUÍNEO
O
A
B
AB
TOTAL
Positivo
156
139
37
12
344
Negativo
28
25
8
4
65
Total
184
164
45
16
409
Fonte: Elaborado pela autora.
A probabilidade de o doador ter tipo sanguíneo O ou A é dada por: 184 + 164 = 0,8508 409 A probabilidade de o doador ter tipo sanguíneo B ou ser Rh negativo é dada por: 45 + 65 - 8 = 0,2494 409
CONCEITO Dois ou mais eventos podem ser classificados como mutuamente exclusivos quando a realização de um exclui a realização do (s) outro (s). No lançamento de uma moeda, o evento "tirar cara" e o evento "tirar coroa" são mutuamente exclusivos, já que a realização de um deles implica, necessariamente, na não realização do outro. Portanto, em eventos mutuamente exclusivos, a probabilidade de que um ou outro se realize é igual à soma das probabilidades de que cada um deles se realize.
055
unidade 3
ESTATÍSTICA E PROBABILIDADES
classificados nas duas categorias. O que
DICAS
se almeja saber é: o tratamento alterou significativamente a proporção de objetos em cada uma das duas categorias?
Eventos mutuamente exclusivos não é a mesma coisa de eventos independentes. O primeiro é
EXEMPLO
utilizado quando apenas um dos eventos pode ocorrer, excluindo qualquer probabilidade de ocorrência do outro. Já o segundo é utilizado quando a ocorrência de um dos eventos não
Em relação à pratica apresentada no início
afeta a ocorrência do outro.
dessa unidade, suponha que em uma amostra
Exemplo: Um grupo de alunos que usa óculos é independente do número de alunos do sexo masculino em sala de aula, mas não são eventos mutuamente exclusivos, pois é possível ter alunos do sexo masculino em sala de aula que usam óculos.
de 2000 produtos disponibilizados ao mercado, sejam 800 refrigerantes e 1200 cervejas, dos quais 5 e 10 apresentaram algum tipo de defeito, respectivamente, seja no rótulo da embalagem, no volume líquido ou qualquer outro tipo de avaria. A tabela 1 apresenta uma tabela de contingência para melhor visualizar esses dados.
TABELAS DE
CONTINGÊNCIA As tabelas de contingência são aplicadas na avaliação do relacionamento das categorias com respeito aos grupos segundo dois modos: independência ou homogeneidade. Ou seja, eventos com dupla entrada. A aplicação de tabela de contingência dois por dois é dada quando n elementos, selecionados
aleatoriamente
de
uma
população, são classificados em duas categorias. Depois dos elementos serem classificados, um tratamento é aplicado e alguns são examinados novamente e
056
unidade 3
ESTATÍSTICA E PROBABILIDADES
TABELA 13 - Produtos Disponibilizados CERVEJA
REFRIGERANTE
TOTAL
Bom
1190
795
1985
Defeito
10
5
15
Total
1200
800
2000
Fonte: Elaborado pela autora.
A partir dessa tabela, é possível estimar que a probabilidade dessa empresa disponibilizar um produto (dentre cervejas e/ou refrigerantes) no mercado com algum tipo de defeito é dada por: P (defeito) = 15 = 0,0075 2000 Portanto, apenas 0,75% dos produtos disponibilizados por essa empresa apresentam algum tipo de defeito.
IMPORTANTE A tabela de contingência é um processo de organizar a informação correspondente a dados dicotômicos. De uma maneira geral, uma tabela de contingência é uma representação dos dados, quer de tipo qualitativo, quer de tipo quantitativo, especialmente quando são de tipo bivariado, isto é, podem ser classificados segundo dois critérios.
EVENTOS
INDEPENDENTES Um ou mais eventos pode (m) ser classificado (s) como independente (s) quando a realização de um dos eventos não afeta a probabilidade de ocorrência do outro, e vice-versa. Quando dois eventos são independentes, P ( A ∩ B ) = P ( A ) . P ( B ).
057
unidade 3
ESTATÍSTICA E PROBABILIDADES
EXEMPLO Nota na prova e ter feito a prova de chinelo; O valor de venda de um produto e a cor do cabelo das funcionárias que o fabricaram.
TEOREMA
DE BAYES A probabilidade condicional, ou seja, as chances de um evento A ocorrer, dado que outro evento B ocorreu, é dada por: P(A|B)=
P(A∩B) P(B)
para P ( B ) > 0. O teorema de Bayes propõe que, se os eventos E1,E2,…,En são partições do espaço amostral Ω, então: P ( Ei | B ) =
P ( B | Ei ) . P ( Ei ) P(B)
Recorrendo à lei de probabilidade total, é possível inferir que: P ( Ei | B ) = ( P ( B | Ei ) . P ( Ei ) ∑ P ( B | Ej )
CONCEITO Seja B1, B2, …, Bn um conjunto de eventos mutuamente exclusivos cuja união forma o espaço amostral Ω. Seja E outro evento no mesmo espaço amostral Ω, tal que P ( E ) > 0, então: P ( E ) = P ( E | B1 ) + P ( E | B2 ) + P ( E | B3 ) + ...⋯+ P ( E | Bn ) P ( E ) = P ( B1 ) . P ( E | B1 ) + P ( B2 ) P ( E | B2 ) + P ( B3 ) P ( E | B3 ) + ...⋯+ P( Bn ) P ( E | Bn )
058
unidade 3
ESTATÍSTICA E PROBABILIDADES
Portanto,
uma simples umidade excessiva no ambiente de fabricação devido ao período chuvoso. Você
P ( E ) = ∑ P ( Bi ) . P ( E | Bi )
pode suspeitar que um determinado lote, devido à variabilidade inerente ao processo, apresente um percentual de itens não conformes maior que
EXEMPLO
o permitido pelos órgãos fiscalizadores? ”
Numa sala de aula, sabe-se que 10% dos homens e 2% das mulheres têm mais de 1,80 m. A sala tem 70% de mulheres e 30% de homens. Um estudante foi escolhido aleatoriamente, e constatou-se que tem mais de 1,80 m. Qual a probabilidade de que seja homem?
Se a empresa aqui citada produzir dois lotes com duas mil unidades em cada por semana, distribuídas entre 1000 cervejas, 600 refrigerantes e 400 sucos por lote, com aproximadamente 0,2, 0,1 e 0,15 por cento de itens defeituosos, respectivamente, podemos utilizar a teoria das
0,10 . 0,70 = 0,9211 0,10.0,70+0,02.0,30
probabilidades para responder questões como:
a) Qual o percentual de refrigerantes distribuídos semanalmente?
APLICAÇÃO
PRÁTICA
b) Qual a probabilidade do consumidor adquirir um suco?
A teoria das probabilidades pode auxiliar
c) Dentre
as
cervejas,
qual
a
facilmente a resolver o problema proposto no
probabilidade do consumidor adquirir
início dessa unidade. Vejamos:
uma cerveja com defeito?
“Suponha que você é o engenheiro responsável
d) Dentre os sucos, qual a probabilidade
pela qualidade na linha de produção de uma
do consumidor adquirir um suco sem
grande marca de bebidas. Está ciente de que
defeito do primeiro lote?
não é possível “experimentar” todos os produtos antes de disponibilizá-lo ao mercado, pois
e) Sabendo que foi adquirido um produto com defeito, qual a probabilidade de
ninguém compraria uma bebida já provada, e
ser um suco?
que o processo de fabricação é composto por etapas, por interferências dos funcionários, por
Para responder essas questões, utilizamos a
equipamentos (que podem estar ou não muito
probabilidade clássica para responder o item (a);
bem regulados), e por uma série de outros
a união de probabilidades para responder o item
fatores controláveis ou não, como até mesmo
(b); a probabilidade condicional para responder o
059
unidade 3
ESTATÍSTICA E PROBABILIDADES
item (c); e o teorema de Bayes para responder o item (d). Ou seja:
a) P (refrigerante ) = 1200 =0,30 = 30% 4000
b) P (suco) = 400 + 400 = 0,40 = 40% 2000 2000
Observe que, neste caso, tanto faz se o consumidor adquirir um suco do primeiro lote ou do segundo lote, independente da ordem de ocorrência do evento. P (cerveja com defeito )
c) P ( defeito│cerveja ) =
d) P ( suco sem defeito do primeiro lote | suco ) =
=
P ( cerveja )
0,5. 0,2 . 0,85
=
0,2.1000 + 0,2 * 1000 1000 + 1000
= 0,0850 = 0,5
0,5.0,2.0,85+0,5.0,2.0,85
0,1700
060
unidade 3
=
400 2000
= 0,20
ESTATÍSTICA E PROBABILIDADES
P ( suco com defeito │defeito ) =
=
2. (0,5 . 0,2 . 0,15 ) 2. ( 0,5 . 0,2 . 0,15 + 0,5 .0,3 .0,1 + 0,5 .0,5 .0,2
= 0,0150 = 0,1875 0,0800
REVISÃO A teoria das probabilidades é utilizada em todas as áreas do conhecimento. Ela visa auxiliar o profissional no mercado de trabalho a predizer valores futuros, estimando as “chances” de ocorrência de um evento antes que ele ocorra. Para calcular a probabilidade, basta dividir o que se “quer” pelo que se “tem”, ou seja: Probabilidade = Quer Tem
20 passo 10 passo
Sendo imprescindível, primeiro, definir o que se “tem” para somente depois retirar do que se “tem” o que se “quer”. Quando a ocorrência de um evento não afeta a realização ou não de um outro evento, eles são classificados como eventos independentes. O Teorema de Bayes é aplicado em situações cuja a probabilidade de ocorrência de um evento está vinculada às chances de sucesso de um outro evento.
061
unidade 3
ESTATÍSTICA E PROBABILIDADES
cartas. Ele é recrutado para integrar o grupo dos
PARA SABER
mais talentosos estudantes da escola, que todos
MAIS
os fins-de-semana vão a Las Vegas, com falsas identidades e com as suas mentes brilhantes,
Filmes
são capazes de aumentar em grande escala as
A Probabilidade Estatística do Amor Á Primeira Vista (Adaptado)
probabilidades de ganhar no blackjack. Além disto, ainda contam com o professor de matemática (e gênio da estatística) Micky
Jennifer E. Smith
Rosa (Kevin Spacey) como líder. A contagem
Com uma certa atmosfera de 'Um dia', mas voltado
das cartas e um, muito bem definido esquemas
para o público jovem adulto, a probabilidade
de sinais, que permitem à equipa vencer nos
estatística do amor à primeira vista é uma
grandes cassinos. Seduzido pelo dinheiro e pelo
história romântica, capaz de conquistar fãs de
estilo de vida de Vegas, e pela sua inteligente
todas as idades. Quem imaginaria que quatro
e sexy amiga Jill Taylor (Kate Bosworth), Ben
minutos poderiam mudar a vida de alguém?
começa a ir até ao limite.
Mas é exatamente o que acontece com Hadley. Presa no aeroporto em Nova York, esperando outro voo depois de perder o seu, ela conhece Oliver. Um britânico fofo, que se senta a seu lado na viagem para Londres. Enquanto conversam sobre tudo, eles provam que o tempo é, sim, muito, muito relativo. Passada em apenas 24 horas, a história de Oliver e Hadley mostra que o amor, diferentemente das bagagens, jamais se
Apesar da contagem da carta não ser ilegal, o risco é cada vez mais elevado e o grande desafio prende-se agora com, não só manter a contagem correta, mas também enganar o chefe de segurança dos casinos: Cole Williams (Laurence Fishburne). Quebrando a Banca. Direção: Robert Luketic. EUA: Sony Pictures, 2008. (123 min), son., color., legendado.
extravia. SMITH, Jennifer E. A Probabilidade Estatística do Amor à Primeira Vista. Rio de Janeiro: Galera Record, 2013
Quebrando a banca (Adaptado). Ben Campbell (Jim Sturgess) é um brilhante estudante do M.I.T. (Instituto Tecnológico de Massachusetts). O seu único problema é não ter dinheiro para pagar as contas escolares, mas a solução está onde ele menos esperava: nas
062
unidade 3
UNIDADE
MODELOS PROBABILÍSTICOS
A
ssim como a Matemática, também a Estatística apresenta funções que norteiam o comportamento de suas variáveis, como as retas, parábolas e hipérboles. Na Estatística temos os modelos probabilísticos. Esses modelos são funções
paramétricas que descrevem o comportamento de uma variável em estudo.
064
unidade 4
ESTATÍSTICA E PROBABILIDADES
VARIÁVEIS
que resultam de processos aleatórios nos
ALEATÓRIAS
quais os resultados possíveis são casuais e formam um conjunto enumerável.
O estudo das variáveis aleatórias é de suma importância nas engenharias ou mesmo
São classificadas como variáveis contínuas
em qualquer outra área do conhecimento
as funções para as quais é possível associar
técnico e científico. Isso porque, nem
infinitos valores a um intervalo ( a, b ), sendo
sempre, os dados que compõem o estudo
que para valores que não pertencem ao
estatístico são números, sendo necessário
intervalo no qual se limita o experimento, a
descobrir um meio de transformá-los em
probabilidade de ocorrência é zero.
números, a partir de uma função chamada de ‘variável aleatória’, visando facilitar a estimativa das medidas estatísticas.
VARIÁVEIS
DISCRETAS
CONCEITO
É função P ( x ) aquela nas quais se associam probabilidades aos valores da variável aleatória X abordada no estudo estatístico. Ou seja, quando uma variável
Probabilidade Seja
um
experimento
aleatório
qualquer
de um espaço amostral Ω e um espaço de probabilidades P. Então a variável aleatória X no espaço de probabilidade é uma função real definida no espaço amostral Ω, tal que ( X ≤ x ) é um evento aleatório para qualquer x real.
As
variáveis
aleatórias
podem
aleatória X assume os valores x1,x2,x3,…,xn com as respectivas probabilidades p ( x1 ), p ( x2 ), p ( x3 ) ,…, p ( xn ) definidas por uma P ( X ), na qual a soma de todas as possíveis probabilidades é igual a um, conforme apresentado na tabela 14, ou seja:
ser
classificadas como contínuas ou discretas, de acordo com o domínio da variável abordada no estudo. São classificadas como variáveis discretas as funções para as quais é possível associar um único número real a cada evento de uma partição do espaço amostral Ω. Portanto são variáveis
065
unidade 4
ESTATÍSTICA E PROBABILIDADES
TABELA 14 - Distribuição de probabilidades discretas X
x1 x2 x3 ... xn
P (X) p ( x1 ) p ( x2 ) p ( x3 ) ... p ( xn ) Fonte: Elaborado pelo autor.
Para uma distribuição discreta de probabilidades, é possível definir a função acumulada indicada por F ( x ) = P ( X ≤ xi ), ou seja, a probabilidade da variável aleatória assumir valores menores ou iguais a xi. O valor esperado, indicado por E ( x ) = μ, é a esperança matemática de uma variável aleatória discreta X que assume os valores x1, x2, x3, …, xn com as respectivas probabilidades p ( x1 ), p ( x2 ), p ( x3 ),…, p ( xn ) definidas por uma P ( Xn ), ou seja, é igual ao valor médio da variável: E ( x ) = x1 . p ( x1 ) + x2. p ( x2 ) + x3 .p ( x3 )+...+ xn. p (xn) n
E (x) = ∑ xi . p ( xi ) i =1
DICAS O valor esperado, indicado por E (x) = μ, é a média de uma variável discreta.
A variância, ou seja, a medida estatística que concentra as probabilidades em torno da média é indicada por Var ( x ) ou σ2 e dada por: Var ( x ) = E ( x2 ) - [ E ( x ) ] 2 sendo E ( x ) o valor esperado, e E (x2 ) dada por: E ( x2 ) = x12 . p ( x1 ) + x22. p ( x2 ) + x32 . p ( x3 ) + ... + xn2 . p ( xn ) n
2
E ( x2 ) = ∑ xi . p ( xi ) i =1
066
unidade 4
ESTATÍSTICA E PROBABILIDADES
DICAS O desvio padrão indicado por DP ( x ) = σ é a raiz da variância, ou seja: DP ( x ) =
√Var ( x )
Para uma variável aleatória n-dimensional (também chamada de vetor aleatório), com n=2, denota-se por ( X,Y ) o vetor aleatório, sendo: TABELA 15 - Distribuição discreta VALORES ASSOCIADOS À VARIÁVEL X
P(Y)
Valores associados à variável Y
Probabilidade conjunta P ( X, Y )
Probabilidade marginal de Y
P(X)
Probabilidade marginal de X
1
X
Y
Pois P (X,Y) é uma f.d.p.
Fonte: Elaborado pelo autor.
IMPORTANTE Só é possível realizar análises estatísticas sobre distribuições que sejam uma função densidade de probabilidade, ou seja, f.d.p. Dizemos que uma ou mais variáveis são uma f.d.p. quando a soma de todas as probabilidades que compõem o evento em estudo é igual a 1, ou seja, 100%. Portanto, uma ou mais variáveis podem ser classificadas como f.d.p. quando: n
∑ p ( xi ) = p ( x1) + ( x2 ) + p ( x3 ) + ... + p ( xn ) = 1
i =1
067
unidade 4
ESTATÍSTICA E PROBABILIDADES
ATENÇÃO As probabilidades são sempre dispostas paralelamente às suas variáveis na construção da tabela bidimensional. Portanto, se invertermos as posições de X e Y na tabela anterior, teremos a seguinte distribuição de probabilidades:
TABELA 16 - Distribuição discreta VALORES ASSOCIADOS À VARIÁVEL Y
P(X)
Valores associados à variável Y
Probabilidade conjunta P ( X, Y )
Probabilidade marginal de X
P(Y)
Probabilidade marginal de Y
1
X
Y
Pois P (X,Y) é uma f.d.p.
Fonte: Elaborado pelo autor.
O valor esperado da distribuição conjunta, indicado por E ( X, Y), é dado pelo produto entre cada valor associado à variável X, com cada valor associado à variável Y e sua respectiva probabilidade conjunta, ou seja: n
n
E ( X, Y ) = ∑ ∑ xi . yj . p ( xi , yj ) i =1 j =1
E ( X, Y ) = a . d . p ( a , d ) + b . d . p ( b, d ) + c . d . p ( c, d ) + a . e . p ( a, e ) + b . e . p ( b , e ) + + c . e . p ( c, e ) + a . f . p ( a, f ) + b . f . p ( b, f ) + c . f . p ( c, f ) Para a tabela de distribuição a seguir: TABELA 16 - Distribuição discreta X
Y
A
B
C
P(Y)
d
P (a, d )
P ( b, d)
P ( c, d )
P(d)
e
P ( a, e )
P ( b, e )
P ( c, e )
P(e)
f
P ( a, f )
P ( b, f )
P ( c, f )
P(f)
P(X)
P ( a )
P ( b )
P(c)
1
Fonte: Elaborado pelo autor.
068
unidade 4
ESTATÍSTICA E PROBABILIDADES
VARIÁVEIS
b
E (x) = ∫ x .f ( x ) dx
CONTÍNUAS
a
É uma função f ( x ) aquela nas quais se associam
probabilidades
aos
infinitos
A variância, ou seja, a medida estatística
valores da variável aleatória X, abordada
que concentra as probabilidades em torno
no estudo estatístico. Ou seja, quando uma
da média é indicada por Var ( x ) ou σ2 e
variável aleatória X assume infinitos valores
dada por:
em um determinado intervalo ( a, b ), sendo a probabilidade igual a zero para valores
Var ( x ) = E ( x2 ) - [ E ( x ) ]2,
fora desse intervalo e a soma de todas as possíveis probabilidades contidas nesse
sendo E ( x ) o valor esperado, e E ( x2 ) dada
intervalo igual a um. Portanto, para as
por:
variáveis contínuas, temos que:
b
E ( x ) = ∫ x2 . f ( x ) dx〗 2
• f (x) ≥ 0, x C R; A
a
+ oo
∫ f ( x ) dx = 1 (toda área sob a - oo
•
curva de probabilidade, ou curva
de frequência, definida por f ( x ) vale um);
Para
uma
variável
aleatória
contínua
bidimensional, definida em todos os valores dos números reais, a função densidade de probabilidade conjunta f ( x, y ) é uma função que satisfaz:
b
• P ( a ≤ x ≤ b) = (probabilidade
∫a
f ( x ) dx
correspondente
à área sob a curva limitada pelo intervalo compreendido entre x = a e x = b ). Esse assunto será mais detalhado posteriormente no estudo da distribuição normal. O valor esperado, indicado por E ( x ) = μ, é a esperança matemática de uma variável aleatória contínua X, que assume os infinitos valores do intervalo ( a, b ), ou seja:
• f ( x, y ) ≥ 0, para todo ( x, y ) R2;
•∫R
∫
R
f ( x, y ) d x d y =1
O valor esperado da distribuição conjunta, indicado por E ( X, Y ), é dado por: E ( X, Y ) =∫R
∫
R
x . y . f ( x, y ) d x d y
A covariância para as variáveis contínuas ou discretas, ou seja, a medida estatística que possibilita verificar se as variáveis envolvidas na análise são diretamente ou
069
unidade 4
ESTATÍSTICA E PROBABILIDADES
inversamente proporcionais. Isso porque à medida que X aumenta o Y também aumenta, ou à medida que X diminui o Y aumenta, respectivamente. Tal relação é dada por: Cov ( X, Y ) = E ( X, Y ) - E ( X ) . E ( Y ) E o coeficiente de correlação das variáveis contínuas ou discretas, indicado por ρX , Y , ou seja, a medida estatística que mensura a relação entre as variáveis X e Y é dado por: ρ X, Y = Cov ( X, Y ) σX . σY Sendo -1 ≤ ρ X,Y ≤ 1.
IMPORTANTE ndependentemente de a classificação da variável aleatória ser dada como discreta ou contínua, sendo a e b constantes e x e y variáveis aleatórias, valem as propriedades: E(X)=μ
Var ( x ) = σ2
E(a)=a
Var ( a ) = 0
E(ax)=a.E(x)
Var ( a x ) = a2 . Var ( x )
E(a±bx)=a±b.E(x)
Var ( a ± b x ) =b2 . Var ( x )
E(ax±by)=a.E(x)±b.E(y)
Var ( a x ± b y ) = a2 . Var ( x ) = b2 . Var ( y ) ± 2 . a . b . Cov ( x, y )
CONCEITO Duas variáveis aleatórias X e Y são independentes se o produto das distribuições marginais for igual à distribuição conjunta, ou seja: p ( x ) . p ( y ) = p ( x , y ) para distribuição discreta; f ( x ) . f ( y ) = f ( x , y ) para distribuição contínua.
070
unidade 4
ESTATÍSTICA E PROBABILIDADES
MODELOS
Para se caracterizar como distribuição
PROBABILÍSTICOS
binomial, a variável aleatória abordada no estudo deve ter:
Assim como na Matemática, temos os modelos que representam o comportamento
a) n tentativas ou provas independentes, ou seja, eventos sem reposição;
da variável abordada no estudo, ou seja, as retas, parábolas e hipérboles dentre tantas outras funções matemáticas. Na Estatística,
b) cada uma das n tentativas só admite dois
os modelos probabilísticos descrevem o
resultados possíveis, sendo eles sucesso
comportamento de uma variável, sendo
ou falha;
possível calcular a probabilidade associada aos eventos da variável abordada no
c) as probabilidades de sucesso e falha são
estudo, recorrendo apenas aos modelos
complementares e constantes durante
probabilísticos.
todo o processo de observação.
Esses
modelos
são
chamados de distribuições, apresentando particularidades próprias que facilitam a
O valor esperado, ou seja, a média da
sua identificação, podendo ser divididos
distribuição binomial e a variância são
em contínuos e discretos, assim como as
dadas por:
variáveis estudadas no início deste capítulo. E ( x ) = μ = n . p e Var ( x ) = σ2 = np . ( 1 - p ), respectivamente.
DISTRIBUIÇÃO
BINOMIAL
A probabilidade de ocorrência de um determinado
A distribuição binomial é denotada por
casos dicotômicos, ou seja, experimentos aleatórios com apenas duas possibilidades
distribuição
n P ( X = x ) = ( x ). px. ( 1 - p )n-x
amostragens (tentativas) e p a probabilidade uma distribuição discreta, aplicada em
na
binomial é dada por:
X~Bin ( n; p ), sendo n o número de de sucesso do experimento. Trata-se de
evento
n sendo: ( x ) a combinação de n elementos n n! x a x, ou seja: ( x ) = e p a ( n- x) ! . x! probabilidade de sucesso.
de resposta, denotadas por sucesso ou falha. Podemos citar como exemplo o
A distribuição binomial é amplamente
lançamento de uma moeda, um item ter
aplicada para avaliar probabilidades de
defeito ou não, um funcionário faltar ou não.
eventos relacionados com controle de
071
unidade 4
ESTATÍSTICA E PROBABILIDADES
qualidade, mercado de ações, risco de
P(X=x)=
apólices de seguro, análise demográfica e
e-λ . λx x!
vendas, dentre outras inúmeras situações de controle da variabilidade inerente ao processo produtivo.
A distribuição Poisson pode ser aplicada como um caso limite da binomial, quando o
tamanho
da
amostra
em
eventos
dicotômicos é maior que 30.
DISTRIBUIÇÃO
POISSON
A distribuição Poisson é denotada por X~Poisson (λ), sendo λ a taxa média, 1 ou seja, λ = μ e sendo λ também sempre inversamente proporcional ao intervalo de tempo ou espaço definido no problema. Portanto, o seu valor deve corresponder ao tamanho do intervalo apresentado. Assim, para qualquer outro intervalo, o valor da média deve sofrer a correção numérica adequada.
discreta, aplicada em variáveis aleatórias cujo número de sucessos observados num intervalo contínuo, de tempo ou espaço, estar
NORMAL
A distribuição normal é denotada por X~Normal (μ; σ2 ), sendo o valor esperado, ou seja, a média da distribuição normal e a variância dadas por: E ( x ) = μ e Var ( x ) = σ2, respectivamente. Por
A distribuição Poisson é uma distribuição
pode
DISTRIBUIÇÃO
relacionado
à
quantidade
de: carros que passam em um sinal por minuto; defeitos por metro quadrado de um revestimento; chamadas por hora numa
determinado
evento
Poisson é dada por:
com
razões,
tanto
na
teoria
quanto na prática, a distribuição normal é a mais importante das distribuições de probabilidade. Isso porque muitas variáveis no mundo real têm comportamento bastante aproximado
dessa
distribuição.
Sua
relevância pode ser destacada pelo fato de: a) seus resultados serem de fácil operação matemática;
delegacia etc. A probabilidade de ocorrência de um
diversas
b) muitas técnicas estatísticas pressuporem que os dados têm distribuição normal;
distribuição
c) os dados de muitas situações reais,
072
unidade 4
ESTATÍSTICA E PROBABILIDADES
embora não sejam rigorosamente normais, podem gerar bons resultados, facilitando o tratamento matemático; d) a distribuição amostral de muitas estatísticas tenderem à distribuição normal, em face do teorema do limite central. Essa distribuição é classificada como contínua, podendo a variável assumir qualquer valor dentro de um intervalo previamente definido. Essa distribuição, delineada por uma curva em forma de sino com f.d.p, é dada por:
As principais propriedades da distribuição normal são: 1) ter a forma de um sino; 2) ser simétrica em relação à média μ ; 3) ser assintótica1 em relação ao eixo de x; 4) ser unimodal2 e ter achatamento proporcional ao desvio padrão ou variância; 5) ter média, moda e mediana iguais. FIGURA 21 - Distribuição normal
Fonte: TRIOLA, 2011, p.88.
1 - Não toca o eixo x. 2 - Só tem uma moda.
073
unidade 4
ESTATÍSTICA E PROBABILIDADES
Como o cálculo da área abaixo da curva é a integral da f.d.p. nos limites desejados e esse cálculo é, muitas vezes, longo, a área sob a curva pode ser simplificada pela transformação: z=
x-μ w σ
Sendo z uma variável aleatória com distribuição normal, média zero e variância 1, e x sendo uma variável aleatória com distribuição normal, média μ e variância σ2. A área total limitada pela curva normal e pelo eixo das abscissas é 1u.a. (uma unidade de área), ou seja, 100%, sendo as áreas sob a curva limitadas pela distância entre o desvio padrão e a média. Essa área é apresentada na tabela a seguir. TABELA 18 - Área sob a curva da normal
Fonte: BARBETTA, 2010, p. 377.
074
unidade 4
ESTATÍSTICA E PROBABILIDADES
Sendo a primeira coluna e a primeira linha o número inteiro mais a primeira casa decimal e a segunda casa decimal, respectivamente, do número z calculado pela estatística de teste x-μ z= e, no centro da tabela, as probabilidades correspondentes à área entre zero e esse σ ponto, conforme ilustração a seguir. FIGURA 22 - Distribuição normal padrão
Fonte: Elaborado pela autora.
APLICAÇÃO
PRÁTICA
Uma grande indústria compra diversos novos processadores de texto no final de cada ano, sendo que o número exato deles depende da frequência dos reparos no ano anterior. Suponha que o número de processadores, indicado por X, que são comprados a cada ano, tenha a seguinte distribuição de probabilidade:
TABELA 19 - Distribuição de frequências X
0
1
2
P(X)
0,10
0,30
0,40
3 0,20
Fonte: Elaborado pelo autor.
Se o custo do modelo desejado permanecer fixo em R$ 1500,00 durante este ano e um desconto de 50.X2 (em reais) for fornecido em relação a qualquer compra, quanto a empresa espera gastar E ( X ) em novos processadores no final do ano? E ( X ) = 0.0,1 + 1.0,3 + 2.0,4 + 3.0,2 E ( X ) = 1,7
075
unidade 4
ESTATÍSTICA E PROBABILIDADES
REVISÃO A distribuição discreta é usada em casos cujos dados analisados podem ser alocados em uma tabela de probabilidades, sendo que aquelas localizadas no centro da tabela são classificadas como probabilidade conjunta e as localizadas nas laterais, como probabilidades marginais. Probabilidades marginais são aquelas que correspondem a apenas uma das variáveis em estudo, e as probabilidades conjuntas são as que correspondem a duas variáveis analisadas concomitantemente. A distribuição contínua é usada em casos cujos dados analisados podem ser alocados em um intervalo contínuo. No que tange as distribuições de probabilidade, cabe ressaltar: TABELA 20 - Revisão das medidas de tendência central DISTRIBUIÇÃO
LIMITAÇÕES
QUANDO USAR
Binomial
Não usual para amostras com mais de 30 elementos.
Quando os eventos estudados permitem apenas duas respostas possíveis.
Poisson
Quando o foco do estudo é na quantidade do período.
Normal
Quando a média e o desvio padrão são conhecidos.
Fonte: Elaborado pelo autor.
PARA SABER
MAIS
MOORE, David. A estatística básica e sua prática. Rio de Janeiro. LTC, 2014. Para uma fundamentação matemática mais aprofundada sobre o assunto, consulte a seguinte obra: MONTGOMERY, Douglas; RUNGER, George Estatística aplicada e probabilidade para engenheiros. 3 ed. Rio de Janeiro: LTC, 2009.
076
unidade 4
UNIDADE
ESTIMAÇÃO DE MÉDIAS
E PROPORÇÕES
N
as unidades anteriores, você estudou três grandes áreas do método estatístico: amostragem e coleta de dados; análise exploratória de dados; e teoria de probabilidades. A partir de agora, você vai entender como essas áreas se relacionam
para construir a quarta área do método estatístico, que é a decisão na presença de incerteza ou estatística inferencial.
A estatística inferencial recebe esse nome por ser um conjunto de métodos e técnicas que permitem, a partir dos dados provenientes de uma amostra, inferir informações sobre toda a população alvo do estudo. Logicamente existe uma incerteza associada a esse processo, mas ela é quantificada através dos níveis de confiança e margens de erro do estudo. Essa é a grande contribuição da estatística inferencial, permitir que se conheça o nível de incerteza da informação antes de tomar decisões. Existe uma infinidade de técnicas de estatística inferencial, como os intervalos de confiança, testes de hipóteses paramétricos e não paramétricos, análises de correlação e regressão, dentre outras. Para que você tenha noção da quantidade de técnicas, imagine que exista um curso de graduação em Estatística com duração de quatro anos em que o aluno passa a maior parte do tempo estudando técnicas de estatística inferencial. E ainda assim esse tempo não é suficiente para estudar todas as técnicas! A boa notícia é que em todas essas técnicas existe um ponto em comum, conceitos que são utilizados em todas elas, como estimativa pontual, intervalos de confiança e testes de hipóteses. Esses conhecimentos estão presentes em todas as técnicas de estatística
078
unidade 5
ESTATÍSTICA E PROBABILIDADES
inferencial. E é exatamente o que estudaremos nas próximas unidades. Nesta unidade, especificamente, você vai conhecer o teorema principal da estatística, o fundamento de grande parte das técnicas de estatística inferencial: o teorema central do limite. Esse teorema fala sobre a relação entre o modelo normal de probabilidades e a média calculada a partir de uma amostra. Você consegue imaginar qual seja essa relação? Aqui você vai descobrir como são calculadas as margens de erro das pesquisas eleitorais, que são obtidas através das estimativas pontuais e intervalares para médias e proporções populacionais. Vai descobrir como utilizar o Excel para construir uma calculadora para intervalos de confiança. E também um software muito útil para fazer várias análises estatísticas, o EpiInfo.
TEOREMA CENTRAL
DO LIMITE
Imagine a seguinte situação: um engenheiro de produção deseja monitorar um processo de produção de fibra sintética de maneira a garantir que a característica de qualidade resistência à tração esteja sempre dentro dos limites de especificação. É conhecido que a resistência à tração das fibras produzidas naquela empresa é normalmente distribuída com média de 75 psi (libras força por polegada quadrada) com desvio-padrão de 3,5 psi. Como não é viável medir a característica de qualidade em todas as peças produzidas (inspeção 100%) ele decidiu coletar amostras periodicamente para verificar se não houve alteração na média do processo. Acontece que cada vez que ele coleta uma amostra e obtém a média dessa amostra existe uma variação, ou seja, as médias das amostras são sempre diferentes. A dúvida é: o engenheiro pode afirmar que houve alteração na média do processo (de todas as peças produzidas) ou a variação é devida simplesmente à uma flutuação amostral? O teorema central do limite (TCL) poderá auxiliar o engenheiro a interpretar os resultados dessas amostras e resolver a dúvida. O TCL diz que quando trabalhamos com amostras e calculamos médias, as médias das amostras são normalmente distribuídas em torno da verdadeira média populacional. Isso acontece porque, exatamente pelo fato de serem baseadas em sorteio aleatório, as amostras são sempre diferentes e, se calcularmos então a média em cada amostra, é bem difícil encontrarmos exatamente os mesmos valores.
079
unidade 5
ESTATÍSTICA E PROBABILIDADES
Entretanto, apesar de as amostras serem
3,5 psi. Encontre a probabilidade de uma
diferentes
amostra aleatória de n = 25 fibras ter uma
se
e
terem
selecionarmos
médias várias
diferentes,
amostras
e
resistência média menor que 73,6 psi.
obtivermos suas médias, podemos fazer um histograma dessas médias. Ao realizar esse
Note que a distribuição amostral de
procedimento poderemos ver que, à medida
normal, com média μX = ̅75 psi e um desvio-
que aumentamos a quantidade de amostras,
padrão de
é
o histograma mais se assemelha à curva da distribuição normal de probabilidades
σX ̅ = σ = 3,5 = 0,7 psi
√n √25
e, ainda, a média dessas médias mais se aproxima da verdadeira média populacional.
Consequentemente,
probabilidade
desejada corresponde à área sombreada na
Definição do teorema central do limite:
figura abaixo.
Se X é uma variável aleatória com média µ e variância σ2 e
a
FIGURA 23 - Distribuição amostral de X Média 75 e desvio-padrão 0,7
é a média de uma amostra
com n elementos dessa variável aleatória, então podemos dizer que a forma limite da distribuição de z=
X-μ σ ⁄√n
é a distribuição normal padrão quando n Fonte: Elaborada pelo autor.
tende ao infinito. Podemos dizer ainda que X é normalmente distribuído com média μX = μ e desviopadrão σX = σ ⁄
√n
.
Desse modo, podemos dizer que P(
< 73,6 ) = P ( Z < z ) onde o valor de z é
obtido através da padronização:
EXEMPLO
z=
Pensando no exemplo das fibras sintéticas, chamamos de X a variável aleatória
73,6 - 75 = -2 35 ⁄√25
Então,
resistência à tração das fibras. Sabemos que a média é 75 psi e o desvio-padrão é
P(
080
unidade 5
< 73,6 ) = P ( Z < -2 ) = 0,0228 (pela
ESTATÍSTICA E PROBABILIDADES
tabela da distribuição normal padrão). O resultado acima indica que a probabilidade de selecionar uma amostra de fibras e obter resistência média menor que 73,6 psi é de 2,28%. Na Unidade 7 veremos que essa probabilidade pode ser considerada baixa e, portanto, de posse dessa informação, o engenheiro poderia adotar o seguinte critério: ao observar uma amostra de fibras com resistência média menor que 73,6 psi, o processo deve ser verificado. É importante ressaltar que o TCL pode ser utilizado ainda que a distribuição da variável aleatória X não seja normal, ou seja, o teorema é valido para qualquer que seja a distribuição de X. Essa é a grande contribuição do TCL para o desenvolvimento dos métodos estatísticos. Entretanto, nas situações em que a distribuição da variável aleatória X seja muito assimétrica, a aplicação do TCL é adequada para amostras grandes ( n ≥ 30 ). A figura abaixo ilustra as distribuições amostrais de
para diferentes populações e diferentes tamanhos de amostra.
FIGURA 24 - Distribuições amostrais de População original (distribuição de X)
para diferentes populações e tamanhos de amostra
Distribuição amostral de X para n = 2
Distribuição amostral de X para n = 5
Fonte: Elaboração do autor.
081
unidade 5
Distribuição amostral de X para n = 30
ESTATÍSTICA E PROBABILIDADES
Note nos gráficos acima que a aproximação pela distribuição normal é razoável para amostras com 30 ou mais observações. Por essa razão, a utilização do teorema central do limite é adequada quando o tamanho da amostra for ao menos 30 ou quando a distribuição da variável aleatória X for normal. Nos próximos tópicos, você vai descobrir como aplicar o teorema central do limite para obter estimativas intervalares para médias e proporções populacionais a partir da média e proporções amostrais. Na Unidade 7, o TCL será utilizado para realizar testes de hipóteses sobre os parâmetros populacionais.
ESTIMAÇÃO PONTUAL E POR INTERVALOS DE CONFIANÇA
PARA UMA MÉDIA POPULACIONAL
Neste tópico, você vai aprender a obter uma estimativa para média populacional e calcular a precisão dessa estimativa. Você vai entender por que apresentar a margem de erro e o nível de confiança da pesquisa é tão importante quanto apresentar a estimativa pontual para média. Após a leitura deste tópico, você terá um novo olhar sobre as estatísticas que lhe são apresentadas diariamente em jornais ou revistas. Considere que uma montadora desenvolveu um novo modelo e está elaborando a ficha técnica do veículo. Uma informação relevante para o cliente é o consumo médio de combustível. Sabese que o consumo está relacionado ao tipo de combustível (etanol ou gasolina ), à maneira de conduzir, ao tipo de via (cidade ou estrada), à qualidade do combustível, dentre outras variáveis. O consumo pode variar também entre os veículos de mesmo modelo, por essa razão podemos tratar o consumo de combustível como uma variável aleatória. Para definir o consumo médio de combustível do novo modelo de veículo, a montadora coletou dados sobre distância percorrida e consumo de combustível de 35 veículos. Com esses dados, calculou o consumo médio na estrada e na cidade tanto para gasolina quanto para etanol. Os resultados são apresentados na tabela abaixo: TABELA 21 - Revisão das medidas de tendência central TRAJETO
ETANOL (KM/L)
GASOLINA (KM/L)
Cidade
8,7
12,5
Estrada
10,4
15,2
Fonte: Elaborado pelo autor.
082
unidade 5
ESTATÍSTICA E PROBABILIDADES
Os
35
veículos
que
participaram
do
Onde:
experimento podem ser considerados uma amostra do total de veículos produzidos
zα ⁄2 está relacionado ao nível de confiança
pela montadora, já que o objetivo é obter
desejado para o estudo;
informação sobre todos os veículos do referido modelo que são produzidos. Dessa
σ é
forma, a montadora está utilizando a média da amostra
o
desvio-padrão
populacional
da
variável aleatória X;
para estimar µ, o consumo
médio de todos os veículos.
n é o tamanho da amostra coletada.
Dizemos que a média da amostra
O nível de confiança do estudo é definido
representa um único estimador numérico
pelo valor de zα⁄2 que pode ser obtido da
da média da população. Por essa razão,
tabela da distribuição normal padrão. O nível
recebe o nome de estimador pontual.
de confiança é dado em valor percentual e
Observe, por exemplo, na tabela 20 que o
deve ser sempre inferior a 100%. Chamamos
consumo médio do veículo na cidade com
significância (α) o percentual restante, de
etanol foi estimado em 8,7 km/l, mas não foi
maneira que confiança + significância =
apresentada nenhuma informação quanto à
100%. Por exemplo, para um estudo com
precisão dessa estimativa.
95% de confiança, o valor de α será 5%. O valor de z = 1,96 é definido então a partir da
No tópico anterior, vimos que a média
distribuição normal padrão, como ilustra a
amostral
figura abaixo:
pode ser considerada uma
variável aleatória. Isso significa que, caso FIGURA 25 - Definição do valor de z para confiança de 95%
selecionássemos outra amostra de 35 veículos e calculássemos o consumo médio na cidade com etanol, o resultado poderia ser diferente de 8,7 km/l. Por essa razão, a estimativa pontual deve vir sempre acompanhada da margem de erro, informando assim sua precisão. A margem de erro pode ser obtida através da equação abaixo: E = Zα
σ
Fonte: Elaborado pelo autor.
/2 √n
083
unidade 5
ESTATÍSTICA E PROBABILIDADES
Observe também que, para o cálculo da
IC [ μ; ( 100 - α ) % ] =
margem de erro, precisamos conhecer o desvio-padrão populacional da variável aleatória X, isto é, o desvio-padrão do consumo de combustível de todos os veículos do referido modelo produzidos pela
montadora.
Entretanto,
como
a
amostra pode ser considerada grande ( n > 30 ), podemos utilizar o desvio-padrão da amostra s como aproximação de σ, e então o cálculo da margem de erro será:
E = Zα
S
de ( 100 - α ) % de confiança, é dado pela
média amostral menos a margem de erro e a média amostral mais a margem de erro. O resultado do exemplo acima é comumente interpretado da seguinte maneira: “se
correspondentes intervalos com 95% de confiança, esperamos que a proporção de
para o verdadeiro consumo médio de etanol na cidade para esse veículo, com um nível de 95% de confiança, sabendo que o desviopadrão do consumo de etanol na cidade para a amostra dos 35 veículos foi de 4 km/l.
√35
verdadeira média populacional, com um nível
e, para cada uma delas, calcularmos os
/2 √n
4
Ou seja, o intervalo de confiança para μ, a
obtivermos várias amostras de 35 veículos
Vamos obter, portanto, a margem de erro
E = 1,96
±E
intervalos que contenham o verdadeiro consumo médio μ seja igual a 95%”. Exemplo: Para os dados da tabela 20, supondo que o desvio-padrão para o consumo de etanol na estrada seja de 2 km/l, obtenha o intervalo
= 1,325
de 95% para o verdadeiro consumo médio.
O cálculo acima mostra que a margem de erro do estudo é de 1,325 km/l para o consumo do veículo ao rodar com etanol na cidade. Com isso, podemos dizer que o verdadeiro consumo médio do veículo é de 8,7 km/l com
Solução: Para resolver a questão acima, podemos utilizar a equação:
uma margem de 1,325 km/l para mais ou para menos, ou seja, está entre 8,7 - 1,325 = 7,375
IC [ μ; 95% ] =
±E
km/l e 8,7 + 1,325 = 10,025 km/l. O intervalo que acabamos de construir (7,375; 10,025)
Precisamos, portanto, encontrar a margem
é conhecido como intervalo de confiança ou
de erro do estudo. Para isso, vamos utilizar
estimador intervalar e é definido pela equação:
a equação:
084
unidade 5
ESTATÍSTICA E PROBABILIDADES
E = Zα
o desvio-padrão populacional também é
S
/2 √n
desconhecido, o que torna inadequada a aplicação da equação para o cálculo da margem de erro.
Logo: E = 1,96 *
2
√35
= 0,663
Felizmente,
quando
trabalhamos
com
grandes amostras ( n > 30 ), o desvio-
Então:
padrão amostral (s) é uma boa aproximação para o desvio-padrão populacional (σ), o
IC [ μ ; 95% ] = 10,4 ± 0,663
que possibilita a utilização da equação O intervalo é comumente apresentado como
apresentada para o cálculo da margem de
segue:
erro. Mas, o que fazer quando a amostra é pequena ( n < 30 )? É exatamente o que descobriremos aqui.
IC [ μ ; 95% ] = [ 9,737 ; 11,063 ] Dessa forma, afirmamos com 95% de
Nas situações em que a amostra é pequena,
confiança que o consumo médio de etanol
nos deparamos com dois problemas:
na estrada para o novo modelo de veículo está entre 9,737 km/l e 11,063 km/l.
1. Não podemos utilizar o teorema central do limite para dizer que a média amostral (
TCL é válido somente para amostras com
ESTIMAÇÃO POR INTERVALOS DE CONFIANÇA PARA
mais de 30 observações. 2. A
UMA MÉDIA POPULACIONAL (AMOSTRAS PEQUENAS)
pelo
desvio-padrão desvio-padrão
Para contornar o problema 1, lançamos mão do seguinte teorema:
intervalo de confiança exige o conhecimento populacional
do
amostral é considerada pobre.
que o cálculo da margem de erro para o desvio-padrão
aproximação
populacional
Você deve ter observado no tópico anterior
do
) é normalmente distribuída, pois o
(σ).
Entretanto, na maioria das vezes em que se deseja estimar a média populacional,
085
unidade 5
Se X é uma variável aleatória normalmente distribuída, ao selecionar amostras de tamanho n, a distribuição amostral de será uma distribuição normal.
ESTATÍSTICA E PROBABILIDADES
Esse teorema garante que, se a variável aleatória X é normalmente distribuída, então a distribuição amostral de
será normal independente do tamanho da amostra.
Para contornar o problema 2, vamos precisar utilizar uma nova distribuição de probabilidades, a distribuição t-student. Essa distribuição é muito semelhante à distribuição normal: tem forma de sino, é simétrica e tem média zero. A diferença é que a distribuição t-student é mais achatada (tem caudas mais pesadas). Com isso, as estimativas obtidas a partir dessa distribuição serão menos precisas. FIGURA 26 - Comparação entre a distribuição normal e a distribuição t-student (5 gl)
Fonte: Elaborado pelo autor.
A figura abaixo ilustra parte da tabela dos valores mais utilizados para distribuição t-student. Para construção de intervalos de confiança, devemos olhar os valores para área em duas α α caudas e a área deve se referir ao valor de ⁄ + ⁄ . Os graus de liberdade são dados por n 2 2 1, ou seja, o tamanho da amostra menos 1.
086
unidade 5
ESTATÍSTICA E PROBABILIDADES
FIGURA 27 -Valores tabelados para distribuição t-studen
Fonte: TRIOLLA, 2013, p. 614.
Exemplo: Uma equipe de engenharia está desenvolvendo uma nova mistura para concreto e deseja estimar a resistência média do produto à compressão. Como o teste de resistência à compressão é um ensaio destrutivo, o máximo que a equipe conseguiu para realização do estudo foram 10 corpos de prova. A resistência média à compressão da amostra foi de 2.500 psi e o desvio-padrão foi de 45 psi. Sabendo que a resistência do concreto à compressão segue uma distribuição normal, obtenha uma estimativa intervalar para a verdadeira resistência média populacional com 95% de confiança. Solução: Observe que o tamanho da amostra é pequeno, n = 10, e o desvio-padrão foi obtido da amostra (não conhecemos o desvio-padrão populacional). Nesse caso, para construir o intervalo de confiança, é necessário utilizar a distribuição t-student e a margem de erro deve ser calculada utilizando a equação:
087
unidade 5
ESTATÍSTICA E PROBABILIDADES
E = t (α
S
/2 ; n - 1) √n
Onde tα ⁄2 ; n-1 é obtido da tabela t-student, sendo os parâmetros: α⁄2 a área em cada uma das duas caudas e n - 1 os graus de liberdade. Como o intervalo é de 95% de confiança, sabemos que a significância é o α = 5% (para consultar a tabela usamos o valor em decimal, 0,05). Os graus de liberdade são obtidos calculando n-1, ou seja, 10 - 1 = 9. Assim, encontramos que o valor de t0,025;9 é de 2,262. FIGURA 28: Tabela t-student - encontrando t 0,025;9
Fonte: TRIOLA, 2013, p. 614
Com isso, estimamos que a margem de erro será: E = 2,262 45 = 32,189 √10 O intervalo de confiança pode ser então obtido: IC [ μ ; 95% ] = 2.500 ± 32,189 IC [ μ ; 95% ] = [ 2.467,81 ; 2.532,19 ] A equipe de engenharia pôde interpretar o resultado como segue: afirmamos com 95% de confiança que a resistência média do concreto à compressão está entre 2.467,81 psi e 2.532,19 psi.
088
unidade 5
ESTATÍSTICA E PROBABILIDADES
ESTIMAÇÃO PONTUAL E POR INTERVALOS DE CONFIANÇA
PARA UMA PROPORÇÃO POPULACIONAL Como são calculadas as margens de erro das pesquisas eleitorais? Possivelmente no início da unidade você tenha ficado instigado a descobrir como é feito esse cálculo. Antes de dar início, é preciso entender que as pesquisas eleitorais buscam descobrir o percentual de eleitores que são favoráveis ao candidato A ou B, e esses percentuais são tratados na estatística como proporções. Para simplificar os cálculos, vamos pensar em uma eleição que foi para o segundo turno e, portanto, tem apenas dois candidatos. Uma empresa de pesquisa entrevistou 2.500 eleitores quanto à intenção de voto nos candidatos A e B. Note que "candidato" é uma variável qualitativa, e o que queremos descobrir é como estimar a probabilidade de sucesso em um experimento binomial em que p é a probabilidade de que o eleitor escolhido prefira o candidato A, por exemplo. Uma maneira bem intuitiva de estimar p para a população é usar a proporção de sucessos da amostra:
ˆ = Número de eleitores que preferem o candidato A p Número de eleitores amostrados Suponha que dos 2.500 eleitores amostrados 1.300 tenham declarado intenção de votar no candidato A, 950 no candidato B e 250 em branco ou nulo. Assim, podemos estimar a proporção de eleitores que votariam no candidato A por: ˆp ̂= 1.300 = 0,52 2.500 Ou seja, a amostra indica que cerca de 52% dos eleitores têm intenção de votar no candidato A. Entretanto, devemos lembrar que caso fosse realizada outra amostragem e fossem selecionados outros 2.500 eleitores o resultado poderia ser diferente de 0,52. O valor de ˆp ̂ é uma estimativa pontual para p, a verdadeira proporção de eleitores que têm intenção de votar no candidato A em toda a população. Podemos tratar p como uma média, se pensarmos que X é uma variável aleatória que assume 0 quando o eleitor declara votar no candidato B, em branco ou nulo e 1 quando o eleitor declara votar no candidato A. Nesse caso, podemos utilizar o teorema central do limite e dizer que ˆp é
089
unidade 5
ESTATÍSTICA E PROBABILIDADES
normalmente distribuído com média μp =
√p.qn , onde q = 1-p, ou de maneira aproximada σˆ = √ˆp.qˆ , pois n
E o intervalo de confiança será:
p e desvio-padrão σˆp =
IC [ p ; 95% ] = 0,52 ± 0,0196
p
não conhecemos os verdadeiros valores de
IC [ p ; 95% ] = [ 0,5004 ; 0,5396 ]
p e q. Sabemos que o TCL é válido apenas
Podemos afirmar com 95% de confiança
para amostras grandes. No caso de
que a verdadeira proporção de eleitores que
estimativas para proporções, dizemos
votam no candidato A em toda a população
que a amostra é grande quando n . p ≥
está entre 50,04% e 53,96%. Observe que
5 e também n . q ≥ 5, ou seja, ambos os
afirmar com 95% de confiança significa
critérios devem ser satisfeitos.
dizer que, se fossem feitas 100 pesquisas e calculados os intervalos de confiança,
Caso esses critérios tenham sido satisfeitos,
cerca de 95 deles conteriam a verdadeira
podemos calcular a margem de erro através
proporção de eleitores que votam no
da equação:
candidato A. E = Zα
Exemplo:
ˆˆ /2 √ pq n
A empresa XYZ compra tubos de aço do E então o intervalo de confiança para p será:
fornecedor A. Na última semana, a XYZ recebeu uma proposta de comprar tubos de
ˆ±E IC [ p ; ( 100 - α) % ]= p
aço do fornecedor B pela metade do preço do fornecedor A. Para decidir, o gerente de
No exemplo da pesquisa eleitoral, n . p ˆ ̂=
compras deseja estimar qual o percentual de
2.500 * 0,52 = 1.300 e n.q ˆ ̂= 2.500 * 0,48
não conformidade nos tubos do fornecedor
= 1.200. Como ambos os critérios foram
B (proporção de tubos defeituosos). Em um
satisfeitos,
uma
lote de 150 tubos havia 21 não conformes.
amostra grande o bastante para justificar
Obtenha o intervalo de 90% de confiança
a utilização do TCL, logo podemos obter
para a verdadeira proporção de tubos não
a margem de erro com o nível de 95% de
conformes do fornecedor B.
dizemos
que
temos
confiança: E= 1,96
√
0,52 × 0,48 = 0,0196 2.500
Solução: Uma estimativa pontual para a verdadeira proporção de tubos não conformes é dada por:
090
unidade 5
ESTATÍSTICA E PROBABILIDADES
pˆ = 21 = 0,14 150 Verificamos que a aplicação do teorema central do limite é adequada, pois n . p = 21 ˆ = 150 * 0,86 = 129, ou seja, ambos en.q são maiores que 5, indicando que a amostra é suficientemente grande. Podemos estimar a margem de erro do estudo pela equação: E = Zα
/2 √
E = 1,645
USO DO EXCEL NO CÁLCULO DE INTERVALOS
DE CONFIANÇA PARA MÉDIA E PROPORÇÃO Agora que você já sabe exatamente como são obtidos os intervalos de confiança,
pq ˆˆ
vamos utilizar o Excel para construir uma
n
calculadora de intervalos de confiança.
√
0,14 × 0,86 = 0,047 150
Começaremos pelo intervalo para média.
Então, definimos o intervalo com 90% de
Nos tópicos anteriores, vimos que o
confiança para p pela equação:
intervalo de confiança para a média populacional pode ser obtido de duas
ˆ±E IC [ p ; 90% ] = p
maneiras:
utilizando
a
distribuição
normal (estatística z) ou a distribuição t-student (estatística t). Vimos também
IC [ p ; 90% ] = 0,14 ± 0,047
que a distribuição t-student é utilizada quando o tamanho da amostra é menor
IC [ p ; 90% ] = [ 0,093 ;0,187 ]
que 30 e o desvio-padrão populacional O gerente de compras pode afirmar,
é desconhecido. Nos outros casos,
com 90% de confiança, que a verdadeira
utilizamos a distribuição normal.
proporção
de
tubos
não
conformes
provenientes do fornecedor B está entre
Vamos construir primeiramente uma
9,3% e 18,7%. O gerente fará sua decisão
calculadora para intervalos de confiança
baseado nessa informação e em outras que
utilizando
julgar convenientes.
Utilizaremos os dados sobre consumo
a
distribuição
normal.
de combustível do primeiro exemplo. A figura abaixo ilustra como deve ficar nossa calculadora nas colunas A e B.
091
unidade 5
ESTATÍSTICA E PROBABILIDADES
FIGURA 29 - Calculadora para intervalo de confiança para média: amostras grandes ou desvio-padrão populacional conhecido
Fonte: Elaborado pelo autor.
Nas linhas 4 a 7 são inseridas as informações iniciais do problema, como: desvio-padrão, que pode ser tanto da população quanto da amostra; a média amostral
̅; o tamanho da
amostra n; e o nível de confiança desejado. Note que a célula B7 deve ser configurada como porcentagem. Nas linhas 9 a 11 são realizados cálculos intermediários como erro padrão da média σx (ou σˆx ̅), o valor de z relativo ao nível de confiança desejado e a margem de erro resultante. As fórmulas utilizadas para cada um dos cálculos são apresentadas exatamente à sua direita. Por exemplo, na célula B9 foi inserida a fórmula = B4/RAIZ(B6), que é o desvio-padrão dividido pela raiz do tamanho da amostra. Nas linhas 13 e 14 é apresentado o intervalo de confiança, sendo limite inferior do intervalo o valor de
- E e o limite superior do intervalo o valor de
+ E.
Para construir a calculadora para amostras pequenas e desvio-padrão populacional desconhecido, vamos utilizar os dados do exemplo sobre a resistência do concreto à compressão. O procedimento é o mesmo do anterior, alterando apenas as informações relativas aos parâmetros da distribuição t-student:
092
unidade 5
ESTATÍSTICA E PROBABILIDADES
FIGURA 30 - Calculadora para intervalo de confiança para média: amostras pequenas e desvio-padrão populacional desconhecido
Fonte: Elaborado pelo autor.
Para construir a calculadora de intervalos de confiança para proporções, vamos utilizar os dados do exemplo da pesquisa eleitoral. Nesse caso, os dados iniciais são o número de sucessos e o tamanho da amostra. Lembrando que a palavra sucesso está relacionada à distribuição binomial e se refere ao número de vezes que ocorreu o evento de interesse. No caso do exemplo sobre as eleições, o número de sucessos é a quantidade de entrevistados que declarou intenção de votar no candidato A, 1300 pessoas. O tamanho da amostra foi de 2500 entrevistados. Com esses dados, calcula-se a proporção estimada p ̂ dividindo o número de sucessos pelo tamanho da amostra (célula B6). O erro padrão da média é calculado através da equação σˆp =
ˆ ˆ = implementada na célula √p.q n
B9. As demais células utilizam as mesmas fórmulas já apresentadas nas calculadoras anteriores.
093
unidade 5
ESTATÍSTICA E PROBABILIDADES
FIGURA 31 - Calculadora para intervalo de confiança para proporção
Fonte: Elaborado pelo autor.
INTRODUÇÃO AO
PROGRAMA EPIINFO O software EpiInfo é uma ferramenta muito útil para análise de dados. Esse software foi desenvolvido pelo Centro de Controle de Doenças (CDC) para análise de dados epidemiológicos, entretanto pode ser utilizado em qualquer área, inclusive em engenharia. O software está disponível no site www.cdc.gov/epiinfo Veja no material web da disciplina os vídeos de instalação do EpiInfo e de introdução à análise de dados utilizando essa ferramenta.
APLICAÇÃO
PRÁTICA
Um fabricante de anéis para pistões de motor deseja verificar se seu produto atende as especificações do cliente. Para isso, resolveu estimar o diâmetro médio dos anéis produzidos. A partir de uma amostra
094
unidade 5
ESTATÍSTICA E PROBABILIDADES
de 40 anéis, registrou-se diâmetro médio de
Então:
74,045 milímetros com desvio-padrão de 0,02
IC [ μ ; 99% ] = 74,045 ± 0,008
milímetros. Construa o intervalo com 99% de confiança para o verdadeiro diâmetro médio dos
O intervalo é comumente apresentado como
anéis.
segue:
Solução:
IC [ μ ;99% ] = [ 74,037 ; 74,053]
Note que o enunciado não informou a distribuição
Dessa forma, afirmamos com 99% de confiança
de probabilidade da variável diâmetro dos anéis
que o diâmetro médio dos anéis está entre
e, além disso, também não temos informação
74,037 milímetros e 74,053 milímetros.
a respeito do desvio-padrão populacional dessa variável. Entretanto, como a amostra é considerada grande (40 anéis), podemos valer
REVISÃO
do teorema central do limite e afirmar que a
Nesta unidade, você aprendeu a construir
distribuição amostral do diâmetro médio dos
estimativas pontuais e por intervalos para
anéis é normal, com média μ e desvio-padrão
os verdadeiros parâmetros populacionais
σ⁄ , √n
onde μ é o verdadeiro diâmetro médio dos
através de dados provenientes de amostras.
anéis e σ o verdadeiro desvio-padrão. Sabemos
Aprendeu também que existem ao menos
ainda que o estimador de μ é X ̅, a média amostral
quatro maneiras de obter estimativas
e o estimador de σ é s, o desvio-padrão amostral.
intervalares, e que a escolha da maneira
Dessa forma, utilizaremos as equações abaixo
adequada para cada situação é determinada
para construir o intervalo com 99% de confiança
basicamente pelo tipo de dados (qualitativo
para o verdadeiro diâmetro médio dos anéis.
ou quantitativo) e pelo tamanho da amostra ( n < 30 ou n ≥ 30 ). O esquema abaixo apresenta de maneira resumida o processo
IC [ μ ;99% ] = x ± E Precisamos, portanto, encontrar a margem
de decisão:
de erro do estudo. Para isso, vamos utilizar a equação:
E = Zα
S
/2 √n
Logo: E = 2,575 *
0,02
√40
= 0,008
095
unidade 5
ESTATÍSTICA E PROBABILIDADES
FIGURA 32– Processo de decisão Tipo de dados Quantitativo parâmetro μ
Qualitativo parâmetro p
Amostra grande ( n ≥ 30 )
Amostra pequena ( n < 30 )
Aplicável quando np ≥ 5 e nq ≥ 5
Pelo teorema central do limite, o intervalo de confiança pode ser obtido pelas equações 1 ou 2.
O intervalo de confiança pode ser obtido pela equação 3 apenas se a população tem distribuição normal.
O intervalo de confiança pode ser obtido pela equação 4.
Fonte: Elaborada pelo autor
PARA SABER
MAIS
Caso você tenha se interessado pelo assunto desta unidade e deseja aprofundar nesse conteúdo, recomendo a leitura do capítulo 5 do livro texto: McCLAVE, James T. George Benson, Terry Sincich. Estatística para administração e economia. trad. Fabrício Pereira Soares e Fernando Sampaio Filho; rev. téc. Galo Carlos Lopez Noriega. São Paulo: Pearson Prentice Hall, 2009. Se você deseja uma leitura mais formal e tem interesse em demonstrações das equações, leia o capítulo 8 do livro texto:
096
unidade 5
ESTATÍSTICA E PROBABILIDADES
MONTGMOMERY, Douglas C. George C. Runger. Estatística
aplicada
e
probabilidade
para
engenheiros. trad. e rev. téc. Verônica Calado. Rio de Janeiro: LTC, 2009. Se você deseja um estudo de caso com aplicação do conteúdo na área de engenharia, leia o artigo: NETO, Antônio Peli. Intervalos de confiança, Intervalos de Predição e Campo de Arbítrio nas Avaliações de Imóveis Urbanos. Associação Brasileira dos Engenheiros Civis - Departamento da Bahia. Bahia, 2010. Disponível em: . Acesso em 16 jun. 2015.
097
unidade 5
UNIDADE
PLANEJAMENTO DE
EXPERIMENTOS
N
a Unidade 5, Estimação de médias e proporções, você aprendeu a estimar parâmetros populacionais a partir de dados amostrais. Você deve ter observado que os resultados amostrais foram disponibilizados, mas não foram apresentados
os métodos utilizados para seleção das amostras ou sequer a justificativa para o tamanho amostral. Nesta unidade você vai aprender a planejar um experimento de pequeno e médio porte na área de Engenharia e Ciências Exatas, bem como calcular o tamanho mínimo de uma amostra que tenha representatividade estatística.
Uma situação que utiliza o planejamento de experimentos muito frequentemente é o estudo dos efeitos do tratamento térmico de metais sobre suas propriedades mecânicas. Considere que uma equipe de engenharia deseja estudar o efeito de três diferentes tipos de banho de têmpera sobre a dureza de um determinado tipo de aço. Os tipos de banho de têmpera1 utilizados são têmpera em água, têmpera em óleo e têmpera em solução aquosa de cloreto de sódio (água salgada). O propósito do estudo é determinar qual banho de têmpera produzirá a dureza máxima do aço. A princípio, a equipe considerou suficiente para o propósito do estudo submeter um determinado número de corpos de provas a cada meio de têmpera e medir a dureza da liga metálica. A partir desses resultados calcular-se-ia a dureza média em cada um dos diferentes tipos de banho. Aquele que apresentasse a maior dureza média seria o mais adequado.
A têmpera consiste essencialmente em aquecer uma peça de aço a uma certa temperatura e, a seguir, resfriála rapidamente em um banho, usualmente água, óleo ou soluções salinas. Seu objetivo é, em geral, aumentar a dureza do aço e tornar mais elevadas suas resistências à tração, à compressão e ao desgaste
099
unidade 6
ESTATÍSTICA E PROBABILIDADES
Entretanto, ao analisar o experimento com cautela, o engenheiro de produção detectou várias questões que deviam ser respondidas antes do início da coleta de dados: água, óleo e água salgada são os únicos banhos de interesse no processo de têmpera? Há outros fatores que possam afetar a dureza do aço e que devem ser pesquisados? Quantos corpos de prova devem ser submetidos a cada banho de têmpera? De que modo os corpos de prova devem ser alocados aos três diferentes banhos? Em que ordem os dados devem ser coletados? Qual método de análise de dados deve ser utilizado? Qual diferença entre dureza média será considerada significativa do ponto de vista prático? Diante de todas essas questões, a equipe constatou a necessidade de utilizar técnicas estatísticas para planejamento do experimento, a fim de assegurar a confiabilidade dos resultados do estudo. São estas técnicas que você irá aprender nessa unidade.
CÁLCULO DE TAMANHO DE AMOSTRA BASEADO EM INTERVALOS DE CONFIANÇA
PARA UMA PROPORÇÃO
Para alguns pesquisadores, a definição do tamanho da amostra é o único cuidado necessário para validade estatística do estudo. Como você observou na introdução dessa unidade, existe uma série de cuidados que devem ser tomados ao conduzir experimentos em engenharia, além do tamanho da amostra. A começar pelo objetivo do estudo. Se o objetivo do estudo é comparar resultados expressos em forma de porcentagens ou proporções, existe um método adequado para o cálculo do tamanho amostral. Se o objetivo é comparar resultados expressos em forma de médias, existe outro método adequado para o cálculo do tamanho amostral. Diversos outros fatores podem ser considerados nestes cálculos, alterando, assim, a adequação de cada método. Neste tópico você aprenderá a calcular o tamanho amostral para um estudo que tem o interesse de estimar uma proporção populacional. Os parâmetros controlados são o nível de confiança e a margem de erro máxima desejados para o estudo. Vejamos um exemplo: Exemplo 8 Uma empresa fabricante de motores deseja comprar correias do fornecedor Borrachão, pois o atual fornecedor tem apresentado um percentual elevado de peças defeituosas (não
100
unidade 6
ESTATÍSTICA E PROBABILIDADES
conformes). Para estimar o percentual de
verdadeira proporção populacional. Esse
correias não conformes produzidas pelo
pressuposto pode não ser satisfeito na
fornecedor Borrachão, a empresa fabricante
prática. Nesse caso, deve-se utilizar o valor
de motores deseja adquirir uma amostra que
ˆ e a equação passa a ser: 0,5 no lugar de p,
seja representativa. A equipe de engenharia deseja que seja conduzido um estudo com
Equação 2: Tamanho de amostra
95% de confiança e margem de erro máxima
exigido para estimativa de uma
da estimativa de 2 pontos percentuais, para
proporção populacional –
mais ou para menos. Qual o tamanho de
Desconhecendo estimativa de pˆ ̂
amostra necessário para esse estudo? A
Zα/220,25 n= E2
equação abaixo deverá ser utilizada para o cálculo do tamanho amostral desejado: Equação 1: Tamanho de amostra
Para o exemplo das correias, a equipe
exigido para estimativa de uma
utilizou a equação 2, uma vez que não havia ˆ conhecimento sobre a estimativa de p.
proporção populacional – Conhecendo uma estimativa de pˆ
n=
2
ˆˆ Zα/2 pq n= 2 E
1,962 x 0,25 0,022
n = 2.401
Onde:
Dessa forma, a equipe concluiu que para estimar a verdadeira proporção de correias
n: é o tamanho da amostra calculado
não conformes produzidas pelo fornecedor
zα⁄2 : escore z que separa uma área de
Borrachão, com 95% de confiança e uma
α/2 na cauda direita da distribuição
precisão de 2%, será necessário coletar uma
normal padrão
amostra de 1.225 correias.
ˆ é uma estimativa da verdadeira proporção p: Note que, caso a equipe tivesse uma
populacional.
informação quanto ao verdadeiro percentual
ˆ ̂: é obtido por 1-p ˆ̂ q
de correias não conformes e desejasse
E: é a margem de erro máxima aceitável
realizar um estudo apenas para confirmação da informação o tamanho amostral, poderia
para o estudo.
ser significativamente menor. Suponha Note que a equação acima exige que
que o fornecedor Borrachão afirmasse
se tenha um conhecimento prévio da
que o percentual de peças não conformes
101
unidade 6
ESTATÍSTICA E PROBABILIDADES
fosse de 5%. A equipe poderia utilizar essa informação como uma estimativa de pˆ e poderia então utilizar a equação 1:
CONFIANÇA PARA UMA PROPORÇÃO – POPULAÇÃO FINITA
1,962 x 0,05 x 0,95 n= 0,022 n = 457 Observe que o tamanho de amostra necessário para confirmar a afirmação do fornecedor é de apenas 233 correias. Isso
sempre
acontecerá,
ou
CÁLCULO DE TAMANHO DE AMOSTRA BASEADO EM INTERVALOS DE
seja,
o
tamanho amostral resultante da equação 1 será sempre menor que o resultante da equação 2, pois na primeira já temos um conhecimento a priori do verdadeiro valor populacional e desejamos apenas confirmá-lo.
No tópico anterior aprendemos a calcular o tamanho de amostra para estimar uma proporção, mas observe que não foi considerado o total de elementos na população. Isso ocorre em situações em que a população é considerada infinita, ou seja, o número de elementos da população é tão grande que pode ser considerado infinito. Em algumas situações, no entanto, esse pressuposto não é minimamente razoável. Nessas situações precisamos utilizar um fator de correção para população finita. Utilizamos, então, a equação 3:
IMPORTANTE
Equação 3: Tamanho de amostra exigido para estimativa de uma
É importante destacar que, para o cálculo do
proporção populacional –
tamanho amostral, o resultado deve ser sempre
Correção para população finita
arredondado para cima, independentemente do valor decimal. Assim, no exemplo anterior,
n=
caso o cálculo exato resultasse em 232,1 ainda
assim
arredondaríamos
para
ˆˆ (zα/ )2 Npq 2
ˆˆ (zα/2)2 + (N - 1) E2 pq
233
correias. Isso ocorre porque o tamanho de
Considere
amostra mínimo necessário para atender aos
percentual de peças defeituosas em um lote
requisitos do nível de confiança e margem
de 100 peças. Qual o tamanho de amostra
de erro seria de 232,1 correias. Como não
necessário, se queremos uma estimativa
faz sentido amostrar 0,1 correia, devemos
com 90% de confiança e margem de erro
selecionar uma peça a mais.
máxima de 3%? Utilizando a equação 2
102
unidade 6
que
desejamos
estimar
o
ESTATÍSTICA E PROBABILIDADES
CÁLCULO DE TAMANHO DE AMOSTRA BASEADO
teríamos o seguinte resultado: n=
1,6452 x 0,25 = 752 0,032
Observe que o resultado da equação é irreal, pois como poderíamos amostrar 457 peças em um lote de 100? Nessa situação devemos utilizar a equação 3, que leva em consideração o tamanho do lote:
aprenderá a calcular o tamanho amostral para um estudo que tem o interesse de
O tamanho da amostra passa a ser então 89 peças, o que é real, ou possível, tendo em vista que o tamanho do lote é de 100 peças. Caso já existisse uma informação sobre o percentual de peças defeituosas e fosse desejável apenas confirmar a informação, o tamanho amostral seria menor. Por considere
que
normalmente
cerca de 5% das peças são defeituosas. Para confirmar tal informação, seriam necessárias 60 peças na amostra. n=
cálculo do tamanho amostral depende o objetivo do estudo. Nesta seção você
n = 89
exemplo,
No início dessa unidade falamos que o de vários fatores, sendo o principal deles
100 x 0,5 x 0,5 (1,645)2 0,5 x 0,5 (1,645)2 + (100 - 1) 0,032
n=
EM INTERVALOS DE CONFIANÇA PARA UMA MÉDIA
estimar
uma
média
populacional.
Os
parâmetros controlados continuam sendo o nível de confiança e a margem de erro máxima desejados para o estudo. Vejamos um exemplo: Exemplo 9 Uma
empresa
fabricante
de
baterias
automotivas desenvolveu um novo produto e deseja estimar a sua vida média. De estudos anteriores, sabe-se que a vida
100 x 0,05 x 0,95 (1,645)2
média das baterias produzidas por esse
0,05 x 0,95 (1,645)2 + (100 - 1) 0,032
fabricante segue uma distribuição normal,
n = 60
com desvio-padrão de seis meses. A equipe de engenharia do produto ressalta a importância da correta estimação da vida média da bateria, pois a partir desta será determinado o tempo de garantia. Por essa razão, decidiu-se que o nível de confiança do estudo será de 99% e a margem de erro máxima aceitável para a estimativa é de três meses. Utilizando a equação abaixo,
103
unidade 6
ESTATÍSTICA E PROBABILIDADES
a equipe poderá determinar o tamanho amostral
necessário
para
atender
arredondar o resultado para cima.
às
exigências do estudo.
Você deve ter observado no exemplo 9 que já dispúnhamos de uma estimativa a
Equação 4: Tamanho de amostra exigido
priori do desvio-padrão populacional (σ),
para estimativa de uma média populacional
ou seja, a equipe utilizou o desvio-padrão
n=
[
Z(α/2)Ợ E
]
das outras baterias. Em muitas situações
2
práticas, o desvio-padrão populacional não é conhecido e nesses casos pode-se utilizar
Onde:
uma das seguintes alternativas:
n: é o tamanho da amostra Zα/2: escore z que separa uma área de
1–U tilização
σ: é o desvio-padrão populacional
que para estimar a vida média da nova
uma
amostra 87
necessário piloto
de
observações.
conhecimento de σ e, como base nos primeiros resultados, obtenha o desvio-
na estimativa e margem de erro máxima de
padrão amostral s. Use essa estimativa
três meses, será necessária uma amostra
em lugar de σ.
de 27 baterias. 2,575 x 6 E
}
2
3–U tilize o valor de σ estimado por outros estudos realizados anteriormente.
n = 26,5 ˜ 27 Ao calcular tamanho de amostra para estimativa de uma média populacional, aquela
regra
de
arredondamento apresentada no tópico seja,
coletar
é
2–C omece o processo de coleta sem o
bateria desenvolvida, com 99% de confiança
ou
alternativa,
regra, consulte Triolla (2013), seção 3-3.
Utilizando a equação 4, a equipe determinou
anterior,
da
Para maior esclarecimento sobre essa
para a estimativa.
valendo
dessa
aproximadamente
E: é a margem de erro máxima aceitável
continua
empírica
padrão: σ ≈ Amplitude⁄4. Para aplicação
normal padrão
{
regra
amplitude para estimação do desvio-
α/2 na cauda direita da distribuição
n=
da
devemos
sempre
104
unidade 6
ESTATÍSTICA E PROBABILIDADES
CÁLCULO DE TAMANHO DE AMOSTRA BASEADO EM INTERVALOS DE
confiança e margem de erro máxima de cinco centímetros. Sabendo que nos anos anteriores o desvio-padrão da altura dos
CONFIANÇA PARA UMA MÉDIA – POPULAÇÃO FINITA Nos
tópicos
anteriores
recrutas era de 30 centímetros, o sargento utilizou a equação 4 para determinar o
tamanho
da
amostra
necessária,
encontrando o valor 139 (maior que o total
apresentamos
de novos recrutas):
uma fórmula alternativa para o cálculo
n=
do tamanho amostral para estimativa de uma proporção populacional, no caso
{ 1,965x 30 }
2
n = 139
de populações finitas. Da mesma forma, para calcular o tamanho amostral para
Sem entender o que havia feito de errado, o
estimativa de uma média populacional, no
sargento decidiu conversar com um soldado
caso de populações finitas, existe também
que tinha conhecimento de estatística para
um fator de correção. A equação abaixo
auxiliá-lo. O soldado informou então que,
apresenta o método correto para essas
neste caso, o sargento deveria utilizar a
situações:
equação 5, que leva em consideração o tamanho populacional. Utilizando o método
Equação 5: Tamanho de amostra
adequado, o sargento decidiu, portanto, que
exigido para estimativa de uma média
para estimar a altura média dos 100 novos
populacional – população finita
recrutas, com 95% de confiança e margem
n=
de erro máxima da estimativa de cinco cm,
Nσ2 (Zα/2)2
era necessária uma amostra de 59 recrutas:
(N - 1) E2 + σ2(Zα/2)2
n=
100 x 302 (1,96)2 (100 - 1) x 52 +302 x (1,96)2
Exemplo 10 Suponha que o exército brasileiro deseje encomendar uma remessa de uniformes para os novos recrutas. Para melhor adequação dos tamanhos dos uniformes, o sargento decidiu obter uma estimativa da altura média deles. Dos 100 novos recrutas, o sargento deseja obter a estimativa a partir de uma amostra com 95% de
105
unidade 6
n = 58,3 ˜ 59
ESTATÍSTICA E PROBABILIDADES
PLANEJAMENTO DE
como uma característica da qualidade do
EXPERIMENTOS O
planejamento
de
produto (ou processo). O planejamento de experimentos pode ser definido assim:
experimentos,
também conhecido como DOE (Design of
Um experimento é um procedimento no
Experiments), é um conjunto de técnicas
qual alterações propositais são feitas
estatísticas que visa garantir uma coleta
nas variáveis de entrada de um processo
de dados eficiente para uma análise de
ou sistema, de modo que se possa
dados que seja informativa e confiável. Esse
avaliar as possíveis alterações sofridas
conjunto de técnicas tem vasta utilização
pela variável resposta como também as
em diversas áreas do conhecimento, desde
razões destas alterações (WERKEMA &
ciências ligadas à saúde até as engenharias.
AGUIAR, 1996).
Em engenharia, especialmente, o DOE é utilizado principalmente em Pesquisa e
Todo processo ou sistema é impactado
Desenvolvimento, ou na área de qualidade e
pelos insumos e por um conjunto de fatores.
desenvolvimento do produto.
O objetivo do DOE é identificar quais são os fatores que atuam sobre o processo, quais
O propósito dos experimentos planejados,
desses fatores são controláveis e, dentre os
estatisticamente, é tornar a análise de
controláveis, qual a relação que têm com o
dados tão informativa quanto possível.
resultado do processo ou a característica
Experimentos
de
que
tenham
sido
mal
qualidade
de
interesse.
A
figura
planejados fornecem pouca ou nenhuma
abaixo ilustra essa situação, podem estar
informação útil, mesmo com sofisticadas
aturando sobre o sistema os insumos, os
técnicas de análise de dados, e podem levar,
equipamentos, as informações do processo,
inclusive, à conclusões completamente
as condições ambientais, as pessoas, os
equivocadas.
métodos e os procedimentos:
Em engenharia, o DOE é utilizado em conjunto com outras técnicas estatísticas, como as cartas de controle de processos, por exemplo, ou combinado ao ciclo PDCA. Nesses casos o objetivo é, normalmente, estudar os efeitos de possíveis fatores sobre o resultado de um processo, expresso
106
unidade 6
ESTATÍSTICA E PROBABILIDADES
FIGURA 33 - Modelo geral de um processo ou sistema Fatores de ruído (não controláveis)
Entradas
SISTEMA
Y Varíaveis resposta
(PRODUTO/PROCESSO
(Características de Qualidade)
Fatores controláveis (especificados pelo pesquisador) Fonte: WERKEMA & AGUIAR, p.15, 2006. Adaptado.
Considere uma situação em que se deseja estudar a resistência à compressão de um concreto. O engenheiro civil identificou que existem quatro tipos de técnicas de mistura desse concreto e ele acredita que a resistência à compressão resultante varia conforme a técnica de mistura utilizada. O objetivo do engenheiro é determinar qual a técnica produzirá o concreto com maior resistência. Com esse objetivo, decidiu produzir uma série de corpos de prova, utilizando cada uma das quatro técnicas e medindo a resistência à compressão desses concretos. A resistência média seria utilizada para determinar qual seria a melhor técnica de mistura. Analisando o experimento com mais cautela, o engenheiro detectou várias questões que deveriam ser respondidas antes do início da coleta de dados: existem apenas essas quatro técnicas de mistura ou existem outras? Por que foram escolhidas estas quatro técnicas? Existem outros fatores que possam afetar a resistência à compressão do concreto? Quantos corpos de prova devem ser produzidos com cada técnica? De que modo os corpos de prova devem ser alocados às diferentes técnicas de mistura? Qual método de análise de dados deve ser utilizado? Qual resistência à compressão deverá ser considerada significativa do ponto de vista prático? Em todo experimento, a forma de coleta dos dados é fundamental para interpretação dos resultados e, consequentemente, para confiabilidade do estudo. Suponha que nesse estudo
107
unidade 6
ESTATÍSTICA E PROBABILIDADES
sobre a resistência à compressão do
é resultado das diferenças inerentes aos
concreto tenham sido utilizados quatro
quatro tipos de cimento utilizados. Nesse
sacos de cimento, provenientes de quatro
caso, dizemos que o efeito da técnica de
fornecedores distintos, sendo alocados da
mistura foi confundido com o efeito do
seguinte maneira:
tipo de cimento. Vamos apresentar agora
Técnica de mistura 1 – cimento do fornecedor A
três princípios básicos do planejamento de experimentos que devem ser sempre utilizados. Estes princípios são: réplica,
Técnica de mistura 2 – cimento do
aleatorização e blocagem.
fornecedor B Técnica de mistura 3 – cimento do fornecedor C
As réplicas são repetições do experimento feitas
sob
as
mesmas
condições
experimentais. No exemplo que estamos
Técnica de mistura 4 – cimento do
considerando, uma réplica do experimento
fornecedor D
completo consiste em medir a resistência à compressão de um corpo de prova
Você concorda com esse procedimento?
produzido pela técnica de mistura 1, outro
Ao adotá-lo, o engenheiro assumiu que as
pela técnica 2, outro pela técnica 3 e outro
características do cimento dos diferentes
pela técnica 4. Se três corpos de prova
fornecedores são idênticas, ou que qualquer
foram
diferença entre os cimentos não exerceria
dizemos que foram produzidas três réplicas
influência sobre a resistência à compressão
do experimento (veja que teremos 3 x 4 = 12
dos corpos de prova. Entretanto, não
corpos de prova, mas apenas três réplicas).
produzidos
para
cada
técnica,
podemos tomar essa conduta, pois é bem provável que existam características
É muito importante que as réplicas sejam
específicas
que
produzidas sob as mesmas condições
à
experimentais. Isso significa que todos
poderiam
de
cada
impactar
na
fornecedor resistência
os demais fatores que possam exercer
compressão dos corpos de prova.
impacto sobre a característica resultante de Da maneira como o estudo foi conduzido
interesse devem ser mantidos constantes.
pelo engenheiro, quando forem obtidas as resistências à compressão médias de
O segundo princípio básico do DOE é a
cada técnica ele não será capaz de dizer
aleatorização. De acordo com esse princípio,
quanto da diferença observada é resultado
são definidos de maneira aleatória tanto a
da técnica de mistura utilizada e quanto
ordem de realização dos ensaios individuais
108
unidade 6
ESTATÍSTICA E PROBABILIDADES
do experimento, quanto a alocação de cada
realizar o experimento da seguinte maneira:
corpo de prova às respectivas condições
Cada pacote de cimento será utilizado
experimentais.
garante
para produzir um corpo de prova para cada
que o efeito dos fatores não controláveis
técnica de mistura. Nesse caso, cada bloco
sejam distribuídos igualmente ao longo de
é um pacote de cimento (fornecedor) que
todos os ensaios, evitando assim que haja
será utilizado para produzir quatro corpos
confusão do efeito desses fatores com o
de prova. A figura 34 ilustra como ficaria o
efeito dos fatores de interesse.
experimento. Cada retângulo vertical (azul
Esse
princípio
claro) é considerado um bloco enquanto No exemplo citado, suponha que os corpos
cada retângulo horizontal (azul escuro) é
de prova serão produzidos por operadores
um corpo de prova produzido por uma das
distintos e, como se sabe, a habilidade dos
quatro técnicas de mistura. Logo, para o
operadores pode influenciar a qualidade
cimento proveniente do fornecedor A, por
do concreto produzido. Logo, se todas as
exemplo, serão produzidos quatro corpos
amostras produzidas através da técnica de
de prova, um para cada técnica de mistura.
mistura 1 forem feitas pelo operador menos
Este procedimento é mais adequado que
experiente, poderemos estar continuamente
aquele proposto pelo engenheiro no início
colocando a técnica de mistura 1 em
da seção, em que cada pacote de cimento
desvantagem,
outras
seria utilizado para produção de quatro
técnicas de mistura. A distribuição aleatória
corpos de prova, utilizando uma única
da ordem de produção de cada corpo de
técnica de mistura.
em
relação
às
prova para cada operador atenuaria esse problema. O terceiro e último princípio básico é o princípio da blocagem. Chamamos de blocos
os
unidades
conjuntos
homogêneos
experimentais.
No
de
exemplo
considerado, os corpos de prova são produzidos com cimento de fornecedores distintos. Logo são bastante heterogêneos em relação a outros fatores além da técnica de mistura. Para resolver esse problema, podemos
109
unidade 6
ESTATÍSTICA E PROBABILIDADES
FIGURA 34 - Blocagem dos cimentos para cada tipo de técnica de mistura do concreto FORNECEDOR A
FORNECEDOR B
FORNECEDOR C
FORNECEDOR D
Téc. 1
Téc. 1
Téc. 1
Téc. 1
Téc. 2
Téc. 2
Téc. 2
Téc. 2
Téc. 3
Téc. 3
Téc. 3
Téc. 3
Téc. 4
Téc. 4
Téc. 4
Téc. 4
Fonte: Elaborado pelo autor
TERMINOLOGIA
BÁSICA
Agora que você já aprendeu quais são os princípios básicos do DOE, vamos aprender alguns termos comuns e muito úteis para o bom planejamento do experimento. Serão apresentados seis termos básicos, a saber: Unidade Experimental, Fatores, Níveis de um Fator, Tratamento, Ensaio e Variável Resposta (ou desfecho). Para melhor entendimento, vamos utilizar o exemplo sobre resistência à compressão do concreto, do tópico anterior, e definir cada termo. A Unidade Experimental é a unidade básica para a qual será feita a medida da resposta. No nosso exemplo, cada unidade experimental corresponde a um corpo de prova do concreto utilizado no estudo. Os Fatores são os tipos distintos de condições que são manipuladas as unidades experimentais. Ou seja, são as variáveis controláveis que podem exercer influência sobre a variável resposta. E desejamos conhecer essa influência. No exemplo citado temos um único fator: técnica de mistura. Os Níveis de um fator são os diferentes modos de presença de um fator no estudo considerado. No exemplo citado, os níveis do fator técnica de mistura são os diferentes tipos de técnica: Técnica 1, Técnica 2, Técnica 3 e Técnica 4. Podemos dizer, portanto, que nosso fator tem quatro níveis.
110
unidade 6
ESTATÍSTICA E PROBABILIDADES
Chamamos de Tratamento as combinações
um tratamento a uma unidade experimental,
específicas dos níveis de diferentes fatores.
realizamos um ensaio. No nosso exemplo
Quanto temos apenas um fator, como no
sobre a resistência à compressão do
nosso exemplo, os tratamentos são os
concreto, cada ensaio consiste em produzir
próprios níveis dos fatores, Tratamento
um corpo de prova utilizando determinada
1 = Técnica 1, Tratamento 2 = Técnica 2,
técnica de mistura do concreto.
Tratamento 3 = Técnica 3 e Tratamento 4 = No exemplo sobre os métodos de pintura de
Técnica 4.
para-choques automotivos, um ensaio seria desejar
aplicar um tratamento em uma unidade
estudar dois ou mais fatores com diferentes
experimental (para-choque), por exemplo,
níveis. Nesses casos, os tratamentos
pintar um para-choque por Imersão usando
seriam a combinação de cada nível do fator
tinta A.
Em
alguns
estudos
podemos
1 com cada um dos diferentes níveis do fator 2. Suponha que um engenheiro deseja
Por fim, o termo Variável Resposta, você
estudar o efeito de dois métodos de pintura
já conheceu nas unidades anteriores,
de para-choques de automóveis (imersão e
nada mais é que o resultado de interesse
aspersão) e de três tipos de tinta (A, B e C)
registrado após a realização de um ensaio.
sobre a força de adesão da tinta.
No exemplo sobre as técnicas de mistura do concreto, a variável resposta é a resistência
Aqui, o fator 1 seria o método de pintura,
à compressão do corpo de prova produzido
que tem dois níveis (Imersão e Aspersão) e
com cada uma das técnicas de mistura. Já
o fator 2 seria o tipo de tinta, que tem três
no exemplo sobre os métodos de pintura
níveis (A, B e C). Para esse estudo, teríamos
de para-choques automotivos, a variável
2x3=6 tratamentos, a saber: T1 = Imersão +
resposta é força de adesão da tinta sobre o
Tinta A, Imersão + Tinta B, Imersão + Tinta
para-choque, medida após a aplicação da
C, Aspersão + Tinta A, Aspersão + Tinta B
tinta com cada método de aplicação e tipo
e por fim, Aspersão + Tinta C. Observe que
de tinta.
a unidade experimental seria cada um dos para-choques sobre os quais aplicaríamos os distintos tratamentos. Definimos como Ensaio cada realização do experimento em uma determinada condição de interesse (tratamento), ou seja, ao aplicar
111
unidade 6
ESTATÍSTICA E PROBABILIDADES
T2=médio e T3 = Alto.
APLICAÇÃO
PRÁTICA
Ensaio: Um ensaio seria secar uma trouxa de roupa utilizando temperatura baixa, por exemplo. Outro ensaio seria secar outra
Considere que você tenha uma máquina de
trouxa de roupa utilizando temperatura alta.
secar roupas que trabalha com diferentes níveis de temperatura e deseja determinar o
Variável resposta: A variável resposta
efeito do nível de temperatura sobre o tempo
desse estudo é o tempo para secagem das
de secagem das roupas.
roupas, que pode ser medido em minutos, por exemplo.
a) Defina para essa situação cada um dos seis termos básicos.
b) Para este estudo, uma réplica seria secar umas três trouxas de roupa, sendo uma
b) O que seria uma réplica nesse estudo?
para cada nível de temperatura da secadora,
c) Descreva um viés de amostragem que
poderia
ser
resolvido
ou seja, um ensaio para cada um dos
pela
aleatorização.
tratamentos existentes. c) A temperatura ambiente poderia ser um fator,
d) Descreva um viés de amostragem que
de maneira que, caso realizássemos todos
poderia ser resolvido pela blocagem.
os ensaios com tratamento 1 (temperatura baixa) no período manhã (normalmente mais
SOLUÇÂO:
frio) e todos os ensaios com tratamento
a) U nidade Experimental: Cada trouxa de
3 (temperatura alta) no período da tarde
roupa molhada que será introduzida para
(normalmente mais quente), por exemplo,
secagem.
no final não saberíamos dizer quanto da diferença no tempo de secagem é devido
Fator: O fator, nesse caso, é a temperatura
aos diferentes níveis de temperatura da
de operação da máquina de lavar.
máquina, e quanto é devido à variação
Níveis do fator: Os níveis do fator são
da temperatura ambiente. Aleatorizando
as diferentes faixas de temperatura da
a
secadora, podendo ser Baixo, Médio e Alto,
atenuaríamos esse problema.
por exemplo.
ordem
de
realização
dos
ensaios
d) Diferentes tipos de roupa poderiam ser um
Tratamento: Como estamos trabalhando
problema, uma vez que roupas com malhas
com um único fator, os níveis do fator
mais grossas levam um tempo maior para
são o próprio tratamento, logo, T1=baixo,
secar do que outras. Devem-se agrupar as
112
unidade 6
ESTATÍSTICA E PROBABILIDADES
roupas por características semelhantes de fabricação, como leveza do pano, tamanho das peças. A quantidade das mesmas também deve ser controlada para que cada ensaio seja feito de forma mais homogênea possível. Por exemplo, se tiver disponível três peças de moletom, deve-se alocar uma a cada trouxa de roupas, ou se tiver seis peças jeans, deve-se alocar duas para cada trouxa de roupas.
REVISÃO Nesta unidade você aprendeu que, para calcular o tamanho amostral, diversos fatores devem ser levados em consideração. Em especial você aprendeu a calcular o tamanho amostral em quatro situações: quando o objetivo do estudo é a estimativa de uma proporção populacional, sendo o tamanho populacional finito ou “infinito”. E quando o objetivo do estudo é a estimativa de uma média populacional, novamente, sendo o tamanho populacional finito ou “infinito”. O quadro abaixo resume essas situações: QUADRO 4 - Equações para cálculo de tamanho amostral segundo objetivos do estudo Estimar uma proporção populacional
Estimar uma média populacional
População Infinita: Equação 1 n=
População Infinita: Equação 3 Zα/2Ợ 2 n= E
(
ˆˆ Zα/2 pq E2
População Finita: Equação 2 n=
)
População Finita: Equação 4
ˆˆ (Zα/ )2 Nqp 2
n=
ˆˆ (Zα/ )2 + (N - 1) E2 pq 2
Nσ2 (Zα/2)2
(N - 1) E2 + σ2(Zα/2)2
Fonte: Elaborado pelo autor.
Você aprendeu também que em qualquer área do conhecimento a coleta de dados deve ser sempre precedida pelo planejamento do experimento. Essa prática assegura a confiabilidade dos resultados e simplifica os métodos de análise. Por outro lado, a não observância dessa prática inviabiliza a utilização dos resultados a despeito de qualquer técnica estatística, por mais sofisticada que seja. Neste sentido, os princípios básicos que você aprendeu foram: réplica, aleatorização e
113
unidade 6
ESTATÍSTICA E PROBABILIDADES
blocagem. E também os seis termos básicos utilizados de
em
qualquer
experimentos,
a
planejamento
saber:
Unidade
Experimental, Fatores, Níveis de um fator, Tratamento, Ensaio e Variável Resposta.
Ou você pode ler o capítulo 1 do livro: WERKEMA, Maria Cristina Catarino; AGUIAR, Silvio. Planejamento e análise de experimentos: Como
Identificar
as
principais
variáveis
influentes em um processo. Belo Horizonte: Fundação Cristiano Ottoni, Escola de Engenharia
PARA SABER
da UFMG, 1996.
MAIS
Se você tem interesse em aprender mais sobre o cálculo do tamanho de amostra para estimação de médias ou proporções, levando em consideração o nível de confiança e margem de erro da estimativa, leia o capítulo 8 do livro: MONTGMOMERY, Douglas C. George C. Runger. Estatística
aplicada
e
probabilidade
para
engenheiros. trad e rev téc Verônica Calado - Rio de Janeiro: LTC, 2009. Para este assunto você pode ler também o capítulo 7 do livro: TRIOLLA, Mario F. Introdução à Estatística: Atualização da tecnologia. trad e rev téc Ana Maria Lima de Farias, Vera Regina Lima de Farias e Flores. Rio de Janeiro: LTC, 2013. Se você tem interesse em aprofundar sobre Planejamento de Experimentos, leia o capítulo 13 do livro: MONTGMOMERY, Douglas C. George C. Runger. Estatística
aplicada
e
probabilidade
para
engenheiros. trad e rev téc Verônica Calado. Rio de Janeiro: LTC, 2009.
114
unidade 6
UNIDADE
TESTES DE
HIPÓTESES
O
teste de hipóteses é uma técnica estatística utilizada para avaliar alguma afirmação feita sobre uma população de interesse através de dados amostrais. Por exemplo: um engenheiro pode estar interessado em avaliar a hipótese de que
o tempo de duração de um fusível seja de 1.000 horas, contra a hipótese de que tal valor seja diferente de 1.000 horas. Essa seria uma afirmação sobre uma média, uma vez que a variável de interesse – tempo de duração – é quantitativa. Nesse caso, o objetivo é testar se a hipotética média de 1.000 horas é verdadeira. No exemplo em questão, seria impraticável observar o tempo de duração de todos os fusíveis fabricados, ou seja, da população de interesse. De forma que é necessária a utilização de dados amostrais. O engenheiro poderia selecionar alguns fusíveis, calcular o valor da média e comparar com o valor proposto de 1.000 horas. Você irá aprender que, além de avaliar afirmações sobre médias, as hipóteses estatísticas também podem ser testadas para outros parâmetros de interesse, como proporções (em caso de variáveis categóricas), desvio-padrão, medianas, etc.
116
unidade 7
ESTATÍSTICA E PROBABILIDADES
A CONSTRUÇÃO E O SIGNIFICADO DE UMA
representada por H1 ou Ha.
HIPÓTESE ESTATÍSTICA
Exemplo 7.1
Uma
ser
Um fabricante afirma que o tempo médio
construída a partir de alguma teoria sobre
de secagem da tinta de sua marca é de 30
determinado
de
minutos. Uma pessoa decide testar se essa
alguma afirmação sobre certo parâmetro
afirmação é verdadeira. Para isso, marca o
da população em análise. No caso do
tempo de secagem de 40 paredes e depois
engenheiro interessado em testar se o
calcula a média. Quais seriam as hipóteses
tempo médio de duração de um fusível é
nula e alternativa?
hipótese
estatística
assunto,
ou
pode através
1.000 horas, a hipótese não se deu através de uma teoria, mas possivelmente em
SOLUÇÃO: A hipótese nula é o tempo de secagem, igual
função da experiência dele com o assunto.
a 30 minutos. Um teste estatístico tem como objetivo o fornecimento de evidências para subsidiar a decisão de rejeitar ou não rejeitar uma hipótese sobre algum parâmetro de uma população através de dados obtidos por uma amostra.
A hipótese alternativa é o contrário (ou o complemento): o tempo de secagem é diferente de 30 minutos. As hipóteses são representadas da seguinte forma: H0: μ = 30 minutos
A afirmação sobre a média populacional é tida como a hipótese nula. Damos o nome de hipótese alternativa à afirmação contrária à da hipótese nula.
H1: μ ≠ 30 minutos Além da definição acerca das hipóteses, o nível de significância também deve ser escolhido pelo analista.
CONCEITO
CONCEITO
Hipótese nula: Refere-se a uma afirmação do
Nível de significância: Consiste na probabilidade
que queremos provar sobre algum parâmetro.
de rejeitar a hipótese nula, dado que ela é
Geralmente representada por H0.
verdadeira. Geralmente é representado pela letra
Hipótese alternativa: Refere-se a uma afirmação contrária ao que queremos provar. Geralmente
grega alfa (α). O nível de significância também é conhecido como erro tipo I.
117
unidade 7
ESTATÍSTICA E PROBABILIDADES
Qual seria o significado da expressão “...
variável assume. No segundo caso são
rejeitar a hipótese nula, dado que ela é
comparados os valores de média ou
verdadeira”? Assim como no exemplo do
proporção entre dois grupos. Além disso,
tempo de duração do fusível, em que o
podemos
analista resolve testar se a afirmação de
bilaterais. O próximo tópico aborda o teste
que o fusível sobrevive por 1.000 horas,
bilateral com uma amostra.
fazer
testes
unilaterais
ou
a operacionalização do teste ocorre a partir de dados amostrais. Nesse caso, pode ser obtida uma amostra muito ou pouco parecida com a população. Tanto
TESTES PARA
UMA AMOSTRA
no primeiro como no segundo caso existem
probabilidades
associadas.
A distribuição da estatística de teste
Existem chances de coletar uma amostra
tende para o formato de uma distribuição
que dê evidências de que a hipótese seja
normal quando o tamanho da amostra é
rejeitada, mesmo quando, na verdade,
relativamente grande (geralmente maior
a hipótese seja verdadeira. O analista
ou igual a 30). Se o tamanho da amostra
sempre corre o risco de tomar uma
for pequeno (menor do que 30) e o desvio-
decisão equivocada no que se refere à
padrão for desconhecido, a distribuição da
rejeição ou não da hipótese nula, cabendo
estatística de teste apresenta formato mais
a ele escolher quanto risco aceita correr.
próximo da distribuição t de Student. Essa
Esse risco é conhecido como nível de
informação é importante porque definirá até
significância e geralmente é estipulado
que valor da estatística de teste a hipótese
em 10%, 5% ou 1%. Dessa forma, ao
deve ser rejeitada.
efetuar um teste de hipóteses com 5% de significância, podemos afirmar que exista 5% de probabilidade de rejeitar a hipótese nula, quando na verdade ela é verdadeira,
TESTES DE GRANDES AMOSTRAS PARA
tipo I.
UMA MÉDIA POPULACIONAL
Os testes de hipótese com afirmações
O exemplo a seguir consiste numa situação
sobre médias ou proporções podem ser
em que é feita uma afirmação acerca
feitos principalmente com uma ou duas
do valor de uma média (parâmetro mais
amostras. No primeiro caso é testada
testado quando trabalhamos com variáveis
uma afirmação sobre o valor que a
quantitativas).
ou seja, 5% de chance de cometer o erro
118
unidade 7
ESTATÍSTICA E PROBABILIDADES
Suponha que um profissional especializado
Exemplo 7.2 Uma indústria realiza o empacotamento do produto café em grãos. Um dos objetivos é que a embalagem contenha 500 gramas de café. É natural que em situações como essa exista alguma variação no peso do produto empacotado. Dessa forma, podem ter pacotes com 498 gramas, com 502 gramas, com 501 gramas, com 499 gramas, ou qualquer outro valor próximo do especificado. No
entanto,
a
indústria
geralmente
trabalha para que exista certa margem de aceitação tanto para cima quanto para baixo, devido aos seguintes fatores:
a) pacotes
com
volume
muito
em controle estatístico de processos resolva fazer esse teste. Nesse caso, o objetivo é testar a hipótese de que o processo esteja sob controle, ou seja, que o peso médio do café após empacotamento seja de 500 gramas. Para a operacionalização do teste, 36 pacotes foram inspecionados (pesados). Sabendo que a média obtida através dessa amostra foi de 502 gramas, e que o desviopadrão foi de 3 gramas, podemos afirmar que o processo está sob controle? Para operacionalizar esse teste, devemos seguir as seguintes etapas: 1ª etapa:
as
hipóteses
de
interesse
alto podem provocar aumento exagerado de custos;
Estabeleça
No caso em estudo, o parâmetro2 a ser
b) pacotes com peso muito abaixo
testado é a média. Temos o interesse em
dos 500 gramas podem provocar
verificar se ela é igual a 500 gramas. Então
sanções à indústria junto aos
devemos estabelecer as hipóteses nula e
órgãos de fiscalização.
alternativa. Dessa forma, as hipóteses são:
Para certificar de que o peso esteja
H0: μ = 500 gramas
dentro da margem aceitável, pode ser
H1: μ ≠ 500 gramas
inviável
verificar
todos
os
produtos
embalados (ou seja, toda a população de interesse). Nesse contexto, torna-se interessante utilizar amostras para testar se o processo encontra-se dentro de padrões aceitáveis, ou seja, para testar se o processo encontra-se sobre controle.
2 - Um parâmetro refere-se à determinada medida que caracterize a população de interesse. Os parâmetros mais frequentemente investigados através dos testes de hipóteses são: a média, o desvio-padrão, no caso de variáveis quantitativas e a proporção, no caso de variáveis categóricas.)
119
unidade 7
ESTATÍSTICA E PROBABILIDADES
Note que o teste refere-se à média
36, podemos trabalhar com a distribuição
populacional e não amostral. A média
normal padronizada. Nomeamos o valor
amostral será utilizada como base para
obtido da estatística de teste, que é
tomar a decisão sobre rejeição ou não
calculada de acordo com a fórmula abaixo:
rejeição da hipótese nula.
-μ Z = σx
2ª etapa: Obtenção da estatística de teste Essa
fórmula
permite
que
a
média
=
amostral obtida passe de qualquer escala
502 gramas. Será que esse valor foi obtido
(em gramas, no presente exemplo) para
em função da variabilidade amostral3 , ou
número de desvio-padrão. Isso possibilita
seja, o valor obtido de 502 gramas é próximo
traçar comparações com os valores de
do valor proposto de μ = 500 gramas? Para
probabilidade
respondermos a essa questão devemos
padronizada (em que a unidade de medida
verificar qual a probabilidade de obter o
é a quantidade de desvio-padrão). Sem
valor 502 gramas, levando em consideração
esse procedimento, essa comparação seria
O valor médio obtido pela amostra foi:
a
distribuição
das
médias
amostrais,
ou seja, a possibilidade de obtenção de resultados diferentes de amostra para amostra. Para isso, utilizamos a distribuição
pequena (geralmente menor do que 30) e o
normal
seguintes itens: Z: E score
da
distribuição
normal
padronizada
conhecido ou quando o tamanho da amostra ou acima de 30). Quando a amostra é
distribuição
pouco viável. A fórmula é composta dos
normal padronizada quando o valor de σ é é razoavelmente grande (geralmente igual
da
: Média obtida através da amostra μ: Valor da média populacional a ser testada σx: Valor do desvio-padrão da distribuição
desvio-padrão é desconhecido, utilizamos
das médias amostrais.
a distribuição t para avaliar a probabilidade
σ σx = √n
em questão. Como no presente exemplo temos uma amostra de tamanho igual a
Caso não se conheça o desvio-padrão 3 - A variabilidade amostral ocorre porque existem chances de tomarmos tanto amostras parecidas com a população de interesse quanto amostras pouco semelhantes à população. Qualquer processo de amostragem sujeita-se a essa situação. Cabe ao pesquisador levar esse fato em consideração ao construir um teste de hipóteses
populacional σ (situação muito comum), podemos utilizar o desvio-padrão obtido através da amostra:
120
unidade 7
σ sx = √n
ESTATÍSTICA E PROBABILIDADES
Dessa forma, a estatística de teste passa a ser: -μ Z = s/√n Com os dados do problema, temos então: Z=
502 - 500 = 4,0 s/√36
O número obtido significa que 502 gramas encontram-se a 4,0 desvios-padrão de distância da média populacional de 500 gramas. Mas esse valor é perto ou longe da média populacional? • Quando Z = 0, pode-se afirmar que a média amostral é exatamente igual ao valor hipotético da média populacional. • Quando Z = 1, a probabilidade do valor da média amostral ter sido obtido devido à flutuação amostral é de aproximadamente 34%, pois 68% dos dados encontram-se a até um desvio-padrão de distância da média, conforme a figura 8.1 FIGURA 8.1: Área da distribuição normal padronizada de acordo com o número de desvios-padrão.
Fonte: TRIOLA, 2013, p. 88.
121
unidade 7
ESTATÍSTICA E PROBABILIDADES
• Quando Z = 2, a probabilidade do valor da média amostral ter sido obtido devido à flutuação amostral é de aproximadamente 5%, pois 95% dos dados encontram-se a até um desvio-padrão de distância da média4. • Quando Z = 3, a probabilidade do valor da média amostral ter sido obtido devido à flutuação amostral é de aproximadamente 0,2%, pois 99,8% dos dados encontram-se a até um desvio-padrão de distância da média. Utilizando o mesmo raciocínio, com o valor de Z = 4,0, depreende-se que a probabilidade do valor da média amostral ter sido obtida devido à flutuação amostral seja bem menor que 0,2%. Dessa forma, o valor de Z = 4 significa que os 502 gramas obtidos pela amostra apresentam uma grande distância dos 500 gramas propostos na hipótese nula (a distância de 2 gramas corresponde a 4 desvios-padrão). O fato dos valores serem tidos como distantes implica na rejeição da hipótese nula. Para definir quais valores do escore Z são considerados altos, utiliza-se o desenho da distribuição normal padronizada, conforme o 3º passo. Os valores acima podem ser obtidos através de um software estatístico, ou pela tabela Z. 3ª etapa: Obtenção da região de rejeição Para tomar a decisão de rejeitar ou não a hipótese nula, podemos utilizar o diagrama da figura 8.2: FIGURA 8.2 - Regiões de rejeição da hipótese nula
Fonte: Elaborado pelo autor.
4 - Observe pela Figura 8.1 que 34% + 13,5% = 47,5%. Ao multiplicarmos esse valor por dois, obtemos os 95%.
122
unidade 7
ESTATÍSTICA E PROBABILIDADES
A figura 8.2 representa a distribuição normal
Devemos procurar na tabela o valor do nível
padronizada. A área em vermelho refere-
de significância dividido por 2, ou seja α⁄2,
se à região de rejeição da hipótese nula.
pois o teste é bilateral, o que implica em
Valores menores que - 1,96 desvios-padrão
duas regiões de rejeição (as caudas direita
ou maiores que + 1,96 desvios-padrão são
e esquerda da distribuição, conforme a
considerados demasiadamente afastados
figura 8.3). Observe que a combinação da
quando consideramos uma significância de
linha com a coluna gera o valor do escore
5% para o teste bilateral (ou seja, podemos
Z = 1,96. O número 1,96 foi obtido através
considerar que tais valores sejam pontos de
da combinação da coluna e linha formados
corte). Dessa forma, cada uma das áreas
pelo valor 0,0250 referente à área da cauda
em vermelho representa 2,5% dos dados. A
direita (ou esquerda) da distribuição normal
área total abaixo dos dados (soma da área
padronizada.
verde com a área vermelha) representa 100% dos dados. Quando o valor da estatística de teste encontra-se
na
região
em
vermelho,
consideramos pouco provável que a média amostral (ou outra estatística) tenha sido resultado das flutuações amostrais. Os valores críticos (- 1,96 e 1,96) foram obtidos pelo percentil 97,5 da tabela da distribuição normal padronizada. Podem ser calculados também através de softwares estatísticos. A figura 8.3 indica de onde os dados foram obtidos.
123
unidade 7
ESTATÍSTICA E PROBABILIDADES
FIGURA 8.3 - Distribuição normal padrão
Fonte: BARBETTA, 2010, p. 377
124
unidade 7
ESTATÍSTICA E PROBABILIDADES
4ª etapa: Conclusão
2ª etapa: Obtenção da estatística de teste -μ Z = s/√n
Com base nos valores obtidos pela estatística de teste e pela região de rejeição, tomamos uma decisão em relação à hipótese nula.
Com os dados do problema, temos então:
No caso em questão, a decisão é rejeitá-la,
Z=
pois o valor 4 desvios-padrão (relativo aos 2 gramas de distância entre a média amostral e a média populacional proposta na hipótese
3ª etapa: Obtenção da região de rejeição
nula) pode ser considerado muito longe da média, uma vez que se encontra na parte vermelha do diagrama. A estatística de teste no valor de 4,00 é maior do que o valor crítico de + 1,96 (número obtido na tabela da Figura 8.3, que serve de referência para rejeição ou não rejeição da hipótese nula). Exemplo 7.3 Um processo foi delineado para fabricar bancadas
de
tamanho
igual
a
120
centímetros. Para verificar se o processo encontra-se sob controle, um especialista coletou uma amostra de 64 peças. Foi obtida uma média amostral
= 120,2
centímetros, com desvio-padrão s = 1,6 centímetros. Teste a hipótese de que o processo encontra-se sob controle, ou seja, que a média populacional μ seja igual a 120 centímetros. Use significância de 10%. 1ª etapa:
Estabeleça
as
hipóteses
120,2 - 120,0 = 1,0 1,6/√64
de
interesse H0: μ = 120 centímetros H1: μ ≠ 120 centímetros
125
unidade 7
ESTATÍSTICA E PROBABILIDADES
FIGURA 8.4 - Regiões de rejeição da hipótese nula.
Fonte: Elaborado pelo autor.
O valor crítico de 1,645 positivo (ou negativo) foi obtido pela combinação da linha e coluna relativas à área igual a 0,050 (0,100 dividido por 2)5 da tabela da distribuição normal padrão da figura 8.4.
5 - O valor 0,10 refere-se aos 10% escolhidos como nível de significância pelo pesquisador. Tal valor consiste na probabilidade de rejeitar a hipótese nula, dado que ela é verdadeira, ou seja, probabilidade de tomar uma decisão equivocada em relação à hipótese.
126
unidade 7
ESTATÍSTICA E PROBABILIDADES
FIGURA 8.5 - Distribuição normal padrão
Fonte: BARBETTA, 2010, p. 377
127
unidade 7
ESTATÍSTICA E PROBABILIDADES
4ª etapa: Conclusão
a hipótese de que a média seja igual a 10 milímetros. Use significância de 5%.
Como o valor de Z = 1,00 obtido pela estatística de teste não supera a valor
1ª etapa:
nula. Não podemos descartar a hipótese de que a média seja 120 centímetros. Portanto, há indícios de que o processo encontra-se sob controle.
as
hipóteses
de
interesse
crítico de 1,645, ou seja, não pertence à região crítica, não rejeitamos a hipótese
Estabeleça
H0: μ = 10 milímetros H1: μ ≠ 10 milímetros 2ª etapa: Obtenção da estatística de teste Nesse caso, devemos utilizar o escore t no lugar do Z:
TESTES DE HIPÓTESES
PARA AMOSTRAS PEQUENAS
Com os dados do problema, temos então:
Nos exemplos 7.2 e 7.3 as amostras têm tamanho maior que 30. Quando a amostra for pequena (menor do que 30) e o desviopadrão for desconhecido (situação mais frequente), devemos utilizar a Distribuição t de Student para realizar o teste.
t=
- μ = 10,2 - 10,0 0,2/√16 = 4,0 s/√n
3ª etapa: Obtenção da região de rejeição Nesse caso, devemos trabalhar com a distribuição t:
O exemplo 7.4 consiste num problema de teste de média em que a amostra é pequena e o desvio-padrão (σ) é desconhecido. Exemplo 7.4 Um engenheiro acredita que um processo esteja sob controle produzindo esferas com 10 milímetros de diâmetro. Foi coletada uma amostra com 16 esferas cujo o valor obtido para a média foi X ̅ = 10,2 milímetros e desvio-padrão s = 0,20 milímetros. Teste
128
unidade 7
ESTATÍSTICA E PROBABILIDADES
FIGURA 8.6 - Distribuição t de Student
Fonte: Elaborado pelo autor.
Para saber o valor crítico, devemos consultar a tabela t. Como a amostra conta com 16 elementos, temos 15 graus de liberdade. Como o nível de significância é igual a 5%, devemos procurar o escore t na coluna do 0,05 (área em duas caudas, pois o teste é bilateral)
129
unidade 7
ESTATÍSTICA E PROBABILIDADES
FIGURA 8.7 - Tabela da Distribuição t
Fonte: TRIOLA, 2013, p. 614.
4ª etapa: Conclusão Como o valor 4,0 obtido pela estatística de teste supera a valor crítico 2,13 obtido pela distribuição t, rejeitamos a hipótese de que a média seja de 10 milímetros. Portanto, o processo encontra-se fora de controle.
130
unidade 7
ESTATÍSTICA E PROBABILIDADES
TESTE PARA
firma ficam estressados quando fazem
UMA PROPORÇÃO
horas extras durante a madrugada.
Quando
variáveis
trabalhadores, dos quais 12 afirmaram
quantitativas, o principal parâmetro de
se estressar nessa situação. Teste a
interesse costuma ser a média. Além da
hipótese de que a proporção seja de
média, outros parâmetros também podem
30%. Use significância de 5%.
trabalhamos
com
Foi coletada uma amostra com 49
ser testados, como, por exemplo, o desviopadrão. No caso de variáveis categóricas,
1ª etapa:
Estabeleça
as
hipóteses
de
interesse
geralmente a medida de interesse a ser testada é uma proporção.
H0: π = 0,30 No teste de hipóteses, o valor do erro padrão
H1: π ≠ 0,30
da proporção geralmente está baseado no uso do valor hipotético:
Sp =
Observação
Enquanto
a
média
é
representada pela letra μ, a proporção é
√π (1n -π)
representada pela letra grega π (pi).
A fórmula para o cálculo de Z para testar uma hipótese voltada para o valor da proporção da população é: Z=
1:
Observação 2: Para representarmos os 30% propostos na hipótese nula, utilizamos a escala decimal. Dessa forma, o valor utilizado nos cálculos é 0,30 (ou seja, 30 dividido por 100).
p-π Sp
2ª etapa: Obtenção da estatística de teste O exemplo 7.5 consiste num teste de proporção.
Antes de obtermos o escore padronizado Z, devemos calcular o desvio-padrão da proporção populacional, dado pela fórmula
Exemplo 7.5
a seguir:
Um engenheiro acredita que 30% dos trabalhadores
de
uma
determinada
131
unidade 7
ESTATÍSTICA E PROBABILIDADES
Sp =
= √0,00428 = 0,0655 √π (1n -π) = √0,30 (149- 0,30) = √0,21 49
O escore padronizado então é: Z=
p-π 0,0655
=
0,2653 - 0,3000 - 0,0347 = = -0,53 0,0655 0,0655
3ª etapa: Obtenção da região de rejeição Como o teste é bilateral e com 5% de significância, obtemos através da tabela Z o valor crítico igual a - 1,96. FIGURA 8.8 - Distribuição normal padronizada
Fonte: Elaborado pelo autor.
4ª etapa: Conclusão O valor - 0,53, obtido pela estatística de teste, encontra-se fora da região de rejeição, sendo próximo de zero e longe do valor crítico de -1,96. Dessa forma, não rejeitamos a hipótese nula. Portanto, não há indícios de que a proporção de trabalhadores estressados na empresa estudada seja diferente de 30%. No próximo tópico você verá situações em que o pesquisador tem como interesse comparar os valores dos parâmetros de duas amostras.
132
unidade 7
ESTATÍSTICA E PROBABILIDADES
TESTES PARA DUAS OU
O numerador apresenta as médias das
MAIS AMOSTRAS
duas amostras, enquanto o denominador
Nos tópicos anteriores aprendemos a
padrão
delinear testes de hipóteses bilaterais
tamanhos de amostras. No exemplo 7.6 é
em que uma afirmação numérica é feita
feito um teste em que são comparadas as
sobre uma média ou uma proporção para
médias de duas amostras.
consiste na raiz da soma dos desviosdivididos
pelos
respectivos
uma amostra. Em algumas situações o pesquisador tem interesse em comparar
Exemplo 7.6
tais valores em dois grupos. Nesse caso, podemos afirmar que temos um teste
Um engenheiro resolveu comparar o tempo
de hipótese para a comparação de duas
de secagem de duas marcas diferentes de
médias ou de duas proporções.
tintas para determinado tipo de parede. Para a marca A foram verificados os tempos de secagem de 50 paredes. O tempo médio
TESTE PARA A COMPARAÇÃO DE DUAS MÉDIAS EM
obtido foi
A
= 80 minutos, com desvio-
padrão s1 = 6 minutos. Para a marca B, foram verificadas 40 paredes, com tempo
AMOSTRAS INDEPENDENTES
médio
B
= 88 minutos e desvio-padrão
s2 = 10 minutos. Teste a hipótese de que não existe diferença entre as médias. Use
Em várias situações devemos decidir se
significância 1%.
uma diferença observada entre as médias de dois grupos pode ser atribuída ao acaso
1ª Etapa:
Estabeleça
as
hipóteses
interesse
ou se há indícios de que os valores obtidos de fato provêm de populações com médias diferentes. Quando desejamos comparar as médias obtidas por duas amostras independentes,
utilizamos
estatística de teste:
Z=
a
seguinte
H0: μA = μB H1: μA ≠ μB 2ª Etapa: Obtenção da estatística de teste
1
√
-
2
s s22 + n1 n2 2 1
Aplicando a fórmula, temos:
133
unidade 7
de
ESTATÍSTICA E PROBABILIDADES
Z=
1
√
-
2
s s + n1 n2 2 1
2 2
=
80 - 88
√
6 10 + 50 40 2
2
=
√
-8
36 100 + 50 40
=
-8
-8
-8 = 1,7944 = -4,46 3,22
√0,72 + 2,5 √ =
3º Etapa: Obtenção da região de rejeição. FIGURA 8.9 - Regiões de rejeição da hipótese nula.
Fonte: Elaborado pelo autor.
O valor crítico de 2,33 positivo (ou negativo) foi obtido pela combinação da linha e coluna relativas à área igual a 0,005 (0,010 dividido por 2) da tabela da distribuição normal padrão. 4ª Etapa: Conclusão Como o valor de Z = - 4,46 é bem inferior ao valor crítico - 2,33, obtido pela tabela da distribuição normal padronizada, rejeitamos a hipótese nula. Não há indícios de que o tempo médio de secagem das tintas seja diferente.
TESTE PARA A COMPARAÇÃO
DE DUAS PROPORÇÕES Quando se deseja testar a hipótese de que as proporções em duas populações são iguais, o procedimento é análogo ao teste para a comparação de médias. A fórmula é a seguinte:
134
unidade 7
ESTATÍSTICA E PROBABILIDADES
ˆ1 - p ˆ2 p
√
Z=
p (1 - p) + p (1 - p) n1 n2
ˆ = x1 e p2 = x2 (proporções amostrais) Onde p n2 n1 x1 + x2 p = n1 + n2 (proporção amostral combinada)
Exemplo 7.7 Um especialista acredita que a proporção de trabalhadores com estresse ocupacional no turno da manhã seja estatisticamente diferente do turno da tarde. Uma amostra de 100 trabalhadores foi estudada, sendo 50 pela manhã e 50 a tarde. No turno da manhã contou-se 10 trabalhadores nessa situação. No turno da tarde contou-se 15. Teste a hipótese de que as proporções sejam diferentes nos respectivos turnos. Nível de significância: 5%. 1ª Etapa: Estabeleça as hipóteses de interesse H0: p1 = p2 H1: p1 ≠ p2 2ª Etapa: Obtenção da estatística de teste Aplicando a fórmula, temos: x1 + x2 10 + 15 25 p = n1 + n2 = 50 + 50 = 100 = 0,25 10 ˆ1 = p 50 = 0,20 15 ˆ2 = p 50 = 0,30
√
Z=
ˆ1 - p ˆ2 p
p (1 - p) + p (1 - p) n1 n2
√
- 0,10
0,25 (0,75) + 0,25 (0,75) 50 50
=
=
0,20 - 0,30
√
0,25 (1 - 0,25) + 0,25 (1 - 0,25) 50 50
- 0,10
√
0,0075
=
- 0,10 0,0866 = -1,15
135
unidade 7
=
ESTATÍSTICA E PROBABILIDADES
3º Etapa: Obtenção da região de rejeição. FIGURA 8.10 - Regiões de rejeição da hipótese nula.
Fonte: Elaborado pelo autor.
O valor crítico de 1,96 positivo (ou negativo) foi obtido pela combinação da linha e coluna relativas à área igual a 0,025 (0,050 dividido por 2) da tabela da distribuição normal padrão. 4ª Etapa: Conclusão O Z calculado de - 1,15 encontra-se fora da região crítica. Não rejeitamos a hipótese nula. Portanto, não há diferença na proporção de trabalhadores com estresse entre os turnos da manhã e tarde.
APLICAÇÃO
PRÁTICA
Os testes de hipótese são extremamente úteis na engenharia, principalmente no delineamento de experimentos. Em várias situações busca-se a otimização de processos. Espera-se que os insumos sejam combinados da melhor maneira possível, de forma a obter produtos de qualidade ao menor custo possível. Nesse contexto, diversos fatores podem determinar o sucesso de um processo de produção de produtos ou serviços. Num processo produtivo em que determinada mercadoria é embalada de forma manual por um trabalhador, diversos fatores (ou seja, diversas variáveis) exercem influência sobre o desempenho
136
unidade 7
ESTATÍSTICA E PROBABILIDADES
desse trabalhador, como, por exemplo, a
unidade focaram em testes bilaterais.
iluminação, a temperatura, o número de horas trabalhadas, e talvez até a altura de uma
Para definir o tipo de teste a ser utilizado,
bancada. Dessa forma, a execução de um
levamos em consideração o tamanho
experimento com diversas combinações de
da amostra e o conhecimento ou não do
valores que as variáveis possam assumir pode
desvio-padrão
ser útil para a otimização do processo. Por
desconhecemos o desvio-padrão e a
exemplo: o desempenho dos trabalhadores é
amostra tem tamanho inferior a 30,
melhor quando a temperatura de um galpão é
utilizamos o teste t. No caso de conhecer o
de 22 graus celsius, de 23 ou de 24? Como um
desvio-padrão populacional ou a amostra
experimento desse tipo depende da utilização
igual ou superior a 30, utilizamos o teste
de amostras, torna-se fundamental o uso
Z. O nome do teste ocorre em função
de testes de hipóteses para obtenção de
da distribuição da estatística de teste,
conclusões acerca do processo.
que é construída através do conjunto de
populacional.
Quando
possíveis amostras, o que é conhecido como distribuição amostral.
REVISÃO Nessa
unidade
aprendemos
os
Os testes podem ser utilizados para
fundamentos dos testes de hipóteses. O
verificar
principal objetivo deles é contrapor uma
amostra, sobre duas amostras ou sobre
hipótese de interesse, conhecida como
mais de duas amostras. Os dois primeiros
hipótese nula, a uma hipótese contrária,
casos foram abordados nessa unidade.
conhecida
como
hipótese
uma
afirmação
sobre
uma
alternativa,
em relação a um parâmetro de interesse
A grande utilidade do teste de hipóteses
(geralmente a média, no caso de variáveis
para o engenheiro ocorre no delineamento
quantitativas e a proporção, no caso de
de experimentos e no controle estatístico
variáveis categóricas).
de processos.
As hipóteses podem ser unilaterais ou bilaterais. No primeiro caso, a hipótese nula de igualdade contrapõe-se à hipótese alternativa, em que o sinal é de menor ou maior. No caso dos testes bilaterais, na hipótese alternativa temos o sinal de diferente. Todos os exemplos dessa
137
unidade 7
ESTATÍSTICA E PROBABILIDADES
PARA SABER
MAIS
LEVINE, David; BERENSON, Mark; STEPHAN, David. Estatística: teoria e aplicações - usando o Microsoft Excel em português. 6 ed. LTC, 2011, 812 p. MOORE, David. A estatística básica e sua prática. Rio de Janeiro: LTC, 2014. TRIOLA,
Mário.
Introdução
à
Estatística:
Atualização da Tecnologia. 11 ed. LTC, 2013. VitalBook file. Para uma fundamentação matemática mais aprofundada sobre o assunto, consulte a seguinte obra: MONTGOMERY, Estatística
Douglas;
aplicada
e
RUNGER,
George
probabilidade
para
engenheiros. 3 ed. Rio de Janeiro: LTC, 2009.
138
unidade 7
UNIDADE
ANÁLISE DE CORRELAÇÃO E
REGRESSÃO
A
o analisar um conjunto de dados, podemos ter interesse no relacionamento entre duas variáveis quantitativas. Dessa forma, poderíamos traçar o seguinte questionamento: um aumento no valor da variável X se relaciona a um aumento
na variável Y? Qual seria a magnitude dessa relação? As técnicas de análise de correlação e análise de regressão podem ser utilizadas para estudos desse tipo.
A relação entre variáveis quantitativas pode ser modelada através de análise de correlação e regressão. Com a evolução da informática nos últimos 20 anos, essas técnicas têm sido cada vez mais utilizadas no ambiente empresarial. Nesta unidade, você aprenderá a desenvolver cálculos para correlação e regressão tanto passo a passo como através do software Microsoft Excel.
140
unidade 8
ESTATÍSTICA E PROBABILIDADES
ANÁLISE DE
CORRELAÇÃO Quando temos interesse em investigar o quanto duas variáveis quantitativas estão associadas, podemos utilizar uma medida conhecida como coeficiente de correlação.
CONCEITO O coeficiente de correlação mede o grau de intensidade do relacionamento linear entre duas variáveis quantitativas.
DIAGRAMA DE
DISPERSÃO Antes de calcular a correlação entre duas variáveis, é interessante representar os dados num diagrama de dispersão.
CONCEITO Diagrama de dispersão: Consiste na representação gráfica de duas variáveis quantitativas no plano cartesiano.
A figura 8.1 se refere a uma pesquisa com anúncios de vendas de 58 imóveis. As variáveis são: ÁREA DO IMÓVEL (em metros quadrados) e VALOR DO IMÓVEL (em R$ mil).
141
unidade 8
ESTATÍSTICA E PROBABILIDADES
FIGURA 8.1 - Área do imóvel x valor do Imóvel 800
Valor do imóvel (R$ mil)
700 600 500 400 300 200 100 0
50
100
150
200
250
300
Área (em metros quadrados) Fonte: Elaborado pelo autor
Através do gráfico de dispersão é possível visualizar graficamente alguns aspectos relativos ao comportamento conjunto das variáveis, como: direção, forma e força da relação. No que se refere à direção, a figura 8.1 apresenta indícios de que as variáveis (ÁREA e VALOR) estejam positivamente relacionadas, ou seja, parece que a direção é ascendente. Há situações em que as variáveis apresentam associação negativa6 como por exemplo o PREÇO e a QUANTIDADE DEMANDADA (para a maioria das mercadorias, quanto maior o preço, menor a quantidade demandada). Em relação à forma, na figura 8.1 podemos observar que a relação entre as variáveis parece ser linear. Observe a reta que resume a associação. Existem situações em que duas variáveis se encontram associadas, porém de forma não linear, como na figura 8.2.
6 - Associação negativa: Duas variáveis apresentam associação negativa quando o crescimento de uma se associa à diminuição da outra, ou o contrário, a queda em uma se associa ao acréscimo da outra.
142
unidade 8
ESTATÍSTICA E PROBABILIDADES
FIGURA 8.2 - Relação não linear entre as variáveis X e Y 80 70 60 Y
50 40 30 20 10 0 0
5
10
15
20
X Fonte: Elaborado pelo autor
Outro aspecto de grande importância ao observar o diagrama de dispersão é a força da relação. Na figura 8.1, o VALOR DO IMÓVEL se relaciona à ÁREA, mas a intensidade da relação não parece tão extrema. A figura 8.3 mostra um diagrama de dispersão onde as variáveis apresentam ausência de relação. FIGURA 8.3: Ausência de relação entre as variáveis X e Y 15 14 14
Y
13 13 12 12 11 11 10 0
5
10 X
Fonte: Elaborado pelo autor
143
unidade 8
15
20
ESTATÍSTICA E PROBABILIDADES
O grau de intensidade da relação linear entre duas variáveis quantitativas é dado pelo coeficiente de correlação de Pearson.
COEFICIENTE DE
CORRELAÇÃO DE PEARSON O coeficiente de correlação linear de Pearson consiste na medida do grau de intensidade da relação linear entre duas variáveis quantitativas, podendo assumir valores entre -1 e 1. Podemos afirmar que duas variáveis estão positivamente correlacionadas se elas caminham no mesmo sentido, ou seja, quando uma delas aumenta de valor, o valor da outra também aumenta. Nesse caso, quanto mais próxima de 1, maior a intensidade da associação entre as variáveis.
Quando as variáveis caminham em sentidos opostos, dizemos que elas
estão negativamente correlacionadas. Quanto mais próxima de -1, maior a intensidade da associação, porém a relação é inversa. É importante destacar que o fato de duas variáveis estarem associadas não significa, necessariamente, que exista uma relação de causa e efeito. Por exemplo: geralmente crianças mais novas apresentam menor peso, entretanto isso não significa que o envelhecimento causa aumento de peso. É mais provável que a criança aumente o peso pelo fato de aumentar a altura. A análise de correlação tem objetivo exploratório servindo como elemento auxiliar na análise da relação entre variáveis. Dessa forma, em muitas ocasiões o estudo da correlação é utilizado como um recurso a mais na análise dos dados. O coeficiente de correlação de Pearson é dado pela fórmula: Cor ( X, Y ) = r =
∑ ( x -x ) ( y - y ) sxsy ( n - 1)
O numerador da fórmula se refere ao somatório do produto dos desvios da variável X e da variável Y em relação às suas respectivas médias. No denominador, encontra-se o produto dos desvios padrão de cada uma das duas variáveis multiplicado pelo tamanho da amostra menos uma unidade.
144
unidade 8
ESTATÍSTICA E PROBABILIDADES
Exemplo 8.1 (adaptado de HINES et al, 2006) Um engenheiro químico está estudando o efeito da temperatura de operação do processo sobre o resultado da produção. O estudo resultou nos seguintes dados:
X - Temperatura (º Celsius) 100 110 120 130 140 150 160 170 180 190 Y - Resultado (porcentagem) 45 51 54 61 66 70 74 78 85 89
Calcule o coeficiente de correlação entre as variáveis. Solução: Ao realizar uma análise de correlação, é interessante construir o diagrama de dispersão para ter uma ideia sobre a associação entre as variáveis: FIGURA 8.4 - Resultado do processo (em %) em função da temperatura (em °C) 100 90 Y - Resultado (%)
80 70 60 50 40 30 20 10 0 0
50
100
150
200
X - Temperatura (º C) Fonte: HINES et al (2006), pag.369
A figura 8.4 apresenta indícios de que as variáveis estão fortemente associadas. Para confirmar essa suspeita, podemos calcular o coeficiente de correlação, conforme a tabela 8.1:
145
unidade 8
ESTATÍSTICA E PROBABILIDADES
TABELA 8.1 - Dados para o cálculo do coeficiente de correlação entre temperatura (X) e resultado (Y) X Y 100 45 110 51 120 54 130 61 140 66 150 70 160 74 170 78 180 85 190 89 Média (X) = 145 Média (Y) = 67,3 Desv. Pad (X) = 30,3 Desv. Pad (Y) = 14,7
(𝑥𝑥 𝑖𝑖 − 𝑥𝑥 ) 100 - 145 = -45 110 - 145 = -35 120 - 145 = -25 130 - 145 = -15 140 - 145 = -05 150 - 145 = +05 160 - 145 = +15 170 - 145 = +25 180 - 145 = +35 190 - 145 = +45
(𝑦𝑦𝑖𝑖 − 𝑦𝑦 ) 45 - 67,3 = -22,3 51 - 67,3 = -16,3 54 - 67,3 = -13,3 61 - 67,3 = -06,3 66 - 67,3 = -01,3 70 - 67,3 = +02,7 74 - 67,3 = +06,7 78 - 67,3 = +10,7 85 - 67,3 = +17,7 89 - 67,3 = +21,7
(𝑥𝑥 𝑖𝑖 − 𝑥𝑥 )(𝑦𝑦𝑖𝑖 − 𝑦𝑦 ) (-45) × (-22,3) = 1003,5 (-35) × (-16,3) = 570,5 (-25) × (-13,3) = 332,5 (-15) × (-6,3) = 94,5 (-5) × (-1,3) = 6,5 (5) × (2,7) = 13,5 (15) × (6,7) = 100,5 (25) × (10,7) = 267,5 (35) × (17,7) = 619,5 (45) × (21,7) = 976,5
𝑛𝑛
𝑖𝑖 = 1
(𝑥𝑥 𝑖𝑖 − 𝑥𝑥 )(𝑦𝑦 𝑖𝑖 − 𝑦𝑦 ) =
3985
Fonte: Elaborado pelo autor
Cor ( X, Y ) = r =
3985 3985 = = + 0,99 ( 30,3) (14,7) (10 -1) 4008,7
O valor + 0,99 obtido pelo coeficiente de correlação confirma que as variáveis estão fortemente associadas, conforme indício dado pelo diagrama de dispersão (figura 8.4). O exemplo 8.2 se refere a uma situação em que as variáveis apresentam correlação negativa. Exemplo 8.2 O quadro abaixo representa o PREÇO (em R$) e a QUANTIDADE DEMANDADA de uma determinada mercadoria. Preço (X) Quantidade (Y)
10 11 12 13 14 15 16 17 18 19 200 171 168 165 170 147 120 130 105 124
Solução: Antes de calcular o coeficiente de correlação, é interessante construir o diagrama de dispersão para ter uma ideia da direção e da forma da associação entre as variáveis.
146
unidade 8
ESTATÍSTICA E PROBABILIDADES
FIGURA 8.5 - Quantidade x preço 220
Y - Quantidade
200 180 160 140 120 100 8
10
12
14
16
18
20
X - Preço Fonte: Elaborado pelo autor
Para o cálculo do coeficiente de correlação, temos: TABELA 8.2 - Dados para o cálculo do coeficiente de correlação entre preço (X) e quantidade (Y) Preço (X) Quantidade (Y) 10 200 11 171 12 168 13 165 14 170 15 147 16 120 17 130 18 105 19 124 Média (X) = 14,5 Média (Y) = 150 Desv. Pad (X) = 3,0 Desv. Pad (Y) = 29,6
(𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ ) -4,5 -3,5 -2,5 -1,5 -0,5 0,5 1,5 2,5 3,5 4,5
(𝑦𝑦𝑖𝑖 − 𝑦𝑦�)
𝑛𝑛
-225 -73,5 -45 -22,5 -10 -1,5 -45 -50 -157,5 -117
�(𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ )(𝑦𝑦𝑖𝑖 − 𝑦𝑦 �) =
-747
𝑖𝑖 =1
Fonte: Elaborado pelo autor
Cor ( X, Y ) = r =
50 21 18 15 20 -3 -30 -20 -45 -26
(𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ )(𝑦𝑦𝑖𝑖 − 𝑦𝑦�)
-747 = ( 3,0) (29,6) (10 -1)
-747 = - 0,93 799,2
Portanto, as variáveis apresentam forte correlação negativa, conforme indício do diagrama de dispersão. Observações importantes sobre o coeficiente de correlação de Pearson:
147
unidade 8
ESTATÍSTICA E PROBABILIDADES
• O valor da correlação independe da unidade de medida dos dados. Por exemplo, se tivermos interesse em medir a correlação entre ALTURA e PESO de um grupo de pessoas,
USO DA TECNOLOGIA PARA O CÁLCULO DO
COEFICIENTE DE CORRELAÇÃO
tanto faz a ALTURA entrar nos
O cálculo do coeficiente de correlação no
cálculos em centímetros ou em
Excel é dado pela função:
metros; • A correlação não se aplica a mais de duas variáveis;
= CORREL (matriz1;matriz2) Onde os parâmetros (matriz1 e matriz2)
• A correlação não faz distinção sobre qual variável se projeta em
se referem aos dados das duas variáveis. Observe a figura 8.6.
cada eixo do plano cartesiano. Dessa forma, Cor (X,Y) = Cor (Y,X); • As
variáveis
quantitativas.
O
devem coeficiente
ser de
correlação linear de Pearson não se aplica a variáveis categóricas; • A correlação mede o grau de associação linear. Dessa forma, se duas variáveis quantitativas se relacionam de forma quadrática ou exponencial, o coeficiente de correlação linear não é indicado, uma vez que matematicamente tem a capacidade de captar relações lineares.
148
unidade 8
ESTATÍSTICA E PROBABILIDADES
FIGURA 8.6 - Coeficiente de correlação no Excel
Fonte: Elaborado pelo autor
REGRESSÃO
LINEAR SIMPLES A regressão linear simples tem como objetivo estimar uma equação que relacione matematicamente duas variáveis, sendo que uma delas é explicada pela outra. A variável explicada geralmente é denominada variável resposta ou variável dependente. A variável explicativa é denominada variável explanatória ou variável independente. A análise de regressão múltipla tem por objetivo estimar uma equação que relacione matematicamente uma variável resposta a duas ou mais variáveis explicativas. A figura 8.7 reapresenta os dados relativos à figura 8.1 onde a variável resposta VALOR se correlaciona à ÁREA DO IMÓVEL.
149
unidade 8
ESTATÍSTICA E PROBABILIDADES
FIGURA 8.7 - Valor do imóvel x área do imóvel
Fonte: Elaborado pelo autor
Observe que os pontos do diagrama não caem exatamente sobre a reta de regressão, mas a reta é capaz de resumir o padrão geral de comportamento dos dados. Uma das técnicas mais utilizadas para obtenção dessa reta é conhecida como método dos mínimos quadrados.
CONCEITO Método dos mínimos quadrados: É uma técnica estatística utilizada para resumir um conjunto de variáveis quantitativas numa equação. Ela se baseia na minimização da distância quadrática de cada ponto em relação à reta.
A equação que representa o modelo de regressão linear simples é: Y1 = β0 + β1 X1 + ε1
150
unidade 8
ESTATÍSTICA E PROBABILIDADES
Onde:
^ =β ^0 + β ^ 1X Y
Yi = valor da variável dependente na i-ésima A análise de regressão se distingue da
tentativa, ou observação;
correlação por supor uma relação de β0 = primeiro parâmetro da equação de
causalidade entre as variáveis resposta e
regressão, o qual indica o intercepto
explanatória. A análise geralmente se baseia
no eixo Y, ou seja, o valor de Y quando
numa referência teórica, que justifique uma
X = 0;
relação matemática de causalidade.
β1= segundo parâmetro da equação de
^ ^ A estimativa dos parâmetros β0 e β1
coeficiente
do modelo se dá a partir das seguintes
regressão,
chamado
angular, que indica a inclinação da reta
fórmulas:
de regressão; ^ ∑ XY - nXY β1 = ∑ X2 - nX2
εi = o valor do erro, que significa a diferença entre o valor verdadeiro e o valor
^ β o = Y - β 1X
previsto pela equação de regressão (ε é a letra grega épsilon). Após a estimação da equação de regressão, o erro passa a ser denominado resíduo. Os parâmetros β0 e β1 no modelo de regressão linear são estimados pelos valores β0 e β1 que se baseiam nos dados amostrais. O “chapéu” sobre as letras indica que foi feita uma estimativa dos parâmetros do modelo com base em dados obtidos através de uma amostra.
Exemplo 8.3 Um professor acredita que a NOTA na prova de estatística esteja relacionada ao número de HORAS DE ESTUDO dos alunos. Para tentar convencer os estudantes dessa relação, o professor resolve fazer a pesquisa levantando dados de sete estudantes, conforme o quadro abaixo.
Dessa forma, a equação de regressão linear baseada nos dados da amostra que é usada para estimar um simples valor da variável dependente, onde o “chapéu” sobre o Y indica que ele é um valor estimado, é:
151
unidade 8
ESTATÍSTICA E PROBABILIDADES
QUADRO 8.1 -Dados para a estimação da reta de regressão que relaciona nota na prova de estatística (Y) e horas de estudo (X) Estudante 1 2 3 4 5 6 7
Horas de estudo (X) 20 15 35 26 30 24 18
Nota na prova (Y) 72 62 87 77 90 83 68
Fonte: Elaborado pelo autor
[a] Determine a equação da reta de regressão para os dados da tabela. [b] Use a eq uação de regressão para estimar a nota de um estudante que tenha dedicado 20 horas de estudo para a prova. Solução: [a] Podemos incluir mais duas colunas na tabela para facilitar a operacionalização dos cálculos: QUADRO 8.2 - Cálculos para a estimação da reta de regressão que relaciona nota na prova de estatística (Y) e horas de estudo (X) Estudante 1 2 3 4 5 6 7
Horas de estudo (X) 20 15 35 26 30 24 18 MÉDIA (X) = 24
Nota na prova (Y) 72 62 87 77 90 83 68 MÉDIA(Y) = 77
2
X
X.Y
400 225 1225 676 900 576 324 2 ΣX = 4.326
1440 930 3045 2002 2700 1992 1224 ΣXY = 13.333
Fonte: Elaborado pelo autor
Na penúltima coluna foram obtidos os valores da variável X ao quadrado. Na última coluna os valores de X foram multiplicados pelos valores de Y para cada estudante. Em seguida, foram obtidas as médias de cada variável e, finalmente, o somatório das duas últimas colunas. Colocando os dados obtidos nas fórmulas, temos:
152
unidade 8
ESTATÍSTICA E PROBABILIDADES
^ 1 = ∑ XY - nXY β ∑ X2 - nX2
=
13.333 - 7 . 24. 77 13.333 -12.936 397 = = = 1,35 2 4.326 - 4.032 294 4.326 - 7.24
^ o = 77 - (1,35) . (24) = 77 - 32,4 = 44,6 β
A equação estimada foi: Y^ = 44,6 + 1,35 . X Para calcular o valor estimado da nota (Y) com base no número de horas estudadas (X), basta inserir o valor de X na equação. Considerando X = 20, temos: Y^ = 44,6 + 1,35 . 20 = 44,6 + 27 = 71,6 Portanto, estima-se que um estudante que tenha dedicado 20 horas de estudo obtenha aproximadamente 72 pontos na prova. Observe abaixo o diagrama da figura 8.8: FIGURA 8.8 - Previsão da NOTA (Y) com base no número de HORAS DE ESTUDO (X)
Fonte: Elaborado pelo autor
153
unidade 8
ESTATÍSTICA E PROBABILIDADES
INTERPRETAÇÃO DO RESULTADO DA REGRESSÃO Além de permitir a previsão de uma variável resposta em função de uma variável explanatória, a análise de regressão também mede a variação de Y quando variamos X. A partir da equação obtida pelos dados do exemplo 8.3, podemos afirmar que o aumento de uma unidade na variável X (número de horas estudadas) aumenta, em média, 1,35 unidades na variável Y (pontos na prova de estatística). USO DA TECNOLOGIA PARA A ESTIMAÇÃO DA REGRESSÃO Com a evolução da informática, a técnica de regressão múltipla passou a ser cada vez mais utilizada pelas organizações e pelos cientistas, pois os cálculos se tornaram menos tediosos. No exemplo 8.4, os dados do exemplo 8.3 foram rodados no Excel. Exemplo 8.4 Estime a equação de regressão com os dados do exemplo 8.2 utilizando o Excel. Solução: DADOS > ANÁLISE DE DADOS > REGRESSÃO > OK FIGURA 8.9 - Comandos utilizados no Excel para análise de regressão
Fonte: Elaborado pelo autor
Nos intervalos de entrada e saída, insira o endereço das variáveis explanatória (X – horas de estudo) e resposta (Y – nota na prova), respectivamente. Em seguida, aperte OK.
154
unidade 8
ESTATÍSTICA E PROBABILIDADES
FIGURA 8.10 - Comandos utilizados no Excel para análise de regressão
Fonte: Elaborado pelo autor
Após rodar a regressão, o Excel apresenta três quadros. O primeiro mostra, dentre outras estatísticas, o valor do R-quadrado. No exemplo em questão, o valor observado é igual a 0,843. Isso significa que o modelo explica aproximadamente 84,3% da variabilidade em Y a partir da variação em X. TABELA 8.3 - Estatísticas para análise de regressão Estatística de regressão R múltiplo 0,918 R-Quadrado 0,843 R-quadrado ajustado 0,811 Erro padrão 4,470 Observações 7 Fonte: Elaborado pelo autor
A tabela 8.4 diz respeito ao teste de significância do modelo, conhecido como teste F, que produziu uma estatística igual a 26,8, que implica num valor p próximo de zero. Dessa forma, rejeitamos a hipótese de que o modelo não se ajusta bem aos dados. Portanto, o modelo é estatisticamente significativo.
155
unidade 8
ESTATÍSTICA E PROBABILIDADES
TABELA 8.4 - Resultados do teste de adequação do modelo de regressão simples (teste F) ANOVA gl
Regressão Resíduo Total
SQ MQ F Valor p 1 536,085 536,085 26,8271 0,00353 5 99,915 19,983 6 636
Fonte: Elaborado pelo autor
A outra saída se refere a valores p dos testes dos coeficientes β0 e β1. As hipóteses para o intercepto são: H0: β0 = 0 H0: β0 ≠ 0 As hipóteses para a variável explanatória são: H0: β1 = 0 H0: β1 ≠ 0 Os valores p iguais a zero para o intercepto e para a variável X1 implicam na rejeição da hipótese de que os valores sejam não significativos. Portanto os coeficientes ( β0 e β1 ) são significativos com base no teste t para cada um separadamente. TABELA 8.5 - Coeficientes da regressão e estatísticas de interesse
Interseção Variável X 1
Coeficientes Erro padrão 44,59 6,48 1,35 0,26
Stat t 6,88 5,18
valor-P 0,00 0,00
Fonte: Elaborado pelo autor
A equação estimada é: ˆ = 44,6 +1,35 . X1 Y Dessa forma, o modelo se mostra útil tanto para analisar o impacto que a variável explanatória exerce sobre a variável resposta, quanto para previsão.
156
unidade 8
ESTATÍSTICA E PROBABILIDADES
A interpretação do coeficiente da variável X1 é: o aumento de uma unidade na variável X (ou seja, a cada hora a mais de estudo) consiste no aumento de 1,35 unidades na variável Y (1,35 pontos na prova de estatística) Para um estudante que tenha dedicado 30 horas ao estudo, o valor previsto pela equação é 85: ˆ = 44,6 + 1,35 x 30 = 44,6 + 40,5 = 85 Y
REGRESSÃO
LINEAR MÚLTIPLA Na regressão linear simples, uma variável resposta pode ser explicada por uma variável explanatória. Na figura 8.7, o valor do imóvel pode ser previsto com base no seu tamanho (em metros quadrados). O valor obtido para o R2 foi de 0,45. Isso significa que a variável explanatória X explica 45% da variação na variável Y. No exemplo em questão, outras variáveis também podem ser utilizadas para explicar melhor a variação de Y (preço do imóvel), como por exemplo a idade do imóvel, o preço do condomínio, o número de banheiros, etc. Dessa forma, na regressão múltipla, uma variável resposta se relaciona a duas ou mais variáveis explanatórias. O objetivo também é predizer os valores de Y com base nas variáveis explanatórias. Na maioria das vezes, uma variável resposta se relaciona a mais de uma variável explanatória. Nessa situação, também podemos utilizar o método dos mínimos quadrados para obter uma equação que relacione as variáveis. Nesse caso, temos uma regressão múltipla: Yi = β0 + β1 X1 + β2 X2 + … + βk Xk + εi Onde: Yi = variável resposta (variável dependente); β0 = intercepto (valor assumido por Y quando todas as demais variáveis assumem valor igual a zero); β1, β2,..., βk = coeficientes angulares; k = número de variáveis explanatórias (variáveis independentes).
157
unidade 8
ESTATÍSTICA E PROBABILIDADES
A estimação da equação de regressão linear múltipla também se dá através do método dos mínimos quadrados. O objetivo é obter o hiperplano que melhor se ajuste ao conjunto de dados através da minimização dos desvios quadráticos. Com a evolução da informática, a técnica de regressão múltipla passou a ser cada vez mais utilizada pelas organizações e pelos cientistas, pois os cálculos se tornaram menos tediosos. No exemplo 8.5, o preço do imóvel é estimado com base em duas variáveis: ÁREA DO IMÓVEL e NÚMERO DE QUARTOS. Exemplo 8.5 Estime a equação de regressão relacionando o VALOR DO IMÓVEL às variáveis: ÁREA do apartamento e NÚMERO DE QUARTOS.
158
unidade 8
ESTATÍSTICA E PROBABILIDADES
Axis Title
Chart Title 800.000,00 700.000,00 600.000,00 500.000,00 400.000,00 300.000,00 200.000,00 100.000,00 -‐
y = 1868,2x + 239876 R² = 0,55094 Series1 Linear (Series1)
0
50
100
150
200
Axis Title
159
unidade 8
250
300
ESTATÍSTICA E PROBABILIDADES
Solução DADOS > ANÁLISE DE DADOS > REGRESSÃO > OK Nos intervalos de entrada e saída, insira o endereço das variáveis explanatória e dependente, respectivamente, assim como foi feito para a regressão simples. Em seguida, aperte OK. Após rodar a regressão múltipla, o Excel produz tabelas. Segue a primeira: TABELA 8.7 - Resultados do teste de adequação do modelo de regressão múltipla (teste F) ANOVA Regressão Resíduo Total
gl 2 55 57
SQ MQ 557.278.841.710 278.639.420.855 360.283.037.601 6.550.600.684 917.561.879.310
F 42,5
Valor p 0,000
Fonte: Elaborado pelo autor
A saída da última coluna se refere aos valores p do teste dos coeficientes da regressão. A hipótese nula é de que cada coeficiente é igual a zero, individualmente, versus a hipótese alternativa de que seja diferente de zero, respectivamente.
TABELA 8.8 - Coeficientes de regressão e estatísticas de interesse
Interseção Variável X 1 Variável X 2
Coeficientes 86.873 1.335 67.719
Erro padrão 60.689 285 24.091
Stat t 1,43 4,68 2,81
valor-P 0,16 0,00 0,01
Fonte: Elaborado pelo autor
A equação estimada é: Yˆ = 86.873 + 1.335X1 + 67.719X2 Na última coluna temos os valores p, que mostram que as variáveis são significativas e o intercepto não, conforme os testes t para cada coeficiente separadamente. O intercepto no caso não tem significado prático nesse exemplo.
160
unidade 8
ESTATÍSTICA E PROBABILIDADES
Dessa forma, o modelo se mostra útil tanto para analisar o impacto que cada uma das variáveis explanatórias exerce sobre a variável resposta, mantendo constantes as outras variáveis, quanto para previsão.
ˆ
A interpretação do coeficiente da variável X1 é: a cada uma unidade de aumento na ÁREA (ou seja a cada metro quadrado a mais) a variável Y (VALOR) aumenta em R$ 1.335,00, se mantida constante a variável X2 (NÚMERO DE QUARTOS). A interpretação do coeficiente da variável X2 é: a cada uma unidade de aumento na variável X2 (NÚMERO DE QUARTOS), a variável Y (VALOR) aumenta em média R$ 67.719, se mantida constante a variável X1 (ÁREA). Para um apartamento que tenha 80 metros quadrados e três quartos, o valor previsto pela equação é: Yˆ = 86.873 + 1.335 × 80 + 67.719 × 3= ˆ = 86.873 + 106.800 + 203.157 = R$ 396.830 Y
APLICAÇÃO
PRÁTICA
Os exemplos de análise de regressão utilizados nesta unidade contêm uma variável explicativa, no caso da regressão simples, ou duas variáveis explicativas, no caso da regressão múltipla. Tais situações ilustram a utilização dos modelos de regressão para situações mais simples. Na verdade, esses modelos podem ser utilizados com um número bem maior de variáveis explicativas. Por exemplo, para prever o preço de revenda de um automóvel, o analista de dados pode utilizar diversas variáveis, como: idade, número de quilômetros rodados, presença de vidros elétricos, presença de ar condicionado, consumo de combustível na estrada, consumo de combustível na cidade, estado de conservação dos pneus, estado de conservação da pintura, etc. Nesse sentido, os modelos de regressão se mostram muito úteis para a realização de previsões. Outro exemplo: imagine o gestor de uma empresa de varejo de alimentos que tem que tomar a decisão sobre a quantidade de itens em estoque. Nesse caso, ele não pode estocar muito, pois os produtos podem perder
161
unidade 8
ESTATÍSTICA E PROBABILIDADES
validade, além do custo do espaço utilizado para
o estudo da relação entre duas variáveis é
guardar as mercadorias. Ao mesmo tempo,
a regressão simples, muito útil para fazer
estocar uma quantidade insatisfatória pode
previsões. Além da regressão simples, a
implicar na falta de produtos para a venda.
regressão múltipla também é bastante
Nesse caso, é de grande valia a utilização de
utilizada, pois na maioria das situações
modelos de previsão para estimar a quantidade
as variáveis previstas são associadas a
de mercadorias que serão comercializadas num
diversas
certo espaço de tempo.
quantitativas quanto categóricas.
Um terceiro exemplo do uso de modelos de regressão se refere à decisão dos bancos sobre conceder ou não um empréstimo para determinado candidato. Para isso, o banco geralmente levanta diversas variáveis para estimar a probabilidade de o cliente ser ou não um bom pagador.
variáveis
explanatórias,
tanto
Para que o modelo de regressão seja útil, o analista depende do conhecimento da teoria acerca do assunto e de alguma experiência prática capaz de auxiliar na escolha das melhores variáveis candidatas e explicativas. A utilização dos modelos de regressão na engenharia é muito importante, uma vez
REVISÃO
que vários experimentos são delineados na
A presente unidade tratou do tema relação
otimização de processos de produção.
entre duas ou mais variáveis quantitativas. Foi demonstrado que, para o estudo de duas variáveis
quantitativas
PARA SABER
simultaneamente,
MAIS
faz-se interessante o uso de diagramas de dispersão com o objetivo de inspecionar visualmente se elas apresentam associação.
Para estudar mais sobre os modelos de
Devemos observar, principalmente, a forma,
regressão, consulte as seguintes obras:
a intensidade e a direção da relação entre as variáveis. Além disso, também é importante
DOANE, David, SEWARD, Lori. Estatística
o cálculo do coeficiente de correlação, que
Aplicada à Administração e à Economia.
fornece um valor entre 0 e 1, podendo ser
ArtMed, 2010. VitalBook file.
negativo no caso de relacionamento linear inverso entre as variáveis.
FREUND, John, SIMON, Gary. Estatística Aplicada:
Outra técnica bastante interessante para
Economia,
Administração
e Contabilidade. 9 Ed. Porto Alegre:
162
unidade 8
ESTATÍSTICA E PROBABILIDADES
Bookman, 2007. LEVINE, David; BERENSON, Mark; STEPHAN, David. Estatística: teoria e aplicações usando o Microsoft Excel em português. 6 ed.Rio de Janeiro: LTC, 2011, 812 p. MONTGOMERY, Douglas, RUNGER, George. Estatística aplicada e probabilidade para engenheiros. 3.ed. Rio de Janeiro: LTC, 2009. MOORE, David. A estatística básica e sua prática. Rio de Janeiro: LTC, 2014. TRIOLA, Mário. Introdução à Estatística. 10 ed. Rio de Janeiro: LTC. 2008. 722p.
163
unidade 8
REFERÊNCIAS
FREUND, John. Estatística Aplicada à Economia.
BARBETTA, Pedro Alberto, REIS, Marcelo Menezes,
BORNIA,
Antônio
Cezar.
Estatística: Para Cursos de Engenharia e Informática. 3 ed. Atlas, 2010. VitalBook file. BAILAR III, John.C.; MOSTELLER, Frederick. Medical uses of statistics. 2. ed. Boston: NEJM Books, 1992. CARVALHO, Danilo Heraldo; COUTO, Bráulio Roberto Gonçalves Marinho. Levantamentos por amostragem ou “pesquisas de survey. Relatório técnico DCET, Nº 3/2003. 107p
aplicações usando Microsoft Excel em português. 3 ed. Rio de Janeiro: LTC, 2000
que ajudou a mudar o mundo. 18 fev. 2013. In: Site “TecMundo”. Disponível em: . Acesso em: 15 abr. 2015 GRIFFITHS, Dawn. Use a cabeça! Estatística. Rio de Janeiro: Altabooks, 2009. HINES, William, MONTGOMERY, Douglas, Dave,
BORROR,
Connie.
Probabilidade e Estatística na Engenharia. 4 ed. Rio de Janeiro: LTC, 2006. VitalBook file. KAZMIER, Leonard. Estatística Aplicada à
DOANE, David, SEWARD, Lori. Estatística Aplicada à Administração e à Economia. ArtMed, 2010. VitalBook file.
Administração e Economia. Bookman, 2007. LEVINE, David M. et al. Estatística - teoria e aplicações: usando Microsoft Excel em
DOWNING, Douglas. Estatística Aplicada. Trad. Alfedro Alves de Farias: 2ed São Paulo: Saraiva, 2003
português. 6 ed. Rio de Janeiro: LTC, 2012. 804 p MAGALHÃES, Marcos Nascimento; LIMA, Antônio
FIELD, Andy. Descobrindo a Estatística Usando o SPSS. 2 ed. Porto Alegre: ARTMED, 2009. 688p
Carlos
Acesso
Pedroso.
Noções
de
Probabilidade e Estatística. 6. ed. São Paulo: Editora da Universidade de São Paulo, 2007. MALHOTRA,
FORMULÁRIO GOOGLE DOCS. Disponível em: em: 15 abr. 2015
GAZZARRRINI, Rafael. Lotus 1-2-3: o software
GOLDSMAN,
DAVID M. et al. Estatística: teoria e
.
11 ed. Bookman, 2006. VitalBook file.
Naresh
K..
Pesquisa
de
marketing: uma orientação aplicada. trad. Lene Belon Ribeiro, Monica Stefani. rev. téc. Janaína de Moura Engracia Giraldi. Porto Alegre: Bookman, 2012.
164
McCLAVE, James T.; BENSON, George;
VELLEMAN. Paul. Estatística Aplicada -
SINCICH,
Administração, Economia e Negócios. Porto
Terry.
Estatística
para
administração e economia. trad. Fabrício
Alegre: Bookman, 2011.
Pereira Soares e Fernando Sampaio Filho; rev. téc. Galo Carlos Lopez Noriega. São
SOARES,
José
Francisco;
SIQUEIRA,
Paulo: Pearson Prentice Hall, 2009.
Armanda Lúcia. Introdução à Estatística Médica. Belo Horizonte: UFMG, 2002. 300p
MONTGMOMERY,
Douglas
C;
RUNGER,
George C. Estatística aplicada e probabilidade
STEVENSON, William. Estatística Aplicada
para engenheiros. trad. e rev. téc. Verônica
à Administração. ed 2001. São Paulo:
Calado. Rio de Janeiro: LTC, 2009.
Harbra, 1981.
MOORE, David. A estatística básica e sua
TRIOLA, Mario Farias. Introdução à Estatística:
prática. Rio de Janeiro. LTC, 2014.
tradução de Vera Regina Lima de Farias e Flores, revisão técnica Ana Maria Lima de
NETO, Antônio Peli. Intervalos de confiança,
Farias. 10 ed. Rio de Janeiro: LTC, 2008
Intervalos de Predição e Campo de Arbítrio nas
Avaliações
Urbanos.
TRIOLA, Mario F. Introdução à Estatística:
Associação Brasileira dos Engenheiros
Atualização da Tecnologia, 11 ed. LTC,
Civis - Departamento da Bahia. Bahia, 2010.
03/2013. VitalBook file.
Disponível
em:
de
Imóveis
.
Acesso em 16 jun. 2015.
WERKEMA,
Maria
Cristina
Catarino;
AGUIAR, Silvio. Planejamento e análise de REIDEL, Adilson et al. Utilização de efluente de
experimentos: Como Identificar as principais
frigorífico, tratado com macrófita aquática, no
variáveis influentes em um processo. Belo
cultivo de tilápia do Nilo. R. Bras. Eng. Agríc.
Horizonte:
Ambiental, Campina Grande, v.9, (Suplemento),
Escola de Engenharia da UFMG, 1996.
Fundação
Cristiano
Ottoni,
p.181-185, 2005. Disponível em: . Acesso em: 21 jan. 2015
WALPOLE,
Ronald.
Probabilidade
e
estatística para engenharia e ciências. São SILVA,
Nilza
Nunes.
Amostragem
Paulo: Pears, 2008
probabilística. 2 ed. São Paulo: Editora da Universidade de São Paulo, 2001. 120p SHARP,
Norean,
DE
VEAUX,
Richard,
165
www.animaeducacao.com.br