Baixe Teste de Hipóteses para Diferença de Médias e Variâncias de Duas Populações e outras Notas de estudo em PDF para Engenharia Agrícola, somente na Docsity! TESTES DE HIPÓTESES
COM DUAS AMOSTRAS
S
O teste de hipóteses da diferença das médias de duas populações é freqüentemente utilizado para determinar se é ou não razoável concluir que as médias das duas populações são diferentes. Por exemplo: É de interesse do controle de qualidade determinar se o mesmo produto oferecido por dois fornecedores diferentes apresenta a mesma quantidade de peças com defeitos. Ao médico do laboratório farmacêutico interessa determinar se o novo remédio para controle de diabetes é eficiente acompanhando dois grupos de pacientes, o primeiro grupo que recebeu o remédio e o outro que recebeu apenas placebo, produto com a mesma forma, porém sem o elemento ativo.
Na distribuição de frequências da diferença das médias X, — X:
* O valor esperado, ou média, de X, — x, é igual à diferença das
médias das populações. EL X,- X, ]-, 1.
* A variância de X, — x, é igual a . pois as va-
riáveis são independentes. Utilizando as propriedades da distri-
buição amostral apresentadas no Capítulo 10 deduzimos:
N
As hipóteses do teste que deve ser aplicado têm a seguinte forma:
Ho: Mo
Hm éh
As hipóteses podem ser consideradas, também, como segue:
Hom 0
ES
Amostras Grandes Qual é a forma da distribuição da diferença de duas médias? A resposta é dada pelo teorema central do limite, que foi apresentado anteriormente. Se for retirado um numero grande de amostras das duas populações, a distribuição da diferença das duas médias será aproximadamente normal. Para amostras grandes, n>30, o Z observado Zo é obtido da normalização da diferença entre as duas médias utilizando a expressão: 2 2 2 1 2 1 2121 )()( nn XX Zo Na célula F12 o modelo registra o Z observado, resultado obtido com: Na célula F13 é calculado o p-value para duas caudas da distribuição. Como o p-value é maior que o nível de significância =0,05, a hipótese nula deve ser aceita, pois há evidencias de que a diferença de médias não seja significativa. Na célula F14 é apresentada a decisão por extenso, Aceitar Ho ou Rejeitar Ho. 46,1 60 30 40 15 042,10805,107 oZ Esse procedimento com a distribuição Z deve ser aplicado quando as variâncias das populações são conhecidas, o que, na prática, é difícil de ocorrer. Daí que se o tamanho de uma das amostras for igual ou menor que trinta e um, o modelo não apresentará os títulos e resultados relevantes. Como em geral as variâncias das populações não são conhecidas, é recomendado utilizar o procedimento com a distribuição t. Fdea - Teste Z: Duas amostras para Médias
//4
Teste-Z: duas amostras para médias
2x]
[4 Rótulos
álfa: 0,05
rEntrada
Intervalo da variável 1: dEga:fefas *
Intervalo da variável 2: ECOS ÊCHES *
Hipátese da diferença de média: õ
Variáncia da variável 1 (conhecida): )15
variância da variável 2 (conhecida): |30
Opções de saida
(* Intervalo de saída:
É Moya planilha:
É Mova pasta de trabalho
$1$2] 3]
DK |
Cancelar
ajuda
N
Y
* Sendo as variâncias das populações desconhecidas, a variância da
distribuição da diferença das duas médias SZ, denominada vari-
ância agrupada?, será obtida com a fórmula seguinte, onde Sf e
2 = “a .
S5 são as variâncias das duas amostras:
Do (my Dx SÊ +(m, —DxS$
ES cm
O tobservado t, é obtido com a expressão:
Se as duas amostras tiverem o mesmo tamanho, n,= n,, a vari-
“ ância agrupada sy será igual a:
AN
00
0.00
00000
0000
0000
0.0
“0
A E E D E F G
1 |Comparação de duas médias - Populações com variâncias iguais
2
3 Amostra 1 | Amostra 2 Resultados Amostra 1 Amostra 2
4 20 25 n 5 6
E 23 26 Média 23,00 25,33
E 26 25 Variância 5,00 1,07
7 22 2d
g 24 27 Teste de Hipóteses
g 25 Alta 50
q! 9
Variância ag. 2,815
tobservado «2,207
p-valie 472%
Decisão| Rejeitar Ho
NS
Amostras Pequenas Variâncias das Populações Diferentes O procedimento do teste de hipóteses da diferença das médias de duas populações com variâncias desconhecidas, ou presumindo que sejam diferentes, tem as mesmas premissas do procedimento do teste de hipóteses com variâncias iguais, incluindo as seguintes alterações de cálculo: Deve ser utilizada a estatística teste t* definida com a expressão: 2 2 2 1 2 1 21* n S n S XX t O teste t* pode ser aproximado ao teste t obtendo o número de graus de liberdade gl com a expressão: Como, em geral, o resultado de gl não é um número inteiro, deve ser adotado o número inteiro mais próximo. 11 2 2 2 2 2 1 2 1 2 1 2 2 2 2 1 2 1 n n S n n S n S n S gl
co
co
e
co
co
A E C D E F G IN
1 [Comparação de duas médias - Populações com variâncias iguais
2
ã Amostra 1 | Amostra 2 Resultados Amostra 1 Amostra 2
4 20 25 n 5 6
5 23 26 Média 23,00 25,33
E 26 25 Variância 5,00 1,07
7 22 24
8 24 27 Teste de Hipóteses
g 25 Alfa 5,0%
gi! 9
Variância aq. 2,815
tobservado 2,207
p-valie AT 2%
Decisão | Rejeitar Ho
NS
Amostras Emparelhadas Quando for necessário comparar, por exemplo, as vendas diárias de duas filiais que operam com os mesmos produtos, ou os resultados de um treinamento, confrontando o conhecimento antes e depois do treinamento, os procedimentos de teste de hipóteses para diferença das médias utilizados até este momento não podem ser aplicados, pois se referem a duas populações independentes. Agora, necessitamos analisar duas populações relacionadas, isto é, duas populações dependentes. Neste caso, a variável de interesse será a diferença entre os pares das duas amostras, no lugar das próprias amostras, que devem ter o mesmo tamanho. Como premissa, a população das diferenças tem distribuição aproximadamente normal e a amostra das diferenças é extraída aleatoriamente da população das diferenças. O procedimento é o seguinte: Das duas variáveis X1 e X2 definidas pelos valores X11, X12, ... X1n e X21, X22, ... X2n é formada a nova variável D das diferenças entre esses valores D1= X11- X21, ... , Dj= X1j- X2j, ..., Dn= X1n- X2n. Na variável D é calculada a médiaD e a variância O t observado é calculado com a fórmula: n S D t D o 0 Definido o nível de significância , é realizado o teste de hipóteses. Ho: D=0 H1: D0
H | a K
1 Ferramenta de análise
2 Teste-t duas amostras em par para médias
3
4 Amostra 1 Amosta?
5 Média 11800809 13,333333
E variância 6,3611111 7,25
T Observações g g
& Correlação de Pearson 0,8344343
g Hipótese da diferença de média Õ
gl &
Statt -2,6712107
PiT==t uni-caudal 0,0103095
teritico uni-caudal 1,8595403
PiT==th hi-caudal Do2nraaa
terítico bi-caudal 2 3060056
se
Distribuição F O teste de hipóteses para a diferença das médias é utilizado para determinar se é ou não razoável concluir que as médias das duas populações são diferentes. Também é freqüente verificar se é ou não razoável concluir que as variâncias das duas populações são diferentes. Para verificar se duas populações independentes têm a mesma variância é utilizada a estatística da relação das variâncias das amostras retiradas de duas populações. 2 2 2 1 /SS Se as distribuições das duas populações forem normais, então a relação tem distribuição F. Sempre que as distribuições das populações forem normais, a distribuição F será também utilizada para comparar simultaneamente duas ou mais médias, procedimento denominado análise da variância. 2 2 2 1 /SS Exemplo Calcular o F crítico Fc da distribuição F com probabilidade de 5% na cauda superior de superar o valor do F crítico, considerando que o número de graus de liberdade do numerador é 6, e o do denominador, 10. Tradicionalmente, os cálculos são realizados com a tabela da distribuição F. No capítulo Tabelas do livro o leitor encontrará duas tabelas da distribuição F, uma para o nível de significância =0,01 e a outra para =0,05. A Tabela F_DISTR permite construir a tabela de valores críticos de F para qualquer valor de nível de significância. A tabela seguinte apresenta parte da tabela da distribuição F para o nível de significância =0,05. Nos cabeçalhos das colunas estão registrados os graus de liberdade do numerador, e nos cabeçalhos das linhas, os graus de liberdade do denominador. O Fc da distribuição F com 6 graus de liberdade do numerador e 10 graus de liberdade do denominador correspondente ao nível de significância 0,05 na cauda superior obtido da tabela F é 3,22. Para informar os valores que participam do F crítico, costuma-se escrever: Fc(;1;2)=Fc(0,05;6;10)=3,22. A fórmula =INVF(0,05;6;10) retornará o Fc=3,2172. A fórmula =DISTF(3,2173;6;10) retornará o valor 0,0500, que é a probabilidade P(F3,2173) na cauda superior da distribuição F. Ou, a função DISTF retornou o nível de significância 5%.
see
se.
seo
“0
0.
so.
Nível de significância o= 0,05
1 2 3 4 Ç 6 )
1 161 199 216 225
2 18.51 | 1900 | 19.16 | 19.25
3 10.13 | 9,55 | 928 | 912 | 9.
4 731 | 694 | 6,59 | 639 | 6.26
5 6.61 | 579 | 54 | 519 | 505
6 500 | 514 | 476 | 4,53 | 439
7 5.50 | 474 | 435 | 4.12 | 397
dL 8 5.32 | 446 | 407 | 384 | 3.69
9 5.12 | 426 | 386 | 3,63 | 348
( 10) 496 | 4140 | 371 | 348 | 3,33 3.07
4.84 | 308 | 3,50 | 336 | 3.20 295
475 | 3.89 4o | 326 | 341 2.85
X
e
O procedimento estatístico é o seguinte:
1. De duas populações com distribuição normal são retiradas duas
amostras aleatórias com variâncias 6, e 65.
2. O teste tem as hipóteses:
Ho: of =65
H,: For > Fo
Essas hipóteses podem ser reescritas como:
2
g
Ho E — =1.
02
H: So1
2
3. Se as variâncias das populações não forem conhecidas. as
variâncias das amostras deverão ser utilizadas, pois são as
melhores estimativas das respectivas variâncias das popula-
ções. Com as variâncias será calculado o F observado
É Como rema, a vaia dor
= - Como regra, a variância do numerador de F, deve
So
ser a da amostra que tiver maior variância, pois com essa es-
colha F, sempre será maior que 1 e consegiientemente so-
dq mente será utilizada a cauda superior da distribuição F. A
partir deste momento. o índice um sempre identificará a a-
mostra com maior variância.
RS
F
o
4. Sen, e n; forem os tananhos das amostras aleatórias retira-
das das populações, a distribuição F terá v;- n;—1 graus de
liberdade do numerador e v,—- n;—1 graus de liberdade do
denominador.
. Com o nível de significância q c os graus de liberdade. do
numerado e do denominador, será obtido o F crítico F. da
tabela da distribuição F ou com a função INVF.
AS
th
Solução. Começamos por estabelecer as hipóteses:
Com as variâncias das amostras se obtém:
— 00000
Como os tamanhos das amostras são n1=17 e n2=21, a distribuição F possui 1=16 graus de liberdade do numerador e 2=20 graus de liberdade do denominador. O F crítico é igual a Fc=2,18398, com =5%. Como Fo>Fc, a hipótese nula não deve ser aceita, há evidência de que a diferença entre as variâncias é significativa. O p-value é igual a 4,72%. Como ou p-value< a hipótese nula não deve ser aceita.
Fdea - Teste F: Duas amostras para variâncias
Teste-F: duas amostras para variâncias [2]
Entrada E
Intervalo da variável 1: &HgIrEHgIZ E La
Intervalo da variável 2: $1g3$1$13 + Eneias
IM Rátulos Elida
álfa: [0,05
ropções de saida
fe Intervalo de saída: EM E:
É Nova planilha:
É Nova pasta de trabalho
YO
A H C E G
1 Distribuição OuiQuadrado
ê
3 q! a
4 x 7 -
É 0 0052
E 1 = E
7 2 — [Distribuição Qui-quadrado - ql = 7
8 3 0415 1
g 4
10 5 Do 5
11 6
12 7 nos
13 g 0,50 T 1
14 9 0 10 20 30
1ã 10
As principais características da distribuição 2 são: A distribuição 2 é contínua e sempre positiva com valores no intervalo (0, +), a distribuição 2 tem inclinação positiva. Há uma família de distribuições 2 identificadas pelo parâmetro graus de liberdade gl.
72 observado 11,830
22 crítico 16,919
p-valie 22,02%
Aceitar Ho
Função TESTE.QUI
p-value] 0,220
AD E Te D DEDE Le TH $
1 Teste de hipóteses - Distribuição Qui-Quadrado e
2 º
3 Amostras Números Fregiiência º
4 5 Aleatórios | Observada | Esperada | Estatística S Ê º
E 7 0 38 so 2,880
E B 1 49 so 0,020
7 É 2 ar 50 0,180
8 7 É 54 so 0,320
g 6 4 ar 50 0,180
b E 55 so 0,500
q E 61 so 2,420
É 7 Ea 50 3,380
7 8 EE 50 0,720 Rio
g 3 42 50 1,280 Simulação
6
7 Resultados
b Atfa 5,00%
E n 10
6 gr 9
6
7
4
E
7
6
4
E
N N
e