Docsity
Docsity

Prepare-se para as provas
Prepare-se para as provas

Estude fácil! Tem muito documento disponível na Docsity


Ganhe pontos para baixar
Ganhe pontos para baixar

Ganhe pontos ajudando outros esrudantes ou compre um plano Premium


Guias e Dicas
Guias e Dicas

Estatistica e Probabilidade, Notas de estudo de Estatística

Apostila - Apostila

Tipologia: Notas de estudo

Antes de 2010

Compartilhado em 07/09/2009

marcelo-fernandes-6
marcelo-fernandes-6 🇧🇷

1 documento

Pré-visualização parcial do texto

Baixe Estatistica e Probabilidade e outras Notas de estudo em PDF para Estatística, somente na Docsity! ESTATÍSTICA DESCRITIVA APRESENTAÇÃO O objetivo deste material é servir de apoio à disciplina de estatística. Ele foi estruturado de modo a cobrir todo o programa do curso, servido de suporte teórico e prático para o aluno. Esperamos que este material seja de total aproveitamento pelo aluno, servido aos propósitos de sua elaboração. 5 CAPÍTULO 1 - INTRODUÇÂO 1.1 . Definições Estatística: É a ciência que cuida da coleta, da organização, da apresentação e da análise de dados. Os dados consistem em informações provenientes de observações, contagens, medições ou respostas. A estatística fornece-nos as técnicas para extrair informação de dados, os quais são muitas vezes incompletos, na medida em que não nos dão informação útil sobre o problema em estudo, sendo assim, é objetivo da Estatística extrair informação dos dados para obter uma melhor compreensão das situações que representam. A estatística é considerada Ciência no sentido do estudo de uma população. É considerada como método quando utilizada como instrumento por outra ciência. Existem dois tipos de conjuntos de dados usados na estatística. Tais conjuntos são chamados de população e amostra. População: É a totalidade do conjunto que se deseja estudar. Exemplo: População dos alunos matriculados na Universidade. População dos residentes no estado do Rio de Janeiro. Amostra: É um subconjunto, não vazio, do conjunto que se pretende estudar (população). A amostra representativa é um retrato fidedigno da população. Ela preserva as características da população. Amostragem: É o processo de formação de amostras. Existem vários processos de amostragem. O processo de amostragem pode ser feito com ou sem reposição de elementos. Parâmetro: é uma característica numérica estabelecida para toda uma população. Estimador: é uma característica numérica estabelecida para uma amostra. 1.2 . Ramos Básicos da Estatística Descritiva (ou dedutiva): Cuida basicamente da descrição de dados observados, sem estabelecimento de testes de hipóteses sobre o conjunto estudado. Inferência (ou indutiva): É o ramo da estatística no qual, através do estudo de informações da amostra, são definidas e testadas hipóteses acerca da população estudada, através do cálculo de probabilidades. 1.3 . Tipos de Variáveis Discreta: variável quantitativa cujos possíveis valores formam um conjunto finito ou enumerável de números e que geralmente resultam de uma contagem, como por exemplo o número de filhos. Contínua: variável cujos possíveis valores formam um intervalo de números reais e que resultam, normalmente, de uma mensuração, como por exemplo peso, altura e pressão arterial. 6 CAPÍTULO 2 – APRESENTAÇÃO DOS DADOS 2.1 . Dados brutos Normalmente, na prática, os dados originais de uma série estatística não se encontram prontos para análise, por estarem desorganizados. Por essa razão, costuma-se chamá-los de dados brutos. Tomemos como exemplo o quadro 1 abaixo, que contém as notas obtidas em uma prova de estatística por 60 alunos de uma sala de aula de uma certa faculdade. Quadro 1: 7 3 4 5 4 4 4 5 4 4 5 8 5 6 9 5 3 6 6 8 4 4 4 4 4 5 7 6 3 6 7 8 6 4 5 5 6 6 8 4 3 7 3 5 5 5 8 8 5 6 2 9 7 6 6 6 4 6 4 8 Como podemos observar, as notas estão dispostas de forma desordenada. Em razão disso, pouca informação se consegue obter, até mesmo uma simples nota mínima e máxima requer um certo exame de todos os dados. Assim, dado bruto é uma seqüência de valores numéricos não organizados, obtidos diretamente da observação de um fenômeno coletivo. 2.2 . Rol É uma lista ordenada dos dados brutos de uma série estatística. Essa ordenação pode ser crescente ou decrescente. Utilizando o exemplo das notas de estatística. e ordenando as notas, vem: Quadro 2: 2 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 5 5 5 5 5 5 5 5 5 5 5 5 6 6 6 6 6 6 6 6 6 6 6 6 6 7 7 7 7 7 8 8 8 8 8 8 8 9 9 7 2.3 . Distribuição de Freqüência Simples (variável discreta) Em geral, o trabalho estatístico envolve uma grande massa de dados. Desta forma, a estatística descritiva opera de modo a reduzir a quantidade de dados com os quais se vai trabalhar diretamente. Isto se torna possível modificando- se a forma de apresentação dos dados. Tomemos como exemplo as notas de estatística do quadro 2. Se entendermos como freqüência simples ( )if de um elemento o número de vezes que este elemento figura no conjunto de dados, podemos reduzir significativamente o número de elementos com os quais se vai trabalhar. O resultado desta reorganização dos dados é chamado de Distribuição de Freqüência, e esta apresentado na tabela 1 abaixo. Assim, uma distribuição de freqüência é uma representação tabular de um conjunto de valores em que colocamos na 1ª. coluna, em ordem crescente, apenas os valores distintos da série e na 2ª. coluna os valores das freqüências simples correspondentes. TABELA AUXILIAR TABELA 1 Graus obtidos Contagem ou tabulação Número de alunos 1 0 0 2 1 0 3 2 1 4 3 5 5 4 15 6 5 12 7 6 13 8 7 5 9 8 7 10 9 2 11 10 0 total 60 Este tipo de apresentação é mais empregada quando o número de elementos distintos da série for pequeno. Graus Obtidos Número de alunos 0 0 1 0 2 1 3 5 4 15 5 12 6 13 7 5 8 7 9 2 10 0 total 60 10 Como K deve ser necessariamente um número inteiro e como dificilmente n é um número inteiro, utilizamos para o valor de K o inteiro mais próximo de 1n ± . A amplitude do intervalo de classe ( )h é determinada da seguinte forma: Ath K = . Outra forma de determinarmos o número K é empregando a fórmula de Sturges: 1 3,3logK n= + . Para valores de n muito grandes, esta fórmula apresenta mais vantagens que o critério da raiz, embora apresente o mesmo problema de aproximação do valor de K . Exemplo. Abaixo apresentamos a seqüência de valores referentes ao resultado de um teste de QI aplicado em determinada classe de alunos de uma faculdade. 111 90 121 105 122 61 128 112 128 93 108 138 88 110 112 112 97 128 102 125 87 119 104 116 96 114 107 113 80 113 123 95 115 70 115 101 114 127 92 103 78 118 100 115 116 98 119 72 125 109 79 139 75 109 123 124 108 125 116 83 94 106 117 82 122 99 124 84 91 130 Inicialmente, verificamos que a série possui 70 elementos. Pelo critério da raiz K n= . No nosso exemplo, 70 8,37K = = . O valor inteiro mais próximo é 8. Portanto, temos opção para construir a variável contínua com 7, 8 ou 9 classes. O maior valor da seqüência é 139máxX = e o menor valor da seqüência é 61mínX = . Assim, a amplitude total da seqüência é 139 61 78At = − = . No entanto, sabemos que pelo fato de o critério adotado do intervalo de classe ser semi-aberto à direita, devemos ajustar o valor máxX . Se o ajustássemos para 140, a amplitude ajustada passaria a ser 140 61 79At = − = . Este valor não é divisível, de forma inteira, por 7, 8 ou 9, que são as opções de classes. Nesta situação devemos ajustar máxX para 141 obtendo a 141 61 80At = − = que é divisível exatamente por 8, obtendo-se uma amplitude de intervalo de classe h dada por: 80 10 8 Ath K = = = . Observe que o ajuste do valor de máxX foi de duas unidades, passando de 139 para 141. A experiência do pesquisador, nesta situação, o levaria a distribuir este erro de duas unidades, iniciando a representação da série em 60 e terminando em 140. A amplitude total ajustada para a série é de 140 60 80At = − = . 11 A amplitude do intervalo de classe é 10h = e o número de classes é 8K = . Computando as freqüências simples de cada classe, construímos a variável contínua representativa desta série. Classe Intervalo de Classe if 1 760 |⎯⎯ 0 1 2 870 |⎯⎯ 0 5 3 980 |⎯⎯ 0 6 4 1090 |⎯⎯ 0 10 5 11100 |⎯⎯ 0 12 6 12110 |⎯⎯ 0 19 7 13120 |⎯⎯ 0 14 8 14130 |⎯⎯ 0 3 Total 70 Pela fórmula de Sturges 1 3,3log 70 7,088K = + = 2.5 . –Tipos de Freqüência Uma vez que os dados sendo estudados já tenham sido colocados na forma de uma distribuição de freqüência, algumas informações adicionais e úteis podem ser facilmente obtidas. Além da freqüência simples absoluta, já citada anteriormente, outros tipos de freqüência podem ser extraídos da distribuição, conforme apresentado no esquema abaixo: ( ) ( ) Absoluta Freqüência Simples Relativa i i f fr ⎧⎪ ⎨ ⎪⎩ ( ) ( ) ( ) ( ) Absoluta Abaixo de Relativa (crescente) Freqüência Acumulada Absoluta Acima de Relativa (decrescente) i i i i F Fr F Fr ⎧ ⎧⎪⎪ ⎨ ⎪ ⎪⎩ ⎪ ⎪⎪ ⎨ ⎪ ⎧⎪⎪ ⎨⎪ ⎪⎩⎪ ⎪⎩ 12 2.5.1 . Freqüência Simples Absoluta Conforme visto anteriormente, é o número de observações correspondentes a uma classe ou a um valor. A soma das freqüências simples absolutas é chamada de freqüência total, simbolizada por if N=∑ . A partir daqui, toda vez que nos referirmos a freqüência de uma classe, estamos tratando da freqüência simples absoluta. 2.5.2 . Freqüência Simples Relativa ii ffr N ⎛ ⎞=⎜ ⎟ ⎝ ⎠ É o quociente entre a freqüência de determinada classe (ou valor) e a freqüência total. i i ffr N ⎛ ⎞=⎜ ⎟ ⎝ ⎠ ou ii i ffr f ⎛ ⎞ =⎜ ⎟⎜ ⎟ ⎝ ⎠∑ Desejando-se expressar o resultado em termos percentuais, multiplica-se o quociente obtido por 100. ( )% 100ii ffr N = ⋅ A soma das freqüências relativas é sempre igual a 1 ou 100%. Exemplo: Idades if ifr 0 |⎯⎯ 10 5 5 0,0270 ou 2,70%185 = 210 |⎯⎯ 0 15 15 0,0811 ou 8,11%185 = 320 |⎯⎯ 0 20 20 0,1081 ou 10,81%185 = 430 |⎯⎯ 0 45 45 0,2432 ou 24,32%185 = 540 |⎯⎯ 0 100 100 0,5406 ou 54,06%185 = Total 185 1 ou 100% 2.5.3 . Freqüência Acumulada Existem 2 tipos de freqüência acumulada, Abaixo de (ab) e Acima de (ac). A freqüência acumulada Abaixo de uma classe ou de um valor é a soma das freqüências anteriores até a classe ou valor, inclusive. A freqüência acumulada Acima de uma classe ou de um valor é a soma das freqüências posteriores, além da classe ou valor, inclusive. Exemplo: 15 1) O Instituto Z realizou, em uma determinada Escola Municipal, pesquisas relacionadas ao desenvolvimento da estatura de crianças e o meio sócio-econômico em que habitam. A pesquisa foi feita com 80 crianças, numa faixa etária de 6 a 8 anos, sendo catalogadas, para estudo estatístico, as seguintes estaturas apresentadas na tabela abaixo. Complete as colunas vazias com as informações aprendidas. Estatura (cm) i f %ifr ( )iF ab ( ) % iFr ab ( )iF ac ( ) % iFr ac 125 |⎯⎯ 130 10 135130 |⎯⎯ 15 14135 |⎯⎯ 0 25 145140 |⎯⎯ 10 15145 |⎯⎯ 0 15 155150 |⎯⎯ 5 Total 80 - - - 2) Abaixo encontra-se a distribuição de classes dos pesos dos alunos de educação física de uma escola do 2° grau, que irão participar de um torneio olímpico. Complete a tabela. Pesos (Kg) i f %ifr ( )iF ab ( ) % iFr ab ( )iF ac ( ) % iFr ac 45 |⎯⎯ 50 5 5550 |⎯⎯ 6 655 |⎯⎯ 0 11 6560 |⎯⎯ 13 765 |⎯⎯ 0 7 7570 |⎯⎯ 8 Total 50 - - - 16 3) Através das médias finais de estatística de 90 alunos, construiu-se uma tabela de distribuição de freqüências. Complete as colunas faltantes. Notas if %ifr ( )iF ab ( ) % iFr ab ( )iF ac ( ) % iFr ac 51 |⎯⎯ 58 2 6558 |⎯⎯ 6 7265 |⎯⎯ 14 7972 |⎯⎯ 29 8679 |⎯⎯ 23 9386 |⎯⎯ 11 10093 |⎯⎯ 5 Total 90 - - - 4) Uma indústria, interessada em verificar o total de horas-extras trabalhadas pelos seus técnicos na área de produção, fez um levantamento dos dados, encontrando a seguinte distribuição: Horas if %ifr iF %iFr 10 |⎯⎯ 17 18 2417 |⎯⎯ 16 3124 |⎯⎯ 24 3831 |⎯⎯ 31 4538 |⎯⎯ 26 5245 |⎯⎯ 28 17 Total 143 - - Complete a tabela e responda: a) Quantos técnicos fizeram horas-extras abaixo de 24 horas no mês anterior? b) Qual a percentagem de técnicos que fizeram horas-extras no mês anterior igual ou superior a 38 horas? c) Qual a porcentagem de técnicos que fizeram horas-extras no mês anterior entre 31 e 38 horas? d) Quantos técnicos fizeram horas-extras no mês anterior entre 17 horas e 45 horas? 5) Uma fábrica, com um total de 150 operários, verificou um alto índice de faltas nos últimos 6 meses. O gerente, preocupado com esta situação, fez um levantamento verificando a seguinte distribuição: Faltas if %ifr iF %iFr 0 |⎯⎯ 2 60 42 |⎯⎯ 30 64 |⎯⎯ 30 86 |⎯⎯ 15 108 |⎯⎯ 15 Total 150 - - Complete a tabela e responda: a) Quantos operários tiveram nos últimos 6 meses menos de 6 faltas? b) Qual a porcentagem de operários com número de faltas igual ou superior a 6? c) Qual a porcentagem de operários que tiveram entre 6 e 8 faltas? d) Qual a porcentagem de operários que tiveram entre 2 e 8 faltas? 6) Uma indústria de autopeças estava interessada em estabelecer uma gratificação aos operários que mais se destacassem no setor da produção. Para isto, fez um levantamento sobre a produção homem/hora, encontrando os seguintes dados: Peças if %ifr iF %iFr 1260 |⎯⎯ 1292 12 13241292 |⎯⎯ 7 13561324 |⎯⎯ 14 13881356 |⎯⎯ 7 20 Unidades vendidas if %ifr iF %iFr 18 |⎯⎯ 24 5 3024 |⎯⎯ 6 3630 |⎯⎯ 8 4236 |⎯⎯ 14 4842 |⎯⎯ 6 5448 |⎯⎯ 8 6054 |⎯⎯ 3 Total 50 - - Complete a tabela e responda: a) Quantos vendedores tiveram no último mês, vendas abaixo de 42 unidades? b) Qual a porcentagem de vendedores que no último mês venderam 36 unidades ou mais? c) Qual a porcentagem de vendedores que no último mês venderam entre 36 e 42 unidades? d) Quantos vendedores tiveram no último mês, vendas entre 30 e 54 unidades? 11) Um escritório de contabilidade, com um cadastro de 50 empresas do ramo imobiliário, resolveu fazer um levantamento sobre o Capital Imobilizado nas empresas, encontrando a seguinte distribuição em centenas de reais: Centenas R$ if %ifr iF %iFr 400 |⎯⎯ 500 6 600500 |⎯⎯ 4 700600 |⎯⎯ 12 800700 |⎯⎯ 8 21 900800 |⎯⎯ 7 1000900 |⎯⎯ 13 Total 50 - - Complete a tabela e responda: a) Quantas empresas tem capital imobilizado abaixo de R$ 70.000,00? b) Qual a porcentagem de empresas cujo capital imobilizado está entre R$ 60.000,00 e R$ 70.000,00? c) Qual a porcentagem de empresas com capital imobilizado igual ou superior a R$ 70.000,00? d) Qual a porcentagem de empresas com capital imobilizado entre R$ 50.000,00 e R$ 90.000,00? 12) O escritório de contabilidade mencionado anteriormente, verificando as despesas operacionais dessas 50 empresas no exercício do ano anterior, encontrou a seguinte distribuição (em centenas de reais) Centenas R$ if %ifr iF %iFr 40 |⎯⎯ 43 7 4643 |⎯⎯ 9 4946 |⎯⎯ 8 5249 |⎯⎯ 7 5552 |⎯⎯ 9 5855 |⎯⎯ 10 Total 50 - - Complete a tabela e responda: a) Quantas empresas tiveram despesas operacionais abaixo de R$ 4.900,00? b) Qual a porcentagem de empresas com despesas operacionais entre R$ 4.600,00 e R$ 4.900,00? c) Qual a porcentagem de empresas com despesas operacionais iguais ou superiores a R$ 4.600,00? d) Qual a porcentagem de empresas com despesas operacionais entre R$ 4.300,00 e R$ 5.500,00? 13) Um empresário, com 60 filiais de sua empresa distribuídas por todo país, chamou o seu Contador para que lhe desse a situação do ativo imobilizado das filiais em 31 de dezembro do ano anterior. Através de contatos com os gerentes, encontrou-se a seguinte distribuição: Centenas R$ if %ifr iF %iFr 200 |⎯⎯ 260 14 22 320260 |⎯⎯ 12 380320 |⎯⎯ 14 440380 |⎯⎯ 9 500440 |⎯⎯ 11 Total 60 - - Complete a tabela e responda: a) Quantas filiais tiveram a posição do seu ativo imobilizado igual ou superior a R$ 32.000,00 na data? b) Qual a proporção de filiais com ativo imobilizado inferior a R$ 44.000,00? c) Qual a porcentagem de filiais com ativo imobilizado entre R$ 32.000,00 e R$ 38.000,00? d) Qual a porcentagem de filiais com ativo imobilizado entre R$ 26.000,00 e R$ 44.000,00? 2.8- Resposta dos exercícios 4 a 13 a b c d e 4 34 técnicos 37,7622% 21,6784% 97 técnicos 5 120 operários 20% 10% 50% 6 33 operários 14% 67% 46 operários 7 69 funcionários 26,25% 47,5% 93,75% 11 funcionários 8 23 peças 60% 17% 49 peças 9 38 cabos 40% 36% 38 cabos 10 33 vendedores 62% 28% 36 vendedores 11 22 empresas 24% 56% 62% 12 24 empresas 16% 68% 66% 13 34 filiais 81,6667% 23,3333% 58,3333% 25 Exemplo: 1) Em um exame de matemática, português e inglês, com pesos 3, 2 e 1 respectivamente, uma estudante obteve as seguintes notas nas provas 60, 70 e 80 . Seu grau médio é: 3 60 2 70 1 80 180 140 80 400 66,67 6 6 6 µ ⋅ + ⋅ + ⋅ + += = = = 2) Determine a média final de um aluno que tirou 4 em português, 5 em matemática, 7 em geografia e 8 em história, sabendo que os pesos das respectivas disciplinas são 2, 3, 1 e 1, respectivamente. 4 2 5 3 7 1 8 1 8 15 7 8 5,43 7 7 µ ⋅ + ⋅ + ⋅ + ⋅ + + += = = 3) Através de uma amostra realizou-se um levantamento das idades de 20 alunos, relacionados na tabela abaixo. Determine a idade média. 18 2 20 7 22 5 25 6 36 140 110 150 436 21,8 22 anos 20 20 20 x ⋅ + ⋅ + ⋅ + ⋅ + + += = = = ≈ Exercício 1 1) Calcular a média aritmética das séries abaixo: a) 2, 3, 5, 6, 8 b) 10, 12, 15, 17, 22 c) 5, 8, 9, 10, 4, 3, 2 d) 4, 5, 7, 8, 10, 12, 14 ix (anos) if 18 2 20 7 22 5 25 6 Total 20 26 2) Calcular a média aritmética das séries abaixo: a) 3, 2, 3, 2, 4, 4, 4, 5, 5, 5, 6 b) 1, 1, 1, 2, 2, 10, 10, 10 3) Calcule a média aritmética das distribuições abaixo: a) b) 3.2 . Média Aritmética para dados agrupados em classes Para dados agrupados em classes, utilizaremos a fórmula da média aritmética ponderada, considerando as freqüências simples das classes como sendo as ponderações dos pontos médios destas classes. Assim, teremos: i i i x f x f µ = = ∑ ∑ Exemplo: 1) Determinar a média aritmética da distribuição mostrada abaixo: Estatura (cm) i f ix i ix f 125 |⎯⎯ 130 10 127,5 1.275,0 135130 |⎯⎯ 15 132,5 1.987,5 14135 |⎯⎯ 0 25 137,5 3.437,5 145140 |⎯⎯ 10 142,5 1.425,0 15145 |⎯⎯ 0 15 147,5 2.212,5 155150 |⎯⎯ 5 152,5 762,5 Total 80 - 11.100 ix if 1 7 3 3 4 2 Total 12 ix if 2 4 4 2 5 1 Total 7 27 Altura média: 11.100 138,75 80 i i i x f x cm f = = =∑ ∑ Quando agrupamos os dados na disposição de uma variável contínua, passamos a trabalhar com os dados sem conhecimento de seus valores individuais. Note no exemplo acima, que o máximo que podemos afirmar com respeito ao menor valor desta série é que ele é um valor maior ou igual a 125 e menor que 130. Mas não conhecemos seu valor individualizado. O mesmo ocorre com todos os outro valores da série. Este fato é que nos leva a substituir as classes pelos seus pontos médios ao calcular a média da série. 2) Determinee o peso médio referente aos dados da tabela abaixo: Pesos (Kg) i f ix i ix f 45 |⎯⎯ 50 5 47,5 237,5 5550 |⎯⎯ 6 52,5 315,0 655 |⎯⎯ 0 11 57,5 632,5 6560 |⎯⎯ 13 62,5 812,5 765 |⎯⎯ 0 7 67,5 472,5 7570 |⎯⎯ 8 72,5 580,0 Total 50 - 3.050 Peso médio: 3.050 61 50 i i i x f x Kg f = = =∑ ∑ 30 7) Calcule o número médio de faltas de 150 operários nos últimos 6 meses, registradas na tabela do exercício 5 do capítulo 2, reproduzida abaixo. Faltas if ix i ix f 0 |⎯⎯ 2 60 42 |⎯⎯ 30 64 |⎯⎯ 30 86 |⎯⎯ 15 108 |⎯⎯ 15 Total 150 - 8) Determine o número médio de peças produzidas por 100 operários no Setor de produção de uma fábrica, registradas na Tabela do exercício 6 do capítulo 2, reproduzida abaixo. Peças if ix i ix f 1260 |⎯⎯ 1292 12 13241292 |⎯⎯ 7 13561324 |⎯⎯ 14 13881356 |⎯⎯ 7 14201388 |⎯⎯ 18 14521420 |⎯⎯ 42 Total 100 - 9) Determine o salário médio de 80 funcionários de uma empresa, registradas na Tabela do exercício 7 do capítulo 2, reproduzida abaixo. Sal. mínimo if ix i ix f 0 |⎯⎯ 2 37 42 |⎯⎯ 22 64 |⎯⎯ 10 86 |⎯⎯ 6 108 |⎯⎯ 5 Total 80 - 31 10) Calcule o tempo de duração médio de 100 peças de televisão produzidas por uma indústria, registradas na Tabela do exercício 8 do capítulo 2, reproduzida abaixo. Centenas de horas if ix i ix f 360 |⎯⎯ 452 8 544452 |⎯⎯ 6 636544 |⎯⎯ 9 728636 |⎯⎯ 17 820728 |⎯⎯ 23 912820 |⎯⎯ 17 1004912 |⎯⎯ 20 Total 100 - 11) Determine a carga média máxima suportada por cabos de aço produzidos por uma fábrica, cujos pesos estão registradas na Tabela do exercício 9 do capítulo 2, reproduzida abaixo. Toneladas if ix i ix f 9,3 |⎯⎯ 9,9 4 10,59,9 |⎯⎯ 8 11,110,5 |⎯⎯ 18 11,711,1 |⎯⎯ 12 12,311,7 |⎯⎯ 8 Total 50 - 3.4 . MEDIANA A mediana ( )Md é um valor que separa uma distribuição em duas partes, deixando à sua esquerda o mesmo número de elementos que à sua direita. 3.4.1 . Mediana para dados brutos ou rol Para o cálculo da mediana deve-se, inicialmente, ordena os dados. 32 Quando a série de dados é constituída de um número ( )n ímpar de elementos, a mediana ocupa a posição 1 2 on +⎛ ⎞ ⎜ ⎟ ⎝ ⎠ . Exemplo: O conjunto de números 1, 2, 3, 4, 4, 5, 6, 8, 9 tem como mediana: 9 1 5 (quinto elemento) 2Md P += = 4Md = Quando a série de dados é constituída de um número ( )n par de elementos tem-se 2 elementos centrais, que ocupam as posições 2 on⎛ ⎞ ⎜ ⎟ ⎝ ⎠ e 1 2 on⎛ ⎞+⎜ ⎟ ⎝ ⎠ . A mediana é convencionada como sendo a média dos valores que ocupam estas posições centrais. Cabe ressaltar que o valor da mediana pode não coincidir com os valores observados. Exemplo: O conjunto de números 0, 1, 1, 3, 4, 5, 6, 7, 9, 9 tem mediana : 9 1 5 (quinto elemento) e 2 10 1 6 (sexto elemento) 2 MdP + = = = + = 4 5 4,5 2 Md += = Observação: Para calcular a posição da mediana, independente do número de elementos da série (par ou ímpar), calcula-se este como sendo 1 2Md nP += . Sendo n ímpar, obteremos diretamente em que posição na série se encontra ao valor da mediana. Sendo n par, o valor da mediana será a média entre os elementos vizinhos aquele apontado. Exemplo: Sejam as séries de valores: : 2, 8, 12, 12, 20, 20, 23A e : 7, 8, 9, 10, 13, 13, 15, 21B . Na série A temos 7n = elementos. A mediana ocupa a posição 1 7 1 4 2 2Md nP + += = = . Ou seja, a mediana é o quarto elemento da série. Logo, 12Md = . Ns série B temos 8n = elementos. A mediana ocupa a posição 1 8 1 4,5 2 2Md nP + += = = . Ou seja, a mediana ocupa a posição 4,5, isto é, está situada entre o quarto e o quinto elemento da série. Logo, 10 13 23 11,5 2 2 Md += = = . 35 Portanto, a posição da mediana na série é 2 n . No exemplo 19 9,5 2 o o⎛ ⎞ =⎜ ⎟ ⎝ ⎠ . O valor decimal 9,5 indica que a mediana é um elemento posicionado entre o nono e o décimo elemento da série. Observando a freqüência acumulada para identificar em qual classe estão situados o nono e o décimo elemento da série, notamos que estes estão posicionados na terceira classe, o que indica que a median é um valor compreendido entre 9 e 12. A classe que contém a mediana será identificada como classe mediana. Este intervalo de três unidades contém 8 elementos. Supondo que eles estão uniformemente distribuídos neste intervalo, então poderemeos dividir este intrevalo de modo proporcional à posição da mediana na série. 7ª 9,5a 15ª |--------------------|--------------------| 9 x Md 12 Ou seja: 15 7 9,5 7 3 x − − = . Simplificando: 8 9,5 7 9,5 7 3 3 8 x x − − = ⇒ = ⋅ Portanto: 9Md x= + 9,5 79 3 8 Md −= + ⋅ 9,9375Md = Observando na fórmula em destaque acima que: • 9 é o limite inferior da classe mediana; • 9,5 é a metade dos elementos da série, isto é, 2 n ; • 7 é a freqüência acumulada da classe anterior à classe mediana; • 8 é a freqüência simples da classe mediana; • 3 é a amplitude do intervalo de classe. Podemos generalizar a fórmula de cálculo da mediana para variável contínua como: 2 i i i n F ant Md l h f md − = + ⋅ 36 Onde: il = limite inferior da classe mediana n = número de elementos da série iF ant = freqüência acumulada da classe anterior à classe mediana if md = freqüência simples da classe mediana h = amplitude do intervalo de classe. Observação: Devido às condições impostas na obtenção da fórmula da mediana, fica evidente que o valor obtido por esta é um valor aproximado do verdadeiro valor da mediana da série. De modo geral, todas as medidas calculadas para uma variável contínua serão valores aproximados para estas medidas, uma vez que ao agruparmos os dados segundo uma variável contínua, há perda de informações quanto a identidade dos dados. Exemplo: 1) Determinar a mediana para as seguintes distribuições abaixo: a) Estatura (cm) i f iF 125 |⎯⎯ 130 10 10 135130 |⎯⎯ 15 25 14135 |⎯⎯ 0 25 50 145140 |⎯⎯ 10 60 15145 |⎯⎯ 0 15 75 155150 |⎯⎯ 5 80 Total 80 - 80 40 2 2 o Md nP = = = Observando a coluna das freqüências acumuladas, verificamos que a classe mediana é a terceira. Aplicando a fórmula, a mediana é: 40 25 15135 5 135 5 135 3 138 25 25 Md cm−= + ⋅ = + ⋅ = + = 37 b) Pesos (Kg) i f iF 45 |⎯⎯ 50 5 5 5550 |⎯⎯ 6 11 655 |⎯⎯ 0 11 22 6560 |⎯⎯ 13 35 765 |⎯⎯ 0 7 42 7570 |⎯⎯ 8 50 Total 50 - 50 25 2 2 o Md nP = = = Observando a coluna das freqüências acumuladas, verificamos que a classe mediana é a quarta. Aplicando a fórmula, a mediana é: 25 22 360 5 60 5 60 1,15 61,15 13 13 Md Kg−= + ⋅ = + ⋅ = + = c) Notas if iF 51 |⎯⎯ 58 2 2 6558 |⎯⎯ 6 8 7265 |⎯⎯ 14 22 7972 |⎯⎯ 29 51 8679 |⎯⎯ 23 74 9386 |⎯⎯ 11 85 10093 |⎯⎯ 5 90 Total 90 - 90 45 2 2 o Md nP = = = Observando a coluna das freqüências acumuladas, verificamos que a classe mediana é a quarta. Aplicando a fórmula, a mediana é: 40 2) Maior freqüência = 8 R$1.000,00 e R$5.000,00Mo⇒ = ⇒ Bimodal 3) Maior freqüência = não há ⇒ Amodal 3.5.3 . Moda para dados agrupados em classe Para determinar a moda de uma série de dados agrupados em classes, podemos optar por vários processos. Daremos destaque para a moda de Pearson, a moda de King e a moda de Czuber. 3.5.3.1 . Moda de Pearson A moda de uma variável contínua pode ser obtida através do valor da média e da mediana. 3 2Mo Md x= − Exemplo: Classes if ix i ix f 0 |⎯⎯ 10 1 5 5 2010 |⎯⎯ 3 15 45 3020 |⎯⎯ 6 25 150 4030 |⎯⎯ 2 35 70 Total 12 - 270 Reais if 1.000,00 8 2.000,00 2 5.000,00 8 Total 18 Alturas (cm) i f 150 3 180 3 185 3 Total 9 41 270 22,5 12 i i i x f x f = = =∑ ∑ 6 42 20 10 23,33 6 i i i n F ant Md l h f md − − = + ⋅ = + ⋅ = ( ) ( )3 2 3 23,33 2 22,5 25Mo Md x= − = − = Note que a moda está situada na terceira classe que é a classe de maior freqüência da série. Esta é chamada de classe modal. 3.5.3.2 . Moda de King Esta fórmula leva em consideração a freqüência simples da classe anterior e a freqüência simples da classe posterior à classe modal. i i i i f postMo l h f ant f post = + ⋅ + Onde: il = limite inferior da classe modal if post = freqüência simples da classe posterior à classe modal. if ant = freqüência simples da classe anterior à classe modal. h = amplitude do intervalo de classe. Exemplo: Aplicando a fórmula de King aos dados do exercício anterior, temos: A classe modal é a de maior freqüência, portanto é a terceira, e a moda vale: 220 10 24 3 2 Mo = + ⋅ = + 3.5.3.3 . Moda de Czuber Nesta formulação, levou-se em consideração a freqüência simples da classe anterior, a freqüência simples da classe posterior, além da freqüência simples da classe modal. É portanto, uma fórmula mais completa que a fórmula de King. ( )2 i i i i i i f mo f antMo l h f mo f ant f post − = + ⋅ − + 42 Onde: il = limite inferior da classe modal if mo = freqüência simples da classe modal. if ant = freqüência simples da classe anterior à classe modal. if post = freqüência simples da classe posterior à classe modal. h = amplitude do intervalo de classe. Exemplo: Aplicando a fórmula de Czuber aos dados do exercício anterior, temos: A classe modal é a de maior freqüência, portanto é a terceira, e a moda vale: ( ) ( ) 6 320 10 24, 29 2 6 3 2 Mo −= + ⋅ = − + Observação: A fórmula de Pearson tem normalmente interesse teórico. Se não dispusermos da média e da mediana na distribuição, a fórmula de Pearson é a mais trabalhosa. Esta fórmula é mais adequada para distribuições simétricas. A fórmula de King é a mais simples delas, mas não a mais precisa. A fórmula de Czuber é mais precisa que a fórmula de King, pois leva também em consideração a freqüência da classe modal. Nos exemplos anteriores, o cálculo da moda pelos três processos determinou três valores diferentes. É claro que os três valores obtidos são valores aproximados do verdadeiro valor da moda. Normalmente o mais confiável é o valor da moda de Czuber. Exemplos 1) Determine a moda da tabela de freqüência do exercício 1 do capítulo 2. Estatura (cm) i f 125 |⎯⎯ 130 10 135130 |⎯⎯ 15 14135 |⎯⎯ 0 25 145140 |⎯⎯ 10 15145 |⎯⎯ 0 15 155150 |⎯⎯ 5 Total 80 45 27.200 54, 4 500 i i i x f x f = = =∑ ∑ 250 1852 50 10 55 130 i i i n F ant Md l h f md − − = + ⋅ = + ⋅ = ( ) ( ) 130 10050 10 50 5 55 2 2 130 100 100 i i i i i i f mo f antMo l h f mo f ant f post − − = + ⋅ = + ⋅ = + = − + ⋅ − + Nota: Na maioria das situações, não necessitamos calcular as três medidas de tendência central. Normalmente precisamos de apenas uma das medidas para caracterizar o centro da série. Surge então a questão: qual medida deve ser usada? A medida ideal em cada caso é aquela que melhor representa a maioria dos dados da série. Quando todos os dados de uma série estatística são iguais, a média, a mediana e a moda coincidirão com este valor e, portanto qualquer uma delas representará bem a série. No entanto, este caso dificilmente ocorrerá na prática. Na maioria das vezes, teremos valores diferenciados para a série e conseqüentemente a medida irá representar bem, apenas os dados da série que se situam próximos a este valor. Os dados muito afastados em relação ao valor da média não serão bem representados por ela. Dessa forma, se uma série apresenta forte concentração de dados em sua área central, a média , a mediana e a moda ficam também situadas em sua área central representando bem a série, como na figura abaixo. Como a mais conhecida é a média, optamos por esta medida de tendência central. Concluindo, devemos optar pela média, quando houver forte concentração de dados na área central da série. Se uma série apresenta forte concentração de dados em seu início (assimetria positiva), a mediana e a moda estarão posicionadas mais no início da série, representando bem esta concentração. A média que é fortemente afetada por alguns valores posicionados no final da série se deslocará para a direita desta concentração, não a representando bem. Como a mais conhecida entre mediana e moda é a mediana, esta será a medida indicada neste caso. A mesma situação ocorre se a série apresenta forte concentração de dados em seu final (assimetria negativa). Concluindo, devemos optar pela mediana, quando houver forte concentração de dados no início ou no final da série. x 46 A moda deve ser a opção como medida de tendência central apenas em séries que apresentam um elemento típico, isto é, um valor cuja freqüência é muito superior à freqüência dos outro elementos da série. Exercício 4 1) Determine a moda para os conjuntos abaixo: a) 0, 0, 0, 1, 1, 3 b) 1, 1, 2, 2, 3, 3, 5, 5 c) 1 2 2 6, , , 2 3 10 9 2) A tabela abaixo representa o número de acertos em cada questão de uma prova de sete questões aplicada em determinada turma. Determine a questão considerada mais fácil. Questão if 1 2 2 6 3 14 4 29 5 23 6 11 7 35 Total 120 3) Determinar o valor da moda de Czuber das distribuições apresentadas nos exercícios 4 a 9 do capítulo 2. Mo Md x MoMdx 47 3.6 . Resposta dos exercícios do capítulo Exercício 1: 1 ) a) 4,8 b) 15,2 c) 5,8571 d) 8,5714 2) a) 3,9091 b) 4,625 3) a) 2 b) 3 Exercício 2: 1) µ = 4,67. Não foi aprovado devido a nota média ter sido inferior a 5. Ao conceder 1 ponto em cada nota, a média do estudante passa a ser 5,67. 2) µ = 6,17. Foi aprovado devido a nota média ter sido superior a 5. 3) R$350,00 4) R$1.000,00 5) R$ 1.050,00 6) 33,13 horas 7) 3,6 faltas 8) 1.384,16 peças 9) 3 salários mínimos 10) 748,24 centenas de horas ou 74.824 horas 11) 10,94 toneladas Exercício 3: 1) a) 6Md = b) 5Md = c) 6Md = 2) a) 167,5Md cm= b) 25Md anos= c) $180,00Md R= 3) 34,05 Md horas= 3 faltasMd = 1.405,78 peçasMd = 2, 27 SMMd = 768 centenas de horasMd = 10,93 toneladasMd = 50 Observação: O produto dos quocientes de cada valor de um conjunto de números pela média geométrica do conjunto é igual a 1. 1 2 1n g g g xx x x x x ⋅ ⋅ ⋅ = Exemplo: 37 6 1 14,8997 14,8997 ⋅ = Média Harmônica A média harmônica ( )hx de um conjunto de N números ( )1 2, , , nx x x é o inverso da média aritmética do inverso dos valores. Esta média é particularmente utilizada para a série de valores que são inversamente proporcionais, como para o cálculo da velocidade média. Média Harmônica Simples A média harmônica de um conjunto é dada por: 1 2 1 1 1 1h n i N Nx x x x x = = + + + ∑ Exemplo: Calcular a média harmônica das séries abaixo: a) : 1, 2, 4X 3 3 1,71431 1 1 7 1 2 4 4 hx = = = + + b) : 3, 6, 6X 3 3 4,51 1 1 4 3 6 6 6 hx = = = + + c) : 1, 2, 4, 3X 4 4 1,921 1 1 1 25 1 2 4 3 12 hx = = = + + + d) : 7, 7, 7, 7X 4 4 71 1 1 1 4 7 7 7 7 7 hx = = = + + + e) Um caminhão desenvolve uma velocidade média de 30Km/h para ir da cidade A par a cidade B, e 20Km/h para fazer a viagem de volta. Qual a velocidade média de percurso ida e volta? 51 2 2 24 /1 1 5 30 20 60 hx Km h= = = + Média Harmônica Ponderada Sejam 1 2, , , nx x x um conjunto afetado com as freqüências 1 2, , , nf f f , respectivamente. A média harmônica desse conjunto de números é definida por: 1 2 1 2 i i h n i n i f f x f ff f x x x x = = + + + ∑ ∑ ∑ Exemplo: Sejam os valores 2, 4, 12 com pesos 3, 2, 2 respectivamente. A média harmônica é: 7 7 3,23083 2 2 18 6 2 2 4 12 12 hx = = =+ + + + Exercícios 1) Calcule a média geométrica simples para os conjuntos de dados abaixo: a) 3, 27 b) 2, 8 c) 1, 4, 16 d) 1, 1, 2, 3, 3 2) Calcule a média harmônica simples para os conjuntos de dados abaixo: a) 3, 6, 8 b) 2, 2, 3, 5 c) 5, 5, 5, 5, 5 3) Um automóvel desenvolve 70 Km/h para ir da cidade A para a B, e volta da cidade B para a A com a velocidade de 60 Km/h. Qual a velocidade média? 52 4) Calcule as médias geométrica e harmônica para os conjuntos abaixo: a) b) Resposta dos exercícios do apêndice 1) a) 9 b) 4 c) 4 d) 5 18 1,7826= 2) a) 72 4,8 15 = b) 120 2,6087 46 = c) 5 3) 64,6 /Km h 4) a) 12 12432 1,6581 1,4118 8,5g h x x= = = = b) 7 1401280 2,779 2,5926 54g h x x= = = = ix if 1 7 3 3 4 2 Total 12 ix if 2 4 4 2 5 1 Total 7 55 Exemplo: 1) Calcular o 1Q da seqüência 1, 2, 5, 5, 5, 8, 10, 11, 12, 12, 13, 15. Identificamos que 1 25Q P= Calcularmos 25% de 12, que é o número de elementos da série, obtendo: 25 12 3 100 ⋅ = Este valor indica a posição do 25P no rol, isto é, o 25P é o terceiro elemento no rol. Observando o terceiro elemento do rol obtém-se 5. Portanto, 1 25 5Q P= = Assim, 25% dos valores desta seqüência são valores menores ou iguais a 5 e 75% dos valores desta seqüência são valores maiores ou iguais a 5. 2) Calcular o 6D do rol 2; 2; 6; 7,5; 8; 9; 10; 12 Identificamos que 6 60D P= . Calcularmos 60% de 8, que é o número de elementos da série, obtendo: 60 8 4,8 100 ⋅ = Este valor não é inteiro, indicando que o 60P é um valor situado entre o quarto e o quinto elemento da seqüência. Observando diretamente no rol, os elementos que ocupam a quarta e quinta posição são: 7,5 e 8. Portanto 6 60 7,5 8 7,75 2 D P += = = Assim, 60% dos valores desta seqüência são valores menores ou iguais a 7,75 e 40% dos valores desta seqüência são valores maiores ou iguais a 7,75. 4.5.2 . Dados agrupados em freqüência simples Se os dados estão apresentados na forma de variável discreta, eles já estão naturalmente ordenados. Devemos identificar a medida que queremos obter com o percentil correspondente iP . Em seguida, localizar a posição do percentil na série 100 i n⋅ . Após, com o auxílio da freqüência acumulada da série, localizamos o elemento que ocupa esta posição. O valor deste elemento é o iP . 56 Exenplo: 1) Calcular o 4D para a série: ix if iF 2 3 3 4 5 8 5 8 16 7 6 22 10 2 24 Total 24 - O número de elementos da série é 24if =∑ . Identificamos 4 40D P= , e calculamos 40% de 24, ou seja, 40 24 9,6 100 ⋅ = Esta posição significa que o 40P é um valor compreendido entre o nono e o décimo elemento da série. Observando na coluna da freqüência acumulada, vemos que o nono e o décimo elemento são iguais a 5. Assim, 4 40 5 5 5 2 D P += = = Dessa forma, 40% dos valores desta seqüência são valores menores ou iguais a 5 e 60% dos valores desta seqüência são valores maiores ou iguais a 5. 4.5.3 . Dados agrupados em classe Se os dados estão agrupados na forma de uma variável contínua, eles já estão naturalmente ordenados e o número de elementos da série é in f= ∑ . Para se obter uma fórmula geral para o cálculo dos percentis, vamos generalizar a fórmula da mediana: 2 i i i n F ant Md l h f md − = + ⋅ Identificando 50Md P= , podemos obter uma fórmula particular para o 50P . Portanto, identificando o limite inferior da classe que contém a Mediana ( )il com o limite inferior da classe que contém 50P ( )50l . 57 O termo 2 n pode ser representado na linguagem do 50P como 50 100 n⋅ . A freqüência simples da classe mediana ( )if é a mesma freqüência simples da classe que contém o 50P ( )50f . A freqüência acumulada da classe anterior à classe mediana ( )antF é a freqüência acumulada da classe anterior à classe que contém o 50P . Este termo não se modifica, assim como h , que é a amplitude do intervalo de classe. Assim, a fórmula da mediana, adaptada para a linguagem do 50P pode ser escrita: 50 100 i i i i n F ant P l h f ⋅ − = + ⋅ Substituindo-se 50 pelo índice i , generalizamos a fórmula para o cálculo de qualquer percentil: 100 i i i i i n F ant P l h f ⋅ − = + ⋅ Onde: iP = Percentil ( ) 1, 2, 3, , 99i i = il = limite inferior da classe que contém o percentil i n = número de elementos da série iF ant = freqüência acumulada da classe anterior à classe que contém o percentil i if = freqüência simples da classe que contém o percentil i h = amplitude do intervalo de classe. Exemplo: Calcular o 3Q da série: Notas if iF 0 |⎯⎯ 10 16 16 2010 |⎯⎯ 18 34 3020 |⎯⎯ 24 58 4030 |⎯⎯ 35 93 5040 |⎯⎯ 12 105 Total 105 - 60 CAPÍTULO 5 – MEDIDAS DE DISPERSÃO 5.1 . Introdução Uma breve reflexão sobre as medidas de tendência central permite-nos concluir que elas não são suficientes para caracterizar totalmente uma seqüência numérica. Se observarmos as seqüências: X: 10, 1, 18, 20, 35, 3, 7, 15, 11, 10 Y: 12, 13, 13, 14, 12, 14, 12, 14, 13, 13 Z: 13, 13, 13, 13, 13, 13, 13, 13, 13, 13 concluiremos que todas possuem média 13. No entanto, são seqüências completamente distintas do ponto de vista da variabilidade (dispersão) de dados. Na seqüência Z não há variabilidade de dados. A média 13 representa bem qualquer valor da série. Na seqüência Y, a média 13 representa bem a série, mas existem elementos da série levemente diferenciados da média 13. Na seqüência X existem muitos elementos bastante diferenciados da média 13. Concluímos que a média 13 representa otimamente a seqüência Z, representa bem a seqüência Y, mas não representa bem a seqüência X. O nosso objetivo é construir medidas que avaliem a representatividade da média. Para isso usaremos as medidas de dispersão. Observe que na seqüência Z os dados estão totalmente concentrados sobre a média 13. Não há dispersão de dados. Na seqüência Y há forte concentração dos dados sobre a média 13, mas há fraca dispersão de dados. Já na série X há fraca concentração de dados em torno da média 13 e forte dispersão de dados em relação à média 13. As principais medidas de dispersão que estaremos abordando são: amplitude total, desvio médio simples, variância, desvio padrão e coeficiente de variação. 5.2 . Amplitude Total A amplitude total ( )tA é a diferença entre o maior e o menor valor da seqüência. 61 5.2.1 . Dados brutos ou rol Para o cálculo da amplitude total de um rol basta identificar o maior e o menor valor da seqüência e efetuar a diferença entre estes valores. Exemplo: Determinar a amplitude total da seqüência X: 11, 12, 9, 10, 10, 15. O maior valor desta seqüência é 15 e o menor valor é 9. Portanto 15 9 6 unidadestA = − = . 5.2.2 . Dados agrupados em freqüência simples Como os valores já se apresentam ordenados, a amplitude total é a diferença enter o último e o primeiro elemento da série. Exemplo: Determinar a amplitude total da série ix if 2 1 3 6 5 10 7 3 Total 20 7 2 5 unidadestA = − = 5.2.3 . Dados agrupados em classes Nesta situação, por desconhecer o maior e o menor valor da série, devemos fazer um cálculo aproximado da amplitude total da série. Consideraremos como maior valor da série o ponto médio da última classe e como menor valor da série o ponto médio da primeira classe. A amplitude total é a diferença entre estes valores. Exemplo: Determinar a amplitude total da série 62 Classes if ix 2 |⎯⎯ 4 5 3 64 |⎯⎯ 10 5 86 |⎯⎯ 20 7 108 |⎯⎯ 7 9 1210 |⎯⎯ 2 11 Total 44 - 11 3 8 unidadestA = − = Nota: Apesar da facilidade de obtenção da amplitude total, esta medida apresenta a inconveniência de depender apenas de dois valores da série. É possível modificar completamente a dispersão ou a concentração dos elementos em torno da média, sem alterar a amplitude total da série. É uma medida que tem pouca sensibilidade estatística. 5.3 . Desvio Médio Simples ( )DMS O conceito estatístico de desvio corresponde ao conceito matemático de distância (módulo). A dispersão dos dados em relação à média de uma seqüência pode ser avaliada através dos desvios de cada elemento da seqüência em relação a média da seqüência. O desvio médio simples é definido como sendo uma média aritmética dos desvios de cada elemento da série para a média da série. 5.3.1 . Dados brutos ou rol Calculamos inicialmente a média da seqüência. Em seguida identificamos a distância de cada elemento da seqüência para sua média. Finalmente, calculamos a média destas distâncias. Se a seqüência for representada por 1 2: , , , nX x x x , então o DMS admite como fórmula de cálculo: ix xDMS n − = ∑ Exemplo: Calcular o DMS para a seqüência: X: 2, 8, 5, 6 Determinamos inicialmente a média da série: 2 8 5 6 5,25 4 ixx n + + + = = =∑ 65 5.4 . Variância e Desvio Padrão Observamos no item anterior que a dificuldade em se operar com o DMS se deve à presença do módulo, para que as diferenças ix x− possam ser interpretadas como distâncias. Outra forma de se conseguir que as diferenças ix x− se tornem sempre positivas ou nulas é considerar o quadrado destas diferenças, isto é: ( )2ix x− . Se substituirmos, nas fórmulas do DMS a expressão ix x− por ( )2ix x− , obteremos nova medida de dispersão chamada variância. Portanto, variância é uma média aritmética calculada a partir dos quadrados dos desvios obtidos entre os elementos da série e a sua média. O desvio padrão é a raiz quadrada positiva da variância. Em particular, para estas medidas levaremos em consideração o fato de a seqüência de dados representar toda uma população ou apenas uma amostra de uma população. Quando a seqüência de dados representa uma população a variância será denotada por ( )2 xσ , 2xσ ou simplesmente 2σ e o desvio padrão correspondente por ( )xσ , xσ ou simplesmente σ . Quando a seqüência de dados representar uma amostra, a variância será denotada por ( )2s x , 2xs ou simplesmente 2s e o desvio padrão correspondente por ( )s x , xs ou simplesmente s ., a menos de uma observação. Assim temos: População: ( ) ( ) 2 2 ix xx n σ − = ∑ ( ) ( )2x xσ σ= Amostra: ( ) ( ) 2 2 1 ix xs x n − = − ∑ ( ) ( )2s x s x= 5.4.1 . Dados brutos ou rol Exemplo: 1) Calcule a variância e o desvio padrão da seqüência: X: 4, 5, 8, 5, sendo esta representativa de uma população. Esta seqüência tem 4n = elementos e tem por média: 66 4 5 8 5 22 5,5 4 4 ixx n + + + = = = =∑ Os quadrados das diferenças ( )2ix x− valem: ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) 2 2 1 2 2 2 2 2 3 2 2 4 4 5,5 2,25 5 5,5 0,25 8 5,5 6,25 5 5,5 0,25 x x x x x x x x − = − = − = − = − = − = − = − = Somando-se estes valores obtém-se: ( )2 9ix x− =∑ . Substituindo estes valores na fórmula da variância, teremos: ( ) ( ) 2 2 9 2, 25 4 ix xx n σ − = = =∑ Como o desvio padrão é a raiz quadrada positiva da variância, temos: ( ) ( )2 2, 25 1,5 unidx xσ σ= = = . b) Se a seqüência anterior representasse apenas uma amostra, a variância e o desvio padrão seriam: ( ) ( ) 2 2 9 3 1 3 ix xs x n − = = = − ∑ ( ) ( )2 3 1,73s x s x= = = 5.4.2 . Dados agrupados em freqüência simples Como há repetição de elementos na série, definimos a variância como sendo uma média aritmética ponderada dos quadrados dos desvios dos elementos da série para a média da série. Dependendo se a variável em estudo é representativa de uma população ou de uma amostra, as fórmulas da variância e do desvio padrão ficam: População: ( ) ( ) 2 2 i i i x x f x f σ − = ∑ ∑ ( ) ( )2x xσ σ= Amostra: ( ) ( ) 2 2 1 i i i x x f s x f − = − ∑ ∑ ( ) ( )2s x s x= 67 Exemplo: 1) Calcule a variância e o desvio padrão da série abaixo, representativa de uma população. ix if i ix f ( )2i ix x f− 2 3 6 ( )22 3,65 3 8,1675− ⋅ = 3 5 15 ( )23 3,65 5 2,1125− ⋅ = 4 8 32 ( )24 3,65 8 0,9800− ⋅ = 5 4 20 ( )25 3,65 4 7,2900− ⋅ = Total 20 73 18,55 A média as série é: 73 3,65 20 i i i x f x f = = =∑ ∑ Variância: ( ) ( ) 2 2 18,75 0,9275 20 i i i x x f x f σ − = = =∑ ∑ Desvio padrão: ( ) ( )2 0,9275 0,963x xσ σ= = = 2) Se a série anterior fosse representativa de uma amostra, teríamos os seguintes resultados para a variância e o desvio padrão: Variância: ( ) ( ) 2 2 18,55 0,9763 1 19 i i i x x f s x f − = = = − ∑ ∑ Desvio padrão: ( ) ( )2 0,9763 0,988s x s x= = = 5.4.3 . Dados agrupados em classes Novamente, por desconhecer os particulares valores de ix da série, substituiremos nas fórmulas anteriores estes valores pelos pontos médios das classes. Exemplo: 1) Calcule a variância e o desvio padrão da série abaixo, representativa de uma população. 70 Estes percentuais 68%, 95% e 99% que citamos na interpretação podem ser comprovados, com maior precisão, no estudo da distribuição normal de probabilidades. Quando a distribuição não é perfeitamente simétrica estes percentuais apresentam pequenas variações para mais ou para menos, segundo o caso. Dessa forma, quando se afirma que uma série apresenta média 100x = e desvio padrão 5σ = , podemos interpretar estes valores da seguinte forma: ♦ Os valores da série estão concentrados em torno de100. ♦ O intervalo [ ]95, 105 contém aproximadamente, 68% dos valores da série. ♦ O intervalo [ ]90, 110 contém aproximadamente, 95% dos valores da série. ♦ O intervalo [ ]85, 115 contém aproximadamente, 99% dos valores da série. É importante que se tenha percebido que, ao aumentar o tamanho do intervalo, aumenta-se o percentual de elementos contidos no intervalo. As medidas de dispersão vistas até agora são medidas absolutas e portanto avaliam a dispersão absoluta da série. Todas elas são diretamente proporcionais à dispersão absoluta. Assim, se a série X apresenta 20x = e ( ) 3xσ = , e se a série Y apresenta 22y = e ( ) 2yσ = , podemos afirmar, comparando os desvios, que a série X apresenta maior dispersão absoluta. 2) Para justificar que o denominador da variância amostral deve ser 1n − e não n , usaremos o seguinte argumento: O modelo matemático que calcula a variância de uma amostra não pode ser ( ) ( ) 2 2 ix xx n σ − = ∑ , pois caso isto fosse verdadeiro, este modelo deveria determinar a variância para qualquer tamanho de amostra. Suponha uma amostra constituída de um único elemento 1x . O valor médio da amostra também é 1x . Calculando a variância pelo modelo acima, teremos: ( ) ( ) ( ) 2 2 1 12 0 1 ix x x xx n σ − − = = =∑ . Seríamos induzidos a afirmar que a dispersão da população de onde provém a amostra é zero, isto é, a população é constituída em sua totalidade por elementos idênticos. O que é, em geral, uma afirmação falsa. Para corrigir o modelo matemático, basta colocar no denominador 1n − . O modelo é escrito então: ( ) ( ) 2 2 1 ix xx n σ − = − ∑ Observe que agora o modelo é coerente. Mesmo quando a amostra tiver apenas um elemento 1x , o cálculo de ( )2s x leva-nos a uma indeterminação do tipo 0 0 . O que significa que a variância existe, mas não está 71 determinada. Significa também que amostras de apenas um elemento não nos fornecem informações sobre a variância da série. Cabe ressaltar que, para alguns autores, quando o desvio padrão representar uma estatística de uma amostra considerada pequena ( )30n ≤ , o denominador no desvio padrão deverá ser n -1. A razão disto, é que se obtém uma melhor estimativa do parâmetro da população. Para grandes valores de n ( )30n 〉 não há grande diferença entre a utilização de um ou outro denominador. Exercício 1 1) Calcule a variância e o desvio padrão das séries abaixo, provenientes de uma amostra. a) 1, 3, 4, 8 b) 12, 10, 20, 13, 15 c) 9, 9, 9, 9, 9, 9 2) Baseado nas informações das notas dos alunos A, B, C e D, determine qual o melhor aluno e por quê? A – 7, 7, 10, 10, 1 B – 7, 7, 7, 7, 7 C – 10, 10, 10, 5, 0 D – 10, 1, 7, 7, 10 3) Calcule a variância e o desvio padrão das séries abaixo (amostra): a) Sal. min if 1 7 3 3 4 2 Total 12 b) Notas if 2 4 4 2 5 1 Total 7 72 4) Determinar a variância e o desvio padrão das distribuições apresentadas nos exercícios 4 a 9 do capítulo 2. 5.6 . Coeficiente de Variação Se uma série X apresenta 10x = e ( ) 2xσ = , e uma série Y apresenta 100y = e ( ) 5yσ = , do ponto de vista da dispersão absoluta, a série Y apresenta maior dispersão que a série X . No entanto, se levarmos em consideração as médias das séries, o desvio padrão de Y que é 5 em relação a 100 é um valor menos significativo do que o desvio padrão de X que é 2 em relação a 10. Isto nos leva a definir uma medida de dispersão relativa: o coeficiente de variação. O coeficiente de variação de uma série X é indicado por ( )xCV e é definido como: ( ) ( ) x x CV x σ = . Note que o coeficiente de variação, como é uma divisão de elementos de mesma unidade, é um número puro, podendo ser expresso em percentual. Deste modo, se calcularmos o coeficiente de variação das séries X e Y obteremos: ( ) 2 0,2 ou 20% 10x CV = = ( ) 5 0,05 ou 5% 100y CV = = Comparando os valores destes dois coeficientes concluímos que a série X admite maior dispersão relativa. Como a medida de dispersão relativa leva em consideração a medida de dispersão absoluta e a média da série, é uma medida mais completa que a medida de dispersão absoluta. Portanto, a medida de dispersão relativa prevalece sobre a medida de dispersão absoluta. Podemos afirmar que a série que tem a maior dispersão relativa tem, de modo geral, a maior dispersão. Do exemplo anterior, concluímos que: A série Y apresenta maior dispersão absoluta. A série X apresenta maior dispersão relativa. Portanto, A série X apresenta maior dispersão. Exercício 2 1) Uma indústria de componentes elétricos fábrica um tipo de lâmpada cuja duração média é de 15 dias, com um desvio padrão de 0,26 dias. Um novo tipo de lâmpada foi lançado pela empresa, e constatou-se que a duração média era de 18 dias com um desvio padrão de 0,9. Determinar qual é a melhor lâmpada e por quê? 75 q) 80P r) O percentual de notas entre 1Q e 80P . s) O número aproximado de notas entre 10P e 3Q . 5.7 . Resposta dos exercícios Exercício 1 1) a) 2 8,67 e 2,94s s= = b) 2 14,5 e 3,81s s= = c) 2 0s s= = 2) 3,67 0 4,47 3,67A B C Dσ σ σ σ= = = = Apesar de terem a mesma média, o aluno B pode ser apontado como melhor aluno por apresentar menor dispersão das notas. 3) a) 2 1,64 e 1, 28σ σ= = b) 2 1,67 e 1, 29σ σ= = 4) 2 132 e 11,48 horasσ σ= = 2 7, 29 e 2,7 faltasσ σ= = 2 3.326,04 e 57,67 peçasσ σ= = 2 5,87 e 2, 42 SMσ σ= = 2 27.714,05 e 166,48 centenas de horasσ σ= = 2 0, 48 e 0,69 toneladasσ σ= = Exercício 2 1) 0, 26 0,02 15antiga CV = = 0,9 0,05 18nova CV = = Apesar de haver um acréscimo de 3 dias na vida média da lâmpada, o desvio padrão também aumentou em maiores proporções o que significa que a lâmpada antiga é um melhor produto (mais homogêneo). 2) 0,35CV = 0,75CV = 0,04CV = 0,81CV = 0, 22CV = 0,06CV = 76 3) a) 217,8 b) Consumo mensal (Kwh) i f i fr (%) iF iFr 0 |⎯⎯ 50 2 0,80 2 0,80 10050 |⎯⎯ 15 6,00 17 6,80 150100 |⎯⎯ 32 12,80 49 19,60 200150 |⎯⎯ 47 18,80 96 38,40 250200 |⎯⎯ 50 20,00 146 58,40 300250 |⎯⎯ 80 32,00 226 90,40 350300 |⎯⎯ 24 9,60 250 100,00 Total 250 100 - - c) 20% d) 38,4% e) 41,6% f) 229 g) 267,44 h) 300 i) 60,07 j) 5.148,76 k)71,75 l) 32,95% m) 164,36 n) 275,94 o) 112,5 p) 252,5 q) 283,75 r) 55% s) 163 4) a) $ 25.200 b) Valor da nota (em mil)) i f i fr (%) iF iFr 7 |⎯⎯ 12 2 4 2 4 1712 |⎯⎯ 5 10 7 14 2217 |⎯⎯ 13 26 20 40 2722 |⎯⎯ 10 20 30 60 3227 |⎯⎯ 9 18 39 78 3732 |⎯⎯ 6 12 45 90 4237 |⎯⎯ 5 10 50 100 Total 50 100 - - c) 26% d) 78% e) 22% f) $24.500 g) $20.636,36 h) $30.000 i) $6.640 j) 65.316.326,53 k) $8.081,85 l) 32% m) $19.115,38 n) $31.166,67 o) $15.000,00 p) $27.000,00 q) $32.833,23 r) 55% s) 33
Docsity logo



Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved