If you're seeing this message, it means we're having trouble loading external resources on our website.

Se estiveres protegido por um filtro da Web, certifica-te de que os domínios *.kastatic.org e *.kasandbox.org estão desbloqueados.

Conteúdo principal
Posição do vídeo:0:00Duração total:15:02

Transcrição do vídeo

. Digamos que eu vivo em um país com 100 milhões de habitantes e que a eleição presidencial está próxima. E para esta eleição presidencial existem dois candidatos. Existe o candidato A e o candidato B. E existe uma realidade... digamos que eu viva num país muito decidido a votar e que todo mundo irá votar em um deles... e todos participarão na eleição e todo mundo irá votar para um dos candidatos, A ou B. E então existe um percentual, existe na realidade aqui, de que p... deixe-me escrever isso bem aqui... talvez 1 menos p por cento... deixe-me fazer primeiro o p... existe na realidade de que talvez p por cento irá votar em B, e eu posso trocá-los se eu quiser. Então p por cento irá votar em B e o resto dos eleitores irá votar em A, então talvez 1 menos p por cento irão votar em A. E você já deve ter reconhecido isso como sendo uma distribuição de Bernoulli. Existe um de dois valores de uma amostra que eu posso pegar. E bem aqui, os valores que eu disse que você está votando para um deles: candidato A, ou você está votando para candidato B. É muito difícil lidar com estes valores. Você não pode calcular uma média entre A e B e tudo isso... estas são letras, não são números. Então para poder manipular isso matematicamente, nós iremos dizer: "amostrar alguém que irá votar para A é equivalente a amostrar um zero e amostrar alguém que irá votar para B é equivalente a amostrar um 1. E se você fizer esta distribuição de Bernoulli, que nós aprendemos no vídeo sobre distribuições de Bernoulli, esta média desta distribuição bem aqui irá ser igual a p. E isso é uma prova bastante simples de como nós obtivemos isso. Então a média desta distribuição, que irá agora ser não um número que esta distribuição pode ter, irá ocorrer em algum lugar bem aqui e isso irá ser igual a p. Agora meu país tem a população de 100 milhões de pessoas. Isso é praticamente, ou definitivamente impossível para mim ser capaz de ir e perguntar a todas as 100 milhões de pessoas em quem elas irão votar. Então eu não serei capaz de saber exatamente qual o valor desses parâmetros. O que minha média é, o que p irá ser. Mas ao invés de fazer isso, eu irei fazer uma amostragem aleatória. Eu irei amostrar esta população, olhar para os dados, e então estimar qual o valor de p. Porquê é isso o que realmente me interessa. Eu realmente me interesso por p. Então eu irei tentar estimar p com uma amostra, e então nós também iremos pensar em quão boa estimativa isso foi. Então eu irei amostrar aleatoriamente, ou entrevistar, 100 pessoas. E digamos que eu tenha obtido os resultados seguintes. Digamos que 57 pessoas disseram que irão votar na pessoa A. Deixe-me escrever isso aqui. Então 57 pessoas disseram que irão votar em A, o que é equivalente a pegar 57 amostras de zero. E então o resto das pessoas, mais uma vez, uma população muito decidida, ninguém ficou indeciso, o resto da população... então 43 pessoas disseram que irão votar para B. Ou o que é equivalente a amostrar 43 1s. Agora dada esta amostra aqui, qual minha média amostral e minha variância amostral? Minha média amostral bem aqui, bem isso irá ser a média desses 0s e 1s. Então eu tive 50 zeros, então isso irá ser 57 vezes zero mais meus 43 1s. Então a soma de todas as minhas amostras, então estes 43 1s mais 43 vezes 1, sobre o número total de amostras que eu peguei... sobre 100. Então o que isso me dá? Então 57 vezes zero é zero. 43 vezes 1 dividido por 100 é 0,43. Essa é minha média amostral, a média de apenas 100 pontos de dados que eu de fato peguei. Agora qual é minha variância amostral? . Variância amostrar irá ser igual à soma das minhas distâncias da média ao quadrado, dividida pelo número das minhas amostras menos 1. Lembre-se, isso é uma variância amostral e nós queremos obter a melhor estimativa da variância real para esta distribuição. E para fazer isso você não irá dividir por 100, você irá dividir por 100 menos 1. Nós aprendemos isso em vários, vários vídeos anteriores. Então eu tenho 57. Então eu tive 57 amostras de zero. Nós iremos fazer isso na mesma cor amarela... 57 amostras de zero. E então cada uma dessas amostras é zero menos 0,43 afastadas da média. Cada uma dessas amostras é zero. Você subtrai 0,43... essa é a diferença entre zero e 0,43. E se nós queremos a distância ao quadrado, eu elevo isso ao quadrado... assim nós calculamos a variância. E são 57 dessas. E então existem 43 vezes isso que eu amostrei como 1 em minha amostra populacional... 43 vezes eu amostrei um 1, e o 1 é 1 menos 0,43 afastado da média porquê isso é a média, e eu quero elevar esta distância ao quadrado. E então eu não quero apenas dividir isso por n. Eu não quero simplesmente dividir por 100... lembre-se, eu estou tentando estimar a verdadeira média populacional. E para fazer com que isso seja a melhor estimativa disso, e eu lhe dei a intuição do porquê, muitos muitos vídeos atrás, nós dividomos por 100 menos 1, ou 99. Vamos pegar a calculadora para agora descobrir nossa variância amostral. Então deixe-me pegar a calculadora, e nós temos... eu irei resolver primeiro o numerador. Eu tenho 57 vezes zero menos 0,43 ao quadrado, mais 43 vezes 1 menos 0,43 ao quadrado. E então tudo isso dividido por 100 menos 1, ou 99... dividido por 99 é igual a 0,2475. Então minha variância, minha variância amostral, é igual a 0,2475. E se eu quiser calcular meu desvio padrão amostral, eu apenas calculo a raiz quadrada disso. Meu desvio padrão amostral irá ser a raiz quadrada da minha variância amostral. Então eu pego a raiz quadrada deste valor que eu já tinha, que é 0,497. E agora deixe-me apenas arradondar isso para 0,50. Então meu desvio padrão amostral é 0,50. Agora se você apenas olhar para isso... você dirá... "OK, então nossa melhor estimativa da porcentagem de pessoas votando em A ou B é realmente o quê você acabou de dizer aqui. Nossa melhor estimativa ou nossa melhor estimativa da média é que 43% das pessoas irão votar em B e que todo o resto irá votar em A. Mas uma questão interessante é quão boa a nossa amostra foi? Vamos fazer isso no próximo nível. Vamos tentar pensar em um intervalo em torno de 43% nos quais nós temos 95%, o que é uma confiância razoável, grosseiramente 95% de certeza de que a média real esteja neste intervalo. Deixe-me deixar isso bem claro. Deixe-me desenhar. Então quanto nós pegamos nossa média maostral nós estamos amostrando da distribuição amostral da média amostral. Deixe-me desenhar isso. A distribuição amostral da média amostral. Então uma vez que nós estamos amostrando de uma distribuição discreta, isso irá ser de fato uma distribuição discreta, mas isso poderá ter 100 valores possíveis. Isso aqui pode ter 100 valores diferentes. Realmente alguma coisa entre zero e 1. Mas eu irei desejar isso como algo contínuo porque irá ser difícil para mim desenhar 100 barras diferentes. Se eu fizesse, você teria uma barra aqui, você teria uma barra aqui... A chance de que sua média amostral seja 1, ela terá uma probabilidade muito baixa, e então você teria mais uma barra, uma barra, uma barra como isso, uma barra como isso, mas isso levaria uma eternidade para desenhar. Então eu irei apenas aproximar isso com essa curva normal bem aqui. Então a distribuição amostral da média amostral... deixe-me escrever isso bem aqui. Então esta é a distribuição amostral da média amostral. . Ela tem alguma média aqui... . Ela tem uma média, e eu posso denotar isso com o mu x com o tachado superior... isso nos diz que esta é a média da distribuição amostral. Mas nós sabemos de muitos, muitos vídeos de que isso irá ser a mesma coisa que a média da população... média que nós estamos amostrando, de que cada amostra veio, cada uma dessas 100 amostras vieram. Então isso irá ser igual a mu, que irá ser igual a p. . Agora essa variância bem aqui, essa variância dessa distribuição... deixe-me desenhá-la como isso... ou ainda melhor vamos fazer o desvio padrão desta distribuição. O desvio padrão desta distribuição, esta distância bem aqui, o desvio padrão da distribuição amostral da média amostral... nós já vimos isso por muitas vezes... irá ser este desvio padrão... isso irá ser o desvio padrão da nossa distribuição populacional. Então este desvio padrão irá ser esta distância bem aqui. Então existe algum desvio padrão associado com esta distribuição. Isso irá ser este desvio padrão, dividido pela raiz quadrada do nosso tamanho amostral. E nós vimos muitos vídeos atrás porquê isso, ao menos experimentalmente faz sentido, ou porquê isso intuitivamente faz sentido. Então isso irá ser a raiz quadrada de 100. Então isso irá dividir esse cara por 10. Agora nós não sabemos o que esse cara é. A única maneira de descobrir o que esse cara irá ser será mesmo entrevistar 100 milhões de pessoas, o que pode ser impossível. Então para estimar o desvio padrão disso, nós iremos usar noss desvio padrão amostral como nossa melhor estimativa para o desvio padrão da população. Então o que nós podemos dizer... e lembre-se, isso é uma estimativa. Nós não podemos ir e descobrir o valor exato disso simplesmente por uma amostra. Mas nós podemos estimá-lo. Porque essa é a nossa melhor estimativa desse desvio padrão, e se nós dividirmos isso por 10, nós teremos nossa melhor estimativa para o desvio padrão da distribuição amostral da média amostral. Então lembre-se, isso é apenas uma estimativa. Isso é apenas uma estimativa. Então a partir desse ponto você deve tomar tudo com um pouco de tempero. Então isso irá ser grosseiramente igual a uma estimativa para isso que irá ser 0,5. . E lembre-se, cada vez que nós fazemos uma nova amostragem daqui, este número irá mudar. Então isso não é algo como uma pedra. Isso depende da nossa amostra. Então isso irá variar em um pouco dependendo dos números que nós obtivermos em nossa amostra. Mas isso irá ser 0,50. Isso é este s bem aqui, este 0,50 dividido por 10, que é igual a 0,05. Então nossa melhor estimativa deste desvio padrão é 0,05, ou você poderia ver isso também como 5%. Agora o quê eu quero fazeri é descobrir um intervalo em torno da média amostral no qual eu esteja razoavelmente confiante usando toda a minha estimativa e tudo que é um... deixe-me dizer, eu estou realmente confiante de que existe a chance de 95% de que a verdadeira média está entre dois desvios padrões... ou deixe-me colocar desta maneira, existe a chance de 95% de que a verdadeira média esteja neste intervalo. Então deixe-me escrever isso. Eu quero encontrar um intervalo de maneira que eu esteja razoavelmente confiante... e eu estou colocando isso numa linguagem bem sentimental porquê isso tudo ocorre em torno do fato de que eu não sei para um fato que o desvio padrão é 0,05... eu apenas estou estimando! Mas eu estou razoavelmente confiante de que existe uma chance de 95% de que a verdadeira média da população, que é a mesma coisa que a proporção da população que irá votar na pessoa B, ou a proporção da população que irá ser um 1. Então isso também é... nós apenas temos que nos lembrar de que mu é igual a p. Então existe a chance de 95% de que o verdadeiro p esteja neste intervalo. E agora, uma vez que eu já gastei 14 minutos neste vídeo, eu irei parar este vídeo, eu irei pausá-lo um pouco, e talvez deixe você pensando sobre isso baseado em tudo o que nós fizemos até aqui. Nós calculamos a média amostra... desculpe, nos calculamos a média amostral bem aqui. Nós calculamos uma estimativa para... e lembre-se, isso é apenas uma média amostral. Nós não sabemos a verdade... isso é a média da nossa amostra. Nós não sabemos a verdadeira média da distribuição amostral, e nós também não sabemos o verdadeiro desvio padrão da distribuição amostral. Mas nós pudemos estimá-la com o desvio padrão amostral. Agora tudo o que nós fizemos até agora, e baseado no que nós vimos anteriormente em intervalos de confiança e tudo isso, como nos podemos encontrar um intervalo de maneira que isso grosseiramente... e eu estou dizendo grosseiramente, porquê nós tivemos que estimar o desvio padrão... e que existe a chance de 95% de que a verdadeira média da nossa população, ou o p, a proporção da população dizendo 1, está neste intervalo? E nós iremos fazer isso no próximo vídeo.