Esta semana estive a ajudar a minha namorada a calcular o tamanho para uma amostra que ela precisa para um trabalho de investigação que está a fazer.
Este post refere-se a um estudo de um parâmetro populacional de proporção, com distribuição binomial (que será aproximado com uma distribuição normal porque n > 30). Por outras palavras, e como exemplo, aquilo que se está a tentar estudar, é uma certa percentagem de pessoas que têm ou não algo (dois resultados possíveis).
Fica aqui registado as fórmulas para referência posterior.
O intervalo de confiança
Nós usamos amostras para fazermos generalizações acerca de uma população (estatística inferencial). Os dados da amostra ajudam-nos a fazer uma estimativa acerca de um parâmetro populacional (média, proporção…). Há estimativas pontuais e há estimativas intervalares.
Um intervalo de confiança tem alta probabilidade de incluir um parâmetro desconhecido da população e tem a seguinte forma:
(estimativa pontual - margem de erro, estimativa pontual + margem de erro)
Critérios para o tamanho da amostra
O tamanho de uma amostra necessária para um certo estudo é influenciado por alguns fatores. Para além do propósito do estudo e do tamanho da população, é necessário saber qual o nível de precisão desejado, o grau de confiança, e o grau de variabilidade.
Será óbvio notar que quanto maior a amostra, maior o nível de precisão e grau de confiança. No entanto, nem sempre temos recursos para colher uma amostra muito grande, portanto é necessário encontrar um equilíbrio entre estes critérios, jogando com valores que achamos aceitáveis até ter-mos um tamanho de amostra viável.
Nível de precisão (margem de erro)
O nível de precisão ou margem de erro, é a amplitude onde o valor real da população é estimado que esteja. Por exemplo, uma margem de erro de 5 pontos percentuais significa que se o valor estimado é de 60% e a margem de erro é 5%, o valor real deverá estar entre 55% e 65%. A margem de erro depende do grau de confiança.
Grau de confiança
O grau de confiança ou de risco é baseado no Teorema do Limite Central. Essencialmente, o grau de confiança é a probabilidade que o intervalo de confiança produzido contém o verdadeiro parâmetro da população. Geralmente provém da escolha do investigador escolher um grau de confiança de 90% ou superior, para estar razoavelmente certo das suas conclusões.
Essencialmente, se um grau de confiança de 95% for escolhido, 95 em 100 amostras deverão ter o verdadeiro parâmetro da população, dentro do intervalo de confiança descrito acima.
Existe sempre um risco de uma amostra não representar o verdadeiro valor da população. Esse risco é diminuído para graus de confiança de 99% e aumentado para graus de confiança de 90% (mais baixos), sendo representado pelas áreas \(^\alpha/_2\), nas caudas da distribuição normal.

O grau de confiança é \(1 - \alpha\). \(\alpha\) chama-se o nível de significância. A área à direita é \(^\alpha/_2\). Os valores \(Z\) chamam-se valores críticos (z -scores).
Grau de variabilidade
O grau de variabilidade refere-se à distribuição de atributos na população. Quanto mais variável, maior o tamanho da amostra será necessário para obter um dado nível de precisão. Quanto menos variável, menor o tamanho da amostra.
Note-se que uma proporção de 50% indica o maior nível possível de variabilidade, e é geralmente usado para obter um tamanho de amostra mais conservador (maior). Se houver algum estudo anterior onde nos podemos basear, podemos usar esse valor para reduzir o tamanho da amostra, mas isso se estivermos confiantes que esse valor representa ou está próximo do valor real do atributo.
Fórmulas para calcular uma amostra para proporções
Como já disse acima, poderá ser necessário calcular variadas dimensões para amostras, com diferentes combinações de graus de confiança, margens de erro e variabilidade.
Para amostras grandes (maior que 30, segundo alguns autores), a seguinte fórmula é representativa de uma amostra de proporções:
Onde \(n_0\) é o tamanho da amostra, \(e\) é a margem de erro ou o nível de precisão desejado, \(p'\) (ver variabilidade acima) é a proporção estimada de um atributo presente na população e \(q' = 1 - p'\) (proporção estimada do atributo que não está presente na população).
\(Z\) é o valor crítico na abcissa da curva normal, que corta uma área nas caudas (ver gráfico em Grau de confiança acima).
Como exemplo, vamos assumir um grau de confiança de 95%.
O \(\alpha\) é dividido por 2 porque pode calhar tanto na cauda direita como na esquerda. Como \(\frac{\alpha}{2}\) representa a área à direita, a área à esquerda é \(1 - \frac{\alpha}{2}\). Ambos devem dar o mesmo valor de área, mas como o \(Z\) à esquerda é negativo, por vezes usa-se a área da esquerda para dar positivo. Na realidade não importa (por causa do quadrado), mas nos cálculos intermédios é mais agradável lidar com valores positivos.
Esse valor pode ser procurado numa tabela da distribuição normal padrão, ou usando uma calculadora como a TI-83:
DISTR (2nd + VARS) > 3: invNorm(
invNorm(0.0975) = 1.959963986
Correção para população finita (proporção)
A fórmula acima assume que a população é infinitamente grande e portanto não depende do tamanho da população. Isso é razoável quando a fração da amostra é muito pequena (a margem de erro é essencialmente a mesma). Em estatística, considera-se uma população finita quando \(^n/_N > 0.05\), ou seja quando a fração amostral é superior a 5%.
Portanto, se a população é pequena, então o tamanho da amostra pode ser reduzido ligeiramente, usando o fator de correção de população finita:
Exemplo
Vamos supor que temos uma população de 2000 doentes, onde queremos saber quantos levam uma dada vacina. Quantas fichas de doentes devemos investigar, para termos 95% de confiança que a proporção estimada (amostra) está dentro de 3 pontos percentuais da verdadeira proporção de doentes que levam a vacina?
Nós sabemos que:
- \(e = 0.03\)
- \(z_{1-\frac{\alpha}{2}} = Z_{0.975} \approx 1.96\) porque o nível de confiança é 95%.
Para saber \(n\), precisamos saber a proporção estimada (amostra) \(p'\). Imaginemos que segundo um estudo anterior, temos um \(p' = 9\%\) (se não houver estudo anterior, assume-se 50%, que é o maior grau de variabilidade, como descrito acima).
- \(p' = 0.09\)
- \(q' = 1 - p' = 0.91\)
Então,
Já que \(^{n_0}/_N = \frac{350}{2000} = 0.175 > 0.05\), então vamos aplicar o fator de correção de população finita:
Portanto precisamos investigar a situação de 298 doentes.