在概率论与数理统计中,二项分布是一种常见的离散型随机变量分布,它描述了在独立重复试验中成功次数的概率分布情况。当我们对一组服从二项分布的数据进行采样,并计算其样本均值时,如何推导出样本均值的方差公式成为了一个值得探讨的问题。
假设我们有一组独立同分布的随机变量 \( X_1, X_2, \ldots, X_n \),它们各自服从参数为 \( n \) 和 \( p \) 的二项分布 \( B(n, p) \),即每个随机变量表示一次独立实验中成功的次数。对于这些随机变量,我们定义样本均值为:
\[
\bar{X} = \frac{1}{n} \sum_{i=1}^{n} X_i
\]
根据方差的基本性质,样本均值的方差可以表示为:
\[
\text{Var}(\bar{X}) = \text{Var}\left( \frac{1}{n} \sum_{i=1}^{n} X_i \right)
\]
由于各 \( X_i \) 相互独立且同分布,我们可以进一步简化这一表达式:
\[
\text{Var}(\bar{X}) = \frac{1}{n^2} \sum_{i=1}^{n} \text{Var}(X_i)
\]
注意到所有 \( X_i \) 的方差相同,设为 \( \text{Var}(X_i) = \sigma^2 \),则上式变为:
\[
\text{Var}(\bar{X}) = \frac{1}{n^2} \cdot n \cdot \sigma^2 = \frac{\sigma^2}{n}
\]
接下来的关键步骤是确定单个随机变量 \( X_i \) 的方差 \( \sigma^2 \)。对于一个服从二项分布 \( B(n, p) \) 的随机变量 \( X_i \),其方差公式为:
\[
\text{Var}(X_i) = np(1-p)
\]
因此,将此结果代入上述样本均值的方差公式中,最终得到:
\[
\text{Var}(\bar{X}) = \frac{np(1-p)}{n} = p(1-p)
\]
综上所述,当样本容量足够大时,二项分布样本均值的方差公式为:
\[
\boxed{\text{Var}(\bar{X}) = p(1-p)}
\]
这个结论表明,样本均值的方差仅依赖于二项分布的参数 \( p \),而与样本数量 \( n \) 无关。这一特性使得二项分布在实际应用中具有重要意义,尤其是在质量控制、医学研究等领域。