【可决系数公式】在统计学中,可决系数(R²)是一个用于衡量回归模型对数据拟合程度的重要指标。它表示因变量的总变异中,由自变量解释的部分所占的比例。R² 的取值范围在 0 到 1 之间,数值越大,说明模型对数据的解释能力越强。
一、可决系数的基本概念
可决系数是通过比较总平方和(SST)与残差平方和(SSE)之间的关系来计算的。其核心思想是:模型能够解释的数据变化越多,R² 值就越高。
- 总平方和(SST):反映因变量的总变异。
- 残差平方和(SSE):反映模型未能解释的变异。
- 回归平方和(SSR):反映模型能解释的变异。
二、可决系数的公式
可决系数 R² 的基本公式如下:
$$
R^2 = \frac{SSR}{SST} = 1 - \frac{SSE}{SST}
$$
其中:
- $ SSR = \sum (\hat{y}_i - \bar{y})^2 $
- $ SSE = \sum (y_i - \hat{y}_i)^2 $
- $ SST = \sum (y_i - \bar{y})^2 $
三、各部分含义说明
名称 | 公式 | 含义说明 |
总平方和 | $ SST = \sum (y_i - \bar{y})^2 $ | 因变量的总变异 |
回归平方和 | $ SSR = \sum (\hat{y}_i - \bar{y})^2 $ | 模型解释的变异 |
残差平方和 | $ SSE = \sum (y_i - \hat{y}_i)^2 $ | 模型未解释的变异 |
可决系数 | $ R^2 = \frac{SSR}{SST} = 1 - \frac{SSE}{SST} $ | 模型对数据的解释比例 |
四、可决系数的意义与局限性
意义:
- R² 越接近 1,说明模型对数据的拟合效果越好;
- 可用于比较不同模型的拟合优度。
局限性:
- R² 不会随着变量增加而减少,因此不能完全反映模型的准确性;
- 高 R² 并不意味着因果关系存在;
- 在多元线性回归中,应使用调整后的 R²(Adjusted R²)以避免过度拟合问题。
五、总结
可决系数是评估回归模型性能的重要工具,其计算基于总平方和、回归平方和和残差平方和的关系。通过理解 R² 的公式及其背后的统计意义,可以帮助我们更好地判断模型的解释力和适用性。在实际应用中,还需结合其他指标(如均方误差、调整 R² 等)进行综合分析。
表:可决系数相关公式汇总
指标 | 公式 | 用途说明 |
SST | $ \sum (y_i - \bar{y})^2 $ | 总变异 |
SSR | $ \sum (\hat{y}_i - \bar{y})^2 $ | 模型解释的变异 |
SSE | $ \sum (y_i - \hat{y}_i)^2 $ | 残差变异 |
R² | $ \frac{SSR}{SST} = 1 - \frac{SSE}{SST} $ | 拟合优度 |
通过以上内容,可以更清晰地掌握可决系数的核心概念和计算方法。
以上就是【可决系数公式】相关内容,希望对您有所帮助。