本文讨论了几种子集和收缩方法:最佳子集回归, 岭回归, LASSO, 弹性网, 最小角度回归, 主成分回归和偏最小二乘。本文讨论了七种流行的收缩和选择方法的数学属性和实际的Python应用。
任务是根据一组临床和人口统计学变量确定前列腺癌的风险因素。数据以及变量的一些描述可以在Hastie等人的网站以及 “统计学习的要素”教科书的数据部分找到。
Hastie等人的网站http:web.stanford.edu~hastieElemStatLearn我们将首先导入本文中使用的模块,加载数据并将其拆分为训练和测试集,分别保留目标和特征。
在岭回归中,线性回归损失函数以这样的方式增强,不仅可以最小化残差平方和,还可以惩罚参数估计的大小:?解决这个最小化问题可得到βs的分析公式:?其中I表示单位矩阵。
是的,确实如此,从岭回归估计的偏差和方差的公式中可以清楚地看出:随着λ的增加,偏差也随之增加,而方差则下降!?现在,如何选择λ的最佳值?