踏上R语言之旅:解锁数据世界的神秘密码(三)

张开发
2026/7/1 22:48:00 15 分钟阅读
踏上R语言之旅:解锁数据世界的神秘密码(三)
多元相关与回归分析及R使用文章目录多元相关与回归分析及R使用一.变量间的关系分析1.两变量线性相关系数的计算2.相关系数的假设检验二.一元线性回归分析的R计算三、回归系数的假设检验总结一.变量间的关系分析变量间的关系及分析方法如下1.两变量线性相关系数的计算两个变量之间的线性相关用相关系数来表示线性关系总体相关系数计算公式为实际中我们通常计算Pearson相关系数例身高与体重的相关关系分析x1c(171,175,159,155,152,158,154,164,168,166,159,164)#身高x2c(57,64,41,38,35,44,41,51,57,49,47,46)#体重plot(x1,x2)离均差积和函数lxy-function(x1,x2){n-length(x1)sum(x1*x2)-sum(x1)*sum(x2)/n}lxy(x1,x1)[1]556.9167lxy(x1,x2)[1]645.5lxy(x2,x2)[1]813(rlxy(x1,x2)/sqrt(lxy(x1,x1)*lxy(x2,x2)))[1]0.9593031这里r为正值说明该组人群的身高与体重之间呈现正的线性相关关系。当然R语言中也自带求相关系数的函数cor(x,yNULL,methodc(“pearson”,“kendall”,“spearman”))x为数值向量、矩阵或数据框y为空或数值向量、矩阵或数据框method为计算方法包括pearson、kendall和spearman’“三种默认pearson”cor(x1,x2)[1]0.95930312.相关系数的假设检验r与其他统计指标一样也有抽样误差。从同一总体内抽取若干大小相同的样本各样本的相关系数总有波动。要判断不等于0的值是来自总体相关系数ρ0的总体还是来自P≠0的总体必须进行显著性检验。由于来自p0的总体的所有样本相关系数呈对称分布故r的显著性可用t检验来进行。nlength(x1)tr/sqrt((1-r^2)/(n-2))t[1]10.74298计算t值和P值作结论。cor.test(x,y,alternativec(“two.sided”,“less”,“greater”),methodc(“pearson”,“kendall”,“spearman”),…)x,y为数据向量长度相同alternative为备择假设“two.sided”(双侧)“greater”(右侧)或less(左侧)method为计算方法包括pearson、kendall和spearman’三种cor.test(x1,x2)Pearsons product-moment correlation data:x1 and x2 t10.743,df10,p-value8.21e-07alternative hypothesis:true correlation is not equal to095percent confidence interval:0.85748750.9888163sample estimates:cor0.9593031由于p0.05,于是在显著性水平a0.05上接受H1,可认为该人群身高与体重呈现正的线性关系。注相关系数的显著性与自由度有关如n3,n-21时虽然r-0.9070,却为不显著当n400时即使r-0.1000,亦为显著。因此不能只看r的值就下结论还需看其样本量的大小。二.一元线性回归分析的R计算直线方程的模型为yabx式中y为因变量y的估计值x为自变量的实际值a、b为待估参数。其几何意义是a是直线方程的截距b是斜率。其经济意义是a是当x为0时y的估计值b是当x每增加一个单位时y增加的数量。b也叫回归系数。建立直线回归方程得到回归方程y-140.3641.159xblxy(x1,x2)/lxy(x1,x1)amean(x2)-b*mean(x1)c(aa,bb)a b-140.364361.15906建立回归方程作出回归直线plot(x1,x2);lines(x1,ab*x1)三、回归系数的假设检验1.方差分析SSTlxy(x2,x2)SSRb*lxy(x1,x2)SSESST-SSRMSRSSR/1MSESSE/(n-2)FMSR/MSEc(SSTSST,SSRSSR,SSESSE,MSRMSR,MSEMSE,FF)SST SSR SSE MSR MSE F813.000000748.17342564.826575748.1734256.482657115.4115312.t检验sy.xsqrt(MSE)sbsy.x/sqrt(lxy(x1,x1))tb/sbtaqt(1-0.05/2,n-2)c(sy.xsy.x,sbsb,tt,tata)sy.x sb t ta2.54610630.107890110.74297592.2281389R语言自身的拟合线性模型函数lm()lm(formula,…)formula为模型公式如y~x例财政收入与税收的关系探究yxread.table(clipboard,headerT)attach(yx)fmlm(y~x)fm Call:lm(formulay~x)Coefficients:(Intercept)x-1.1971.116得到回归方程y-1.1971.116x接着作回归直线plot(x,y);abline(fm)作回归方程的假设检验1模型的方差分析ANOVA)anova(fm)Analysis of Variance Table Response:y Df Sum Sq Mean Sq F value Pr(F)x1712077712077274272.2e-16***Residuals2975326---Signif. codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘ ’1P0.05,x与y间存在直线回归关系2回归系数的t检验summary(fm)Call:lm(formulay~x)Residuals:Min1Q Median3Q Max-6.631-3.692-1.5355.33811.432Coefficients:Estimate Std. Error t value Pr(|t|)(Intercept)-1.196601.16126-1.030.311x1.116230.00674165.612e-16***---Signif. codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘ ’1Residual standard error:5.095on29degrees of freedom Multiple R-squared:0.9989,Adjusted R-squared:0.9989F-statistic:2.743e04on1and29DF,p-value:2.2e-16由于P0.05,则x与y间存在回归关系总结本小节主要学习了线性相关系数及一元线性回归分析重点讨论了假设检验等方法过程继续加油下节就是多元线性回归分析啦

更多文章