摘要:本文通过对南开大学1999级研究生考试分数及录取情况的分析,建立以是否录取为应变量,以其它可定性化影响因素为自变量的多元线性回归模型,并利用模型分析应届与非应届本科文档生对研究生录取情况的影响。
关键词:录取、应届、多因素、计量经济学、检验、模型
一、引言
随着中国加入WTO,对高等人才的需求不断增加,以及本科生就业压力的增强,研究生的扩招已成为社会关注的问题。最近几年,我国研究生教育取得了飞速发展,我国现在在校研究生有49万,预计明年研究生将超过60万。近三年来,有25万人在职攻读研究生并报名参加同等学历申请学位考试。
在本学科领域,掌握坚实的理论基础和系统的专门知识,了解本学科国际、国内最新理论研究成果和科技发展动态;具有合理的知识结构和必要的实验技能;具有扎实的理论基础和一定的范文功底;掌握一门外国语,能熟练地阅读本专业文献和撰写范文摘要,并能进行简单的会话交流;具有计算机辅助设计能力,具有从事科学研究、教学工作和独立承担专门技术工作的能力。所以,考研的分数就成为影响录取结果的重要因素之一。
今年的考研新政策中还规定:教育部对参加统一入学考试的应届本科文档生与非应届文档生制定同样的进入复试最低分数线,各招生单位在此基础上,可根据需要,再自主确定应届生与非应届生复试分数线是否有所差别;专业考试内容更加突出能力立意,考查考生解决问题的能力和创新能力。
2002年1月26日,全国62.4万考研大军走进考场参加全国统考。据上海市教育考试院研究生办统计,2002年,全国各地报考上海院校的考生数已占考生总数的35.2%,达59816人。特别值得一提的是,在职的非应届考生超过了应届生。
到底,应届生和非应届生在考研中谁更有优势?研究生的录取是否真的与此有关?我们对此问题作了简单的多因素分析。
二、文献综述
1.《中国高等教育改革》 中国财政经济出版社
……中国是世界上经济增长最快的国家之一,为了保持这样的增长速度,社会对教育程度高的人才需求会是很高的,……从1978至1994年,国家财政收入中用于教育的公共经费从210亿增至980亿人民币,年均增长率为10%。教育经费的大额支出,带来了文盲人口的急剧下降。直至1999年,全国青壮年文盲人数降到了300万以下。
2. http://www.bicea.edu.cn/xc_yanjiusheng/peiyangfangan.htm
攻读硕士学位研究生应适应我国社会主义建设事业的需要,适应北京城市建设与发展的需要,必须坚持又红又专,坚持德、智、体全面发展的方针,培养和造就高素质的创造性人才。具体培养要求是:1、进一步学习、掌握马克思列宁主义、毛泽东思想的基本原理和邓小平建设有中国特色的社会主义理论,树立科学的世界观和为人民服务的人生观,坚持四项基本原则,热爱社会主义祖国。2、有理想、有道德、有文化、有纪律,积极为我国社会主义建设事业服务;遵纪守法、品行端正,服从国家利益;具有献身精神和实事求是、独立思考、勇于创造的科学精神;具有优良的职业道德,有为社会主义现代化建设服务的事业心和责任感。3、在本学科领域,掌握坚实的理论基础和系统的专门知识,了解本学科国际、国内最新理论研究成果和科技发展动态;具有合理的知识结构和必要的实验技能;具有扎实的理论基础和一定的范文功底;掌握一门外国语,能熟练地阅读本专业文献和撰写范文摘要,并能进行简单的会话交流;具有计算机辅助设计能力,具有从事科学研究、教学工作和独立承担专门技术工作的能力。4、具有健康的体魄和心理素质……
3. http://www.cjdaily.com.cn/gb/content/2003-11/07/content_315598.htm
在校考生也需问问自己,读研究生是为了在学术这条路上走下去,还是只为一张硕士文凭或改变一下环境。如果想从事学术工作,则选择学校时,还要考虑报考学校的学术传统以及是否有这个专业的博士点等等,以利于自己在硕士文档后顺利攻读博士。如果考研只是为了将来能找个好工作,不妨考虑那些难度稍微低些,容易考上的学校和专业,而不是盲目追逐名校和热门专业……
4. http://202.113.28.107/
南开大学研究生院主页……
三、研究目的
本文主要对研究生录取情况(应变量)进行多因素分析。搜集相关数据,建立模型,对此进行数量分析。在得到录取与否与各主要因素间的数量关系后,据模型方程中的各因素系数大小,辨别是否为影响因素,以及主要因素和次要因素。
影响录取情况的主要影响因素:
入学考试分数-----考生准备情况
基础知识功底
专业知识功底
生源情况-----应届文档生
非应届文档生
四、建立模型
Y=β1+β2*X+β3*D1+Ui
其中,Y---研究生录取情况 (考生录取为1,未录取为0)
X---入学考试成绩
D1—是否为应届文档生(虚拟变量D1:应届生为1,非应届生为0)
假定:1.地区间总体考生能力层次没有差异;
2.性别对考生能力差异没有影响;
3.应届生群体内部能力层次没有差异;
4.非应届生群体内部能力层次没有差异。
五、数据搜集
数据来源于南开大学研究生主页,1999年研究生录取考试情况表
数据表
obs Y SCORE D1 obs Y SCORE D1 obs Y SCORE D1
1 1 401 1 34 0 332 1 67 0 275 0
2 1 401 0 35 0 332 1 68 0 273 0
3 1 392 1 36 0 332 1 69 0 273 1
4 1 387 0 37 0 331 1 70 0 272 1
5 1 384 1 38 0 330 1 71 0 267 0
6 1 379 0 39 0 328 1 72 0 266 1
7 1 378 0 40 0 328 1 73 0 263 1
8 1 378 0 41 0 328 1 74 0 261 1
9 1 376 1 42 0 321 1 75 0 260 0
10 1 371 0 43 0 321 1 76 0 256 0
11 1 362 0 44 0 318 1 77 0 252 0
12 1 362 1 45 0 318 0 78 0 252 1
13 1 361 1 46 0 316 1 79 0 245 1
14 0 359 1 47 0 308 0 80 0 243 1
15 0 358 1 48 0 308 1 81 0 242 0
16 1 356 1 49 0 304 0 82 0 241 0
17 0 356 1 50 0 303 1 83 0 239 1
18 0 355 1 51 0 303 1 84 0 235 0
19 0 354 1 52 0 299 1 85 0 232 0
20 0 354 0 53 0 297 1 86 0 228 1
21 0 353 1 54 0 294 0 87 0 219 1
22 0 350 0 55 0 293 1 88 0 219 1
23 0 349 0 56 0 293 1 89 0 214 1
24 0 349 0 57 0 292 0 90 0 210 1
25 0 348 1 58 0 291 1 91 0 204 1
26 0 347 1 59 0 291 1 92 0 198 0
27 0 347 1 60 0 287 1 93 0 189 1
28 0 344 1 61 0 286 1 94 0 188 1
29 0 339 1 62 0 286 0 95 0 182 1
30 0 338 0 63 0 282 1 96 0 166 1
31 0 338 1 64 0 282 1 97 0 123 0
32 0 336 1 65 0 282 0
33 0 334 0 66 0 278 0
表 一
由上表拟合考生成绩与录取情况分布图如下:
表 二
因为近几年研究生教育发展太快,各年之间差异太大,数量多而不易搜集,时间数列分析会导致误差,所以采用更为恰当的截面数据资料进行拟合。
六、模型参数估计、检验和修正
1.模型的参数估计
利用EVIEWS软件,用OLS方法估计得:
Dependent Variable: Y
Method: Least Squares
Date: 12/11/03 Time: 14:26
Sample: 1901 1997
Included observations: 97
Variable Coefficient Std. Error t-Statistic Prob.
C -0.779771 0.164152 -4.750292 0.0000
X1 0.003291 0.000517 6.363179 0.0000
D1 -0.099753 0.063346 -1.574741 0.1187
R-squared 0.314474 Mean dependent var 0.144330
Adjusted R-squared 0.299889 S.D. dependent var 0.353250
S.E. of regression 0.295573 Akaike info criterion 0.430639
Sum squared resid 8.212173 Schwarz criterion 0.510269
Log likelihood -17.88600 F-statistic 21.56053
Durbin-Watson stat 0.414836 Prob(F-statistic) 0.000000
表 三
Y= -0.779771 + 0.003291 * X1 -0.099753 * D1
(-4.750292) (6.363179) (-1.574741)
R-squared = 0.314474 Adjusted R-squared = 0.299889 F = 21.56053
由上表可见,虚拟变量D1不显著,说明考生是否为应届生不是影响研究生录取结果的重要因素,所以应该剔除D1。剔除后,得新模型估计结果如下:
Dependent Variable: Y
Method: Least Squares
Date: 12/11/03 Time: 14:42
Sample: 1901 1997
Included observations: 97
Variable Coefficient Std. Error t-Statistic Prob.
C -0.847407 0.159663 -5.307476 0.0000
X1 0.003297 0.000521 6.325970 0.0000
R-squared 0.296390 Mean dependent var 0.144330
Adjusted R-squared 0.288983 S.D. dependent var 0.353250
S.E. of regression 0.297866 Akaike info criterion 0.436060
Sum squared resid 8.428818 Schwarz criterion 0.489146
Log likelihood -19.14889 F-statistic 40.01790
Durbin-Watson stat 0.359992 Prob(F-statistic) 0.000000
表 四
由表可见,修正可决系数比较低,原因应该是在所设定的模型中,可能存在多重共线性及异方差;还由于数据局限性,导致无法在模型中增加新的变量。故我们对上述模型进行计量经济学的检验,并进行修正,看是否能使模型方程得到改进。
2.模型检验
1)异方差检验
White Heteroskedasticity Test:
F-statistic 115.4765 Probability 0.000000
Obs*R-squared 68.94056 Probability 0.000000
Test Equation:
Dependent Variable: RESID^2
Method: Least Squares
Date: 12/11/03 Time: 14:56
Sample: 1901 1997
Included observations: 97
Variable Coefficient Std. Error t-Statistic Prob.
C 1.090081 0.130099 8.378828 0.0000
X1 -0.008854 0.000927 -9.549733 0.0000
X1^2 1.77E-05 1.61E-06 10.95443 0.0000
R-squared 0.710727 Mean dependent var 0.086895
Adjusted R-squared 0.704573 S.D. dependent var 0.122035
S.E. of regression 0.066330 Akaike info criterion -2.557919
Sum squared resid 0.413565 Schwarz criterion -2.478288
Log likelihood 127.0591 F-statistic 115.4765
Durbin-Watson stat 0.876049 Prob(F-statistic) 0.000000
表 五
由表,Obs*R-squared = 68.94056 〉 =5.99147
所以,模型存在异方差。修正如下:
Dependent Variable: Y
Method: Least Squares
Date: 12/11/03 Time: 15:10
Sample: 1901 1997
Included observations: 97
Variable Coefficient Std. Error t-Statistic Prob.
C -0.847407 0.159663 -5.307476 0.0000
X1 0.003297 0.000521 6.325970 0.0000
R-squared 0.296390 Mean dependent var 0.144330
Adjusted R-squared 0.288983 S.D. dependent var 0.353250
S.E. of regression 0.297866 Akaike info criterion 0.436060
Sum squared resid 8.428818 Schwarz criterion 0.489146
Log likelihood -19.14889 F-statistic 40.01790
Durbin-Watson stat 0.359992 Prob(F-statistic) 0.000000
表 六
通过修正发现,修正后和之前的估计结果一样,即无法修正。经过研究,所设应变量为虚拟变量,不应该用线性模型,而应该采用建立logit模型或probit模型
七、重新建立模型
1、模型参数估计
得Logit模型估计结果如下:
表 七
因为D1的系数没有显著性。说明“应届生”和“非应届生”不是决定是否录取的重要因素。剔除D1。得Logit模型估计结果如下
表 八
Y= 拐点坐标 (358.7, 0.5)
表 九
进行probit估计得:
Dependent Variable: Y
Method: ML - Binary Probit
Date: 12/12/03 Time: 19:04
Sample: 1901 1997
Included observations: 97
Convergence achieved after 12 iterations
Covariance matrix computed using second derivatives
Variable Coefficient Std. Error z-Statistic Prob.
C -143.3214 69.81255 -2.052946 0.0401
X1 0.400315 0.195064 2.052224 0.0401
D1 -0.247079 1.643143 -0.150370 0.8805
Mean dependent var 0.144330 S.D. dependent var 0.353250
S.E. of regression 0.116307 Akaike info criterion 0.142794
Sum squared resid 1.271570 Schwarz criterion 0.222424
Log likelihood -3.925501 Hannan-Quinn criter. 0.174992
Restr. log likelihood -40.03639 Avg. log likelihood -0.040469
LR statistic (2 df) 72.22178 McFadden R-squared 0.901952
Probability(LR stat) 2.22E-16
Obs with Dep=0 83 Total obs 97
Obs with Dep=1 14
表 十
由Probit估计结果也可以看出,D1的系数也没有显著性。所以剔除D1,Probit模型最终估计结果是
表 十一
Y= F (-144.456 + 0.4029 xi) 拐点坐标 (358.5, 0.5)
表 十二
两种估计模型的若干预测结果如下表
Probit模型 Logit模型
score Y pi Y pi
350 -3.44 0.0003 -5.95 0.0026
355 -1.43 0.0764 -2.55 0.0738
359 0.00 0.5000 0.00 0.5000
360 0.59 0.7224 0.85 0.7032
365 2.60 0.9953 4.24 0.9858
370 4.62 0.9999 7.64 0.9995
表 十三
由上表预测结果看出,当分数为370时,该生被录取的概率是99.99%;分数为359时,被录取概率为50%;分数为350时,录取率几乎等于0,即没有被录取的可能。即分数直接影响录取情况。
八、设定误差的检验
在建模时,习惯做法是依据经济理论和主观经验去选择对应变量有重要影响的解释变量。在选择过程中,由于认识、理论分析的缺陷、有关统计资料来源不畅等主客观原因,可能无意识得忽略了某些变量,或遗漏某些重要的解释变量,因此,这样所设定的模型可能不正确。所以进行设定误差的检验。
Durbin-Watson检验:
由表四得d=0.359992,以α=0.05,n=97,k’=1查表得dl=1.645,du=1.687。所以0<d<dl,拒绝原假设,d显著,存在设定误差。由于数据来源的局限性,无法再增加解释变量,不能进行修正。
九、模型分析
从模型中可看出:
D1不能作为Y的解释变量。因为从现实意义上讲,应届生刚结束本科教育,对知识掌握比较熟悉,占有理论优势;非应届生工作经验丰富,对知识的运用能力更强。所以应届和非应届各有优势。
模型表明:分数与录取与否高度相关。
模型的修正可决系数很低,模型的拟合优度非常差。
由上述分析可知,我们的模型并不成功。
十、总结
综上所述,我们采用截面数据拟合的模型不能成功的反映研究生录取情况与各影响因素间的数量关系,是一个失败的模型。主要是出于以下几种原因:
(1)由于数据资料的局限性,解释变量过少,无法得出正确的模型进行估计、检验。这一点是模型失败的最根本原因。
(2)我们在模型中所做的假定不合理。考生是来自全国各地,由于各地区经济文化水平的不同导致教育文化水平的发展不均衡,地区间总体考生能力层次一定存在差异。并且同地区应届或非应届考生的能力层次也一定存在差异。这是导致模型错误的另一原因。
十一、感想
由于我们目前所学习的计量经济学模型种类、数量都很有限,以及数学知识的贫乏,不能很好的运用模型做出正确的分析,解决实际问题。又有对现实问题认识的不全面,主观因素放入太多,在选择模型时走了弯路。