基于1993—2015 年全国31 省区的老龄化率数据,采用基因表达式编程(GEP)算法建立老龄化率预测模型,预测了2016—2035 年各省老龄化率,并讨论了未来老龄人口发展的空间差异演化特征。结果表明:第一,预测期内,我国老龄化率呈上升趋势,2020 年和2035 年全国老龄化率将分别达到12.59% 和20.36%,且2020— 2035年老龄化率增速高于2015—2020 年老龄化率增速。第二,老龄化率在2020 年之前总体上呈现从东北、东部、中部至西部逐渐递减态势;同时各省区老龄化率高低与其的经济发展水平有密切关联性。第三,全域空间关联分析表明,全国各省区老龄化率呈现显著的正空间自相关性,存在空间集聚效应,但自相关系数逐渐下降说明老龄化率的空间集聚效应不断减小;局域空间关联性则表明,部分省区老龄人口呈现空间离散特征,且存在这一特征的省区数量在逐渐增加。
一、引言
一国人口年龄结构的变化主要会受到经济发展水平、人口生育意愿以及人口政策等因素的影响。这一过程的一般逻辑为,一方面生育政策的限制和经济发展水平的提升会持续降低人口的生育意愿;另一方面,随着人口生育率的持续下降,一旦突破人口更替水平,则人口结构老化会随之快速加深。因此,人口结构老化是随着社会经济发展而无法回避的现实问题。
自新中国建立以来,我国的人口经历了持续快速增长,特别是随着20 世纪60 年代以及80 年代两次人口生育潮的出现,人口规模持续膨胀。但受到严格的计划生育政策的约束以及改革开放后经济的迅速繁荣,我国的人口出生率快速下降,中国的总和生育率呈现出持续下降趋势,从20 世纪70 年代初的5.8 下降至90 年代中后期的1.8[1];2000 年和2010 年两次人口普查数据表明,我国的总和生育率又持续下降至1.22 和1.18。这意味着中国已迈入严重少子化阶段。与低生育率相对应,我国的老年人口数量持续快速上升。第六次人口普查统计数据显示,中国大陆60 岁及以上人口达到1.78 亿,占总人口的13.26%,比第五次人口普查上升了近3.5%,人口老化程度在快速加深。
在上述背景下,近十多年来讨论我国人口老龄化问题的研究非常活跃,主要论题集中于四个方面:第一,人口老龄化的原因与特征。姚静和李爽(2000)认为计划生育政策和人口寿命的延长是我国人口老龄化的直接原因。并且经过定量分析认为我国存在一下特征:一方面,我国老龄化进程较快,老年人口绝对数量大,低龄老人多,高龄老人增长速度快;另一方面,人口老龄化与综合国力发展不适应;人口老龄化的区域差异显著 [2]。徐升艳和夏海勇认为在不考虑迁移时,生育率下降和预期寿命延长是人口老龄化的两个主要因素,且生育率下降的影响更大[3]。国内不少学者也持有相同的观点[4-7]。陆杰华和郭冉认为现阶段老龄人口规模大,增长速度快,城乡不均衡,老龄进程与经济发展不同步,未富先老都是我国人口老龄化的鲜明特点[8]。除了生育率的下降和寿命的延长,何保臣认为经济的发展和人口流动、迁移会使老龄化人口在某个地区集中[9]。第二,人口老龄化趋势预测。人口预测是对未来人口变动趋势的一种模拟,进行前瞻性预测具有很强的参考价值,已有很多学者对我国未来中长期的人口变动趋势进行了预测和分析。谢安利用中国人口预测系统(CPPS)和人口生命表对2001—2050 年的人口老龄化变化趋势进行了预测,他发现中国老龄化发展速度快,规模大 [10]。程永宏亦利用人口预测软件CPPS 计算出2001— 2060 年中国60 岁以上老龄人口数量,并且其发现人口老龄化所产生的危机关键在于经济增长速度与人口老龄化速度之间的差距[11]。张荣艳等通过建立GM(1, 1)动态预测模型和灰色新陈代谢模型预测了我国2012—2050 年老龄人口的数量及比例[12]。翟振武等借助PADIS—INT 人口预测软件对我国2015—2100 年的人口规模和结构的变动趋势进行了预测分析[13]。第三,人口老龄化对经济增长的作用机制。人口老龄化与经济增长的关系研究也引起了学术界的高度关注。于学军认为从长期趋势看,我国的人口老龄化给社会经济带来的消极影响多于积极影响[14]。但蔡昉等提出,人口老龄化不会对经济发展产生太大的影响[15]。冯剑锋和陈为民从中介效应角度出发,通过因素分解方法从理论上论证了人口老龄化对经济增长的影响存在三种中介路径 [16]。徐翔通过理论分析和数量模拟探讨人口老龄化对经济增长的影响及政策含义,其认为提高生育率和社会教育供给水平可抑制人口老龄化带来的经济增速下滑 [17]。第四,人口老龄化的空间差异研究。近年来,老年人口空间分布特征及地区差异迅速成为学术界关注的热点问题。李日邦和王五一提出老年人口分布在全国东西差异的现象与经济发展水平相关 [18]。杜鹏和王武林认为我国人口老龄化趋势具有明显的区域梯次特征,东部沿海经济发达地区的老龄化速度明显快于中西部地区[19]。王志宝等认为近20年来中国人口老龄化的区域差异主要表现在两方面:一是经济区或省区之间因社会经济发展条件而引起的人口老龄化演化阶段、特征与趋势方面的区域差异;二是区域内部由于城乡人口迁移等原因带来的老龄人口城乡倒置等问题和大都市区内部的老龄人口分布差异 [20]。刘华军等通过研究也发现,在中国人口老龄化程度不断加深的同时,区域差异正持续扩大[21]。
从上述研究看,有关我国人口老龄化问题的讨论,已形成完善的体系与结论,但毫无疑问,在这一领域展开更为科学、新颖而有效的预测研究,仍具有重要的研究价值。在这方面,多方法预测所形成的比较,将为准确校准与把握人口年龄结构变动趋势、进而为人口政策的有效制定提供更为可靠的保障。为此本文将展开进一步讨论。本文的主要研究目标为,首先,在本领域尝试性引入一类全新的预测方法,对中长期我国各省区人口老龄化水平做出有效预测,并通过与其他既有研究的比较,讨论我国人口老龄化的趋势与特征;其次,考虑到我国不同区域人口老化存在差异,进一步对我国各省区人口老龄化变动可能存在的空间变动特征做出解析。
二、研究方法
基因表达式编程(Gene Expression Program,简称GEP)方法是一种借用生命科学中基因、染色体等概念和思路、并通过遗传进化进行数据挖掘、公式发现、预测以及最优化的一种仿生智能算法[22]。GEP 融合了遗传算法(GA)及遗传编程(GP)的优点,利用简单编码解决复杂问题。由于具有很强的稳健性且适用于多种问题的研究,该方法被用于电力需求预测、疾病诊断、石油价格预测等多种领域[23] [24] [25] [26]。
基因表达式编程算法(GEP)作为新型的进化算法,已经在很多领域得到了广泛应用,但在人口预测方面的研究非常少。刘萌伟等提出一种基于基因表达式编程算法的人口预测新方法,证明该方法的预测精度显著高于单变量GM(1,1)模型和多变量神经网络模型[27],能以极高的拟合度改善预测质量。这为老龄人口比例的预测提供了新的研究思路。
GEP 算法的运算过程大致可分为三步:第一,将随机产生的初始染色体解析为表达式树。对应于本文研究对象,也就是将既往年份已知的变量值通过各类表达式组合呈现出不同的预测公式,此为GEP 的主要特色。第二,采用适应度函数值、拟合优度等指标对表达式树进行评估。每个预测公式都有对应的适应度值和拟合优度值,根据得到的适应度值和拟合优度值就可判断预测的效果与准确度。第三,若未进化到最终目标,则采用轮盘赌、锦标赛方法等采样选择,并进行遗传进化,得到新一代染色体。也就是说如果计算出的适应度值和拟合优度值没有达到精度要求,则可进一步改变函数参数,采用新的预测公式重新预测老龄化率。此为算法收敛的关键。最后输出最终目标,如满足条件的函数关系式和预测值等。具体流程见图1。
1. 染色体原理与解析规则
输出函数关系式(表达式树)是GEP 的核心目标,GEP 的特色在于函数关系式可由代表染色体的基因型编码解析而得。基因型编码表示待解决问题的可行解,是转换成表现型编码(表达式树)的基础。染色体由一个或多个基因构成,每个基因对应一个K 表达式(基因型编码的编码区)和一棵表达式树。
GEP 的基因用长度固定的符号串来表示,由头部和尾部两部分组成。其中,头部既可以包含函数符也可以包含终结符,而尾部则只能包含终结符。函数符是指用来连接终结符的函数操作符;终结符是指基因表达式编程中程序的输入、常量以及没有参数的函数。尾部长度t 和头部长度h之间满足以下关系:
其中n 代表函数符集中的所需变量数最多的函数的变量个数(例如,在一般数学运算中,对于开方运算,n 为1;对于乘号或加号运算,n 为2)由染色体转换为函数关系式是对染色体的解析过程,本文以单基因组染色体为例,阐述GEP 的编码规则。假设单基因组染色体的基因型编码为式(2):
解析规则为从上到下,从左到右,直到结点为终结符。表达式树的起始点为第一个符号,终止点一般并不是最后一个符号,终止点后的基因组成非编码区。根据该规则,可得到相应的表现型编码(表达式树)如图2 所示。
上例中,表达式树的基因长度为8,而实际基因长度为13,则最后5 位符号组成该基因的非编码区。这正是GEP 编码的优点,非编码区的存在提高了算法运行的效率,并为遗传进化提供了很大的变异空间。表现型编码和基因型编码的不同,实现了遗传编码的简洁性与复杂性的平衡统一,克服了GA 功能复杂性的不足与GP 难以产生新变异的缺陷,使得种群在进化的时候不易陷入早熟性收敛。
2. 适应度函数
将染色体解析为K 表达式之后,需对表达式进行评价,即检验表达式计算得到的拟合值与实际值(训练数据)之间的符合程度。拟合优度R2值是多元统计中常用的指标,GEP 运算常用适应度函数来评价表达式。适应度函数有多种,其中基于均方误差的适应度函数如下:
三、变量、数据及参数说明
1. 变量说明
本文将老龄化率作为变量,具体计算式为:
其中,Xi 为调查省份的老龄化率,ai 为本省65 岁及以上的人口数量,A 为本省人口总量。
2. 数据来源及描述性统计
本文以1993-2015 年我国大陆31 省的老龄化率为研究样本。数据主要来自《中国统计年鉴》。部分年份缺失数据经拟合而得。
经式(6)可以计算出31 省份的老龄化率,进而可以得到全国平均老龄化率。部分年份的描述性统计如表1 所示。由表1 可知,全国老龄化率呈持续上升趋势,从1993 年的6.1% 上升到2015年的10.4%,且在2000 年之后进入老龄化社会并且继续保持上升的趋势。
3. 建模参数设置
老龄化率预测模型的遗传编码环境是一个二元组<F,T>。其中,终结符集合T 为原始数据经过相空间重构而得到的时间序列数据的变量集合。经过相空间重构技术确定嵌入维数为8,延迟系数为1,因此预测模型的终结符集T={d0、d1、d2…… d7};函数集合F 为连接这些终结符的函数符号集,结合训练数据的大致趋势和拟合情况,本文的GEP 预测模型选用{+、-、*、/} 构建函数符集合F。其余建模参数见表2。
四、预测结果分析
4.1 预测过程解析
这里将全国31 个省份1993—2015 年的老龄化率数据按上述参数进行建模并进行预测。因篇幅所限,如下以上海 为例展示表达式树及函数关系式的结果。运行构建的GEP 老龄化率模型,可得上海的最优染色体的适应度值为987.268,模型的拟合系数为0.760。上海的最优染色体各子树如图3 所示。
由图3 可知,最优染色体的表达式树包括8个子表达式树。通过实验可以得到如下能较好反映未来老龄化率的基因:
在上述关系式中,X 代表被解释变量老龄化率的预测值,d0 - d7 分别代表第t 至t-7 期的老龄化率数据。c0 - c9 表示数值常数,在每个子表达式树中都有相应的数值。表3 为模型得出的上海8个子表达式中各自对应的c0 - c9 值。其他30 省的运算过程类似,对应表达式树和函数关系式不再列出。
4.2 预测结果分析
表4 展示了各省老龄化率GEP 预测模型的最优适应度值和拟合优度R2 值。由表4 可知,各省的最优适应度值中最大值为1000,最小值为987.268,各省的拟合优度R2 值中最大值为0.996,最小值为0.709,全国适应度的平均值为998.233,拟合优度的平均值达到0.858,说明整体拟合效果较好。
利用本文的GEP 老龄化率预测模型预测2016-2035 年的老龄化率,部分年度预测结果见表5。这里将预测期设定为短期(2016-2020 年)及长期(2016-2035 年)两个时期,可以分别观察两时期内各省区老龄化率的变动情况。同时,考虑到人口结构变动的空间特征,如下还将进一步分东、中、西、东北四大区域①,通过比较讨论各区域的变动情况。
依据表5 中的预测结果,可从两方面对我国各省人口老龄化趋势展开讨论。
第一,从四大区域看,2015 年,东北三省的老龄化率均值为11.54%,东、中、西部老龄化率的均值为别为10.44%、10.24% 和9.20%,老龄化率呈现从东北、东部、中部、西部逐次递减的态势。这意味着,经济相对发达的区域,人口老龄化程度越高。而从省域层面看,辽宁的老龄化率达到12.87%,为东北地区老龄化率最高的省份;上海和江苏的老龄化率分别为12.82% 和12.69%,是东部地区老龄化率最高的两个省份;中部地区的湖南、湖北和西部地区的四川、重庆也是各自区域老龄人口占比较高的省区。上述省份在各自区域属于发展水平和经济规模较好的地区,这进一步表明,老龄化率高低与地区经济发展水平密切有关。究其原因,如果某地区经济发展水平越高,居民生活质量就会越高,这将有效延长居民的平均寿命,同时会降低适龄人口的生育意愿,进而从这两个方面加深了老龄化率。但一个值得考虑的不同现象是,经济发展水平相对落后的东北地区,老龄化率普遍较高。可能的主要原因在于除政策性因素和生育意愿因素导致生育率极低外,东北近年来经济快速下滑导致了明显的人口外迁,人口净迁移多数年份都为负值,大量年轻人口的外迁进一步推动了本地区人口老化率。同时,东北以老旧工业为主的产业就业形态,固化了既有产业人口的老化态势,但无法吸引更多的年青人口进入。
第二,从老龄化率发展趋势看,首先,在2015—2020 年的5 年时间里,全国平均老龄化率从10.37% 增加到12.59%,到“十三五”末期(2020年),东北地区的平均老龄化率达到14.72%,东、中、西部的平均老龄化率分别达到12.35%、12.26%和11.01%。四大区域的老龄化率都会快速提高。而从各省区看,上述经济水平较高的省份依旧在各区域中处于较高的老龄化水平。其次,我国老龄化率在2020—2035 年的增长速度将高于2015— 2020 年的增长速度,在2015-2035 年的20年时间里,各省份老龄化率呈现明显的上升趋势,平均老龄化率将增加一倍,达到20.36%,进入重度老龄化发展阶段。同时可以发现,东北地区仍然是四大区域中老龄化率最高的地区,中部地区的老龄化率将超过东部地区,西部地区的老龄化率仍然处于四大区域的最低水平。
4.3 比较检验
表6 列出了本文及既有部分典型老龄化率预测研究的结果。比较看,几类模型预测的结果差异很小,其它研究很好的支持了本文的预测结果。这意味着,本文在老龄化人口预测领域所开辟的这一全新的研究方法具有准确性及实践应用价值。
五、人口老龄化趋势的空间关联特征
上述分析表明,预测期内我国老龄化率不仅呈逐步递增态势,而且各区域老龄人口的空间分布结构呈现明确的变动规律,且存在一定的差异性。据此,为更好揭示未来我国老龄人口的空间变动特征,如下将研究视角进一步推进至31 省区人口老龄化发展趋势的空间特征解析方面,借此讨论未来老龄人口的空间分布特征以及不同省区间老龄人口变动可能存在的关联性。
5.1 空间分布总特征
从三个时点(2015 年、2025 年、2035 年)看31 个省区老龄化率的空间分布情况,可以发现,大部分省区在2015—2035 年期间老龄化率呈上升趋势,各省区人口老龄化水平的差异非常明显,且老龄化率的空间分布具有一定的规律,总体看,东北、东部、中部形成了连绵的老龄化集中区。
5.2 全域空间关联分析
全域空间相关性(Global Spatial Autocorrelation)是一种从整体上描述变量空间分布模式的研究方法,可用单一数值指标来反映整个研究区域的空间相关程度。在全域空间相关性分析中,GlobalMoran´s I 指数是一种最常用的全域空间相关性分析指标(Rey,1999[28] ;朱子明等,2009[29])。其计算公式为:
从表7 可以看出,研究期间,全域Moran´s I 值全部为正但总体趋势在下降。这意味着,全国31省区之间老龄人口分布存在显著的空间自相关性,即老龄化率较高的省区,其周边区域的老龄化率也很高,在老龄化率较低的省区,其周边区域的老龄化率也较低。我国的人口的老龄化具有一定的空间集聚特征,但这种空间集聚特征存在减弱的趋势。前述空间分位图对此亦有相似的表征。
5.3 局域空间关联分析
全域空间相关性分析是从整体上衡量区域间的空间关联性,只能反映老龄人口在空间上的整体聚集程度,而不能反映各个集聚区的集聚程度和集聚种类,而局域空间相关分析可以弥补这一缺点,其还可以进一步有效揭示局域空间存在的相异于整体正空间相关性的非典型特征。LocalMoran´s I 为测度局域空间相关性的常用指标:
其中,Ii 为Local Moran´s I 指数,Xi、Yi 分别为区域i 及其相邻区域j 的属性观测值,n 为研究区域总数,Wij 为空间权重矩阵。同时,其显著性判断标准与Global Moran´s I 相同。若Ii 大于零且显著,表明i 区域的属性值X 与相邻j 区域属性Y 的观测值存在空间集聚特征,若Ii 小于零且显著,则显示为空间离散特征。
将Local Moran´s I 进行可视化处理可以得到Moran 散点图[30],可直观描绘出区域分布存在的异质性特征,见图5。其中,第Ⅰ象限表示集聚区(HH),即高观测值与高观测值相邻,表现出正的空间相关性;第Ⅱ象限表示空心区(LH),即低观测值与高观测值相邻,表现出负的空间相关性;第Ⅲ象限为萧条区(LL),即低观测值与低观测值相邻,显示正的空间相关性;第Ⅳ象限为孤岛区(HL),即高观测值与低观测值相邻,亦呈现出负的空间相关性[31]。同时,通过比较图5 各省2015、2025、2035 年的Moran 散点图,可得出全国各省区老龄化率的分布特征,见表8。
由图5 结合表7 可知,全国各省区老龄化率水平具有明显的空间差异特征,其明确显示出被全域Moran 值所掩盖的负空间相关性区域,即老龄人口空间分布的非典型区域。总体看,局域分布呈现出如下特征:
第一,呈现正空间关联性省域由2015 年的24个减少到2025 年的19 个,并进一步减少为2035年17 个。呈现负空间关联性的省域由2015 年的5 个增加到2025 年的10 个,2035 年增加到12 个。这意味着大部分省区老龄化率逐步呈现离散的趋势,我国老龄人口的集中趋势将持续减弱,老龄化将显现出全国性蔓延之态势。
第二,全国普遍存在的老龄人口集聚的省区在持续减少的同时,将单一显现出以中部为中心的老龄人口集聚区。同时2015 和2025 年,老龄人口集聚区主要集中于东北、东部以及西部的经济发达省份,但至2035 年,将主要分布于东北和中部。
第三,北京和上海由2015 年的老龄人口集聚区变为2035 年的老龄人口萧条区,说明北京和上海的老龄化率将出现下降,其将持续吸引周边省区以至于全国的适龄劳动人口前去生活和工作。西部的四川省一直处于老龄人口分布的孤岛区,而老龄化率较低的内蒙古和新疆在2035 年亦将成为老龄人口分布的孤岛区,这意味着西部的主要省区将处于与京、沪类似的状态。另外,东北三省在2015 年和2025 年一直处于老龄人口分布的集聚区,但至2035 年辽宁将处于了老龄人口分布的空心区,一个可能的原因是辽宁将持续吸纳黑龙江和吉林的青壮年人口,造成三省之间人口年龄结构的绝对化差异。
综合看,我国今后将呈现以区域性核心省区为中心的人口集聚区,但总体上将很难出现大范围的老龄人口的集聚区,老龄人口的分散化趋势将逐步显现。
六、结论
本文的预测研究表明:第一,我国的老龄化率呈快速上升趋势,2020 年全国老龄化率达到12.59%,2035 年将达到20.36% ;2020— 2035 年老龄化率上升的速度高于2015—2020 年老龄化率上升的速度。在2015—2035 年的20 年的时间里,我国老龄化率将会增加一倍,达到20.36%。第二,老龄化率在2020 年之前呈现东北、东部、中部、西部逐渐递减的态势,2020 年之后中部地区老龄化率超过东部地区的老龄化率,并且在各个区域中各省区老龄化率的高低与这个省区的经济发展水平有直接正相关性。第三,全国各省域老龄人口分布呈现显著的正的空间自相关性,但老龄人口的空间集聚效应在不断减小;同时大部分省域老龄人口呈现不断离散的趋势。
基于上述结果可知,我国的人口老龄化过程是我国目前及今后将面临一项极为重大的社会现实问题。面对复杂的老龄化人口局面,今后在统筹与完善人口生育、人口迁流、社会保障等重大政策改革的基础上,坚持以人为本、全面协调可持续的科学发展观,,用人的全面发展统筹解决人口老龄化问题。借此不断提高人口素质,改善人口结构,引导人口合理分布,保障人口安全,促进人口与社会经济、资源环境的协调和可持续发展,从而有效应对人口老化问题。