你再也无法得知未来中国每年的出生人口

Author: 管思聪 | Origin link: wechat link

一、2012年的出生人口莫名其妙增加了20.7%


今天打开百度,被推送了一则百家号的文章《过去十年出生人口修订数据盘点:2012年增加最多》,文章核心内容有两点:


1、根据我国现行的统计调查制度,大面积人口普查每10年进行一次,两次普查之间的年份开展抽样调查,非普查年份出生人口主要是通过抽样调查数据推算的。由于抽样调查误差的存在,在利用抽样比推算人口总体时会存在一定的差异,反映在数据上就是部分年份公布的出生人口偏低。因此本次人口普查之后会对两次普查之间的抽样推算数据进行修订,这将消除目前抽样推算的数据和人口普查获得的新数据之间的差异。


2、第一财经记者根据近期公布的《中国统计年鉴2021》里的人口出生率与历年人口数据,对过去十年出生人口数据推算梳理显示,修订后,两次普查期间,我国出生人口比修订之前增加了约1015万人,每年的具体情况如下:



看到这里,管老师感觉真的是离了大谱。原因在于,2015、2018、2019年几乎没有误差,2012年统计出生1635万,修订成了1973万,误差何以达到20.7%?样本量如此庞大,竟有这等误差,这在统计学上不科学。于是管老师耐心翻了最近12年的《中国统计年鉴》及第六次人口普查数据,发现了一个非常有趣的事情。


二、2020年及以前的中国统计年鉴还算靠谱


首先我们知道,人口不是凭空产生的,也不是凭空消失的,而且每一个人都会随着时间的流逝增加年龄。比方说,你是1995年生人,那么在第六次人口普查(2010年11月1日),你会被统计为“15岁”,在《中国统计年鉴2016》(2015年12月31日),你会被统计为“20岁”,在《中国统计年鉴2021》(2020年12月31日),你会被统计为“25岁”。


有了这个前提,各年份的《中国统计年鉴》就不是彼此独立的了,而是其中有内在联系的。用列表简单说明:



先注明:


1、2010年和2020年大普查是几乎全覆盖,2015年小普查的覆盖率是1.55%,其他年份的覆盖率是万分之八左右,存在数量级的差别。


2、表上2019年15-19岁的数据是怎么来的呢?答:2019年15-19岁的登记人数是55822人,抽样率是0.78‰,所以55822÷0.78 =71566667人。


2010年“5-9岁 ”人口 ,是2001-2005年这5年间出生的,到了2015年则被统计为“10-14岁”人口,到了2020年则被统计为“15-19岁”人口,这三组数据即“同一拨人在不同年份的被统计数量”,在图中都给标蓝了。我们下文中简称为“ 孪生数 ”。照理说, 2020年的“15-19岁 ”人口应该少于 2 0 10年“ 5-9岁 ”人口,因为后者中有一部分在这10年间死亡。但由于只统计30岁以下的人口,这部分人死亡率并不高,10年死亡率也到不了1%,相比于统计局动辄20.7%的“误差 ,是完全可以忽略的。


透过这个数据初步处理的表,我们可以去分析一件事,普通年份的年鉴,数据真的不靠谱吗?真的会对推算当年出生人口造成如此大的误差吗?我们先排除2020年的数据,拿2010年-2019年的数据做个偏差分析。比如2019年5-9岁的人口相比2014年0-4岁的人口偏差有多少, 统计 孪生数 的偏差 ,就这样我们能够列出25组数据:


其中22组 孪生数 的偏差不到1%,1组 孪生数 的偏差在1%-2%,2组 孪生数 的偏差在5%左右。具体如下图:



这个图怎么理解,就是说2019年5-9岁的人数,和2014年0-4岁的人数基本一致。像这样基本一致的有22组,略微有偏差的有1组,偏差相对较大的有1组。至此,基本可以说明2020年及以前的中国统计年鉴, 起码 在人 口年龄 的统计中,还算靠谱。


三、《中国统计年鉴2021》离了大谱


之前的那个表,管老师把2020年的数据排除了,是因为那个2020年的数据相当令人震惊,现在让它回归:



也许你仍然不理解这些百分比,那咱们放之前的图:



标橙色部分:2010年0-4岁的7553万→2015年5-9岁的7579万,这个属于统计误差,可以理解,但是→2020年,DUANG!10-14岁的8526万? 比之前 活活多了1000万?


标红色部分:2015年0-4岁的8023万→2020年,DUANG!5-9岁的9024万?又 比之前 活活多了1000万?


标黄色部分:2010年15-19岁的9989万→2015年20-24岁的10031万,这个属于统计误差,可以理解,但是→2020年,DUANG!25-29岁的9185万? 比之前 活活少了800万?这800万人是怎么没的?


奇怪的并不是2021年的数据偏差这么大,奇怪的是:


1、如果说统计基础薄弱,方法不得当,你可以有这么大的偏差。然!鹅!你过去十年非常正常,已经证明了,你的统计基础非常强大,你的方法非常得当,你的抽样非常科学。


2、如果说往年的数据都不准,唯独2021的准。那么2021年的数据应该没有任何延续性,你怎么解释2021年15-19岁(标蓝色部分)、20-24岁(标绿色部分)的统计相对准确?


那么为什么唯独2021年这么不正常?为什么会这么离谱?管老师想只有一种原因,但是基于这个号还想要的理由,就不多说了。


另外再说一点,就是一个人说谎只有0次和无数次。比如说管老师跟妹子吹牛说“我有十套别墅、三个游艇和一个飞机”,妹子去求证发现这货实际只有一套公寓,那游艇和飞机十有八九是没有的了。同理,现在《中国统计年鉴2021》说,“2020年0-4岁人口7788万人,5-9岁人口9024万人,10-14岁人口8526万人”,现在你已经知道它说的5-9岁人口、10-14岁人口有问题,那你还能相信他说的0-4岁人口数据吗?更进一步,你无法相信5年的出生人口数据,就能够相信1年的出生人口数据吗?


依管老师看,2020年的出生人口数据,虽然数量很低,但是同时也是今后数量最高的一年;虽然可信度也很低,但是同时也是今后可信度最高的一年。结论就是,你恐怕再也无法通过官方口径得知未来中国每年的出生人口了。


参考资料:

1 、中国统计年鉴:

http://www.stats.gov.cn/tjsj/ndsj/

1.1 2021 年(统计 2020 年年末人口):

http://www.stats.gov.cn/tjsj/ndsj/2021/indexch.htm

2-17 按年龄和性别分人口数 (2020 )

1.2 2020 年(统计 2019 年年末人口):

http://www.stats.gov.cn/tjsj/ndsj/2020/indexch.htm

2-9 按年龄和性别分人口数 (2019 )

1.3 2019 年(统计 2018 年年末人口):

http://www.stats.gov.cn/tjsj/ndsj/2019/indexch.htm

2-9 按年龄和性别分人口数 (2018 )

1.4 2018 年(统计 2017 年年末人口):

http://www.stats.gov.cn/tjsj/ndsj/2018/indexch.htm

2-9 按年龄和性别分人口数 (2017 )

1.5 2017 年(统计 2016 年年末人口):

http://www.stats.gov.cn/tjsj/ndsj/2017/indexch.htm

2-9 按年龄和性别分人口数 (2016 )

1.6 2016 年(统计 2015 年年末人口):

http://www.stats.gov.cn/tjsj/ndsj/2016/indexch.htm

2-9 按年龄和性别分人口数 (2015 )

1.7 2015 年(统计 2014 年年末人口):

http://www.stats.gov.cn/tjsj/ndsj/2015/indexch.htm

2 -8 按年龄和性别分人口数 (2014 )

1.8 2014 年(统计 2013 年年末人口):

http://www.stats.gov.cn/tjsj/ndsj/2014/indexch.htm

2-8 按年龄和性别分人口数 (2013 )

1.9 2013 年(统计 2012 年年末人口):

http://www.stats.gov.cn/tjsj/ndsj/2013/indexch.htm

3-10 按年龄和性别分人口数 (2012 )

1.10 2012 年(统计 2011 年年末人口):

http://www.stats.gov.cn/tjsj/ndsj/2012/indexch.htm

3-8 按年龄和性别分人口数 (2011 )

2 、第六次人口普查数据:(统计 2010 11 1 日人口):

http://www.stats.gov.cn/tjsj/pcsj/rkpc/6rp/indexch.htm

3-1 全国分年龄、性别的人口