立即下载 知乎日报 每日提供高质量新闻资讯

2018 年出生人口数据公布了,这个数字要怎么看?

图片:Ryoji Iwata / CC0

2018 年出生人口预测的启示——哪些变量才是最重要的?

chenqin,数据帝

ag环亚集团 www.npjfj.cn 2018 年出生人口数字已经公布,全年出生人口 1523 万人,比上一年下降 11.6%,「绝不会低于 1500 万人」的 flag 没倒,但比我预测区间(1550-1580 万人)的中间值水平还是要低 50 万。

2018 年中国出生人口有多少?

主要有四个体会:

一,用「抽样调查」来推断总体时,首要考虑代表性。如果抽样结果不具备代表性,可以考虑合成一个。

绝大部分研究,包括知乎上的大部分答案,还有一些做出了研究报告的机构,都使用过去一年个别地区公布的出生人口变化,拿这个数据套到全国头上,然后预测了一个下至 1378 上至 1464 万的结果(典型的观点见图 1,来自2018 年中国出生人口有多少?)。

为什么这样算会得出错误结果呢?很简单,因为这些城市不是一个有代表性的抽样。

比如上面一个例子里面,作者搜集了公布数据的 8 市 1 省,发现这些地区的出生人口下降至少 15%,多的有 35%。但问题是,这里的 8 个城市,有 6 个山东省的,1 个广西自治区的。

这些地区是否对全国有代表性?一个很简单的检测办法,就是去看这个城市在过去时间里面和全国的出生人口走势是否一致。一致性很低的话,当然就是没有代表性了。

比如我们就看这里面占最大比例的山东。在山东统计年鉴―2018的表格 3-2 里我们可以看到,山东省 2015 年到 2017 年出生的人口分别是 124 万人、177 万人和 175 万人。我们把 2015 年作为 100,看一下全国和山东在 2015 年到 2018 年的走势对比:

其中 2018 年是假设山东 2018 年出生人口下降 25%的预测。

在这里选择 2015 年开头,是因为 2015 年是单独二孩政策效应快要结束,全面二孩尚未开始的生育低谷,用它来做基准,能排除掉很多全国各地区的异质性。

从上图不难发现,山东是一个 2016 年和 2017 年上升幅度远超全国的城市,那么山东出生人口在 2018 年下降的话,他的降幅当然也不能代表全国了。因此,所有用山东省各个城市 15%到 35%的同比下降来代表全国出生率下降的研究,全都是错的。

那现在我们知道这样的数据和研究都不能用了,是不是就可以把他们全都扔进垃圾桶不管了?

也不一定,即使是垃圾,好好处理,也能翻出金子来。

想象一个简单的例子,美国大选时,有一些城市因为特别具有全国代表性,因此总能够和全国的选举结果一致,比如印第安纳州的 Vigo 市:

npr.org/2016/11/22/5029

For more than a hundred years, Vigo County, Indiana has consistently voted for the winning president. It chose Barack Obama twice, and then picked Donald Trump this November. In fact, the county is a remarkably accurate bellwether; it's only been wrong two times since the 1890s.

那么有没有这样的地区呢?为了充分利用目前公布城市的信息量,我们可以把所有的城市都做一条类似的曲线出来,见下图:

数据来源见文末

从上表可以看到,每条曲线都有自己的走势,差别很大,但其中江苏省的走势相对来说是最接近的。而按照江苏省的同比走势,2018 年出生人口大约是 2015 年的 94.42%,套用到全国等于 1562 万人;按照环比走势,2018 年江苏省出生人口是 2017 年的 87.2%,套用到全国是 1504 万人。就结果来看,的确是最接近的。因此,2019 年的出生人口,看江苏省的变化,说不定也能提前知道大概结果。

当然,选择一个地区来代表总体是比较偷懒的办法,标准的方法在经济学中称之为「合成控制法」

合成控制方法 (Synthetic Control Methods) 原理如何,是怎样操作?

简单说,就是用一堆样本,给他们一堆权重,让他们的加权结果和想要控制的总体具有一样的统计性质。

在上面的例子里面,相当于我们给江苏省一个等于 1 的权重。而在大部分情况下,我们需要用很多地区和不同的权重来合成一个控制组。

二,「当模型预测误差突然拉大时,考虑一个机械的突变,而非一些渐变的变量,无论后者多么有吸引力,都要坚决地排除掉他们?!?/p>

2017 年我预测出生人口超 1800 万,结果只有 1723 万,这也是这些年来我做人口预测的唯一一次失败。检讨下来,问题出在一孩出生总量被我高估了。

然而正如我一直强调的,人口是一个极难受到外力影响的变量。这样大的预测误差,一定不可能是一个平滑的渐变,一定有一个突变,而且这个突变是我们之前没有考虑到的。比如 1991 年后的出生人口下降,我们已经考虑到了他,本来就在模型里面,所以不是预测失败的原因。

那这个突变到底是什么呢?就在人口数据里面一个个找,看哪些变量之前漏了考虑。

最终发现,这个突变,是 1991 年后出生人口的教育结构变化。

教育结构变化同时带来了机械的婚姻推迟和女性的相对收入提高,这两者都会非常显著的影响生育率。将教育结构变化放进去以后,2011 到 2017 年的一孩出生数量走势就被拟合出来了。

从今年的结果看,2018 年的一孩出生人口还未公布,所以暂时不知道预测相差的 50 万是由于一孩偏少导致的还是二孩偏少导致的,但无论怎样,用这个模型继续推测 2019 年和 2020 年,我的判断是 1460 万和 1410 万人。

三,「当一个模型工作正常,就没有必要加其他变量进去」。

这应该是所有具备科学精神的朋友的共识,但在很多情况下,关键在于你能否抵御诱惑。比如在我之前的答案里,提到这一点:

比起出生率变动的大趋势,什么经济?;?、房价上升,都是连浪花都激不起一朵的小插曲罢了。

很多人不赞同这个观点,认为房价什么的对出生率造成了很大的影响。但事实并非如此。

人口学模型,就像一台确定性极高的机器,只要你正确地了解了他的内部构造,然后再看一下从各个给料口输进多少原料,那么对于产出的结果是有极高把握的。

所以,只要你的模型能够比较好的贴合现实,那么的确完全不需要考虑其他变量?;蛘咚?,这时候你即使加了其他变量,也没有数据能让你判断他的影像方向和影响大小。

对于这种确定性很高的非?;档牟瞿P?,非要说太阳黑子每 11 年不稳定一次你得考虑,或者有人在旁边跳绳造成地面震动可能影响了结果……当然,任何东西都可能有影响,太阳黑子也有,那又怎么样?他对结果不是很重要。

四,房价会影响出生率吗?

终于讲到了本文最想表达的东西。

在中国这个人口预测模型里面,房价也许有影响,但从模型预测结果来看,房价和其他人口学变量相比,影响太小了。

在美国的实证研究里面,比如这篇,

House prices and birth rates: The impact of the real estate market on the decision to have a baby

作者发现,房价每上升一万美元,会导致有房者的生育率上升 2.1%,没房者的生育率下降 0.4%,把两者一起算,一万美元的房价上升,会导致总体生育率上升0.8%。

你没看错,是生育率上升,而不是下降。作者还画了一个简单的趋势图:

当然,实证的手段远远不止这张图。

中国的房价和出生率之间的关系,也有一些人做过,但目前的结果都不能很好地说明问题,这里就不一一提名了。他们要么是用省层面宏观数据来做,忽略了人口的选择问题,因高房价地区更容易将低教育者挤出留下高教育者,而高教育者本身就生育较少;要么使用了相对的住房负担来当做房价,实际上体现出的已经是相对价格而不是绝对价格,无法呈现各城市之间的差异。

去年年中,我和我的合作者把这些文献研究透彻,去除了之前的错误之后,使用 CFPS 数据计算各地出生率和各地房价上涨程度和房价绝对值,重新做过一遍这个研究。

我们用各种手段折磨数据,想看看有没有一个显著的结果,能够把房价和出生率之间的故事讲出来。

可惜,没有。(要有的话,我们早就想办法发表了。)

在逻辑上,这到底是为什么呢?为什么房价对出生率的影响不大?

道理也很简单——问自己一个问题:你不肯生孩子,是因为没房子住吗?是因为住房太拥挤了吗?

或者再来一个思想实验:你一觉醒来,地球表面积变成原来 2 倍,所有的不动产同比例扩大,其他东西不受影响。现在,相当于所与人都用同样的钱买到 2 倍大的房子了。

请问,现在你就愿意生孩子了吗?

《机器猫》的 21 卷有一个有意思的故事,野比觉得日本太拥挤了

于是和机器猫一起把日本变大。

结果是造成了气候变化,海水倒灌,不得不退回原状。

但假设没有这些气候变化,沿着机器猫的剧情走下去,大家能继续生活下去,问题能解决吗?

强夫的房子还是野比的十倍大,他的不动产仍然是野比的十倍。

出木衫还是拿出了他攒了 10 年的首付加上六个钱包买了房子,虽然房子的面积是之前的两倍大。

野比还是买不起房子,因为房地产商并不生产 150 平方米以下的小户型,他们生产的房子总价永远恰好能掏空出木衫这一个层次的「精英」的六个钱包——因为房屋价格是强夫所拥有资本的 markup 和出木衫的需求弹性决定的,等式两边都乘以 2 时,花出去的比例保持不变。而野比?野比的六个钱包在这条线的下方很远。

静子还是不敢生孩子,因为她需要上班才能买得起 150 平米的市面上最小户型,而她要是不上班,也没法雇得起保姆。你说把房子租出去或者卖掉换钱?别忘了保姆家的房子也是之前的两倍大。

你马上会发现,所有人的房子都变大了,他们还是没有时间生娃,带娃,养育娃。横亘在生育面前的问题,一个都没解决。

我六年前有一个回答,提到了这样一个观点:

一个人购买房屋,不仅是在购买房屋的居住价值,更是在购买这块土地由于建造了房屋而被放弃掉的未来工商业产出。

中国楼市房价是否会崩溃?何时崩溃?

这句话的意思就是,房屋只是你的收入相对于资本回报的一个一般等价物,他体现出来的是你的劳动、他人的劳动以及资本的回报之间的比值。

因此,最重要的是,单位时间你的劳动能够换取他人多少单位时间的劳动,能替代多少资本的单位时间回报。

如果这两者没有变化,光是去变化房价,结果就是人们拿着数量是之前两倍但币值通货膨胀到之前一半的货币去买东西。

什么都不会改变。

前文所述数据来源

烟台统计公报:

中国烟台政府门户网站 统计公报 2015 年烟台市国民经济和社会发展统计公报

中国烟台政府门户网站 统计公报 2016 年烟台市国民经济和社会发展统计公报

中国烟台政府门户网站 统计公报 2017 年烟台市国民经济和社会发展统计公报

潍坊统计年鉴:

wf-stats.gov.cn/TJYW/TJ

德州统计公报:

德州市 2015 年国民经济和社会发展统计公报 - 中国统计信息网

德州市 2016 年国民经济和社会发展统计公报_中国统计信息网

2017 年德州市国民经济和社会发展统计公报 - 世界人口大全 -2019 年

淄博统计年鉴:

zibo.gov.cn/module/down

江苏省统计公报:

2015 年江苏省国民经济和社会发展统计公报_中国经济网――国家经济门户

2016 年江苏省国民经济和社会发展统计公报_中国江苏网

2017 年江苏省国民经济和社会发展统计公报_中共江苏省委新闻网

金华市统计年鉴:

jhstats.gov.cn/tjnj/nj2

jhstats.gov.cn/tjnj/nj2

jhstats.gov.cn/tjnj/201

南宁市出生人口:

统计公报_南宁市统计局

扫描二维码下载知乎日报

支持 iOS 和 Android
二维码下载知乎日报
阅读更多 多国「爆发」麻疹,这个几乎绝种的病,为何会卷土重来? ag环亚集团