记一次大数估算

之前在一次电话面试之后,对方提了一个估算的问题:

2017 年 25-35 男性在服装上的整体消费市场有多大(GMV)?

下面是我的计算过程:
整体的公式其实很简单,人数×人均频次×客单价=GMV。接下来需要的就是逐步拆解,去找到能用的信息源。

关于人数

  1. 依据国家统计局给出的人口年龄、男女比例的数据,估算2017年25-35的男性人口比例为 0.087,以14亿人口总数(2017年估算),该年龄段的人口数目约为 1.218 亿。

以上数据源来自国家统计局,估算的方式的话使用的是之前几年数据的拟合。当然拟合的相当粗糙,不过应该不存在数量级的差异。

关于人均频次×客单价

  1. 依据国家统计局给出的季度居民人均衣着消费支出,估算出 2017 年人均衣着支出约为 3400 元。
  2. 人均衣着支出关于年龄的分布,可以猜测是正态分布,25-35 的居民很可能落在正态分布的峰值附近,其平均值与整体的平均值不存在数量级的差异,故可以认为 25-35 的居民 2017 年人均衣着支出也是 3400 元。
  3. 25-35 的男女服装消费的比例有待确认,我这边没有可靠的估算数据来源,不过猜测不会有数量级的差异,故暂定假设是男女消费比例为 2:3。

数据源同样来自国家统计局。其中关于平均值的计算可以看一下正态分布的曲线就能明白。

最后的结果

依上,可得出 25-35 男士的 2017 年总消费额约为 1.218 x 3400 x 2/5 = 1,656.48 约 1700 亿

Last but not least

这类问题,泛一点归类的话,可以归为所谓的费米问题,Wikipedia 中的解释如下:

在科学中,尤其是在物理和工程教育中,费米问题或费米估算是一个用来做量纲分析,估算和清晰地验证一个假设的估算问题。命名自恩里科·费米。这类问题通常涉及对于只给定有限的已知信息,而似乎是算不出来的量,作出合理的猜测。

本质上,这类问题考验的不是实际的准确度。如果了解量纲分析的就知道,这个过程追求的是合理性,而不是准确的数值结果。那么考验的是什么呢?其实就是建模的能力,也就是对于实际问题抽象出模型并验证的能力。举例来说,上面这个问题本质上就考验了一个模型,人数×客单价=GMV,后续的步骤只是依据这个模型找各种数据源来拼接出来结果;再举一个 Wikipedia 上的一个例子:

在芝加哥有多少钢琴调琴师?
大约有9,000,000 人生活在芝加哥。
在芝加哥平均每个家庭有2个人。
大约在20个家庭中有1个家庭有定期地需要调钢琴。
定期调琴的钢琴每年需要调整一次。
每个调琴师大约需要2小时调琴,包括路上时间。
每个调琴师每天工作8小时,一周5天,一年50周。
通过这些假设我们可以计算出每年在芝加哥需要调整的钢琴数量是
(9,000,000 人在芝加哥) / (2 人/家) × (1 架钢琴/20 家) × (1 架钢琴调整/1年) = 225,000 架钢琴在芝加哥每年被调整。
类似地计算出平均每个调琴师
(50 周/年)×(5 天/周)×(8 小时/天)/(1 架钢琴/2小时) = 1000 架钢琴每年/1调琴师。
做除法得到
(225,000 架钢琴在芝加哥每年被调整) / ( 1000 架钢琴每年/1调琴师) = 225 个调琴师在芝加哥。
事实上, 一共有大约290名调琴师在芝加哥。

上面的整个计算过程,核心其实是最后一步,需要被调整的钢琴数÷每个钢琴师能cover的钢琴数=钢琴师的数目。这个也是解决这个问题时建立的模型。当然拆解之后还有其他的模型,例如计算钢琴数目的时候,使用的是 人均数目×总人数 等等。
这类模型里面有一个挺出名的德雷克公式,用来推测可能与我们接触的银河系内外星球高智文明的数量。有趣的是,这个模型也可以用来解释为什么你找不到女朋友(滑稽