样本量过少时，如何科学衡量喜好程度？

威尔逊得分计算方法

先来一个场景：假设平台售卖两款手机A和B。A手机有800人喜欢，200人不喜欢；B手机有9人喜欢，2人不喜欢。那么，用户更喜欢哪款手机？

相信这个场景，各位朋友在日常生活中、在工作中都遇到过。你们平时是如何做判断呢？希望通过今天的文章，能给大家一个新的视角、也更加科学的方案。

常见的衡量方法

我想，大家的第一反应应该是按照比率进行衡量吧？因此，A手机喜好率=800÷（800+200）=80%B手机喜好率=9÷（9+2）=82%

80%<82%，因此用户更喜欢B手机。

这样对吗？

看起来没毛病。毕竟喜欢率越高，代表用户更喜欢嘛！但是，相信朋友也看出了这个例子的端倪：B手机的总共的样本量才11个，虽然喜欢率高，但是样本量这么低，随便一个数据变化都会对结果产生巨大的影响。

因此，按照这种比率的方法，算出的喜欢率，“靠谱”吗？用统计学的语言，置信吗？

威尔逊得分

上面我们觉得按照简单的喜欢率来计算，有点难衡量。但是，如果不按照喜欢率来比较，还能如何计算呢？这就是我们今天的主题了：威尔逊得分。

（1）公式定义

先看看具体的威尔逊得分计算公式：

u表示正例数（喜欢），v表示负例数（不喜欢），n表示实例总数（总样本数），p表示喜欢率，z是正态分布的分位数（参数），S表示最终的威尔逊得分。得分越高，代表越喜欢的程度、喜欢的概率越大。

通常，当置信度95%的情况下，z取1.96（近似2）即可。其他常见置信水平与z取值的对应关系如下：

关于置信区间的概念，可以参考文章《区间估计的置信区间概念及方法》。

（2）案例验证

下面，我们根据上面的公式，计算一下我们开头案例的A手机和B手机的威尔逊得分情况。

对于A手机，n=1000，p=0.8，按照95%的置信度，取z≈2，代入威尔逊得分公式中，求得S(A)=0.77

对于B手机，n=11，p=0.82，按照95%的置信度，取z≈2，代入威尔逊得分公式中，求得S(B)=0.52

因此，0.77>0.52，A手机的威尔逊得分高于B手机，按照该算法，我们有结论：在置信度95%的情况下，虽然A手机的喜欢率不如B手机，但是有理由相信用户对A手机其实是更加喜欢的。