样本量过少时,如何科学衡量喜好程度?

威尔逊得分计算方法

先来一个场景:假设平台售卖两款手机A和B。A手机有800人喜欢,200人不喜欢;B手机有9人喜欢,2人不喜欢。那么,用户更喜欢哪款手机?

相信这个场景,各位朋友在日常生活中、在工作中都遇到过。你们平时是如何做判断呢?希望通过今天的文章,能给大家一个新的视角、也更加科学的方案。

01

常见的衡量方法

我想,大家的第一反应应该是按照比率进行衡量吧?因此,A手机喜好率=800÷(800+200)=80%B手机喜好率=9÷(9+2)=82%

80%<82%,因此用户更喜欢B手机。

这样对吗?

看起来没毛病。毕竟喜欢率越高,代表用户更喜欢嘛!但是,相信朋友也看出了这个例子的端倪:B手机的总共的样本量才11个,虽然喜欢率高,但是样本量这么低,随便一个数据变化都会对结果产生巨大的影响。

因此,按照这种比率的方法,算出的喜欢率,“靠谱”吗?用统计学的语言,置信吗?

02

威尔逊得分

上面我们觉得按照简单的喜欢率来计算,有点难衡量。但是,如果不按照喜欢率来比较,还能如何计算呢?这就是我们今天的主题了:威尔逊得分。

(1)公式定义

先看看具体的威尔逊得分计算公式:

u表示正例数(喜欢),v表示负例数(不喜欢),n表示实例总数(总样本数),p表示喜欢率,z是正态分布的分位数(参数),S表示最终的威尔逊得分。得分越高,代表越喜欢的程度、喜欢的概率越大。

通常,当置信度95%的情况下,z取1.96(近似2)即可。其他常见置信水平与z取值的对应关系如下:

关于置信区间的概念,可以参考文章《区间估计的置信区间概念及方法》

(2)案例验证

下面,我们根据上面的公式,计算一下我们开头案例的A手机和B手机的威尔逊得分情况。

对于A手机,n=1000,p=0.8,按照95%的置信度,取z≈2,代入威尔逊得分公式中,求得S(A)=0.77

对于B手机,n=11,p=0.82,按照95%的置信度,取z≈2,代入威尔逊得分公式中,求得S(B)=0.52

因此,0.77>0.52,A手机的威尔逊得分高于B手机,按照该算法,我们有结论:在置信度95%的情况下,虽然A手机的喜欢率不如B手机,但是有理由相信用户对A手机其实是更加喜欢的。