暴躁与偏见：为什么常见的5星评价系统不靠谱？

on 2018-11-23 | by 陈子木关注作者

我经常喝咖啡的一家咖啡馆，它在 Google 的评分系统中，只有3星，尽管它是这个城市当中咖啡做的最好喝的非星巴克咖啡。原因仅仅是因为有过两个差评。

有很多公司只生产某些产品，因为他们的这些产品在10年前曾经在亚马逊上获得了很多5星好评。

而我的 Uber 评分仅仅只有4.7分，我唯一的「缺点」是和我的乘客缺乏沟通，因为我全程仅仅只会说「你好，谢谢，再见」，如果有需要，我可能补充几句小贴士。

对于司机而言，如果不小心碰上一位情绪暴躁的乘客，坐在后座猛抽烟，司机一句「请勿吸烟」可能就会带来一个1星差评。然后接下来的一个月，你得花费大量的接单和好评来抹除这个差评带来的负面影响。

滞后效应

我有一个亲戚，将自己的乡间别墅挂在 Airbnb 上面出租。她的第一批客户是一群年轻人，他们租用这个地方希望能够举办派对，但是她不允许，担心躁动的年轻人会把房子给毁了，结果她收到了一个2星差评，这在 Airbnb 的系统中意味着她再也没法把房子租出去了。这使得她不得不重新注册，换个名称重新开始。

这在情况下，如果看评分几乎是没人会来租这房子。这是一种非常典型的滞后效应：当前的系统状态依赖于之前状态和评价。这种模式和信用评级以及银行贷款的运作方式类似，更通俗的讲，就是我们使用过去的行为和状态作为当前的评判指标。同样的，现在所做的事情，最终也只是在未来被窥见，系统反馈的并不是此刻当前的实时状态。

绝大多数的反馈和评论，其实是缺少思考和理智的评价的，这个过程应当花费更多的时间来斟酌和回复，而不是留下一个简单的数字。英剧《黑镜》中每个人之间都互相打分的状况，正在成为现实。或者它已经成为现实了。

见多了这样的事情，稍加反思，我们会意识到，其实很多时候这样的评分所呈现出来的是一种简单粗暴的反馈，它并不适宜每一个人。为什么？因为人类原本就是情感驱动、极为非理性的存在。

有这样一个案例，有一个哥们面对Uber 司机，服务再到位也只会给4星。原因是什么呢？根据他的说法：「只有当司机在我的生命面对极端威胁的时候（重大车祸和恐怖袭击），将我拯救出来，才会给我5星好评。所以我会给这些普通的司机4星的评价，因为他们不值得我打5星。」

我们想从包含了大量非理性评论的评价系统当中，寻找一个理性的答案的时候，这个事情原本就是不合理的。

「我们是否应该让用户给我们写评价吗？」

在 Yelp.com 上，有一个 Q&A 的板块，有人提了这样的一个问题：「我们应该要求客户对我们公司撰写评价吗？」对于这个问题，Yelp 上有人这样回复：

「最好不要。那些真正从产品中获得愉悦感并写下一段好评的用户，和那些用用好评换取折扣的用户看起来很相似但是实际压根不是同一个群体。坦率的讲，绝大多数的企业只是想从那些对他们感到满意的客户征求意见和评价，而不是从不满意的客户那里听取反馈。随着时间的推移，这些经过自我选择的评价会对企业和商业决策产生影响，更直接地说就是偏见。而那些相对精明的用户，在几里以外就能问到偏见的味道。如果你那些从各种非自然渠道求来的好评被 Yelp 给过滤掉了，请不要感到惊讶。」

用户并不总是对的

我们总说，要打造伟大的产品和服务，但是观察用户的行为比听他们说话更有启发性。看他们在做什么，而不是听他们说。问卷调研中也存在类似的问题。面对问卷，很多用户所给的答案简单而直接。「你是一个慷慨的人吗？」很多用户的回复是「当然是！」，无论问卷的形式是「是/否」选项，还是采用数字1~10 评级，或者5星制，结果大抵如此。用户会很大程度上倾向于高估自己的重要性。

「有一句经典的格言是：用户永远是对的。但是我认为情况恰恰相反，用户很少是对的。」——Charlie Trotter, 《纽约时报》

那我们为何还要使用评分系统？

既然评分系统存在如此之多的问题，那么我们为什么还要用它们呢？这是一种沟通方式，在我们购物、阅读或者消费的时候，评级系统是一种社会性的参考和证据。同时，很不幸的一点是，这是一种相对原始而开发不完整的沟通形式，其中包含了人类的先天缺憾。

另一方面，我们仍然使用5星制评级系统，因为人类天生的惰性，这种评级方式足够简单，正好迎合需求而已。

「每个人都这样做，我为什么这不这样做？」这是最常见的一种逻辑。而另外一种常见逻辑则是「Facebook、Google和亚马逊这样的大企业都这样，我不认为大企业会出错」。

这让我想起另外一个有趣的故事：

一名警察看到一个醉汉在路等下摸索，于是上前询问他丢了什么东西。醉汉声称他钥匙丢了，于是警察陪着他在路灯下找了好半天。由于钥匙一直没找到，警察忍不住多问了一句：「你确定钥匙是在这里丢的么？」醉汉没多想直接答道：「不是这里。」警察惊讶道：「那你为何要在这里找？」醉汉理所当然道：「因为这里有光。」

这个故事当中所潜藏的含义不止一重。如果你对于问题追索的不够深入，你的决策很大程度上会受到社会和人群的影响，这种影响会非常深入，并且在很多时候你自己都不一定能察觉得到。就像那个跟着醉汉一起在灯下找不存在的钥匙一样。

类似5星评价这样的评价系统，直到今天依然广受欢迎，另外一个原因是，它能够量化，并且似乎能够提供某些可供参考的逻辑。

「您对我们的产品和服务有什么样的看法？」得到的回复是3颗星，这是否意味着产品需要改进？是单个产品还是整个产品线都需要改进？如果是4颗星又意味着什么？它和3颗星的评价，在程度上有多大的差别？

更深入一点来反思这些问题，你真的会认为这样的数字是可靠的吗？数字和数字之间的逻辑关系是可靠的，3+1=4，可是这些数字映射到人类的情绪、情感、逻辑、表达、想法当中之后，你还确定么？我不这么认为。

我们还应该相信这些评分吗？

有个很好的案例，就是 Facebook Messenger。我每次使用它打电话之后，它会非常讨厌地弹出对话框「这次通话您要如何评价？」，我总会给它留个1星评价。首先因为它是Facebook 的产品，其次它每次都会特别烦人地在通话结束之后弹出来，我还得多按两下关闭它。

但是，当人给出1星差评，并且没有留下详细的反馈内容的时候，你会怎么理解这个1星呢？即使有人留下了反馈和评价，整个系统当中90%以上的内容基本上都是简单的情绪反馈。而在打完电话之后所带来的情感波动，有多少是来自于电话那头的人，又有多少是来自通讯APP本身呢？当这种情绪再更加主观地翻译成一个数字，而这种翻译方式人和人也千差万别。

「将人类情感转化为原始粗糙的数据，比如数字评分和星级，然后希望从这些原始的数据中挖掘出改进产品的合理的答案？也许真实的人类情感比这些数字还要更合理。」

这是一个更加广泛的问题

现在，我们需要坐下来思考一下，也许身为人类的我们应该多做点什么而不是完全指望评分系统。我们被鼓励到处去分享我们的想法和意见，并且似乎大家也有这样的需求。你去过的餐厅会给你发送邮件，询问你体验如何，是否满意，从机场回来，会收到航空公司的调研问卷，询问机场和旅程的体验好坏，等等等等。

如今，每个人都习惯了简单的打分，习惯了用一些迎合需求的评论换取优惠，这让我们在很多时候忘了闭嘴，忘了你手上这杯40块钱的咖啡其实并没有达到你的预期。

现在我们应该做什么？

我们可以改进整个评分体系么？当然可以，但是简单的修改规则又能够走多远？我们有可能很快就遭遇另外一个源于人性的缺陷。所以，相比于立刻马上修改评分系统，更重要的是了解用户和人性固有的缺陷，最终能够对产品、企业产生破坏性影响的东西，其实往往只有很少的一部分。如果我们能够解决这个问题，并且创建能够正确激励用户行为的系统，也许我们能够让评分系统真正给我们带来更好的生活体验。

另一方面，评分系统有如此之多的缺陷，比如最常见的5星评级系统，为什么大家依然会如此的喜欢它呢？还是因为它足够简单足够快，不会觉得麻烦。我们可以通过忘了获得一些东西，首先是获得它，至于好坏是另外一个层面的问题。我们希望得到区分，而评分系统，使得我们可以让一部分问题最大化，然后让另一部分问题最小化。简单的评分系统不是最好的办法。

不要让评论如此简单

在没有解释和说明的情况下，5星评价所给出的评分很好用，但是对于阅读这些评价的人而言，是非常糟糕的，因为从这些分数当中无法了解服务的价值。让用户评分，并且强制用户留言，填写评价内容，这似乎会让用户评价本身的评价过程不那么友好。

有一些团队给出了一个比较合理的评价系统。比如阿迪达斯的多层评价系统，你可有对你所购买的鞋的舒适度，材料质量、设计等不同的方面进行评价。还有一些评价系统，除非用户提供具体图片才能进行更加深入的评价，这使得评价内容的价值相对更高。

我曾经在一家电商公司工作过，有时候我会同客户进行沟通。有一个客户曾经对我们产品给过一个3星评价，原因是快递员很粗鲁。问题在于，快递员压根和我们的公司和产品毫无关系，但是某种意义上你也不能怪客户啊？不过，我们的工作，本质上是尽量规避这些不合理的评价，并且鼓励更多的深思熟虑和具有建设性的评价。

对于评价系统，你要的又是什么呢？是更多的真实评价（不一定好），还是更多的好评（并不一定真实）？

原文作者：Eugen Eşanu
优设编译：@陈子木

优设大课堂

文章来源：

Author：陈子木
link：https://www.uisdc.com/problem-with-online-reviews

下一篇：专访著名设计工作室Ueno 创始人 Haraldur Thorleifsson

上一篇：别问这5个问题，因为它们会扼杀掉你的创造力