论非量化的奖励机制

Yibo

Nov 12, 2022 • 21 min read

摘要

价格信息在Social Layer 生活中是低效的信号。在探索和建立人际关系的过程中，行为历史、他人评价和价值观都是难以被简单的量化信息所捕捉的。友情、尊重、丰富的精神生活也不能用“效用”大小来直接评估。非量化的奖励机制虽然不像数字一样直观，但它更加有效和真实。

本文前三部分将拆解人类行为动机的细节，第四部分阐述了量化机制掩盖了的信息，第五六部分解释了互惠行为中“贡献”和“收益”、“初衷”和“结果”不可被同等量化的原因，最后的部分说明非量化机制能更合理地认可 Social Layer 中的行为价值。

现代生活的奖励机制
奖励机制拆解（1）——行为动机
奖励机制拆解（2）——对行为动机的反馈
量化的奖励机制下，结果动机必然胜出？
互惠社区里，为什么不能直接比较贡献和收益？
量化的奖励机制为什么在互惠社区里行不通？
团队共同贡献的分配问题如何解决？
从量化到非量化，是历史的倒退么？

一、现代生活的奖励机制

我们和大猩猩有一个很重要的共同点，就是行为、知识和情感的产生都极度依赖于反馈机制。实际上任何一种生命体的生存都依赖于反馈机制，生命体正是基于此生存进化，因为生存需要对外界的反馈产生反应才能不断适应环境。我们这里将奖励机制定义为一种在给定条件下能不断促进某种行为再次发生的反馈机制。

比如人体的能量交换机制是一个生物层面的奖励机制，因为吃东西能让人获得能量，那么为了持续获得能量，我们就会不断进食。短视频吸引人们花越来越多的时间在屏幕上，也利用了生物层面诱发多巴胺分泌的奖励机制。除了生物层面，社会层面也有奖励机制，比如付薪的奖励机制可以鼓励人去工作，高薪行业向来都会吸引大量的从业者，甚至高校相关的专业都会变得非常抢手。

二、奖励机制拆解（1）——行为动机

奖励机制指向某种行为，通过给这种行为的反馈来促进行为的再次发生。行为的发生需要动机，动机分为以下两种：一是跟我们想要的结果有关的动机——结果动机，二是和结果不那么直接相关，但是我们的初衷有关的动机——初衷动机。这两者存在相关性，却有其相对的独立性。

比如，一位医生在尽全力抢救一位病危患者。一方面医生凭借着救死扶伤的道德感，即使他知道患者很大概率不会被抢救回来，且在他此时没有其他人需要抢救的情况下，他也会秉持这个初衷尽全力去抢救，这是初衷动机。

同时另一方面，他在抢救过程中的每一步操作都是为了患者能够活下来的目的，这是结果动机。因此我们看到医生冲进抢救室进行的每一步抢救，背后都有这两个强大的动机支撑着，缺一不可。

最终结果上即使患者没有能够生还，也不会影响别人对医生救死扶伤的初衷的评价。这是两种动机的独立性。当然医生救死扶伤的医德和患者能否康复结果也是息息相关的，如果医生没有希望患者康复的动机，那么他救死扶伤的初衷也不成立。这是初衷动机和结果动机的相关性。

三、奖励机制拆解（2）——对行为动机的反馈

如果一个奖励机制需要长久发挥作用，需要给两种动机（姑且叫结果动机和初衷动机）都建立正向的反馈。实际上，行医这件事已经算是一个有很好奖励机制的例子。社会对于行医救死扶伤的初衷有充分的认可，医生在绝大多数情况下是受人尊敬的职业，且患者恢复健康的结果可以给带来直接的情感反馈，甚至通过积累很多的成功经验和正面的患者评价，医生可以因此获得更高的收入和社会地位。

然而，不是所有职业都有对两种动机有很好的反馈。比如家政保姆行业，一位保姆去帮助一个家庭照顾孩子或者老人，一方面可能有助人为乐的初衷动机，另一方面也希望看到孩子或者老人被照顾得很好的结果，进而获得对于结果的肯定而拿到薪水。对于这个行业，普遍而言，保姆们助人为乐的爱心是不被广泛看到的，奖励机制更是很大程度与此无关，奖励机制更多的是指向结果动机的薪水反馈。

放眼各行各业，从事任何职业都存在这两种动机，随着金钱的引入，对于结果的可衡量性越来越强，我们建立起了对结果动机的强大奖励机制。在我们所处的时代，职业语境中的初衷动机在不断被弱化，取而代之的是可量化的结果-金钱代表的财富。初衷动机所能赋予一份职业的“意义感”逐渐成了饭桌闲聊中一笑置之的“诗和远方”，成了难以企及的奢侈品。偶尔想象一下自己对于“如果不考虑钱，你会选择什么职业？”这个问题的答案，这样的白日梦畅想成为所有无奈选择薪水的大多数，唯一的精神出路。

但是也许今天看到的这种社会现象也只是历史的产物，它并不是一成不变的定理、而会随着时间变化流动。正如我们很难想象罗马帝国时期，是职业的意义感促使一个人选择一个行业做一辈子，甚至每个人的墓碑上记录的最重要的信息是在职业上有多么出类拔萃，而不是他的工作给他换来了多少金钱和面包。

四、量化的奖励机制下，结果动机必然胜出？

货币制度通过我们熟知的价格机制，使得每种行为的结果都可以被量化比较。但是让人们，包括很多经济学家一直没能完全搞清楚的，就是价格是如何确定的。在传统经济学理论框架里，不同商品带来的效用特性和不同商品的生产特点共同决定“需求曲线”（即最优购买曲线）和“供给曲线”（即最优生产曲线），两者的交叉点决定了商品各自的相对价格。因此相对价格的确定实际上包含两个量化关系：

一个是效用 utility 的量化，将不同商品或服务带来的结果（即受益程度）进行比较。这种效用的量化其实至今仍无法应对人际间效用不可比的问题，甚至是在两个以上的结果之间做比较都会出现困难。因为人们的偏好不是“完美偏好”，把世界上所有的事物均可以按效用高低的次序排序是几乎不可能的。现实生活中人们的偏好离不开情景，可能在某情景A优于B，某情景下B优于C，另一个情景下C优于A，比如在沙漠里相比面包我更偏好水，在我和朋友聚会的时候相比水我更偏好酒，在我很饿的时候相比酒我更偏向面包。这时，在同一个维度下比较A、B、C（水、面包、酒）的偏好次序是没法确定的，更没有可能赋予其各自一个量化的效用数值。在每个人很难把所有结果都量化比较的时候，这种结果动机所能产生的效果就会大打折扣。

另一个是生产和结果之间的量化比较，决定了最优生产曲线，即供给曲线的逻辑。实际上这个步骤的量化才是价格机制的核心，因为这个步骤的量化不像比较两种商品那么困难，而是十分容易进行的。这种量化针对同一个行为（生产行为）的贡献和受益进行比较。生产行为的贡献方面，可以理解为付出成本；生产行为的受益方面，可以理解为生产行为获得的补偿，而补偿是来源于消费者支付的价格。不管价格背后的消费者的效用和偏好是不是符合“理性的”，只要有一个数值输入，整个生产曲线就可以运转起来。因为对于生产者来说，他不需要关心商品价格合不合理，他只需要比较自己能得到的补偿是否大于自己的贡献即可。这个机制会促使人们更加注重行为的结果动机，因为将贡献和受益（薪水补偿）进行数值比较实际上节省了我们很多的决策成本，人们在选择进行某种生产行为时，不必花费太多的精力考虑自己的初衷动机。

经典经济学模型艰难地做着不切实际的效用假设、理性经济人来试图证明价格机制的合理性。价格机制在现实生活中确实运行的十分广泛且成功，这种成功并不是因为人们真的如理性经济人般决策和行动，而是生产者将自己的贡献全部量化为了数字而自愿加入生产，这也是资本主义作为量化奖励机制的本质。总而言之，货币制度引导人们将“作为消费者的受益”通过价格机制体现为商品的价格，价格决定收入，收入是生产行为所能获得补偿（也就是生产者的受益）的上限，这进而引导生产者将自己的贡献本身量化。每个人比较行为本身的贡献和行动者的受益，在贡献和受益的不断数字比较中，结果动机获得了全面胜利。

资本主义伦理以结果主义 consequantialism 来解释更为顺畅。结果主义伦理学（consequantialism）和义务伦理学（deontology）的对立在经济学理论中一直没有得到很好的讨论。因为经济学理论中对于理性经济人的假设只有结果动机而缺少初衷动机，所以现实生活中资本主义、货币制度这种量化奖励机制突出了结果动机，忽略了初衷动机。而我们正在承受忽略初衷动机带来的严重后果。比如宏观上，经济外部性问题一直是令各国政府头疼的问题，投资领域上即使存在影响力投资和ESG框架本质上还是没有把重点放在每个生产行为上。这两者如果仅仅拿结果说事，就是博弈论下的囚徒困境。微观上，人们对工作和职业逐渐缺乏意义感，缺少上班的动力和意愿，最终变为仅仅用来糊口的方式。这种无意义的工作会“激怒人性”，对从事者造成“深刻的心理暴力”。

五、互惠社区里，为什么不能直接比较贡献和受益？

实际上，没有货币，我们是无法直接用数字比较生产者的“贡献”和消费者的“受益”的，因为这两者本质是完全不同的体验，一个是劳动一个是消费。但是我们可以跳过一层，从“贡献”-“受益”-“贡献”中，直接比较两个贡献，或者从“受益”-“贡献”-“受益”中，直接比较两个受益。这其实就是我们所谓的“人情帐”，“人情帐”作为早期形式的债务，是早于货币出现的。

“人情帐”是互惠社区的产物，“人情”本质上就是人之间的施惠和给予。互惠行为中，有贡献和受益两面。受益的人在未来某一个时候回馈曾经对他产生贡献的人，这就存在了你来我往。如果对于彼此贡献的礼物有合理的记账衡量，这些互惠就可持续。实际上，往往正是因为“人情帐”不直接将贡献和受益相等，互惠行为才更能持续下去，因为需要等到下一次贡献行为的产生，这一次“交易”才算完成。如果一个人回赠了另一个人一模一样的东西，反而会是互惠关系提前终止的信号。

另一方面，实际上任何一个互惠行为的发生，都不会只存在绝对的贡献者和绝对的受益者，在复杂或者多人参与的活动里更是这样。比如一个人做了这样一个惠及社区的活动——为大家普及讲解法律知识，前来参加这个活动的参与者可以通过给讲解者一些问题反馈或者贡献自己的一些知识和想法，也反过来惠及了包括讲解者在内的场上所有人。举一个离我们生活更加近的例子，互联网公司向公众发布一些产品的时候，经常将消费者描述为纯粹的消费者，而实际上往往正是这些产品的使用者的数据，才是互联网公司的核心生产力。用户对于互联网公司的贡献不弱于程序员。说程序员是贡献者，而用户就是受益者是非常不负责任的结论。

我们知道“人情帐”无法像货币机制一样直接把消费者的“受益”转化成生产者的”受益“，进而将生产者本身的”贡献“和”受益“比较。”人情帐“只能是”贡献”之间的衡量，或者“受益”之间的衡量。且即使对于一种行为（比如使用app）由于贡献者和受益者难以区分，没有人能纯粹地把自己当成单一的角色来进行比较。

六、量化的奖励机制为什么在互惠社区行不通？

互惠行为需要对于行为的初衷动机和结果动机都有显著的反馈，而量化的奖励机制无法衡量初衷动机。非量化的奖励机制，因为会同时考虑到行为本身的初衷动机，从而给整个人际交往带来了一些公正的力量。这种公正的力量，可以体现在以下三个方面：

一是“贡献意愿程度”的考虑，比如Jesse生病了，我给Jesse贡献了药物。我很在乎Jesse，而当时我很缺钱或者其他原因导致我帮jesse找到合适的药并送给他是一件非常不容易的事。不过因为我很在乎Jesse，我克服了很多困难把药及时送给了Jesse。如果只考虑结果，在社会共识条件下找到并贡献药物的成本并不高，所以Jesse下次请我吃个饭之类的，对我而言就有“足额”的回馈。但是如果Jesse求助我之后知道我送给他药花费了我很多精力，我对他十分关心，自然会提高对我这次贡献的价值估计。

二是“独特初衷贡献”的考虑，比如我是一个艺术家，我想给Jesse一个特别的礼物，因此我给Jesse画了一幅画，在人情帐体系下，Jesse无法按照可量化的标准回馈给我一定数量的某种商品，合适的人情交换是，Jesse贡献一个同样独特的东西给我，从而完成双方的互惠。

三是“破产制度“，货币体系下人可以因为运气不好而破产，但是人情帐体系下，人只能因为个人的价值选择而造成“信誉破产”。在人情帐的体系下，如果有人发生不幸，他之前做的所有贡献不会被一笔勾销，就算不幸事件限制了他以后继续贡献的可能形式，他还有很多可能性在互惠社区生存下去。

紧接着可以产生的问题就是，有没有可能把初衷动机折算成一个数字，和结果加总呢？这种尝试将不可避免地落入比较“100%互惠的初衷+0结果”和“0初衷+100%结果”的情况，而这个问题在consequentialism和deontology的对立讨论中仍然没有答案。因此我们可以说互惠社区的奖励机制，因为要同时对行为的初衷动机和结果动机产生反馈，是没有办法被量化的。

七、团队共同贡献的分配问题如何解决？

当一个团队在共同创造某种贡献时，每个人的贡献程度是如何确定的呢？这也是法币世界里很难解决的“何为公正的分配方式”的问题。分配问题能很好的解决也是一个奖励机制能够可持续的重要条件。

如果没有货币，每个人的贡献可能是由团队大多数人的认可决定的，也有可能是由一个“专家长老团”决定的，在面对大多数人和专家长老的力量时，即使团队中有异议也往往不得不服从。分配规则由一个相对比较能够服众且稳定的权力机关制定。如果一定要以数字比例来确定一个人的贡献程度，可能存在的异议就会越多，对于权力机关来说，服众是个很大的挑战。

在货币体系下，货币可以和其他劳动贡献结合形成新的贡献，投入生产。当劳动贡献被货币逻辑异化为仅能享受维持再生产劳动所需的回报，那么剩余所有的价值将全部反馈在货币本身的投资回报里。分配规则会倾向于更加稀缺的生产要素，正常情况下当货币供给过多，回报应该更加倾向于劳动贡献。但是这并没有发生，我们看到的正相反，资产价格上涨速度远快于劳动价格的增长速度。这是因为货币的购买不受限制，货币可以购买劳动，货币也可以被用来购买货币本身。这听起来有些匪夷所思，但是这正是央行印钱体系下的现实，新被创造出的货币，很大一部分被用于购买了非生产性的存量资产，除了哄抬了资产本身的价格以外没有起到任何作用。随着资本“渗透率“不断提升，资本利润的增长速度也持续高于劳动报酬的增长速度。在这样的货币主导的世界里，贡献本身已经不值一提，货币则成为被追逐的目标。

因此，我们需要一个认可真正贡献（而非一种记号）的分配机制，同时又不要求贡献被数字精准衡量；在这种情况下更准确地说，是认可机制。认可需要能够记录每一种贡献行为的特点，包括它的初衷动机和结果动机。这种对于贡献行为的记录，最大程度得保留了贡献的信息要素，不会成为一种通用记号以致于反噬贡献行为本身。也就是说，数字在这里不是必要的，因为不同种类不同初衷的贡献行为本身就是无法量化比较的。

八、从量化到非量化，是历史的后退吗？

从量化到非量化，并不等于回到人情帐记帐的纸笔时代。首先现有技术很大程度提高了对贡献记录的复杂程度和记录容量。我们也许会担心，没有货币的话，信息搜索成本会不会升高。但是如果我们真的仔细想一想，货币世界并没有使得所有决策变得简单。

人类的行为是复杂的，无法用一次或者n次交易来概括，即使目前很多经济模型都这样假设。价格机制并没有神奇到可以给我们传递核心且重要的信息，很多情况下，尤其是互惠语境下，会给我们传递不全面的甚至错误的信息。如果一个人决定参与贡献，贡献什么，与谁组队参与贡献，都需要通过很多途径了解信息才能做出决定，价格在这里并不能起决定性作用。

往往正是很多有意义的社会活动，我们越需要与他人价值观、互惠行为相关的信息，价格信息越不重要。当我们缺少这样的一个鼓励互惠行为的评价体系时，不论价格信号如何满天飞，我们仍处于一个信息匮乏的状态。非量化的奖励机制，是能够在互惠社区发挥作用的奖励机制。而我们忽略了互惠社区也需要奖励机制这一点太久了，是时候改变了。