AI勒索和微信诅咒

今天,全球的社交网络似乎都在为一件事情着迷:Elon Musk和Grimes正在交往(dating)。而这种关注却也令人意外地让一个叫做“Roco's Basilisk”的思想实验为人所知。

“Roco‘s Basilisk”来自一个自称为“Roco”的人在知识论坛“Less Wrong”上发表的一个思想实验。这个实验脱胎于另一个叫做“Newcomb's paradox”的思想实验:

有一位预言家和一位玩家,以及两个分别标为A和B的盒子。玩家有两个选择,要么只拿B盒子,要么A、B两个盒子都拿。玩家知道如下信息:
A盒子是透明的,并且总是装有1000元钱。
B盒子是不透明的,它所装的内容由预言家提前设定:如果预言家认为玩家会A和B两个盒子,那么B盒子里就什么也没有;如果预言家认为玩家会只拿B盒子,那么就会在B盒子里放100万元。
玩家应该如何选择?

用基本的博弈论知识来分析的话,我们会得到如下表格:

预测选择 实际选择 结果
A+B A+B 1000
A+B B 0
B A+B 1001000
B B 1000000

于是我们面临两种选择的逻辑:预期效用原则优势策略原则。按照预期效用原则,如果我们认为预言家的预测基本是准确的,那么我们就应该选择只拿B盒子,这样能够最大化我们的收益,基本可以确定拿到100万,而如果预言家的预测错误的话,我们就什么也得不到。根据优势策略原则,无论预言家如何预测,选择A+B都会比选择B多1000元。可是,如果预言家的预测基本准确或者一定准确的话,那么我们基本就只能拿到1000元。

如果这是一个心理学问题的话,那就会被归结为你到底想要“稳稳的幸福”还是“爱拼才会赢”。那么这个问题也就变成了一个个人选择的问题,没有对错之分。但是,这里有趣的地方在于预言家这个角色。如果是我们自己进行预期,那么这个预期,不管是否有很好的依据,基本可以等同于一种信念。而预言家的角色假定了他/她的预言是几乎准确或者就是准确的,是否愿意相信这一点,其实也是一种信念。也就是说,这个问题实际并不是关于风险,而是关于信念。

了解到这一点,我们就不用太过纠结所谓的“循环因果”(如果他知道我要出剪刀,那么他就会出锤子;我知道他知道我出剪刀,所以我就会出布;他知道我知道他知道我出剪刀,所以会出剪刀……)或者“Timeless Decision Theory”(理性是指最大获利,而不是看上去合理),而是把重点拉回到,我们是否愿意相信预测会百分百准确。

那么,如果可能的话,我们凭什么会相信预测一定是准确的呢?如果我们不把预测归为某种超能力的话,那么预测应该只能来自运算和模拟。如果我们真的拥有所谓“自由意志”的话,那么我们实际上所做的任何选择,都会成为预测模拟运算时的数据。所以才会有“即使当我们看到B盒子里什么都没有的时候,仍然应该选择B,因为只有这样才能增加预言家预测B的可能性。而想到这一点又会影响我们的选择,使得我们丧失真正的自由意志——因为我们只能通过选择最大化的选项让这个选项最终通过模拟运算得以出现。所以,这个问题又不仅仅关于信念,也是关于行动。

Roco‘s Basilisk和刚刚提到的Newcomb's paradox其实在问题的设置上是差不多的,只不过和玩家一起玩游戏的,是一个叫Roco's Basilisk的AI怪兽,它的出现会使它统治世界,而它给出的盒子是:

A盒子:努力帮助Roco’s Basilisk出现
B盒子:平安无事/永恒惩罚

如果Roco's Basilisk出现了,你选择的是A+B就会平安无事,选择的是B就会遭受惩罚。而如果怪兽没有出现,选择A+B还是平安无事,选择B也是平安无事。我们如何选择,将面临和上文所说的同样困境。

可是,这里我们应该清楚的意识到选项和怪兽是否会出现之间的关系:选择A,怪兽不一定会出现;但怪兽要出现,就一定要选择A;选择B,我们不知道怪兽是不是会出现,但至少没有帮助它出现。Roco's Basilisk让我们更加清楚地认识到上面所说的行动的重要性:我们的选择实际上是会影响到最后的预测准确性或者是怪兽是否到来的。

所以,Roco's Basilisk实际上可以改成另外两个选择:A:帮助;B:不帮助。如果怪兽来了,而你帮助了它,那么你就平安无事;如果你没有帮助它,那么你就会受到惩罚。如果怪兽没来,那么不管你有没有帮助它,你都会平安无事。

于此同时,我们也应该察觉Roco's Basilisk和Newcomb之间两个巨大的差异:

1. Newcomb中,玩家只设定了一名;而在Roco's Basilisk中,隐含了其他玩家的存在。
2. 在Newcomb困境中,我们面对的是利益最大化;而Roco’s Basilisk中,我们面对的是伤害最小化。

第一点告诉我们,由于每个人的行动会对最后结果产生影响,因而每个人的选择实际上也是相互影响的。而诺贝尔经济学奖得主Daniel Kahneman的前景理论告诉我们,当第一点和第二点结合起来之后,由于我们所拥有的“损失规避”和“参照依赖”的特性,导致我们无法接受别人可能比我们损失更小的情况,导致B选项很难被接受。

这就让我想起了微信上转发的某些“诅咒”,不管内容如何,它们大致的意思就是,如果你不转发,那么坏事就会发生在你身上。这里,你也面临两个选择:A:转发;B:不转发。如果诅咒应验了,而你转发了,那么你就会平安无事;如果你没有转发,那你就会被诅咒。如果诅咒不灵,那么不管有没有转发,都会没事。有很多人转发,就是因为觉得万一诅咒是灵呢,反正不管灵不灵,转发都不会有事。可是很多人没有想到的是,如果没有人转发,那么这个诅咒就根本不会存在。因为有人转发,使得诅咒存在,也使灵验的可能性存在。而诅咒一旦出现,我们就很难使其消失。所以我们才要谴责最早写出那个诅咒的人。

Roco的恐怖,正是在于他成了第一个传播诅咒的人。这个诅咒一旦出现,就会增加怪兽到来的可能性。Less Wrong后来对Roco的封杀,正如我们拉黑传微信诅咒的人一样。


好在怪兽不会仅仅因为传播而到来。而我之所以敢写下上面的话,一方面是因为它已经成了房间里的大象,而另一方面,是因为我相信,分析也是一种去魅的过程,能让我们变得勇敢而冷静。