个体:每个企业可以用一个三元组表示(s,m,d)。其中s为企业当前使用的规则,s只能取1(表示合作),2(表示不合作)两种状态。m表示与该企业的所有邻居分别进行囚徒困境博弈以后的总盈利。d表示随机选择的移动方向(在vonNerman类型中有上、下、左、右4个方向,Moore类型有上、下、左、右、左上、左下、右上、右下8个方向)。程序中黑色的区域表示空区域,没有被企业占领。如果某个企业已经占领了一个方格,则其它企业不能介入。
博弈规则: 每个企业都跟它的邻居进行囚徒困境博弈。
囚徒困境博弈,博弈的矩阵如右表所示:
这个矩阵为简化了的囚徒困境博弈的形式。即,如果两个企业都采取合作的策略,那么它们各得1单位收益,如果一方合作另一方不合作,
那么合作的一方吃亏得益为0,不合作的一方占便宜,得益为p(>1);双方都不合作那么都不收益。 |
| (企业1,企业2) |
合作 |
不合作 |
| 合作 |
1,1 |
0,p |
| 不合作 |
p,0 |
0,0 |
|
学习规则:每个企业在每次循环中都跟它周围的邻居中这次循环的收益最多的企业学习,把它的策略拷贝过来作为自己的。即如果四个邻居中收益最高的是背叛,那么这个企业下一个循环也选择背叛策略,如果收益最高的是合作,那么下一时刻,该企业也采取合作策略。
移动规则:每个企业在每次循环的时候都随机的选择一个方向,如果这个方向指向的方格为空,并且没有其他企业指向这个方格,那么下一时刻它就移动到那个格子中,否则它原地不动。
规则的运行:系统采用离散时间运行,每个周期内,所有的企业先按照自己的s取值也就是策略跟每个邻居都进行博弈确定它的收入m;然后每个企业开始在4个邻居中寻找最大的m对应的企业,学习它的策略作为下一周期的策略s';然后企业根据移动规则向它的临近方格移动。
|