Justicia, evolución y teoría de juegos; El dilema del prisionero (I) | El blog de José Muelas.
Hará unos dos meses manifesté en otro post de éste blog que veía más vinculados los principios de justicia a la teoría de juegos y a la evolución que a fantasmales instancias sobrenaturales o principios eternos. Como algún compañero jurista me ha hecho notar que afirmar cosas tan graves sin aportar el más mínimo razonamiento puede parecer una frivolidad, es por lo que creo que ha llegado ya el momento de dedicar una serie de post a justificar tal afirmación.
Para que lo que voy a exponer (que la justicia es un producto de la evolución y la teoría de juegos) sea comprendido, es preciso antes, siquiera sea de forma somera, exponer qué son la teoría de la evolución y la teoría de juegos. No lo haré respecto de la teoría de la evolución pues, aunque sea superficialmente, es de sobra conocida. Sí lo haré respecto de la teoría de juegos ya que, en conversaciones con otros juristas, he detectado que es para ellos una absoluta desconocida. A explicar de forma somera qué es la teoría de juegos y un ejemplo clásico de la misma, va destinado éste post.
La teoría de juegos es un área de la matemática aplicada que utiliza modelos para estudiar interacciones en estructuras formalizadas de incentivos (los llamados juegos) y llevar a cabo procesos de decisión. Sus investigadores estudian las estrategias óptimas así como el comportamiento previsto y observado de individuos en juegos. Desarrollada en sus comienzos como una herramienta para entender el comportamiento de la economía, la teoría de juegos se usa actualmente en muchos campos, desde la biología a la filosofía y también (¿por qué no?) el derecho. Experimentó un crecimiento sustancial y se formalizó por primera vez a partir de los trabajos de John von Neumann y Oskar Morgenstern, antes y durante la Guerra Fría, debido sobre todo a su aplicación a la estrategia militar. En otras palabras, estudia la elección de la conducta óptima cuando los costes y los beneficios de cada opción no están fijados de antemano, sino que dependen de las elecciones de otros individuos.
El ejemplo que más a menudo suele usarse para ilustrar la teoría de juegos es el llamado “Dilema del prisionero” que, en su versión más clásica, es enunciado así (wikipedia):
La policía arresta a dos sospechosos. No hay pruebas suficientes para condenarlos y, tras haberlos separado, los visita a cada uno y les ofrece el mismo trato. Si uno confiesa y su cómplice no, el cómplice será condenado a la pena total, diez años, y el primero será liberado. Si uno calla y el cómplice confiesa, el primero recibirá esa pena y será el cómplice quien salga libre. Si ambos permanecen callados, todo lo que podrán hacer será encerrarlos durante seis meses por un cargo menor. Si ambos confiesan, ambos serán condenados a seis años.
Vamos a suponer que ambos prisioneros son completamente egoístas y su única meta es reducir su propia estancia en la cárcel. Como prisioneros tienen dos opciones: cooperar con su cómplice y permanecer callados o traicionar a su cómplice y confesar. El resultado de cada elección depende de la elección del cómplice. Desafortunadamente, uno no conoce qué ha elegido hacer el otro. Incluso si pudiesen hablar entre sí, no podrían estar seguros de confiar mutuamente.
Si uno espera que el cómplice escoja cooperar con él y permanecer en silencio, la opción óptima para el primero sería confesar, lo que significaría que sería liberado inmediatamente, mientras el cómplice tendrá que cumplir una condena de 10 años. Si espera que su cómplice decida confesar, la mejor opción es confesar también, ya que al menos no recibirá la condena completa de 10 años, y sólo tendrá que esperar 6, al igual que el cómplice. Si, sin embargo, ambos decidiesen cooperar y permanecer en silencio, ambos serían liberados en sólo 6 meses.
Confesar es una estrategia dominante para ambos jugadores. Sea cual sea la elección del otro jugador, pueden reducir siempre su sentencia confesando. Por desgracia para los prisioneros, esto conduce a un resultado regular, en el que ambos confiesan y ambos reciben largas condenas. Aquí se encuentra el punto clave del dilema. El resultado de las interacciones individuales produce un resultado que no es óptimo -en el sentido de eficiencia de Pareto-; existe una situación tal que la utilidad de uno de los detenidos podría mejorar (incluso la de ambos) sin que esto implique un empeoramiento para el resto. En otras palabras, el resultado en el cual ambos detenidos no confiesan domina al resultado en el cual los dos eligen confesar.
Si se razona desde la perspectiva del interés óptimo del grupo (de los dos prisioneros), el resultado correcto sería que ambos cooperasen, ya que esto reduciría el tiempo total de condena del grupo a un total de un año. Cualquier otra decisión sería peor para ambos si se consideran conjuntamente. A pesar de ello, si siguen sus propios intereses egoístas, cada uno de los dos prisioneros recibirá una sentencia dura.
El científico cognitivo Douglas Hofstadter observó que la matriz de pagos del dilema del prisionero puede, de hecho, escribirse de múltiples formas, siempre que se adhiera al siguiente principio:
T > R > C > P
donde T es la tentación para traicionar (esto es, lo que obtienes cuando desertas y el otro jugador coopera); R es la recompensa por la cooperación mutua; C es el castigo por la deserción mutua; y P es la paga del primo (esto es, lo que obtienes cuando cooperas y el otro jugador deserta).
En el caso del dilema del prisionero, la fórmula se cumple: 0 > -0,5 > -6 > -10 (en negativo pues los números corresponden a años de carcel).
Las fórmulas anteriores aseguran que, independientemente de los números exactos en cada parte de la matriz de pagos, es siempre “mejor” para cada jugador desertar, haga lo que haga el otro.
Siguiendo este principio, y simplificando el dilema del prisionero obtendremos la siguiente matriz de pagos canónica para el dilema, esto es, la que se suele mostrar en la literatura sobre este tema:
Cooperar
Desertar
Cooperar
3, 3
-5, 5
Desertar
5, -5
-1, -1
En terminología “ganancia-ganancia” la tabla sería similar a esta:
Cooperar
Desertar
Cooperar
ganancia – ganancia
pérdida sustancial – ganancia sustancial
Desertar
ganancia sustancial – pérdida sustancial
pérdida – pérdida
Estos ejemplos en concreto en los que intervienen prisioneros, intercambio de bolsas y cosas parecidas pueden parecer rebuscados, pero existen, de hecho, muchos ejemplos de interacciones humanas y de interacciones naturales en las que se obtiene la misma matriz de pagos. El dilema del prisionero es por ello de interés para ciencias sociales como economía, ciencia política y sociología, además de ciencias biológicas como etología y biología evolutiva.
En ciencia política, dentro del campo de las relaciones internacionales, el escenario del dilema del prisionero se usa a menudo para ilustrar el problema de dos estados involucrados en una carrera armamentística. Ambos razonarán que tienen dos opciones: o incrementar el gasto militar, o llegar a un acuerdo para reducir su armamento. Ninguno de los dos estados puede estar seguro de que el otro acatará el acuerdo; de este modo, ambos se inclinarán hacia la expansión militar. La ironía está en que ambos estados parecen actuar racionalmente, pero el resultado es completamente irracional.
Otro interesante ejemplo tiene que ver con un concepto conocido de las carreras en ciclismo, por ejemplo el Tour de Francia. Considérense dos ciclistas a mitad de carrera, con el pelotón a gran distancia. Los dos ciclistas trabajan a menudo conjuntamente (cooperación mutua) compartiendo la pesada carga de la posición delantera, donde no se pueden refugiar del viento. Si ninguno de los ciclistas hace un esfuerzo para permanecer delante, el pelotón les alcanzará rápidamente (deserción mutua). Un ejemplo visto a menudo es que un sólo ciclista haga todo el trabajo (coopere), manteniendo a ambos lejos del pelotón. Al final, esto llevará probablemente a una victoria del segundo ciclista (desertor) que ha tenido una carrera fácil en la estela del primer corredor.
Un ejemplo adicional se puede observar en las intersecciones de dos vías por donde circulan autos y donde ninguna tiene una preferencia sobre la otra: si todos los conductores colaboran y hacen turnos para pasar, la pequeña espera se justifica por el beneficio de no generar una congestión en el medio. Si alguien no colabora y el resto sí, se beneficia el “no colaborador” generando un desorden en la secuencia de turnos que perjudica a los que estaban colaborando. Por último, cuando nadie quiere colaborar y tratan de pasar primero, se genera una gran congestión donde todos pierden mucho tiempo.
Incidentalmente debo decir que en los Palacios de Justicia éste juego del dilema del prisionero suele jugarse con muchísima frecuencia, sobre todo en los casos en que el Ministerio Fiscal propone a los acusados una rebaja de la pena si estos se declaran culpables. Viví de forma cruel una variante de éste juego hará unos años cuando acudí a un juicio con cinco acusados ante la Audiencia Provincial de Barcelona.
Tres de ellos llevaban en prisión preventiva casi dos años mientras que los otros dos, uno de ellos mi cliente, estaban en libertad provisonal. Las penas que pedía el fiscal para todos ellos eran fortísimas y podían suponer muchos años de prisión.
Yo había preparado el juicio con mi cliente y estaba razonablemente convencido de que gozaba de bastantes probabilidades de resultar absuelto aunque, por otra parte, no era descartable una fuerte condena si la estrategia defensiva fallaba o alguno de los otros acusados declaraba dolosamente en su contra. Tras reflexionar durante meses mi cliente había decidido declararse inocente, no negociar con el fiscal y tratar de buscar la absolución corriendo el riesgo, racionalmente asumido, de sufrir una fuerte condena.
Llegado el momento del inicio del juicio el Fiscal ofreció un acuerdo consistente, básicamente, en que rebajaría la petición de condena para todos los acusados a cinco años de cárcel si, y sólo si, todos se declaraban culpables. Esto era particularmente beneficioso para los acusados que llevaban en prisión dos años, pues, cumplidos ya dos años de la condena, el tercer grado y la libertad se veían muy cercanos. Para el cuarto acusado, con pruebas abrumadoras en su contra, la oferta era atractiva, pero para mi cliente… evidentemente no. Mi mandante trató de resistirse al acuerdo pero las presiones que recibió tanto él como sus familiares por parte de las familias del resto de los acusados no son para ser contadas aquí. Tras desagradabilísimas escenas y en contra de mi criterio, mi cliente aceptó declararse culpable de un delito del que podía resultar absuelto.
Nunca he entendido que las negociaciones o los acuerdos sean compatibles con las exigencias mínimas de justicia en el derecho penal pero, de momento, esas son las reglas del juego y con ellas jugamos. La conclusión teórica del dilema del prisionero es una razón por la cual, en muchos países, se prohíben los acuerdos judiciales. A menudo, se aplica precisamente el escenario del dilema del prisionero: está en el interés de ambos sospechosos el confesar y testificar contra el otro prisionero/sospechoso, incluso si ambos son inocentes del supuesto crimen. Se puede decir que, el peor caso se da cuando sólo uno de ellos es culpable: no es probable que el inocente confiese, mientras que el culpable tenderá a confesar y testificar contra el inocente.
Una variante de éste juego, que me resultará especialmente útil más adelante para justificar la afirmación de que los principios de justicia se explican a través de la teoría de juegos y la evolución, es el juego llamado “Dilema del prisionero iterado”.
Esta variante del juego se produce cuando los prisioneros no juegan una sola vez el juego, sino que lo juegan varias veces, de forma sucesiva y con memoria. Ahora los participantes en el juego repiten el mismo varias veces, y lo que es mejor, se acuerdan de si en la partida anterior su contrincante les traicionó o cooperó. Tal y como mostró el premio nobel Robert Aumann en 1959, si el juego del prisionero se juega repetidamente y con memoria un número indefinido de veces el resultado es que los jugadores acaban estableciendo una estrategia de cooperación.
Mediante competiciones reales y simulaciones por ordenador se ha determinado que en éste juego del prisionero iterado el egoísmo no es rentable, la mejor estrategia para ganar en el juego es la llamada de “venganza sin rencor” o “Tit for Tat with forgiveness.” (“Donde las dan las toman con capacidad de perdón”).
La estrategia ganadora es simple: En la primera jugada cooperaremos y, a partir de ahí, haremos lo que haya hecho el oponente en la jugada anterior; si nos traiciona le traicionaremos, si coopera entonces cooperaremos. Como la estrategia puede conducir a un bucle si nuestro adversario aplica la misma estrategia, en algunas pocas ocasiones, olvidaremos su traición y cooperaremos. Finalmente los estudios demuestran que ambos contendientes acaban cooperando y que la estrategia más egoísta es, precisamente, la altruista. Desde un punto de vista egoísta lo más aconsejable precisamente es, paradójicamente, establecer una conducta altruista.
Quedémonos, pues, con esta paradoja aparente. En los post siguientes volveremos sobre ella.