Introducción
Dos clases de error
Imaginemos que cuatro equipos de amigos han acudido a un campo de tiro. Cada equipo está formado por cinco personas; comparten un rifle y cada una realiza un disparo. La figura 1 muestra sus resultados. En un mundo ideal, todos los disparos darían en la diana.

Casi es lo que ocurre con el equipo A. Los disparos de este equipo están muy agrupados alrededor de la diana, cerca de un patrón perfecto.
De los resultados del equipo B diríamos que están «sesgados», porque sus disparos están sistemáticamente fuera del objetivo. Como ilustra la figura 1, la consistencia del sesgo apoya una predicción. Si uno de los miembros del equipo hiciera otro disparo, apostaríamos por un impacto en la misma zona que los cinco primeros. La consistencia del sesgo también invita a una explicación causal: quizá la mira del rifle del equipo estaba doblada.
Del equipo C diríamos que es «ruidoso», porque sus disparos se hallan muy dispersos. No hay un sesgo evidente, porque los impactos están centrados aproximadamente en la diana. Si uno de los miembros del equipo realizara otro disparo, sabríamos muy poco sobre dónde es probable que impacte. Además, no se nos ocurre ninguna hipótesis interesante para explicar los resultados del equipo C. Sabemos que sus miembros son malos tiradores. Desconocemos por qué son tan ruidosos.
El equipo D está sesgado y es ruidoso. Como el equipo B, sus disparos se desvían sistemáticamente del objetivo y, al igual que el equipo C, estos están muy dispersos.
Sin embargo, este no es un libro sobre tiro al blanco. Nuestro tema es el error humano. El sesgo y el ruido —desviación sistemática y dispersión aleatoria— son componentes diferentes del error. Los blancos ilustran la diferencia.[1]
El campo de tiro es una metáfora de lo que puede fallar en el juicio humano, en particular en las diversas decisiones que se toman en nombre de organizaciones. En estas situaciones, nos encontraremos con las dos clases de error que ilustra la figura 1. Unos juicios están sesgados; se desvían sistemáticamente del objetivo. Otros son ruidosos, ya que las personas que se espera que estén de acuerdo terminan en puntos muy diferentes alrededor del objetivo. Por desgracia, muchas organizaciones se ven afectadas tanto por el sesgo como por el ruido.
La figura 2 ilustra una importante diferencia entre el sesgo y el ruido. Muestra lo que se vería en el campo de tiro si solo se mostrara el dorso de los blancos a los que disparaban los equipos (sin nada que indique la posición de la diana a la que apuntaban).
El dorso de los blancos no nos permite saber si el equipo A o el equipo B está más cerca de la diana; pero a simple vista se puede apreciar que los equipos C y D son ruidosos y que los equipos A y B no lo son. Aquí sabemos tanto de la dispersión como en la figura 1. Una propiedad general del ruido es que se puede reconocer y medir sin saber nada sobre el objetivo o el sesgo.

La propiedad general del ruido que acabamos de mencionar es esencial para nuestros propósitos en este libro, porque muchas de nuestras conclusiones se extraen de juicios cuyo objetivo real es desconocido o incluso imposible de conocer. Cuando los médicos ofrecen diferentes diagnósticos para el mismo paciente, podemos estudiar su desacuerdo sin saber qué le ocurre al paciente. Cuando los ejecutivos del cine estiman las posibilidades que tendrá una película en el mercado, podemos estudiar la variabilidad de sus respuestas sin saber lo que consiguió finalmente la película, o incluso si se llegó a filmar. No necesitamos saber quién tiene razón para medir cuánto varían los juicios de un mismo caso. Todo lo que tenemos que hacer para medir el ruido es mirar la parte trasera del objetivo.
Para comprender el error en el juicio, necesitamos entender tanto el sesgo como el ruido. A veces el ruido es, como veremos, el problema más importante. Sin embargo, en las conversaciones públicas sobre el error humano y en las organizaciones de todo el mundo, el ruido rara vez se reconoce. El sesgo es la estrella del espectáculo. El ruido es un actor de reparto que normalmente está fuera del escenario. El tema del sesgo ha sido discutido en miles de artículos científicos y en decenas de libros populares, pocos de los cuales mencionan el asunto del ruido. Este libro intenta restablecer el equilibrio.
En las decisiones del mundo real, la cantidad de ruido suele ser altísima. He aquí algunos ejemplos de la alarmante cantidad de ruido que se da en situaciones en que la exactitud es importante:
• La medicina es ruidosa. Ante un mismo paciente, distintos médicos juzgan de forma diferente si este tiene cáncer de piel, cáncer de mama, enfermedad cardiaca, tuberculosis, neumonía, depresión y un sinfín de afecciones. El ruido es muy alto en psiquiatría, donde el juicio subjetivo es importante. Sin embargo, también se encuentra un ruido considerable en ámbitos donde no cabría esperarlo, como en la interpretación de radiografías.
• Las decisiones sobre la custodia infantil son ruidosas.[2] Los asesores de los organismos de protección de la infancia deben evaluar si los niños corren el riesgo de ser víctimas de maltratos y, en caso afirmativo, colocarlos en un centro de acogida. El sistema es ruidoso, dado que algunos asesores son mucho más propensos que otros a enviar a un niño a un centro de acogida. Años después, la mayoría de los desventurados niños a los que estos asesores de mano dura han asignado un centro de acogida tendrán malos resultados en la vida: mayores tasas de delincuencia, mayores índices de natalidad en la adolescencia y menores ingresos.
• Las predicciones son ruidosas. Los analistas profesionales ofrecen predicciones muy variables sobre las probables ventas de un nuevo producto, el probable crecimiento de la tasa de desempleo, la probabilidad de quiebra de empresas con problemas y casi sobre cualquier cosa. No solo están en desacuerdo entre ellos, sino que lo están también consigo mismos. Por ejemplo, cuando se pidió a los mismos programadores informáticos en dos días distintos que calcularan el tiempo de ejecución de la misma tarea, las horas que estimaron difirieron en un 71 por ciento de promedio.[3]
• Las decisiones sobre asilo político son ruidosas. Que un solicitante de asilo sea admitido en Estados Unidos depende de algo similar a una lotería. Un estudio de casos que fueron asignados al azar a diferentes jueces, encontró que un juez admitió al 5 por ciento de los solicitantes, mientras que otro admitió al 88 por ciento. El título del estudio lo dice todo: «La ruleta de los refugiados».[4] (Vamos a ver muchas ruletas.)
• Las decisiones en la selección de personal son ruidosas. Los entrevistadores de los candidatos a un puesto de trabajo hacen evaluaciones muy diferentes de las mismas personas. Las calificaciones del rendimiento de los mismos empleados también son muy variables; dependen más de la persona que realiza la evaluación que del rendimiento que se evalúa.
• Las decisiones sobre la libertad bajo fianza son ruidosas. El hecho de que se conceda la libertad bajo fianza a un acusado o, por el contrario, se le envíe a la cárcel en espera de juicio depende en gran medida de la identidad del juez que acabe encargándose del caso. Hay jueces mucho más indulgentes que otros. Los jueces también difieren notablemente en su evaluación del riesgo de fuga o de reincidencia en los acusados.
• La ciencia forense es ruidosa. Hemos sido educados para pensar que la identificación de huellas dactilares es infalible. Sin embargo, existe una variabilidad real en los juicios de los dactiloscopistas sobre si una huella encontrada en el lugar del crimen coincide con la de un sospechoso. Los expertos no solo están en desacuerdo; a veces, ellos mismos toman decisiones inconsistentes cuando se les presenta la misma huella en diferentes ocasiones. Se ha documentado una variabilidad similar en otras disciplinas de la ciencia forense, incluso en análisis de ADN.
• Las decisiones en la concesión de patentes son ruidosas. «El que la oficina de patentes conceda o rechace una patente está relacionado de manera significativa con la accidentalidad del examinador que le toque a quien la solicite.»[5] Esta variabilidad es obviamente problemática desde el punto de vista de la equidad.
Todas estas situaciones ruidosas son la punta de un gran iceberg. Dondequiera que examinemos juicios humanos, es probable que encontremos ruido. Para mejorar la calidad de nuestros juicios, necesitamos domeñar tanto el ruido como el sesgo.
Este libro consta de cinco partes. En la primera parte exploramos la diferencia entre el ruido y el sesgo y mostramos que tanto las organizaciones públicas como las privadas pueden ser ruidosas, a veces de una manera asombrosa. Para apreciar el problema, comenzamos con los juicios en dos áreas. La primera, en relación con las sentencias penales (y, por tanto, en el sector público). La segunda, en relación con los seguros (y, por tanto, en el sector privado). A primera vista, las dos áreas no podrían ser más diferentes. Sin embargo, en lo referente al ruido, tienen mucho en común. Para establecer este punto, introducimos la idea de una auditoría del ruido diseñada para medir el desacuerdo que existe entre profesionales que consideran los mismos casos dentro de una organización.
En la segunda parte investigamos la naturaleza del juicio humano y exploramos los modos de medir el acierto y el error. Los juicios son susceptibles de contener tanto sesgos como ruido. Describimos una sorprendente equivalencia en el papel de los dos tipos de error. El ruido de ocasión es la variabilidad en los juicios de un mismo caso hechos por la misma persona o un mismo grupo en ocasiones diferentes. En las discusiones de grupo se da una cantidad sorprendente de ruido de ocasión debido a factores en apariencia irrelevantes, como quién habla primero.
En la tercera parte examinamos más a fondo un tipo de juicio que se ha investigado extensamente, el juicio predictivo. Exploramos la ventaja clave de las reglas, las fórmulas y los algoritmos con respecto a los humanos cuando se trata de hacer predicciones: en contra de la creencia popular, esa ventaja no se debe tanto a la superioridad de las reglas como a su ausencia de ruido. Analizamos el margen último de la calidad del juicio predictivo —la ignorancia objetiva del futuro— y el modo en que conspira con el ruido para limitar la calidad de la predicción. Finalmente, abordamos una cuestión que es casi seguro que el lector ya se habrá planteado: si el ruido se halla tan extendido, ¿por qué no se había notado antes?
La cuarta parte se vuelve hacia la psicología humana. Explicamos las principales causas del ruido. Entre ellas figuran las diferencias interpersonales creadas por una variedad de factores, como la personalidad y el estilo cognitivo, las variaciones idiosincrásicas en la ponderación de diferentes consideraciones y los distintos usos que las personas hacen de las mismas escalas. Analizamos por qué las personas son ajenas al ruido y a menudo no les sorprenden acontecimientos y juicios que posiblemente no pudieron haber predicho.
La quinta parte examina la cuestión práctica del modo en que podemos mejorar nuestros juicios y evitar el error. (Los lectores que estén interesados sobre todo en las aplicaciones prácticas de la reducción del ruido pueden saltarse el debate sobre los retos de la predicción y la psicología del juicio en las partes tercera y cuarta y pasar directamente a esta parte.) Investigamos los intentos de abordar el ruido en la medicina, los negocios, la educación, el gobierno y otras áreas. Introducimos una serie de técnicas de reducción del ruido con el rótulo de «higiene de las decisiones». Presentamos cinco estudios de casos en campos en los que hay mucho ruido documentado y en los que se han hecho continuos esfuerzos por reducirlo con grados de éxito instructivamente variables. Los estudios de casos incluyen los diagnósticos médicos no fiables, las calificaciones del rendimiento, la ciencia forense, las decisiones de contratación y la predicción en general. Concluimos ofreciendo un sistema que llamamos el «protocolo de evaluaciones mediadoras»: un método de uso general para la evaluación de opciones que incorpora varias prácticas clave de higiene de las decisiones y que tiene por finalidad producir menos ruido y más juicios fiables.
¿Cuál es el nivel de ruido adecuado? La sexta parte trata de esta cuestión. Tal vez parezca ilógico que el nivel correcto no sea cero. En algunas áreas no es factible eliminar el ruido; en otras, es demasiado caro hacerlo. Y, en otras más, los intentos de reducir el ruido comprometerían importantes valores en competencia. Por ejemplo, los intentos de eliminar el ruido pueden socavar la moral y dar a las personas la sensación de que están siendo tratadas como engranajes de una máquina. Cuando los algoritmos son parte de la respuesta, suscitan una serie de objeciones; abordamos aquí algunas de ellas. Aun así, el nivel actual de ruido es inaceptable. No obstante, instamos a que tanto las organizaciones privadas como las públicas lleven a cabo auditorías del ruido y se esfuercen, con una seriedad sin precedentes, por reducir el ruido. Si lo hicieran, las organizaciones podrían reducir la arbitrariedad generalizada (y reducir costes en muchos ámbitos).
Con esta aspiración concluimos cada capítulo haciendo unas breves propuestas con forma de citas ficticias. Pueden utilizarse estas propuestas tal como figuran o adaptarlas a cualquier asunto que interese, esté relacionado con la salud, la seguridad, la educación, el dinero, el empleo, el ocio o cualquier otro tema. Entender el problema del ruido y tratar de resolverlo es una tarea constante y una empresa colectiva. Todos tenemos oportunidades de contribuir a esa labor. Este libro se ha escrito con la esperanza de que podamos aprovechar esas oportunidades.
PRIMERA PARTE
Buscando el ruido
No es aceptable que individuos similares, condenados por el mismo delito, terminen con sentencias notablemente diferentes; por ejemplo, cinco años de cárcel para uno y libertad condicional para otro. Y, sin embargo, en muchos lugares ocurren estas cosas. Sin duda, el sistema de justicia penal también está impregnado de sesgos, pero en el capítulo 1 nos vamos a centrar en el ruido, y, en particular, en lo que ocurrió cuando un conocido juez llamó la atención sobre él, lo consideró escandaloso y lanzó una cruzada que, en cierto sentido, cambió el mundo (aunque no lo suficiente). Nuestra historia se sitúa en Estados Unidos, pero estamos seguros de que se pueden contar (y se contarán) historias parecidas de muchas otras naciones. En algunas de ellas es probable que el problema del ruido sea aún mayor que en Estados Unidos. Utilizamos el ejemplo de las sentencias para demostrar en parte que el ruido puede ser causa de grandes injusticias.
Las sentencias penales son especialmente dramáticas, pero del mismo modo nos preocupa el sector privado, donde también hay mucho en juego. Para ilustrar este punto, en el capítulo 2 nos detendremos en una gran compañía de seguros. Allí, los agentes de seguros cumplen la tarea de fijar las primas de los seguros para potenciales clientes, y los tasadores deben juzgar el valor de las reclamaciones. Se podría predecir que estas tareas serían sencillas y mecánicas, y que diferentes profesionales establecerían casi las mismas cuantías. Hemos realizado un experimento cuidadosamente diseñado —una auditoría del ruido— para comprobar esa predicción. Los resultados nos sorprendieron, pero sobre todo asombraron y consternaron a la dirección de la compañía. Nos dimos cuenta de que un gran volumen de ruido les estaba costando mucho dinero. Utilizamos este ejemplo para demostrar que el ruido puede ocasionar grandes pérdidas económicas.
Ambos ejemplos suponen estudios de un gran número de personas que realizan un gran número de juicios. Sin embargo, muchos juicios importantes son más «singulares» que repetitivos: cómo tratar una oportunidad de negocio en apariencia única; dudar sobre si lanzar un nuevo producto; cómo hacer frente a una pandemia; dudar sobre si contratar a alguien que no da el perfil estándar. ¿Se puede encontrar ruido en decisiones sobre situaciones únicas como estas? Es tentador pensar que allí está ausente. Al fin y al cabo, el ruido es una variabilidad no deseada, y ¿cómo puede haber variabilidad en decisiones singulares? En el capítulo 3 tratamos de responder a esta pregunta. El juicio que se hace incluso en una situación aparentemente única es uno en una nube de posibilidades. Allí también encontraremos gran cantidad de ruido.
El tema que aflora en estos tres capítulos puede resumirse en una frase, que será un tema clave del presente libro: «Dondequiera que haya juicio, hay ruido (y más del que se piensa)». Averigüemos cuánto.
1
Crimen y castigo ruidoso
Supongamos que alguien ha sido condenado por cometer un delito —robo en comercios, posesión de heroína, asalto o robo a mano armada—. ¿Cuál es la sentencia más probable?
La respuesta no debería depender del juez particular al que se asigne el caso, de si fuera hace calor o frío o de si un equipo deportivo local ganó el día anterior. Sería escandaloso que tres personas similares, condenadas por el mismo delito, recibieran penas radicalmente diferentes: libertad condicional para una, dos años de cárcel para otra y diez años de cárcel para la restante. Y, sin embargo, esta clase de arbitrariedades puede encontrarse en muchas naciones (y no solo en un pasado lejano, sino también hoy).
En todo el mundo, los jueces han mostrado durante mucho tiempo una más que notable discrecionalidad para decidir las sentencias apropiadas. En muchas naciones, los expertos han celebrado esa discrecionalidad y la han considerado justa y humana. Insistían en que las sentencias penales debían basarse en una serie de factores que no solo especificaban el delito, sino también el carácter y las circunstancias del acusado. La sentencia a medida estaba a la orden del día. Si los jueces se vieran obligados por unas normas, los delincuentes serían tratados de una manera deshumanizada; no serían considerados como individuos únicos con derecho a que se les tengan en cuenta los detalles de su situación. A muchos les parecía que la propia idea del juicio justo demandaba un discrecionalidad judicial sin trabas.
En la década de 1970, el entusiasmo universal por la discrecionalidad judicial comenzó a derrumbarse por una simple razón: la alarmante evidencia de ruido. En 1973, un célebre juez, Marvin Frankel, llamó la atención del público sobre el problema. Antes de ser juez, Frankel fue un defensor de la libertad de expresión y un apasionado valedor de los derechos humanos que colaboró en la fundación del Comité de Abogados por los Derechos Humanos (una organización conocida hoy con el nombre de Human Rights First).
Frankel podía ser implacable, y estaba indignado con el ruido en el sistema de justicia penal. Así es como describía su motivación:
Si un acusado de atraco a un banco federal era condenado, podía ser sentenciado a un máximo de veinticinco años. Esto significa cualquier condena de cero a veinticinco años. Y, cuando se fijó el número, pronto me percaté de que dependía menos del caso o del individuo acusado que del juez; es decir, de las opiniones, predilecciones e inclinaciones del juez. Y así, el mismo acusado en el mismo caso podía recibir sentencias muy diferentes dependiendo de qué juez se encargaba del caso.[1]
Frankel no ofreció ningún tipo de análisis estadístico para respaldar su argumentación, pero sí una serie de convincentes anécdotas que mostraban disparidades injustificadas en el tratamiento de personas muy similares. Dos hombres, ninguno de los cuales tenía antecedentes penales, fueron condenados por haber falsificado cheques por valor de 58,40 y 35,20 dólares, respectivamente. El primero, a quince años de prisión, y el segundo, a treinta días de prisión. Por actos de malversación de fondos similares, un hombre fue condenado a ciento diecisiete días de prisión, mientras que otro lo fue a veinte años. Citando numerosos casos de este tipo, Frankel deploraba los que llamó «poderes casi totalmente incontrolados y arrolladores»[2] de jueces federales con el resultado de «crueldades arbitrarias perpetradas diariamente»,[3] que consideraba inaceptables en un «gobierno de leyes, no de hombres».[4]
Frankel apeló al Congreso para que pusiera fin a aquella «discriminación», palabra con la que definió esas crueldades arbitrarias. Con ese término se refería sobre todo al ruido en forma de inexplicables variaciones en las sentencias. Sin embargo, también le preocupaban los sesgos en forma de disparidades por motivos raciales y socioeconómicos. Para combatir tanto el ruido como el sesgo, instó a que no se permitieran diferencias de trato a los acusados de delitos, a menos que pudieran «justificarse mediante pruebas pertinentes capaces de formularse y aplicarse con suficiente objetividad para garantizar que los resultados sean más determinantes que los idiosincrásicos ucases de determinados funcionarios, jueces u otros».[5] (La expresión «idiosincrásicos ucases» es un tanto esotérica; Frankel se refería a los que parecían decretos personales.) Y mucho más que eso: Frankel abogó por una reducción del ruido mediante un «perfil detallado o lista de control de factores que incluiría, siempre que fuera posible, alguna forma de gradación numérica u otra que fuese objetiva».[6]
Escribiendo a principios de la década de 1970, no llegó a defender lo que llamó «desplazamiento de las personas por las máquinas», pero, sorprendentemente, estuvo bastante cerca de hacerlo. Creía que «el imperio de la ley demanda un cuerpo de reglas impersonales, aplicables a todos los niveles, que sean vinculantes para los jueces y para otros responsables». Defendió explícitamente el uso de «computadoras como refuerzo de un pensamiento disciplinado en las sentencias».[7] También recomendó la creación de una «comisión de sentencias».[8]
El libro de Frankel fue uno de los más influyentes de toda la historia del derecho penal no solo en Estados Unidos, sino también en todo el mundo. En su trabajo había cierto grado de informalidad. Fue arrollador, pero era una visión impresionista. Para probar la realidad del ruido, unos cuantos investigadores se dedicaron de inmediato a examinar el nivel de ruido de las sentencias penales.
En 1974 se llevó a cabo un primer estudio a gran escala de este tipo, presidido por el propio juez Frankel. Se pidió a cincuenta jueces de diferentes distritos que dictaran sentencias para acusados en casos hipotéticos resumidos en informes idénticos previos a las sentencias. La conclusión fue, básicamente, que «la ausencia de consenso era la norma»[9] y que las variaciones entre las penas eran «asombrosas».[10] Un vendedor de heroína podía ser encarcelado de uno a diez años, dependiendo del juez.[11] Las penas para un atracador de bancos oscilaban entre cinco y dieciocho años de prisión.[12] El estudio encontró que, en un caso de extorsión, las sentencias variaban desde la friolera de veinte años de prisión y una multa de sesenta y cinco mil dólares hasta solo tres años de prisión y ninguna multa.[13] Y lo más sorprendente de todo: en dieciséis de los veinte casos, no hubo unanimidad sobre si era apropiado un encarcelamiento.
A este estudio le siguió una serie de otros más, todos los cuales encontraron similares e inaceptables niveles de ruido. En 1977, por ejemplo, William Austin y Thomas A. Williams III llevaron a cabo una encuesta entre cuarenta y siete jueces, a los que pidieron que respondieran a los mismos cinco casos, todos ellos de delitos de nivel relativamente bajo.[14] Todas las descripciones de los casos incluían resúmenes de la información utilizada por los jueces en sentencias reales, incluidos la acusación, el testimonio, los antecedentes penales previos (si los había), la extracción social y pruebas relacionadas con el carácter. El hallazgo clave fue una «disparidad sustancial». En un caso de robo, por ejemplo, las sentencias recomendadas oscilaban entre cinco años y solo treinta días de prisión (más una multa de cien dólares). En un caso de posesión de marihuana, algunos jueces recomendaron penas de prisión; otros, la libertad condicional.
En un estudio mucho más amplio, realizado en 1981, participaron doscientos ocho jueces federales, a los que se expusieron los mismos dieciséis casos hipotéticos.[15] Sus principales hallazgos fueron pasmosos:
En solo tres de los dieciséis casos hubo un acuerdo unánime en imponer una pena de prisión. Sin embargo, cuando la mayoría de los jueces estuvieron de acuerdo en que una pena de prisión era apropiada, hubo una variación sustancial en la duración de las penas de prisión recomendadas. En un caso de fraude en el que la pena media de prisión era de 8,5 años, la pena más larga fue de cadena perpetua. En otro caso, la pena media de prisión fue de 1,1 años, pero la pena de prisión más larga recomendada fue de quince años.
Por muy reveladores que sean estos estudios, que se valen de experimentos muy controlados, es casi seguro que subestiman la magnitud del ruido en el mundo real de la justicia penal. Los jueces de la vida real tienen delante mucha más información de la que los participantes en el estudio tenían en las historias cuidadosamente especificadas de esos experimentos. Parte de esta información adicional es, por supuesto, pertinente, pero también hay abundantes pruebas de que información irrelevante, en forma de factores nimios y aparentemente aleatorios, puede dar lugar a grandes diferencias en los resultados. Por ejemplo, se ha comprobado que es más probable que los jueces concedan la libertad condicional al comienzo del día o después de una pausa para comer que inmediatamente antes de dicha pausa. Si los jueces están hambrientos, son más duros.[16]
Un estudio realizado sobre miles de decisiones tomadas por tribunales de menores encontró que, cuando el equipo de fútbol americano local pierde un partido el fin de semana, los jueces toman decisiones más duras el lunes (y, en menor medida, el resto de la semana).[17] Los acusados negros se llevaron, con diferencia, la peor parte. Un estudio diferente examinó durante tres décadas un millón y medio de decisiones judiciales y encontró que, en los días que seguían a una derrota del equipo de fútbol americano de la ciudad, los jueces eran más severos que durante los días siguientes a una victoria.[18]
Un estudio de seis millones de decisiones tomadas por jueces en Francia durante doce años encontró que estos eran más indulgentes con los acusados en el día de su cumpleaños.[19] (En el cumpleaños del acusado; sospechamos que los jueces podrían ser más indulgentes también en sus propios cumpleaños, aunque, por lo que sabemos, esa hipótesis no ha sido contrastada.) Incluso algo tan irrelevante como la temperatura exterior puede influir en los jueces.[20] Una revisión de doscientas siete mil decisiones que tomaron los tribunales de inmigración en cuatro años encontró un efecto significativo de las variaciones diarias de temperatura: cuando fuera hacía calor, era menos probable obtener asilo. Si el solicitante sufre persecución política en su país de origen y busca asilo en otro, debe mantener la esperanza y tal vez rezar por que haga un día más fresco.
REDUCIENDO EL RUIDO EN LAS SENTENCIAS
En la década de 1970, los argumentos de Frankel y los hallazgos empíricos que los respaldaban llamaron la atención de Edward M. Kennedy, hermano del presidente asesinado John F. Kennedy y uno de los miembros más influyentes del Senado de Estados Unidos. Kennedy estaba consternado y horrorizado. Ya en 1975, propuso una ley de reforma de las sentencias; no fue a ninguna parte. Sin embargo, Kennedy fue implacable. Señalando las pruebas, continuó presionando año tras año para que se promulgara esa ley. En 1984 lo consiguió. En respuesta a las pruebas de variabilidad injustificada, el Congreso promulgó su Ley de Reforma de las Sentencias de 1984.
La nueva ley tenía por objeto disminuir el ruido en el sistema reduciendo «la discrecionalidad irrestricta que la ley confiere a jueces y autoridades decisorias de la libertad condicional como responsables de imponer e implementar las sentencias».[21] Los miembros del Congreso hicieron una particular referencia a la disparidad de sentencias, que consideraban «injustificadamente amplia», citando en concreto los hallazgos que probaban que, en la zona de Nueva York, las penas para casos reales idénticos podían oscilar entre tres y veinte años de prisión.[22] La ley creó la Comisión de Sentencias de Estados Unidos, tal y como había recomendado el juez Frankel, cuya principal tarea era clara: marcar a las sentencias directrices que serían obligatorias y que establecerían un rango restringido para las sentencias penales.
Al año siguiente, la comisión estableció esas directrices, basadas en general en las sentencias medias por delitos similares en un análisis de diez mil casos reales. El juez del Tribunal Supremo Stephen Breyer, que participó intensamente en el proceso, defendió la práctica del pasado señalando el desacuerdo irresoluble en el seno de la comisión: «¿Por qué la comisión no se reunió para razonar este asunto y no solo para hacer historia? La respuesta es breve: no pudimos. No pudimos porque hay buenos argumentos por todas partes apuntando en direcciones opuestas [...] Intenten enumerar todos los delitos que existen por orden de punibilidad [...] Reúnan luego los resultados de sus amigos y observen si todos coinciden. Les diré que no lo hacen».[23]
Según las directrices, los jueces debían considerar dos factores para establecer las sentencias: el delito y el historial delictivo del acusado. A los delitos se les asignaban cuarenta y tres «niveles delictivos», dependiendo de su gravedad. En el historial delictivo del acusado contaba sobre todo el número y la gravedad de sus condenas anteriores. Una vez reunidos el delito y los antecedentes, las directrices ofrecían un rango relativamente reducido de sentencias, con la autorización de que la parte superior de la horquilla excediese a la inferior en un máximo de seis meses o un 25 por ciento. Se permitía a los jueces salirse por completo de esa horquilla en consideración a las circunstancias agravantes o atenuantes, pero era algo que debían justificar ante un tribunal de apelación.[24]
Aunque las directrices son obligatorias, no son del todo rígidas. No van tan lejos como el juez Frankel quería. Ofrecen a los jueces un espacio importante para maniobrar. No obstante, distintos estudios que utilizan una variedad de métodos y se centran en diferentes periodos, han llegado a la misma conclusión: las directrices disminuyen el ruido. En términos más técnicos, «redujeron la variación neta de las sentencias atribuibles a la casualidad de la identidad del juez que dictó sentencia».[25]
El estudio más elaborado provino de la propia comisión.[26] Esta comparó las sentencias en los casos de atraco a bancos, tráfico de cocaína, tráfico de heroína y malversación de fondos en 1985 (antes de que las directrices entraran en vigor) con las dictadas entre el 19 de enero de 1989 y el 30 de septiembre de 1990. Se emparejó a los delincuentes con respecto a los factores que se consideraban pertinentes para dictar sentencia con arreglo a las directrices. Por cada delito, las variaciones entre los jueces fueron mucho menores en el último periodo, después de aprobarse la Ley de Reforma de las Sentencias.
Según otro estudio, la diferencia esperada en la duración de las condenas entre los jueces fue del 17 por ciento, o de 4,9 meses, en 1986 y 1987. Ese número descendió al 11 por ciento, o a 3,9 meses, entre 1988 y 1993.[27] Un estudio independiente, que abarcó diferentes periodos, encontró un éxito similar en la reducción de las disparidades entre los jueces, definidas como las diferencias en las sentencias medias entre jueces que tenían una cantidad similar de casos.[28]
A pesar de estos hallazgos, las directrices se encontraron con una tormenta de críticas. Algunas personas, entre ellas muchos jueces, pensaban que algunas sentencias eran demasiado severas (fruto del sesgo, no del ruido). Para nuestros propósitos, una objeción mucho más interesante, proveniente de numerosos jueces, era que las directrices eran muy injustas, porque prohibían a los jueces tener en cuenta de forma adecuada las particularidades del caso. El precio de reducir el ruido era tomar decisiones inaceptablemente mecánicas. La profesora de Derecho de Yale Kate Stith y el juez federal José Cabranes escribieron que «la necesidad no es de ceguera, sino de conocimiento, de equidad», lo cual «solo puede darse en un juicio que tenga en cuenta las complejidades del caso particular».[29]
Esta objeción ocasionó enérgicas impugnaciones a las directrices, unas basadas en la ley y otras fundadas en la política adoptada. Esas impugnaciones se obviaron hasta que, por razones del todo ajenas al debate que aquí resumimos, el Tribunal Supremo anuló las directrices en 2005.[30] Como resultado del fallo de este tribunal, las directrices se quedaron en algo meramente consultivo. Es revelador que los jueces federales se quedaran mucho más contentos después de que el Tribunal Supremo tomara esa decisión. El 75 por ciento prefería el régimen consultivo, mientras que solo el 3 por ciento pensaba que la obligatoriedad era mejor.[31]
¿Cuáles habían sido los efectos de cambiar las directrices de obligatorias a consultivas? Crystal Yang, profesora de Derecho en Harvard, investigó esta cuestión no con un experimento o con una encuesta, sino con un conjunto masivo de datos de sentencias reales dictadas contra casi cuatrocientos mil acusados. Su principal hallazgo fue que, en múltiples mediciones, las disparidades entre los jueces aumentaron de forma significativa después de 2005. Cuando las directrices eran obligatorias, los acusados que habían sido condenados por un juez relativamente severo fueron sentenciados con 2,8 meses más que si hubieran sido condenados por un juez del promedio. Cuando las directrices fueron meramente consultivas, la disparidad se duplicó. En franca consonancia con lo señalado por el juez Frankel hacía cuarenta años, Yang escribió que sus «hallazgos plantean grandes cuestiones de equidad, ya que la identidad del juez sentenciador asignado contribuye de forma significativa al tratamiento dispar de delincuentes similares condenados por delitos similares».[32]
Después de que las directrices fueran consultivas, los jueces se volvieron más propensos a basar sus sentencias en sus valores personales. Las directrices obligatorias reducen tanto el sesgo como el ruido. Tras la decisión del Tribunal Supremo, se produjo un aumento significativo de la disparidad entre las sentencias de los acusados afroamericanos y las de los blancos condenados por los mismos delitos. A su vez, las juezas se volvieron más propensas a una mayor discrecionalidad a favor de la indulgencia. Al igual que ocurría con los jueces nombrados por presidentes demócratas.
Tres años después de fallecer el juez Frankel en 2002, la abolición de las directrices produjo un retorno a algo más parecido a la que fue su pesadilla: la ley sin orden.
La historia de la batalla del juez Frankel por implantar unas directrices para las sentencias permite vislumbrar varios de los puntos clave que trataremos en este libro. El primero de ellos es que el acto de juzgar es difícil, porque el mundo es un lugar complicado e incierto. Esta complejidad es obvia en la judicatura, y también existe en la mayoría de las situaciones que requieren un juicio profesional. En líneas generales, estas situaciones incluyen juicios emitidos por médicos, enfermeras, abogados, ingenieros, profesores, arquitectos, ejecutivos de Hollywood, miembros de comités de contratación, editores de libros, ejecutivos de toda clase de empresas y directivos de equipos deportivos. El desacuerdo es inevitable cuando se emite un juicio.
El segundo punto es que el alcance de estos desacuerdos es mucho mayor de lo que esperamos. Aunque pocas personas se oponen al principio de discrecionalidad judicial, casi todas desaprueban la magnitud de las disparidades que produce. El «ruido del sistema», es decir, la variabilidad no deseada en juicios que idealmente deberían ser idénticos, puede generar una injusticia rampante, elevados costes económicos y muchas clases de errores.
El tercer punto es que el ruido puede reducirse. El método por el que abogaba Frankel, implementado por la Comisión de Sentencias —reglas y directrices—, es uno de los varios posibles que logran reducir el ruido. Otros métodos se adaptan mejor a otros tipos de juicio. Algunos de los métodos adoptados para reducir el ruido pueden reducir simultáneamente el sesgo.
El cuarto punto es que los intentos de reducción del ruido suscitan a menudo objeciones y se encuentran con serias dificultades. Esto debe también abordarse, o la lucha contra el ruido fracasará.
SOBRE EL RUIDO EN LAS SENTENCIAS
■ «Los experimentos muestran grandes disparidades entre los jueces en las sentencias que recomendaban para casos idénticos. Esta variabilidad no puede ser justa. La sentencia para un acusado no debe depender del juez al que se le asigne el caso.»
■ «Las sentencias penales no han de obedecer al estado de ánimo del juez durante la vista ni a la temperatura exterior.»
■ «Las directrices son una forma de abordar esta cuestión. Sin embargo, a mucha gente no le gustan, porque limitan la discrecionalidad judicial, que podría ser necesaria para garantizar la equidad y la exactitud. Después de todo, cada caso es único, ¿no?»
2
Un sistema ruidoso
Nuestro encuentro inicial con el ruido, así como lo que primero despertó nuestro interés por este asunto, no fue tan dramático como un roce con el sistema de justicia penal. En realidad, el encuentro fue una especie de accidente en el que estuvo envuelta una compañía de seguros que había contratado a la consultoría con la que dos de nosotros estábamos asociados.
El tema de los seguros no es ciertamente del agrado de todos. Sin embargo, lo que encontramos nos muestra la magnitud del problema del ruido en una organización con fines de lucro que puede perder mucho con las decisiones ruidosas. Nuestra experiencia con la compañía de seguros ayuda a explicar por qué ese problema pasa tantas veces inadvertido y nos enseña lo que se puede hacer con él.
Los ejecutivos de la compañía de seguros sopesaban el valor potencial de un esfuerzo por aumentar la consistencia —por reducir el ruido— en los juicios de las personas que tomaban importantes decisiones financieras en nombre de la empresa. Todas esas personas estaban de acuerdo en que la consistencia era deseable. Todas estuvieron también de acuerdo en que esos juicios nunca podrían ser totalmente consistentes, porque son informales y, en parte, subjetivos. Algo de ruido era inevitable.
El desacuerdo surgió cuando se consideró su magnitud. Los ejecutivos no creían que el ruido pudiera ser un problema sustancial para su compañía. Sin embargo, se dignaron de mutuo acuerdo a resolver la cuestión mediante una especie de experimento bastante simple que llamaremos una «auditoría del ruido». El resultado fue una sorpresa para ellos. También resultó ser una ilustración ideal del problema del ruido.
UNA LOTERÍA QUE GENERA RUIDO
Muchos profesionales de cualquier gran empresa están autorizados a emitir juicios que vinculan a la empresa. Por ejemplo, la referida compañía de seguros emplea a un número considerable de agentes de seguros que ofrecen primas para riesgos financieros, como asegurar a un banco contra pérdidas por fraude o comercio deshonesto. También emplea a muchos tasadores de reclamaciones que pronostican el coste de futuras reclamaciones y las negocian con los reclamantes si se producen disputas.
En cualquier gran rama de la compañía hay varios agentes cualificados. Cuando se solicita una cotización, se puede asignar a cualquiera que esté disponible para prepararla. El agente particular que determinará una cotización es seleccionado por sorteo.
El valor exacto de la cuota tiene consecuencias importantes para la compañía. Una prima alta es ventajosa si se acepta la cuota, pero se corre el riesgo de la pérdida de ingresos frente a un competidor. Es más probable que se acepte una prima baja, aunque es menos ventajosa para la compañía. Para cualquier riesgo se fija un precio de Ricitos de Oro que es justo —ni muy alto ni muy bajo—, y lo más probable es que el juicio promedio de un gran grupo de profesionales no esté muy lejos de él. Los precios superiores o inferiores a esta cuantía son costosos; así es como la variabilidad de los juicios ruidosos perjudica el balance final.
El trabajo de los tasadores también afecta a las finanzas de la compañía. Por ejemplo, supongamos que se presenta una reclamación en nombre de un trabajador (el reclamante) que ha perdido definitivamente el uso de su mano derecha en un accidente laboral. Se asigna un tasador a la reclamación, como en el caso del agente de seguros, porque resulta que está disponible. El tasador reúne los hechos del caso y hace una estimación de su coste final para la compañía. El mismo tasador se encarga entonces de negociar con el representante del reclamante para garantizarle que este recibirá los beneficios prometidos en la póliza, protegiendo al mismo tiempo a la compañía de desembolsos excesivos.
La primera estimación es importante, porque establece un objetivo implícito para el tasador en futuras negociaciones con un reclamante. La compañía de seguros también está legalmente obligada a reservar el coste previsto de cada reclamación (es decir, a tener dinero suficiente para poder pagarla). Aquí también hay un valor de Ricitos de Oro desde la perspectiva de la empresa. El acuerdo no está garantizado, ya que, por la otra parte, hay un abogado para el reclamante que puede optar por acudir a los tribunales si lo que se le ofrece a este es mísero. Por otro lado, una reserva en exceso generosa puede dar al tasador demasiada libertad para aceptar reclamaciones frívolas. El juicio del tasador es importante para la compañía, y aún más para el reclamante.
Hemos elegido la palabra «lotería» para subrayar el papel del azar en la selección de un agente o de un tasador. En el funcionamiento normal de la compañía, se asigna un solo profesional a un caso, y nadie puede saber lo que habría ocurrido si se hubiera seleccionado a otro colega suyo.
Las loterías tienen su sitio, y no son necesariamente injustas. Hay sorteos aceptables utilizados para repartir «bienes», como los cursos en algunas universidades, o «males», como el servicio militar. Sirven para algo. Sin embargo, las loterías de los juicios, de las que aquí hablamos, no reparten nada. Solo producen incertidumbre. Imagínese una compañía de seguros cuyos agentes no generan ruido y fijan la prima óptima, pero luego interviene un mecanismo de azar para modificar la cuota que el cliente tiene a la vista. Evidentemente, no habría ninguna justificación para semejante lotería. Tampoco se justifica un sistema en el que el resultado dependa de la identidad de la persona elegida al azar para emitir un juicio profesional.
LAS AUDITORÍAS DEL RUIDO REVELAN EL RUIDO DEL SISTEMA
La lotería que elige a un juez concreto para dictar una sentencia penal, o a un único tirador para representar a un equipo, crea variabilidad, pero esta variabilidad no se ve. Una auditoría del ruido —del tipo que se realizó a los jueces federales en relación con las sentencias— es una forma de revelar el ruido. En esta auditoría, el mismo caso es evaluado por muchos individuos, y la variabilidad de sus respuestas se hace visible.
Los juicios de agentes de seguros y tasadores de reclamaciones se prestan especialmente bien a este ejercicio, porque sus decisiones se basan en información escrita. Para preparar la auditoría del ruido, los ejecutivos de la compañía hicieron descripciones detalladas de cinco casos representativos por cada grupo (agentes y tasadores). Se pidió a estos empleados que evaluaran dos o tres casos cada uno trabajando de forma independiente. No se les dijo que el propósito del estudio era examinar la variabilidad de sus juicios.[1]
Antes de seguir leyendo, tal vez el lector desee pensar su propia respuesta a la siguiente pregunta: en una compañía de seguros bien gestionada, si seleccionaran al azar dos agentes o tasadores de reclamaciones cualificados, ¿cuán diferentes esperaría que fueran sus estimaciones para el mismo caso? Más en concreto, ¿cuál sería la diferencia entre las dos estimaciones expresada en un porcentaje de su promedio?
Pedimos sus respuestas a numerosos ejecutivos de la compañía, y en los años siguientes hemos obtenido estimaciones de una gran variedad de personas de diferentes profesiones. Sorprendentemente, una respuesta era mucho más popular que todas las demás. La mayoría de los ejecutivos de la compañía de seguros estimaron el 10 por ciento o menos. Cuando preguntamos a ochocientos veintiocho directores ejecutivos (CEO) y a ejecutivos de alto nivel de diversas industrias cuánta variación esperaban encontrar en juicios similares, el 10 por ciento fue también la respuesta media y la más frecuente (la segunda más popular fue el 15 por ciento). Una diferencia del 10 por ciento significaría, por ejemplo, que uno de los dos agentes fijó una prima de nueve mil quinientos dólares, mientras que la del otro fue de diez mil quinientos dólares. No es una diferencia insignificante, pero se puede esperar que una organización la tolere.
Nuestra auditoría del ruido encontró diferencias mucho mayores. Según nuestra medición, la diferencia media en las primas fue del 55 por ciento, unas cinco veces mayor de lo que la mayoría de las personas, incluidos los ejecutivos de la compañía, esperaban. Este resultado significa que, por ejemplo, cuando un agente fija una prima en nueve mil quinientos dólares, el otro no la fija en diez mil quinientos dólares, sino en dieciséis mil setecientos dólares. Para los tasadores de reclamaciones, la ratio media fue del 43 por ciento. Subrayamos que estos resultados son medianas: en la mitad de los pares de casos, la diferencia entre los dos juicios fue aún mayor.
Los ejecutivos a los que informamos de los resultados de la auditoría del ruido no tardaron en darse cuenta de que el simple volumen de ruido representaba un problema costoso. Un alto ejecutivo estimó que, para la compañía, el coste anual del ruido en la suscripción de seguros —contando las pérdidas en el negocio debidas a las cuotas excesivas y las pérdidas provocadas por los contratos de bajo precio— era de cientos de millones de dólares.
Nadie pudo decir con precisión cuánto había de error (o de sesgo), porque nadie podía saber con seguridad el valor de Ricitos de Oro para cada caso. Sin embargo, no había necesidad de ver la diana para medir la dispersión en el dorso del blanco y darse cuenta de que la variabilidad era un problema. Los datos mostraban que el precio que se pide que pague un cliente dependía en un grado turbador de la lotería del empleado elegido para ocuparse de esa transacción, y a los clientes no les gustaría oír que los inscribieron en esa lotería sin su consentimiento. En términos más generales, las personas que tratan con organizaciones confían en un sistema cuyos juicios son consistentes. No esperan ese ruido del sistema.
VARIABILIDAD INDESEADA VERSUS DIVERSIDAD DESEADA
Una característica definitoria de ruido del sistema es que es «indeseado», y debemos subrayar aquí que la variabilidad en los juicios no siempre es indeseada.
Consideremos las cuestiones de preferencia o de gusto. Si diez críticos de cine ven la misma película, si diez catadores califican el mismo vino o si diez personas leen la misma novela, no esperamos que tengan la misma opinión. La variedad de gustos es bienvenida y totalmente esperada. Nadie querría vivir en un mundo en el que todas las personas tuvieran los mismos gustos y las mismas antipatías. (Bueno, casi nadie.) Sin embargo, la variedad de gustos puede ayudar a explicar errores cuando se confunde un gusto personal con un juicio profesional. Si un productor de cine decide seguir adelante con un proyecto inusual (sobre, digamos, el auge y la desaparición del teléfono de disco) porque a él personalmente le gusta el guion, podría cometer un gran error si a nadie más le gusta.
También se espera y es bien recibida la variabilidad de los juicios en una situación de competencia en la que los mejores juicios serán recompensados. Cuando varias empresas (o varios equipos dentro de la misma organización) compiten para generar soluciones innovadoras al mismo problema del cliente, no se desea que se centren en el mismo enfoque. Lo propio ocurre cuando múltiples equipos de investigadores abordan un problema científico, como el desarrollo de una vacuna: queremos que lo miren desde diferentes ángulos. Hasta los analistas se comportan a veces como jugadores que compiten. El analista que llama por su nombre a una recesión que nadie más ha previsto seguramente ganará fama, mientras que el que nunca se aleja del consenso permanecerá en la oscuridad. En tales situaciones, la variabilidad de ideas y juicios es también bienvenida, porque la variación es solo el primer paso. En una segunda fase, los resultados de estos juicios se enfrentarán entre sí y triunfarán los mejores. En un mercado, como en la naturaleza, la selección no puede funcionar sin variación.
Las cuestiones de gusto y los escenarios de competición plantean interesantes problemas de juicio, pero nos centraremos en los juicios en los que la variabilidad es indeseada. El ruido de los sistemas es un problema de los sistemas, que son organizaciones, no mercados. Cuando los operadores de bolsa hacen diferentes estimaciones del valor de una acción, unos ganarán dinero y otros, no. Los desacuerdos crean mercados. Sin embargo, si uno de esos operadores fue elegido al azar para hacer esa evaluación en nombre de su empresa y encontramos que sus colegas de la misma empresa han hecho evaluaciones muy diferentes, entonces hay ruido del sistema en la empresa, y eso es un problema.
Un elegante ejemplo de este problema se nos mostró cuando presentamos nuestros hallazgos a los directivos de una empresa de gestión de activos, lo cual les dio pie para llevar a cabo su propia auditoría exploratoria del ruido. Pidieron a cuarenta y dos inversores experimentados de la empresa que estimaran el valor justo de una acción (el precio al que a los inversores les resultaría indiferente comprar o vender). Los inversores basaron su análisis en una descripción del negocio de solo una página; los datos incluían ganancias y pérdidas simplificadas, el balance general, resúmenes del flujo de caja en los tres últimos años y proyecciones para los dos próximos. El ruido mediano, medido de la misma manera que en la compañía de seguros, fue del 41 por ciento. Diferencias tan grandes entre los inversores de una misma empresa, que utilizan los mismos métodos de evaluación, no pueden ser una buena noticia.
Siempre que la persona que emite un juicio es seleccionada al azar de un grupo de individuos igualmente cualificados, como es el caso en esta empresa de gestión de activos, en el sistema de justicia penal y en la compañía de seguros arriba mencionada, el ruido es un problema. El ruido del sistema asedia a muchas organizaciones similares: un proceso de asignación efectivamente aleatorio suele decidir qué médico atenderá a un paciente en un hospital, qué juez verá un caso en un tribunal, qué examinador de patentes estudiará una solicitud, qué representante del servicio de atención al cliente escuchará una queja, etcétera. La variabilidad no deseada en estos juicios puede causar serios problemas, entre ellos la pérdida de dinero y una injusticia rampante.
Una equivocación frecuente sobre la variabilidad no deseada en los juicios es pensar que esta no importa, porque los errores aleatorios supuestamente se cancelan entre sí. Sin duda, los errores positivos y negativos en un juicio sobre el mismo caso tenderán a anularse mutuamente, y discutiremos en detalle cómo puede utilizarse esta propiedad para reducir el ruido. Pero los sistemas ruidosos no producen múltiples juicios sobre el mismo caso; producen juicios ruidosos sobre diferentes casos. Si el precio de una póliza de seguros es demasiado alto y el de otra demasiado bajo, el precio podrá parecer correcto de promedio, pero la compañía de seguros habrá cometido dos costosos errores. Si dos malhechores que deberían ser condenados a cinco años de prisión reciben sentencias de tres y siete años, nadie podrá decir que se ha hecho justicia. En los sistemas ruidosos, los errores no se cancelan: se suman.
LA ILUSIÓN DE ACUERDO
Una nutrida literatura de varias décadas ha documentado el ruido en el juicio profesional. Como estábamos al tanto de ella, los resultados de la auditoría del ruido hecha a la compañía de seguros no nos sorprendieron. Lo que nos sorprendió fue la reacción de los ejecutivos a los que informamos de nuestros hallazgos: nadie en la compañía esperaba nada parecido a la cantidad de ruido que habíamos observado. Nadie cuestionó la validez de la auditoría y nadie afirmó que la cantidad de ruido que habíamos observado era aceptable. Sin embargo, parecía que el problema del ruido —y sus grandes costes— era algo nuevo para la organización. El ruido era como una fuga en el sótano. Se toleraba no porque se la considerase aceptable, sino porque había pasado inadvertida.
¿Cómo es esto posible? ¿Cómo pueden unos profesionales que desempeñan la misma función y están en la misma oficina diferir tanto unos de otros sin advertirlo? ¿Cómo podían los ejecutivos no haber observado este hecho, que entendieron que era una importante amenaza a la labor y la reputación de su compañía? Llegamos a la conclusión de que el problema del ruido de un sistema a menudo no se reconoce en las organizaciones, y que la extendida inatención al ruido es tan interesante como su frecuencia. La auditoría del ruido indicaba que profesionales respetados —y las organizaciones que los empleaban— mantenían una «ilusión de acuerdo», cuando en realidad existía desacuerdo entre sus juicios profesionales diarios.
Para empezar a entender cómo se produce la ilusión de acuerdo, pongámonos en el lugar de un agente de seguros en un día de trabajo normal. Tiene más de cinco años de experiencia, sabe que está bien considerado entre sus colegas, a los que respeta y valora. Sabe que es bueno en su trabajo. Tras analizar a fondo los complejos riesgos que enfrenta una empresa financiera, su conclusión es que una prima de doscientos mil dólares es apropiada. El problema es complicado, pero no muy diferente de los que resuelve todos los días de la semana.
Imaginemos ahora que los colegas de su oficina han recibido la misma información y han evaluado un riesgo de la misma manera. ¿Podría creer que la mitad de ellos, o más, establecen una prima que es superior a doscientos cincuenta y cinco mil dólares o inferior a ciento cuarenta y cinco mil dólares? Esto es difícil de aceptar. Cabe sospechar que los agentes de seguros que oyeron hablar de la auditor