«Presuntuosos» y «remilgados» en estadística

En el tenis hay un momento crítico capaz de congelar la respiración de jugadores y público… bola de partido, saque fulminante, la pelota recorre 11.89 metros a toda velocidad y… golpea en la parte superior de la red, sí, justo en el filo de la zona blanca… la bola sale de nuevo disparada hacia arriba y empieza a bajar –parece que a cámara lenta- hasta que vuelve a golpear en el blanco y finalmente… cae de un lado u otro de la red. Aunque pueda parecer increíble, este momento de tensión tiene su homólogo en el mundo de la investigación. Y resulta igualmente crítico para los “jugadores”, ya que de este match point puede derivarse una publicación y el reconocimiento de la academia, lo que sin duda supera a la “Copa de los Mosqueteros” (¡qué ya no somos niños!) de Roland Garros. Bien, ese momento se produce cuando nuestros resultados golpean en la red del “p-un-poquiiiito-mayor-que-0.05”… entonces, hasta al referee más curtido se le ponen los pelos de punta: hay que interpretar si la pelota cae en el campo de la aceptación o el rechazo de la hipótesis nula.

Hace unos días, Matthew Hankins publicaba en su blog Psychologically Flawed 436 formas en la que investigadores que han obtenido valores p ligeramente superiores a 0.05 se refieren a sus resultados, todos ellos publicados en revistas con revisión por pares. El objetivo: tratar de hacer que las cosas parezcan más interesantes… ¿cómo? soplando, desde la línea de saque, para que “la bola” (uppsss!… la pelota) acabe cayendo en el campo de las “diferencias significativas” (o al menos causar ese efecto óptico en el árbitro). Algunos de estos artificios retóricos son dignos de un poeta, más que de alguien “de ciencias”. Por ejemplo, algunos investigadores informan de que los resultados “coquetean con los niveles convencionales de significación (p>0.1)”. Mientras, otros abandonan el romanticismo para darse cierto toque de realismo al referirse a lo que es “pobremente significativo (p=0.10)” o, directamente, adoptan un estilo más neoclásico al decir que sus resultados son “razonablemente significativos (p=0.07)”.Y por supuesto, también encontramos los postmodernos “virtualmente significativo (p=0.059)” y “cuasi-significativo (p=0.09)”.

Pero, ¿por qué estos artificios retóricos? Robert Abelson, en su obra La estadística razonada: reglas y principios (ed. Paidós), hace tiempo que ha hecho el diagnóstico:

A menudo, los resultados negativos ni siquiera llegan a reseñarse. Los estudiantes pueden abandonar las disertaciones porque las hipótesis nulas no pueden ser rechazadas. Miembros de facultad, editores de revistas, y otros lectores de artículos, con frecuencia, reaccionan menos afablemente antes las hipótesis nulas aceptadas que ante las rechazadas (…) es muy tentador para la gente intentar hacer desesperadamente que sus resultados sean estadísticamente significativos (…). Esto es especialmente cierto para resultados que son casi significativos, como 0.05<p <0.10” (Abelson, 1998, p.82)

Pero junto a los artificios retóricos, Abelson también apunta a dos estilos diferentes a la hora de “hacer” pruebas estadísticas. Por un lado están los “presuntuosos”, que intentan llevar a cabo las cosas de modo que los valores de p parezcan apoyar sus hipótesis a toda costa. En el extremo opuesto, encontramos a los “remilgados”, que deciden someterse de manera inflexible al imperativo de las leyes y convenciones que rigen en la estadística y, tratando de cambiar probabilidad e incertidumbre por certeza, se atienen obstinadamente a la letra de las normas, más que a su espíritu.

Unos y otros tienen sus reglas, que Abelson (1998, p. 82-83) enuncia y analiza convenientemente. Así, las del estilo presuntuoso son:

Utilice una prueba de una sola cola.
Cuando haya disponible más de un procedimiento, utilice el que produzca el (los) resultado(s) más significativo(s).
Puede incluir o excluir los outliers de los datos, dependiendo de qué elección resulte mejor.
Cuando se pongan a prueba varios resultados simultáneamente, enfatice aquel(llos) que tenga(n) el mejor valor de p –el truco del hocus focus.
Exponga el valor real de p, pero hágalo convincente.

Y los del estilo remilgado, obviamente, son sus contrarios:

Nunca utilice pruebas de una cola.
Use un único análisis predeterminado.
Nunca excluya los outliers.
Evite aplicar un foco especial sobre un resultado particular, especialmente si es favorable.
Aférrese estrictamente a un nivel de significación determinado, por ejemplo, 0.05, y no haga distinciones entre los resultados que casi lo superan (p<0.06, digamos), y los que se alejan de la significación.

La posición del propio Abelson nos sugiere que, una vez más, en el punto medio está la virtud: “puedes hacer cualquier cosa que elijas, y reflexionar sobre el significado potencial de los resultados de tu investigación. (…) Normalmente, no es conveniente ser demasiado presuntuoso, pero no quieras ser tan pomposo como para obviar el análisis más lógico” (Abelson, 1998, p. 84). Y es que, como insistía en un post anterior, la estadística no se basa en la aplicación mecánica de una serie de reglas; al contrario, supone la reflexión, la valoración y la crítica de unos datos que no aparecen aisladamente, sino en un contexto en el que aspectos como el diseño empleado, el contraste con los resultados de investigaciones previas, la consistencia teórica, o las implicaciones de las conclusiones, nos pueden llevar a ser más atrevidos o más cautelosos. Especialmente, en el caso de los valores de p, no hay que olvidar las “transacciones” que pueda haber entre las probabilidades de cometer “falsos positivos” y “falsos negativos”, y su relación con aspectos como el tamaño de la muestra y el tamaño del efecto. A veces, uno puede llegar a ser muy remilgado en unas cosas, paradójicamente, a costa de ser presuntuoso en otras, y viceversa.

Posts relacionados:

Referencia:

Abelson, Robert P (1998). La estadística razonada: reglas y principios Barcelona: Paidós