ESCIMAT: la nueva estadística en psicología

La aproximación estadística más empleada en psicología hoy en día es la basada en el contraste de hipótesis. De manera muy básica, este enfoque consiste en formular dos hipótesis. A una de ellas, la llamamos “hipótesis nula” –dado que se refiere a la ausencia de diferencias en una variable determinada, ya sea entre grupos o entre una muestra y una población-, mientras que a la otra hipótesis la conocemos como “alternativa” –ya que viene a representar lo contrario, esto es, la existencia de diferencias entre los objetos de comparación en la variable de estudio. Mediante una serie de procedimientos, la estadística inferencial permite rechazar una hipótesis nula y aceptar su correspondiente alternativa –o aceptar la nula y rechazar la alternativa, según el caso- asumiendo un determinado nivel de probabilidad de estar equivocados. Así hablamos del nivel de significación “alpha” que admitimos en un contraste de hipótesis, y que representa la probabilidad de cometer el error consistente en rechazar una hipótesis nula que en realidad sea verdadera. O sea, de equivocarnos diciendo –por ejemplo- que sí hay diferencias significativas entre grupos cuando en realidad no las hay. Como los investigadores prefieren ser cautos en sus conclusiones, el valor de alpha se fija habitualmente en una probabilidad pequeña –generalmente, 0.05 ó 0.01- en un intento de tener mayores garantías de que si un contraste arroja diferencias significativas, es realmente muy probable que al aceptar la hipótesis alternativa y rechazar la nula, se esté en lo correcto y los resultados no se deban al azar.

Esta aproximación estadística, que ha sido y hoy por hoy es la dominante en la psicología, está siendo criticada no obstante por diversos autores, como Field (2005), Kline (2004) o Cumming (2010). Son varias las cosas que no les convencen del enfoque estadístico del contraste de hipótesis. En primer lugar, se trata de un modo de analizar y presentar resultados que, al ser relativamente complejo en su lógica, frecuentemente es malinterpretado –tanto por legos en la materia como por expertos- y esto hace que a veces las conclusiones que se presentan en artículos y congresos no se siguen realmente de lo que sería la correcta interpretación de los datos. En otro plano, no es infrecuente además que «significación estadística» se confunda con «importancia» o «relevancia» científica de los resultados. La lógica del contraste de hipótesis, por otra parte, se basa en un pensamiento dicotómico en el que las hipótesis se aceptan o rechazan en términos de todo o nada, lo cual podría hacer que este procedimiento fuera algo pobre, al sólo informarnos de si existe o no un efecto. Pero más aún, el procedimiento de contraste de hipótesis tiene ciertos puntos de arbitrariedad, por ejemplo, el hecho de fijar el nivel de significación en 0.05 ó 0.01 no deja de ser una convención, y además, en ocasiones los investigadores no tienen un criterio claro a la hora de elegir un contraste de hipótesis unilateral –donde es más probable que un resultado sea significativo- o bilateral –que es más conservador-. A todo ello se añade un fenómeno estadístico que haría ciertamente cuestionables la fiabilidad de algunas conclusiones, y es que es más fácil que un resultado sea significativo cuando se trabaja con una muestra grande -aunque las diferencias entre grupos sean pequeñas-, mientras que con muestras pequeñas se necesitaría obtener diferencias muy grandes para que éstas llegasen a ser estadísticamente significativas.

Como respuesta a estas y otras limitaciones, se han planteado enfoques alternativos al contraste de hipótesis. Geoff Cumming (2012), por ejemplo, aboga por una “reforma estadística” y preconiza una “nueva estadística” que él mismo resume en el acrónimo ESCIMAT. Según este investigador de la Universidad de La Trobe en Australia, la estadística debería reorientarse hacia tres estrategias de análisis:

el cálculo de tamaños del efecto (effect sizes, ES-),
el establecimiento de intervalos de confianza (confidence intervals –CI-)
y el pensamiento meta-analítico (meta-analytic thinking, -MAT).

Con el cálculo del tamaño del efecto nos estamos enfocando no ya al hecho de si se ha producido un efecto o no, o hay diferencias significativas o no las hay –como en el pensamiento dicotómico del contraste de hipótesis- sino que nos planteamos otras preguntas: ¿cómo de grande son los efectos o las diferencias que se observan? ¿cómo de fuertes son las asociaciones entre variables? ¿hasta qué punto una intervención ha producido un efecto? El tamaño del efecto es, básicamente, una medida objetiva y estandarizada de la magnitud de un efecto observado.

El establecimiento de intervalos de confianza permite además disponer de una mayor información, ya que en ellos no sólo se ofrece un valor puntual sino un rango estimado de valores que tienen una probabilidad determinada de cubrir el verdadero valor poblacional. La información que aportan es por consiguiente más rica.

Finalmente, el pensamiento meta-analítico va en la misma línea de tratar de enriquecer la información sobre los datos disponibles y extraer conclusiones mejor fundamentadas sobre los efectos, tratando de evitar depositar nuestra confianza –una vez más en términos de todo o nada- en los resultados de un único estudio. De entrada, no hay que olvidar que cada estudio particular tiene como punto de partida una muestra determinada que no deja de ser un conjunto extraído entre otros muchos que se podrían haber extraído de la población, y que los resultados obtenidos pueden variar de unas muestras a otras. Pero además, confiar en lo obtenido en una única investigación puede ser problemático, dado que los resultados alejados de la norma –si bien son improbables- no son imposibles. Por ello, el meta-análisis adopta la estrategia de combinar resultados provenientes de varios estudios. Como su nombre indica, se trata de un “análisis de análisis”, pero que va más allá de la revisión sistemática de un tema, al incorporar una estrategia cuantitativa. En el meta-análisis se realiza una cuantificación de tamaños del efecto de los estudios individuales, que luego se combinan con objeto de estimar lo que sería el “verdadero tamaño del efecto” en la población. En definitiva, trata de proporcionar información unificada sobre la magnitud del efecto de las intervenciones, las diferencias observadas, la fuerza de las asociaciones entre variables o las posibles relaciones que pueden matizar los efectos objeto de análisis en los estudios individuales.

Cada vez más, el enfoque basado en el cálculo de tamaños del efecto está ganando seguidores entre los psicólogos dedicados a la investigación. La APA, por ejemplo, recomienda en la sexta edición de su manual de estilo la necesidad de reportar tamaños del efecto e intervalos de confianza allí donde sea posible (Cumming et al. 2012). No obstante, lejos de ser enfoques en conflicto, el contraste de hipótesis y la estimación de tamaños del efecto son estrategias complementarias que nos pueden aportar mayor riqueza y precisión en el análisis de los datos de investigación.

Puedes obtener más información sobre el proyecto ESCI-New Statistics de G. Cumming aquí.

Referencias sobre la nueva estadística:

Cumming, G. (2008). Replication and p intervals: p values predict the future only vaguely, but confidence intervals do much better Perspectives on Psychological Science, 3, 286-300

Cumming, G. (2012). Understanding The New Statistics: Effect Sizes, Confidence Intervals, and Meta-Analysis. New York: Routledge.

Cumming, G., Fidler, F., Kalinowski, P., & Lai, J. (2012). The statistical recommendations of the American Psychological Association Publication Manual: Effect sizes, confidence intervals, and meta-analysis Australian Journal of Psychology, 64 (3), 138-146 DOI: 10.1111/j.1742-9536.2011.00037.x