$R^2$ puede ser negativo, simplemente significa que:
- El modelo se ajusta muy mal a tus datos
- No estableciste una intercepción
Para las personas que dicen que $R^2$ está entre 0 y 1, esto no es cierto. Aunque un valor negativo para algo con la palabra 'elevado al cuadrado' en ella podría sonar como si rompiera las reglas de las matemáticas, puede ocurrir en un modelo de $R^2$ sin una intercepción. Para entender por qué, necesitamos mirar cómo se calcula $R^2$.
Esto es un poco largo - Si quieres la respuesta sin entenderla, entonces ve al final. De lo contrario, he intentado escribir esto en palabras simples.
Primero, definamos 3 variables: $RSS$, $TSS$ y $ESS$.
Calculando RSS:
Para cada variable independiente $x$, tenemos la variable dependiente $y$. Graficamos una línea lineal de mejor ajuste, que predice el valor de $y$ para cada valor de $x$. Llamemos a los valores de $y$ que la línea predice como $\hat y$. El error entre lo que tu línea predice y cuál es el valor real de $y$ se puede calcular por sustracción. Todas estas diferencias se elevan al cuadrado y se suman, lo cual da el Suma de los Residuos al Cuadrado $RSS$.
Poniéndolo en una ecuación, $RSS = \sum (y - \hat y)^2$
Calculando TSS:
Podemos calcular el valor promedio de $y$, que se llama $\bar y$. Si graficamos $\bar y$, es solo una línea horizontal a través de los datos porque es constante. Lo que podemos hacer con ello, sin embargo, es restar $\bar y$ (el valor promedio de $y$) de cada valor real de $y$. El resultado se eleva al cuadrado y se suma, lo cual da la Suma Total de Cuadrados $TSS$.
Poniéndolo en una ecuación $TSS = \sum (y - \bar y)^2$
Calculando ESS:
Las diferencias entre $\hat y$ (los valores de $y$ predichos por la línea) y el valor promedio $\bar y$ se elevan al cuadrado y se suman. Esto es la Suma Explicada de Cuadrados, que es igual a $\sum (\hat y - \bar y)^2$
Recuerda, $TSS = \sum (y - \bar y)^2$, pero podemos agregar un $ + \hat y - \hat y$ en ello, porque se cancela a sí mismo. Por lo tanto, $TSS = \sum (y - \hat y + \hat y -\bar y)^2$. Expandiendo estos paréntesis, obtenemos $TSS = \sum (y - \hat y)^2 + 2* \sum (y - \hat y)(\hat y - \bar y) + \sum (\hat y - \bar y)^2$
Cuando, y solo cuando la línea se grafica con una intercepción, siempre es cierto lo siguiente: $2* \sum (y - \hat y)(\hat y - \bar y) = 0$. Por lo tanto, $TSS = \sum (y - \hat y)^2 + \sum (\hat y - \bar y)^2$, lo cual te darás cuenta que simplemente significa que $TSS = RSS + ESS$. Si dividimos todos los términos por $TSS$ y reorganizamos, obtenemos $1 - \frac {RSS}{TSS} = \frac {ESS}{TSS}$.
He aquí la parte importante:
$R^2$ se define como cuánta de la varianza es explicada por tu modelo (qué tan bueno es tu modelo). En forma de ecuación, eso es $R^2 = 1 - \frac {RSS}{TSS}$. ¿Te suena familiar? Cuando la línea se grafica con una intercepción, podemos sustituir esto como $R^2 = \frac {ESS}{TSS}$. Dado que tanto el numerador como el denominador son sumas de cuadrados, $R^2$ debe ser positivo.
Pero
Cuando no especificamos una intercepción, $2* \sum (y - \hat y)(\hat y - \bar y)$ no necesariamente es igual a $0$. Esto significa que $TSS = RSS + ESS + 2* \sum (y - \hat y)(\hat y - \bar y)$.
Dividiendo todos los términos por $TSS$, obtenemos $1 - \frac{RSS}{TSS} = \frac {ESS + 2* \sum (y - \hat y)(\hat y - \bar y)}{TSS}$.
Finalmente, sustituimos para obtener $R^2 = \frac {ESS + 2* \sum (y - \hat y)(\hat y - \bar y)}{TSS}$. Esta vez, el numerador tiene un término que no es una suma de cuadrados, por lo que puede ser negativo. Esto haría que $R^2$ sea negativo. ¿Cuándo sucedería esto? $2* \sum (y - \hat y)(\hat y - \bar y)$ sería negativo cuando $y - \hat y$ es negativo y $\hat y - \bar y$ es positivo, o viceversa. Esto ocurre cuando la línea horizontal de $\bar y$ explica realmente mejor los datos que la línea de mejor ajuste.
He aquí un ejemplo exagerado de cuando $R^2$ es negativo (Fuente: Universidad de Houston Clear Lake)
En resumen:
- Cuando $R^2 < 0$, una línea horizontal explica los datos mejor que tu modelo.
También preguntaste sobre $R^2 = 0$.
- Cuando $R^2 = 0$, una línea horizontal explica los datos igual de bien que tu modelo.
Te felicito por haber llegado hasta aquí. Si encontraste esto útil, también deberías darle votos positivos a la respuesta de fcop aquí al cual tuve que referirme, porque ha pasado un tiempo.
6 votos
Esto significa que has hecho algo mal ya que $R^2$ se encuentra en $[0, 1]$ por definición. $R^2$ ajustado, por otro lado, puede ser negativo, lo que puedes asumir con seguridad que significa que tu modelo es un ajuste muy pobre a los datos. Cuando $R^2$ es exactamente cero esto significa que $\bar{y}$ es igual de buen predictor de $y$ como la línea de regresión de mínimos cuadrados en sí misma.
1 votos
Esto es posible para una regresión sin una intercepción ver por ejemplo stats.stackexchange.com/questions/164586/…
0 votos
Y también stats.stackexchange.com/questions/171240/…
0 votos
Relacionado: ¿Cuándo es R cuadrado negativo?
0 votos
@gung Estaba a punto de sugerir que esto posiblemente sea un duplicado de esa pregunta ... ¿Crees que son suficientemente distintos? (Si acaso, esta pregunta parece más clara que la otra porque no hay una sintaxis de SPSS distractora, pero las respuestas en el otro hilo son muy buenas y parecen cubrir esta pregunta también).
0 votos
@Silverfish, podrían ser duplicados (inicialmente estaba pensando en esa línea), pero "¿cuándo?" y "¿qué significa?" son teóricamente preguntas distintas (aunque terminen siendo similares). Estoy inclinado a dejar abierto, pero no tengo una opinión fuerte.
0 votos
@gung: Estoy abierto a eso. Estaba buscando una solución e intentando aclarar las cosas.