32 votos

¿Cuáles son las suposiciones de la regresión binomial negativa?

Estoy trabajando con un gran conjunto de datos (confidenciales, por lo que no puedo compartir demasiado), y llegué a la conclusión de que sería necesaria una regresión binomial negativa. Nunca antes he hecho una regresión glm, y no puedo encontrar ninguna información clara sobre cuáles son las suposiciones. ¿Son las mismas para la MLR?

¿Puedo transformar las variables de la misma manera (ya he descubierto que transformar la variable dependiente es una mala decisión ya que tiene que ser un número natural)? Ya he determinado que la distribución binomial negativa ayudaría a la sobredispersión de mis datos (la varianza está alrededor de 2000, la media es de 48).

¡Gracias por la ayuda!

46voto

AdamSane Puntos 1825

Estoy trabajando con un gran conjunto de datos (confidenciales, así que no puedo compartir demasiado),

Podría ser posible crear un pequeño conjunto de datos que tenga algunas de las características generales de los datos reales sin los nombres de las variables ni ninguno de los valores reales.

y llegó a la conclusión de que sería necesaria una regresión binomial negativa. Nunca antes había hecho una regresión glm, y no puedo encontrar ninguna información clara sobre cuáles son las suposiciones. ¿Son las mismas para la MLR?

¡Claro que no! Ya sabes que estás asumiendo que la respuesta es condicionalmente negativa binomial, no condicionalmente normal. ( Algunos las suposiciones son compartidas. La independencia, por ejemplo).

Déjame hablar de los GLMs en general primero.

Los GLM incluyen una regresión múltiple pero se generalizan de varias maneras:

1) la distribución condicional de la respuesta (variable dependiente) es de la familia exponencial que incluye la distribución de Poisson, binomial, gamma, normal y otras numerosas distribuciones.

2) la respuesta media está relacionada con los predictores (variables independientes) a través de un función de enlace . Cada familia de distribuciones tiene una vínculo canónico función - por ejemplo en el caso de la Poisson, el vínculo canónico es la log . Los enlaces canónicos son casi siempre los predeterminados, pero en la mayoría de los programas generalmente tienes varias opciones dentro de cada elección de distribución. Para el binomio el enlace canónico es el logit (el predictor lineal está modelando $ \log ( \frac {p}{1-p})$ y para la Gamma el enlace canónico es el inverso, pero en ambos casos se utilizan a menudo otras funciones de enlace.

Así que si tu respuesta fue $Y$ y tus predictores fueron $X_1$ y $X_2$ con una regresión de Poisson con el enlace de registro que podría tener para su descripción de cómo la media de $Y$ está relacionado con la $X$ 's:

$ \text {E}(Y_i) = \mu_i $

$ \log\mu_i = \eta_i $ ( $ \eta $ se llama "predictor lineal", y aquí la función de enlace es $ \log $ el símbolo $g$ se utiliza a menudo para representar la función de enlace)

$ \eta_i = \beta_0 + \beta_1 x_{1i} + \beta_2 x_{2i}$

3) la varianza de la respuesta no es constante, sino que opera a través de una función de varianza (una función de la media, posiblemente multiplicada por un parámetro de escala). Por ejemplo, la varianza de un Poisson es igual a la media, mientras que para un gamma es proporcional al cuadrado de la media. (Las cuasidistribuciones permiten cierto grado de desacoplamiento de la función de varianza de la distribución asumida)

--

Entonces, ¿qué suposiciones tienen en común con lo que recuerdas de la MLR?

  • La independencia sigue ahí.

  • La homosquedasticidad ya no se asume; la varianza es explícitamente una función de la media y así, en general, varía con los pronosticadores.

  • La linealidad: El modelo sigue siendo lineal en los parámetros (es decir, el predictor lineal es $X \beta $ ), pero la respuesta esperada es no relacionados linealmente con ellos (¡a menos que uses la función de enlace de identidad!).

  • La distribución de la respuesta es sustancialmente más general

La interpretación de la salida es en muchos sentidos bastante similar; todavía se pueden mirar los coeficientes estimados divididos por sus errores estándar por ejemplo, e interpretarlos de manera similar (son asintóticamente normales - una prueba de Wald z - pero la gente todavía parece llamarlos proporciones t, incluso cuando no hay ninguna teoría que los haga $t$ -distribuido en general).

Las comparaciones entre los modelos anidados (a través de una "tabla anova-" como las configuraciones) son un poco diferentes, pero similares (con pruebas de chi-cuadrado asintóticas). Si te sientes cómodo con el AIC y el BIC, se pueden calcular.

Generalmente se utilizan tipos similares de pantallas de diagnóstico, pero pueden ser más difíciles de interpretar.

Gran parte de tu intuición de regresión lineal múltiple se transmitirá si tienes en cuenta las diferencias.

Aquí hay un ejemplo de algo que se puede hacer con un gel que no se puede hacer con la regresión lineal (de hecho, la mayoría de la gente usaría la regresión no lineal para esto, pero el GLM es más fácil y más agradable para ello) en el caso normal - $Y$ es normal, modelado en función de $x$ :

$ \text {E}(Y) = \exp ( \eta ) = \exp (X \beta ) = \exp ( \beta_0 + \beta_1 x)$ (es decir, un enlace de bitácora)

$ \text {Var}(Y) = \sigma ^2$

Es decir, un ajuste de mínimos cuadrados de una relación exponencial entre $Y$ y $x$ .

¿Puedo transformar las variables de la misma manera (ya he descubierto que transformar la variable dependiente es una mala decisión ya que tiene que ser un número natural)?

No quieres (generalmente) transformar la respuesta (DV). A veces puede quieren transformar los predictores (IV) para lograr la linealidad del predictor lineal.

Ya he determinado que la distribución binomial negativa ayudaría a la sobredispersión de mis datos (la varianza es de alrededor de 2000, la media es de 48).

Sí, puede lidiar con la sobredispersión. Pero tenga cuidado de no confundir la condicional la dispersión con la incondicional dispersión.

Otro enfoque común - si bien un poco más kludgy y por lo tanto algo menos satisfactorio para mi mente - es la regresión cuasi-Poisson (regresión de Poisson demasiado dispersa).

Con el binomio negativo, está en la familia de los exponenciales si especificas uno de sus parámetros en particular (de la manera en que usualmente se repara para el GLMS por lo menos). Algunos paquetes se ajustarán si especificas el parámetro, otros envolverán la estimación del ML de ese parámetro (digamos a través del perfil de probabilidad) alrededor de una rutina de GLM, automatizando el proceso. Algunos lo restringirán a un conjunto más pequeño de distribuciones; no se dice qué software se puede utilizar, por lo que es difícil decir mucho más al respecto.

Creo que normalmente el enlace logarítmico tiende a ser usado con una regresión binomial negativa.

Hay un número de documentos de introducción (fácilmente encontrados a través de Google) que conducen a algunos análisis básicos de GLM de Poisson y luego a análisis binomiales negativos de datos GLM, pero tal vez prefieras mirar un libro sobre GLM y tal vez hacer un poco de regresión de Poisson primero sólo para acostumbrarte a eso.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X