238 votos

La diferencia entre los modelos logit y probit

¿Cuál es la diferencia entre Logit y el modelo Probit?

Estoy más interesado aquí en saber cuando utilizar la regresión logística, y cuando el uso de Probit.

Si hay alguna literatura que define el uso de R, que podría ser útil también.

116voto

zcrar70 Puntos 133

La diferencia principalmente en la función de enlace.

En Logit: $\Pr(Y=1 \mid X) = [1 + e^{-X'\beta}]^{-1} $

En Probit: $\Pr(Y=1 \mid X) = \Phi(X'\beta)$ (Acumulativa normal pdf)

De otra manera, la logística tiene un poco más plano colas. yo.e probit de la curva se aproxima a la de los ejes más rápidamente que la de la curva.

Logit tiene mejor interpretación de probit. La regresión logística puede ser interpretado como la modelación de las probabilidades de registro. Generalmente, las personas empiezan las modelos logit. Usted podría utilizar la probabilidad valor para decidir logit o probit.

43voto

user8076 Puntos 16

Además vinux respuesta, que ya cuenta la más importante:

  • los coeficientes $\beta$ en la regresión logit natural interpretaciones en términos de odds ratio;

  • el probistic de regresión es el modelo natural cuando usted piensa que su resultado binario depende de una oculta de gauss variable $Z = X' \beta + \epsilon\ $ [eq. 1] with $\epsilon \sim \mathcal N(0,1)$ in a deterministic manner: $Y = 1$ exactly when $Z > 0$.

  • Más en general, y de manera más natural, probistic de regresión es el más natural de la modelo, si usted piensa que el resultado es $ exactly when some $Z_0 = X' \beta_0 + \epsilon_0$ exceeds a threshold $c$, with $\epsilon \sim \mathcal N(0,\sigma^2)$. It is easy to see that this can be reduced to the aforementioned case: just rescale $Z_0$ as $Z = {1\over \sigma}(Z_0-c)$; it's easy to check that equation [eq. 1] still holds (rescale the coefficients and translate the intercept). These models have been defended, for example, in medical contexts, where $Z_0$ would be an unobserved continuous variable, and $Y$ eg a disease which appears when $Z_0$ supera cierto "umbral patológico".

Ambos modelos logit y probit son sólo modelos. "Todos los modelos están equivocados, algunos son útiles", como dijo una vez! Ambos modelos permiten detectar la existencia de un efecto de $X$ on the outcome $Y$; excepto en algunos casos muy especiales, ninguno de ellos será "muy cierto", y su interpretación debe hacerse con cautela.

26voto

ykaganovich Puntos 8497

Un punto importante que no ha sido abordado en el anterior (excelente) de las respuestas es el paso de la estimación. Modelo logit Multinomial modelos tienen un PDF que es fácil de integrar, que conduce a una forma cerrada de la expresión de la elección de la probabilidad. La función de densidad de la distribución normal no es tan fácil de integrar, de manera que los modelos probit generalmente requieren de la simulación. Así, mientras que ambos modelos son abstracciones de situaciones del mundo real, logit es generalmente más rápido para uso en problemas más grandes (varias alternativas o grandes conjuntos de datos).

Para ver esto más claramente, la probabilidad de un resultado en particular de ser seleccionada es una función de la $x$ predictor variables and the $\varepsilon$ términos de error (después de Entrenar)

$$ P = \int I[\varepsilon > -\beta x] f(\varepsilon)d\varepsilon $$ Donde $I$ es un indicador de la función, 1 si se selecciona, y cero en caso contrario. Al evaluar esta integral depende en gran medida en el supuesto de $f(x)$. En un modelo logit, esta es una función logística, y una distribución normal en el modelo probit. Para un modelo logit, esto se convierte en

$$ P=\int_{\varepsilon=-\beta x}^{\infty} f(\varepsilon)d\varepsilon\\ = 1 - F(-\beta x) = 1-\dfrac{1}{\exp(\beta x)} $$

No hay tal forma conveniente existe para los modelos probit.

10voto

Sean Hanley Puntos 2428

Un estándar modelo lineal (por ejemplo, un simple modelo de regresión) puede ser considerado como que tiene dos "partes". Estos son llamados el componente estructural y la componente aleatoria. Por ejemplo:
$$ Y=\beta_0+\beta_1X+\varepsilon \\ \text{donde } \varepsilon\sim\mathcal{N}(0,\sigma^2) $$ Los dos primeros términos (es decir, $\beta_0+\beta_1X$) constitute the structural component, and the $\varepsilon$ (lo que indica una distribución normal término de error) es la componente aleatoria. Cuando la variable de respuesta no está distribuido normalmente (por ejemplo, si la variable respuesta es binaria) este enfoque puede no ser válida. El modelo lineal generalizado (GLiM) fue desarrollado para abordar estos casos y modelos logit y probit son casos especiales de GLiMs que son apropiados para las variables binarias (o multi-categoría variables de respuesta con algunas adaptaciones para el proceso). Un GLiM tiene tres partes, un componente estructural, una función de enlace, y una respuesta de distribución. Por ejemplo:
$$ g(\mu)=\beta_0+\beta_1X $$ Aquí $\beta_0+\beta_1X$ is again the structural component, $g()$ is the link function, and $\mu$ is a mean of a conditional response distribution at a given point in the covariate space. The way we think about the structural component here doesn't really differ from how we think about it with standard linear models; in fact, that's one of the great advantages of GLiMs. Because for many distributions the variance is a function of the mean, having fit a conditional mean (and given that you stipulated a response distribution), you have automatically accounted for the analog of the random component in a linear model (N.B.: this can be more complicated in practice).

The link function is the key to GLiMs: since the distribution of the response variable is non-normal, it's what lets us connect the structural component to the response--it 'links' them (hence the name). It's also the key to your question, since the logit and probit are links (as @vinux explained), and understanding link functions will allow us to intelligently choose when to use which one. Although there can be many link functions that can be acceptable, often there is one that is special. Without wanting to get too far into the weeds (this can get very technical) the predicted mean, $\mu$, will not necessarily be mathematically the same as the response distribution's canonical location parameter; the link function that does equate them is the canonical link function. The advantage of this "is that a minimal sufficient statistic for $\beta$ exists" (German Rodriguez). The canonical link for binary response data (more specifically, the binomial distribution) is the logit. However, there are lots of functions that can map the structural component onto the interval $(0,1)$, and thus be acceptable; the probit is also popular, but there are yet other options that are sometimes used (such as the complementary log log, $\ln(-\ln(1-\mu))$, a menudo llamado 'cloglog'). Por lo tanto, hay un montón de posibles funciones de enlace y la elección de la función de enlace puede ser muy importante. La elección debe estar basada en una combinación de:

  1. El conocimiento de la respuesta de distribución,
  2. Consideraciones teóricas, y
  3. Empírica ajuste a los datos.

Tener cubierto un poco de trasfondo conceptual necesaria para comprender estas ideas con mayor claridad (perdóname), voy a explicar cómo estas consideraciones pueden ser utilizados para guiar la elección de enlace. (Permítanme señalar que creo que @David comentario captura con precisión por qué las diferentes enlaces son elegidos en la práctica.) Para empezar, si la variable de respuesta es el resultado de un ensayo de Bernoulli (es decir, $$

For a quick and clear, but solid, overview of the generalized linear model, see chapter 10 of Fitzmaurice, Laird, & Ware (2004), (on which I leaned for parts of this answer, although since this is my own adaptation of that--and other--material, any mistakes would be my own). For how to fit these models in R, check out the documentation for the function ?glm in the base package.

(One final note added later:) I occasionally hear people say that you shouldn't use the probit, because it can't be interpreted. This is not true, although the interpretation of the betas is less intuitive. With logistic regression, a one unit change in $X_1$ is associated with a $\beta_1$ change in the log odds of 'success' (alternatively, an $\exp(\beta_1)$-fold change in the odds), all else being equal. With a probit, this would be a change of $\beta_1\text{ }z$'s. (Think of two observations in a dataset with $z$-scores of 1 and 2, for example.) To convert these into predicted probabilities, you can pass them through the normal CDF, or look them up on a $z$$ or $), your response distribution will be binomial, and what you are actually modeling is the probability of an observation being a $ (that is, $\pi(Y=1)$). As a result, any function that maps the real number line, $(-\infty,+\infty)$, to the interval $(0,1)$ will work.

From the point of view of your substantive theory, if you are thinking of your covariates as directly connected to the probability of success, then you would typically choose logistic regression because it is the canonical link. However, consider the following example: You are asked to model high_Blood_Pressure as a function of some covariates. Blood pressure itself is normally distributed in the population (I don't actually know that, but it seems reasonable prima fascie), nonetheless, clinicians dichotomized it during the study (that is, they only recorded 'high-BP' or 'normal'). In this case, probit would be preferable a-priori for theoretical reasons. This is what @Elvis meant by "your binary outcome depends on a hidden Gaussian variable". Another consideration is that both logit and probit are symmetrical, if you believe that the probability of success rises slowly from zero, but then tapers off more quickly as it approaches one, the cloglog is called for, etc.

Lastly, note that the empirical fit of the model to the data is unlikely to be of assistance in selecting a link, unless the shapes of the link functions in question differ substantially (of which, the logit and probit do not). For instance, consider the following simulation:

set.seed(1)
probLower = vector(length=1000)

for(i in 1:1000){      
    x = rnorm(1000)
    y = rbinom(n=1000, size=1, prob=pnorm(x))

    logitModel  = glm(y~x, family=binomial(link="logit"))
    probitModel = glm(y~x, family=binomial(link="probit"))

    probLower[i] = deviance(probitModel)<deviance(logitModel)
}

sum(probLower)/1000
[1] 0.695

Even when we know the data were generated by a probit model, and we have 1000 data points, the probit model only yields a better fit 70% of the time, and even then, often by only a trivial amount. Consider the last iteration:

deviance(probitModel)
[1] 1025.759
deviance(logitModel)
[1] 1026.366
deviance(logitModel)-deviance(probitModel)
[1] 0.6076806

The reason for this is simply that the logit and probit link functions yield very similar outputs when given the same inputs.

Enter image description here

The logit and probit functions are practically identical, except that the logit is slightly further from the bounds when they 'turn the corner', as @vinux stated. (Note that to get the logit and the probit to align optimally, the logit's $\beta_1$ must be $\approx 1.7$ times the corresponding slope value for the probit. In addition, I could have shifted the cloglog over slightly so that they would lay on top of each other more, but I left it to the side to keep the figure more readable.) Notice that the cloglog is asymmetrical whereas the others are not; it starts pulling away from 0 earlier, but more slowly, and approaches close to 1 and then turns sharply.

A couple more things can be said about link functions. First, considering the identity function ($g(\eta)=\eta$) as a link function allows us to understand the standard linear model as a special case of the generalized linear model (that is, the response distribution is normal, and the link is the identity function). It's also important to recognize that whatever transformation the link instantiates is properly applied to the parameter governing the response distribution (that is, $\mu$), no se la respuesta real de los datos. Finalmente, debido a que en la práctica nunca tenemos la subyacente parámetro para transformar, en los debates de estos modelos, a menudo ¿qué es considerado el vínculo real que queda implícito y el modelo está representado por la inversa de la función de enlace aplicada a la componente estructural en su lugar. Que es:
$$ \mu=g^{-1}(\beta_0+\beta_1X) $$ Por ejemplo, la regresión logística es generalmente representado: $$ \pi(Y)=\frac{\exp(\beta_0+\beta_1X)}{1+\exp(\beta_0+\beta_1X)} $$ en lugar de: $$ \ln\left(\frac{\pi(Y)}{1-\pi(Y)}\right)=\beta_0+\beta_1X %#%#%-tabla.

(+1 a ambos @vinux y @Elvis. Aquí he tratado de proporcionar un marco más amplio dentro del cual pensar acerca de estas cosas y, a continuación, de acuerdo con ello, frente a la elección entre logit y probit.)

3voto

Niall Puntos 51

Con respecto a su declaración de

Estoy más interesado aquí en saber cuando utilizar la regresión logística, y cuando el uso de probit

Ya hay muchas respuestas aquí, que traer cosas a considerar al elegir entre los dos, pero hay una consideración importante que no se ha dicho aún: Cuando su interés está en mirar dentro de un clúster de asociaciones en datos binarios con una mezcla de efectos logísticos o de los modelos probit, hay una fundamentación teórica para preferir el modelo probit. Este es, por supuesto, suponiendo que no hay a priori de la razón de preferir el modelo logístico (por ejemplo, si estás haciendo una simulación y saben que es el verdadero modelo).

Primero, Para ver por qué esto es cierto de la primera nota de que ambos modelos pueden ser vistos como umbrales concretos continua de los modelos de regresión. Como ejemplo veamos el sencillo modelo lineal de efectos mixtos para la observación de $i$ within cluster $j$:

$$ y^{\star}_{ij} = \mu + \eta_{j} + \varepsilon_{ij} $$

donde $\eta_j \sim N(0,\sigma^2)$ is the cluster $j$ random effect and $\varepsilon_{ij}$ es el término de error. Entonces, tanto la logística y la regresión probit modelos son equivalentes formulado generado a partir de este modelo y de umbral en 0:

$$ y_{ij} = \begin{casos} 1 & \text{si} \ \ \ y^{\estrella}_{ij}≥0\\ \\ 0 &\text{si} \ \ \ y^{\estrella}_{ij}<0 \end{casos} $$

Si el $\varepsilon_{ij}$ plazo se distribuye normalmente, usted tiene una regresión probit y si es logísticamente distribuido usted tiene un modelo de regresión logística. Dado que la escala no es identificado, estos residuos de los errores se especifica como normal estándar y logística estándar, respectivamente.

Pearson (1900) mostró que si normal multivariante de datos fueron generados y umbrales concretos para ser categóricos, las correlaciones entre las variables subyacentes fueron estadísticamente identificado - estas correlaciones se denominan polychoric correlaciones y, específica para el binario caso, se denominan correlaciones tetracóricas. Esto significa que, en el modelo probit, el coeficiente de correlación intraclase de la base de variables normalmente distribuidas:

$$ {\rm ICC} = \frac{ \hat{\sigma}^{2} }{\hat{\sigma}^{2} + 1 } $$

se identifica lo que significa que en el probit caso de que usted puede caracterizar completamente la distribución conjunta de la base de variables latentes.

En el modelo logístico de los efectos aleatorios varianza en el modelo logístico todavía está identificado pero no caracterizar completamente la estructura de la dependencia (y por lo tanto la distribución conjunta), ya que es una mezcla entre una normal y una logística variable aleatoria que no tiene la propiedad de que está completamente especificado por su media y la matriz de covarianza. Toma nota de este extraño paramétrico de la suposición subyacente de variables latentes hace que la interpretación de los efectos aleatorios en el modelo logístico menos clara para interpretar en general.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by: