20 votos

Determinar el mejor ajuste de la curva de ajuste de la función de lineales, exponenciales y logarítmicas

Contexto:

A partir de una pregunta sobre las Matemáticas de Intercambio de la Pila (puedo crear un programa), alguien tiene un conjunto de $x-y$ puntos, y quiere ajustar una curva, lineal, exponencial o logarítmica. El método habitual es comenzar por la elección de uno de estos (en el que se especifica el modelo) y, a continuación, hacer los cálculos estadísticos.

Pero lo que realmente quería es encontrar la "mejor" de la curva de lineal, exponencial o logarítmica.

Aparentemente, uno podría tratar todos los tres, y elija la que mejor se ajustaba a la curva de los tres de acuerdo con el mejor coeficiente de correlación.

Pero de alguna manera me estoy sintiendo esto no es muy kosher. El método generalmente aceptado es escoger su modelo en primer lugar, uno de los tres (o alguna otra función de enlace), a continuación, a partir de los datos calcular los coeficientes. Y post facto que recoge lo mejor de todo es que el cherry picking. Pero a mí me importa si tienes la determinación de una función o de los coeficientes a partir de los datos sigue siendo la misma cosa, el procedimiento es descubrir el mejor...cosa (digamos que los que la función es-también - otro coeficiente s de ser descubierto).

Preguntas:

  • Es conveniente elegir el mejor modelo de ajuste de lineales, exponenciales y logarítmicas modelos, basados en una comparación de los estadísticos de ajuste?
  • Si es así, ¿cuál es la forma más adecuada de hacer esto?
  • Si regresión ayuda a encontrar los parámetros (coeficientes) en una función, ¿por qué no puede haber una discreta parámetro para elegir cual de las tres de la curva de las familias de las mejores vendría?

12voto

Eric Davis Puntos 1542
  • Usted puede ser que desee comprobar hacia fuera el software gratuito llamado Eureqa. Tiene el objetivo de automatizar el proceso de encontrar tanto en la forma funcional y los parámetros de una relación funcional.
  • Si se comparan los modelos, con diferentes números de parámetros, por lo general se desea utilizar una medida de ajuste que penaliza los modelos con mayor número de parámetros. Hay una rica literatura en la que caben medida es la más apropiada para la comparación de modelos, y las cuestiones obtener más complicado cuando los modelos no anidados. Yo estaría interesado en escuchar lo que otros piensan es el modelo más adecuado de comparación del índice dado su escenario (como un punto, recientemente hubo una discusión en mi blog acerca de la comparación de los modelos de índices en el contexto de la comparación de los modelos para el ajuste de curvas).
  • Desde mi experiencia, no modelos de regresión lineal se utiliza por razones más allá de la pura ajuste estadístico de los datos:
    1. Modelos no lineales hacer más plausible predicciones fuera del rango de los datos
    2. Modelos no lineales requieren un menor número de parámetros de ajuste equivalente
    3. No-modelos de regresión lineal se aplica a menudo en los dominios donde hay una importante labor previa de investigación y teoría de rectores de selección de modelo.

8voto

Chris Pick Puntos 76

Esta es una pregunta que es válido en muy diversos dominios.

El mejor modelo es el único que puede predecir los puntos de datos que no fueron utilizados durante la estimación de los parámetros. Lo ideal sería de calcular los parámetros del modelo con un subconjunto del conjunto de datos, y evaluar el rendimiento de ajuste en otro conjunto de datos. Si usted está interesado en los detalles hacen una búsqueda con "validación cruzada".

Así que la respuesta a la primera pregunta es "No". No se puede simplemente tener el mejor modelo de ajuste. La imagen que se ajuste a un polinomio con grado N para N puntos de datos. Este será un ajuste perfecto, porque todo el modelo es exactamente lo que pasa en todos los puntos de datos. Sin embargo, este modelo no generalizar a los nuevos datos.

La forma más adecuada, por lo que puedo decir, es calcular la cantidad de su modelo se puede generalizar a otros conjuntos de datos utilizando métricas que castiga simultáneamente la amplitud de los residuos y el número de parámetros en el modelo. AIC y BIC son algunos de estos indicadores soy consciente de.

5voto

pauly Puntos 932

Desde un montón de gente que habitualmente explorar el ajuste de varias curvas a sus datos, no sé donde tus reservas están viniendo. Concedido, no es el hecho de que una ecuación cuadrática siempre le caben al menos tan bien como lineal y cúbico, por lo menos tan bien como una ecuación cuadrática, por lo que hay maneras para probar la significación estadística de la adición de un término no lineal y por lo tanto para evitar la complejidad innecesaria. Pero la práctica básica de muchas pruebas diferentes formas de una relación es sólo una buena práctica. De hecho, uno puede comenzar con un sistema muy flexible de loess de regresión para ver cuál es la más plausible tipo de curva de ajuste.

4voto

Eero Puntos 1612

Usted realmente necesita para encontrar un equilibrio entre la ciencia y la teoría que lleva a los datos y los datos que le dice. Como otros han dicho, si te dejas adaptarse a cualquier posible transformación (polinomios de cualquier grado, etc.) entonces usted va a terminar de sobreajuste y conseguir algo que es inútil.

Una manera de convencerse de esto es a través de la simulación. Elija uno de los modelos (lineal, exponencial, log) y generar datos que sigue a este modelo (con una elección de los parámetros). Si su varianza condicional de los valores y es pequeña en relación a la propagación de la variable x, a continuación, una trama muy simple hará evidente que el modelo fue elegido, y lo que la "verdad". Pero si usted elige un conjunto de parámetros que no es obvio a partir de las parcelas (probablemente el caso en que una solución analítica es de interés), a continuación, analizar cada una de las 3 formas y ver que da el "mejor" encaje. Espero que usted va a encontrar que la "mejor" ajuste es a menudo no el "verdadero" de ajuste.

Por otro lado, a veces deseamos que los datos nos dicen tanto como sea posible y que no tengamos la ciencia/teoría para determinar completamente la naturaleza de la relación. El documento original por Box y Cox (JRSS B, vol. 26, no. 2, 1964) analiza las maneras de comparar entre varias transformaciones en el eje de la variable, su conjunto de transformaciones lineales y de registro como casos especiales (pero no exponencial), pero no hay nada en la teoría de que el papel se limita sólo a su familia de transformaciones, la misma metodología podría ser ampliado para incluir una comparación entre los 3 modelos que te interesan.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X