21 votos

XGBoost puede gestionar los datos que faltan en la fase de previsión

Recientemente he revisado el algoritmo XGBoost y me he dado cuenta de que este algoritmo puede manejar los datos perdidos (sin requerir imputación) en la fase de entrenamiento. Me preguntaba si XGboost puede manejar los datos que faltan (sin requerir imputación) cuando se utiliza para predecir nuevas observaciones o es necesario imputar los datos que faltan.

Gracias de antemano.

25voto

Synderesis Puntos 113

Xgboost decide en el momento del entrenamiento si los valores perdidos van al nodo derecho o al izquierdo. Elige cuál para minimizar las pérdidas. Si no hay valores perdidos en el momento del entrenamiento, envía por defecto los nuevos valores perdidos al nodo derecho.

Si hay una señal en la distribución de sus pérdidas, entonces el modelo se ajusta esencialmente a ella.

Tenga cuidado si sus datos de puntuación tienen una distribución de valores perdidos diferente a la de sus datos de entrenamiento. El manejo de valores perdidos de xgboost es conveniente pero no protege contra el enmascaramiento.

Fuente: esta respuesta

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X