Hay 5 maneras profesionales con las que puedes construir tus modelos.
La primera es aplicar VALIDACIÓN CRUZADA, tiene como objetivo seleccionar el mejor corte de 80%/20% del dataset, con el 80% entrenas tu modelo y con el 20% validas tu modelo. La segunda es la HIPER-PARAMETRIZACIÓN, que tiene como objetivo seleccionar los parámetros ideales del modelo
La tercera es combinar ambos métodos a la vez, en la jerga técnica lo escucharás como el método de CALIBRACIÓN, aunque no es un nombre formal.
Con la técnica de CALIBRACIÓN un entrenamiento genera cientos de modelos, y nos quedamos con aquel que minimice el error lo más que se pueda, por ejemplo es común que 1 entrenamiento tenga de 100 a 1000 modelos.
También podríamos refinar aún más los modelos aplicando una cuarta técnica, la de MÉTODOS ESTADÍSTICOS, sin embargo no es tan fácil de automatizar y requiere mucho tiempo de análisis humano, así que en su lugar se prefiere usar una quinta técnica, la de CLÚSTERS DE BIG DATA, que en términos simples aplican fuerza bruta computacional sobre los modelos.
EN RESUMEN, en las empresas construyen modelos de manera profesional combinando la VALIDACIÓN CRUZADA junto con la HIPER-PARAMETRIZACIÓN sobre infraestructura de CLÚSTERS DE BIG DATA.
Todo esto puede parecer complejo, pero realmente es fácil, sólo es cuestión de saber qué parámetros necesita tu algoritmo y cómo tunear cada uno de ellos, incluso ahora tienes copilotos que te ayudan como AutoML de Azure, en Big Data Academy lo hemos usado fuertemente desde el 2020 y nos simplificaba el 50% del trabajo, incluso hemos tenido clientes que han industrializado algunos casos de negocio al 100%.
¿CÓMO PUEDES APRENDER TODO ESTO?