Resumen:
El presente estudio de investigación tuvo como objetivo comparar el
nivel de eficacia en modelos algorítmicos al estimar la deserción de los
estudiantes del nivel pregrado en la Universidad de Huánuco. Se definió
como un tipo de investigación aplicada, con un enfoque cuantitativo, con
alcance o nivel descriptivo y con un diseño pre experimental. Se recopiló
un total de 127 332 casos de estudio, donde cada caso de estudio era un
conjunto de datos de cada alumno matriculado durante los semestres del
2010-0 al 2018-2 compuesto por 17 atributos y uno de ellos era el indicador
de deserción; se seleccionó como muestra la cantidad de 14 800 casos y
cuya composición necesaria es que haya igual número de casos de
deserción como de no deserción. Dentro del desarrollo se aplicaron
técnicas propias de data science, data mining y machine learning; los
modelos algorítmicos que se compararon fueron: K-nearest neighbors,
Support vector machines, Multi-layer perceptron y Random forest; con
ayuda de software desarrollado por el investigador, en el lenguaje Python,
se automatizaron ciertas tareas para lograr obtener las métricas de
desempeño, de las cuales se eligió como medida de estudio a la precisión.
Para la etapa de entrenamiento se utilizó un dataset que fue tomado de la
población total con un número similar al número de casos de la muestra
para que el aprendizaje de los modelos algorítmicos sea consistente. En la
etapa de evaluación de procedió a procesar los casos correspondientes a
la muestra donde se obtuvo que la precisión de los modelos rondaba el
75%. Al aplicar la prueba estadística se llegó a comprobar que el nivel de
eficacia en modelos algorítmicos presenta diferencias al estimar la
deserción de los estudiantes del nivel pregrado en la Universidad de
Huánuco, por lo cual se acepta la hipótesis planteada. Considerando el
nivel de eficacia basado en la precisión se concluye que el mejor modelo
es Random forest, y el peor modelo es K-nearest neighbors.