A través de las siguientes sesiones interiorizaremos en las data pipelines, donde aprenderemos sobre:
Es de suma importancia reconocer la importancia de los datos, dado que estos son el literal motor de nuestros modelos de inteligencia artificial, es fundamental dedicar esfuerzos a la generación y limpieza de datos ya que esto afectará al resultado final.
La calidad de los datos será directamente proporcional al desempeño del modelo, si los datos que entran no son tan buenos, entonces el modelo nunca será lo suficientemente efectivo: Esto es el concepto GIGO (Garbage In, Garbage Out), si alimentas tus modelos con basura, entonces saldrá basura.
El preprocesamiento de los datos es tan importante como su calidad, por lo que debes limpiar aquellos datos corruptos, incompletos o irrelevantes para el propósito del modelo.
Al final de todo el proceso de carga y limpieza tendremos un dataset compuesto de imágenes (o ejemplos) y etiquetas que representarán la clase a la que pertenecen, pasaremos de datos crudos a información limpia y valiosa que podremos usar en infinidad de casos de uso.