El proyecto a partir de este punto será un chatbot funcional para la documentación oficial de Hugging Face. El primer paso para llevar a cabo esto será configurar el entorno, descargar los datos e inicializar variables.
Puedes encontrar el Repositorio del curso aquí, clónalo en un ambiente local e instala las dependencias con poetry, pip o conda.
La primer parte será descargar la totalidad de la documentación de Hugging Face, para esto, correremos el archivo text_extractor.py
Es importante que asignes las variables de entorno en tu distro o las cargues desde alguna librería, para esto puedes hacer uso de dotenv (pip install python-dotenv).
Después de ejecutar el script, habremos descargado más de 600 archivos md transformados a JSONL listos para ser procesados. Lo siguiente será cargarlos en Documents y dividirlos con un TextSplitter.
By Sebastián Franco Gómez