Las LangChain permiten procesar altos volúmenes de texto para ser ingestados por modelos de retrieve y chat. A continuación veremos un ejemplo funcional de cómo integrar papers de fingpt a gpt3.5 (el cuál no contiene esta información).
Instalaremos langchain (que traerá diferentes herramientas como carga de documentos, text splitter y traerá los modelos de openAI de chat y retrieval), pypdf (para la carga y manipulación de PDF), openai (para la carga de modelos) y chromadb (que es una base de datos vectorial).
%%capture
!pip install langchain pypdf openai chromadb tiktoken
Podemos crear una API KEY desde este link una vez hemos iniciado sesión.
El siguiente script tomará desde el teclado un input bloqueado como si fuera una contraseña, y posteriormente se seteará en las variables de entorno.
from getpass import getpass
import os
OPENAI_API_KEY = getpass("Enter the secret key value: ")
os.environ["OPENAI_API_KEY"] = OPENAI_API_KEY
Descargaremos los pdf con la librería request y lso procesaremos con PyPDFLoader que viene desde langchain.