Skip to content
/ llm Public

Material sobre Grandes Modelos de Lenguajes (LLM) realizado en forma colaborativa. Se espera poder emigrar pronto a una asociación propia, haciendo este espacio abierto no solo a la MCD o a la Universidad de Sonora, si no en forma más abierta.

License

Notifications You must be signed in to change notification settings

mcd-unison/llm

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

38 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Material de consulta para aprendizaje y uso de LLM

Computadoras y lenguaje

Material sobre Grandes Modelos de Lenguajes (LLM) realizado en forma colaborativa. Se espera poder emigrar pronto a una asociación propia, haciendo este espacio abierto no solo a la MCD o a la Universidad de Sonora, si no en forma más abierta.

Nombre tentativo: Sociedad de Inteligencia Artificial del Noroeste (SIAN)

Tabla de contenidos

Recursos de aprendizaje

Newsletters y otros recursos para mantenerse actualizado

Frameworks de evaluación y visualización de LLM

  • RAGAS. Framework de evaluación open source. Sus ideas de evaluación son simples pero efectivas y creativas. Al día de hoy, 12 de mayo del 2024, cuentan con 9 métricas. Las tres originales se pueden leer en extenso en el paper original donde lo proponen. Su página oficial se encuentra disponible en el siguiente enlace.
  • LM Studio. Con LM Studio se puede ejecutar LLMs en laptops, completamente offline. Permite utilizar modelos a través de la interfaz de chat in-app o de un servidor local compatible con OpenAI. Descarga cualquier archivo de modelo compatible desde los repositorios de HuggingFace 🤗. Descubrir LLM nuevos y destacados en la página de inicio de la app.
  • Code Interpreter API. Framework que permite visualizar gráficas que son incluidas en la respuesta generada de un LLM. Es una implementación LangChain del intérprete de código ChatGPT. Usando CodeBoxes como backend para la ejecución de código python sandboxed.
  • Embedding projector de Tensorflow. Permite realizar reducciones de dimensionalidad para identificar como se están agrupando ideas, frases, palabras, etc. Para realizarlo, se utiliza Tensorboard.
  • LDAvis. Un framework para hacer gráficas de topic modeling cuando se usa el algoritmo LDA. Hay que tener cuidado de cómo interpretar las gráficas que genera. Para poder entender qué significan, es necesario ir al paper original donde lo proponen. Está para R y Python.
  • Vector DB Comparison. Vector DB Comparison es una herramienta gratuita y de código abierto de VectorHub para comparar bases de datos vectoriales. Se ha creado para describir los conjuntos de características de diferentes soluciones de bases de datos vectoriales. Cada una de las características descritas ha sido verificada en diversos grados.
  • Tonic Validate. Tonic Validate is a framework for the evaluation of LLM outputs, such as Retrieval Augmented Generation (RAG) pipelines.
  • Deepeval. DeepEval is a simple-to-use, open-source LLM evaluation framework, for evaluating and testing large-language model systems. It is similar to Pytest but specialized for unit testing LLM outputs.
  • ARES. ARES is a groundbreaking framework for evaluating Retrieval-Augmented Generation (RAG) models.

Frameworks de building and deploying

  • DIFY. Algo asi como un MLflow, pero para LLM.
  • COGNITA.

Monitoreo de aplicaciones LLM

  • Langfuse. Uso en navegador, pero se puede contenerizar en Docker.
  • Langsmith. Uso en navegador, pero se puede contenerizar en Docker. Es el sistema de monitoreo de langchaing.
  • Phoenix. No permite un tracking tan profundo de los logs de la solución LLM como langfuse o langsmith, pero si se pueden almacenar. Tiene un muy bien sistema para hacer EDA de informaciónb vectorial que utiliza el LLM, y trae integrados algunos algoritmos de reducción de la dimensionalidad.

Frameworks útiles para desarrollo de soluciones basados en LLM

  • LiteLLM. Llama a todas las APIs LLM usando el formato OpenAI. Utiliza Bedrock, Azure, OpenAI, Cohere, Anthropic, Ollama, Sagemaker, HuggingFace, Replicate (más de 100 LLM).
  • Unstructured. Bibliotecas y API de código abierto para crear canalizaciones de preprocesamiento personalizadas para etiquetado, formación o canalizaciones de aprendizaje automático de producción. Unstructured permite trabajar con datos empresariales existen en formatos difíciles de usar como HTML, PDF, CSV, PNG, PPTX, etc. Unstructured extrae y transforma sin esfuerzo datos complejos para utilizarlos con las principales bases de datos vectoriales y modelos LLM. Aunque esta disponible open source, se puede pagar por uso de su API, y tiene integraciones con algunas nubes. Su página oficial esta disponible en el siguiente enlace.
  • DSPy. El marco para programar (no prompting) modelos de lenguaje fundacionales.
  • AutoGen. Un marco de programación desarrollado por Microsoft para la programación IA basada en agentes LLM.
  • Biblioteca de prompts de Anthropic.
  • Qwen2-Math. A series of math-specific large language models of our Qwen2 series.
  • Promptwright - Synthetic Dataset Generation Library. Promptwright is a Python library from Stacklok designed for generating large synthetic datasets using a local LLM and most LLM service providers (openAI, Anthropic, OpenRouter etc). The library offers a flexible and easy-to-use set of interfaces, enabling users the ability to generate prompt led synthetic datasets.
  • Presidio: Data Protection and De-identification SDK. Presidio (Origin from Latin praesidium ‘protection, garrison’) helps to ensure sensitive data is properly managed and governed. It provides fast identification and anonymization modules for private entities in text and images such as credit card numbers, names, locations, social security numbers, bitcoin wallets, US phone numbers, financial data and more.

Tips & Tricks

About

Material sobre Grandes Modelos de Lenguajes (LLM) realizado en forma colaborativa. Se espera poder emigrar pronto a una asociación propia, haciendo este espacio abierto no solo a la MCD o a la Universidad de Sonora, si no en forma más abierta.

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published