Continue.dev : un assistant IA dans VSCode branché sur vos modèles
Continue.dev amène vos modèles auto-hébergés (Ollama, vLLM) dans VSCode et JetBrains : chat, édition inline et autocomplétion FIM, sans envoyer votre code au cloud.
Continue.dev amène vos modèles auto-hébergés (Ollama, vLLM) dans VSCode et JetBrains : chat, édition inline et autocomplétion FIM, sans envoyer votre code au cloud.
OpenWebUI offre une interface type ChatGPT, auto-hébergée et hors-ligne, par-dessus Ollama, vLLM ou LiteLLM. Installation Docker, multi-utilisateurs et RAG documentaire.
Une passerelle compatible OpenAI devant tous vos modèles : Ollama, vLLM, Claude, Gemini. Clés virtuelles, budgets et répartition de charge avec le proxy LiteLLM.
vLLM sert vos LLM open-source en production : batching continu, PagedAttention, parallélisme multi-GPU et API compatible OpenAI. Quand et comment l'utiliser après Ollama.
Au-delà de l'installation : comprendre la quantification GGUF (Q4_K_M), personnaliser un modèle avec un Modelfile, et importer un fine-tuning LoRA local dans Ollama.
La stack LLM self-hosted de 2026 : moteur d'inférence (Ollama, vLLM), proxy LiteLLM, interface OpenWebUI et assistant code Continue.dev. Souveraineté des données, coût et indépendance pour l'Afrique de…