Au-delà de l'installation : comprendre la quantification GGUF (Q4_K_M), personnaliser un modèle avec un Modelfile, et importer un fine-tuning LoRA local dans Ollama.
La stack LLM self-hosted de 2026 : moteur d'inférence (Ollama, vLLM), proxy LiteLLM, interface OpenWebUI et assistant code Continue.dev. Souveraineté des données, coût et indépendance pour l'Afrique de…