L’intelligence artificielle, et plus particulièrement les grands modèles de langage (LLM), transforment notre façon de travailler, de créer et d’interagir. De ChatGPT à Claude d’Anthropic en passant par Mistral, les possibilités semblent infinies et de nouvelles entreprises se lancent continuellement. Mais une barrière se dresse souvent : la dépendance aux API cloud, avec leurs coûts, leurs limitations et les questions de confidentialité des données. Et si je vous disais qu’il existe un moyen simple et puissant d’exécuter des LLM open source directement sur votre machine locale ? C’est là qu’intervient Ollama.
Alors, qu’est-ce qu’Ollama exactement ? Imaginez une solution clé en main pour télécharger, configurer et faire tourner des modèles de langage de pointe comme Llama4, Mistral, Phi-4, Gemma3 et bien d’autres, sans quitter votre poste de travail. Ollama est disponible sur Linux, macOS, et même Windows maintenant. Ollama démocratise l’accès à l’IA locale, offrant aux développeurs, chercheurs et simples curieux une flexibilité et un contrôle inégalés sur leurs expérimentations avec l’intelligence artificielle générative.
Fini les tracas de configuration complexes ou la nécessité de jongler avec des dépendances multiples ! Avec Ollama, l’installation et l’utilisation de LLM locaux deviennent un jeu d’enfant. Cet outil astucieux s’occupe de tout le « packaging » pour que vous puissiez vous concentrer sur l’essentiel : explorer le potentiel des modèles d’intelligence artificielle en local. Que vous souhaitiez tester rapidement une idée, développer des applications IA en gardant vos données privées, ou simplement mieux comprendre le fonctionnement interne de l’IA en local, Ollama est l’outil qu’il vous faut.
L’installation est très simple et cela permet d’utiliser Ollama sur le système d’exploitation de votre choix. Que ce soit votre distribution Linux préférée, macOS ou encore Windows. Bien évidemment, pour ce genre de chose, je recommande d’utiliser Linux pour éviter au maximum les problèmes, mais au moins, il est disponible sur l’ensemble des OS. Je précise que pour la suite de cet article, j’utilise Ubuntu fraîchement installé à l’aide d’une clé USB.
Je ne détaillerai pas ici les étapes d’installation propres à chaque OS, car elles sont triviales et parfaitement documentées sur le site officiel d’Ollama. Concentrons-nous plutôt sur la prise en main et les commandes essentielles d’Ollama.
Gérer vos modèles LLM locaux avec Ollama
Une fois Ollama prêt à l’emploi, la première chose que vous voudrez probablement faire est de vérifier les modèles de langage déjà présents sur votre machine. Pour cela, une simple commande suffit :
ollama list
Forcément c’est vide pour le moment. Si vous avez déjà un peu manipulé Ollama, elle vous affichera un inventaire clair de tous les LLM que vous avez téléchargés.
Pour pouvoir utiliser l’intelligence artificielle en local, il va donc falloir des modèles ! Pour télécharger un LLM avec Ollama est tout aussi direct. Utilisez la commande : ollama pull suivie du nom du modèle désiré. Par exemple, pour récupérer le populaire Gemma3, vous taperez :
ollama pull gemma3
La liste des modèles disponibles dans Ollama est assez lisible et claire sur leur site officiel. Attention à la capacité de votre machine. Le mieux est donc d’aller voir et d’ajouter l’information des paramètres que l’on désire. Dans mon cas je suis sur un pc portable basique, en allant voir la fiche du modèle, je choisi donc la plus petite pour voir si ça tourne, je fais plutôt la commande :
ollama pull gemma3:1b
N’essayez pas de télécharger directement les plus grosses versions des modèles. Plus un modèle d’IA est gros et possède donc de paramètres, plus il vous faudra de la mémoire vive dans votre carte graphique ou de RAM si vous les exécutez directement sur le CPU. Je vous conseille de commencer par les plus petites versions pour voir comment ça tourne et d’augmenter progressivement si vous n’êtes pas à l’aise pour mesurer les capacités de votre matériel. La limite hardware est malheureusement ce qui vous freinera le plus, vous pouvez toutefois trouver de bonnes cartes graphiques d’occasion.
Si vous avez besoin de faire de la place ou de supprimer un modèle LLM devenu obsolète de votre installation Ollama, la commande ollama rm nom_du_modele est là pour ça. Par exemple :
ollama rm gemma3:1b
Cette commande désinstallera proprement le modèle la version 1b du modèle Gemma3 de votre système, libérant ainsi de l’espace disque précieux. Collectionner les modèles pour faire de nombreux tests, cela prend vite de la place. Je vous conseille d’ailleurs de prendre un SSD d’au moins 1 To pour utiliser l’IA en local avec Ollama si vous avez prévu de faire beaucoup d’expérimentations.
Utiliser les modèles d’intelligence artificielle avec Ollama
Maintenant, le moment tant attendu : interagir avec votre LLM local ! Pour lancer un modèle spécifique et commencer à converser avec lui directement dans votre terminal, la commande magique est ollama run nom_du_modele. Ainsi, pour démarrer une session de chat avec le plus petit modèle Gemma3, tapez simplement :
ollama run gemma3:1b
Vous entrerez alors dans une interface de dialogue où vous pourrez poser vos questions et explorer les capacités du modèle. C’est la même chose que sur ChatGPT, mais en ligne de commande pour le moment. Pour information, cela s’appelle l’inférence et c’est un mot qui pourrait être utilisé lors de vos futures recherches sur l’intelligence artificielle en local.
Une fois que vous avez lancé un modèle, il est possible qu’il reste chargé en mémoire pour pouvoir plus rapidement interagir de nouveau avec lui. Ce n’est pas un problème en soit est Ollama est capable de gérer la bascule si vous appelez manuellement plusieurs modèles les uns à la suite des autres. Cependant, si vous jonglez avec plusieurs projets ou si vous avez simplement oublié quel modèle est actuellement actif et consomme donc des ressources, Ollama vous aide à y voir plus clair. La commande :
ollama ps
Vous permet de lister tous les modèles en cours d’exécution sur votre machine. C’est pratique pour savoir ce qui tourne en arrière-plan.
Un LLM actif, surtout les plus volumineux, peut consommer une quantité non négligeable de RAM. Pour stopper un modèle spécifique et ainsi libérer ces précieuses ressources système, notamment la mémoire vive, utilisez la commande ollama stop nom_du_modele. Par exemple, toujours avec le même modèle :
ollama stop gemma3
La commande mettra fin à l’exécution de Gemma 3, ce qui peut être bien utile si vous souhaitez lancer une autre application gourmande. Je pense qu’il s’agit ici d’une bonne petite introduction pour utiliser facilement l’intelligence artificielle en local avec Ollama sur n’importe quel système d’exploitation. Nous verrons dans de futurs tutoriels comment ajouter une interface graphique à Ollama pour le rendre un peu plus convivial à utiliser. Ollama propose aussi une API en local très simple à utiliser pour appeler vos modèles d’intelligence artificielle dans d’autres programmes.