L’été touche à sa fin et il est temps pour moi de reprendre un rythme de publication plus soutenu. Aujourd’hui, nous allons reparler d’OpenAI avec son très célèbre ChatGPT qui a démocratisé l’intelligence artificielle pour le grand public. Avant, c’était assez compliqué de mettre en place une intelligence artificielle pour pouvoir l’utiliser dans son coin. Maintenant, grâce à leurs outils, c’est devenu directement accessible en ligne pour tout le monde et cela a permis l’émergence de nombreux autres modèles. Cela a tellement explosé que l’on a maintenant des solutions pour utiliser de l’intelligence artificielle très facilement et en local sur un simple ordinateur à la maison !
Comme vous le savez, sûrement, proposer une bonne intelligence artificielle ce n’est pas si simple. Pour qu’un modèle d’intelligence artificielle soit performant. Il a besoin d’une quantité phénoménale de données pour son entraînement. D’ailleurs, les données seules ne suffisent pas, elles doivent être soigneusement sélectionnées et surtout de bonne qualité. OpenAI ne s’en cache pas. Ils ont largement exploré le Web pour entraîner ChatGPT. Ça leur vaut même quelques soucis juridiques dans certains pays qui ne voient pas ça d’un bon œil, notamment avec les données personnelles qui ont été aspirées au passage.
J’avais déjà écrit un article sur le sujet, mais j’ai vu qu’OpenAI avait récemment modifié sa documentation à ce sujet. En effet, si vous êtes le propriétaire d’un site web, vous pouvez empêcher les robots d’exploration de ChatGPT, d’aller extraire le contenu de votre site. Du moins en théorie.
Le fichier robots.txt sert à indiquer les directives que doit respecter un robot ou crawler qui a pour mission de parcourir votre site. C’est une norme qui est en place depuis maintenant longtemps et internet regorge de ressources à ce sujet. C’est très utile pour le SEO et cela permet par exemple d’exclure des pages à faible valeur ajoutée pour les moteurs de recherche comme par exemple de la pagination. Vous pouvez aussi par exemple bloquer l’indexation de page qui n’ont rien à faire sur Google, et même des dossiers ou un arborescence. C’est beaucoup plus pratique que la balise noindex directement sur vos pages, et cela permet de mettre toutes les directives au même endroit.
Ici, comme vous vous en doutez sûrement, nous allons nous intéresser à ChatGPT, car il est fort probable que leur robot d’exploration vienne voir votre site un jour ou l’autre. Si vous ne voulez pas que ChatGPT se servent des données et du contenu de votre site pour parfaire son entraînement, vous pouvez l’en empêcher avec ce fichier robots.txt. Pour bloquer le robot ChatGPT sur la totalité de votre site, c’est très facile et cela tient en deux lignes toutes simples :
User-agent: GPTBot
Disallow: /
Attention, respectez bien cette syntaxe et vérifiez plusieurs fois que vous ne vous êtes pas trompé. La moindre erreur dans ce fichier aurait pour conséquence potentielle de désindexer partiellement ou totalement votre site web. Ce qui vous en conviendrez est une conséquence plutôt fâcheuse, surtout si c’est le moyen de gagner votre vie ou vital pour votre entreprise. J’ai un ami développeur qui m’a justement dit que l’un de ses clients avait voulu faire cette modification lui-même, sans trop savoir ce qu’il faisait, et il avait tout simplement désindexé l’ensemble de son site à cause d’une erreur de syntaxe. Faites donc bien attention.