ChatGPT et les plugins : bloquer l’exploration des robots d’OpenAI

ChatGPT continue de faire parler de lui et on peut dire qu’OpenAI ne s’endort pas sur ses lauriers. En effet après la sortie de ChatGPT Plus et la disponibilité du modèle GPT-4 pour les abonnés à ce service prenium, OpenAI continue les annonces fracassantes. Histoire de garder une avance conséquente sur ses concurrents, Open AI vient donc de lancer les plugins pour ChatGPT.

Le principe est simple, les développeurs vont pouvoir créer des extensions comme ce que l’on pourrait avoir sur WordPress, mais cette fois, c’est pour augmenter encore un peu plus les capacités de ChatGPT. Comme vous l’avez peut-être vu ou c’est même ChatGPT lui-même qui vous l’a indiqué, les données sur lesquelles l’intelligence artificielle a été entraînée ne sont pas à jour. Au moment où j’écris ces lignes, l’entraînement s’est donc arrêté sur des données qui datent pour les dernières au mois de septembre 2021 :

Si on ne lui fait pas confiance dans sa réponse, on peut quand même très facilement le vérifier avec une question simple :

Jusqu’ici, c’est plutôt cohérent. Bien évidemment, cet entraînement sera sûrement mis à jour comme le précise ChatGPT mais il faut reprendre tout le processus d’apprentissage. Une tâche qui demande énormément de ressources. Donc OpenAI ne risque pas de mettre à jour son modèle chaque semaine, du moins pas à court terme.

L’une des grandes nouveautés annoncées par OpenAI, c’est donc ces fameux plugins pour ChatGPT qui vont changer cette donne.

Les plugins arrivent dans ChatGPT

On peut dire qu’OpenAI nous propose une nouvelle petite révolution au sein de son robot conversationnel. Avec la disponibilité des plugins dans ChatGPT, les possibilités de l’intelligence artificielle vont être démultipliées. On sait à quel point les développeur ont du talent et son créatifs. Pour moi, le principal changement, grâce au plugin, ChatGPT va maintenant être capable d’aller parcourir en direct des pages web. Mine de rien, ça fait une sacrée différence avec ce qu’il est actuellement capable de faire. Une fois que les plugins seront disponibles pour tout le monde, je ferais sûrement un article pour vous présenter tout ça.

OpenAI a indiqué que les plugins proposés par les développeurs indépendants seront dans un premier temps vérifiés manuellement. Il faudra respecter des règles strictes pour éviter tout débordement et que ça deviennent vite n’importe quoi.

C’est ce qui nous amène au sujet principal de cet article. Si vous possédez un ou plusieurs sites web, vous connaissez sûrement le fichier robots.txt. Maintenant que ChatGPT est capable d’aller explorer des pages web, peut-être que vous ne voulez pas qu’OpenAI ou que les utilisateurs de ChatGPT puissent facilement récupérer le contenu de vos pages web.

Comment bloquer les plugins ChatGPT et OpenAI avec le robots.txt

Attention : le robot de ChatGPT à changé de nom, pour le bloquer avec robots.txt lisez cet article !

OpenAI a déjà mis à jour sa documentation pour bloquer le crawl de votre site par les robots de l’intelligence artificielle. Comme vous le savez sûrement, utiliser un fichier robots.txt est une bonne pratique, mais les robots d’exploration n’ont aucune obligation de le respecter. Par principe, on sait que les grands acteurs tels que Google ou Bing respectent cette directive. On imagine qu’OpenAI devrait en faire autant avec les plugins de ChatGPT, mais il s’agit seulement d’une indication pour les robots de crawl. Un robot d’exploration qui ne veut pas respecter les instructions de votre robots.txt ne le fera pas, ce n’est pas bloquant pour lui. Juste une instruction à normalement respecter

Dernière précision, le fichier robots.txt est à manier avec une extrême précaution. Encore plus si votre site est bien référencé dans les moteurs de recherche. Une simple erreur peut avoir pour conséquence de demander au moteur de recherche de désindexer l’ensemble de votre site ! Plutôt fâcheux non ?

En me basant sur la documentation des plugins de OpenAI, voici ce qu’il faut indiquer dans le fichier robots.txt de votre site pour interdire le crawl par ChatGPT :

User-agent: ChatGPT-User
Disallow: /

Quand un utilisateur de ChatGPT utilise un plugin qui cherche à aller sur votre site web, il devrait alors normalement obtenir le résultat suivant :

Petit bonus, vous pouvez aussi bloquer les adresses IP d’OpenAI et ChatGPT sur votre serveur web. De cette manière, ce ne sera pas possible pour l’entreprise d’intelligence artificielle de se connecter sur votre site à partir de ces adresses IP directement. Encore une fois, cette liste est susceptible d’évoluer donc ce n’est pas une solution infaillible. OpenAI peut aussi choisir d’utiliser discrètement d’autres adresses IP pour récupérer votre contenu et entraîner ses modèles d’intelligence artificielle. Voici les deux blocs d’IP qu’OpenAI indique d’utiliser dans sa documentation : 23.102.140.112/28 et 23.98.142.176/28.

La liste complète des 16 adresses IP dans la plage 23.102.140.112/28 :

    23.102.140.112
    23.102.140.113
    23.102.140.114
    23.102.140.115
    23.102.140.116
    23.102.140.117
    23.102.140.118
    23.102.140.119
    23.102.140.120
    23.102.140.121
    23.102.140.122
    23.102.140.123
    23.102.140.124
    23.102.140.125
    23.102.140.126
    23.102.140.127

Puis celles de la plage 23.98.142.176/28 :

    23.98.142.176
    23.98.142.177
    23.98.142.178
    23.98.142.179
    23.98.142.180
    23.98.142.181
    23.98.142.182
    23.98.142.183
    23.98.142.184
    23.98.142.185
    23.98.142.186
    23.98.142.187
    23.98.142.188
    23.98.142.189
    23.98.142.190
    23.98.142.191

1 réflexion au sujet de « ChatGPT et les plugins : bloquer l’exploration des robots d’OpenAI »

  1. Merci pour l’article, mais c’est fort décevant et inutile de partir du principe qu’OpenAI est peut-être malveillante. « On imagine qu’OpenAI devrait en faire autant avec les plugins de ChatGPT, mais il s’agit seulement d’une indication », « OpenAI peut aussi choisir d’utiliser discrètement d’autres adresses IP ». D’où viennent ces peurs irationnelles ? Quel est le but de ces mises en garde à part répandre du FUD ? Pourquoi OpenAI ne respecterait pas ce qu’elle dit ? A-t-on le moindre indice pouvant laisser penser qu’elle se comporterait de manière malveillante ? Au contraire, le simple fait d’avoir publié son User-Agent et ses adresses IP au tout début de cette évolution montre plutôt que la société veut agir avec autant de transparence que possible. Pourquoi la soupçonner de malveillance ? Pourquoi inventer un problème qui n’existe pas ? Quel message est envoyé ? Et surtout, quelle solution ont les webmasters qui ne veulent pas que leur contenu soit crawlé par ChatGPT, à part s’en remettre aux infos fournies par OpenAI, ou ne pas mettre l’info en public, ce qui est évident ? Pour moi, le dénigrement d’OpenAI et la mise en garde est vaine ; arrêtons de se créer des problèmes et doutes imaginaires…
    PS : je n’ai pas investi le moindre kopek dans OpenAI ou quelconque société d’ailleurs 😀 c’est juste une réaction de bon sens.

    Répondre

Laisser un commentaire