TokenBreak : Quand une simple modification de lettre peut pirater une Intelligence Artificielle
L’ère de la technologie numérique a vu naître diverses formes de cybercriminalité, allant du phishing au piratage de réseaux. Aujourd’hui, une nouvelle menace émerge, visant spécifiquement l’intelligence artificielle (IA). Des chercheurs de Hidden Layer, Kieran Evans, Kasimir Schulz et Kenneth Yeung, ont découvert une technique de piratage d’IA innovante et subtile, nommée TokenBreak, qui parvient à contourner les mécanismes de protection des modèles de langage en modifiant simplement un caractère dans un texte.
Comprendre l’attaque TokenBreak
Pour comprendre comment fonctionne TokenBreak, il faut d’abord se pencher sur le concept de tokenisation, un élément fondamental des modèles d’IA. La tokenisation est un processus qui décompose un texte en unités plus petites, appelées tokens. Ces tokens sont essentiels pour le traitement du langage par l’IA. Par exemple, le mot « bonheur » pourrait être divisé en tokens tels que « bon » et « heur ». Ces tokens sont ensuite convertis en données numériques, que le modèle de langage analyse pour produire des réponses.
La stratégie de TokenBreak
TokenBreak exploite la tokenisation en modifiant subtilement un mot, déroutant ainsi les modèles de classification du texte qui sont utilisés pour détecter les contenus malveillants. Par exemple, le mot « instructions » peut être transformé en « finstructions », ou « loterie » en « lotterie ». Cette modification subtile, bien que minime, conserve le sens du texte original pour l’IA et les humains, mais parvient à échapper aux filtres de sécurité.
Ce type d’attaque est similaire à celles par spam ou injection rapide. Les stratégies vulnérables, telles que le Byte Pair Encoding (BPE) et WordPiece, qui fractionnent le texte différemment face à ces modifications, conduisent le modèle de protection à classer à tort le texte comme inoffensif.
Un piratage d’IA simple et efficace
Contrairement à d’autres techniques de piratage d’IA, comme la Yearbook Attack, qui dépend de constructions sémantiques complexes, TokenBreak agit directement sur l’architecture technique des modèles d’IA. Alors que la Yearbook Attack nécessite une construction astucieuse de phrases, TokenBreak requiert uniquement une modification minime. Cependant, la portée de la Yearbook Attack peut être plus large, car elle cible directement les réponses des chatbots, tandis que TokenBreak se concentre sur le contournement des filtres de modération.
Les solutions face à TokenBreak
Face à la menace de TokenBreak, les chercheurs de HiddenLayer proposent des solutions concrètes. La plus efficace consiste à utiliser des tokeniseurs Unigram, qui se révèlent résistants à TokenBreak, contrairement à BPE et WordPiece. Les tokeniseurs Unigram segmentent les mots de manière plus robuste, rendant les manipulations textuelles moins efficaces.
En outre, l’entraînement des modèles avec des exemples de textes manipulés peut améliorer leur capacité à détecter ces attaques. Une surveillance accrue des erreurs de classification est également recommandée pour identifier les schémas de contournement.
Conclusion
En somme, même si les techniques de piratage d’IA comme TokenBreak semblent simples, elles peuvent avoir des conséquences importantes. Il est donc essentiel de renforcer la résilience des systèmes d’IA par des mesures techniques, comme l’utilisation de tokeniseurs plus robustes et l’amélioration des mécanismes de détection. À mesure que la technologie évolue, les défis de la cybersécurité deviennent de plus en plus complexes, nécessitant une vigilance et une innovation constantes pour garantir la sécurité de nos systèmes d’IA.
Share this content: