Stéganographie Textuelle par Paraphrase (STP)

Submitted by Jonathan CHEVELU on
Team
Date of the beginning of the PhD (if already known)
Octobre 2025
Place
Lannion
Laboratory
IRISA - UMR 6074
Description of the subject

La stéganographie est une technique qui consiste à dissimuler une information sensible dans un média de couverture à l'apparence anodine, ici un texte. Contrairement au tatouage de documents, qui vise à rendre l'information inamovible des données de couverture, la stéganographie cherche à rendre cette information indétectable tout en maximisant la quantité d'information dissimulée dans un document de taille donnée.

Les approches récentes en stéganographie textuelle s'appuient souvent sur la génération de textes de couverture respectant une thématique prédéfinie. Cependant, ces textes générés peuvent manquer de crédibilité dans le contexte d'utilisation. De plus, la quantité d'informations qui doit être pré-partagée entre l'émetteur et le récipiendaire est parfois disproportionnée (modèle informatique, thématique du message de couverture, etc.), ce qui peut rendre les méthodes proposées irréalistes.

Par ailleurs, la production de paraphrases a considérablement progressé ces dernières années, notamment grâce aux avancées des grands modèles de langage (LLM). Si la réécriture de textes en conservant leur sens est de plus en plus performante, le contrôle précis de cette réécriture pour des tâches spécifiques reste un verrou scientifique difficile. La stéganographie textuelle représente une application ambitieuse dans ce domaine, car elle impose un critère strict au texte généré : le message secret doit être retrouvé par le récipiendaire, et uniquement par lui.

L'objectif de cette thèse est donc d'explorer la possibilité de modifier un texte existant pour y dissimuler un message tout en préservant son sens original. Des résultats collatéraux sur la détection de stéganographie textuelle sont également attendus.

Bibliography

C. Ding, Z. Fu, Z. Yang, Q. Yu, D. Li and Y. Huang, "Context-Aware Linguistic Steganography Model Based on Neural Machine Translation," in IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 32, pp. 868-878, 2024, doi: 10.1109/TASLP.2023.3340601.

T. S. Padmaja and S. M. Basha, "A Comprehensive Review on Steganography Techniques for Text, Images, and Audio," 2023 IEEE Fifth International Conference on Advances in Electronics, Computers and Communications (ICAECC), Bengaluru, India, 2023, pp. 1-8, doi: 10.1109/ICAECC59324.2023.10560079.

Z. -L. Yang, S. -Y. Zhang, Y. -T. Hu, Z. -W. Hu and Y. -F. Huang, "VAE-Stega: Linguistic Steganography Based on Variational Auto-Encoder," in IEEE Transactions on Information Forensics and Security, vol. 16, pp. 880-895, 2021, doi: 10.1109/TIFS.2020.3023279.

Ching-Yun Chang, Stephen Clark; Practical Linguistic Steganography using Contextual Synonym Substitution and a Novel Vertex Coding Method. Computational Linguistics 2014; 40 (2): 403–448. doi: https://doi.org/10.1162/COLI_a_00176

 

Researchers

Lastname, Firstname
Chevelu Jonathan
Type of supervision
Director
Laboratory
UMR 6074
Team
Contact·s
Nom
Chevelu Jonathan
Email
jonathan.chevelu@irisa.fr
Keywords
stéganographie, paraphrase, production automatique de texte, LLM