Lexique

Vocabulaire de la souveraineté numérique

70définitions de référence couvrant la réglementation européenne, l'intelligence artificielle, le cloud souverain, la cybersécurité et les logiciels métier — pour comprendre les enjeux et tenir les conversations techniques.

15Réglementation15Intelligence Artificielle12Infrastructure & Cloud10Logiciels métier10Cybersécurité8Standards & Données

A

AI Act

Réglementation

Premier règlement mondial contraignant sur l’intelligence artificielle, adopté par l’Union européenne en 2024. Il classe les systèmes d’IA selon leur niveau de risque (inacceptable, élevé, limité, minimal) et impose des obligations proportionnelles. Les IA à haut risque (recrutement, crédit, contrôle des frontières, infrastructures critiques) sont soumises à des exigences de transparence, de qualité des données, de supervision humaine et d’enregistrement. Les « modèles à usage général » (comme les LLM) font l’objet d’obligations spécifiques selon leur puissance de calcul utilisée à l’entraînement.

Agent IA

Intelligence Artificielle

Système d’intelligence artificielle capable de planifier et d’exécuter une séquence d’actions autonomes pour atteindre un objectif défini, en interagissant avec son environnement (outils, APIs, bases de données, navigateur web). Un agent IA dispose d’un LLM comme moteur de raisonnement, de mémoire (contexte court terme + base de données long terme), et d’un ensemble d’outils qu’il peut appeler. Les architectures multi-agents font collaborer plusieurs agents spécialisés. Leur déploiement souverain exige une infrastructure privée isolant toutes les interactions.

API — Interface de Programmation d’Application

Infrastructure & Cloud

Interface logicielle permettant à deux applications de communiquer entre elles de façon standardisée. Les API définissent les méthodes, formats de données et protocoles d’échange. Dans le contexte de la souveraineté numérique, la disponibilité d’API ouvertes et documentées est un critère d’interopérabilité essentiel pour éviter le vendor lock-in. Une API bien conçue permet de migrer d’un fournisseur à un autre sans refonte complète du système d’information. Les API REST et GraphQL sont les architectures les plus répandues.

ANSSI — Agence Nationale de la Sécurité des Systèmes d’Information

Cybersécurité

Autorité nationale française en matière de cybersécurité, placée sous l’autorité du Premier ministre et rattachée au SGDSN (Secrétariat Général de la Défense et de la Sécurité Nationale). Créée en 2009, l’ANSSI publie des référentiels de sécurité (dont SecNumCloud, PGSSI-S, RGS), qualifie les prestataires de confiance, coordonne la réponse aux incidents majeurs et pilote la mise en œuvre de la directive NIS2 en France. Elle fait autorité en matière de recommandations techniques et réglementaires pour la sécurité des systèmes d’information.

B

Base de données vectorielle

Intelligence Artificielle

Système de stockage optimisé pour stocker et interroger des embeddings (vecteurs) à très grande échelle. Contrairement aux bases de données relationnelles qui cherchent des correspondances exactes, une base vectorielle effectue des « recherches par similarité » (approximate nearest neighbor) : elle trouve les vecteurs les plus proches d’une requête dans l’espace sémantique. Les solutions courantes incluent Qdrant, Weaviate, Chroma, Milvus et Pinecone. Dans une architecture RAG privée, la base vectorielle est déployée sur l’infrastructure interne pour garantir qu’aucune donnée ne sort.

BI — Business Intelligence

Logiciels métier

Ensemble de processus, technologies et outils permettant de collecter, transformer et visualiser des données d’entreprise pour aider à la prise de décision. Les outils BI (tableaux de bord, rapports, analyses ad hoc) permettent de synthétiser des données provenant de multiples sources (ERP, CRM, bases de données) en indicateurs actionnables. Des solutions open source souveraines (Apache Superset, Metabase, Grafana) permettent de déployer des capacités BI avancées sans transférer les données analytiques vers des plateformes américaines (Tableau, Power BI).

BPM — Business Process Management

Logiciels métier

Discipline et ensemble d’outils permettant de modéliser, automatiser, exécuter, superviser et optimiser les processus métier d’une organisation. Les plateformes BPM (Bonita, Camunda, Activiti) permettent de déployer des workflows automatisés : circuits de validation, processus d’onboarding, traitement de dossiers. La modélisation se fait généralement en notation BPMN (Business Process Model and Notation), un standard ouvert. Le BPM open source déployé on-premise évite de confier les processus internes à des plateformes cloud tierces.

C

CLOUD Act — Clarifying Lawful Overseas Use of Data Act

Réglementation

Loi américaine de 2018 autorisant les autorités fédérales américaines (FBI, NSA, DOJ) à contraindre toute entreprise soumise à la juridiction des États-Unis à livrer des données numériques stockées sur ses serveurs, quelle que soit leur localisation géographique dans le monde. Le CLOUD Act s’applique à toutes les sociétés américaines et à leurs filiales étrangères, ce qui rend inefficace le simple hébergement en Europe auprès d’un fournisseur américain. La seule protection effective est de recourir à des prestataires hors juridiction américaine, comme les hébergeurs qualifiés SecNumCloud.

Context window — Fenêtre de contexte

Intelligence Artificielle

Quantité maximale de texte (exprimée en tokens) qu’un modèle de langage peut traiter en une seule interaction, incluant le prompt système, l’historique de la conversation et les documents injectés. Une grande fenêtre de contexte permet d’analyser de longs documents en une seule passe (contrats, rapports, code source). Les modèles récents atteignent 128 000 tokens (environ 100 000 mots), voire 1 million de tokens pour certains. La taille de la fenêtre de contexte est un critère de sélection important pour les cas d’usage documentaires.

Cloud hybride

Infrastructure & Cloud

Architecture combinant des ressources cloud privées (on-premise ou datacenter dédié) et des ressources cloud public, interconnectées et gérées de façon unifiée. Le cloud hybride permet de placer les données et traitements sensibles sur l’infrastructure privée souveraine tout en bénéficiant de l’élasticité du cloud public pour les charges non sensibles. Sa mise en œuvre requiert une stratégie de classification des données rigoureuse pour déterminer ce qui peut ou non migrer vers le cloud public.

Conteneur (Docker / Kubernetes)

Infrastructure & Cloud

Unité standardisée de déploiement logiciel encapsulant une application et toutes ses dépendances dans un environnement isolé et portable. Docker est la technologie de conteneurisation de référence ; Kubernetes est le système d’orchestration qui automatise le déploiement, la montée en charge et la gestion de clusters de conteneurs. La conteneurisation facilite les déploiements on-premise souverains en rendant les applications portables entre différents environnements d’infrastructure, sans dépendance à un cloud spécifique.

CDN — Réseau de Distribution de Contenu

Infrastructure & Cloud

Infrastructure distribuée de serveurs géographiquement proches des utilisateurs finaux, servant à livrer rapidement du contenu web statique (images, scripts, vidéos) en minimisant la latence. Les CDN améliorent les performances des sites web en servant le contenu depuis le point de présence le plus proche du visiteur. Du point de vue souveraineté, les CDN américains (Cloudflare, AWS CloudFront) voient transiter tout le trafic de l’organisation, ce qui peut poser des questions de confidentialité et de conformité pour certains types de données.

CRM — Gestion de la Relation Client

Logiciels métier

Logiciel centralisant la gestion des interactions avec les clients et prospects : contacts, historique des échanges, opportunités commerciales, suivi des contrats, service après-vente. Le CRM est l’un des systèmes les plus critiques pour une entreprise, contenant ses données clients, ses prévisions de vente et sa connaissance commerciale. Les CRM SaaS américains dominants (Salesforce, HubSpot, Microsoft Dynamics) exposent ces données stratégiques au CLOUD Act. Des alternatives européennes auto-hébergeables existent (SuiteCRM, Dolibarr, Vtiger).

D

Data Act

Réglementation

Règlement européen (UE) 2023/2854 applicable à partir de septembre 2025, qui organise le partage équitable des données générées par les objets connectés et les services numériques. Il donne aux utilisateurs le droit d’accéder aux données produites par les produits qu’ils utilisent et de les partager avec des tiers. Le Data Act impose également aux fournisseurs de services cloud de faciliter la portabilité et le changement de prestataire, luttant ainsi contre les effets de verrouillage (vendor lock-in) des grandes plateformes numériques.

DGA — Data Governance Act

Réglementation

Règlement européen (UE) 2022/868 créant un cadre pour la gouvernance des données non personnelles détenues par les organismes publics. Il instaure un mécanisme de « partage altruiste » des données, encadre les intermédiaires de données et pose les bases des espaces européens de données dans des secteurs stratégiques (santé, agriculture, mobilité). Le DGA vise à réduire la dépendance aux grandes plateformes non européennes qui ont capitalisé sur la concentration des données.

DSA — Digital Services Act

Réglementation

Règlement européen (UE) 2022/2065 entré en application en 2024, qui modernise la responsabilité des plateformes numériques en ligne. Il impose aux très grandes plateformes (VLOP) et moteurs de recherche des obligations renforcées de modération des contenus illicites, de transparence algorithmique et d’évaluation des risques systémiques. Le DSA s’applique en fonction de la taille de la plateforme, avec les exigences les plus strictes pour les acteurs dépassant 45 millions d’utilisateurs actifs mensuels dans l’UE.

DMA — Digital Markets Act

Réglementation

Règlement européen (UE) 2022/1925 visant à rétablir une concurrence loyale sur les marchés numériques en encadrant les « contrôleurs d’accès » (gatekeepers) — les grandes plateformes systémiques comme Apple, Google, Meta, Microsoft ou Amazon. Il leur impose notamment l’interopérabilité avec les services concurrents, l’interdiction de l’auto-préférence dans les classements, et l’obligation de permettre le désinstallation des applications préinstallées. Les sanctions peuvent atteindre 10 % du chiffre d’affaires mondial, voire 20 % en cas de récidive.

DORA — Digital Operational Resilience Act

Réglementation

Règlement européen (UE) 2022/2554 applicable depuis janvier 2025, spécifiquement destiné au secteur financier (banques, assurances, sociétés d’investissement, prestataires de services de paiement). DORA impose une gestion rigoureuse des risques informatiques, des tests de résilience opérationnelle numérique, le reporting des incidents TIC majeurs aux autorités compétentes et l’encadrement des contrats avec les prestataires tiers de services TIC (cloud, logiciels, données). Il harmonise les exigences qui existaient jusqu’alors de façon fragmentée dans chaque pays membre.

DCAT — Data Catalog Vocabulary

Standards & Données

Vocabulaire RDF standardisé par le W3C pour décrire les catalogues de données (datasets) de façon interopérable sur le Web. DCAT permet à des portails de données distincts (administrations, entreprises, acteurs de la société civile) de publier leurs métadonnées dans un format commun, facilitant la découverte et l’agrégation automatique de données. L’extension DCAT-AP (Application Profile) est utilisée dans les portails open data européens, dont data.gouv.fr, pour garantir l’interopérabilité des catalogues au niveau continental.

E

eIDAS 2

Réglementation

Révision du règlement européen sur l’identité électronique et les services de confiance, adoptée en 2024. eIDAS 2 instaure le « portefeuille d’identité numérique européen » (EUDIW), permettant à chaque citoyen de l’UE de prouver son identité et de partager des attributs vérifiables (diplômes, permis de conduire, certificats professionnels) de façon souveraine, sans dépendre de services d’identité tiers comme Google ou Facebook. En France, la mise en œuvre est coordonnée par l’ANSSI et la DINUM.

Embedding

Intelligence Artificielle

Représentation numérique d’un texte, d’une image ou d’un autre objet sous forme d’un vecteur dense dans un espace mathématique de haute dimension. Les embeddings capturent la signification sémantique : deux textes au sens proche produisent des vecteurs proches dans cet espace. Ils sont le fondement technique des systèmes de recherche sémantique et des architectures RAG : au lieu de chercher des mots-clés identiques, on compare la similitude de sens entre une question et des passages documentaires. Les modèles d’embedding sont distincts des LLM génératifs.

E2EE — Chiffrement de bout en bout

Infrastructure & Cloud

Mécanisme cryptographique garantissant que les données sont chiffrées chez l’émetteur et ne peuvent être déchiffrées que par le destinataire légitime, sans qu’aucun intermédiaire (y compris le fournisseur du service) ne puisse y accéder en clair. Le chiffrement de bout en bout est une exigence du référentiel SecNumCloud pour les données les plus sensibles. Il doit être distingué du chiffrement en transit (TLS) et du chiffrement au repos, qui ne protègent pas contre l’accès par le fournisseur de service.

ERP — Progiciel de Gestion Intégré

Logiciels métier

Logiciel intégrant l’ensemble des fonctions de gestion d’une organisation dans un système d’information unifié : comptabilité, achats, ventes, stocks, production, ressources humaines, CRM. Un ERP centralise les données dans une base commune, éliminant les silos entre les départements. Les ERP souverains d’origine française (Dolibarr, Odoo en version auto-hébergée, EBP) permettent d’éviter de confier l’ensemble du système nerveux de l’entreprise à des acteurs américains soumis au CLOUD Act comme SAP (américanisé) ou Oracle.

ETL — Extract, Transform, Load

Logiciels métier

Processus d’intégration de données consistant à extraire des données de sources hétérogènes, les transformer (nettoyage, normalisation, enrichissement) et les charger dans un système cible (entrepôt de données, base analytique). L’ETL est le pipeline de données fondamental pour les projets d’analytique, de BI et d’IA. Les outils ETL open source (Apache Airflow, Talend Open Studio, Airbyte) permettent de construire des pipelines de données souverains, en gardant toutes les transformations dans le périmètre de l’organisation.

EDR — Endpoint Detection and Response

Cybersécurité

Solution de sécurité installée sur les postes de travail et serveurs (endpoints) pour détecter, investiguer et répondre aux menaces avancées en temps réel. L’EDR enregistre en continu les activités du système (processus, connexions réseau, accès fichiers) et applique des algorithmes de détection comportementale pour identifier des actions malveillantes que les antivirus signatures ne détectent pas. Les EDR souverains déployés on-premise évitent d’envoyer des données de comportement internes vers des plateformes cloud étrangères.

F

Fine-tuning

Intelligence Artificielle

Processus d’ajustement fin d’un modèle de langage pré-entraîné sur un corpus spécialisé plus restreint. Le fine-tuning permet d’adapter un modèle généraliste à un domaine spécifique (juridique, médical, financier) ou à un style de réponse particulier, en réentraînant une partie de ses paramètres sur des exemples représentatifs. Contrairement au RAG qui injecte des informations en contexte, le fine-tuning modifie le modèle lui-même. Il est plus coûteux à mettre en œuvre mais peut produire des performances supérieures sur des tâches très spécialisées.

FacturX

Logiciels métier

Format hybride franco-allemand de facturation électronique, retenu par la réforme française de dématérialisation obligatoire des factures. FacturX associe un document PDF lisible par l’humain à un fichier XML structuré (EN 16931) lisible par les machines, permettant l’intégration automatique dans les ERP et systèmes comptables. Il est conforme à la norme européenne EN 16931 et compatible avec les formats ZUGFeRD (Allemagne), Peppol BIS et UBL. La facturation électronique devient obligatoire pour toutes les entreprises assujetties à la TVA entre 2026 et 2027.

Format ouvert

Standards & Données

Format de fichier ou de données dont les spécifications techniques sont publiques, accessibles sans restriction et implémentables librement par quiconque. La loi française CADA et la loi Lemaire imposent l’usage de formats ouverts pour les données publiques. Les formats ouverts (ODF pour les documents bureautiques, PDF/A pour l’archivage, CSV pour les données tabulaires, GeoJSON pour les données géographiques) garantissent la pérennité des données, leur lisibilité sans logiciel propriétaire et la liberté de choix du fournisseur.

G

GPT — Generative Pre-trained Transformer

Intelligence Artificielle

Architecture de réseau de neurones introduite par OpenAI en 2018, fondée sur le mécanisme d’attention (Transformer) et pré-entraînée sur de vastes corpus textuels. GPT a donné naissance à une famille de modèles (GPT-2, GPT-3, GPT-4, GPT-4o) qui ont popularisé l’IA générative. Le terme « GPT » est aujourd’hui souvent utilisé comme synonyme générique de LLM, bien qu’il désigne techniquement une architecture spécifique parmi d’autres (BERT, T5, Mistral…). ChatGPT est l’interface grand public exposant les modèles GPT d’OpenAI.

GED — Gestion Électronique de Documents

Logiciels métier

Système informatisé permettant de capturer, classer, stocker, indexer et récupérer des documents numériques. La GED gère le cycle de vie complet des documents : de la création à l’archivage légal, en passant par les workflows de validation et la gestion des versions. Elle constitue la mémoire documentaire de l’organisation. Dans le secteur public et les professions réglementées (droit, santé, banque), la GED doit répondre à des exigences d’intégrité, de traçabilité et de conservation définies par la loi.

H

Hallucination (IA)

Intelligence Artificielle

Phénomène par lequel un modèle de langage génère des informations factuellement incorrectes, inventées ou non fondées, avec un apparente confiance. L’hallucination est une limite structurelle des LLM : le modèle « complète » du texte de façon statistiquement vraisemblable sans mécanisme de vérification de la vérité. Pour les usages professionnels, les architectures RAG (qui ancrent les réponses dans des documents sources vérifiables) et la supervision humaine systématique sont les principales mitigation stratégies.

I

Inférence (IA)

Intelligence Artificielle

Phase d’utilisation opérationnelle d’un modèle d’IA entraîné, par opposition à la phase d’entraînement. Lors de l’inférence, le modèle reçoit une entrée (un prompt) et génère une sortie (une réponse) en appliquant ses paramètres appris. L’inférence locale — exécutée sur l’infrastructure de l’organisation, sans appel à une API externe — est le mode de déploiement souverain par excellence : les données ne quittent jamais le périmètre interne. Le coût en calcul de l’inférence est un facteur clé dans le choix du modèle et de l’infrastructure.

IaaS — Infrastructure as a Service

Infrastructure & Cloud

Modèle de service cloud dans lequel le fournisseur met à disposition des ressources d’infrastructure virtualisées (serveurs, stockage, réseau) que l’organisation gère elle-même. L’IaaS offre le plus grand niveau de contrôle parmi les modèles cloud : le client gère les systèmes d’exploitation, les middlewares et les applications. Exemples : Amazon EC2, Azure Virtual Machines, OVHcloud. La qualification SecNumCloud peut s’appliquer aux offres IaaS, ce qui est un critère de sélection essentiel pour les données sensibles.

Interopérabilité

Standards & Données

Capacité de systèmes d’information distincts à communiquer, échanger des données et les utiliser efficacement, sans conversion manuelle ni perte d’information. L’interopérabilité peut être technique (protocoles communs), sémantique (vocabulaires partagés) ou organisationnelle (processus alignés). Elle est un pilier de la souveraineté numérique : un SI interopérable peut migrer d’un fournisseur à un autre ou s’intégrer à des systèmes tiers sans dépendre de solutions propriétaires. Le Référentiel Général d’Interopérabilité (RGI) définit les standards à respecter dans le secteur public français.

L

LOPMI — Loi d’Orientation et de Programmation du Ministère de l’Intérieur

Réglementation

Loi française du 24 janvier 2023 organisant les moyens et priorités du ministère de l’Intérieur pour la période 2023-2027. Elle comprend des dispositions importantes en matière de cybersécurité, notamment l’obligation pour certaines catégories de victimes de cyberattaques (notamment les entreprises et collectivités) de déposer plainte dans les 72 heures pour être éligibles à une indemnisation par leur assurance cyber. Cette mesure vise à améliorer la remontée des incidents et le travail d’investigation des services de police judiciaire.

LLM — Grand Modèle de Langage

Intelligence Artificielle

Modèle d’intelligence artificielle entraîné sur de très larges corpus de texte (des centaines de milliards de mots) pour comprendre et générer du langage naturel. Les LLM reposent sur l’architecture Transformer et sont capables de répondre à des questions, rédiger des documents, écrire du code et raisonner sur des problèmes complexes. Les modèles les plus connus sont GPT-4 (OpenAI), Claude (Anthropic), Gemini (Google), Llama (Meta) et Mistral (Mistral AI). La taille d’un LLM est généralement exprimée en nombre de paramètres (milliards).

M

Modèle IA open source

Intelligence Artificielle

Modèle de langage dont les poids (paramètres entraînés) sont publiés publiquement et peuvent être téléchargés, modifiés et déployés localement. Contrairement aux modèles propriétaires accessibles uniquement via API (GPT-4, Claude), les modèles open source comme Mistral, LLaMA, Qwen ou DeepSeek peuvent être hébergés sur votre propre infrastructure. C’est la condition technique nécessaire au déploiement d’une IA privée souveraine. Les licences varient : certains modèles sont totalement libres, d’autres imposent des restrictions d’usage commercial.

Multimodal (IA)

Intelligence Artificielle

Qualifie un modèle d’IA capable de traiter et combiner plusieurs types de données en entrée : texte, images, audio, vidéo, voire code et données structurées. Les modèles multimodaux peuvent analyser des documents scannés, décrire des graphiques, interpréter des schémas techniques ou répondre à des questions sur des images. GPT-4o, Claude 3.5 et Gemini 1.5 sont des exemples de LLM multimodaux. Cette capacité ouvre de nombreux cas d’usage en traitement de documents, contrôle qualité visuel et assistance technique.

MDM — Master Data Management

Logiciels métier

Discipline et ensemble d’outils visant à garantir l’unicité, la cohérence et l’exactitude des données de référence d’une organisation : clients, fournisseurs, produits, employés. Sans MDM, les mêmes entités peuvent avoir des représentations contradictoires dans différents systèmes (ERP, CRM, GED), rendant les analyses et les processus métier peu fiables. Le MDM définit une « source de vérité » unique pour les données critiques, synchronisée vers tous les systèmes consommateurs.

MFA — Authentification Multi-Facteurs

Cybersécurité

Mécanisme d’authentification exigeant que l’utilisateur fournisse au moins deux preuves d’identité de catégories différentes : quelque chose qu’il sait (mot de passe), quelque chose qu’il possède (téléphone, token OTP) et/ou quelque chose qu’il est (empreinte biométrique). Le MFA réduit drastiquement le risque de compromission par vol de mot de passe, qui est à l’origine de la majorité des intrusions. L’ANSSI recommande le MFA pour tous les accès aux systèmes sensibles, en particulier les accès distants (VPN, messagerie, outils cloud).

N

NIS2 — Network and Information Security Directive 2

Réglementation

Directive européenne (UE) 2022/2555 remplaçant NIS1, transposée en droit français en 2024. Elle élargit considérablement le périmètre des entités soumises à des obligations de cybersécurité en définissant des « entités essentielles » et des « entités importantes » dans 18 secteurs clés (énergie, santé, eau, banque, administrations…). Les organisations concernées doivent mettre en place des mesures techniques et organisationnelles de gestion des risques, notifier les incidents significatifs à l’ANSSI sous 24 heures, et peuvent être sanctionnées jusqu’à 10 millions d’euros ou 2 % du CA mondial.

O

OIV — Opérateur d’Importance Vitale

Réglementation

Désignation française, issue de la Loi de Programmation Militaire (LPM), attribuée aux organisations dont l’activité est indispensable au fonctionnement de la Nation dans 12 secteurs d’activités d’importance vitale (SAIV) : alimentation, eau, énergie, santé, transports, télécommunications, finances, etc. Les OIV sont soumis à des obligations de sécurité renforcées imposées par l’ANSSI : détection des incidents, cloisonnement des systèmes critiques, et dans certains cas hébergement sur infrastructure qualifiée SecNumCloud.

OSE — Opérateur de Services Essentiels

Réglementation

Désignation introduite par la transposition de la directive NIS1 en droit français, étendue par NIS2. Les OSE sont des organisations qui fournissent des services essentiels au fonctionnement de la société ou de l’économie et qui dépendent des réseaux et systèmes d’information. Ils sont désignés par les autorités nationales compétentes dans chaque secteur et soumis à des obligations de signalement des incidents et de mise en place de mesures de sécurité proportionnées. La directive NIS2 fusionne et élargit la notion d’OSE avec celle des « entités essentielles et importantes ».

On-premise

Infrastructure & Cloud

Modèle de déploiement dans lequel les logiciels et les données sont installés et gérés directement sur les serveurs physiques de l’organisation, dans ses propres locaux ou dans un datacenter qu’elle contrôle. L’on-premise offre le niveau de contrôle et de souveraineté maximal : aucun tiers n’a accès aux données. En contrepartie, il impose une charge opérationnelle (maintenance, mises à jour, sauvegardes) et des investissements en infrastructure. L’approche on-premise connaît un regain d’intérêt avec la montée des préoccupations de souveraineté numérique.

Open data — Données ouvertes

Standards & Données

Données mises à disposition librement et gratuitement, sous format réutilisable, par des organismes publics ou privés. En France, la loi Lemaire (2016) impose aux administrations publiques de publier proactivement leurs données dans le cadre de la politique d’ouverture des données publiques, pilotée par Etalab (DINUM). Data.gouv.fr est le portail national d’open data. L’open data alimente la recherche, l’innovation et la transparence démocratique, à condition que les données soient publiées dans des formats ouverts et interopérables.

OIDC — OpenID Connect

Standards & Données

Protocole d’authentification standard construit au-dessus d’OAuth 2.0, permettant à des applications de vérifier l’identité d’un utilisateur auprès d’un fournisseur d’identité (IdP) et d’obtenir des informations de profil de base. OpenID Connect est le protocole sur lequel reposent la majorité des implémentations SSO modernes. FranceConnect, le système d’authentification souverain de l’État français pour les services publics en ligne, est basé sur OpenID Connect. Des solutions open source comme Keycloak permettent de déployer un IdP OIDC souverain.

P

Prompt engineering

Intelligence Artificielle

Discipline consistant à concevoir et optimiser les instructions textuelles (prompts) soumises à un modèle de langage pour obtenir des résultats précis, cohérents et fiables. Les techniques incluent le few-shot prompting (fournir des exemples), la chaîne de pensée (chain-of-thought), les prompts système et les templates structurés. Le prompt engineering est une compétence critique pour le déploiement opérationnel des LLM en entreprise, car la qualité des résultats dépend fortement de la formulation des requêtes.

PaaS — Platform as a Service

Infrastructure & Cloud

Modèle de service cloud dans lequel le fournisseur gère l’infrastructure sous-jacente et fournit une plateforme (runtime, base de données, outils de développement) sur laquelle le client déploie ses applications. Le PaaS réduit la charge opérationnelle des équipes IT mais implique une dépendance plus forte envers le fournisseur (risque de vendor lock-in). L’application s’exécute sur une infrastructure que l’organisation ne contrôle pas entièrement, ce qui pose des questions de souveraineté pour les données traitées.

PLM — Product Lifecycle Management

Logiciels métier

Système d’information gérant l’ensemble du cycle de vie d’un produit, de sa conception initiale jusqu’à son retrait du marché : spécifications, plans CAO, nomenclatures, gestion des révisions, conformité réglementaire. Le PLM est stratégique pour les industriels et les équipementiers, dont le patrimoine intellectuel est contenu dans les fichiers de conception. L’hébergement des données PLM chez un acteur soumis au CLOUD Act représente un risque d’espionnage industriel particulièrement grave pour les secteurs de la défense, de l’aéronautique et de l’automobile.

Pentest — Test d’intrusion

Cybersécurité

Exercice de sécurité offensive autorisé dans lequel un expert (pentesteur) simule les techniques et tactiques d’un attaquant réel pour identifier les vulnérabilités d’un système, d’un réseau ou d’une application avant qu’un acteur malveillant ne les exploite. Un pentest peut être réalisé en boîte noire (sans connaissance préalable du système), en boîte grise ou en boîte blanche (avec accès aux codes sources et documentations). Les résultats sont formalisés dans un rapport de vulnérabilités avec niveaux de criticité et recommandations de remédiation.

PKI — Infrastructure à Clés Publiques

Cybersécurité

Ensemble de politiques, processus et technologies permettant de créer, gérer, distribuer et révoquer des certificats numériques fondés sur la cryptographie asymétrique. Une PKI délivre des certificats associant une identité (personne, serveur, application) à une paire de clés publique/privée, permettant le chiffrement, la signature numérique et l’authentification forte. Maîtriser sa propre PKI est un élément de souveraineté numérique : cela évite de dépendre d’autorités de certification étrangères pour la confiance dans les échanges numériques.

Peppol

Standards & Données

Réseau européen de transmission de documents commerciaux électroniques (factures, bons de commande, avis de livraison) fondé sur des standards ouverts (BIS Billing 3.0, UBL). Peppol est géré par OpenPeppol, une association internationale à but non lucratif. En France, il est l’un des canaux homologués pour la facturation électronique interentreprises dans le cadre de la réforme de dématérialisation. Son architecture décentralisée (réseau de points d’accès certifiés) est conçue pour éviter la dépendance à un opérateur unique.

R

RGPD — Règlement Général sur la Protection des Données

Réglementation

Règlement européen (UE) 2016/679, entré en vigueur en mai 2018, qui encadre la collecte, le traitement et la conservation des données personnelles des résidents de l’Union européenne. Il impose aux organisations des obligations strictes : base légale du traitement, droit d’accès et d’effacement des personnes concernées, notification des violations sous 72 heures. Les manquements peuvent entraîner des amendes pouvant atteindre 4 % du chiffre d’affaires mondial annuel ou 20 millions d’euros.

RAG — Retrieval-Augmented Generation

Intelligence Artificielle

Architecture combinant un système de recherche documentaire (retrieval) et un modèle de langage génératif (generation). Au lieu de répondre uniquement à partir de sa mémoire d’entraînement, le modèle interroge en temps réel une base documentaire pour récupérer les passages pertinents, puis les intègre dans son contexte avant de générer une réponse. Le RAG est la technique de référence pour déployer une IA privée sur les données internes d’une organisation : il évite la « hallucination », permet les citations sourcées et garantit que les données ne quittent pas l’infrastructure.

Ransomware — Rançongiciel

Cybersécurité

Logiciel malveillant qui chiffre les données d’une organisation et exige le paiement d’une rançon (généralement en cryptomonnaie) pour fournir la clé de déchiffrement. Les ransomwares modernes pratiquent la « double extorsion » : ils exfiltrent également les données avant de les chiffrer, menaçant de les publier si la rançon n’est pas payée. Les collectivités, hôpitaux et PME sont des cibles privilégiées. La prévention passe par la segmentation réseau, les sauvegardes hors ligne et la mise à jour systématique des systèmes.

REST — API REST

Standards & Données

Style d’architecture pour les services web (Representational State Transfer) fondé sur les méthodes HTTP standard (GET, POST, PUT, DELETE) et l’utilisation de ressources identifiées par des URLs. Le format d’échange est généralement JSON. Les API REST sont sans état (stateless) : chaque requête contient toutes les informations nécessaires à son traitement. La conformité d’une API aux principes REST facilite l’intégration entre systèmes hétérogènes et contribue à l’interopérabilité. C’est le format d’API dominant pour les services web modernes.

RGI — Référentiel Général d’Interopérabilité

Standards & Données

Cadre de référence publié par la DINUM définissant les standards et bonnes pratiques d’interopérabilité que les systèmes d’information des administrations françaises doivent respecter. Il couvre les protocoles réseau, les formats de données, les standards documentaires, la sécurité et l’identité. Le RGI privilégie systématiquement les standards ouverts et les formats non propriétaires, en cohérence avec la politique de souveraineté numérique de l’État. Il est opposable aux marchés publics de l’État.

S

SecNumCloud

Réglementation

Qualification délivrée par l’ANSSI aux prestataires de services cloud français répondant au référentiel éponyme. La version 3.2 (2022) introduit une exigence inédite d’immunité juridique extraterritoriale : le prestataire doit démontrer qu’aucune entité soumise à une juridiction non-européenne ne peut accéder à ses données ou prendre le contrôle de ses opérations. Cette clause exclut de facto les filiales françaises de groupes américains (AWS, Azure, GCP). SecNumCloud est obligatoire ou fortement recommandé pour les Opérateurs d’Importance Vitale et les données sensibles de l’État.

Schrems II

Réglementation

Arrêt de la Cour de Justice de l’Union européenne (CJUE) du 16 juillet 2020 (affaire C-311/18) invalidant le Privacy Shield, le mécanisme qui encadrait les transferts de données personnelles entre l’UE et les États-Unis. La CJUE a jugé que les programmes de surveillance américains (notamment FISA 702) ne garantissaient pas un niveau de protection équivalent au droit européen. Cet arrêt a conduit à l’adoption du Data Privacy Framework (2023), mais la robustesse juridique de ce nouveau cadre est contestée par des experts et des associations de défense des libertés numériques.

SaaS — Software as a Service

Infrastructure & Cloud

Modèle de service cloud dans lequel le logiciel est hébergé et opéré par le fournisseur, accessible via un navigateur web ou une API. Le client n’installe rien et ne gère pas l’infrastructure. Si la facilité d’adoption du SaaS est indéniable, ce modèle implique que les données de l’organisation transitent et sont stockées chez un tiers. Lorsque ce tiers est américain (Salesforce, Microsoft 365, Google Workspace), les données sont soumises au CLOUD Act indépendamment de leur localisation géographique.

SIRH — Système d’Information des Ressources Humaines

Logiciels métier

Ensemble de logiciels gérant les processus RH d’une organisation : paie, gestion administrative des salariés, recrutement, formation, gestion des temps et activités, entretiens d’évaluation. Les SIRH traitent certaines des données personnelles les plus sensibles de l’entreprise (salaires, coordonnées bancaires, données de santé, situations familiales). Leur hébergement chez un prestataire américain crée une exposition directe au CLOUD Act. Des solutions françaises (Sage, Cegid, Lucca) ou open source (OrangeHRM) permettent une maîtrise souveraine de ces données.

SOC — Centre Opérationnel de Sécurité

Cybersécurité

Équipe et infrastructure dédiées à la surveillance continue, à la détection et à la réponse aux incidents de cybersécurité dans une organisation. Un SOC centralise les événements de sécurité provenant de toutes les sources (serveurs, postes, pare-feu, applications) via un SIEM, les analyse en temps réel et définit les procédures de réponse. Les organisations les plus matures opèrent un SOC 24/7 avec des équipes de réponse à incidents. Les PME peuvent externaliser cette capacité auprès de SOC managés (MSSP).

SIEM — Security Information and Event Management

Cybersécurité

Plateforme centralisant la collecte, l’indexation et l’analyse en temps réel des journaux d’événements (logs) provenant de l’ensemble des composants du système d’information. Le SIEM applique des règles de corrélation pour détecter des séquences d’événements caractéristiques d’une attaque et déclencher des alertes. Des solutions open source comme Wazuh et Elastic SIEM permettent un déploiement on-premise souverain. Le SIEM est un outil fondamental du SOC et une exigence de nombreux référentiels réglementaires (NIS2, DORA).

SSO — Authentification Unique

Cybersécurité

Mécanisme permettant à un utilisateur de s’authentifier une seule fois pour accéder à plusieurs applications interconnectées sans avoir à ressaisir ses identifiants. Le SSO repose sur des protocoles standard (SAML 2.0, OpenID Connect, OAuth 2.0) et un fournisseur d’identité (IdP) centralisé. Il améliore l’expérience utilisateur et simplifie la gestion des accès. Du point de vue souveraineté, utiliser Microsoft Azure AD ou Google comme fournisseur d’identité crée une dépendance structurelle à ces acteurs américains pour tout accès au système d’information.

T

Tokenisation

Intelligence Artificielle

Processus de découpage d’un texte en unités élémentaires (tokens) avant traitement par un LLM. Un token correspond approximativement à 3/4 d’un mot en anglais ou à un demi-mot en français. Les LLM ont une « fenêtre de contexte » limitée, exprimée en nombre de tokens : c’est la quantité maximale de texte (instructions + historique + documents) qu’ils peuvent traiter en une seule fois. La tokenisation est également la base de la facturation des API de LLM (prix par millier de tokens en entrée et en sortie).

Température (IA)

Intelligence Artificielle

Paramètre contrôlant la « créativité » ou la variabilité des réponses d’un LLM. Une température de 0 produit des réponses déterministes et reproductibles (le modèle choisit toujours le token le plus probable) ; une température élevée (0,8-1,2) introduit plus d’aléatoire et de diversité dans les réponses. Pour les usages professionnels exigeant de la précision factuelle (analyse juridique, extraction de données, réponses techniques), une température basse est recommandée. Pour la génération créative (rédaction publicitaire, brainstorming), une température plus élevée peut être productive.

V

Virtualisation

Infrastructure & Cloud

Technologie permettant de créer des versions logicielles (virtuelles) de ressources physiques : serveurs, réseaux, stockage. Un hyperviseur (VMware vSphere, KVM, Hyper-V) partitionne un serveur physique en plusieurs machines virtuelles (VM) isolées. La virtualisation est le fondement technique du cloud computing et des datacenters modernes. Pour la souveraineté numérique, elle permet de consolider l’infrastructure on-premise, de réduire les coûts matériels tout en conservant la maîtrise complète des données.

Vendor lock-in — Dépendance fournisseur

Infrastructure & Cloud

Situation dans laquelle une organisation devient dépendante d’un fournisseur technologique au point que la migration vers une alternative devient prohibitivement coûteuse, complexe ou risquée. Le vendor lock-in peut être technique (formats propriétaires, APIs non standards), contractuel (pénalités de sortie) ou opérationnel (expertise interne concentrée sur une seule plateforme). La lutte contre le vendor lock-in est un impératif de souveraineté numérique : elle passe par la préférence pour les standards ouverts, les logiciels open source et les contrats avec clauses de réversibilité.

Vulnérabilité zero-day

Cybersécurité

Faille de sécurité dans un logiciel qui n’a pas encore été divulguée publiquement ni corrigée par l’éditeur. Le terme « zero-day » indique que l’éditeur dispose de zéro jour pour corriger la vulnérabilité avant qu’elle ne soit exploitée. Ces vulnérabilités sont particulièrement dangereuses car aucun correctif n’est disponible. Elles sont achetées et stockées par des acteurs étatiques (NSA, GCHQ) et des groupes criminels pour conduire des cyberattaques ciblées. La réduction de la surface d’attaque, la segmentation réseau et la détection comportementale sont les principales défenses.

Z

Zero Trust

Infrastructure & Cloud

Modèle de sécurité fondé sur le principe « ne jamais faire confiance, toujours vérifier ». Contrairement au modèle périmétrique traditionnel (où tout ce qui est à l’intérieur du réseau est considéré de confiance), le Zero Trust impose une authentification et une autorisation systématiques pour chaque accès, quel que soit l’emplacement de l’utilisateur ou de l’appareil. L’identité devient le nouveau périmètre. Ce modèle est particulièrement adapté aux organisations en télétravail et aux architectures cloud, où le périmètre réseau traditionnel a disparu.