Nous avons cherché à savoir, aux côtés de collectivités territoriales, quelle est la part des TPE/PME, en particulier locales, dans les titulaires de leurs marchés publics. Cela nous a permis de bien cerner les difficultés rencontrées sur l’accessibilité et la réutilisation des données essentielles de la commande publique.

La publication des DECP, une obligation légale

Le Code de la commande publique (CCP) impose aux acheteurs publics de publier les données essentielles des marchés publics et des concessions (listées de manière exhaustive en son annexe 15) sur leur profil d’acheteur, dans un délai de deux mois à compter de la notification du contrat, et à la suite de modifications de ce même contrat, dès lors que le montant est égal ou supérieur à 40 000 € HT. Une subtilité existe pour les données des marchés dont le montant est compris entre 25 000 et 40 000 € HT.

Juridiquement parlant, les DECP doivent être mises à disposition pendant cinq ans sur le profil d’acheteur à compter de la notification du contrat, mais cette période peut être réduite à un an si ces dernières sont publiées sur la plateforme nationale de diffusion de données publiques data.gouv.fr.

Dès lors, se posent les questions de support de publication, format et délais pour la mise à disposition de ces données à destination de différents usagers provenant de tous horizons (société civile, entreprises, acheteurs, élus, grand public, économistes et journalistes notamment).

Cependant, cette logique de publication théorique n’est malheureusement pas toujours vérifiée dans les faits. Pour la réalisation de notre étude, il nous a fallu collecter les données essentielles des marchés publics notifiés par 13 communes et intercommunalités aux tailles et maturités open data diverses, allant de la ville de 15 000 habitants à la métropole de plus d’un million d’habitants. Cette tâche de collecte des données essentielles s’est avérée complexe pour de nombreuses raisons, intervenant à différentes étapes de la chaîne de réutilisation des données.

Une multiplicité de plateformes

Il existe une multitude de plateformes donnant accès aux DECP des acheteurs publics, pouvant être de deux types : soit il s’agit d’un profil d’acheteur (PA), soit il s’agit d’un portail open data - ce dernier pouvant être local ou national.

Les profils d’acheteur doivent à ce jour être la source obligatoire et principale de publication des DECP. Mais leur fonctionnement intrinsèque comporte déjà quelques freins à la collecte ainsi qu’à la réutilisation des données. Chaque acheteur étant libre de choisir le PA sur lequel il décide de dématérialiser sa commande publique, il en existe divers types aux attributs et fonctionnements différents. Le même constat peut être fait pour la publication centralisée sur data.gouv.fr, dont le fonctionnement est complexe (fichiers de stock et de flux pas toujours bien articulés).

Des formats difficilement exploitables

L’étape de collecte des données est composée de l’identification de la source de publication la plus exhaustive, elle-même suivie par l’extraction des données que l’on y trouve. Cette nouvelle tâche n’est pas non plus sans difficultés.

Les plus simples d’utilisation proposent un export CSV (valeurs séparées par une virgule) en masse, c’est-à-dire du jeu de données entier pour un acheteur. Lorsque ce n’est pas le cas, deux sources de complexité peuvent entrer en jeu : la granularité des fichiers d’export ou leur format.

En effet, on trouve le plus fréquemment un fichier par année, mais il arrive aussi que seul un export avec un fichier par marché soit disponible, ce qui décuple les manipulations nécessaires à la collecte des données et rend la tâche chronophage. Dans ce cas de figure, un utilisateur souhaitant étudier les 100 marchés conclus par sa commune sur une année devra télécharger 100 fichiers distincts contenant chacun un marché notifié par l’acheteur, puis devra les compiler en un fichier unique, pour analyser les marchés dans leur globalité. Ces manipulations requièrent alors un minimum de compétences techniques et/ou du temps, simplement pour collecter les données essentielles de la commande publique.

Ajoutons à cela le format non trivial imposé par le schéma en vigueur : le JSON ou le XML. Il s’agit de formats de données non tabulaires où celles-ci sont imbriquées à différents niveaux de profondeur et sont structurées à l’aide de balises ou accolades. Moins intuitifs que les présentations tabulaires (telles que CSV ou Excel), ces formats nécessitent un certain niveau de technicité ou de connaissance data.

Des limites dans la qualité des DECP

Une fois les données collectées après la levée des obstacles évoqués ci-dessus, elles peuvent être analysées avec différents objectifs : contrôler, enrichir, visualiser…

Il est généralement nécessaire de se rapprocher du service commande publique qui a produit les données pour bien les appréhender. De fait, il est préférable de connaître le périmètre des données que l’on s’apprête à investiguer. Tout d’abord, le seuil de publication des données ou la publication des données essentielles des modifications sont des informations que l’on ne trouve pas dans les méta-données associées aux DECP, mais qui sont pourtant essentielles pour la compréhension de ces dernières, impliquant alors une mise en contact avec le service.

D’autres interrogations sur la saisie des données peuvent trouver leurs réponses en se penchant sur le jeu de données mais requièrent parfois une confirmation des agents produisant les données, comme par exemple la fiabilité des montants saisis (le montant renseigné en cas de marchés multi-attributaires est-il le montant total dupliqué par titulaire ou le montant réellement attribué à chaque titulaire ? Le montant renseigné correspond-il au montant maximum du contrat ou à l’estimation financière du contrat ?) ou encore les erreurs de saisie qui font ressortir des données aberrantes.

Enfin, bien que les données soient soumises à un standard, un travail de nettoyage s’impose pour retirer les doublons, identifier les données manquantes, contrôler la qualité des variables cruciales telles que l’identifiant du marché ou du titulaire, harmoniser les valeurs etc. Ce travail technique est primordial pour toute analyse poussée des DECP, et vise à contrecarrer les problèmes de qualité existants dans ces dernières.

Fusion des données

Rappelons qu'au 1er janvier 2024, la fusion des DECP avec les données de recensement économique de l’achat public donnera lieu à l’entrée en vigueur d’une nouvelle version du standard des données. Nous pouvons espérer que cette évolution permettra d’améliorer la structuration, l’accessibilité, et la qualité des données essentielles de la commande publique.