Qualité
Un score, pas une promesse
Chaque dataset est noté sur quatre dimensions mesurables. Les défauts connus sont publiés, pas masqués : c'est la condition d'une donnée digne de confiance.
Les quatre dimensions
Complétude
Part des enregistrements dont les champs clés sont renseignés.
Unicité
Absence de doublons et stabilité des identifiants (slugs immuables).
Fraîcheur
Écart entre l'instantané publié et la dernière collecte source.
Cohérence
Conformité aux référentiels (régions, races) et aux contraintes de type.
Scores par dataset
Normaliser 13 régions
À la source, le champ region mélangeait casse, accents
et espaces parasites. Trois écritures d'« Occitanie » empêchaient toute agrégation fiable.
canidata applique une table canonique de 13 régions et expose un
region_slug stable.
Avant — donnée brute
[
{ "region": "Occitanie" },
{ "region": "occitanie" },
{ "region": "occitanie " },
{ "region": "Auvergne-Rhone-Alpes" },
{ "region": "auvergne-rhone-alpes" }
] Après — normalisé
[
{ "region": "Occitanie", "region_slug": "occitanie" },
{ "region": "Occitanie", "region_slug": "occitanie" },
{ "region": "Occitanie", "region_slug": "occitanie" },
{ "region": "Auvergne-Rhône-Alpes", "region_slug": "auvergne-rhone-alpes" },
{ "region": "Auvergne-Rhône-Alpes", "region_slug": "auvergne-rhone-alpes" }
] Cette transformation est appliquée de façon déterministe au moment du seed, versionnée (voir changelog v1.0.2) et reproductible.
Cadence de rafraîchissement des instantanés.
Chaque changement de schéma est tracé au changelog.
La fraîcheur est vérifiable en direct via /status.