Pourquoi écrire des tests unitaires pour du SQL ?

Les tests unitaires détectent les régressions (renommage de colonnes, changements de defaults, nouvelles sources) avant qu’elles n’atteignent la production. Ils assurent reproductibilité et documentation des comportements attendus.

Quels outils utiliser pour automatiser ces tests en CI ?

Des solutions courantes : GitHub Actions, GitLab CI ou Jenkins pour la CI. Pour la qualité data : dbt tests pour les transformations SQL et Great Expectations pour des assertions de qualité sur les datasets.

Peut-on utiliser SQLite en local et Postgres en production ?

Oui, mais attention aux différences : types de données et certaines fonctions SQL peuvent diverger. Pour des tests représentatifs, exécuter une suite sur Postgres (via service Docker) dans la CI est recommandé.

Comment structurer les jeux de données de test ?

Créer des datasets petits, déterministes et couvrant les cas limites (doublons, égalités sur montants, valeurs nulles). Charger ces jeux dans une base isolée (in-memory ou containerisée) pour chaque test.

Que faire si la requête nécessite des window functions non supportées par SQLite ?

Exécuter ces tests sur une instance Postgres dans la CI (service Docker) ou utiliser des contournements locaux. Documentez ces exigences et ajoutez une étape CI dédiée pour tester sur le SGBD cible.

Comment tester le SQL efficacement et l'intégrer en CI/CD ?

Traiter le SQL comme du code signifie le versionner, écrire des tests unitaires et l’intégrer dans une pipeline CI/CD. J’explique une méthode pratique : résoudre l’exemple, transformer la requête en composant testable, définir datasets attendus et automatiser les contrôles.

Pourquoi tester le SQL

Traiter le SQL comme du logiciel signifie appliquer les mêmes pratiques que pour du code : versioning (contrôle des modifications), tests automatisés et intégration continue/déploiement continu (CI/CD). CI/CD signifie Continuous Integration/Continuous Delivery, soit l’automatisation des tests et des livraisons pour réduire les erreurs humaines et accélérer les itérations.

Régression : Défaut qui réapparaît ou nouveau défaut introduit par une modification précédente. Tests unitaires : Tests qui vérifient une petite unité logique (une requête, une fonction SQL). Tests d’intégration : Tests qui valident l’interaction entre composants (jointures, flux entre tables, pipelines). Data quality (qualité des données) : Ensemble de règles et métriques garantissant exactitude, complétude, fraîcheur et cohérence des données.

Erreur	Impact	Test préventif
Renommage de colonne	Requêtes cassées, rapports vides	Test unitaire sur schéma et colonnes attendues
Changement de valeur par défaut	Calculs biaisés, KPI faussés	Test d’intégration sur agrégations et distributions
Nouvelle source de données	Types inattendus, doublons, valeurs manquantes	Tests de qualité des données (nulls, formats, cardinalités)

Exemples factuels : Un renommage de champ peut casser un rapport produit en production sans alerte. Un changement de default sur une colonne « status » peut modifier le taux de conversion mesuré. L’arrivée d’une nouvelle source peut introduire des lignes dupliquées et fausser les totaux.

🚀 Devenez un expert en Data Marketing avec nos formations !

Maîtrisez les outils essentiels pour analyser, automatiser et visualiser vos données comme un pro. De BigQuery SQL à Google Apps Script, de n8n à Airtable, en passant par Google Sheets et Looker Studio, nos formations couvrent tous les niveaux pour vous permettre d’optimiser vos flux de données, structurer vos bases SQL, automatiser vos tâches et créer des dashboards percutants. Que vous soyez débutant ou avancé, chaque formation est conçue pour une mise en pratique immédiate et un impact direct sur vos projets. Ne subissez plus vos données, prenez le contrôle dès aujourd’hui ! 📊🔥

Bénéfices mesurables : Réduction du temps de debugging grâce à l’échec précoce des tests, avec des gains proches de ceux observés dans les organisations CI/CD performantes (State of DevOps Report, DORA 2019 montre des déploiements plus fréquents et des retours plus rapides). Réduction du travail manuel sur la préparation des données quand on automatise la data quality, sachant que les data scientists passent jusqu’à 80% de leur temps au nettoyage (enquête CrowdFlower, 2016). Coût évité : IBM a estimé à 9,7M$ le coût moyen annuel de la mauvaise qualité des données pour une organisation (2016).

Outils reconnus pour automatiser ces contrôles incluent dbt tests et Great Expectations, qui facilitent l’implémentation de tests de schéma, d’intégrité et de business rules.

On applique maintenant ces principes sur un exemple concret d’entretien SQL pour voir comment écrire des tests pratiques et les intégrer en CI/CD.

Comment résoudre l’exercice SQL

Voici une solution PostgreSQL complète et testable pour identifier, par journée, le(s) client(s) ayant dépensé le plus.

WITH daily AS (
  SELECT customer_id,
         order_date::date AS date,
         SUM(amount) AS total
  FROM orders
  GROUP BY customer_id, order_date::date
),
ranked AS (
  SELECT date,
         customer_id,
         total,
         RANK() OVER (PARTITION BY date ORDER BY total DESC) AS rnk
  FROM daily
)
SELECT c.first_name, TO_CHAR(r.date, 'YYYY-MM-DD') AS date, r.total
FROM ranked r
JOIN customers c ON c.id = r.customer_id
WHERE r.rnk = 1
ORDER BY r.date, c.first_name;

La CTE daily agrège les commandes par client et par jour avec SUM(amount) qui calcule le total dépensé par couple (client, date). La CTE ranked applique RANK() OVER (PARTITION BY date ORDER BY total DESC) pour classer les clients par total décroissant chaque journée. Le mot-clé PARTITION BY signifie « recommencer le classement pour chaque valeur de date ». La clause finale filtre rnk = 1 pour ne garder que les meilleurs dépensiers par jour et joint la table customers pour obtenir first_name.

Schémas d’entrée minimaux attendus :

customers(id INTEGER PRIMARY KEY, first_name TEXT)
orders(id INTEGER PRIMARY KEY, customer_id INTEGER REFERENCES customers(id), order_date DATE, amount NUMERIC)

Jeu de données de test fourni :

test_customers = [(15, « Mia »), (7, « Jill »), (3, « Farida »)]
test_orders = [(1, 3, « 2019-03-04 », 100), (2, 3, « 2019-03-01 », 80), (4, 7, « 2019-02-01 », 25), (6, 15, « 2019-02-01 », 100)]

Résultat attendu :

[(« Mia », « 2019-02-01 », 100), (« Farida », « 2019-03-01 », 80), (« Farida », « 2019-03-04 », 100)]

Approche	Risques / Maintenabilité / Reproductibilité
Requête ad hoc	Risque d’erreur élevé, difficile à maintenir et peu reproductible hors du contexte du développeur.
Requête testée et versionnée	Moins de risques, facilite la révision, la CI/CD et la reproductibilité des jeux de tests.

Comment transformer la requête en composant testable

Encapsuler une requête SQL dans une fonction rend l’exécution et le test reproductibles, isolés et plus faciles à maintenir. Cela permet de contrôler la connexion, d’injecter des paramètres (par exemple date_start, date_end) et d’exposer une API simple pour les tests unitaires et d’intégration.

Isolation : La logique SQL est séparée du reste de l’application, ce qui facilite le mock et le test.
Réutilisabilité : La même fonction peut être appelée depuis des scripts, des jobs ET des tests.
Injection de connexions et paramètres : On peut passer une connexion de test (sqlite3 en local, psycopg2 pour Postgres) et des bornes de date.

Exemple de wrapper Python utilisant psycopg2 (Postgres). Pour sqlite3, on utilisera le paramètre placeholder ‘?’ au lieu de ‘%s’.

def get_top_daily_spenders(conn, start_date, end_date):
    # Conn doit être un objet connection psycopg2 ou compatible
    sql = """
    SELECT user_id, SUM(amount) AS total
    FROM payments
    WHERE paid_at >= %s AND paid_at <= %s
    GROUP BY user_id
    ORDER BY total DESC
    LIMIT 10;
    """
    with conn.cursor() as cur:
        # Exécution paramétrée pour éviter l'injection SQL
        cur.execute(sql, (start_date, end_date))
        rows = cur.fetchall()
    return rows  # Liste de tuples [(user_id, total), ...]

Paramétrer la requête évite les injections SQL en séparant le code (SQL) des données (paramètres). Pour psycopg2 le placeholder est %s, pour sqlite3 c’est ?. Le binding (passage des paramètres séparément) garantit que la DB traite les valeurs comme des données, pas comme du code.

Intégration dans un dépôt Git : Stocker la logique SQL en fichier séparé (top_spenders.sql) facilite la revue, le diff et le versioning. Si vous utilisez dbt, transformer le SQL en template Jinja permet de réutiliser des macros et d’exécuter des tests dbt. Versionner la logique SQL améliore la traçabilité des changements et les rollback.

Merci de fournir ci‑dessous un tableau synthétique montrant les avantages de l’encapsulation (testabilité, traçabilité, réutilisation).

Avantage	Impact
Testabilité	Permet mock de la connexion et tests unitaires reproductibles
Traçabilité	SQL versionné séparément facilite les revues et rollbacks
Réutilisation	Fonction appelable depuis scripts, jobs ET tests sans duplication

Comment écrire des tests unitaires pour le SQL

Tester des requêtes SQL commence par isoler le contexte: créer une base en mémoire, charger des données contrôlées, exécuter le composant qui contient la requête, et comparer le résultat avec l’attendu.

La stratégie typique utilise sqlite3.connect(« :memory: ») pour une base volatile, CREATE TABLE pour reproduire le schéma minimal, INSERT pour les jeux de test, appel de la fonction (ici get_top_daily_spenders) et assertion sur la liste retournée.

import unittest
import sqlite3

# Remplacer par l'import réel de votre fonction
from myapp.reports import get_top_daily_spenders

class TestSQLReports(unittest.TestCase):
    def setUp(self):
        # Base en mémoire isolée
        self.conn = sqlite3.connect(":memory:")
        cur = self.conn.cursor()
        # Schéma minimal
        cur.executescript("""
        CREATE TABLE customers (
            id INTEGER PRIMARY KEY,
            name TEXT NOT NULL
        );
        CREATE TABLE orders (
            id INTEGER PRIMARY KEY,
            customer_id INTEGER NOT NULL,
            total_amount NUMERIC NOT NULL,
            order_date TEXT NOT NULL,
            FOREIGN KEY(customer_id) REFERENCES customers(id)
        );
        """)
        # Données de test
        cur.executemany("INSERT INTO customers(id, name) VALUES(?, ?);",
                        [(1, 'Alice'), (2, 'Bob'), (3, 'Carol')])
        cur.executemany("INSERT INTO orders(id, customer_id, total_amount, order_date) VALUES(?, ?, ?, ?);",
                        [
                            (1, 1, 70.0, '2021-01-01'),
                            (2, 2, 50.0, '2021-01-01'),
                            (3, 1, 30.0, '2021-01-01'),
                            (4, 2, 200.0, '2021-01-02'),
                            (5, 3, 150.0, '2021-01-02'),
                        ])
        self.conn.commit()

    def tearDown(self):
        self.conn.close()

    def test_get_top_daily_spenders(self):
        # Appel du composant à tester
        result = get_top_daily_spenders(self.conn)
        expected = [
            ('2021-01-01', 'Alice', 100.0),
            ('2021-01-02', 'Bob', 200.0),
        ]
        self.assertEqual(result, expected)

if __name__ == '__main__':
    unittest.main()

Attention aux différences SQLite vs PostgreSQL: SQLite a un typage par affinité (pas de types stricts), les dates/horodatages sont souvent stockés en TEXT et SQLite ne gère pas nativement les fuseaux horaires.4 Les fonctions window sont disponibles depuis SQLite 3.25 (2018) mais des incompatibilités de syntaxe ou d’optimisation existent.5 Pour un rendu identique à prod, utiliser une instance Postgres en CI (image Docker officielle postgres) permet d’éviter les écarts.

Cas complémentaires à couvrir: doublons d’ordres, égalité sur montants (plusieurs top par jour), enregistrements manquants, formats ISO vs locale pour les dates, et effets de fuseaux horaires.

Nom du test	Objectif	Données d’entrée	Sortie attendue
top_unique_per_day	Vérifier un top unique	Jeu exemple ci‑dessus	Liste avec Alice puis Bob
equal_amounts_tie	Gérer égalité	Deux clients même total	Les deux clients ou règle de tie-break
missing_customer	Ignorer commandes orphelines	Order.customer_id absent	Exclusion ou erreur contrôlée
timezone_and_date_formats	Valider agrégation par jour	Dates en UTC/local	Regroupement attendu par jour logique

Comment automatiser les tests en CI/CD

Automatiser les tests garantit que chaque push déclenche des contrôles et empêche les régressions en production. CI signifie Intégration Continue (continuous integration) et CD Déploiement Continu (continuous delivery/deployment). Flux recommandé : push → pipeline CI exécute les tests unitaires (en local ou conteneurisé) → génération de rapport → déploiement si tous les checks réussissent.

Outils courants : GitHub Actions, GitLab CI, Jenkins. Choisir une solution serverless CI comme GitHub Actions simplifie la mise en place car elle évite de gérer l’infrastructure, propose des runners hébergés et une intégration native avec le dépôt.

name: CI
on: [push, pull_request]

jobs:
  test:
    runs-on: ubuntu-latest
    services:
      postgres:
        image: postgres:13
        env:
          POSTGRES_USER: postgres
          POSTGRES_PASSWORD: postgres
          POSTGRES_DB: test_db
        ports:
          - 5432:5432
        options: >-
          --health-cmd "pg_isready -U postgres" --health-interval 10s --health-timeout 5s --health-retries 5
    steps:
      - uses: actions/checkout@v4
      - uses: actions/setup-python@v4
        with:
          python-version: '3.10'
      - name: Install dependencies
        run: pip install -r requirements.txt
      - name: Run tests
        run: pytest --junitxml=reports/results.xml
      - name: Upload report
        uses: actions/upload-artifact@v4
        with:
          name: pytest-report
          path: reports/results.xml

Intégrer des contrôles data : Great Expectations (outil de validation de données) pour checks de qualité, dbt (data build tool) pour tests de transformation SQL. Arrêter une merge request (ou pull request selon la plateforme) se fait naturellement : un test CI qui retourne un code d’erreur bloque la fusion.

Quelques conseils pratiques avant la mise à l’échelle :

Paralléliser les tests : Lancer suites indépendantes en parallèle pour réduire le temps total.
Mocker les accès externes : Eviter appels réseau réels pour rendre les tests déterministes.
Isoler les jeux de données : Créer fixtures ou snapshots pour chaque test afin d’éviter effets de bord.
Garder les tests rapides : Objectif inférieur à 30s par PR pour une boucle de feedback courte.
Planifier des tests d’intégration longs : Lancer nightly ou sur la branche main pour couvrir les scénarios lourds.

Option	Avantages	Inconvénients
SQLite in-memory	Très rapide, simple à configurer	Différences SQL/SQLITE vs Postgres peuvent masquer bugs
Postgres service	Test sur base réelle, plus fiable	Plus lent, nécessite configuration de service
Tests dockerisés (full DB container)	Environnement reproductible proche de prod	Coût en temps et ressources CI, complexité

Prêt à fiabiliser vos requêtes SQL et vos pipelines CI/CD ?

Traiter le SQL comme du logiciel réduit les surprises : encapsulation, jeux de données contrôlés, tests unitaires et automatisation CI sont les piliers pour garantir la stabilité. En appliquant la méthode (exemple pratique, wrapper Python, base en mémoire, pipeline CI) vous limitez les régressions, facilitez la maintenance et gagnez du temps opérationnel. Le bénéfice concret est une livraison plus sûre des rapports et des pipelines, avec moins de temps passé à corriger des bugs.

FAQ

Pourquoi écrire des tests unitaires pour du SQL ?
Les tests unitaires détectent les régressions (renommage de colonnes, changements de defaults, nouvelles sources) avant qu’elles n’atteignent la production. Ils assurent reproductibilité et documentation des comportements attendus.
Quels outils utiliser pour automatiser ces tests en CI ?
Des solutions courantes : GitHub Actions, GitLab CI ou Jenkins pour la CI. Pour la qualité data : dbt tests pour les transformations SQL et Great Expectations pour des assertions de qualité sur les datasets.
Peut-on utiliser SQLite en local et Postgres en production ?
Oui, mais attention aux différences : types de données et certaines fonctions SQL peuvent diverger. Pour des tests représentatifs, exécuter une suite sur Postgres (via service Docker) dans la CI est recommandé.
Comment structurer les jeux de données de test ?
Créer des datasets petits, déterministes et couvrant les cas limites (doublons, égalités sur montants, valeurs nulles). Charger ces jeux dans une base isolée (in-memory ou containerisée) pour chaque test.
Que faire si la requête nécessite des window functions non supportées par SQLite ?
Exécuter ces tests sur une instance Postgres dans la CI (service Docker) ou utiliser des contournements locaux. Documentez ces exigences et ajoutez une étape CI dédiée pour tester sur le SGBD cible.

A propos de l’auteur

Franck Scandolera — expert & formateur en Tracking avancé server-side, Analytics Engineering et automatisation No/Low Code. Je forme et accompagne les équipes pour industrialiser le testing SQL, intégrer des pipelines CI/CD et déployer des contrôles de qualité data (clients : Logis Hôtel, Yelloh Village, BazarChic, Fédération Française de Football…). Responsable de l’agence webAnalyste et de l’organisme Formations Analytics. Dispo pour aider les entreprises => contactez moi.

Franck Scandolera

⭐ Analytics engineer, Data Analyst et Automatisation IA indépendant ⭐

Ref clients : Logis Hôtel, Yelloh Village, BazarChic, Fédération Football Français, Texdecor…

Mon terrain de jeu :

Data Analyst & Analytics engineering : tracking avancé (GA4, Matomo, Piano, GTM server, Tealium, Commander Act, e-commerce, CAPI, RGPD), entrepôt de données (BigQuery, Snowflake, PostgreSQL, ClickHouse), modèles (Airflow, dbt, Dataform), dashboards décisionnels (Looker, Power BI, Metabase, SQL, Python).
Automatisation IA des taches Data, Marketing, RH, compta etc : conception de workflows intelligents robustes (n8n, App Script, scraping) connectés aux API de vos outils et LLM (OpenAI, Mistral, Claude…).
Engineering IA pour créer des applications et agent IA sur mesure : intégration de LLM (OpenAI, Mistral…), RAG, assistants métier, génération de documents complexes, APIs, backends Node.js/Python.