Quel est le principal message du Databricks Data + AI Summit 2026 ?

Le message principal, c'est que Databricks pense maintenant sa plateforme pour des agents IA comme consommateurs majeurs de la donnée. L'enjeu n'est plus seulement de donner des dashboards aux humains, mais de fournir aux agents des données fraîches, gouvernées, contextualisées et exploitables.

Pourquoi les modèles IA deviennent-ils moins différenciants ?

Parce que les modèles deviennent plus accessibles et plus interchangeables. La vraie différence vient de la couche data autour du modèle. Si vos données sont fiables, fraîches, bien décrites et bien gouvernées, vos agents auront de meilleures réponses et feront moins d'erreurs.

À quoi sert LTAP dans cette approche ?

LTAP, pour Lake Transactional Analytical Processing, vise à réunir les usages transactionnels et analytiques sur une seule copie de données. L'objectif est de réduire les pipelines, les réplicas et le décalage entre la réalité opérationnelle et l'analyse. Pour les agents IA, c'est essentiel, parce qu'ils ont besoin d'un contexte à jour.

Pourquoi la gouvernance doit-elle devenir contextuelle ?

Un agent ne se contente pas de lire une table. Il peut poser plusieurs questions, raisonner, appeler des outils et déclencher des actions. Des droits statiques ne suffisent plus. Il faut des politiques capables de tenir compte du contexte, du comportement réel, du risque PII, des injections de prompt et du coût généré.

Quel rôle joue la couche sémantique pour les agents IA ?

La couche sémantique donne du sens aux données. Elle clarifie les métriques, les domaines, les définitions métier et les relations entre concepts. Sans elle, un agent peut répondre avec assurance mais se tromper sur une notion business essentielle. Avec elle, il comprend mieux ce qu'il manipule.

Databricks Data + AI Summit 2026 change quoi ?

Databricks change surtout la cible de sa plateforme. Les agents IA deviennent les vrais utilisateurs de la donnée. Je vais détailler ce que ça implique côté données fraîches, gouvernance, sécurité, coûts et avantage business. C’est là que le sujet devient vraiment intéressant.

Que faut-il retenir du sommet ?

Le Databricks Data + AI Summit 2026 marque un basculement simple, mais énorme. Les plateformes data ne sont plus pensées seulement pour des analystes, des data engineers ou des décideurs humains. Elles sont maintenant pensées pour des agents IA qui consomment, interprètent et actionnent la donnée.

À mon avis, c’est le vrai sujet. Les modèles deviennent progressivement une commodité. Tout le monde aura accès à de très bons modèles, parfois open source, parfois propriétaires, souvent interchangeables selon les cas d’usage. L’avantage ne vient donc plus uniquement du “meilleur modèle”. Il vient de la meilleure couche de données. Une donnée gouvernée, fraîche, contextualisée, compréhensible.

J’ai vu le même problème chez des clients. Un bon modèle branché sur une donnée floue produit juste une réponse floue plus vite. Et parfois avec beaucoup d’assurance, ce qui est encore pire.

Les agents IA deviennent les consommateurs primaires des plateformes data. Ils ne lisent pas un dashboard comme nous. Ils interrogent, croisent, décident, déclenchent une action. Donc ils ont besoin d’un accès fiable, traçable et sécurisé à la donnée. Qui a consulté quoi ? Sur quelle version ? Avec quelle permission ? Si cette base n’est pas solide, l’automatisation devient vite un risque opérationnel.

Intégrez l’IA Générative (GenAI) dans votre activité

Nos formations IA Générative (GenAI) et prompt engineering sont conçues pour les équipes qui veulent apprendre à exploiter les IA comme un pro. Vous y apprenez à structurer des prompts efficaces, à exploiter les meilleurs outils (assistants IA type ChatGPT, générateurs d’images, audio et vidéo) et à les appliquer à vos vrais cas métiers : analyser vos données (GA4, BigQuery, CRM…), produire des contenus clairs et crédibles, prototyper plus vite et automatiser les tâches répétitives. Des ateliers 100 % pratiques, pensés pour les entreprises, pour gagner du temps, sécuriser vos usages et livrer des analyses et supports de décision de niveau pro.

La donnée fraîche devient aussi non négociable. Avec le LTAP, pour Lakehouse Transactional and Analytical Processing, l’idée est de rapprocher les usages transactionnels et analytiques. En clair, on ne veut plus attendre des batchs nocturnes pour analyser une réalité déjà dépassée. Un agent qui recommande, bloque une transaction ou relance un client doit travailler sur une donnée proche du temps réel.

La gouvernance doit être intégrée dès le départ. Pas collée après coup avec trois règles dans un wiki. Même chose pour la couche sémantique. Ce n’est plus un confort pour faire de jolis rapports. C’est l’infrastructure qui permet à une IA de comprendre ce que veut dire “revenu”, “client actif” ou “marge nette” sans inventer sa propre définition.

Idée	Ce que ça change	Risque si c’est ignoré
Modèles commoditisés	L’avantage se déplace vers la qualité de la donnée	Investir dans l’IA sans créer de différenciation réelle
Agents IA consommateurs de data	La plateforme doit servir des machines, pas seulement des humains	Automatiser des décisions sur une base fragile
Donnée fraîche avec LTAP	Les décisions s’appuient sur une réalité récente	Répondre vite avec des informations déjà périmées
Gouvernance intégrée	Les accès, règles et traces sont natifs	Créer des failles de sécurité et de conformité
Couche sémantique	L’IA comprend les concepts métier de façon cohérente	Laisser chaque agent inventer sa propre vérité

Pourquoi les agents deviennent-ils les vrais utilisateurs ?

Les agents deviennent les vrais utilisateurs parce qu’ils vont interroger, croiser, décider et parfois agir sur les données beaucoup plus souvent que les humains. C’est ça le vrai basculement. On ne parle plus seulement d’un analyste qui ouvre un dashboard le lundi matin. On parle d’un agent qui consulte les données toutes les cinq minutes, qui compare des signaux, qui prépare une recommandation, puis qui déclenche peut-être une action.

Databricks semble clairement organiser sa plateforme autour de cette logique. La première journée du Summit était très orientée consommation de la donnée. Comment les métiers y accèdent, comment ils posent des questions, comment ils obtiennent des réponses exploitables. La deuxième journée allait davantage vers le développement et l’exploitation des agents. Comment on les construit, comment on les branche aux systèmes, comment on les surveille. C’est assez révélateur.

Genie rentre bien dans cette première catégorie. Je le vois comme une interface pensée pour les knowledge workers, c’est-à-dire les gens qui prennent des décisions avec de l’information toute la journée. Finance, sales, opérations, marketing, support. L’idée, c’est de rendre la donnée exploitable par les métiers via des agents, sans leur demander d’écrire du SQL ou de comprendre toute l’architecture derrière.

Agent Bricks, lui, semble plutôt jouer sur la partie construction et opérationnalisation d’agents IA. Donc pas juste “je crée un chatbot”. Plutôt “je crée un agent qui a un rôle, des outils, des accès, des limites, une mémoire contrôlée, et une façon d’être évalué”. Et là, il faut rester lucide. Le sujet difficile, ce n’est pas de faire une démo qui marche. C’est de donner à l’agent le bon contexte, les bonnes permissions et les bonnes données au bon moment.

Un agent sans contexte actualisé, c’est dangereux ou inutile. Même avec un très bon modèle. Si les données sont anciennes, mal décrites ou mal gouvernées, la réponse sera mauvaise. J’ai déjà vu ce genre de cas avec des équipes commerciales. Imaginez un agent qui recommande de relancer un client avec une remise agressive, alors que le contrat vient d’être renouvelé, ou que le stock n’est plus disponible. Le problème n’est pas l’IA en elle-même. Le problème, c’est la chaîne data derrière.

Et si les agents deviennent les consommateurs principaux de la donnée, alors la vraie contrainte ne sera plus seulement la qualité des modèles. Ce sera la fraîcheur des données.

Pourquoi la donnée fraîche devient-elle critique ?

La donnée fraîche devient critique parce qu’un agent IA ne peut pas bien décider avec une vision en retard de la réalité. C’est simple. Si l’agent voit les stocks d’hier, les incidents clients d’il y a trois heures ou une marge recalculée pendant la nuit, il peut répondre avec assurance… mais à côté de la plaque.

L’annonce majeure ici, c’est LTAP, pour Lake Transactional Analytical Processing. L’idée, c’est d’avoir une seule copie de données capable de servir à la fois les usages transactionnels et analytiques. Dit autrement, on arrête de séparer trop brutalement le monde qui fait tourner les opérations et le monde qui analyse ce qui s’est passé.

OLTP, c’est la logique des opérations. Une commande créée, un paiement validé, un ticket support ouvert, un stock décrémenté. OLAP, c’est la logique de l’analyse. On agrège, on croise, on cherche des tendances, on alimente des dashboards ou des modèles IA. Le problème classique, c’est le délai entre les deux. On extrait les données, on les transforme, on les charge ailleurs. C’est l’ETL. Puis on réplique, on synchronise, on corrige les écarts. Et forcément, la fraîcheur prend un coup.

LTAP cherche justement à réduire ce décalage. Moins de copies, moins de pipelines fragiles, moins de débats du type “Pourquoi mon dashboard ne dit pas la même chose que l’outil métier ?”. Lakebase arrive dans cette logique, comme une base pensée pour rapprocher le traitement transactionnel et analytique. Unity Catalog, lui, apporte la couche de gouvernance. Qui peut voir quoi, quelles données sont fiables, quelles règles s’appliquent, d’où vient l’information.

Pour les agents IA, c’est là que ça devient vraiment intéressant. Un agent utile doit pouvoir interroger un contexte opérationnel et analytique frais. Pas une photo d’hier. Pas une copie partielle. Une donnée proche de l’état réel du business. Chez beaucoup de clients, je le vois souvent, le problème n’est pas d’avoir des dashboards. Ils en ont déjà trop. Le vrai problème, c’est d’avoir des dashboards, et demain des agents, qui parlent d’une réalité déjà dépassée.

Critère	Architecture classique avec ETL et réplicas	Approche LTAP
Fraîcheur	Donnée souvent en retard, selon les batchs et les synchronisations.	Donnée plus proche du temps réel, avec moins de décalage entre opération et analyse.
Complexité	Multiplication des pipelines, copies, contrôles et corrections.	Moins de copies à maintenir, donc moins de points de rupture.
Gouvernance	Règles parfois dispersées entre plusieurs systèmes.	Gouvernance centralisée avec Unity Catalog.
Usage agent IA	Agent exposé à une vision partielle ou dépassée du business.	Agent capable de raisonner sur un contexte plus frais et plus fiable.

Comment la gouvernance change-t-elle ?

La gouvernance change parce qu’elle doit devenir contextuelle, stateful et intégrée à l’exécution des agents, pas seulement définie dans des rôles statiques. Stateful, ça veut dire que le système garde le fil de ce qui vient de se passer. Et avec les agents IA, c’est indispensable.

Quand un humain consulte un dashboard, on peut contrôler assez simplement ce qu’il voit. Il a un rôle, des droits, des lignes masquées, des colonnes protégées. Quand un agent interroge une base, raisonne, appelle un modèle, déclenche un workflow, puis enchaîne avec un autre outil, le contrôle doit suivre son comportement réel. Pas juste son identité.

Les deux mécanismes clés mis en avant sont Unity AI Gateway et les Contextual Service Policies. L’idée est simple : une politique peut autoriser, bloquer ou demander une approbation selon le contexte exact de l’action de l’agent.

Si l’agent lit des données sensibles, la règle peut limiter les colonnes accessibles.
Si l’agent tente d’envoyer des données personnelles vers un modèle externe, la règle peut bloquer.
Si l’agent reçoit une instruction suspecte dans un prompt, la protection contre l’injection de prompt peut intervenir.
Si l’agent enchaîne trop d’actions risquées, une validation humaine peut être exigée.

Les règles SQL stateful deviennent importantes ici. Elles ne regardent pas seulement une requête isolée, elles tiennent compte de l’enchaînement. C’est exactement là que beaucoup d’architectures IA bricolées cassent. J’ai vu ça chez un client : les accès étaient propres sur le papier, mais l’agent pouvait reconstruire une information sensible en croisant plusieurs outils. Personne ne l’avait vu venir.

La traçabilité devient aussi centrale. Il faut suivre les inputs, les outputs et le raisonnement de l’agent. Ce traçage gouverné via Unity Catalog permet de comprendre ce qui s’est passé, d’auditer une décision, de détecter une fuite de données ou de corriger un comportement. Avec Lakewatch, on peut aussi imaginer des alertes sécurité ou PII en temps réel. PII, c’est Personally Identifiable Information, donc les données qui permettent d’identifier une personne.

Il y a aussi un sujet très concret : l’argent. Les agents peuvent générer énormément de requêtes, d’appels modèles et de traitements. Sans budgets, routage intelligent, plafonds de coûts et garde-fous, la facture monte vite. Très vite.

La gouvernance moderne ne se contente plus de dire qui a accès à quoi. Elle regarde ce que l’agent essaie de faire, dans quel contexte, avec quel risque, et à quel coût.

Où se crée l’avantage business ?

L’avantage business se crée dans la couche data gouvernée, sémantique et fraîche. Beaucoup plus que dans le choix isolé d’un modèle IA. Je sais que c’est moins sexy qu’un nouveau LLM, un LLM étant un grand modèle de langage comme GPT, Claude ou Llama, mais c’est là que la vraie différence se joue.

Si les modèles deviennent plus accessibles, plus performants, parfois presque interchangeables, alors ce qui compte vraiment, c’est le contexte qu’on leur donne. Un agent IA sans bon contexte, c’est un collaborateur très rapide, mais qui ne connaît pas votre entreprise. Il répond vite. Il peut même répondre avec aplomb. Mais il peut se tromper sur ce que vos chiffres veulent dire.

C’est là que la couche sémantique devient centrale. Une couche sémantique, c’est la traduction métier de vos données. Elle explique à l’agent les domaines, les métriques, les définitions, les glossaires, les relations entre les tables et les règles de calcul. En clair, elle lui dit ce que les données signifient vraiment.

Sans ça, un agent peut confondre chiffre d’affaires facturé et chiffre d’affaires encaissé. Il peut mélanger client actif et client inscrit. Il peut répondre sur la marge brute alors que le métier demande la marge nette. Ce ne sont pas des détails techniques. Ce sont des erreurs business. Et dans certains contextes, ça peut coûter très cher.

Une bonne plateforme pour agents IA doit combiner trois choses simples, mais rarement bien alignées :

Des données à jour, parce qu’un agent qui raisonne sur des chiffres vieux de trois semaines devient vite dangereux.
Un sens métier clair, parce qu’une métrique sans définition partagée crée des décisions contradictoires.
Des règles d’accès et d’action adaptées au contexte, parce qu’un agent ne doit pas tout voir, ni tout faire, pour tout le monde.

C’est cette combinaison qui permet d’avoir des agents utiles, sûrs et pilotables. Pas juste des assistants qui génèrent du texte, mais des agents capables d’agir dans un cadre fiable.

Je préfère souvent voir une entreprise démarrer avec deux ou trois agents bien cadrés, branchés sur une base data propre, plutôt que lancer dix assistants IA connectés à un bazar documentaire et à des métriques contradictoires. J’ai vu ce cas plusieurs fois chez des clients. Au début, ça impressionne. Puis les équipes arrêtent de faire confiance aux réponses.

Le sujet n’est donc pas seulement Databricks. C’est plus large. C’est la façon dont les entreprises doivent repenser leur socle data pour l’IA agentique, avec moins de démos brillantes et plus de fondations solides.

Alors on prépare la data pour les agents ou pas ?

Le message que je retiens du Databricks Data + AI Summit 2026 est assez clair. L’IA ne se joue plus seulement dans les modèles. Elle se joue dans la donnée disponible, fraîche, gouvernée, compréhensible et traçable. Les agents IA vont devenir des consommateurs massifs de plateformes data, avec des besoins très différents des humains. LTAP répond au problème de fraîcheur. Unity Catalog, Unity AI Gateway, les politiques contextuelles, le traçage et les contrôles de coûts répondent au problème de confiance. Pour vous, le bénéfice est simple, construire des agents plus utiles, plus sûrs et mieux alignés avec votre business.

FAQ

Quel est le principal message du Databricks Data + AI Summit 2026 ?
Le message principal, c’est que Databricks pense maintenant sa plateforme pour des agents IA comme consommateurs majeurs de la donnée. L’enjeu n’est plus seulement de donner des dashboards aux humains, mais de fournir aux agents des données fraîches, gouvernées, contextualisées et exploitables.
Pourquoi les modèles IA deviennent-ils moins différenciants ?
Parce que les modèles deviennent plus accessibles et plus interchangeables. La vraie différence vient de la couche data autour du modèle. Si vos données sont fiables, fraîches, bien décrites et bien gouvernées, vos agents auront de meilleures réponses et feront moins d’erreurs.
À quoi sert LTAP dans cette approche ?
LTAP, pour Lake Transactional Analytical Processing, vise à réunir les usages transactionnels et analytiques sur une seule copie de données. L’objectif est de réduire les pipelines, les réplicas et le décalage entre la réalité opérationnelle et l’analyse. Pour les agents IA, c’est essentiel, parce qu’ils ont besoin d’un contexte à jour.
Pourquoi la gouvernance doit-elle devenir contextuelle ?
Un agent ne se contente pas de lire une table. Il peut poser plusieurs questions, raisonner, appeler des outils et déclencher des actions. Des droits statiques ne suffisent plus. Il faut des politiques capables de tenir compte du contexte, du comportement réel, du risque PII, des injections de prompt et du coût généré.
Quel rôle joue la couche sémantique pour les agents IA ?
La couche sémantique donne du sens aux données. Elle clarifie les métriques, les domaines, les définitions métier et les relations entre concepts. Sans elle, un agent peut répondre avec assurance mais se tromper sur une notion business essentielle. Avec elle, il comprend mieux ce qu’il manipule.

A propos de l’auteur

Je suis Franck Scandolera, expert et formateur en tracking avancé server-side, Analytics Engineering, automatisation No/Low Code avec n8n, intégration de l’IA en entreprise et SEO/GEO. J’accompagne des équipes data, marketing et business sur des sujets très concrets, gouvernance, qualité de donnée, automatisation, mesure et mise en production de cas d’usage IA. Je dirige l’agence webAnalyste et l’organisme Formations Analytics. J’ai travaillé avec des références comme Logis Hôtel, Yelloh Village, BazarChic, la Fédération Française de Football ou Texdecor. Si vous voulez structurer vos données et vos automatisations IA proprement, contactez-moi.

Franck Scandolera

⭐ Analytics engineer, Data Analyst et Automatisation IA indépendant ⭐

Ref clients : Logis Hôtel, Yelloh Village, BazarChic, Fédération Football Français, Texdecor…

Mon terrain de jeu :

Data Analyst & Analytics engineering : tracking avancé (GA4, Matomo, Piano, GTM server, Tealium, Commander Act, e-commerce, CAPI, RGPD), entrepôt de données (BigQuery, Snowflake, PostgreSQL, ClickHouse), modèles (Airflow, dbt, Dataform), dashboards décisionnels (Looker, Power BI, Metabase, SQL, Python).
Automatisation IA des taches Data, Marketing, RH, compta etc : conception de workflows intelligents robustes (n8n, App Script, scraping) connectés aux API de vos outils et LLM (OpenAI, Mistral, Claude…).
Engineering IA pour créer des applications et agent IA sur mesure : intégration de LLM (OpenAI, Mistral…), RAG, assistants métier, génération de documents complexes, APIs, backends Node.js/Python.