Mesurer la Visibilité LLM, 6 Outils Testes [2026]

Mesurer la visibilité LLM est devenu essentiel en 2026 : sans mesure, pas de pilotage, pas de ROI démontre. Six outils dominent le marché français et international : Profound, Otterly.ai, Bluefish AI, AthenaHQ, HubSpot AI Search Grader, et l'approche DIY via API. Ce comparatif, base sur les tests Transacts de décembre 2025 a mars 2026, détaillé chaque outil avec budget, metriques couvertes et cas d'usage idéal.

Pourquoi mesurer la visibilité LLM en 2026

Trois raisons imposent la mesure LLM. Raison 1 : le trafic LLM devient matériel, les sessions AI-referees progressent fortement en 2025. Sans mesure, cet incrementa est invisible et l'on ne peut pas optimiser. Les investissements GEO se multiplient, et chaque euro depense doit etre justifie par un KPI. Raison 3 : la competition s'intensifie, connaitre sa part de voix LLM par rapport aux concurrents devient stratégique. En 2024, mesurer la visibilité LLM était optionnel, en 2026, c'est un prerequis de toute stratégie GEO sérieuse. Voir 12 KPIs GEO a suivre.

Les 3 metriques clé a suivre

Trois metriques resument 90 % du pilotage. Metrique 1, Taux de citation : sur un panel de 300 a 5 000 requêtes representatives de votre marché, combien de fois votre marque est-elle citée dans la réponse ? Cible typique pour une PME B2B établie : 8-20 %. Metrique 2, Position moyenne dans la réponse : quand vous êtes cité, êtes-vous en position 1, 2, 3, 4 ou 5 ? La position 1 a un CTR 3x supérieur a la position 5. Metrique 3, Part de voix vs concurrents : sur les mêmes requêtes, quelle est votre part de citations (vous / total citations) ? Une part supérieure a 15 % face a 5-8 concurrents represente une position dominante. Ces 3 metriques combinees produisent un score de visibilité LLM comparable dans le temps. Depuis juin 2026, nous les croisons avec un triptyque plus fin par requête, cité, nommé, recommandé, car 61,7 % des citations IA ne nomment jamais la marque citée, et un suivi qui confond cité et nommé surestime la visibilité réelle. Voir définition 2026 du GEO.

Outil 1, Profound

Profound (fondé en 2023, US) est leader du marché premium en avril 2026. Couverture : ChatGPT, Perplexity, Gemini, Claude, Meta AI, Copilot. Metriques : taux de citation, part de voix, sentiment, mentions concurrent, drill-down par question. Interface SaaS, dashboards visuels, alertes. Budget : 900 € a 4 500 €/mois selon le volume de requêtes (1 000 a 20 000 tracked). Recommandé pour : grands comptes (ETI, groupes, agences avec 5+ clients sérieux). Les audits Transacts ont teste Profound sur 3 clients en janvier-mars 2026 : données fiables, couverture large, ROI acceptable pour des budgets GEO >3 KEuro/mois. Le bemol : prix élève pour une PME française. Voir audit GEO pas-a-pas.

Outil 2, Otterly.ai

Otterly.ai (Pologne, fondée en 2024) est un concurrent européen de Profound a prix plus accessible. Couverture : ChatGPT, Perplexity, Google AI Overviews, Gemini, Claude. Metriques : taux de citation, ranking, sentiment, topics, évolutions temporelles. Interface plus légère mais très lisible. Budget : 150 € a 1 200 €/mois selon le plan. Recommandé pour : PME B2B françaises avec budget GEO 1-3 KEuro/mois. Les tests Transacts ont confirme une bonne qualité des données sur les 4 moteurs principaux, avec une latence de 4-6h entre le probing réel et l'affichage dashboard. Otterly manque de profondeur sur les niches très spécialisées (longue traîne, secteurs de niche).

Outil 3, Bluefish AI

Bluefish AI (US, 2024) se distingue par son focus B2B SaaS et son intégration CRM (HubSpot, Salesforce). Couverture : ChatGPT, Perplexity, Gemini, Claude, Meta AI. Metriques : citations, intent signals (qui parle de vous et avec quelle intention d'achat), enrichissement leads. Budget : 500 € a 2 800 €/mois. Recommandé pour : SaaS B2B, cabinets de conseil, sociétés de services. Les tests Transacts sur 2 clients SaaS français en février 2026 ont confirme une correlation utile entre signaux LLM et pipeline commercial (+18 % de conversions signalees via Bluefish). Le bemol : focus principalement anglophone, couverture française encore partielle.

Outil 4, AthenaHQ

AthenaHQ (US, 2024) est axe sur le content intelligence et l'optimisation. Couverture : ChatGPT, Perplexity, Gemini, Claude. Metriques : citations, analyse des passages cités, recommandations de reecriture, A/B testing. Unique : AthenaHQ suggère des reformulations concrètes des passages pour augmenter la citation. Budget : 250 € a 1 500 €/mois. Recommandé pour : editeurs média, publishers, sites a gros corpus editorial. Les tests Transacts sur un média français ont montre un uplift de citations de +22 % après 3 mois d'application des recommandations AthenaHQ. Plutot orienté rendu technique, nécessite une équipe editoriale qui suit les suggestions. Voir fenetre 134-167 mots.

Outil 5, HubSpot AI Search Grader

HubSpot AI Search Grader (intégré a HubSpot CMS depuis 2024) est gratuit pour les clients HubSpot et payant pour les autres (60-150 €/mois). Couverture : ChatGPT, Perplexity, Gemini. Metriques : taux de citation basique, suggestions d'optimisation. Interface simple, intégrée au workflow marketing HubSpot. Recommandé pour : PMEs qui utilisent déjà HubSpot CMS et veulent un outil minimal. Les tests Transacts ont confirme que HubSpot Grader convient bien aux sites de 50-300 pages, mais manque de profondeur sur les analyses concurrentielles. A voir comme un outil d'entree de gamme, pas comme une solution stratégique. Voir GEO vs SEO différences.

Outil 6, DIY via API OpenAI / Anthropic / Perplexity

L'approche DIY consiste a scripter l'interrogation des moteurs generatifs via leurs APIs officielles. Les coûts API : OpenAI GPT-4 ~10 € pour 1 000 requêtes, Anthropic Claude ~15 €, Perplexity API ~8 €, Google Gemini ~12 €. Pour un panel de 300 requêtes sur 4 moteurs mensuellement, le coût total est d'environ 20-40 € / mois. Avantage : totalement contrôle, aucun abonnement. Inconvenient : nécessite une ressource technique (Python + pandas + stockage + dashboard) pour environ 8-15 jours de setup initial. Transacts utilise une approche hybride : DIY pour les clients a petit budget, outils SaaS pour les clients a gros budget. Voir audit GEO pas-a-pas.

Outil 7, Semrush AI Visibility Toolkit

Ajout de juin 2026 à cette liste. Semrush a lancé son AI Visibility Toolkit, qui suit les citations et les mentions de marque par moteur (ChatGPT, Gemini, AI Overviews, AI Mode), avec un module Prompt Research pour construire sa liste de requêtes. L'éditeur recommande de démarrer avec environ 25 prompts, répartis en trois catégories, questions de marque, questions de catégorie et questions de comparaison, croisées avec deux stades du parcours, découverte et décision, puis une revue trimestrielle. Deux réserves d'usage, le guide vient de l'éditeur lui-même (Carlos Silva, juin 2026) et ses seuils sont indicatifs, et l'outil ne distingue pas nativement être cité, être nommé et être recommandé, le triptyque reste à relever soi-même. C'est sur cette base que repose l'étude des citations fantômes de juin 2026.

Notre règle de sélection des prompts, valable quel que soit l'outil. Clusteriser les variantes d'un même besoin et n'en suivre qu'une ou deux par groupe, pondérer par stade d'achat et par présence des concurrents, et ne jamais retirer un prompt à intention d'achat, même s'il ne produit aucun signal pendant des semaines, c'est celui qui compte le jour où la réponse change.

Comparatif synthetique et recommandations

Budget < 100 €/mois : HubSpot AI Search Grader (si client HubSpot) ou DIY via API

Budget 100-500 €/mois : Otterly.ai plan debutant ou AthenaHQ starter

Budget 500-1 500 €/mois : Otterly.ai plan pro, Bluefish AI, AthenaHQ pro

Budget 1 500-5 000 €/mois : Profound, Bluefish AI enterprise, combinaison Otterly + AthenaHQ

Budget > 5 000 €/mois : Profound + Otterly en doublure + DIY pour audit approfondi

La recommandation standard Transacts pour une PME B2B française : Otterly.ai + script DIY mensuel pour un coût total de 200-400 €/mois avec couverture satisfaisante des 4 moteurs majeurs. Pour un grand compte : Profound + DIY pour la partie analyse personnalisee, soit 2 500-4 000 €/mois.

Cas d'application : une agence B2B

Une agence de conseil IT française (35 salaries, site 90 pages, 8 400 visites/mois) a lance un programme de mesure LLM en novembre 2025. Setup : panel de 400 requêtes (conseil IT, transformation digitale, cloud, cybersecurite), Otterly.ai plan pro (380 €/mois) + script DIY Python pour les 50 requêtes longue traîne stratégiques. Dashboard intégré dans Looker Studio. Résultat mars 2026 : taux de citation passe de 4 % (décembre 2025) a 16 % (mars 2026), part de voix #3 de son marché sur les requêtes cibles, 11 % du trafic vient d'agents IA. Sans mesure, ces progrès auraient été invisibles.

Comment Transacts accompagne sur la mesure LLM

Transacts propose 3 formules selon le budget client. Formule Starter (100-200 €/mois + audit initial) : script DIY + reporting mensuel. Formule Standard (400-600 €/mois) : Otterly.ai + enrichissement DIY + dashboard Looker Studio. Formule Premium (1 500-3 000 €/mois) : Profound + DIY + reporting mensuel + recommendations editoriales. Chaque formule inclut la définition du panel de requêtes, le parametrage des outils, le reporting mensuel et l'analyse concurrentielle. Voir page métier SEO IA & GEO.

Questions fréquentes mesure visibilité LLM

Combien de requêtes tester ?

Cela dépend de votre marché. Minimum 100 requêtes pour une PME très nicheuse, 300-500 pour une PME B2B standard, 1 000-2 000 pour un grand compte multi-produits, 5 000+ pour un ecommerce avec 500+ fiches produits. Les requêtes doivent couvrir 3 catégories : branded (contenant votre nom), produit/service (relative a votre offre), concurrent (nom des concurrents). La repartition typique : 10 % branded, 60 % produit/service, 30 % concurrent. Les outils permettent généralement d'ajuster ce panel, l'iterer mensuellement en ajoutant les nouveaux sujets emergents. Voir 12 KPIs GEO.

Quelle fréquence de probing ?

Mensuelle pour la plupart des cas. Les moteurs generatifs ne changent pas leurs réponses en temps réel : leur index se rafraichit toutes les 2-8 semaines. Un probing mensuel suffit a capturer les évolutions significatives. Pour les industries a forte actualite (finance, politique, sante publique), un probing bi-mensuel peut être justifie. Pour les industries stables (B2B services, éducation), un probing trimestriel suffit. Le coût API ou abonnement est généralement proportionnel a la fréquence, donc il faut trouver le bon équilibre. Transacts recommandé mensuel pour 80 % des clients.

Comment agir sur les résultats ?

Chaque probing produit 3 livrables. Livrable 1, tableau de bord : évolutions des 3 metriques sur 6-12 mois, par moteur, par requête clé. Livrable 2, analyse concurrentielle : qui gagne, qui perd, sur quels thèmes. Livrable 3, plan d'action : 5-10 recommandations concrètes pour le mois suivant (articles a réécrire, FAQ a ajouter, brand mentions a solliciter). Ce plan d'action est la clé du ROI, sans action derrière la mesure, le probing est un coût non rentabilise. Les agences spécialisées comme Transacts integrent systématiquement ce troisième livrable. Voir audit GEO pas-a-pas.

Les outils sont-ils fiables ?

Globalement oui, avec des marges d'erreur. Profound et Otterly.ai affichent une fiabilité declaree de 94-97 % sur leurs tests internes. En pratique, les audits Transacts ont observe 3-8 % de faux positifs (citations détectées mais inexistantes) et 2-5 % de faux négatifs (citations réelles non détectées). Ces marges d'erreur sont acceptables pour le pilotage stratégique mais doivent être connues. La DIY via API offre une fiabilité supérieure (100 % des données sont réelles) au prix d'une variance dans le parsing des réponses. Pour une mesure robuste, croiser 2 sources (par exemple Otterly + DIY) donné un intervalle de confiance fiable.

Peut-on mesurer les concurrents ?

Oui, c'est même la moitie de la valeur. Tous les outils cités permettent de suivre la citation de 3-10 concurrents en plus de votre marque. La part de voix competitive est la metrique la plus stratégique pour positionner votre performance dans le temps. Les audits Transacts montrent qu'une PME qui double sa part de voix (de 8 % a 16 %) sur 12 mois gagne environ +15 a +30 % de trafic qualifié et +8 a +15 % de conversions attribuables. Suivre uniquement sa propre citation sans contexte competitif donné une vue incomplete, la competition évolue en parallele, parfois plus vite que vous. Voir content strategy a l'ère de l'IA Search.

Comment Mesurer la Visibilité LLM, 6 Outils Testes en 2026

Pourquoi mesurer la visibilité LLM en 2026

Les 3 metriques clé a suivre

Outil 1, Profound

Outil 2, Otterly.ai

Outil 3, Bluefish AI

Outil 4, AthenaHQ

Outil 5, HubSpot AI Search Grader

Outil 6, DIY via API OpenAI / Anthropic / Perplexity

Outil 7, Semrush AI Visibility Toolkit

Comparatif synthetique et recommandations

Cas d'application : une agence B2B

Comment Transacts accompagne sur la mesure LLM

Questions fréquentes mesure visibilité LLM

Combien de requêtes tester ?

Quelle fréquence de probing ?

Comment agir sur les résultats ?

Les outils sont-ils fiables ?

Peut-on mesurer les concurrents ?

Expertises liées

Besoin d'accompagnement ?