Mesurer la visibilité LLM est devenu essentiel en 2026 : sans mesure, pas de pilotage, pas de ROI démontre. Six outils dominent le marche français et international : Profound, Otterly.ai, Bluefish AI, AthenaHQ, HubSpot AI Search Grader, et l'approche DIY via API. Ce comparatif, base sur les tests Transacts de décembre 2025 a mars 2026, détaillé chaque outil avec budget, metriques couvertes et cas d'usage idéal.
Pourquoi mesurer la visibilité LLM en 2026
Trois raisons imposent la mesure LLM. Raison 1 : le trafic LLM devient materiel — les sessions AI-referees ont bondi de 527 % entre janvier et mai 2025 selon SparkToro. Sans mesure, cet incrementa est invisible et l'on ne peut pas optimiser. Raison 2 : les investissements GEO se multiplient (40 % des marques B2B françaises investissent selon Gartner 2026), et chaque euro dépense doit être justifie par un KPI. Raison 3 : la competition s'intensifie, connaitre sa part de voix LLM par rapport aux concurrents devient stratégique. En 2024, mesurer la visibilité LLM était optionnel ; en 2026, c'est un prerequis de toute stratégie GEO sérieuse. Voir 12 KPIs GEO a suivre.
Les 3 metriques clé a suivre
Trois metriques resument 90 % du pilotage. Metrique 1 — Taux de citation : sur un panel de 300 a 5 000 requetes representatives de votre marche, combien de fois votre marque est-elle citée dans la réponse ? Cible typique pour une PME B2B établie : 8-20 %. Metrique 2 — Position moyenne dans la réponse : quand vous êtes cité, êtes-vous en position 1, 2, 3, 4 ou 5 ? La position 1 a un CTR 3x supérieur a la position 5. Metrique 3 — Part de voix vs concurrents : sur les mêmes requetes, quelle est votre part de citations (vous / total citations) ? Une part supérieure a 15 % face a 5-8 concurrents represente une position dominante. Ces 3 metriques combinees produisent un score de visibilité LLM comparable dans le temps. Voir définition 2026 du GEO.
Outil 1 : Profound
Profound (fondé en 2023, US) est leader du marche premium en avril 2026. Couverture : ChatGPT, Perplexity, Gemini, Claude, Meta AI, Copilot. Metriques : taux de citation, part de voix, sentiment, mentions concurrent, drill-down par question. Interface SaaS, dashboards visuels, alertes. Budget : 900 € a 4 500 €/mois selon le volume de requetes (1 000 a 20 000 tracked). Recommandé pour : grands comptes (ETI, groupes, agences avec 5+ clients sérieux). Les audits Transacts ont teste Profound sur 3 clients en janvier-mars 2026 : données fiables, couverture large, ROI acceptable pour des budgets GEO >3 KEuro/mois. Le bemol : prix élève pour une PME française. Voir audit GEO pas-a-pas.
Outil 2 : Otterly.ai
Otterly.ai (Pologne, fondée en 2024) est un concurrent europeen de Profound a prix plus accessible. Couverture : ChatGPT, Perplexity, Google AI Overviews, Gemini, Claude. Metriques : taux de citation, ranking, sentiment, topics, évolutions temporelles. Interface plus légère mais très lisible. Budget : 150 € a 1 200 €/mois selon le plan. Recommandé pour : PME B2B françaises avec budget GEO 1-3 KEuro/mois. Les tests Transacts ont confirme une bonne qualité des données sur les 4 moteurs principaux, avec une latence de 4-6h entre le probing réel et l'affichage dashboard. Otterly manque de profondeur sur les niches très spécialisées (longue traîne, secteurs de niche).
Outil 3 : Bluefish AI
Bluefish AI (US, 2024) se distingue par son focus B2B SaaS et son intégration CRM (HubSpot, Salesforce). Couverture : ChatGPT, Perplexity, Gemini, Claude, Meta AI. Metriques : citations, intent signals (qui parle de vous et avec quelle intention d'achat), enrichissement leads. Budget : 500 € a 2 800 €/mois. Recommandé pour : SaaS B2B, cabinets de conseil, sociétés de services. Les tests Transacts sur 2 clients SaaS français en février 2026 ont confirme une correlation utile entre signaux LLM et pipeline commercial (+18 % de conversions signalees via Bluefish). Le bemol : focus principalement anglophone, couverture française encore partielle.
Outil 4 : AthenaHQ
AthenaHQ (US, 2024) est axe sur le content intelligence et l'optimisation. Couverture : ChatGPT, Perplexity, Gemini, Claude. Metriques : citations, analyse des passages cités, recommandations de reecriture, A/B testing. Unique : AthenaHQ suggère des reformulations concrètes des passages pour augmenter la citation. Budget : 250 € a 1 500 €/mois. Recommandé pour : editeurs média, publishers, sites a gros corpus editorial. Les tests Transacts sur un média français ont montre un uplift de citations de +22 % après 3 mois d'application des recommandations AthenaHQ. Plutot orienté rendu technique, nécessité une équipe editoriale qui suit les suggestions. Voir fenetre 134-167 mots.
Outil 5 : HubSpot AI Search Grader
HubSpot AI Search Grader (intégré a HubSpot CMS depuis 2024) est gratuit pour les clients HubSpot et payant pour les autres (60-150 €/mois). Couverture : ChatGPT, Perplexity, Gemini. Metriques : taux de citation basique, suggestions d'optimisation. Interface simple, intégrée au workflow marketing HubSpot. Recommandé pour : PMEs qui utilisent déjà HubSpot CMS et veulent un outil minimal. Les tests Transacts ont confirme que HubSpot Grader convient bien aux sites de 50-300 pages, mais manque de profondeur sur les analyses concurrentielles. A voir comme un outil d'entree de gamme, pas comme une solution stratégique. Voir GEO vs SEO différences.
Outil 6 : DIY via API OpenAI / Anthropic / Perplexity
L'approche DIY consiste a scripter l'interrogation des moteurs generatifs via leurs APIs officielles. Les coûts API : OpenAI GPT-4 ~10 € pour 1 000 requetes, Anthropic Claude ~15 €, Perplexity API ~8 €, Google Gemini ~12 €. Pour un panel de 300 requetes sur 4 moteurs mensuellement, le coût total est d'environ 20-40 € / mois. Avantage : totalement contrôle, aucun abonnement. Inconvenient : nécessité une ressource technique (Python + pandas + stockage + dashboard) pour environ 8-15 jours de setup initial. Transacts utilisé une approche hybride : DIY pour les clients a petit budget, outils SaaS pour les clients a gros budget. Voir audit GEO pas-a-pas.
Comparatif synthetique et recommandations
- Budget < 100 €/mois : HubSpot AI Search Grader (si client HubSpot) ou DIY via API
- Budget 100-500 €/mois : Otterly.ai plan debutant ou AthenaHQ starter
- Budget 500-1 500 €/mois : Otterly.ai plan pro, Bluefish AI, AthenaHQ pro
- Budget 1 500-5 000 €/mois : Profound, Bluefish AI enterprise, combinaison Otterly + AthenaHQ
- Budget > 5 000 €/mois : Profound + Otterly en doublure + DIY pour audit approfondi
La recommandation standard Transacts pour une PME B2B française : Otterly.ai + script DIY mensuel pour un coût total de 200-400 €/mois avec couverture satisfaisante des 4 moteurs majeurs. Pour un grand compte : Profound + DIY pour la partie analyse personnalisee, soit 2 500-4 000 €/mois.
Cas d'application : une agence B2B
Une agence de conseil IT française (35 salaries, site 90 pages, 8 400 visites/mois) a lance un programme de mesure LLM en novembre 2025. Setup : panel de 400 requetes (conseil IT, transformation digitale, cloud, cybersecurite), Otterly.ai plan pro (380 €/mois) + script DIY Python pour les 50 requetes longue traîne stratégiques. Dashboard intégré dans Looker Studio. Résultat mars 2026 : taux de citation passe de 4 % (décembre 2025) a 16 % (mars 2026), part de voix #3 de son marche sur les requetes cibles, 11 % du trafic vient d'agents IA. Sans mesure, ces progrès auraient été invisibles.
Comment Transacts accompagne sur la mesure LLM
Transacts proposé 3 formules selon le budget client. Formule Starter (100-200 €/mois + audit initial) : script DIY + reporting mensuel. Formule Standard (400-600 €/mois) : Otterly.ai + enrichissement DIY + dashboard Looker Studio. Formule Premium (1 500-3 000 €/mois) : Profound + DIY + reporting mensuel + recommendations editoriales. Chaque formule inclut la définition du panel de requetes, le parametrage des outils, le reporting mensuel et l'analyse concurrentielle. Voir page métier SEO IA & GEO.
Questions fréquentes mesure visibilité LLM
Combien de requetes tester ?
Cela dépend de votre marche. Minimum 100 requetes pour une PME très nicheuse, 300-500 pour une PME B2B standard, 1 000-2 000 pour un grand compte multi-produits, 5 000+ pour un ecommerce avec 500+ fiches produits. Les requetes doivent couvrir 3 catégories : branded (contenant votre nom), produit/service (relative a votre offre), concurrent (nom des concurrents). La repartition typique : 10 % branded, 60 % produit/service, 30 % concurrent. Les outils permettent généralement d'ajuster ce panel, l'iterer mensuellement en ajoutant les nouveaux sujets emergents. Voir 12 KPIs GEO.
Quelle fréquence de probing ?
Mensuelle pour la plupart des cas. Les moteurs generatifs ne changent pas leurs réponses en temps réel : leur index se rafraichit toutes les 2-8 semaines. Un probing mensuel suffit a capturer les évolutions significatives. Pour les industries a forte actualite (finance, politique, sante publique), un probing bi-mensuel peut être justifie. Pour les industries stables (B2B services, éducation), un probing trimestriel suffit. Le coût API ou abonnement est généralement proportionnel a la fréquence, donc il faut trouver le bon équilibre. Transacts recommandé mensuel pour 80 % des clients.
Comment agir sur les résultats ?
Chaque probing produit 3 livrables. Livrable 1 — tableau de bord : évolutions des 3 metriques sur 6-12 mois, par moteur, par requete clé. Livrable 2 — analyse concurrentielle : qui gagne, qui perd, sur quels thèmes. Livrable 3 — plan d'action : 5-10 recommandations concrètes pour le mois suivant (articles a réécrire, FAQ a ajouter, brand mentions a solliciter). Ce plan d'action est la clé du ROI — sans action derriere la mesure, le probing est un coût non rentabilise. Les agences spécialisées comme Transacts integrent systématiquement ce troisième livrable. Voir audit GEO pas-a-pas.
Les outils sont-ils fiables ?
Globalement oui, avec des marges d'erreur. Profound et Otterly.ai affichent une fiabilite declaree de 94-97 % sur leurs tests internes. En pratique, les audits Transacts ont observe 3-8 % de faux positifs (citations détectées mais inexistantes) et 2-5 % de faux négatifs (citations réelles non détectées). Ces marges d'erreur sont acceptables pour le pilotage stratégique mais doivent être connues. La DIY via API offre une fiabilite supérieure (100 % des données sont réelles) au prix d'une variance dans le parsing des réponses. Pour une mesure robuste, croiser 2 sources (par exemple Otterly + DIY) donné un intervalle de confiance fiable.
Peut-on mesurer les concurrents ?
Oui, c'est même la moitie de la valeur. Tous les outils cités permettent de suivre la citation de 3-10 concurrents en plus de votre marque. La part de voix competitive est la metrique la plus stratégique pour positionner votre performance dans le temps. Les audits Transacts montrent qu'une PME qui double sa part de voix (de 8 % a 16 %) sur 12 mois gagne environ +15 a +30 % de trafic qualifié et +8 a +15 % de conversions attribuables. Suivre uniquement sa propre citation sans contexte competitif donné une vue incomplete — la competition évolue en parallele, parfois plus vite que vous. Voir content strategy a l'ère de l'IA Search.