Big data et SEO
Actualités du SEO ❘ 19 juin 2018
Accueil » Actualités du SEO » Big data et SEO
Depuis une dizaine d’années, la quantité de données disponibles est en plein développement, c’est ce que l’on appelle le Big data. Ces données nourrissent les algorithmes d’intelligence artificielle. Comment sont exploitées les Big data en référencement naturel ?

Qu’est-ce que le Big data ?
Inventé en 1997, le terme de Big data que l’on pourrait traduire par méga donné ou données massives désigne de grands volumes de données numériques issus des progrès des technologies de l’information et de l’Internet. Ces données peuvent être publiques (open data) ou privées (données d’entreprise telles que les bases de données ou les documents internes). Ce sont des textes, mais aussi des images, des vidéos ou des sons qui sont produits par des entreprises, des administrations et par les particuliers. Le concept de Big data a été popularisé au tout début des années 2010. Doug Laney, du cabinet Gartner, distinguait en 2011 trois grandes dimensions liées aux Big data : le volume, la variété (données structurées ou semi-structurées) et la vélocité (produites et analysées en temps réel). L’exploitation de ces données peut poser problème de légalité vis-à-vis des données personnelles.
source : https://blogs.gartner.com/doug-laney/files/2012/01/ad949-3D-data-Management-Controlling-data-Volume-Velocity-and-Variety.pdf
Big data et données personnelles
Le développement des outils de collecte d’informations sur les individus peut poser des problèmes de respect des données personnelles. Le scandale Cambridge Analytica/Facebook est un bon exemple d’abus dans ce domaine. Désormais, la gestion des données personnelles est gérée de manière plus stricte par les entreprises avec l’application du règlement européen (RGPD) entré en vigueur depuis le 25 mai 2018.
Les citoyens européens peuvent désormais plus facilement contrôler leurs données à caractère personnel. Si vous êtes une entreprise et que votre site ne respecte pas encore la RGPD, il est encore temps de mettre votre site web en conformité avant que la CNIL ne prenne des sanctions.
Les Big data, nourriture de l’intelligence artificielle
L’intelligence artificielle est présente dans le Web et particulièrement dans les moteurs de recherche. Chacun des grands acteurs du secteur (Google, Bing, Yandex, Qwant…) utilise l’intelligence artificielle pour améliorer les résultats de recherche, mais aussi dans d’autres services par exemple la recherche d’images ou dans les assistants installés dans les Google Home et autres Amazon Alexa. Le nombre de requêtes traitées par les moteurs de recherche est considérable, de l’ordre de 5 milliards par jour.
Google, leader du marché de la recherche sur le Web dans le monde (90 % en mai 2018 à travers le monde semon statcounter) fournit des données grâce à ses outils gratuits (Google Analytics, Google Adwords) qui ne sont pas entièrement satisfaisants, car incomplets. Désormais, le traitement de la donnée est beaucoup plus accessible grâce au développement des capacités de calcul des ordinateurs (CPU) et du coût de stockage bas.
Comment les Big data influencent-elles le SEO ?
Depuis 3 à 4 ans, le SEO ou référencement naturel a commencé sa mue. Le SEO se basait à l’origine sur un raisonnement empirique mais depuis quelques années, il devient de plus en plus scientifique. Pour un SEO, les données proviennent de sources diverses telles que le crawl, les logs, Google Search Console, Google Analytics, les réseaux sociaux, le temps de chargement des pages, etc.
Les données brutes ne sont pas exploitables en l’état par un référenceur qui doit réaliser un gros travail de sélection et de nettoyage de la donnée utile. Il est également important d’avoir suffisamment de données pour pouvoir travailler. Une branche technique du SEO, la data science, utilise ces données issues des sites web pour prédire le comportement des internautes.
Les deux principaux langages de programmation utilisés pour exploiter ces données massives en référencement naturel sont R et Python.
Comment les Big data influencent-elles le SEO ?
Depuis 3 à 4 ans, le SEO ou référencement naturel a commencé sa mue. Le SEO se basait à l’origine sur un raisonnement empirique mais depuis quelques années, il devient de plus en plus scientifique. Pour un SEO, les données proviennent de sources diverses telles que le crawl, les logs, Google Search Console, Google Analytics, les réseaux sociaux, le temps de chargement des pages, etc.
Les données brutes ne sont pas exploitables en l’état par un référenceur qui doit réaliser un gros travail de sélection et de nettoyage de la donnée utile. Il est également important d’avoir suffisamment de données pour pouvoir travailler. Une branche technique du SEO, la data science, utilise ces données issues des sites web pour prédire le comportement des internautes.
Les deux principaux langages de programmation utilisés pour exploiter ces données massives en référencement naturel sont R et Python.
Langage R et SEO
R est utilisé à l’origine par des statisticiens. Désormais, il est sorti des applications habituelles des études statistiques pour être utilisé en SEO. Il permet d’automatiser certaines tâches, d’organiser de gros volumes de mots clés issus d’outils tels que Yooda ou SEMRush. Il est possible grâce à des scripts en R de classer les mots par thématique ou de supprimer des colonnes vides, de calculer les attributs ALT manquants, d’identifier les mots clés à optimiser pour améliorer ses positions , le poids moyen des pages du site étudié, regrouper des ensembles de données pour faire des clusters…
Intention de recherche
L’intégration du machine learning, un sous-domaine de l’intelligence artificielle, par les moteurs de recherche est de plus en plus forte. Par exemple, Google a introduit un nouvel algorithme, RankBrain, qui permet de mieux comprendre les requêtes des internautes et notamment celles qui n’ont jamais été utilisées (15 % du total) et de proposer une réponse adaptée. On est à l’aube d’une véritable révolution sémantique avec la meilleure compréhension du langage naturel grâce au machine learning et au deep learning.
Le SEO doit donc comprendre l’intention de recherche et adapter sa stratégie de référencement. Désormais, les mots clés sont classés par clusters thématiques. Rankbrain prend en compte les variantes des mots clés dans la thématique. Par exemple, pour la requête audit SEO, l’outil propose référencement avec ou sans accent mais aussi des termes tels que « moteur », « recherche », « visibilité », « qualité », « contenu », « technique », etc.
Rankbrain est également très efficace sur les requêtes ambiguës qui auparavant étaient mal interprétées par le moteur de recherche.
Désormais, des outils d’analyse sémantique tels que Yourtextguru ou Seoquantum permettent d’optimiser la rédaction de vos textes. Ces outils vont vous proposer une liste de mots à associer à votre requête dont certains sont à ajouter de manière prioritaire ainsi que des entités nommées (noms propres, dates…). Il est désormais conseillé de regrouper les mots clés, leurs variations ainsi que les recherches associées par proximité sémantique c’est-à-dire ce qui relève d’un même concept sémantique. L’arrivée de Rankbrain pousse à enrichir les contenus le plus possible.

Utiliser les Big data dans une stratégie de marketing
L’objectif du marketing est ambitieux, il s’agit d’adresser le bon message, au bon moment, sur le bon canal et à la bonne personne. Avec la montée en puissance des Big data, il est désormais plus simple de cibler une audience et de la segmenter. La connaissance des clients est de plus en plus fine. On utilise par exemple l’A/B testing pour personnaliser l’expérience utilisateur. On compare alors deux pages web différentes, deux échantillons d’utilisateurs, deux produits et on détermine laquelle génère le plus de taux de clics et de conversion.

Des formations data Science et SEO
Plusieurs formations existent en France sur la data Science et le SEO. Les pionniers du genre sont les frères Peyronnet dont leur laboratoire privé IX-labs propose des formations d’initiation à la data science et notamment d’utilisation du machine learning pour le webmarketing et notamment pour le SEO.
Les frères Peyronnet ne sont pas les seuls à proposer ce type de formation, Rémi Bacha et Vincent Terrassi forment également des SEO sur ces questions.
Le SEO est entré de plain-pied dans l’ère du Big data qu’il commence à utiliser de manière pertinente pour automatiser grâce aux algorithmes car ils permettent de traiter plus de données qu’un être humain. La Data Science orientée SEO devrait prendre une place de plus importante dans les années à venir.
Nos dernières actualités webmarketing
Offre d’emploi : Lead Développeur.se
Afin de renforcer son équipe, La maison GRACIET recrute son/sa prochain(e) lead développeur web. Découvrez notre poste à pourvoir !
Garder le contrôle sur ses contenus : le cas TotalEnergies
Total profiteur de crise ? C’est ce qu’indiquait Google quand on cherchait le nom de la marque. Une bourde qui pose la question du contrôle des contenus…
Graciet & Co : organisme de formation certifié Qualiopi en 2022 !
Graciet & Co décroche la certification Qualiopi ! Après une préparation assidue de plusieurs mois, Graciet & Co devient organisme de formation Certifié Qualiopi. Une belle réussite fruit d’un travail d’équipe et d’une volonté constante d’amélioration.
Quelques réalisations récentes
Ce sont nos clients qui parlent le mieux de ce que notre partenariat leur apporte.
Nous avons repris avec eux certaines de nos dernières missions pour vous expliquer dans le détail comment nous avons pu les accompagner dans leur conquête du web.
Pour en savoir plus sur les modalités de traitement de vos données, veuillez consulter notre politique de confidentialité relative à la protection de vos données personnelles récoltées par l’intermédiaire de ce site web.
Située à Dissay (proche de Poitiers), en Nouvelle-Aquitaine, entre Paris et Bordeaux, la maison GRACIET® vous accompagne pour bâtir la stratégie numérique qui vous permettra de conquérir votre marché au national comme à l'international.
Agence de référencement Poitiers 540 Rue des Lordières
86 130 DISSAY
Téléphone : 09 72 66 57 94
Design et contenus de GRACIET & Co | © 2017