Cos'è davvero il Crawl Budget per Google? Facciamo chiarezza

Nella SEO esistono una miriade di miti e leggende, spesso riportate anche da esperti e guru del settore, che contribuiscono alla disinformazione degli utenti.

Probabilmente uno degli argomenti più “storpiati” è sicuramente il crawl budget.

Immagino che questo alone di disinformazione derivi dal fatto che questo sia un argomento un po’ più tecnico, e che non esiste una definizione chiara e univoca su questo parametro di scansione.

Che cos’è il Crawl Budget?

Il Crawl Budget è il sistema che utilizza il GoogleBot per limitare il numero di richieste che fa ad un server, in modo da non causare problemi durante la sua scansione.

https://youtu.be/rwxXOJT4tRo?t=35

Questa è la semplice definizione che da John Mueller. Ma vediamo di capire meglio.

Quando lo spider del motore di ricerca effettua la scansione di una pagina, utilizza il WRS - Web Rendering System - che è il servizio che gli permette di “vedere” le url come farebbe normalmente il browser di un utente.

In questo modo puo’ fruire dei siti esattamente come faremmo noi con il nostro pc.

Per realizzare questo processo di rendering, utilizza più connessioni simultanee, che analizzano un url sotto vari aspetti.

Durante la sua navigazione il bot, riesce a determinare il numero massimo di richieste che il server può elaborare senza problemi, in un determinato periodo di tempo.

Questa valutazione è completamente automatica, poiché appena i sistemi di Google vedono che il server del sito rallenta vistosamente, oppure restituisce molti errori, vengono ridotte le connessioni simultanee del bot, e quindi il suo budget di scansione.

Pertanto il Crawl Rate Limit è determinato essenzialmente da due fattori:

Performance del server: se il sito che viene esaminato, risponde molto rapidamente per un determinato lasso di tempo, il limite aumenta, il che significa che è possibile utilizzare più connessioni per eseguire la scansione. Se invece il sito risulta lento a rispondere, o restituisce errori del server, il limite diminuisce e Googlebot esegue minori scansione.
Limite impostato in Search Console: puoi ridurre o aumentare manualmente la scansione del tuo sito da parte di Google. Tieni presente che impostare dei limiti più elevati, non aumenta automaticamente la scansione, se il tuo server non regge il carico, o se i sistemi del motore di ricerca non lo ritengono necessario.

Posso ottimizzare il Crawl Budget?

La risposta è no, o almeno, non del tutto e non direttamente.

É possibile tentare di aumentare il budget di scansione sul proprio sito, ma questo non ai fini di ranking nelle serp come molti vogliono far credere.

Infatti altro mito di questo argomento, è la possibilità di “ottimizzare” e “aumentare” il budget, come se questo comportasse un qualche vantaggio ai fini del posizionamento.

Come ho già detto lo spider di Google aumenta il suo lavoro di analisi, se trova un server agile e veloce, che reagisce bene anche allo stress di una scansione molto elaborata.

Tieni presente che anche nel caso il bot non raggiunga il limite che si è imposto, se non ritiene necessario intensificare la scansione, si fermerà comunque.

A questo punto subentra il concetto di Crawl Demand (richiesta di scansione) che determina la necessità del bot di scansionare una pagina.

I parametri che la influenzano sono:

La popolarità: gli URL più popolari su Internet solitamente tendono ad essere sottoposti a scansione molto più spesso per mantenerli più aggiornati nell’indice di Google.
Obsolescenza dei contenuti: le pagine che presentano contenuti che potrebbero diventare obsoleti nel tempo, beneficiano di una maggiore frequenza di scansione.
Spostamento di un sito: un evento straordinario come questo, può’ attivare un aumento della richiesta di indicizzazione, in quanto è necessario reindicizzare tutti i contenuti con le nuove URL.

Per cui riassumendo, il budget di scansione si determina con il Crawl Rate Limit e la Crawl Demand.

Quali altri fattori influenzano la scansione?

Ovviamente ci sono altri parametri che influenzano la “voglia” del bot di Google di sottoporre a scansione un sito web. Fino ad ora abbiamo elencato quelli che la possono aumentare, adesso vediamo quali sono i fattori che possono diminuire la frequenza di scansione.

Tali fattori (dichiarati esplicitamente da Big G) sono, in ordine di importanza:

Pagine con url che contengono molti id di sessione e identificatori
Contenuti duplicati (intesi come pagine identiche, ma con url diversi a causa degli id di sessione)
Pagine con errore soft 404
Pagine compromesse (da un hacker o malintenzionati)
Url con link infiniti
Pagine di bassa qualità o con contenuto spam

L’utilizzo di risorse del server su pagine come queste, prosciugherà letteralmente l'attività di scansione da pagine che hanno effettivamente valore, il che potrebbe causare un ritardo significativo nella scoperta di ottimi contenuti su un sito.

Quindi se hai molte pagine di poco valore, recherai un danno anche alle poche pagine utili che sono contenute nel tuo sito.

Anche in questo caso puoi ridurre manualmente la frequenza di scansione, leggi qui per sapere come fare.

Il Crawl Budget è un fattore di ranking?

A dispetto di quanto dicono molti guru, la risposta è no. Anzi, è un aspetto di cui generalmente un webmaster non dovrebbe nemmeno preoccuparsi.

Ovviamente resta inteso che se lo spider di Google mostra di apprezzare il tuo sito, è un chiaro segno che questo gode di ottima salute e non presenta particolari problemi a livello di server o di struttura.

Ma ciò non significa che un sito scansionato intensamente, avrà un ranking migliore in serp.

Solo chi ha siti di grandi dimensioni (oltre 100.000 url) dovrebbe controllare con cadenza regolare la scansione del GoogleBot.

L’unico aspetto importante è quello di tenere sotto controllo i log del server, perchè se genera molti problemi quando passano i bot dei motori di ricerca, è necessario ricorrere ai ripari per migliorare le performances del server.

Per comprendere meglio l’argomento, puoi andare a leggere la pagina ufficiale di Google che spiega molto bene cosa sia il crawl budget.

Cos'è davvero il Crawl Budget per Google? Facciamo chiarezza

Che cos’è il Crawl Budget?

Posso ottimizzare il Crawl Budget?

Il Crawl Budget è un fattore di ranking?

Articoli Correlati

SEO Semantica: cos'è, come funziona, le migliori strategie

HTTP/2 vs HTTP/3: come funzionano e quali sono le differenze

Che cos'è un sito web e come crearne uno di successo