Robots.txt utile per i motori di ricerca
Ho aggiornato il contenuto della pagina il 6 Marzo 2014
Il file robots.txt, da non dimenticare la s finale e scrivere robot.txt, altrimenti il suo uso diventa nullo, consente di indicare ai motori di ricerca quali pagine NON devono essere indicizzate.
E’ una modalità più precisa del TAG ROBOTS: L’utlizzo del TAG, obbliga al webmaster di indicarlo in ogni pagina web del sito, lavoro molto oneroso. Se si volessero poi apportare delle modifiche, questo richiederebbe la modifica del TAG in una o più pagine web.Il file robots.txt è uno standard (Robots Exclusion Standard) accettato da tutti i motori di ricerca.
Utilizzarlo è molto semplice è sufficiente creare un file con il blocco notes e chiamarlo robots.txt (attenzione alla s finale!!). Il file va inserito nella directory principale del sito.I motori di ricerca automaticamente controllano la sua presenza, quando scansionano un sito. Anche se i motori di ricerca non trovano il file robots.txt, indicizzano comunque tutte le pagine, io consiglio sempre di creare e inserire nel sito web il file robots.txt, anche vuoto che equivale a dire di indicizzare tutto.
Questo fa si che i motori di ricerca leggano la mancanza del file, come pagina errata o mancante, (errore 404), correndo il rischio di indicizzarlo come sito poco curato.
Se si vuole dire a tutti i motori di ricerca di indirizzare tutte le pagine web, si può lasciare vuoto il file, oppure inserire queste due righe:
User-agent: *
Disallow:
User-agent: *
Indica a tutti (tutti si indica con asterisco: *) i motori di ricerca (User-agent sono i motori di ricerca)
Disallow:
Indica quali file non indicizzare Disallow (escludere).
In questo caso dopo i due punti, non c’è nessuna indicazione, quindi vuol dire non escludere nulla.
User-agent: *
Disallow: /
In questo caso, si sta dicendo a tutti i motori di ricerca (*) di non indicizzare nulla, in quanto il simbolo /, indica la directory principale del sito, quindi tutti i file e le sottocartelle.
User-agent: googlebot
Disallow: /foto_mie/
Disallow: /la_mia_pagina.html
In questo esempio invece si sta indicando che lo spider googlebot, relativo al motore di ricerca Google, non deve indicizzare i file presenti nella cartella e sottocartelle presenti in foto_mie e non deve essere indicizzato il file la_mia_pagina.html. E’ possibile però anche inserire più riferimenti di esclusione differenziati per più motori di ricerca, per esempio se nel file robots.txt, inseriamo queste righe:
User-agent: mercator
Disallow: /
User-agent: slurp Inktomi
Disallow: /pagina_mia.html
User-agent: googlebot
Disallow: /pagina_mia.html
Disallow: /cgi-bin/
User-agent: *
Disallow:
Sto indicando istruzioni differenti per i motori di ricerca:
mercator è lo spider di Altavista, sto indicando che SOLO questo motore di ricerca non deve indicizzare il sito, (simbolo /).
slurp Inktomi è lo spider di Yahoo,è sto indicando di non indicizzare solo la pagina pagina_mia.html per il motore di ricerca Yahoo
googlebot è lo spider di Goolge qui indico a questo motore di ricerca di non indicizzare le cartelle e sottocartelle presenti in cgi-bin e il file pagina_mia.html
l’ultimo rigo invece indica a tutti gli altri motori di ricerca di indicizzare ogni pagina.
Note sulla modalità di scrittura del post
Questo articolo è stato scritto da me, senza alcun aiuto dai sistemi di intelligenza artificiale, quali OpenAI, ChatGPT e simili.