Leggo sul sito http://www.rankfirst.info/guide-seo...siti-in-drupal/
"Drupal offre un modulo sitemap davvero avanzato. Questo modulo crea la sitemap e la modifica ogni volta che viene aggiunta o modificata una risorsa nel sito, facendo un ping ai vari motori di ricerca a ogni aggiornamento....Inoltre aggiungi la url della sitemap nel file robots.txt , altrimenti puoi avere la sitemap più completa del mondo, ma nessun motore di ricerca la troverà!"
Qualcuno sa farmi un esempio di come devo intervenire e dove, in che punto, nel file robot.txt
Grazie
Sandro
Il contenuto del file robots.txt è qualcosa di simile a:
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /junk/
La prima riga identifica chi accede al sito (
*
indica qualunque bot usato da motori di ricerca, o altri sniffer); le altre righe indicano quali URL non devono essere visitate dai motori di ricerca (vedi About /robots.txt).Se aggiungi una linea contenente
Disallow: /sitemap.xml
, l'effetto che ottieni è che i motori di ricerca non controlleranno il contenuto della sitemap.Questo vale per un motore di ricerca che rispetta le indicazioni date dal file robots.txt; ci sono vari sniffer che fanno esattamente il contrario di quanto indicato (come un autista che gira a destra quando un cartello indica che non dovrebbe girare a destra ;-)), nella speranza di accedere a dati che non sono stati adeguatamente protetti e che dovrebbero essere privati.
Il file robots.txt non deve essere quindi considerato un file che blocca tutti gli accessi alle pagine che non dovrebbero essere visitate da un particolare sniffer, o motore di ricerca; deve essere considerato un suggerimento che indica al motore di ricerca che accedere ad una specifica pagina è una perdita di tempo (perché la pagina richiede una password per essere visualizzata, o perché la pagina non è visibile ad un utente che non è stato identificato, ad esempio).
Kiam
Kiam la luno renkontas la sunon.
Nel mio file robot.txt si legge tra l'altro
Disallow: /sites/
capisco che così impostato nessun motore indagherà il sito.
Capisco bene ?
Forse dovrei impostarlo come
User-agent: *
Disallow:
Per cui il mio file diventerebbe
User-agent: *
Disallow:
Crawl-delay: 10
# Directories
Disallow: /includes/
Disallow: /misc/
Disallow: /modules/
Disallow: /profiles/
Disallow: /scripts/
Disallow: /themes/
# Files
Disallow: /CHANGELOG.txt
Disallow: /cron.php
Disallow: /INSTALL.mysql.txt
Disallow: /INSTALL.pgsql.txt
Disallow: /install.php
Disallow: /INSTALL.txt
Disallow: /LICENSE.txt
Disallow: /MAINTAINERS.txt
Disallow: /update.php
Disallow: /UPGRADE.txt
Disallow: /xmlrpc.php
# Paths (clean URLs)
Disallow: /admin/
Disallow: /comment/reply/
Disallow: /contact/
Disallow: /logout/
Disallow: /node/add/
Disallow: /search/
Disallow: /user/register/
Disallow: /user/password/
Disallow: /user/login/
Grazie
Sandro
La directory sites contiene file a cui un motore di ricerca non può accedere e per i quali Drupal ritornerebbe (se la memoria non mi inganna) un errore di accesso non consentito; è corretto evitare che i motori di ricerca non accedino a tale directory.
In un sito Drupal, gli URL ai quali i motori di ricerca sono interessati sono quelli che contengono node/, user/, o che puntano a immagini o file allegati a nodi, per esempio. Ci sono altri URL ai quali i motori di ricerca possono accedere; l'elenco completo dipende dai moduli che sono stati installati.
Kiam
Kiam la luno renkontas la sunon.