url della sitemap nel file robots.txt

4 contenuti / 0 new

Accedi o registrati per inserire commenti.

Gio, 16/09/2010 - 14:25

Leggo sul sito http://www.rankfirst.info/guide-seo...siti-in-drupal/

"Drupal offre un modulo sitemap davvero avanzato. Questo modulo crea la sitemap e la modifica ogni volta che viene aggiunta o modificata una risorsa nel sito, facendo un ping ai vari motori di ricerca a ogni aggiornamento....Inoltre aggiungi la url della sitemap nel file robots.txt , altrimenti puoi avere la sitemap più completa del mondo, ma nessun motore di ricerca la troverà!"

Qualcuno sa farmi un esempio di come devo intervenire e dove, in che punto, nel file robot.txt

Grazie

Sandro

Sab, 18/09/2010 - 17:51

kiamlaluno

Il contenuto del file robots.txt è qualcosa di simile a:

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /junk/

La prima riga identifica chi accede al sito (* indica qualunque bot usato da motori di ricerca, o altri sniffer); le altre righe indicano quali URL non devono essere visitate dai motori di ricerca (vedi About /robots.txt).
Se aggiungi una linea contenente Disallow: /sitemap.xml, l'effetto che ottieni è che i motori di ricerca non controlleranno il contenuto della sitemap.
Questo vale per un motore di ricerca che rispetta le indicazioni date dal file robots.txt; ci sono vari sniffer che fanno esattamente il contrario di quanto indicato (come un autista che gira a destra quando un cartello indica che non dovrebbe girare a destra ;-)), nella speranza di accedere a dati che non sono stati adeguatamente protetti e che dovrebbero essere privati.
Il file robots.txt non deve essere quindi considerato un file che blocca tutti gli accessi alle pagine che non dovrebbero essere visitate da un particolare sniffer, o motore di ricerca; deve essere considerato un suggerimento che indica al motore di ricerca che accedere ad una specifica pagina è una perdita di tempo (perché la pagina richiede una password per essere visualizzata, o perché la pagina non è visibile ad un utente che non è stato identificato, ad esempio).

Kiam
Kiam la luno renkontas la sunon.

Sab, 18/09/2010 - 18:14

teatrodinessuno

Nel mio file robot.txt si legge tra l'altro
Disallow: /sites/

capisco che così impostato nessun motore indagherà il sito.

Capisco bene ?

Forse dovrei impostarlo come
User-agent: *
Disallow:

Per cui il mio file diventerebbe
User-agent: *
Disallow:
Crawl-delay: 10
# Directories
Disallow: /includes/
Disallow: /misc/
Disallow: /modules/
Disallow: /profiles/
Disallow: /scripts/
Disallow: /themes/
# Files
Disallow: /CHANGELOG.txt
Disallow: /cron.php
Disallow: /INSTALL.mysql.txt
Disallow: /INSTALL.pgsql.txt
Disallow: /install.php
Disallow: /INSTALL.txt
Disallow: /LICENSE.txt
Disallow: /MAINTAINERS.txt
Disallow: /update.php
Disallow: /UPGRADE.txt
Disallow: /xmlrpc.php
# Paths (clean URLs)
Disallow: /admin/
Disallow: /comment/reply/
Disallow: /contact/
Disallow: /logout/
Disallow: /node/add/
Disallow: /search/
Disallow: /user/register/
Disallow: /user/password/
Disallow: /user/login/

Grazie

Sandro

Sab, 18/09/2010 - 18:22

kiamlaluno

La directory sites contiene file a cui un motore di ricerca non può accedere e per i quali Drupal ritornerebbe (se la memoria non mi inganna) un errore di accesso non consentito; è corretto evitare che i motori di ricerca non accedino a tale directory.

In un sito Drupal, gli URL ai quali i motori di ricerca sono interessati sono quelli che contengono node/, user/, o che puntano a immagini o file allegati a nodi, per esempio. Ci sono altri URL ai quali i motori di ricerca possono accedere; l'elenco completo dipende dai moduli che sono stati installati.

Kiam
Kiam la luno renkontas la sunon.

Main menu

Accesso Utente

Nuovi argomenti del forum

Utenti on-line

url della sitemap nel file robots.txt

Main menu

Tu sei qui

Accesso Utente

Nuovi argomenti del forum

Utenti on-line

url della sitemap nel file robots.txt