[Risolto]Marea di titoli duplicati

24 contenuti / 0 new
Ultimo contenuto
[Risolto]Marea di titoli duplicati

Ciao, mi sono accorto di avere un problema con Google che trova nel mio sito una marea di titoli duplicati. Per l' esattezza sono 342 e riguardano sia le url della pagina che i tag utilizzati nella pagina; ad esempio la pagina che ha come titolo "Il volo della cinciarella, uccello insettivoro" mi da due titoli come duplicati relativi alla url e cioè "/volo-cinciarella?page=1" e "/volo-cinciarella?page=2" che portano allo stesso nodo, mentre ad esempio il tag "panel" mi da tre titoli duplicati relativi alla tassomia e cioè "/taxonomy/term/847", "taxonomy/term/847?page=1" e "/taxonomy/term/847?page=2, che portano tutti e tre al tag "panel" per quel nodo. In alcuni casi manca "?page=1"; ad esempio il tag "statistiche" mi da due titoli duplicati e cioè "/taxonomy/term/784" e "/taxonomy/term/784?page=2". Il mio sito contiene al momento esattamente 272 pagine effettive (nodi) rilevabili con sitemap.xml. E' da notare che fino ad un paio di mesi fa avevo attivo anche XML sitemap taxonomy relativo al modulo XML sitemap che mi portava ad avere una sitemap con circa 3000 url, composta da tutti i nodi + i tag (che portavano come indirizzo /taxonomy/term/...). So che Google segue i link dei tag rilevando anche i famosi /taxonomy/term... non più presenti nella sitemap. Dal forum ho letto anche che questi problemi possono essere risolti configurando bene il file .htaccess. Questo file lo avevo modificato alcuni mesi fa ed ogni volta che faccio l' aggiornamento del core di Drupal, sostituisco l' .htaccess con quello modificato mesi fa. So che i titoli duplicati sono molto penalizzanti per il sito web. Se qualcuno mi da una mano mentre cerco di capire l' .htaccess, glie ne sarei grato.
Giovanni

Adesso i tag titoli duplicati sono saliti a 468. Ho il sospetto che possa entrarci l' aggiornamento a Drupal 6.16 fatto questa mattina.
Giovanni

Il file .htaccess non era stato modificato in quanto è identico a quello contenuto in Drupal 6.16 con versione v 1.90.2.5 2010/02/02.
Ho avuto invece con Drupal 6.16 la seguente warning in rosso che non so se possa entrarci qualcosa:
user warning: Table 'user2571_db.semaphore' doesn't exist query: SELECT expire, value FROM semaphore WHERE name = 'locale_cache_it' in /home/user2571/public_html/includes/lock.inc on line 154.
Ricordo che semaphore doveva essere qualcosa che riguardava il cron per cui non dovrebbe entrarci niente.

Ciao Giovanni. Hai iniziato con un problema, ma adesso hai due!
Per il secondo (semaphore): http://www.drupalitalia.org/node/9967, http://www.drupalitalia.org/node/9898, http://www.drupalitalia.org/node/9905, http://www.drupalitalia.org/node/9888, http://www.drupalitalia.org/node/9886
Per il primo, mi sembra che tutto sta al fatto che Big G vede lo stesso titolo per le liste (primo pagina, poi ?page=1, ecc) in teaxonomy terms, et al. In realtà questo è un osservazione giusto - il titolo non cambia! Forse mettendo rel="nofollow" nel pager della lista? Oppura questo: http://www.seo-expert-blog.com/blog/avoiding-duplicate-title-tags-on-pag...

Più imparo, più dubito.

Ciao John, innanzitutto ti ringrazio per il solito grande aiuto. Mi dai anche molto da leggere e ne sono contento, perchè, come tu di dici, "più imparo, più dubito" e da imparare ne ho tanto.
Per cui leggerò i tuoi link sul semaphore. Per i titoli duplicati proverò il tuo rel="nofollow" anche se mi sembra strano che Google cominci adesso, dopo un anno e mezzo, a trovarmi i titoli duplicati; io pensavo di modificare il robot.txt con i vari disallow, ma non capivo in che forma metterli.
Volevo provare con
disallow /*?* per le url duplicate
disallow /taxonomy/term/*?* per i tag duplicati della tassonomia
Ma proverò prima col tuo rel.
Di problemi in realtà ora ne ho tre.
Il terzo non l' ho ancora detto. Volevo affrontarlo dopo questi e cercare magari di risolverlo prima di postarlo. Ciao John.

I miei sono solo suggerimenti. Non ho mai (dovuto) approfondire l'argomento SEO. Personalmente sto alla larga di robots.txt (so i miei limiti) perchè se sbagli, gli errori vengono fuori fra 2-3-30 giorni. Come investire in borsa, insomma. Almeno con .htaccess sei vede subito ;-) Mi piacevo il link, perchè molto semplice - e perchè ho capito il codice...
Non c'è due senza tre. Attendiamo il terzo...

John

Più imparo, più dubito.

I tag e titoli duplicati scendono a 350, non so se Google fa le bizze o l' ho beccata.
La notte porta consiglio. Allora:
Ho deciso di non adottare la soluzione proposta da John (rel="nofollow"); questo perchè il metaname robots con i vari follow e nofollow, non sono utilizzati da Drupal.org, da DrupalItalia, nè tantomeno dalla WhiteHouse o da Mavimo; i loro siti sono ben indicizzati, per cui non vedo perchè dovrei farlo io (forse sono anche questi pieni di titoli e tag duplicati). I link di bohz su questo forum aiutano a capire (http://www.drupalitalia.org/node/8062), ma dalla rete arriva anche qualcos' altro.
Se Google rileva titoli e tag duplicati, probabilmente propone anche delle sue soluzioni al problema; infatti, dai suoi Strumenti per Webmaster -> Configurazione Sito -> Impostazioni, Google propone la voce Gestione dei parametri dove permette di regolarne le impostazioni, con ignora e non ignora; in pratica permette di indicizzare o meno delle pagine che hanno parametri definiti. Il tutto è ben spiegato a questo link http://www.google.it/support/forum/p/webmasters/thread?tid=69c5cd7247a5b... dove è anche ben spiegato come in alternativa è possibile evitare l' indicizzazione dei titoli e dei tag utilizzando il file robot.txt.
Ma anche questa non è forse la via migliore, perchè utilizzando i parametri di Google o il robot.txt, i duplicati non saranno forse più visualizzati, ma il problema resta; rimarrebbero sempre una marea di titoli e tag duplicati anche se nascosti.
Guardando attentamente il codice di queste pagine, mi accorgo che le pagine che hanno il titolo duplicato sviluppano due pagine, una con tutti i meta tag senza meta tag robots ed un' altra con il meta tag robots=NOODP senza gli altri meta tag. Ricordo di aver inserito questo meta tag per qualche motivo dopo i casini sul modulo Nodewords, perchè la nuova versione dava queste possibilità. Ho quindi tolto l' inserimento automatico del meta tag NOODP; le pagine con titoli duplicati sono ora una con tutti i meta tag senza robots, l' altra senza alcun meta tag e con una riga vuota dove prima c' era il meta tag robots=NOODP. Questo è quello che ho fatto per adesso.
Pagine con tag duplicato:
Sempre vedendo attentamente le pagine adesso con tag duplicati, mi accorgo che l' url indicata per la pagina è una url composta di una sola parola (la mia iniziale inesperienza), che tra l' altro è utilizzata anche come tag. Penso che la cosa migliore da fare in questo caso sia quella di modificare l' url della pagina e creare un alias del vecchio url sul nuovo url per evitare l' error 404 (pagina non trovata).
Se tutto va bene, dovrò poi occuparmi del famoso semaforo (i link di John), visto che stamattina ho avuto lo stesso errore con l' upgrade a Drupal 6.16 su un altro sito.
Giovanni

Flaggato come documentazione, perchè mi sembra anni luce avanti a me per quanto riguarda SEO. Grazie Giovanni.

Più imparo, più dubito.

Grazie per il complimento John, ma secondo me, per essere valido ciò che ho detto, manca ancora il riscontro oggettivo con Google; prima di mettere mano ai tag duplicati, voglio prima verificare che effettivamente spariscano i titoli duplicati. La situazione sembra al momento incoraggiante perchè tutti i duplicati sono al momento scesi a 350; l' unica cosa che posso fare per ora è aumentare la frequenza di scansione di Google, sperando che ripassi al più presto.
Ne approfitto per capire un pò di più il semaforo.
Giovanni

Uelà John, mica mi prendi per i fondelli per il "semaforo"? L' update lo faccio sempre, sia dopo l' aggiornamento del core che dopo l' aggiornamento di ogni modulo, per cui, dopo l' update il messaggio mi è subito sparito e non si è più visto; altri, da quello che ho letto, hanno invece continuato ad averlo. Potevi dirmi subito che in Drupal 6.16 la tabella del semaforo non esisteva, per cui la warning era normale; mi avresti fatto risparmiare 20 minuti e la pena per un problema che non avevo!
Per i duplicati Google al momento non si è ancora visto; vediamo domani mattina, altrimenti se ne parla tra un paio di giorni. Buona notte.
Giovanni

No, quelli si chiamano vigili - e ti tolgono pure gli punti - lasciando anche una ciccatrice...

giovanninews wrote:
Uelà John, mica mi prendi per i fondelli per il "semaforo"? L' update lo faccio sempre, sia dopo l' aggiornamento del core che dopo l' aggiornamento di ogni modulo, per cui, dopo l' update il messaggio mi è subito sparito e non si è più visto; altri, da quello che ho letto, hanno invece continuato ad averlo. Potevi dirmi subito che in Drupal 6.16 la tabella del semaforo non esisteva, per cui la warning era normale; mi avresti fatto risparmiare 20 minuti e la pena per un problema che non avevo!

Scusa ma chi ha scritto http://www.drupalitalia.org/node/10078#comment-32248? Il warning da me non è mai apparso - probabilmente perchè aggiornavo il codice poi mi sono subito fiondato su update.php...
giovanninews wrote:
Per i duplicati Google al momento non si è ancora visto; vediamo domani mattina, altrimenti se ne parla tra un paio di giorni. Buona notte.
Giovanni

Allora aspettiamo che il semaforo diventa verde...

Più imparo, più dubito.

Il semaforo è rosso, nel senso che i duplicati si muovono come una altalena, a volte 350, a volte 480. Tutto quello detto in precedenza è da considerarsi quindi come una cronistoria, ma non come una documentazione.
Penso che Google cominci a verificare i duplicati quando il sito comincia ad avere più di un centinaio di visite giornaliere. Bisogna precisare che Google afferma di non penalizzare affatto i siti che hanno pagine duplicate, ma che è sempre meglio sistemarle (non ho al momento il link esatto dove Google dice questo, ma lo dice). Questo mi fa pensare che Google un pò di importanza ai duplicati la da.
La mia precedente occhiata ai codici hanno rilevato la presenza o meno dei meta name (copyright, description, keywords...), per cui, tutte le pagine del mio sito hanno dei duplicati.
Potrebbero avere lo stesso problema chi utilizza moduli che aggiungono meta name (Mavimo, WhiteHouse), no chi non li usa (DrupalItalia, Drupal.org); ma Mavimo vedo che potrebbe averli, WhiteHouse no pur utilizzando meta name. Probabilmente ci sono più moduli che fanno questo e Mavimo, come me potrebbe utilizzare Nodewords.
E' Nodewords il problema ?
Chiedo scusa se ho spulciato su qualche sito. Vorrei trovare adesso un programma per fare il "compare" dei codici. Forse NotePad ++.
Ciao.

Forse ho trovato; in Drupal il modulo Nodewords (Meta Tags), nella voce di configurazione Meta tags creation options, ha la possibilità di ripetere i meta tag per le liste vidimando la casella Repeat meta tags for lists. In questo modo, le pagine ottenute con /?page=... hanno sempre gli stessi meta name (tipo il sito della WhiteHouse).
Vediamo se in questo modo scendono i tag title duplicati rilevati da Google.
Giovanni

Utilizzando il "compare" con Notepad++ ho trovato anche che la differenza tra le pagine è prodotta dalla View "Archivio mensile" o Archivio per data; la differenza viene creata con la view utilizzando il pager (Use pager: SI). Aspetterò ancora qualche giorno e se i duplicati non si abbassano toglierò il pager nella view.
Giovanni

I tag e title duplicati sono scesi al momento a 166, ma ritengo che il semaforo sia ancora rosso; dovrei avere 1200 accessi giornalieri al sito per ritenere affidabili le statistiche di Google e non un centinaio. Fino ad ora ho comunque applicato solo ciò che ho detto in merito al modulo Nodewords.
Darò il verde solo se titoli e tag duplicati scenderanno a zero.
Giovanni

I tag ed i titoli duplicati rilevati da Google sono scesi a 45; ritengo quindi che il semaforo sia verde pur dovendo fare alcune considerazioni indicando i metodi adottati:

  1. nel modulo Nodewords (Meta Tags), nella voce di configurazione Meta tags creation options, ho vidimato la casella Repeat meta tags for lists. In questo modo, le pagine ottenute con /?page=... hanno sempre gli stessi meta name
  2. dalla view da me denominata "Archivio mensile" inserita come blocco a sinistra della pagina ho settato Use pager: NO. Il pager, se utilizzato, è il massimo responsabile delle pagine duplicate
  3. Ritengo che anche la view da me denominata "Articoli più letti di oggi" che visualizza, oltre al titolo, anche il numero delle volte che l' articolo è stato letto, può avere qualche influenza. Se entro qualche giorno non spariranno gli ultimi 45 titoli duplicati rimasti, visualizzerò nella view solo i titoli, nascondendo il conteggio.

Giovanni

Il problema con i titoli duplicati è che Drupal usa lo stesso titolo per pagine diverse, ma che sono collegate tra di loro, come ad esempio la pagina utente, la pagina per modificare i dati utente e la pagina che elenca le pagine visitate da un utente. Tutte e tre le pagine hanno lo stesso titolo (il nome utente) ma hanno URL diversi; questo è ciò che causa l'errore riportato da Google.

L'unico sistema per risolvere il problema è indicare a google che le tre pagine hanno lo stesso "canonical URL". In questo modo si indica a Google che le tre pagine hanno un URL diverso, ma che le deve considerare come la stessa pagina; così facendo, Google non riporterà più le pagine come pagine con titoli duplicati.
Lo stesso vale per le descrizioni.

Kiam
Kiam la luno renkontas la sunon.

Ciao Kiam, avevo visto anche il discorso del "canonical URL", ma non era il mio caso, che ho definitivamente risolto come indicato; nel mio caso la url diversa era caratterizzata solo dai caratteri /?page=1 oppure /?page=2 oppure /?page=3 ecc... , che presumo inserite da Google per distinguere le pagine. Nella mia sitemap non ho quelle pagine. Il tuo Nodewords comunque adesso funziona ottimamente. Grazie.

Se la pagina ha un pager, /?page=1, /?page=2 puntano alle diverse pagine del pager. Con Google, ho sempre avuto problemi con quelle pagine, che erano la fonte delle pagine riportate con titoli duplicati.

Kiam
Kiam la luno renkontas la sunon.

QUINDI GIOVANNI se facciamo cosi :

1.nel modulo Nodewords (Meta Tags), nella voce di configurazione Meta tags creation options, ho vidimato la casella Repeat meta tags for lists. In questo modo, le pagine ottenute con /?page=... hanno sempre gli stessi meta name
2.dalla view da me denominata "Archivio mensile" inserita come blocco a sinistra della pagina ho settato Use pager: NO.

Il problema è risolto su drupal 6 ?
Stò dando un'occhiata al mio vecchio www.lavatrici-ultrasuoni.it e vedo su strumentti webmaster G. che ho uguali problemi con ben 250 TAG TITLE duplicati.

Lavatrice ad ultrasuoni
Sito http://www.ultrasuoni.net > Client service and contacts: [email protected]

Ciao Lorenzo,
a quei tempi Google non diceva di penalizzare per i duplicati, ma consigliava di eliminare i duplicati. Questo in modo particolare per contenuti accessibili da diversi indirizzi; questo perchè il motore di ricerca poteva presentare all' utente una url non voluta dal webmaster e tutte le altre simili o uguali sarebbero andate a finire nella lista dei risultati supplementari. Per i titoli o le descrizioni duplicate il discorso potrebbe essere un pò diverso, ma sempre di duplicati si tratta.
Sono passati quattro anni e dopo tutto questo tempo è mia opinione pensare che bigG, dopo aver ripetuto la cosa esasperatamente, sia arrivato ad impostare algoritmi di penalizzazione per i siti che non controllano i duplicati.
E' sempre mia opinione quindi indicare la pagina canonica ed impostare un noindex per i percorsi alternativi che non si vogliono indicizarre e Nodewords per D6 e Meta tags per D7 fanno ottimamente questo lavoro. La Serp ottimale è quella che restituisce le pagine effettive del sito web; tutte le altre dovrebbero essere tolte dall' indice.
Per i titoli duplicati, nel mio caso per le pagine con il pager di paginazione (categorie), in D7, nella configurazione di Meta tag -> Termine della tassonomia: Categoria ho impostato come token sul titolo della pagina [term:name]/[current-page:page-number] in modo da avere ad esempio per la categoria Software il titolo Software/1 per la prima pagina, Software/2 per la seconda pagina e così via.
Con D6 le opzioni di Nodewords sono simili, ma si impostano in luoghi diversi e con un token diverso.
Comunque, nel mio caso, anche questa implementazione è superflua perchè ho scelto anche di non indicizzare le categorie (che potrebbero avere un teaser duplicato con la pagina effettiva).
Ciao Giovanni

Il discorso è quello Mister G. ha impostato Holding esterne e "grandi filosofi" che hanno condotto a questa situazione, un netto peggioramento direi per gli utenti web, dovuto anche all'assorbimento di Yiao in Bingho.
Sulle categorie confemo perchè è stessa storia sui blog che ho impostato con wp: se le indicizzi nel modulo ceo-seo wp "ti uccidi da solo"... duplicati a raffica.

Su tuo consiglio ho intanto caricato nodewords/meta-tags, ma impostarlo ?

Tu penso vuoi dire che alla page ==> content/nodewords/meta-tags
voce = Robots: INDEX (assumed) dobbiamo spuntare la casellina ?

o è meglio spuntarle un pò tutte? .. il no index in modo particolare ???
------------------------
Robots:
INDEX (assumed)
NOINDEX
FOLLOW (assumed)
NOFOLLOW
NOARCHIVE
NOODP
NOSNIPPET
NOYDIR
-----------------------
domande stupide eh, sai che sono "programmatore per caso" §:D
-------------------------------
ps:
non mi dire che dobbiamo da => nodewords/meta-tags/custom .. creare una customizzazione per ogni pagina .. spero di no ...

Lavatrice ad ultrasuoni
Sito http://www.ultrasuoni.net > Client service and contacts: [email protected]

A Lorè,
ti ho già detto che nel tuo caso il lavoro ti conviene farlo fare a chi lo sa fare, perchè, altrimenti, per risparmiare un paio di migliaia di euro, rischi di sput.... un marchio. Al massimo ci sarebbe da discutere sulla piattaforma, se D o Wp.
Comunque, presupponendo che tu lo faccia per hobby o per conoscenze personali, il significato dei vari meta name li puoi trovare facendo una ricerca in rete; non li devi spuntare tutti, ma quelli adatti in ogni caso. "assumed" significa quelli assunti per default se non hai spuntato niente.
Ad esempio, per le pagine search, presumo che l' indicazione migliore da spuntare sia "noindex" e "nofollow", a meno che non vogliamo indicizzare anche le ricerche degli utenti.

non mi dire che dobbiamo da => nodewords/meta-tags/custom .. creare una customizzazione per ogni pagina .. spero di no ...

No, ma è necessario farlo per serie di pagine, ad esempio, se genero pagine di categorie che hanno il percorso url miosito.com/categoria/nomecategoria, creerò una pagina custom dove, per gli url con miosito.com/categoria/* spunterò il meta name NOINDEX, per non indicizzarle; se genero in automatico tags con il percorso miosito.com/tags/nometags spunterò il meta name NOINDEX e così via.
Con D7 si fa in modo un po' diverso.
Spero di averti chiarito qualcosa.
Ogni meta name ha un significato e per il NOFOLLOW, non seguire, ci sono diverse scuole di pensiero.
A Google, come ben sai, non piace che le cose sia nascoste, è come un grande pettegolo, che vorrebbe sapere tutto, per cui gli si potrebbe dire di non indicizzare la pagina con NOINDEX perchè non è importante, ma non ti metto il NOFOLLOW perchè se vuoi seguire il link fai come ti pare, a me non interessa. Diverso è il senso del NOFOLLOW nell' attributo rel per i links in uscita.

ok Giovà, ti ringrazio studierò meglio quanto tu suggerisci con la tua solita estrema esperienza e grande perizia e precisione tecnica, vedrò ... che cosa riesco fare, nel mio caso e siti .. DEVO fare di persona, non solo per problemi di costi (importanti per tutti oggi) ma anche per molti altri problemi "strategici" che non mi dilungo a spiegare.

Intanto stò eliminando gli errori base html suggeriti dal w3c, poi passiamo a questo che è tutto da impostare al meglio ..maga' trovando qualche servizio free online tipo powermapper.com o altri.

Ps: vedo che hai bloccato l'ufetto di xen, come mai?

Lavatrice ad ultrasuoni
Sito http://www.ultrasuoni.net > Client service and contacts: [email protected]