[Risolto]Spero di non annoiare

17 contenuti / 0 new
Ultimo contenuto
[Risolto]Spero di non annoiare

Ciao a tutti.
Sono da un pò di tempo afflitto dai contenuti duplicati. Scusate se posso dire cavolate, se lo faccio correggetemi.
Dopo averne parlato anche qui, sono arrivato alla conclusione che, al momento, ogni sito Drupal che utilizza i commenti, a meno di qualche sostanziale implementazione, è soggetto a duplicati interni.
Ogni nuovo contenuto inserito, se si prevedono commenti, aumentano nelle Serp dei motori di ricerca i contenuti simili non visualizzati.
Mi spiego meglio. Se da Google fate un bel "site:miosito.com" di un sito Drupal, andando alla fine dei risultati ottenuti, troviamo: "Al fine di visualizzare i risultati più rilevanti, sono state omesse alcune voci molto simili alle 922 già visualizzate. In alternativa, è possibile ripetere la ricerca includendo i risultati omessi." Se ripetiamo la ricerca, arrivando al punto di prima, troveremo una marea di miosito.com/comment/reply/.... oltre a qualche altro.
Il robots.txt che utilizziamo contiene il Disallow per comment/reply, per cui probabilmente non viene seguito, ma questo non impedisce a Google di indicizzarlo.
Sotto tutti questi contenuti duplicati ? Secondo me si, ed oltre che a penalizzarci, ci mangiano la banda. E' forse questo uno dei motivi per cui tanti hosting non vogliono siti in Drupal. Potrebbe essere questo un buon articolo per il mio sito, ma siccome mi leggono in pochi, preferisco postarlo qui, per cercare di trovare con voi una soluzione.
Per non far indicizzare miosito.com/comment/reply/.... ci vorrebbe un meta "noindex", ma miosito.com/comment/reply... non è un nodo, per cui con Nodewords non si può fare.
Vi posto un nostro link dove, dopo tante ricerche, ho trovato la discussione che mi interessa. E' su D.O. e contiene anche il link ad una ottima pagina di SEOMOZ. Sembra che se ne stia discutendo per Drupal 8. Prima di postarlo, però, voglio aggiungere qualche altra cosa.
L' unico sito che sembra che non ne sia affetto è WhiteHouse.gov; infatti, se andate a vedere il suo robots.txt, non è come il nostro, ma è stato implementato in maniera diversa, seguendo anche quanto detto su SEOMOZ "Non bloccate i boot, ma proteggete i dati con password e per non indicizzare qualcosa usate il meta noindex".
Personalmente penso, se non si riesce a mettere il noindex, i commenti dovrebbero essere integrati nel nodo, come fa, e mi dispiace sempre dirlo, il caro Wordpress.
Ecco il link : http://drupal.org/node/1032234

se cerchi con google "remove duplicate content in wordpress" trovi Circa 1.570.000 risultati
se cerchi con google "remove duplicate nodes in drupal" trovi Circa 232.000 risultati :)
a parte gli scherzi drupal ha un modulo che dovrebbe risolvere il prob http://drupal.org/project/globalredirect
poi se leggi qui
http://googlewebmastercentral.blogspot.com/2009/10/reunifying-duplicate-...
google sconsiglia di modificare il file robots.txt per bloccare l'accesso a contenuti duplicati

sul robots.txt pensavo uguale anche se non sapevo che Gogl sconsigliasse in merito (lo immaginavo).
Il problema che pone Giovanni cmq lo vedo abbastanza pesantino e non vorrei che fosse "peggio" di quello dei feeds con John di 2 anni fà.

Per WP non credo faccia molto testo la statistica perchè WP ha un numero di utilizzatori maggiore di drupal e cmq data la destinazione anche verso utenza di basso livello, mi è lecito immaginare, anche in questo caso, che quelli che sono capaci di correggere il codice wp, impostare al meglio .htaccess, robots e altri files di configurazione importanti ..siano un numero di utenti = molto ma molto "esiguo".

Giovà ma il sito di obama chi lo ha fatto? (Volacci?)
Si potrebbe anche chiedere a loro se hanno un consiglio, perchè il problema che giustamente poni non lo vedo di facile soluzione.

Vi rispondo domani. Ciao.

Per meglio farvi capire, vi posto un link all' immagine dei titoli e url indicizzati da Google.
http://my.jetscreenshot.com/10520/20111129-2aqu-86kb
@motocad

Quote:
a parte gli scherzi drupal ha un modulo che dovrebbe risolvere il prob

global redirect non basta, o sono io che non ho saputo configurarlo.
Quote:
google sconsiglia di modificare il file robots.txt per bloccare l'accesso a contenuti duplicati

infatti non sei stato tu a modificare il robot.txt, ma gli sviluppatori di Drupal, mettendo, all' interno del robots, una serie di disallow per impedire l' accesso ai contenuti duplicati.
Ad esempio, nel robots, hai, tra le tante, Disallow: /comment/reply/
In questo modo da Drupal, viene impedito l' accesso ai paths /comment/reply/
Impedire l' accesso, non significa non far indicizzare, ma significa che Google rispetta la direttiva del robots: vede il disallow, non vi accede, ma lo indicizza.
Infatti, come anche tu hai detto, Google consiglia di non impedire l' accesso, ma di utilizzare il rel=canonical o il redirect 301.
Ma Google fa parte dei motori buoni; pensate che quelli non buoni seguono la direttiva ?
Il sito cad3d.org è stato inserito nella mia lista tra i siti buoni come WitheHouse perchè non presenta il problema (Lorenzo no, perchè pur non presentando il problema, ha altri duplicati). Ma motocad è più bravo oppure Google non ha ancora scovato i links Add new comment presenti in cad3d.org/cad3d/blog ?
Cominciate a riflettere

non ho capito dov'è la soluzione e cosa bisogna fare,
se mi spiegate prima che vada in "fase Rem"

grazie

@Lorenzo
Da quello che vedo io, il tuo lavatrici-ultrasuoni.it, non ha questo problema, almeno finchè non abiliti i commenti. Può avere duplicati per le liste, e si risolvono mettendo il noindex per le liste.
Per il mio problema, ho tolto il disallow nel robots per comment/reply/ ed ho messo il noindex per le pagine dei commenti; dovrebbe funzionare (speriamo) e togliermi man mano le pagine indicizzate (perchè avevo il disallow).
Mi ha creato inoltre un grosso problema la finta CDN che conosci, indicizzandomi anche una marea di quelle pagine (quindi pagine doppie); aspettavo uno dei nostri guru, ma non si vedono.
Vedrai ora che il mio sito è un pò più lento perchè ho swich/ato i puntamenti dalla finta CDN al sito normale. Ho la soluzione per un' altra CDN, ma prima dovrò dirottare tutti i 404 che mi arriveranno quando toglierò la finta CDN.
Comunque consiglio di usare, oltre agli strumenti per webmaster di Google, anche gli strumenti di Bing (che ora è un tutt' uno con Yahoo!, Msn, Search); aiuta a capire perchè funziona in modo un pò diverso.

- ho capito.
- lavatrici ultra it non è punto di rif. (sennò non lo firmavo), anzi è su Mister-Schif e dovrò trasferirlo e aggiustarlo meglio perchè mi fà proprio schiff.
- i commenti li abilito solo ai registrati o il problema resta ? (dilemma)

Quote:
Per il mio problema, ho tolto il disallow nel robots per comment/reply/ ed ho messo il noindex per le pagine dei commenti; dovrebbe funzionare (speriamo) e togliermi man mano le pagine indicizzate (perchè avevo il disallow).

- questo è importante (speriamo vada).

Quote:
Mi ha creato inoltre un grosso problema la finta CDN che conosci, indicizzandomi anche una marea di quelle pagine (quindi pagine doppie); aspettavo uno dei nostri guru, ma non si vedono.

- ma perchè non ti fai il nome sulle altre estensioni, riempi di contenuti e vai alla grande = per me ti manca questo per spaccare gogò.

- per i "guru parlanti" dopo JL se ne vedono sempre meno coi piedi per terra.

-Domanda finale : certi test pesantini non sarebbe meglio farli su un sito con hosting a sè stante, valutare a fondo e poi rischiare sul sito ufficiale che hai?
--
Ultimo consiglio: vai più con calma, meno agitazione e prima di agire pensaci di più ma con totale serenità interiore.

@Lorenzo

Quote:
- i commenti li abilito solo ai registrati o il problema resta ? (dilemma)

Restano; quando lo fai fammi sapere e ti dico.
Comunque, devi pesare le due cose; il disallow permette un minor consumo di banda, ma per ogni nuovo post, raddoppiano i link alle pagine su G. Questi link (Aggiungi un commento o Add new comment), non sono effettivamente contenuti duplicati, perchè G., non potendo accedervi, non sa cosa contengono; infatti nell' indice mette solo il titolo del link ed il link alla pagina (non vi è nè descrizione e nè parte di contenuto.
Però, il disallow, pur facendo risparmiare banda (ma facendo indicizzare le pagine), creano un enorme buco nero per il P.R. e per tutti gli altri fattori di valutazione che non possono diffondersi attraverso i link.
Quote:
-Domanda finale : certi test pesantini non sarebbe meglio farli su un sito con hosting a sè stante, valutare a fondo e poi rischiare sul sito ufficiale che hai?

Il sito ufficiale è in fondo un sito di test; i siti effettivi sono altri (quelli per cui mi pagano) ed in questi applico le modifiche solo dopo averle testate sul sito ufficiale.
P.S. mi riferivo a lavatrici-ultrasuoni
Guarda con Google questo "site:lavatrici-ultrasuoni.it/Grandi_impianti_di_lavaggio"

- meglio di no, faccio bene a tenere i cancelli chiusi (l'avevo capita giusta la storia sui commenti).

-- devo cmq rimandare anche questo discorso perchè sul .DE ciò un caos che non finisce più e non riesco a capire perchè è lento come una foca e mi segna errori dappertutto, ma porcaloca.

PS
giovanninews .it e giovanninews .eu sono liberi !!!???
cosa aspetti a prenderli ?

Dopo si che potresti allargarti e spandere a destra e a manca ... altro che cdn.. , basterebbe un AD da 30 euro /anno con la key "giovanni" e diventeresti il Giovanni europeo Number 1

in pratica hai seguito questa indicazione (webmaster) :

Per impedire che i contenuti di una pagina vengano elencati nell'indice web di GoGo' anche se altri siti contengono link a essa, utilizza un metatag noindex.
Quando analizza la pagina, GoGo'Bot riconosce il metatag noindex e impedisce la visualizzazione della pagina nell'indice web.

--

Quote:
P.S. mi riferivo a lavatrici-ultrasuoni

eh l'avevo capito

Quote:
Guarda con Google questo "site:lavatrici-ultrasuoni.it/Grandi_impianti_di_lavaggio"

mmh, c'è la gabriella di spalle: l'unico eorrore che vedo..

Quote:
l' unico errore che vedo...

Io vedo almeno 56 pagine duplicate

giovanninews wrote:
l'unico eorrore che vedo..
Io vedo almeno 56 pagine duplicate

..è perchè essendo grandi vasche, esse si espandono, ah, ah, ah.
quindi duplicati caos e robots.txt da spostare : bello.

--> ma perchè gogo' mi dice che tutto và bene .?.

--> e perchè i clean url non fanno sparire tutte queste dannate pagine "?page=99.000"

e perchè, in drupal, per LA STESSA PAGINA, ne esistono due ?
http://www.lavatrici-ultrasuoni.it/image/tid/335?page=18
http://www.lavatrici-ultrasuoni.it/image/tid/335?page=16
(queste si che me la segnate, ma non come doppie : come "non raggiungibili" , probabile per una fase di rigenerazione di Mister ).

Quote:
ma perchè gogo' mi dice che tutto và bene .?.

Dopo l' arrivo del Panda anche da noi, gogo' ha annunciato (e avevo postato quì il link) che avrebbero implementato, nell' area messaggi, l' invio di comunicazioni sui contenuti duplicati. Non l' hanno ancora fatto ! Prima del Panda gogò diceva di non penalizzare per i contenuti duplicati, adesso penso che lo faccia.
Se provi ad utilizzare Bing, vedrai che invece lui vuole proprio che cambi le url ?page=... ; se non le cambi, da errore e non indicizza più niente.
Quote:
e perchè i clean url non fanno sparire tutte queste dannate pagine "?page=99.000"

perchè i clean urls normalizzano soltanto le urls che contengono il parametro /?q= e non il parametro ?page.
Per te e per tutti gli utenti Drupal, dico quello che ho fatto io, in questo caso; naturalmente a vostro rischio e pericolo.
Utilizzo il modulo Nodewords per impostare in automatico il noindex per le liste (le liste sono tutte le urls che contengono il parametro ?page); in pratica, per le liste indicizzi solo la prima pagina (ti perdi tutte le altre), ma vai ai togliere dall' indice anche tutti i ?page che gogò vede per i singoli nodi (non ho verificato se questo dipende da un problema di D.). Vedo, nel mio caso, che il numero delle pagine indicizzate comincia a scendere, ma forse per la pulizia totale ci vorranno mesi.

Mah, Giovanni, è da tempo, non te lo nascondo, che volevo studiare come togliere questi problemi, il tempo a mia disposizione e anche le conoscenze tecniche, d'altra parte, sono quel che sono.
Credo cmq che la situazione sia veramente molto seria e, come al solito, l'argomento è "ben caldo".

Anche io ho testato Nodewords ma non credo di aver mai messo il noindex sulle liste : credendo fosse una mossa controproducente .. ma a quanto mi dici, devo ricredermi.

--
Quello che posso aggiungerti del mio, in parallelo a questo discorso, e per esperienza diretta con iaohYooh, è stata quella con forward con cui ottenevo migliaia di pagine "buone" per indicizzare e valorizzare un mio sito,
una cosa che può far capire come un solo modulo d. faccia "le moltiplicazioni all'infinito" (40.000 nodi da 10 pagine).
A suo tempo la cosa mi tornò molto utile: oggi però si uniscono a Baind Micro Bill e tu, giustamente, sai già che il discorso cambierà completamente anche su questo fronte.

Cmq non capisco perchè non intervenga qualcuno che ne sà un po di più, almeno per mettere un'opinione maggiormente piena di contenuti, e da esaminare e/o discutere...

Scusa Giovanni, ma se imposti i commenti per essere inseriti nella stessa pagina del post, il problema permane?

OOOPS Pinolo, dovrò aggiornare il mio ultimo articolo.
Il problema rimane per siti come il mio e per tutti quelli che permettono di inserire commenti anche ad utenti Anonimi. Drupal (o Google) vede un commento come un' altra pagina (altra url). Drupalitalia ne è immune perchè l' anchor "rispondi", che in questo caso è drupalitalia.org/comment/reply/16625/63750, appare solo agli utenti registrati.
Google, non essendo registrato, il link non lo vede proprio.
Se DrupalItalia permetteva i commenti (risposte) anche agli Anonimi, con il disallow avreste avuto la SERP di Google piena di url del tipo:

Invia nuovo commento
drupalitalia.org/comment/reply/16625/63750

La cosa la puoi verificare con il sito di Mavimo dove trovi ben 1.130 risultati con /comment/reply/
Mavimo, come me, ha inoltre un grosso problema con la finta CDN (static1) che penso di aver risolto e presto dovrò scriverci qualcosa, perchè l' avevo consigliata sul mio sito.