Crawler e Scraper

Oggigiorno navigare sul web è un’operazione quanto mai semplice e alla portata di tutti, ma ti sei mai chiesto da dove vengono i risultati di ricerca che vedi sullo schermo?

Che si tratti di una ricerca su Google o di comparare i prezzi di voli e hotel, i risultati saranno frutto dell’azione di bot automatizzati, ovvero algoritmi che scandagliano il web alla ricerca di informazioni.

C’è però una sostanziale differenza tra le due tecniche: nel primo caso, infatti, si parla di crawler, mentre nel secondo di scraper.

Ma cos’è che le differenzia? E in quale delle due subentrano fattori d’analisi che sfociano nella pirateria informatica?

In questo articolo tenteremo di fare chiarezza sull’argomento.

Cos’è un crawler

Il web crawler spider (a volte chiamato solo spider o crawler), come già accennato, è un bot Internet che periodicamente scandaglia il web allo scopo di crearne una mappa.

Questi bot vengono chiamati “spider” ovvero “ragni“, perché si muovono lungo tutta la ragnatela globale del web, proprio come ragni veri e propri.

Il crawling, di  conseguenza, è quel processo che permette ai motori di ricerca di creare un indice di diverse risorse e contenuti presenti in rete, classificandoli per tipologia. In questo modo possono essere riproposti in maniera pertinente alle query (le parole-chiave) che utilizzano gli utenti.

Come funziona un crawler

Per trovare tutte le informazioni pertinenti che Internet offre, ci sono tre diversi percorsi principali che può seguire un crawler:

  • cercare i collegamenti ipertestuali;
  • scansionare la sitemap;
  • invio manuale.

Cercare i collegamenti ipertestuali

La prima tipologia di indicizzazione si verifica quando il bot crawler segue, da una serie di pagine web note, i collegamenti ipertestuali che rimandano ad altre pagine.

Questi sono i cosiddetti seeds (semi), ovvero una lista di URL di siti web, che il programma dovrà visitare sistematicamente. Gli URL di questa lista, chiamata Crawl Frontier (frontiera di indicizzazione), vengono visitati più volte così da poterne registrare eventuali modifiche o aggiornamenti.

Ciò è utile, ad esempio, per distinguere una pagina che viene aggiornata quotidianamente da una che rimane immutata. La prima verrà certamente scansionata più frequentemente ed avrà, di conseguenza, un ranking migliore nella pagina di ricerca.

Scansionare la Sitemap

Un altro modo per riconoscere nuove pagine web è la scansione delle Sitemap, cioè una lista degli URL di un sito creata con lo scopo di fornire ai bot un elenco delle pagine scansionabili.

Una Sitemap XML è un file in cui vengono fornite informazioni su pagine, video e altri file importanti presenti sul sito, nonché sulle correlazioni tra i vari elementi. I motori di ricerca come Google leggono questo file tramite i crawler per eseguire una scansione più efficiente.

Invio Manuale

Una terza possibilità è l’invio manuale delle pagine al motore di ricerca (ad esempio tramite Google Search Console). Si usa questa pratica quando

  • si pubblicano nuovi contenuti,
  • oppure si aggiornano e si vuole ridurre il tempo necessario per far notare l’update al motore di ricerca.

Crawler e privacy

Come abbiamo visto, i crawler rivestono un’importanza fondamentale in ambito SEO e nel marketing.

Questo finché si tratta di navigare su porzioni di siti web che volutamente rendono accessibili determinate informazioni.

Ma cosa accade con tutti quegli altri dati tutelati dalla privacy che dovrebbero rimanere riservati?

Una ricerca di Barracuda Networks evidenzia come circa il 40% dell’intero traffico internet sia costituito da bot malevoli che agiscono allo scopo di impossessarsi di informazioni riservate.

E i crawler, in questo scenario, non sono da meno.

Non ci sarà dunque da stupirsi se si sono adottate misure di sicurezza informatica anche per regolare un’eventuale eccessiva intrusione del bot durante il processo di link-building.

Nello specifico, nel caso in cui non si desideri che una pagina venga analizzata dagli spider e indicizzata nei motori di ricerca, è possibile usufruire di un particolare file denominato robots.txt da inserire nella directory del sito web.

In questo modo non si farà altro che indicare allo spider in che modo comportarsi mentre analizza il sito web: grazie a comandi come nofollow o disallow, infatti, si disabilitano tutti quei link che il bot non dovrà percorreere.

Purtroppo, gli spider dei motori di ricerca non hanno l’obbligo effettivo di ignorare le risorse indicate all’interno del file robots.txt: quelli forniti in questo modo dallo sviluppatore sono infatti solo dei suggerimenti.

C’è però da puntualizzare un altro aspetto: il processo di crawling, a dispetto di quanto si possa intuitivamente pensare, non è indiscriminato o “alla cieca”, tutt’altro.

A tal proposito è bene sapere che i crawler  sono programmati secondo istruzioni, anche chiamate policy, che riguardano

  • quali pagine visitare e scaricare (selection policy),
  • quanto spesso analizzare la stessa pagina (revisit policy), nel caso in cui si utilizzino diversi sistemi di spider da coordinare (parallelization policy)
  • o come minimizzare l’impatto della propria attività di scanning sui siti analizzati (politeness policy).

Web scraping: cos’è e perché è diverso dal crawling

Abbiamo avuto modo di constatare come i crawler  costituiscano una risorsa indispensabile, ma si rivelino problematici nel momento in cui navigano su pagine che custodiscono dati riservati. c

C’è, però, una tecnica che risulta ancor più invasiva: il web scraping.

Sebbene i due tipi di bot vengano spesso confusi, c’è da sottolineare una sostanziale differenza

  • i crawler, infatti, navigano il web per catalogare le informazioni in modo generalizzato
  • gli scraper sono programmati per  estrarre contenuti da pagine specifiche.

In sostanza, se da un lato i crawler sfruttano anche tecniche di scraping per un’analisi dei contenuti funzionale alla loro indicizzazione, gli scraper memorizzano i dati estratti in database esterni.

Non a caso il web scraping è conosciuto anche come web harvesting web data extraction.

Come per i crawler, anche per gli scraper si distinguono diverse modalità d’azione. Nello specifico si hanno:

  • scraping manuale, che di volta in volta estrae singole informazioni e le memorizza
  • scraping automatico, vero e proprio algoritmo di consultazione ed estrazione dei dati.

Pur non essendo una tecnica illegale tout-court, tuttavia lo scraping nasconde non pochi rischi per la cybersecurity del proprio portale.

Web scraping e rischi per la cybersecurity

Il web scraping, come illustrato in precedenza, è una tecnica simile al crawling ma con il preciso intento di estrarre informazioni da specifici portali web.

Uno degli ambiti d’applicazione più conosciuti al giorno d’oggi è l’utilizzo nei portali dedicati al confronto dei prezzi di voli, hotel o qualsiasi altra tipologia di servizio.

In questo caso ci troviamo di fronte a un approccio perfettamente legale: sono state estrapolate dai vari siti soltanto informazioni liberamente accessibili a terzi.

Ciò non toglie che, anche in questo caso, lo scraping possa danneggiare un’attività penalizzandone il ranking nella visualizzazione dei risultati di ricerca.

Quand’è, però, che il web scraping assume connotati che vìolano apertamente la legge??

La risposta è piuttosto semplice:

  • quando vengono apertamente violati i diritti d’autore di un sito web
  • quando vengono sottoposte a scraping pagine relative a login utente 
  • o quando vengono aggirate le misure volte a impedire l’attività di scraping (vedi robot.txt).

E proprio a tal proposito si è recentemente pronunciata anche la Corte di Giustizia dell’Unione Europea e dal Garante per la privacy (AGICOM).

In una sentenza è stato infatti sancito che se un sito web nelle sue condizioni d’uso proibisce esplicitamente che crawler o scraper analizzino i suoi contenuti, chiunque agisca non rispettando tali clausole potrà

  • essere citato in giudizio
  • incorrere in pesanti sanzioni
  • essere tenuto ad astenersi dal perpetuare in futuro la condotta in questione

Non è raro, infatti, che attraverso database di e-mail raccolte illecitamente proprio con il web scraping siano stati poi diffusi messaggi di phishing.

Conclusioni

Come abbiamo avuot modo di vedere, i crawler e scraper sono fondamentali per l’indicizzazione e l’estrazione di contenuti dai siti web.

Purtroppo, anche dietro queste attività all’apparenza innocue si celano rischi per la privacy e la sicurezza informatica degli utenti.

Il tutto si gioca, quindi, sul riuscire a gestire un giusto equilibrio tra

  • la necessità di essere visibili sui motori di ricerca
  • e la tutela dei dati personali.

Cyberment

Siamo un’azienda specializzata in consulenza di sicurezza informatica.

Il nostro team di specialisti cybersecurity vanta un’esperienza decennale nel settore: ci occupiamo di identificare le vulnerabilità nei sistemi informatici e nelle applicazioni web.

Cyberment ha 3 sedi dalle quali studia con costanza l’evoluzione delle minacce informatiche, tra cui: Milano, Mantova e Londra.

Se desideri conoscere in modo approfondito i nostri servizi di prevenzione, contattaci e parlaci dei problemi della tua azienda.