Scraping di informazioni su oltre 66 milioni di utenti LinkedIn

Lo scraping (“raschiatura”) consiste nella sistematica raccolta e organizzazione di informazioni da una risorsa pubblica, generalmente un sito web. Di per sé le informazioni non sono riservate, ma la loro raccolta e utilizzo contrario alle intenzioni degli individui che le hanno pubblicate – oltre a essere implicitamente illegittimo – si scontra con la nuova normativa europea (il noto GDPR).

Il ricercatore di HackenProof Bob Diachenko ha scoperto un database MongoDB scarsamente protetto contenente dati su oltre 66.147.856 persone, presumibilmente catturate con lo scraping di altrettanti profili LinkedIn. Un enorme “dossieraggio” su oltre 66 milioni di persone che contiene nome completo, indirizzo e-mail, numero di telefono, luogo di attività, settore lavorativo, competenze professionali, ruoli e datori di lavoro (presenti e passati) oltre all’IP di collegamento.

Screenshot del database, con le informazioni sensibili oscurate dal ricercatore

Il database era diviso in tre parti ospitate su IP diversi ed era facilmente accessibile da chiunque poiché non protetto da un login.

Incidenti come questo riaprono il dibattito sulla riservatezza delle informazioni disseminate volontariamente dalle persone su siti e social network. Sicuramente nessuno degli utenti coinvolti aveva intenzione di consegnare indirizzo e-mail e numero di telefono a hacker o agenzie di marketing, ma sempre più spesso è lì che vanno a finire.

Inoltre, diversi social network lasciano all’utente la possibilità di diversificare la riservatezza di certe informazioni, ad esempio io posso decidere che il mio numero di telefono sia visibile solo ai miei contatti e non a tutto il mondo.

Questa blanda misura di sicurezza però è vanificata quando gli utenti accettano chiunque fra i loro contatti. Molte di queste “agenzie” infatti rilasciano bot all’interno dei social network, con profili ovviamente finti, per stringere contatto con più persone possibili.

Per fare un esempio, quello che segue è un maldestro tentativo di stringere amicizia col mio profilo Facebook avvenuto pochi giorni fa:

Non tutti riescono a riconoscere e ignorare tali bot, ed è sufficiente questa disattenzione per rendere pubblici dati che credevamo appannaggio solo di una ristretta cerchia di persone.

Su social network informali come Facebook è probabile che questi siano semplici tentativi di sextortion (chat o videochat a sfondo sessuale con conseguente ricatto), mentre su network più professionali come LinkedIn l’obiettivo di un bot generalmente è quello di “mappare” la rete di persone con cui entra in contatto e fare scraping di più informazioni possibili.

Le informazioni così raccolte possono poi essere usate in tantissimi modi, ad esempio per confezionare massicce campagne di phishing personalizzato: immaginate di ricevere un’offerta di lavoro esattamente nel settore in cui lavorate, magari da un’azienda nota, chi non darebbe una rapida occhiata al link contenuto nel messaggio?

Un modo per difendersi completamente non c’è, visto che queste sono informazioni che le persone inseriscono volontariamente online. Per mitigare il rischio però basterebbe essere consapevoli che qualsiasi dato inserito online è sempre a rischio di furto, e qualsiasi informazione disseminata sui social media potenzialmente aperta a tutti.

Ho iniziato a interessarmi di cybersecurity dal 1989, quando ho "trovato" il mio primo virus. Dal 1992 me ne occupo professionalmente: per oltre un decennio come collaboratore di testate specializzate (fra cui PC Professionale), poi come consulente del Ministro delle Comunicazioni su aspetti di sicurezza delle reti, quindi con collaborazioni sui medesimi temi con Telespazio (gruppo Finmeccanica). Oggi mi interesso di nuove tecnologie (AI) e cyber warfare. Sono socio fondatore del chapter italiano di Internet Society e membro dell'Associazione Italiana esperti in Infrastrutture Critiche. Dal 2006 lavoro presso ESET Italia, dove ricopro il ruolo di Operations Manager. Il blog è personale.