Ma davvero andare a cena in una fraschetta mi provoca un sacco di problemi?

Questo è il primo articolo di Signorina37 scritto per GarantePiracy, eppure è come se fosse qui da sempre. Benvenuta!
Attenzione, Signorina37 ha la passione per gli Easter egg.
CB
L'evoluzione dell'intelligenza artificiale e le pratiche di #webscraping stanno trasformando la #privacy dei dati, per come la conosciamo adesso. Quindi sì, una cena con gli amici potrebbe identificarti a distanza di anni di anonimato.
A livello legale, cosa succede?
Negli Stati Uniti le dispute legali sul web scraping si sono concentrate sull'accesso non autorizzato ai sensi del Computer Fraud and Abuse Act (CFAA). Nel caso, ad esempio, di "hiQ Labs vs LinkedIn", è stato stabilito che lo scraping di dati pubblici non viola il CFAA, lasciando tuttavia aperte questioni riguardanti i termini di servizio dei siti web e le limitazioni contrattuali.
In Europa, l'attenzione si è spostata verso le sole violazioni della privacy dei dati. Secondo il GDPR, i dati personali sono protetti indipendentemente dalla loro disponibilità pubblica. L'European Data Protection Board (EDPB) ha sottolineato che l'uso dell'IA per aggregare e analizzare dati raccolti tramite scraping può trasformare la natura di questi dati, portando a modelli che possono ri-identificare individui e prevedere comportamenti, andando oltre il consenso originale degli interessati.
Il concetto chiave qui è che l'IA non si limita a raccogliere dati, ma li trasforma e ne amplifica il valore, con implicazioni sulla privacy.
Ma come, soprattutto, perché?
- dati pubblici ≠ dati anonimi
Quando un'IA raccoglie dati da fonti pubbliche tramite web scraping (ad esempio, profili LinkedIn, post sui social, recensioni online, ..), potrebbe sembrare che quei dati non siano soggetti a particolari tutele perché già accessibili a tutti.
Il GDPR, però, dice il contrario: anche i dati pubblici sono dati personali se identificano direttamente o indirettamente una persona.
- la ri-identificazione
L'IA può incrociare e analizzare enormi quantità di dati provenienti da fonti diverse, il che significa che un singolo dato, come ad esempio un commento anonimo su un forum, potrebbe non identificare una persona. Ma se l'IA lo combina con altri dati, ad esempio con un nome utente, una posizione geografica, uno stile di scrittura (sì, i pattern di riconoscimento esistono da prima della comparsa delle AI), potrebbe essere in grado di ricostruire chi è quella persona.
Questo processo è noto come ri-identificazione, ed è una violazione della privacy poiché le persone non hanno dato il consenso a essere identificate in questo modo.
Facciamo un esempio pratico.
Dovrò presto recarmi a Roma, giusto qualche giorno. Ho un hotel prenotato e, se il pranzo sarà probabilmente con $fauna, per la cena sceglierò un paio di ristoranti che mi ispirano.
La prima cena sarà in un locale del centro, con il cameriere che ci mette troppo a servire le lasagne. Lasagne con i piselli dentro, con poca besciamella e troppa noce moscata! Ma il dolce, il profiterol al cioccolato, sarà sicuramente quello che mi farà alzare da tavola soddisfatta*
La seconda cena, invece, in una fraschetta tipica: con il fiasco sul tavolo, il profumo della porchetta, il pane, i brigidini e la confusione del vicino che si gira e ti offre i fagioli* - che mondo fantastico!
Lascerò anche una recensione all'hotel, pulito, letto tirato a balestra (quante ne insegna Bruno Barbieri), camera insonorizzata, SPA disponibile e un ampio parcheggio. Colazione soddisfacente, con una centrifuga offerta (piccantissima!) e la torta. Buone le marmellate, ma non c'era il pane di segale di alpeggio valdostano*
*vi ricordo che sono diabetica, quindi questa descrizione non rispecchia la mia quotidianità, ma quella dell'utente medio
Torno a casa, in treno, che è sempre in ritardo ma 'sti stronzi hanno cambiato le tempistiche per il rimborso dei ritardi e quindi dopo 60 minuti di attesa nemmeno mi restituiscono i soldi! E dire che il mio Uber è stato veloce e puntuale, e che macchinona!
Per ogni posto ho lasciato una recensione, anonime sul web e con uno username tramite app. Con il mio cellulare. E me ne sono dimenticata.
A questo punto, un'azienda sguinzaglia una AI nel web per analizzare recensioni di ristoranti online. Quando questa AI arriverà ad analizzare le recensioni che ho lasciato, riconoscerà che sono state scritte dallo stesso dispositivo e potrebbe collegarle.
E poi potrebbe pure trovare lo stesso stile di scrittura in un profilo Twitter.
Game, set e forse match.
Adesso devo fare una piccola precisazione, molto generalizzata, sul come le AI possono riconoscere uno stile di scrittura.
Ognuno di noi ha il proprio stile: c'è chi non ama la punteggiatura, chi termina sempre con un punto esclamativo, chi si dilunga, chi non ama i congiuntivi, chi è stringato, chi fa largo uso di certi lemmi, etc etc.
L’AI può riconoscere lo stile con il quale sono state scritte recensioni diverse, utilizzando tecniche differenti, come la stilometria (identificazione della scelta delle parole, della lunghezza delle frasi, punteggiatura, errori gramamticali e di battitura, frequenza e ordine delle parole), il fingerprinting digitale (metadati tecnici, IP, tipo di dispositivo, OS, browser e impostazioni personalizzate, orari di pubblicazione), l'analisi dei modelli di comportamento (velocità di scrittura, movimenti del mouse e/o tap sullo schermo, temi e argomenti trattati) e, naturalmente, il confronto con altre fonti (social network, email e/o login condivisi, commenti su forum, blog, ..).
A questo punto ci sono due ulteriori considerazioni da fare: l'AI, dopo aver identificato e ri-identificato, lavora per prevedere abitudini e comportamenti, utilizzando tutto quello del quale si è nutrita, ovvero quello che noi le abbiamo dato, letteralmente, in pasto:
- può dedurre le nostre preferenze personali: cosa mangiamo (post instagram con descrizione, hashtag #bestseitanfusion, tipologia di cibo, orario dei pasti, spostamenti per andare a pranzo o a cena, opinioni politiche, scelte di quartieri e di negozi, tipologia di servizio di trasporto preferito, ..);
- può prevedere azioni future (se siamo insoddisfatti del lavoro e dei colleghi #maledettolunedì, che cosa ci piace per l'estate, se siamo a rischio finanziario, se spenderemo di più per l'assicurazione sanitaria, ..).
Ma perché è un problema per la privacy?
In fondo, sono cose "note". Sono note se le rendiamo note su un sito o su un forum, ma non abbiamo mai autorizzato un webscraper a pescare dati da fonti indirette. Non abbiamo mai autorizzato la raccolta e l'analisi dei nostri discorsi online per una profilazione non richiesta. La raccolta di dati avviene con uno scopo, ma l'uso non previsto (l'utilizzo per altro senza consenso esplicito) così come la profilazione e la discriminazione (alcuni modelli di AI possono creare discriminazioni basate su caratteristiche personali come etnia, genere, stato di salute, ..) ri-identifica persone anche quando pensano di essere anonime, superando il consenso originale - perché il loro uso finale non era chiaro in partenza.
Proprio per questo il GDPR e l’EDPB chiedono alle aziende di valutare attentamente l’uso dell’AI in relazione ai dati personali, anche se pubblici. Le aziende che utilizzano dati ottenuti tramite web scraping per lo sviluppo di modelli di AI devono:
- valutare la legalità del Trattamento dei Dati: assicurarsi che l'uso dei dati sia conforme al GDPR, anche se i dati sono pubblicamente disponibili;
- implementare misure di protezione: utili per proteggere i dati personali e rispettare i diritti degli interessati;
- rivedere le politiche in materia di privacy: aggiornare tutte le policy interne per riflettere le nuove linee guida dell'EDPB riguardanti l'uso dell'AI e del web scraping
L'integrazione delle intelligenze artificiali e le pratiche di web scraping richiedono un'attenta considerazione delle normative sulla privacy dei dati. Le imprese devono adattare le loro strategie per garantire la conformità e mantenere la fiducia dei consumatori.
Dobbiamo stare attenti a come scriviamo? Sì, se abbiamo dei privacy concerns ad ampio spettro.
Nota del DPO: il mio mondo è popolato da molte creature peculiari. Ciascuna è dotata di speciali superpoteri che ammiro, invidio o temo. Signorina37 ne fa parte e penso che appartenga anche ai mondi di Jorge Luis Borges e di J. K. Rowling, anche se proviene sicuramente dall'universo parallelo creato da Masamune Shirow. Da oggi GarantePiracy non sarà più lo stesso. Gli unicorni esistono, io lo so! Nota alla nota: questo box sarà ignorato dai più, ma alcuni ci passeranno sopra selezionando il testo e scoprendone il contenuto. Altri leggeranno usando strumenti poco diffusi, in modo inatteso. Sono persone temute perché sperimentano con curiosità e ragionano out-of-the-box, le tipiche persone difficili da ingannare, difficili da governare. |