CENTRO ALTI STUDI
PER LA DIFESA
CENTRO MILITARE
DI STUDI STRATEGICI
Gruppo di lavoro 71ª sessione di Studio
dell’Istituto Alti Studi per la Difesa
L’impatto dell’Intelligenza Artificiale (AI-
Artificial Intelligence) sul ciclo di intelligence e
sugli strumenti a disposizione per i pianificatori
militari e le forze dell’ordine.
(Codice AP-CC-01)
Il Centro Militare di Studi Strategici (Ce.Mi.S.S.), costituito nel 1987 e situato presso
Palazzo Salviati a Roma, è diretto da un Generale di Divisione (Direttore), o Ufficiale di
grado equivalente, ed è strutturato su due Dipartimenti (Monitoraggio Strategico -
Ricerche) ed un Ufficio Relazioni Esterne. Le attività sono regolate dal Decreto del
Ministro della Difesa del 21 dicembre 2012.
Il Ce.Mi.S.S. svolge attività di studio e ricerca a carattere strategico-politico-militare, per le
esigenze del Ministero della Difesa, contribuendo allo sviluppo della cultura e della
conoscenza, a favore della collettività nazionale.
Le attività condotte dal Ce.Mi.S.S. sono dirette allo studio di fenomeni di natura politica,
economica, sociale, culturale, militare e dell'effetto dell'introduzione di nuove tecnologie,
ovvero dei fenomeni che determinano apprezzabili cambiamenti dello scenario di
sicurezza. Il livello di analisi è prioritariamente quello strategico.
Per lo svolgimento delle attività di studio e ricerca, il Ce.Mi.S.S. impegna:
a) di personale militare e civile del Ministero della Difesa, in possesso di idonea
esperienza e qualifica professionale, all'uopo assegnato al Centro, anche mediante
distacchi temporanei, sulla base di quanto disposto annualmente dal Capo di Stato
Maggiore dalla Difesa, d'intesa con il Segretario Generale della difesa/Direttore
Nazionale degli Armamenti per l'impiego del personale civile;
b) collaboratori non appartenenti all'amministrazione pubblica, (selezionati in conformità
alle vigenti disposizioni fra gli esperti di comprovata specializzazione).
Per lo sviluppo della cultura e della conoscenza di temi di interesse della Difesa, il
Ce.Mi.S.S. instaura collaborazioni con le Università, gli istituti o Centri di Ricerca, italiani o
esteri e rende pubblici gli studi di maggiore interesse.
Il Ministro della Difesa, sentiti il Capo di Stato Maggiore dalla Difesa, d'intesa con il
Segretario Generale della difesa/Direttore Nazionale degli Armamenti, per gli argomenti di
rispettivo interesse, emana le direttive in merito alle attività di ricerca strategica, stabilendo
le lenee guida per l'attività di analisi e di collaborazione con le istituzioni omologhe e
definendo i temi di studio da assegnare al Ce.Mi.S.S..
I ricercatori sono lasciati completamente liberi di esprimere il proprio pensiero sugli
argomenti trattati, il contenuto degli studi pubblicati riflette esclusivamente il pensiero dei
singoli autori, e non quello del Ministero della Difesa né delle eventuali Istituzioni militari
e/o civili alle quali i Ricercatori stessi appartengono.
(Codice AP-CC-01)
CENTRO ALTI STUDI
PER LA DIFESA
CENTRO MILITARE
DI STUDI STRATEGICI
L’impatto dell’Intelligenza Artificiale (AI-
Artificial Intelligence) sul ciclo di intelligence e
sugli strumenti a disposizione per i pianificatori
militari e le forze dell’ordine
Gruppo di lavoro 71ª sessione di Studio
dell’Istituto Alti Studi per la Difesa
CENTRO ALTI STUDI PER LADIFESA ISTITUTO ALTI STUDI PER LA DIFESA
71ª SESSIONE DI STUDIO IASD
Anno Accademico 2019-2020
LAVORO DI GRUPPO 2ª SEZIONE
A cura di: A cura di: Gen. B. Claudio RAMPONI
Brig. Gen. Abdullah Adan HUSSEIN
Col. Massimiliano BELLADONNA
Col. Davide MARZINOTTO
Col. Timinere Joseph MACKINTOSH
C.V. Paolo DELATO
Col. Michele MINENNA
Col. Pierfrancesco COPPOLA
Col. Khalil Ahmad RAHMANI
Col. Hui ZAO
Gen. B. Giancarlo SCAFURI
Dott.ssa Emilia ZIELLO
Dott. Saverio VALIO
Dott. Massimo DRAGONI
Ing. Andrea ADORNI
Direttore Coadiutore: Gen. B. Giuseppe BRANCATI
L’impatto dell’Intelligenza Artificiale (AI-Artificial Intelligence) sul ciclo di intelligence e sugli strumenti a
disposizione per i pianificatori militari e le forze dell’ordine
L’impatto dell’Intelligenza Artificiale (AI-Artificial Intelligence)
sul ciclo di intelligence e sugli strumenti a disposizione per i
pianificatori militari e le forze dell’ordine.
NOTA DI SALVAGUARDIA
Quanto contenuto in questo volume riflette esclusivamente il pensiero dell’autore, e non
quello del Ministero della Difesa né delle eventuali Istituzioni militari e/o civili alle quali
l’autore stesso appartiene.
NOTE
Le analisi sono sviluppate utilizzando informazioni disponibili su fonti aperte.
Questo volume è stato curato dal Centro Militare di Studi Strategici
Direttore
Gen. D.A. Stefano Vito SALAMIDA
Vice Direttore - Capo Dipartimento Ricerche
Col. c. (li.) s.SM Andrea CARRINO
Progetto grafico
Massimo Bilotta – Roberto Bagnato
AutorI
Gen. B. Claudio RAMPONI, Brig. Gen. Abdullah Adan HUSSEIN, Col. Massimiliano
BELLADONNA, Col. Davide MARZINOTTO, Col. Timinere Joseph MACKINTOSH, C.V.
Paolo DELATO, Col. Michele MINENNA, Col. Pierfrancesco COPPOLA Col. Khalil Ahmad
RAHMANI, Col. Hui ZAO, Gen. B. Giancarlo SCAFURI, Dott.ssa Emilia ZIELLO, Dott.
Saverio VALIO, Dott. Massimo DRAGONI, Ing. Andrea ADORNI
Stampato dalla tipografia del Centro Alti Studi per la Difesa
Centro Militare di Studi Strategici Dipartimento Ricerche
Palazzo Salviati Piazza della Rovere, 83 - 00165 – Roma
tel. 06 4691 3203 - fax 06 6879779 e-mail [email protected]
chiusa a aprlle 2020
ISBN 978-88-31203-42-5
4
INDICE
SOMMARIO ...................................................................................................................................... 5
INTRODUZIONE ............................................................................................................................... 7
1. CONCETTI DI BASE ............................................................................................................... 9
a. Intelligenza Artificiale ............................................................................................................ 9
b. Geospatial Intelligence ........................................................................................................ 11
c. Sfruttamento dei Big Data ................................................................................................... 14
d. Algoritmi di estrazione delle informazioni e algoritmi di Machine Learning ................. 19
2. QUADRO NORMATIVO DI RIFERIMENTO ED IMPLICAZIONI ETICO- SOCIALI ............. 22
a. Normativa Europea .............................................................................................................. 23
b. Normativa nazionale ............................................................................................................ 25
c. Implicazioni etiche ............................................................................................................... 32
d. Implicazioni sociali .............................................................................................................. 32
3. COMPARAZIONE TRA IL CICLO DI INTELLIGENCE ATTUALE E LE MODIFICHE
APPORTABILI ................................................................................................................................ 35
a. Classificazione documentale supervisionata ................................................................... 36
b. Rilevazione dello stile ......................................................................................................... 40
c. Generazione dei Deep Fakes .............................................................................................. 41
d. Analisi dei punti GPS .......................................................................................................... 50
4. VALUTAZIONE DEI PUNTI DI INTERSEZIONE BUSINESS INTELLIGENCE (PIONIERA
NEL SETTORE) ED INTELLIGENZA ARTIFICIALE. .................................................................... 53
a. Business Intelligence – Stato dell’Arte .............................................................................. 54
b. Intelligence Militare – Stato dell’arte .................................................................................. 58
c. Intelligence di Polizia - lo stato dell’arte ............................................................................ 66
d. Punti di intersezione ............................................................................................................ 69
e. Prospettive future ................................................................................................................ 71
5. LE ESPERIENZE ISTITUZIONALI NEL SETTORE ............................................................. 73
a. Progetto UE Copernicus ..................................................................................................... 73
b. Tecniche NATO Intelligence Fusion Center ...................................................................... 73
6. ESPERIENZE INDUSTRIALI NEL SETTORE ...................................................................... 75
a. Programma braINT .............................................................................................................. 75
b. Programma SEonSE (Smart Eyes on the Seas) ................................................................ 86
7. CONCLUSIONI ...................................................................................................................... 92
a. Considerazioani Finali ......................................................................................................... 92
b. Prospettive Future ............................................................................................................... 96
BIBLIOGRAFIA ............................................................................................................................ 100
SITOGRAFIA ................................................................................................................................ 101
NOTA SUL Ce.Mi.S.S. ................................................................................................................. 102
5
SOMMARIO
L’elaborato da sviluppare, assegnato alla 2^ Sezione della 71^ Sessione di Studio dello
IASD, si incentra sull’impatto dell’Intelligenza Artificiale sul ciclo di intelligence e sugli
strumenti a disposizione per i pianificatori militari e le forze dell’ordine.
Un tema ampio, particolarmente suggestivo sotto il profilo della ricerca da condurre e che
con l’ausilio del committente è stata circoscritta alle aree di analisi affrontate nell’elaborato.
Lo studio condotto si è brevemente soffermato sui cenni storici dell’AI, per poi entrare in
dettaglio sull’aspetto del Big Data e del meccanismo di Machine Learning.
Si tratta di ambiti senza dei quali oggi sarebbe pleonastico parlare di AI; l’osservazione da
cui muovono i principi di sviluppo di tecniche di intelligence militari e di polizia si basa sulla
raccolta di dati. Un concetto che assume una dimensione rilevante ai fini della finalità da
conseguire in maniera direttamente proporzionale al numero di osservazioni fatte. Il
concetto che si sottende all’espressione prettamente quantitativa delle osservazioni da
condurre, nel primo capitolo dell’elaborato è ampiamente spiegato attraverso il concetto
del Big Data, peraltro alla base dei successivi sistemi di Machine Learning. Lo studio
condotto ne chiarisce la conseguenzialità e per certi versi la imprescindibilità intrinseca
rispetto all’obiettivo posto alla base dell’analisi condotta: l’impatto sugli strumenti a
disposizione dei pianificatori militari e le forze dell’ordine.
Nel secondo capitolo, l’elaborato offre una visione completa, sotto il profilo giuridico
normativo, sia nazionale sia europeo, dello sviluppo che il dibattito in tema di AI ha avuto
negli ultimi 20 anni. Partendo dall’assunto che si tratta di un concetto relativamente nuovo,
è chiaro che non esiste una perfetta e completa normazione in materia. Lo studio, nel
quadro descritto ne chiarisce il punto di arrivo, di convergenza attuale offrendo uno spunto
di analisi anche sulle prospettive etiche e sociali associate sempre allo sviluppo
dell’Intelligenza Artificiale.
Il terzo e il quarto capitolo dell’elaborato approntato sono, in un certo senso il cuore
dell’analisi condotta. Sono stati affrontati tutti i punti richiesti dal committente, scendendo
ad un’analisi di dettaglio di fenomeni come il Deep Fake, inquadrato e analizzato in base
agli effetti prodotti, così come si è trattato dei metodi e delle tecniche di analisi della
documentazione rilevata.
L’aspetto predominante su cui si è soffermata maggiormente l’attività di approfondimento
condotta ha riguardato l’intelligence militare e quella di polizia. L’elaborato ha affrontato
questi settori con un taglio dedicato all’introduzione e alle modifiche derivate dall’avvento
dell’AI su entrambe. Un punto di analisi che ha inquadrato lo stato dell’arte e tracciato
6
un’ipotesi di sviluppo, peraltro anche concreta dell’impatto e dell’utilità che la AI avrà a
breve nei settori di intelligence citati. Alle indicazioni riportate, si è giunti raccogliendo
l’esperienza di settore, avvalorata anche dalle esperienze concrete, sul campo, dei
frequentatori della Sessione di studio che hanno condiviso, in un circolo virtuoso di
apprendimento modulare, la chiave dell’analisi condotta.
A seguire, nel V e VI capitolo, l’elaborato offre una ricognizione di esperienze, europee e
NATO nel V capitolo e industriali nel VI capitolo, di applicazioni concrete di progetti basati
sullo sviluppo della AI.
Lo studio giunge ad una conclusione rivolta all’azione di comando e direzione, calate nella
realtà dell’Intelligence Militare e di quella di Polizia.
Una conclusione che si ritiene abbia dato risposta alle domande poste dal committente in
tema di collocabilità del ruolo dell’uomo nel loop decisionale moderno, ampiamente
condizionato in senso favorevole della opportunità offerte dall’Intelligenza Artificiale. Un
ruolo che resta attivo, anche se con una funzione differente rispetto al passato, trovandosi
a governare un Deep Lake sconfinato di dati che solo tecniche selettive di analisi possono
trasformare in informazioni utili, preziose per l’attività di intelligence.
La rete, questa ambiente senza confini in cui si gioca la battaglia dell’intelligence, è un
luogo in cui si svolge l’attacco e la difesa, il confronto dinamico tra due forze contrapposte
che si sfidano in una dimensione nuova, quella in cui l’Intelligenza Artificiale può
condizionarne l’esito.
7
INTRODUZIONE
Nel comune parlare, l’Intelligenza Artificiale (a seguire, per ragioni di sintesi abbreviata in
I.A.) impersona il tentativo perpetuo dell’uomo di replicare processi mentali di tipo
cognitivo, in altri supporti.
La filmografica degli anni ottanta ed in buona parte anche la saggistica di quel tempo, forte
degli sviluppi tecnologici legati al mondo del “chip”, ne raccolsero il senso, romanzando
scenari di computer capaci di eguagliare e superare il ragionamento umano e robot, che
sfruttando le capacità proprie di un approccio cognitivo progressivo, giungevano a
“decidere” azioni che in alcuni casi si ripercuotevano sull’uomo stesso che li aveva
concepiti.
L’Intelligenza Artificiale, analizzata nel pensiero filosofico impersona anche la disperata
realizzazione di altre forme di “vita intellettiva” da affiancare all’uomo, per sviluppare quel
mondo relazionale extra-umano, affascinante e misterioso.
L’opera principale del filosofo britannico John Locke, Saggio sull’intelletto umano1,
concepita nel 1960 descrive l’approccio evolutivo dell’human understanding. L’autore
d’oltremanica giunse ad individuare i passi incrementali dello sviluppo intellettuale,
caratterizzandoli principalmente in fasi progressive:
osservazione, coincidente con la raccolta dei dati;
analisi, coincidente lo sviluppo della parte apprenditiva;
elaborazione, coincidente con lo sviluppo del pensiero razionale;
azione, coincidente con il riflesso concreto nell’elaborazione legata ai tre momenti
antecedenti.
Sulla base del processo sviluppato in fasi sequenziali, Locke giunse ad determinare la
chiave di volta della rivoluzione individuata, in sintesi la capacità di basare il percorso di
osservazione e analisi, di tipo deduttivo, su una massa di informazioni, via via crescente.
Lo stesso Locke, traccia un trend di sviluppo dell’intelletto strutturato, scandito da una
osservazione estesa, esperienziale (così la definisce) in parte e cognitivo razionale per
completamento; una metodologica che cresce in misura proporzionale al numero di
osservazioni, di fenomeni osservati e ragionamenti di analisi correlati.
Oggi, il medesimo processo viene ripercorso in ambito I.A., sfruttando la capacita di analisi
estesa, propria del Big Data per avviare relazioni e conclusioni disponibili per ogni settore
di impiego, pubblico o privato, criminale o investigativo.
1 Jhon Locke, Saggio sull’intelletto umano, La Scuola, Brescia, 1966.
8
La capacità di elaborare il metadato è la conferma della bontà del teorema di Locke, sul
quale si basano ancora oggi i modelli di sviluppo dell’Intelligenza Artificiale applicata.
Nell’elaborato predisposto, dopo un inquadramento storico della I.A. e dell’influsso che
sulla stessa hanno avuto i Big Data e i meccanismi di analisi associati, si è proceduto ad
un inquadramento giuridico del contesto di sviluppo ed applicazione della stessa,
passando in rassegna la normativa europea e quella nazionale in materia, con un taglio
rivolto principalmente all’utilizzo pratico della I.A..
A seguire, una dettagliata analisi viene svolta su temi di impiego della Intelligenza
Artificiale in settori di Intelligence militari e di polizia, con una finestra aperta sulle tecniche
di utilizzo della stessa a fini investigativi.
Da ultimo, viene proposto uno snapshot sull’utilizzo dell’Intelligenza Artificiale in alcuni
sistemi industriali, molto utilizzati nel mondo commerciale.
9
1. CONCETTI DI BASE
a. Intelligenza Artificiale
L’Intelligenza Artificiale (I.A.) è un ramo dell’informatica che riguarda
programmazione e progettazione di sistemi sia hardware che software, tali da
dotare le macchine di caratteristiche determinanti che vengono considerate
tipicamente umane, quali, ad esempio, le percezioni visive, spazio-temporali e
decisionali.
Con tale significato, si travalica la mera capacità di calcolo delle macchine e la
conoscenza di dati astratti, per arrivare a comprendere anche altre forme di
intelligenza, quali quelle teorizzate da Howard Gardner2 nel libro Formae mentis.
Nell’opera citata, Gardner ipotizzò l’esistenza di intelligenze multiple, ognuna delle
quali dipendente dalle altre. Seguendo l’approccio multisettoriale, l’autore giunse ad
identificare, oltre all’intelligenza linguistica e a quella logico-matematica già
conosciute, altri cinque tipi di intelligenza:
- spaziale;
- sociale;
- introspettiva;
- musicale;
- corporeo-cinestetica.
L’Intelligenza Artificiale nacque con l’avvento dei computer e la sua data di nascita
viene comunemente fissata come il 1956. Proprio in quell’anno, infatti, si parlò per
la prima volta di Intelligenza Artificiale durante un convegno che si tenne negli Stati
Uniti e che vide la partecipazione di alcuni dei più importanti nomi dell’informatica
dell’epoca.
Negli anni a seguire, università e aziende informatiche, tra cui in particolare l’IBM,
puntarono alla ricerca e allo sviluppo di nuovi programmi e software in grado di
emulare, nelle macchine in cui venivano installati, il pensiero e l’azione tipica degli
esseri umani, almeno in determinati campi e settori.
Fu ideato il LISP, ossia il primo linguaggio di programmazione che per oltre
trent’anni è stato alla base dei software di Intelligenza Artificiale.
Nel tempo, con lo sviluppo di software sempre più sofisticati, emersero anche i primi
limiti dell’Intelligenza Artificiale; una rivoluzione che non riusciva a soddisfare i
2 Howard Garner, Formae Mentis, Saggio sulla pluralità dell’intelligenza, Feltrinelli, 2013.
10
requisiti teorizzati, per quanto riguardava le capacità intuitive e di ragionamento
degli esseri umani.
Una delle maggiori sfide del tempo fu quella di cercare di riprodurre software e
macchine che potessero ragionare e prendere delle decisioni in base all’analisi di
differenti possibilità. Questo approccio evolutivo, imponeva di realizzare dei veri e
propri percorsi semantici machine designed, ossia un linguaggio che permettesse di
programmare le diverse possibilità previste da un ragionamento tipicamente
sviluppato da una mente.
Alla base dell’I.A. vi sono tre parametri che rappresentano i pilastri dell’intelligenza
umana:
- una conoscenza non sterile;
- una coscienza che permetta decisioni non solo secondo la logica;
- una capacità di risolvere problemi in maniera differente, a seconda del contesto
in cui ci si trova.
Un nuovo e fondamentale impulso venne dal campo biologico, con la realizzazione,
nel 1969, di un programma denominato DENDRAL3, sviluppato da studiosi della
Stanford University (California). Il programma era in grado di costruire una molecola
semplice partendo dalle informazioni sulla massa molecolare di un elemento,
ricevute dalla spettrografia di massa. Questo software fu il primo ad utilizzare l’A.I.
nella soluzione di un problema.
Negli anni Ottanta fu ripreso un algoritmo già ideato vent’anni prima, abbandonato a
causa delle carenze dei sistemi di apprendimento sviluppati al tempo, che
permetteva l’apprendimento delle reti neurali. Con tale termine, si intendeva4 «una
macchina costituita da un elevato numero di processori, interconnessi tra loro in
maniera tale da realizzare architetture ad elevato grado di parallelismo» (cit.
Enciclopedia Treccani). Il calcolatore che si veniva a sviluppare, operando su
molteplici elementi semplici (processori) interconnessi in parallelo in modo da
distribuire l’elaborazione in maniera uniforme, rappresentava il punto di
convergenza delle conoscenze del tempo. La caratteristica più tipica di queste reti
era quella di adattare, entro certi limiti, il proprio comportamento al particolare
compito da svolgere, in analogia a quello che accade negli esseri viventi, che sono
in grado di acquisire esperienze attraverso stimolazioni esterne. Le sperimentazioni
che seguirono interessarono sia gli aspetti informatici che quelli psicologici ed uno
3 The DENDRAL Project, The History of Artificial Intelligence, Stanford Uniiversity (CA), 1969. 4 www.treccani.it, ultimo accesso 10 aprile 2020.
11
dei primi risultati fu il Deep Blue, una macchina realizzata di IBM che venne
utilizzata per simulare il gioco degli scacchi e che venne utilizzata nella memorabile
partita giocata con l’allora campione del mondo Kasparov.
In quell’occasione, le prime partite furono vinte dal campione ma, i miglioramenti
apportati al sistema di apprendimento della macchina fecero sì che la situazione si
invertisse a favore di quest’ultima, che vinse i successivi incontri proprio grazie
all’elevato livello di creatività5 raggiunto dal calcolatore.
Negli anni a seguire, l’utilizzo di reti neurali sempre più potenti, accoppiate ad
algoritmi più sofisticati, permisero il miglioramento delle capacità di comportamento
delle macchine. Decisiva in questa evoluzione è stata anche la capacità di utilizzare
un numero sempre maggiore di algoritmi, in grado di contemplare diversi
comportamenti, e quindi decisioni, in base alle differenti stimolazioni ambientali. E’ il
caso, per fare un esempio, dei veicoli a guida autonoma, nati nell’industria aero-
spaziale ed oggi presenti anche nell’industria automobilistica di largo consumo.
In sintesi, quindi, l’evoluzione brevemente tracciata porta a concludere che algoritmi
sempre più sofisticati consentono alle macchine intelligenti sia una conoscenza di
base che una conoscenza allargata, ottenuta grazie all’esperienza acquisita; un
meccanismo molto simile a quello esperenziale tipico dell’approccio conoscitivo
degli esseri umani.
b. Geospatial Intelligence
L'Intelligenza Geospaziale (GEOINT) si può definire come la raccolta, l'analisi e lo
sfruttamento delle immagini e delle informazioni per descrivere, valutare e
rappresentare virtualmente le caratteristiche fisiche e le attività geografiche rilevate
sulla Terra. La raffigurazione sottostante ne fornisce una prima visione d’insieme6:
5 L’IBM definisce con il termine creatività un «added and integrated value, based on a
continuos learning approached». 6 www. commons.wikimedia.org/w/index.php?curid=71099638By, ultimo accesso 10 aprile
2020.
12
Fig 1-1: Raffigurazione del grafico descrittivo della GEOINT7.
L'Intelligenza Geospaziale (GEOINT) riveste un’importanza rilevante e
strategicamente prioritaria per le autorità militari e di polizia, che la utilizzano per la
raccolta di dati relativi ad operazioni di intelligence e di monitoraggio del territorio.
Anche in ambito civile, la GEOINT viene utilizzata dai pianificatori in tutti i settori e a
tutti i livelli, per la raccolta di informazioni e dati utili all’espletamento del proprio
lavoro, in termini di comprensione e sviluppo di risposte.
Scendendo nella descrizione tecnica, la GEOINT è costituita da tre elementi chiave:
- l’intelligenza delle immagini;
- le immagini;
- le informazioni geospaziali.
L’intelligenza delle immagini comprende le informazioni geografiche, tecniche e di
intelligence ottenute mediante l'analisi e l'interpretazione di immagini acquisite.
L'aspetto delle immagini consiste in una presentazione di qualsiasi
caratteristica/oggetto o attività naturale o artificiale rilevata e dei suoi dati di
posizione; infine le informazioni geospaziali consistono nell'acquisizione di dati
7 NGA - Graphic was extracted from http://slideplayer.com/slide/4175372/ of a National
Geospatial-Intelligence Agency (NGA) presentation that was presented to a public forum, Public Domain, ultimo accesso 10 apile 2020.
13
statistici di una ubicazione geografica nota e delle caratteristiche di strutture/confini
naturali e umani rilevati.
La combinazione dei 3 elementi rende GEOINT un potente strumento per i decisori
(decision making tool).
Fig 1-2: I tre elementi di GEOINT.
Passando ad analizzare la modalità di interazione di GEOINT, in prima analisi si
osserva che l’approccio si basa su 4 concetti fondamentali: disciplina, dati, processi
e prodotti. Grazie a questi concetti, le applicazioni di GEOINT comprendono la
pianificazione, la raccolta, l'elaborazione, l'analisi, lo sfruttamento e la diffusione di
informazioni territoriali al fine di acquisire notizie sulla sicurezza nazionale o
sull'ambiente operativo, grazie ad una interconnessione complessa tra diversi tipi di
dati e informazioni complessivamente acquisiti e posti in interconnessione.
La maggior parte dei dati utilizzati per GEOINT provengono da sistemi satellitari
(nazionali o commerciali), sistemi Airbone, sensori, immagini fermo/movimento,
tecnologie attive di rilevamento e sensori geografici. L'uso corretto, l'appropriazione,
14
l'interpretazione e l'analisi garantiscono una produzione rapida e tempestiva di
intelligence per i pianificatori a livelli e sfere diversi.
c. Sfruttamento dei Big Data
Con il termine Big Data si intende l'insieme delle tecniche e dei metodi per l’analisi
di grandi quantità di dati allo scopo di prendere decisioni, fare previsioni, simulazioni
e creare modelli predittivi più o meno complessi.
Analizzare e mettere in relazione dati strutturati e destrutturati, ovvero sempre più
disponibili dalle fonti più disparate, dai social network come dai sistemi IoT (Internet
of Things), consente infatti di offrire ai decisori aziendali la possibilità di compiere
scelte basate su rapporti e dipendenze tra insieme di dati, di fare previsioni,
simulazioni e creare modelli predittivi più o meno complessi.
La maggior parte delle normali attività quotidiane genera dati che possono essere
raccolti, analizzati e venduti a soggetti terzi. Esempi pratici di attività che generano
dati, possono essere: il prelievo di contante, l’utilizzo delle carte di credito, le
ricerche effettuate su Internet, le attività sui social, gli acquisti online o anche
effettuati presso negozi, supermercati, preceduti dall’identificazione attraverso carte
di fedeltà.
Le tecniche ed i metodi utilizzati afferiscono sia al mondo statistico che al mondo
informatico. La raccolta di una tale quantità di dati (caratterizzata da un grande
volume, ma anche da ampia varietà) rende necessario l’utilizzo di metodi analitici e
tecnologie specifiche per essere trattati e permettere che da essi possa essere
estratto valore e conoscenza. In informatica, il significato di Big Data si estende alla
capacità di individuare relazioni tra dati eterogenei, strutturati e non strutturati, con
l’obiettivo di scoprire legami e collegamenti tra fenomeni diversi per poi compiere
previsioni.
McKinsey and Company ha definito il fenomeno come la nuova frontiera
dell’innovazione, della concorrenza e della produttività, definendo i Big Data come
«quel set di dati che non possono essere acquisiti e gestiti dai classici database»8.
All’origine dei Big Data vi sono condizioni fondamentali strettamente legate tra loro:
- l’aumento della disponibilità delle informazioni;
- il miglioramento della capacità di elaborazione e di conservazione dei dati
stessi.
8 Martin Hilbert, “School for Communication and Journalism”, Southern California.
15
L’aumento della disponibilità delle informazioni è la diretta conseguenza di
fenomeni quali la “datizzazione e l’internet of things”.
La datizzazione consente di estrarre e porre in correlazione i dati. Nello specifico,
essa riguarda il processo di conversione in forma quantitativa di un determinato
fenomeno, in modo da poterlo tabulare ed analizzare. Tipico esempio di
datizzazione è quello dei Social Network, in grado di correlare persone, relazioni,
esperienze professionali e, addirittura, sentimenti.
L’Internet of Things consente invece di raccogliere dati sullo stato e sul
funzionamento degli oggetti, ossia dei dispositivi connessi ad Internet, attraverso
particolari sensori posti sugli oggetti stessi che sono in grado di raccogliere e
comunicare dati.
Il miglioramento della capacità di elaborazione e di conservazione dei dati stessi è
connessa alla legge di Moore relativa alla crescita esponenziale della potenza di
calcolo e allo sviluppo dei sistemi di intelligenza artificiale.
I Big Data sono caratterizzati da:
- volume; l’enorme quantità di dati (si parla dell’ordine di terabytes, per ora) non
può essere trattata con i database tradizionali, ma ha necessità di essere
organizzata ed analizzata;
- varietà; dati di diversa origine e natura, raccolti attraverso devices come gli
smartphones, o attraverso transazioni commerciali;
- velocità; l’utilizzo di questi dati presuppone un’alta velocità durante il
trasferimento degli stessi, allo scopo di consentirne una rapida processazione;
- valore; riguarda il processo di individuazione, all’interno di un elevato numero di
dati, di un valore nascosto. A tal fine è fondamentale valutare preliminarmente
la veridicità dei dati.
La raccolta di grandi quantità di dati (Big Data), risponde ad esigenze sia
commerciali che statistiche nonché di ottimizzazione delle attività aziendali.
I Big Data, come accennato in precedenza sono insiemi di dati talmente complessi
e grandi che è impossibile gestirli manualmente o utilizzando le tecniche tradizionali
per la gestione dei database applicativi.
Infatti, i Big Data includono insiemi di dati “troppo” grandi, che cambiano “troppo”
velocemente e per questo non sono gestibili utilizzando le architetture dei database
convenzionali (i cosiddetti OLTP9).
9 OLTP: “Online Transaction Processing”, insieme di tecniche software utilizzate per la
gestione di apllicazioni orientate alle transazioni.
16
Per estrarre il valore da questi dati è necessario quindi trovare una strategia
alternativa ai sistemi tradizionali. Un sistema per la gestione dei Big Data deve
infatti fornire informazioni con un alto valore aggiunto, che non sono disponibili nelle
singole sorgenti di dati, ma che si ottengono solo dall’incrocio delle diverse fonti di
dati e dall’utilizzo di tecniche statistiche da applicare a tali dati.
Le informazioni prodotte devono essere rese disponibili a tutte le funzioni
strategiche dell’organizzazione, includendo: Chief (Cx), Finanza, Marketing,
Vendite. In generale, per massimizzare il valore delle informazioni prodotte, un
sistema performante “high value asset” deve avere le seguenti caratteristiche:
- includere sempre nuove fonti di dati che a loro volta incorporino dati prodotti da:
applicazioni interne all’organizzazione, fonti di dati pubbliche (Social Media),
dispositivi mobili (laptop, cellulari) e servizi che generano dati, per un volume
dei dati raccolti sempre maggiore;
- raccogliere, gestire e memorizzare tutti i dati raccolti; i dati generati devono
essere storicizzati e contestualizzati. La storicizzazione dei dati ne permetterà il
confronto con l’andare del tempo, identificando i trend che li caratterizzano.
L’arricchimento dei dati con etichette che riferiscano il contesto è utile a
determinare correlazioni tra dati altrimenti molto difficilmente rilevabili e ad
identificare eventuali catene di cause ed effetti;
- analizzare i dati con metodi scientifici; allo scopo di arricchire i dati con ulteriori
informazioni e trovare dettagli nascosti “data insight”. Per tale finalità devono
essere utilizzate tecniche statistiche e tecnologie di estrazione di conoscenza
da dati “Knowledge Discovery” quali: modelli analitici predittivi e prescrittivi.
L’obiettivo di tale analisi, praticamente il vero valore aggiunto dello sfruttamento
del Big Data, non è solo quello di comprendere cosa è successo, ma anche e
soprattutto cercare di comprendere come, perché e come è stato determinato
un fatto. Le tecniche di analisi dei dati attualmente disponibili “machine learning,
advanced visualization tool” utilizzate da specifiche figure professionali, quali
Data Scientist, possono supportare gli utenti finali del sistema a scoprire vere e
proprie gemme di informazioni e dettagli non ovvi;
- consegnare velocemente i risultati e le informazioni ottenute a tutti coloro che
possono giovarsene. Ogni tipo di organizzazione (commerciale, industriale,
governativa) può trarre enormi benefici dallo sfruttamento delle informazioni
ottenute da un sistema di Big Data. Ogni funzione all’interno del business, in
base all’effettivo knowledge need (dalla ricerca, alla progettazione, allo sviluppo
17
di prodotti; dal marketing alle vendite, dalla direzione generale ai sistemi di
intelligence) può trarre ausilio dalla strutturazione dei dati che tradizionalmente
vengono gestiti in silos (uno per ogni dominio), collegati tra loro e messi quindi
a disposizione dell’intera organizzazione e a vantaggio di chiunque possa trarne
beneficio.
Le tecniche utilizzate per l’analisi scientifica dei dati si suddividono in categorie:
- Descriptive Analytics; include un insieme di tools che permettono di
rappresentare graficamente specifici insiemi di dati. La rappresentazione grafica
ottenuta permette di identificare specifici fatti, evidenziare specifiche relazioni
tra dati o visualizzare l’andamento di specifici fenomeni (trend di sviluppo o
decadimento);
- Predictive Analytics; si tratta sostanzialmente di strumenti e tecniche di
estrazione di conoscenza da dati al fine di prevedere dei fatti non ancora
accaduti e scenari di sviluppo futuro. Includono le seguenti tecniche: Statistiche
(Regressione, Inferenze), Machine Learning (Pattern Recognition, Neural
Networking) e Data Mining (Alberi di Decisione, Regole Associative e Cluster);
- Prescriptive Analytics; sono strumenti di supporto alle decisioni basate sui
risultati ottenuti dalle Predictive Analysis. Tali tecniche vanno oltre il semplice
modello predittivo e permettono di suggerire nel contesto di uno specifico
scenario (insieme di azioni), le conseguenze per ogni azione analizzata;
- Automated Analytics; sono tools in grado di implementare in modo autonomo
un’azione che viene proposta secondo il risultato delle analisi. Tali tools
vengono principalmente impiegati per mettere in atto il processo cosiddetto di
fast decision-making, che permette di automatizzare non solo l’analisi e
l’identificazione della scelta ottimale, ma anche l’azione ottimale che ne
consegue.
La strategia di sviluppo e gestione di un sistema di Big Data di un’organizzazione
consiste in un piano di azioni che coinvolga tutte le figure che possano dare un
contributo, e che possano essere interessati ai risultati ottenuti (cd. stakeholders).
Come qualsiasi piano strategico bisogna capire a che punto è l’organizzazione,
quali sono gli obiettivi e cosa bisogna fare per ottenere tali obiettivi.
The Forrester Group nel 2017 ha pubblicato un report10 in cui delinea una strategia
di costruzione di un Big Data in passaggi chiave:
10 www.zlhent.com/blog/2017/09/four-steps-to-a-data-management-strategy-in-light-of-big-data,
ultimo accesso 10 aprile 2020.
18
- identificare i Data Stakeholders; il primo passo della strategia consiste nel
definire un gruppo di lavoro che includa tutti gli esperti di dominio tra le
funzioni/divisioni presenti nell’organizzazione. Tale gruppo di lavoro giocherà un
ruolo essenziale nel definire i requisiti del sistema e identificare le responsabilità
nell’organizzazione del lavoro;
- fare un assessment dei reali bisogni; il gruppo di lavoro identificato deve
definire le esigenze, i requisiti e i processi di creazione, trasformazione e uso
dei dati presenti nell’organizzazione;
- identificare gli elementi strategici; una volta comprese le esigenze e raccolte
tutte le informazioni sui dati da utilizzare, bisogna stabilire gli elementi chiave
della strategia da mettere in campo: gli imperativi di business (esigenze ed
obiettivi), gli aspetti tecnologici architetturali, la roadmap implementativa;
- assegnare le priorità agli elementi individuati; compresi gli elementi chiave della
strategia, non resta che definirne le priorità in modo da iniziare un percorso di
trasformazione graduale in grado di generare risultati tangibili anche nel breve
periodo.
Lo scopo finale della strategia di gestione dei Big Data è quello di realizzare una
piattaforma tecnologica e metodologica in grado di soddisfare tutti i requisiti del
business dell’organizzazione (il termine business non è limitato ai soli aspetti
commerciali dell’organizzazione). Si tenga conto che il valore della soluzione messa
in campo non dipende tanto dalla quantità di dati gestiti, ma piuttosto dal valore
reale delle informazioni fornite, dalla velocità con cui le informazioni sono disponibili
e dall’attendibilità dei dati stessi.
Un altro aspetto fondamentale per sfruttare al massimo un sistema di Big Data è
quello relativo all’identificazione e il coinvolgimento delle giuste competenze nella
manipolazione dei dati. In molti casi, la mancanza di figure con competenze
adeguate rimane il principale inibitore allo sviluppo di progetti di Big Data. Uno
studio dell’Osservatorio Big Data Analytics & Business Intelligence della School of
Management del Politecnico di Milano11 ha identificato le principali figure coinvolte
nello sfruttamento dei Big Data. In dettaglio:
- Data Scientist; la figura del Data Scientist ricopre un ruolo chiave nell’analisi dei
dati. I Data Scientist sono esperti in grado di ricavare gli insight da enormi
quantità di dati, strutturati, non strutturati, semistrutturati, allo scopo di ottenere le
giuste informazioni dal sistema. Un Data Scientist deve quindi disporre di
11 www.polimi.it, ultimo accesso 10 aprile 2020.
19
sufficienti competenze in ambito business per tradurre gli obiettivi aziendali in
consegne basate su dati, come per esempio motori di previsione, analisi del
rilevamento dei pattern, algoritmi di ottimizzazione;
- Data Engineer; l’estrazione e la consegna degli insight sono vincolate a una serie
di attività preliminari che consistono nella progettazione dell’infrastruttura e nella
costruzione e manutenzione della data pipeline. Tali operazioni sono
responsabilità del Data Engineer, ruolo di assoluta rilevanza, a lungo
sottovalutato a favore del più popolare Data Scientist;
- Data Analyst; figura che si occupa di ricercare evidenze quantitative all’interno di
grandi moli di dati, supportando in tal mondo le decisioni di business.
d. Algoritmi di estrazione delle informazioni e algoritmi di Machine Learning
Per Machine Learning si intende l’abilità dei computer di apprendere “un qualcosa”
senza essere stato esplicitamente e preventivamente programmato.
Il termine fu usato per la prima volta da uno scienziato americano, Arthur Lee
Samuel nel 1959, anche se il primo ad ipotizzare la necessità di realizzare algoritmi
che permettessero alle macchine di diventare “intelligenti”, fu Alan Turing12.
Il Machine Learning permette ai computer di imparare dall’esperienza (sempre
riferito ad un programma informatico); grazie a quest’ultima, le prestazioni del
programma migliorano dopo lo svolgimento o il completamento di un’azione. Per far
ciò, al programma vengono forniti dei set di dati che, elaborati attraverso appositi
algoritmi, sviluppano una propria logica e svolgono la funzione, l’attività o il compito
che gli è stato richiesto.
Arthur Samuel individuò due distinti approcci che consentono di suddividere
l’apprendimento automatico in due sottocategorie, a seconda del fatto che si diano
al computer esempi completi da utilizzare nell’esecuzione del compito richiesto
(apprendimento supervisionato) oppure che si lasci lavorare il software senza alcun
“aiuto” (apprendimento non supervisionato).
1) Machine Learning con apprendimento supervisionato “Supervised Learning”. In questa categoria di Machine Learning, al computer vengono immessi sia dei
set di dati, come esempio di input sia le informazioni relative ai risultati
desiderati, come esempi di output, lasciando che il sistema identifichi una
12 www.wikipedia.org, ultimo accesso 10 aprile 2020; Alan Turing, matematico, logico,
crittografo e filosofo britannico considerato uno dei padri dell’Intelligenza Artificiale.
20
regola generale per collegare i dati in ingresso con quelli in uscita. Compiti simili
saranno poi svolti utilizzando la stessa regola. Questa metodica lascia che il
lavoro di risoluzione venga sviluppato dalla macchina, come affermato da A.
Geitgey13: «Nell’apprendimento supervisionato il lavoro di risoluzione viene
lasciato al computer. Una volta compresa la funzione matematica che ha
portato a risolvere uno specifico insieme di problemi, sarà possibile riutilizzare
la funzione per rispondere a qualsiasi altro problema similare».
2) Machine Learning con apprendimento non supervisionato “Unsupervised Learning”. In questa categoria di Machine Learning i computer vengono lasciati lavorare
da soli nello svolgimento del lavoro richiesto.
A queste due sottocategorie di Machine Learning se ne sono aggiunte altre,
sviluppatesi nel tempo tenendo conto dell’evoluzione che gli studi e le ricerche
scientifiche via via andavano offrendo. Tra quelle, si riportano:
- Machine Learning con apprendimento per rinforzo;
- Machine Learning con apprendimento semi-supervisionato.
L’apprendimento per rinforzo prevede che la macchina sia dotata di sistemi e
strumenti in grado di migliorare il proprio apprendimento e soprattutto, di
comprendere le caratteristiche dell’ambiente circostante. In questo caso, quindi,
alla macchina viene fornita tutta una serie di supporti, quali sensori, telecamere
e GPS che le consentono la rilevazione dell’ambiente circostante e
l’effettuazione delle scelte migliori per consentire un adeguato adattamento
all’ambiente stesso. Questo modello di apprendimento è tipico delle auto senza
pilota che, grazie a un complesso sistema di sensori di supporto, sono in grado
di percorrere strade riconoscendo eventuali ostacoli, seguendo le indicazioni
stradali o di un computer che impara a battere un avversario in un gioco,
concentrando gli sforzi sullo svolgimento di un determinato compito.
L’apprendimento semi-supervisionato è un modello “ibrido”, dove al computer
vengono forniti dati incompleti per l’allenamento/apprendimento; alcuni di questi
input sono “dotati” dei rispettivi esempi di output (come nell’apprendimento
supervisionato), altri invece ne sono privi (come nell’apprendimento non
supervisionato). L’obiettivo è sempre lo stesso: identificare regole e funzioni per
13 www.ai4business.it, ultimo accesso 10 aprile 2020;
21
la risoluzione dei problemi, nonché modelli e strutture di dati utili a raggiungere
determinati risultati.
Le applicazioni pratiche di Machine Learning sono molto numerose, alcune delle
quali anche di utilizzo quotidiano, ad esempio:
- motori di ricerca; attraverso l’immissione di una o più parole chiave, questi
motori forniscono liste di risultati (le cosiddette SERP – Search Engine Results
Page) che sono l’effetto di algoritmi di Machine Learning con apprendimento
non supervisionato (forniscono come output informazioni ritenute attinenti alla
ricerca effettuata in base all’analisi di schemi, modelli, strutture nei dati);
- filtri anti-spam14; strutturati su sistemi di Machine Learning che apprendono sia
ad intercettare messaggi di posta elettronica sospetti o fraudolenti sia ad agire
di conseguenza (per esempio eliminandoli prima della loro distribuzione alle
caselle dei destinatari). Sistemi di questo tipo, anche se con sofisticazioni
maggiori, possono essere utilizzati per la prevenzione delle frodi (come la
clonazione della carta di credito), e per contrastare furti di dati e identità.
Nelle elencazioni pratiche indicate, gli algoritmi imparano ad agire correlando
eventi, abitudini degli utenti, preferenze di spesa. Un complesso di informazioni
che servono poi per confrontarle con eventi successivi, riferiti sempre al singolo
utente per identificarne in real-time eventuali comportamenti ricorrenti e/o
anomali che potrebbero rappresentare un’abitudine commercialmente
valorizzabile oppure un furto od una frode.
- ricerca scientifica in campo medico; gli algoritmi imparano a fare previsioni
sempre più accurate per effettuare diagnosi di tumori o malattie rare in modo
accurato e tempestivo o per prevenire epidemie.
- riconoscimento vocale e identificazione della scrittura manuale; rappresentano
ulteriori esempi di Machine learning con apprendimento supervisionato, già oggi
particolarmente diffusi.
14 Elementi molto diffusi nei sistemi e-mail based.
22
2. QUADRO NORMATIVO DI RIFERIMENTO ED IMPLICAZIONI ETICO-
SOCIALI
Qualsiasi rapporto intercorrente tra soggetti, persone fisiche ovvero persone
giuridiche, necessita di essere inquadrato giuridicamente, al fine di garantire che tali
rapporti siano condotti nel rispetto, reciproco, dei valori e degli interessi in gioco.
La rilevanza dei valori e degli interessi, privati ovvero pubblici, guida l’interazione tra
questi ultimi.
Il Diritto, con la maiuscola, è lo strumento necessario perché l’Uomo conduca
correttamente il proprio vivere in qualsivoglia consesso civile. Concretamente, svolge
funzione di garanzia affinché nessuno travalichi i principi etici e morali posti alla base
della civile convivenza.
La rilevanza della IA nel Diritto, è fortemente sentita. Prova ne sia il proliferare di
provvedimenti normativi e regolamentari da parte degli Stati singoli ovvero delle Unioni
di Stati e finanche da parte di privati. La stessa assume dimensioni importantissime in
termini economici, come è facile comprendere, attesa la incidenza della industria
tecnologica e del suo sviluppo, relativamente alla vita sociale.
Recentissimamente, l’anno 2018 è assunto come momento temporale di partenza
dello studio delle questioni relative alla IA in termini di Diritto, si registrano iniziative
nazionali, europee ed extraeuropee che per la prima volta si devono porre la
questione di poter e dover regolamentare, a fini di garanzia, il tema dell'IA e della sua
incidenza in termini.
Il tema della IA è quindi di recentissimo sviluppo ed in termini giuridici coinvolge ogni
soggetto, finanche privato (a titolo esemplificativo, Google) per la spinta della
incidenza stessa della IA sulla vita sociale ed economica, tanto da far sorgere un
bisogno fortissimo di regole comuni a tutela e difesa dei diritti di ognuno.
Esempi ne sono gli interventi della UE ( 2019) che ha fissato le «Linee guida etiche
sulla Intelligenza Artificiale15», di Google ( 2018) negli Stati Uniti d’America che ha
pubblicato i propri principi etici di intelligenza artificiale16, e della Cina (2019) con il
proprio documento «Consenso dell’intelligenza artificiale di Pechino17», dell’ONU
(2017) con la piattaforma informatica «AI for Good» e del Future of Live Institute
(2017) che ne ha prodotto un vademecum, cosiddetto «Principi di Asilomar» per
citarne alcuni.
15 www.ec.europa.eu, ultimo accesso 10 aprile 2020. 16 www.google.com, ultimo accesso 10 aprile 2020. 17 www.agi,ut, ultimo accesso 10 aprile 2020.
23
Il concetto è affrontato da esperti quali informatici, ingegneri, giuristi, filosofi, industriali
e matematici.
Non stupisce l’intervento di filosofi nel tema, atteso che vi è una domanda alla quale,
la Filosofia, tenta di rispondere: “Può una macchina pensare?”
Dibattito aperto a causa di argomentazioni a favore (Daniel Dennett, Hilary Putnam,
Roger Penrose) e contro (Hubert Dreyfus, Gerald Edelman, Jerry Fodor).
a. Normativa Europea
L’Unione Europea (UE) ha posto alla base della propria azione l’assioma che gli
Stati sono garanti della vita sociale, politica ed economica dei propri cittadini ed ha
stabilito che l’impiego dell’Intelligenza Artificiale deve avvenire nel massimo rispetto
dell’etica.
Nell’aprile del 2019, ha adottato un documento, nato dallo studio di un team di 52
esperti, quali esperti di diritto (magistrati, docenti universitari, avvocati), informatici,
ingegneri, filosofi, imprenditori dell’industria tecnologica, e non solo, e matematici. Il
documento, che ha avuto un iter lungo e diversi momenti di studio ed
approfondimento, è stato assunto in un testo unico, un “Codice Etico”, che contiene
le linee guida sull’utilizzo e lo sviluppo di sistemi di Intelligenza Artificiale.
Il documento è conosciuto come «Linee guida etiche sull’Intelligenza Artificiale» ed
è il frutto del lavoro di quel team di esperti della Commissione Europea, organo
dell’UE, e contiene i requisiti necessari e fondamentali per una I.A. a misura
d’uomo, puntando l’attenzione sulla sicurezza e la riservatezza dei dati e del
materiale informatico, affinché il loro utilizzo ed impiego sia affidabile e garantito in
termini di diritto.
Il documento, i suoi principi etici e giuridici ispiratori, evidenzia come l’Intelligenza
Artificiale ponga l’Uomo al centro e debba essere al servizio del bene comune, per
migliorare il benessere e garantire la libertà.
Il lavoro del team di esperti ha posto le fondamenta giuridiche sulle quali il codice
poggia trovando quali principi fondanti i Trattati UE, la Carta dei Diritti Umani e la
legge Internazionale dei Diritti Umani.
Partendo da questi assunti inderogabili ha individuato i diritti che, nell’Unione
Europea, devono essere rispettati per il giusto ed adeguato utilizzo e sviluppo
dell’Intelligenza Artificiale, codificando le linee guida del documento.
In sintesi sono:
- rispetto per la dignità dell’uomo;
24
- libertà dell’individuo;
- rispetto per la democrazia e per la giustizia;
- eguaglianza e non discriminazione;
- diritti dei cittadini.
Posto ciò, sono state date puntuali indicazioni sui principi etici fondanti la
interazione uomo\macchina, da seguire al fine di garantire che i sistemi informatici
ed industriali, pubblici o privati, della P.A. ovvero dell’industria, siano utilizzati in
maniera adeguata ed affidabile, con l’obbiettivo (forse meglio con una sola b) di
garantire il rispetto per l’autonomia dell’uomo, la prevenzione e la tutela del danno,
l’equità e la correttezza.
Ne sono appunto scaturite puntuali indicazioni cui i cittadini e le comunità (intese
come gli Stati e le pubbliche amministrazioni) sono chiamati a rispettare e che
rappresentano le modalità operative concrete a cui fare riferimento.
Tornando al Codice Etico, le linee guida, che ne costituiscono l’output filosofico-
operativo principale, individuano in una serie di fattori portanti che nell’ambito
dell’analisi in corso è opportuno elencare. In particolare:
- supervisione umana; l'Intelligenza Artificiale deve essere al servizio dell’uomo e
non deve invece ridurne, limitarne o fuorviarne l’autonomia, inoltre, non devono
essere sviluppati sistemi che mettano a rischio i diritti fondamentali dell’uomo.
La persona deve restare autonoma e in grado di supervisionare il sistema
stesso;
- solidità tecnica e sicurezza; gli algoritmi devono essere affidabili e sviluppati in
modo tale che la sicurezza non venga messa in pericolo durante l’intero ciclo di
vita del sistema;
- privacy e governance dei dati; i cittadini devono sempre essere informati
dell’utilizzo dei propri dati personali nel massimo rispetto della normativa UE
sulla riservatezza (cosiddetto GDPR18) per l’intero ciclo di vita del sistema che
fa uso dell’Intelligenza Artificiale;
- trasparenza; trasparenza significa tracciabilità dei sistemi di Intelligenza
Artificiale. Tutti i dati utilizzati, inclusi gli algoritmi, vanno documentati, solo così
si potranno capire i motivi per cui, ad esempio, una decisione basata
sull’Intelligenza Artificiale è stata presa in modo errato ovvero, invece,
correttamente;
18 www.europa.eu, utlimo accesso 10 aprile 2020.
25
- diversità, assenza di discriminazione, correttezza; i sistemi di Intelligenza
Artificiale devono prendere in considerazione tutte le capacità e le abilità
umane, garantendo l’accessibilità a tutti;
- benessere sociale e ambientale; i sistemi di Intelligenza Artificiale devono
essere utilizzati per sostenere cambiamenti ambientali positivi e perseguire
obiettivi di sviluppo sostenibile;
- responsabilità; devono essere adottati meccanismi di responsabilità nel
riportare i dati e gli algoritmi utilizzati nei sistemi di Intelligenza Artificiale.
Questo processo di valutazione consente di minimizzare eventuali impatti
negativi.
b. Normativa nazionale
Il riferimento per il nostro Paese è sempre la Costituzione, partendo dalla quale si
rilevano i principi a cui si rimanda. A nulla vale l’attualità del tema: la nostra
Costituzione fissa i principi sia in termini etici che sociali che governano la vita
dell’Italia.
Premesso ciò, l’argomento in esame ha dato lo stimolo a diverse riflessioni da parte
di giuristi e professionisti del Diritto (magistrati, avvocati, docenti universitari) che si
danno reciprocamente lo spunto per approfondimenti e studi.
Carlo Casonato, nel suo lavoro datato 13 gennaio 202019, testualmente riporta che:
«…Nulla, al momento della scrittura della Costituzione repubblicana, poteva far
intuire gli sviluppi scientifici e tecnologici che hanno portato all’intelligenza artificiale
(d’ora in poi AI). Tuttavia, come peraltro già accaduto in tanti altri ambiti, la capacità
adattiva dei principi contenuti nella Carta ne permette una efficace applicazione
anche nei confronti di tale innovativo settore.».
Infatti l’AI impatta sul lavoro (artt. 1 e 4 cost.), sull’ eguaglianza (art. 3) e
riprendendo ancora le espressioni di Casonato: «Le tecniche di AI possono essere
utilmente impiegate per superare diseguaglianze di fatto e di diritto, ma possono
anche nascondere gravi forme di discriminazione.», sulla salute (art.32)
«Nell’ambito della salute, la AI può essere efficacemente impiegata allo scopo di
migliorare le tecniche di intervento piuttosto che a quello di permettere ad ognuno di
sviluppare le proprie capacità, superando disabilità e svantaggi di diverso genere.»
e giustizia (art. 111) «Nell’ambito della giustizia, in prospettiva equivalente, si sono
19 www.giurcost.org, Carco Casonato, Costituzione e Intelligenza Artificiale, ultimo accesso 10
aprile 2020.
26
proposte e talvolta impiegate tecniche di decisione assistite o addirittura affidate alla
AI…» e conclude il suo lavoro con queste riflessioni «La Costituzione italiana affida
alla Repubblica il compito di promuovere la ricerca scientifica e tecnica (art. 9),
ricordando come la scienza debba procedere in un regime di libertà (art. 33). Le sue
applicazioni, quando siano fatte proprie dall’iniziative economica privata?, non
possono tuttavia contrastare l’utilità sociale né recare danno alla sicurezza, alla
libertà e alla dignità umana. Che sia in mano privata o pubblica, inoltre, l’attività
economica può essere indirizzata e coordinata a fini sociali (art. 41). Tali principi
possono costituire un efficace cornice entro cui inserire una regolamentazione della
AI costituzionalmente orientata, che la indirizzi verso scopi di progresso scientifico,
economico e sociale, oltre che di generale benessere. Per raggiungere tale
risultato, tuttavia, è necessario che la riflessione etica e giuridica e che la
costruzione di una disciplina adeguata procedano in tempi rapidi, di pari passo con
la velocità dei progressi scientifici. È essenziale, infatti, che il diritto non insegua le
applicazioni della AI, ma che intervenga a monte, ponendo principi e regole by
design–per così dire. Tale esigenza è presente a molti ricercatori che hanno
indicato come la AI possa trovare una legittimazione complessiva solo a condizione
di un suo utilizzo adeguatamente disciplinato; e sulla stessa linea, si sono mosse
alcune delle società che maggiormente fanno ricerca e impiegano tale tecnologia.».
Sullo stesso filone, il Presidente del Consiglio di Stato Filippo Patroni Griffi così si
esprime sul tema della IA: «Utile, usiamola ma con criterio».
Tale intervento lo ritroviamo in un articolo recentissimo della nota azienda Tiscali
che nelle sue news del 6 febbraio 202020 cosi riporta:
“L’intelligenza artificiale fa il suo debutto in una cerimonia dell’anno giudiziario, uno
dei riti più antichi, e a volte anche più ripetitivi, nel calendario degli appuntamenti
istituzionali. Robot e giustizia possono sembrare un ossimoro, un algoritmo
applicato a quanto di più variabile ci possa essere come i comportamenti umani e il
diritto che li deve governare. Sono invece una realtà con cui gli addetti ai lavori
stanno facendo i conti da qualche anno, con successo, anche in Italia. Interessante
in tempi in cui la politica non sa trovare la quadra a un tema come la prescrizione e
ad un problema come l’arretrato dei ribunali penali e civili. Algoritmi e giustizi, ieri
mattina, ha voluto dedicare una specifica raccomandazione a questo. Il Presidente
del Consiglio di Stato Filippo Patroni Griffi ha riconosciuto “la generale ammissibilità
e utilità dell’algoritmo nell’ azione amministrativa, anche discrezionale” ma ha
20 www.tiscali.it, ultimo accesso 10 aprile 2020.
27
sollecitato che “l’applicazione dell’intelligenza artificiale all’ attività amministrativa
preveda una paziente opera di adattamento delle tradizionali forme e categorie
giuridiche”. È necessario cioè assicurare «quali elementi di minima garanzia, la
piena conoscibilità a monte del modulo utilizzato e dei criteri applicati, l’imputabilità
della decisione all’organo titolare del potere, il quale deve poter svolgere la
necessaria verifica di logicità e legittimità della scelta e degli esiti affidati all’
algoritmo, e la verifica e la sindacabilità in sede giurisdizionale dei dati immessi e
dei criteri utilizzati». Insomma, usiamo pure l’algoritmo nei processi, in questo caso
amministrativi (ampio l’uso anche in materia civile), però ci deve sempre essere la
piena consapevolezza e responsabilità dell’individuo e dei dati usati. Chissà se il
premier Giuseppe Conte e il ministro della Giustizia Alfonso Bonafede, seduti in
prima fila, hanno preso spunto per risolvere qualche bega di governo che rischia di
far saltare il tavolo del Conte 2. Il Presidente della Repubblica ha ascoltato attento.
“In difesa dei cittadini” Da qualche anno la cerimonia nell’ austero ed elegante
palazzo Spada, sede del Consiglio di Stato, organo di rilievo costituzionale e sede
suprema della giustizia amministrativa ha smesso l’ abito del rito antico e polveroso
e si è adeguata a rappresentare quello che è la giustizia amministrativa: non più
solo un centro di potere dove il diritto diventa in fretta burocrazia fino a fermare la
vita dei cittadini e delle imprese, degli enti locali e delle grandi società ma anche un
organismo a difesa dei cittadini e dei consumatori. C’è stato un tempo, non troppo
lontano, in cui in nome della disintermediazione qualcuno aveva ipotizzato
l’abolizione dei Tar. «Datemi un ricorso al Tar e fermerò il mondo» è stato uno dei
detti più ricorrenti nelle cronache. In effetti un ricorso al Tar e il successivo
passaggio al Consiglio di Stato possono bloccare cantieri, concorsi pubblici,
nomine, assunzioni. Una sorte di ombelico del mondo senza via d’ uscita. Negli
ultimi anni – aveva cominciato l’ex presidente Antonio Pajno, prosegue a passo
spedito Patroni Griffi – palazzo Spada è diventato un luogo a cui guardare per
vedere come e se può cambiare, nel senso di migliorare, il Paese. Le Corti
amministrative nazionali ha rivendicato il Presidente «sono vicine ai cittadini e alle
persone che interagiscono direttamente con le istituzioni pubbliche e che alle Corti
si rivolgono per richiedere tutela; cittadini che chiedono la difesa della loro sfera
individuale e che reclamano servizi pubblici effettivi». Sul punto degli arretrati,
l’efficienza si misura soprattutto con i tempi. Nel 2019 Palazzo Spada ha ridotto
l’arretrato dell’8 per cento. L’ anno prima il taglio era stato del 2 per cento. Fa
impressione la storica dal 2015 a oggi: i fascicoli pendenti davanti al Consiglio di
28
Stato sono passati da 26.381 (2015) a 24.039 (2019); le pendenze davanti ai Tar
regionali sono passate da 241.865 (2015) a 149.958 (2019), centomila fascicoli in
meno. Una riduzione dovuta all’ arrivo di nuovi magistrati, personale amministrativo,
nuove sezioni. Risorse e personale, una ricetta antica. Ma anche a nuovi metodi
organizzativi e all’ intelligenza artificiale, all’ utilizzo di algoritmi per stilare
statistiche, serie storiche, precedenti, verifiche indispensabili per arrivare a
sentenza. «Il buon funzionamento corrente della giustizia amministrativa richiede il
progressivo ma deciso abbattimento dell’arretrato e una macchina amministrativa di
servizio adeguata facente capo al Segretariato generale» ha sottolineato Patroni
Griffi. «Non più consigliere del Re» I tempi. E i contenuti. Perché sempre di più il
Consiglio di Stato è diventato negli ultimi anni una sorta di organo di consulenza del
Parlamento, dei consumatori, quindi dei cittadini, e delle varie Authority. La
promozione a pieni voti arriva da una delle associazioni più esigenti e severe con la
pubblica amministrazione, il Codacons. «Il Consiglio di Stato da consigliere del Re è
passato ad essere l’organo giudiziario più vicino ai cittadini», ha commentato ieri il
presidente Carlo Rienzi a palazzo Spada. Una prima volta assoluta. Così come
aver lasciato il podio, durante le avvocature, all’Avvocatura di stato e al Consiglio
nazionale forense, un’apertura di sistema voluta da Patroni Griffi che ha lavorato
per mettere in rete le varie competenze, per farle dialogare l’una con l’altra per
fornire il servizio necessario ai cittadini. «Più la crisi si fa profonda e più cresce la
richiesta di tutele» ha detto Patroni Griffi. Il quadro in cui i giudici si muovono «è
variegato e frammentato. Vi si agitano questioni di equilibrio tra i poteri dello Stato e
tra istituzioni di governo e di garanzia, l’emersione di nuove istanze di tutela dai
poteri pubblici o di nuove pretese nei loro confronti, l’esigenza che la politica si
riappropri del suo ruolo e l’amministrazione della responsabilità delle proprie scelte,
lo sviluppo di un diritto giurisprudenziale che espone all’ incertezza insita nell’
opinabilità e nella varietà delle decisioni giudiziarie». Xylella, bollette e altre
sentenze dunque, un sistema in crisi dove i cittadini pretendono maggiori tutele, che
sono iniziate ad arrivare nel 2019 grazie ad alcune sentenze. Su temi come la
qualità della vita e l’ambiente è stato seguito il principio di precauzione contenuto
nel Trattato sul funzionamento dell’Unione europea, che in sostanza obbliga le
autorità ad agire preventivamente. Un principio, ha spiegato Patroni Griffi, che
«obbliga le autorità ad adottare provvedimenti appropriati al fine di scongiurare i
rischi potenziali per la sanità pubblica, per la sicurezza e per l’ambiente, senza
dover attendere che siano pienamente dimostrate l’effettiva esistenza e la gravità di
29
tali rischi e prima che subentrino più avanzate e risolutive tecniche di contrasto».
Tra le decisioni prese c’è l’affermazione dell’obbligo di bonifica dei siti inquinati in
capo ad un soggetto direttamente responsabile dell’inquinamento; le azioni di
contrasto contro la Xylella (che ha colpito gli ulivi in Puglia); la giusta via di mezzo
tra precauzione e prevenzione relativamente ad una gara per l’acquisto di un
vaccino. Maggiori tutele ai cittadini/consumatori sono arrivate anche da almeno due
sentenze relative al mercato delle comunicazioni. La prima è quella relativa alla
scelta delle compagnie telefoniche di portare la fatturazione a 28 giorni,
meccanismo che, nei fatti, andava a creare un aumento dei ricavi (e quindi dei costi
per i consumatori). La seconda è quella relativa allo ius variandi del gestore
telefonico nei contratti di tariffazione a consumo per cui gli operatori telefonici non
possono decidere variazioni unilaterali delle condizioni economiche. «La tutela delle
posizioni giuridiche degli utenti e dei consumatori emerge attraverso il sindacato
sugli atti delle autorità indipendenti, che sanzionano le pratiche commerciali
scorrette degli operatori professionali» ha ricordato il Presidente. Il Codacons,
presente alla cerimonia, ha sottolineato come proprio ieri «il Consiglio di Stato ha
depositato le motivazioni della sentenza con cui dà il via libera ai rimborsi
automatici in favore degli utenti coinvolti nelle illegittime bollette a 28 giorni. Grazie
a questa decisione milioni di utenti potranno ora, attraverso il sito del Codacons,
delegare l’associazione a chiedere alle compagnie telefoniche l’indennizzo loro
spettante». “Sinergia contro la paura” Per la prima volta hanno preso la parola le
avvocature. Una scelta per favorire quel sistema che è stato il filo conduttore
dell’intervento di Patroni Griffi. Andrea Mascherin, presidente del Consiglio
nazionale forense, ha chiesto che soprattutto in questa fase storica è necessario
vincere la paura e cercare la sinergia. E poi, guardando Conte e magari Bonafede lì
vicino, sperando soprattutto nella vigilanza del Capo dello Stato, Mascherin ha
chiesto lo stop de «l’alluvione di norme inutili, quando non dannose», ad esempio la
prescrizione difesa con i denti dal ministro, un freno alla «legislazione caotica,
confusa e confondente» che sembra presupporre «sfiducia e sospetto» dello Stato
verso il cittadino, controllato anche «attraverso un’asfissiante burocrazia». Tutela
dei consumatori e trasparenza delle amministrazioni. Se comincia l’amministrazione
dello Stato, forse poi seguirà anche la politica.».
Altro autore che si è cimentato nello studio dell’argomento con cognizione di causa,
vista la sua professione di avvocato, è Claudia Morelli che in un suo articolo del
30
9\12\201921, riporta gli sforzi di un Gruppo di lavoro coordinato da Alessandro Pajno
(componenti Marco Bassini, Giovanni De Gregorio, Marco Macchia, Francesco
Paolo Patti, Oreste Pollicino, Serena Quattrocolo, Dario Simeoli, e Pietro Sirena),
che ha avanzato alcune conclusioni sui principi, gli istituti e le norme che
dovrebbero venire in campo nella regolazione delle applicazioni di AI nel settore
pubblico/giuridico. Di certo è che il gruppo di lavoro ha realizzato il primo lavoro in
Italia che tenta la costruzione di un “diritto dell’architettura” della Intelligenza
artificiale, ispirandosi a quanto teorizzato da Lessing riguardo ad Internet (il codice
è la legge; nel senso che i code è il contenitore finale di elementi diversi quali: il
diritto, il design, le norme sociali, la regole di mercato) e nel contempo avvertendo
che in fatto di AI siamo molto lontani da un eco-sistema compiuto e, perciò,
regolamentabile secondo la tradizione giuridica “formalistica”.
«Questa settimana propongo una lettura per “giuristi”, che ho trovato molto utile per
scendere a fondo delle implicazioni e dell’impatto che sistemi di intelligenza
artificiale possono produrre nei canali democratici dell’ordinamento, dal rapporto
cittadini-pubblica amministrazione fino a quello delle parti nel processo tech. Il
lavoro che vi sottopongo, lo Statuto etico e giuridico dell’Intelligenza artificiale,
promosso dalla Fondazione Leonardo Civiltà delle Macchine22, non si limita a
fare un’analisi di impatto, ma prova a offrire proposte per impedire (o cercare di) le
torsioni nel sistema delle garanzie per come lo abbiamo conosciuto alla luce
dell’impatto della AI.
Queste proposte sono attagliate alal specifica situazione italiana ma con sguardo
comunitario e, secondo me, vale molto leggerle per poter avviare un dibattito ampio
su come l’ordinamento debba aggiornarsi alla luce delle nuove tecnologie pur non
rinunciando all’obiettivo della tutela dei diritti.
L’articolo che segue è la sintesi del capitolo Principi giuridici per l’AI, che è parte
dello Statuto etico e giuridico della AI, promosso da Fondazione Leonardo Civiltà
delle Macchine.
Alla redazione dello Statuto hanno lavorato tre diversi gruppi di lavoro: il primo sui
principi tecnologici, coordinato da Maria Chiara Carrozza; il secondo dedicato ai
principi etici, coordinato da Stefano Quintarelli; il terzo dedicato ai principi giuridici,
coordinato da Alessandro Pajno. Nell’articolo ci soffermeremo sul terzo.».
21 www.4clegal.com, ultimo accesso 10 aprile 2020. 22 www.fondazioneleonardo-cdm.com, ultimo accesso 10 aprile 2020.
31
32
c. Implicazioni etiche
Il tema delle implicazioni etiche va riferito a quanto già introdotto: l’AI incide in
maniera significativa sui comportamenti e sulle azioni degli uomini, soprattutto in
quanto appartenenti ad un dato consesso sociale e civile.
Proprio per il suo impiego, l’AI ha un impatto e delle implicazioni così rilevanti e non
può prescindere anche dalla disamina dei profili etici connessi al funzionamento di
algoritmi riferibili a procedimenti decisionali automatizzati.
«Le intelligenze artificiali del futuro» riporta il Post23, «saranno costruite in modo da
raggiungere uno specifico obiettivo e potrà darsi che nel portare a termine il loro
compito si trovino davanti a una scelta, anche piccola: per avere la sicurezza che
non commettano errori, i loro programmatori dovranno prendere in considerazioni
tutte le possibili implicazioni di una data scelta in un dato contesto e così prevedere
possibili casi in cui le macchine potrebbero comportarsi in modo sbagliato dal punto
di vista etico».
Al fianco di tali implicazioni, una preoccupazione importante riguarda le possibili
ripercussioni sulla dignità umana e sul principio di non-discriminazione. Si pensi a
quando, nel 2015 il sistema di riconoscimento immagini di Google riconosceva
alcune persone di colore catalogandole come “gorilla”, oppure al funzionamento di
alcuni processi applicati nelle aziende inerenti alla fase di selezione del personale.
Sulla base di queste considerazioni si rivela essenziale collocare l’intelligenza
artificiale in una dimensione etica, che non possa prescindere dal rispetto dei diritti
fondamentali delle persone, mirando a rafforzare le loro capacità e non anche a
sostituirsi agli stessi.
d. Implicazioni sociali
Antonio Spadaro e Paul Twomey in un loro articolo del 18 gennaio 202024 su “La
Civiltà Cattolica - La rivista più antica in lingua italiana, Dal 1850” fanno una attenta
disamina della applicazione della AI riferita alle questioni sociali.
«Attualmente i creatori di sistemi di IA sono sempre più gli arbitri della verità per i
consumatori. Ma al tempo stesso le sfide filosofiche essenziali – la comprensione
della verità, la conoscenza e l’etica – si fanno incandescenti man mano che le
possibilità dell’IA crescono verso e oltre il superamento dei limiti cognitivi umani. Nel
contesto dei progressi del XXI secolo, l’esperienza e la formazione della Chiesa
23 www.ilpost.it, ultimo accesso 10 aprile 2020. 24 www.laciviltacattolica.it, ultimo accesso 10 aprile 2020.
33
dovrebbero essere un dono essenziale offerto ai popoli per aiutarli a formulare un
criterio che renda capaci di controllare l’IA, piuttosto che esserne controllati.».
Il punto di vista potrebbe sembrare parziale ovvero segnato dalla esperienza della
Chiesa Cattolica ma così non è: gli autori partono da quel punto di vista per una
analisi sociale.
Infatti gli autori, scevri da qualsiasi condizionamento di tipo religioso affermano in
termini asettici che «L’intelligenza artificiale può assemblare e valutare molti più dati
ed elementi di quanto riescano a fare gli esseri umani e, di conseguenza, riduce i
risultati parziali o poco chiari in base ai quali noi spesso prendiamo le nostre
decisioni. Tra i possibili esempi, spicca la prevenzione degli errori medici, che
aumenta la produttività e riduce i rischi nei luoghi di lavoro. L’apprendimento
automatico può migliorare la descrizione dei ruoli lavorativi e quindi proporre migliori
processi di selezione. Se ben programmati, gli algoritmi possono essere più
imparziali e cogliere modelli che sfuggirebbero alle valutazioni umane.».
In un altro passaggio (L’intelligenza artificiale per la giustizia sociale) molto
significativo affermano che «L’IA può senz’altro apportare benefìci alla società, ma
d’altra parte pone anche questioni importanti di giustizia sociale. In questo campo la
Chiesa ha l’opportunità e l’obbligo di impegnare il suo insegnamento, la sua voce e
la sua autorevolezza riguardo ad alcune questioni che si profilano fondamentali per
il futuro. Tra queste va senz’altro compreso l’enorme impatto sociale della ricaduta
che l’evoluzione tecnologica avrà sull’occupazione di miliardi di persone nel corso
dei prossimi decenni, creando problematiche conflittuali e un’ulteriore
emarginazione dei più poveri e vulnerabili.».
Affrontando altresì anche l’impatto sull’occupazione e con una osservazione critica
arrivano ad affermare che «Molto è già stato fatto per misurare l’impatto dell’IA e
della robotica sull’occupazione, soprattutto dopo l’importante articolo del 2013 in cui
Osborne e Frey stimavano che il 47% dei posti di lavoro negli Stati Uniti rischiavano
di venire automatizzati entro i successivi vent’anni. Gli studi e il dibattito scientifico
hanno precisato la natura e i contorni del fenomeno: la cessazione totale o parziale
di attività di lavoro esistenti, la sua ricaduta in tutti i settori e nelle economie
sviluppate, emergenti e in via di sviluppo.».
In estrema sintesi, l’AI si presenta come un fenomeno, attualissimo ed in sviluppo
continuo, da cui non si può prescindere e che impatta in maniera assolutamente
decisiva sulla nostra vita ed in particolare per gli aspetti che legano i soggetti
34
(persone fisiche e\o giuridiche, privati e\o istituzioni pubbliche) nella loro interazione
quotidiana.
Si sente il bisogno che regole certe (il Diritto) segnino i limiti della rilevanza della AI
nei rapporti fra i soggetti sopra detti, per garantire che sia sempre la scelta
dell’Uomo a guidare l’AI e non viceversa.
35
3. COMPARAZIONE TRA IL CICLO DI INTELLIGENCE ATTUALE E LE
MODIFICHE APPORTABILI
Le attività investigative sono spesso caratterizzate dalla raccolta di ingenti moli di dati
di natura eterogenea, provenienti, ad esempio, dalle copie forensi di dispositivi
informatici, dalle perquisizioni degli spazi in cloud degli indagati, da intercettazioni
telematiche o da operazioni di OSINT.
La sfida, che l’investigatore si trova a dover affrontare ogni giorno, riguarda la capacità
di saper distillare, da questa sconfinata quantità di dati, le sole informazioni rilevanti, al
fine di estrarne valore e conoscenza utile ai fini investigativi.
Gli strumenti tecnologici ed il know how di settore certamente forniscono un valido
supporto per districarsi in questo enorme oceano di informazioni, talvolta anche
contraddittorie.
Allo stato attuale, grazie all’integrazione di sistemi per l’analisi dei dati raccolti durante
le attività d’indagine, è possibile:
- effettuare ricerche federate, in modo da stabilire relazioni di ricerca con diverse
fonti;
- ricostruire reti criminali attraverso i social network, utilizzando anche profili virtuali
per le operazioni sotto copertura;
- recuperare in maniera automatizzata informazioni provenienti da fonti aperte;
- svolgere l’analisi visuale dei dati del traffico telefonico e telematico;
- indicizzare il contenuto informativo acquisito dai dispositivi informatici;
- correlare i dati presenti su diversi dispositivi informatici, rappresentandone il grafo
delle relazioni.
In un’ottica di miglioramento continuo, tuttavia, non si può prescindere da una ricerca
di soluzioni innovative che permettano di svolgere in maniera sempre più efficiente ed
efficace le investigazioni. In particolare, si ritiene ormai di fondamentale importanza il
supporto delle tecnologie d’intelligenza artificiale e degli algoritmi di machine learning,
specie nei seguenti ambiti:
- classificazione documentale supervisionata;
- rilevazione dello stile;
- generazione di deep fakes;
- analisi delle posizioni GPS.
36
Tali argomenti verranno meglio esplicitati nei paragrafi a seguire, in modo da facilitare
la comprensione del percorso che è possibile intraprendere per introdurre queste
nuove tecnologie nelle attività investigativa.
a. Classificazione documentale supervisionata
La classificazione documentale supervisionata sfrutta attivamente l’informazione su
campioni noti, costituenti il training set su cui “addestrare” il modello predittivo,
impiegando gli algoritmi di machine learning.
L’obiettivo è quello di derivare una regola di classificazione che permetta di
classificare nuovi documenti di origine ignota in una delle categorie note a priori.
Tale regola viene validata utilizzando un test set di dati indipendente.
In un’indagine complessa, ad esempio, la base documentale potenzialmente
ispezionabile dell’investigatore potrebbe essere costituita da milioni di testi. Nella
migliore delle ipotesi, l’unica modalità ancora oggi utilizzata è quella di indicizzare i
documenti attraverso un motore di ricerca che viene interrogato mediante parole
chiave, modello “Google like”. L’efficacia di tale strumento è tuttavia molto legata
alla qualità delle parole chiave utilizzate e potrebbe comunque portare, nei casi più
sfavorevoli, a migliaia di documenti restituiti. Una modalità operativa che potrebbe
essere integrata da algoritmi di classificazione tali per cui ogni documento può
essere inserito in due o più contenitori aventi etichette predefinite. Per esempio, nel
caso di due contenitori (classificazione binaria), addestrando preventivamente lo
strumento di machine learning con documenti di matrice palesemente anarchica, si
potrebbero isolare i soli testi “d’area anarchica” da tutti gli altri, semplificando
notevolmente il numero di documenti da analizzare;
37
Figura 1
Architettura del classificatore documentale supervisionato
Gli strumenti mediamente a disposizione non permettono di determinare in maniera
automatizzata la natura di un documento e questo impone un’attività di
categorizzazione svolta manualmente.
Il sempre crescente volume dei documenti che possono essere acquisiti durante
un’indagine, invece, rende indispensabile l’impiego di numerose risorse che
analizzino i testi e li classifichino. Tutto ciò richiede, ovviamente, un dispendio
considerevole di tempo, che così viene inefficientemente sottratto ad altre attività
investigative.
Nel contesto descritto, per lo sviluppo di un sistema di classificazione documentale
supervisionata è necessaria una preliminare analisi dei rischi connessi al progetto e
dell’impatto che essi possano avere sul buon esito della sua implementazione.
I rischi individuati vengono comunemente raggruppati in categorie:
38
- rischi tecnologici; riguardanti tutti i rischi associati all’utilizzo delle tecnologie,
che sono molteplici perché molte delle tecnologie non sono ancora mature,
presentano dei limiti, la loro documentazione è carente o parziale, oppure
addirittura si tratta di prodotti ancora in fase di sviluppo;
- rischi organizzativi; concernenti tutti i rischi associati alla pianificazione delle
attività, all’organizzazione del lavoro e ad eventuali impegni contingenti
improrogabili che impediscono di essere disponibili per portare avanti i compiti
assegnati nelle tempistiche stabilite. I rischi appartenenti a questa categoria
possono impattare i tempi di sviluppo e il rispetto delle scadenze previste dalla
pianificazione;
- rischi sui requisiti; derivanti da una parziale o errata comprensione dei requisiti
e delle funzionalità richieste o del dominio applicativo. Questi rischi possono
impattare sulla buona riuscita del progetto in quanto, se non affrontati e risolti,
possono portare ad un prodotto incompleto o che presenta funzionalità non
richieste.
L’esecuzione di un’analisi dei rischi consente di avere ben chiara a priori la natura e
l’entità dei rischi associati al progetto, permettendo di anticipare le criticità e di
conseguenza agire tempestivamente per risolverle o quanto meno arginare il loro
impatto sullo sviluppo del sistema.
La classificazione documentale supervisionata può essere vista come un processo
a più fasi, che dipendono dallo specifico problema che si intende risolvere.
In altre parole, non è possibile semplicemente ricreare le caratteristiche di un
determinato modello e sperare di ottenere il miglior risultato possibile. Questo
perché le prestazioni di un modello dipendono dalla sua capacità di rilevare pattern
nel testo presentato in ingresso e poiché differenti documenti, tipicamente, hanno
diversi pattern.
Le seguenti fasi costituiscono la base per la classificazione del testo mediante
algoritmi di apprendimento supervisionato e forniscono le linee guida generali per
qualsiasi processo di classificazione:
- sviluppo delle caratteristiche (note anche con il rispettivo termine inglese
“features”) del modello; in ambito machine learning, le caratteristiche sono le
variabili indipendenti o esplicative, utilizzate per predire il risultato;
- contenuto del documento; che va processato, cioè standardizzato quanto più
possibile, in modo che il modello possa riconoscere più facilmente i pattern. Ad
esempio, la prima elaborazione che si rende necessaria è la rimozione delle
39
cosiddette “stop words”, cioè una serie di parole molto utilizzate, molto comuni,
generiche ed accessorie rispetto alle parole principali del vocabolario stesso e
che, pertanto, non aggiungono significato al contenuto testuale (es.: gli articoli,
le congiunzioni, le preposizioni). Un’altra operazione da effettuare riguarda la
creazione della matrice “documento-termine”, in cui ciascuna riga rappresenta
un’unità di testo (es.: una frase) e ciascuna colonna rappresenta un termine
usato nei documenti. Essa descrive la frequenza dei termini che si verificano in
una raccolta di documenti;
- metadati; cioè informazioni sul testo che spesso migliorano le prestazioni del
modello tanto quanto il testo stesso;
- selezione di un campione casuale di dati che verranno utilizzati per sviluppare il
modello; più osservazioni saranno incluse, più l’algoritmo sarà in grado di
identificare pattern nei dati. E’ bene notare che analizzare del testo spesso
richiede una grande potenza di calcolo, per cui è necessario far attenzione alla
quantità di dati che il sistema è in grado di elaborare;
- individuazione manuale del risultato; riferita a ciascuna osservazione nel
campione di dati, nel caso in cui lo stesso non fosse ancora disponibile. La
codifica, a mano, dei documenti nelle varie categorie si presta a inevitabili bias
dovuti alla soggettività nell’interpretazione dei testi. In questi casi, per ridurre tali
distorsioni, si attua una sorta di peer review, cioè si chiede a più persone di
fornire una valutazione sul documento oggetto di classificazione;
- suddivisione del campione di dati in sottoinsiemi; si tratta della elaborazione del
training set e del test set. Sviluppare e testare i modelli su differenti insiemi di
dati riduce il pericolo di ottenere un modello che funzioni solo per determinati
documenti e non sulla generalità dei testi. Tipicamente, nei progetti di machine
learning si utilizza un sottoinsieme selezionato casualmente dei dati classificati
a mano come training set per sviluppare il modello, e in seguito si sfruttano i
dati rimanenti per mettere alla prova le prestazioni del modello creato. Non
esiste una regola formale che indichi la percentuale di dati che dovrebbe
formare ciascuno dei due insiemi di dati, ma comunemente si impiega il 70/80
% del campione dati nel training set e il 20/30 % nel test set;
- sviluppo di più modelli utilizzando diversi algoritmi sul training set; differenti
algoritmi di machine learning sono disponibili per essere implementati a
40
seconda del tipo di classificazione da attuare ed alcuni potrebbero avere
prestazioni migliori di altri, per cui vale la pena provarne diversi25.
- scelta del modello più performante e suo utilizzo sul test set; le metriche che
possono essere impiegate per valutare le prestazioni di un modello sono
numerose, ma in generale si può affermare che se il modello si comporta allo
stesso modo sia sul test set che sul training set, allora possiamo selezionarlo
come nostro modello finale. Se il modello ha prestazioni peggiori sul test set, è
probabile che sia andato in “overfitting”, cioè che abbia individuato dei falsi
pattern dovuti ad un adattamento eccessivo ai dati di training, perdendo così di
generalità. In quest’ultimo caso, il modello deve essere scartato e va sviluppato
uno nuovo;
- previsione dei risultati relativi alle rimanenti osservazioni usando il modello
finale; si sottopone il completo dataset al modello finale scelto, in modo da
predire la classificazione dei restanti documenti nelle varie categorie
predeterminate.
b. Rilevazione dello stile
La rilevazione dello stile dei testi oggetto d’indagine ha come finalità l’estrazione
delle caratteristiche di scrittura e l’attribuzione, ad essi, di un’identità scrivente,
attraverso la cosiddetta behavioural pattern analysis. Il metodo prevede di
individuare le caratteristiche discriminanti che consentono di determinare i tratti
personali dell’autore di un testo, in modo da addestrare lo strumento di machine
learning sulla produzione documentale di un soggetto e poter riconoscere un nuovo
testo da egli prodotto.
In letteratura vengono utilizzati due modelli principali per stabilire quali tratti del
carattere di una persona contribuiscono a crearne la personalità:
- il modello di Eysenck, secondo cui la personalità è riconducibile a tre tratti, quali
nevroticismo, estroversione e psicoticismo;
- il modello Big Five, secondo cui la personalità è riconducibile a cinque tratti, quali
nevroticismo, estroversione, apertura mentale, amicalità e coscienziosità.
25 Solo per citarne alcuni: random forest, regressione logistica, k-nearest neighbors, naive
Bayes, etc.;
41
c. Generazione dei Deep Fakes
La generazione di deep fakes può aumentare la capacità di profilazione attualmente
disponibile e permettere agli operatori di interagire con il target mediante
inoculazione di captatori informatici. Tale attività è legata all’utilizzo di tecniche di
ingegneria sociale, attraverso le quali il bersaglio viene in qualche modo convinto a
scaricare il codice del captatore, per esempio installando un’app sul proprio
dispositivo mobile. Tale modalità, poco efficace nel caso dei target più avveduti,
potrebbe conoscere una nuova frontiera utilizzando tecniche di IA per creare
deepfakes. Per esempio, un messaggio audio ricevuto da un contatto fidato
abbinato ad un link da cui scaricare l’app virata, potrebbe riuscire a convincere la
vittima. In tal caso lo strumento di machine learning verrebbe addestrato con la
voce del contatto, ottenuta, ad esempio, da intercettazione telefonica.
Per affrontare compiutamente l’argomento e capire lo scenario all’interno del quale
possono essere impiegati i c.d. deep fakes, non si può prescindere dalle
argomentazioni che seguono e che si collocano, sotto il profilo dottrinale, nel più
ampio contesto dell’ingegnerial sociale.
Per ingegneria sociale s’intende quell’insieme di tecniche adottate in ausilio contro
ogni criterio di sicurezza informatica e volte a carpire, ottenere, modificare
informazioni sensibili manipolando la mente e il comportamento di chiunque le
custodisca. Un buon attacco informatico, infatti, sarà sicuramente frutto di una
attenta pianificazione e dell’efficiente utilizzo di tecniche informatiche ma, molto
spesso, non si potrà prescindere dall’uso di tattiche psicologiche, sociologiche,
comportamentali, per cui l’impiego di tecniche di ingegneria sociale potrebbe
risultare la parte più importante dell'attacco.
Generalmente, un attacco informatico può essere suddiviso in 4 fasi principali:
- analisi iniziale;
- costruzione dell'attacco;
- fuga;
- contromosse.
La prima fase, denominata anche footprinting, è la fase iniziale, nella quale si
studiano e si carpiscono tutte le possibili informazioni sulla potenziale vittima. A
differenza delle altre fasi (per cui spesso occorre solo avere importanti conoscenze
informatiche), per l'ingegneria sociale questa è la fase fondamentale, se non la più
importante: è qui che si registrano, via via nel tempo, nuove e più originali tecniche
per ricavare tutte le possibili informazioni rilevanti; è in questa fase che occorre
42
mettere in gioco tecniche di influenzamento e manipolazione adeguate ed efficaci,
unite ad ottima inventiva e capacità intrusive (dove e come curiosare).
La seconda fase, quella dell’intrusione, è il cuore dell'attacco: attaccante e vittima
sono a stretto contatto e possono combattere, come in battaglia, con le loro migliori
armi: bisogna però essere preparati e ben equipaggiati. È l'ultima fase in cui la
vittima ha ancora speranza di riconoscere l'attacco e poter imbastire una difesa
adeguata. Superata questa fase l'attacco ha avuto successo e sarà difficile, se non
impossibile, recuperare le informazioni sottratte.
La terza fase, quella della fuga, vedrà l’autore dell’attacco, penetrato nel perimetro
della vittima, “bottino alla mamo”, eseguire/organizzare la fuga: si cancellano le
tracce, gli indizi, le prove dell’intrusione e si fa in modo di rientrare alla base senza
alcuno sforzo o rischio. La vittima può fare ben poco se non accorgersi, ormai
tardivamente, di essere stata violata.
L’ultima fase, la difesa, serve a porre in essere tutte le possibili contromosse utili o
necessarie a sviare, evitare, minimizzare possibili contro-attacchi.
Scendendo nel dettaglio della fase iniziale, quella fondamentale ai fini dell’analisi, a
seguire si elencano alcune tra le principali tecniche utilizzate:
- Dumpster diving (frugare nella spazzatura); dal momento che ogni informazione
è sacra, il posto migliore per iniziare a scovarne è la spazzatura della vittima:
scontrini, ricevute, appunti, giornali, riviste, ogni singolo oggetto può essere utile
per ricostruire lo stile di vita o le abitudini del potenziale indagato (e moltissimi
sono i casi nei quali questa semplice tecnica ha avuto successo). Ancora oggi,
troppe aziende non adottano una buona politica per il trattamento e/o la
distruzione dei rifiuti (es. vecchi post-it di dipendenti licenziati contenti magari
password ancora abilitate, vecchi manuali d'uso non aggiornati ma comunque
molto utili, copie di bozze gettate via senza riserbo).
- Eavesdrop; ovvero la tecnica dell'origliare. Ascoltare una conversazione di
nascosto, un dialogo sottovoce o un colloquio cui non si dovrebbe far parte può
rivelare importanti informazioni riservate.
- Wiretap; l’intercettazione (ambientale, telefonica, telematica), strumento tanto
utile quanto (in taluni casi) complesso, la cui trattazione approfondita esula
dall’oggetto della presente trattazione.
- Osservazione; saper osservare può avere tanti significati e sicuramente quello
più importante è quello di saper “cogliere un dettaglio”, quello utile. Un bravo
43
osservatore coglie il particolare, dal dettaglio insignificante per i più è in grado di
ricavare (magari a corollario) l’informazione essenziale; saper osservare
significa notare i particolari nascosti dai vestiti o dagli atteggiamenti; significa
saper cogliere dettagli comportamentali quasi invisibili o ben nascosti; vuol dire,
ad es., cogliere al volo da un ambiente la conformazione di quelli attigui o la
natura degli impianti e dei servizi a disposizione di una vittima. Significa
osservare il contesto, la cura delle cose, le piccole scelte operate nella vita di
quotidiana.
- Psicologia caratteriale; la capacità di eseguire in fretta speculazioni
psicologicamente fondate è indispensabile, tanto nella diagnosi iniziale (quando
cioè occorre rapidamente orientarsi all'interno del sistema di credenze e valori
che condiziona le scelte della vittima), quanto nella persuasione alle reazioni
volute (inducendo la vittima a reagire come si desidera) o nell'induzione a sensi
di colpa o emozioni. Generalmente, nel rapportarsi con la vittima, si possono
individuare fasi distinte quali la cattura dell'attenzione (il pretesto),
l’abbattimento delle difese (influenzamento e persuasione) e da ultimo
l’assicurazione e la conferma.
- OSINT sui social network; ovviamente si tratta di una delle tecniche più efficaci,
benché solo per una certa tipologia di target. Necessita di una buona
preparazione e dell’uso di strumenti adeguati, per poter operare in profondità
nel reperimento delle informazioni. Un’approfondita trattazione dell’argomento
esula dall’oggetto della presente trattazione.
- Artifizi tecnici; non si può prescindere dall’utilizzo di strumentazione tecnica ad
hoc come, almeno, keyloggers (per captare il flusso dei dati digitati) e microspie
(per captare flussi audio/video).
Utilizzando il bagaglio di informazioni così accumulate, è possibile creare un
pretesto ad hoc per la vittima: preferenze e caratteristiche dell'individuo sono le più
utili per immaginarne uno valido. Scopo, diviene quello di ricreare una situazione
familiare, nella quale la vittima si senta a suo agio e si interessi. Un altro metodo su
cui basare la creazione del pretesto è la tecnica della casualità: invece di cercare di
inserirsi adeguatamente nello scenario della vittima, se ne crea uno totalmente
nuovo, che appaia casuale; la vittima si imbatte nell'interlocutore in maniera
inaspettata.
44
Seguono abbattimento delle difese, influenzamento e persuasione, un miraggio
allettante ma naturalmente fasullo, ricco di immagini e significanti, un linguaggio ad
effetto con richiami a motivazioni mistiche o leggendarie, quindi un’opera di
rassicurazione e conferma.
Ciò in quanto il fattore umano rimane quello più vulnerabile e non particolarmente
sensibile alle campagne di prevenzione degli attacchi informatici: le emozioni
annebbiano il buon senso e la razionalità portando i soggetti più insospettabili
(molto spesso proprio i Dirigenti) a commettere azioni inspiegabili.
Un discorso a parte è invece da dedicarsi ai possibili sviluppi delle tecniche di
generazione dei Deep Fakes. Ci sono almeno due scenari di sviluppo futuro
possibile che riguarderanno, rispettivamente, i due settori delle scienze umane sin
qui coinvolte: quello psicologico e quello informatico.
A livello psicologico non si è ancora riusciti a ben definire linee guida efficaci sulle
modalità per le quali differenti tratti della voce siano indicativi degli stati d'animo, ma
la conoscenza della vulnerabilità umane si può dire piuttosto consolidata.
A livello informatico, invece, il possibile sviluppo futuro riguarderà, prioritariamente,
la parte dell'attacco, con l’implementazione di software per la gestione, l’analisi e la
ricerca automatica dei dati della vittima, in maniera molto più performante di quanto
non siano in grado di fare gli attuali software di OSINT ovvero mediante soluzioni di
intelligenza artificiale.
Nelle intercettazioni a fini giudiziari gli spyware, o captatori informatici, ricoprono un
ruolo sempre più rilevante. I metodi di intercettazione tradizionali si sono rivelati
spesso inefficaci poiché i siti web e i servizi di messaggistica utilizzano metodi
crittografici, rendendo in questo modo le comunicazioni e i dati in transito
indecifrabili; al contrario, gli spyware permettono di collezionare i dati alla fonte,
ossia, prima che vengano cifrati e trasmessi.
Per spyware o captatore informatico si intende un software, spesso sotto forma di
virus trojan, in grado di espletare diverse funzioni utili in sede di indagini. A
differenza dei virus e dei worm, gli spyware non sono in grado di diffondersi
autonomamente, ma richiedono l’intervento dell’utente per essere installati. In
questo senso sono dunque simili ai trojan.
Molti dei programmi offerti “gratuitamente” su Internet celano in realtà un malware: il
software è apparentemente gratuito, il prezzo da pagare è un’invasione della
privacy dell’utente, quasi sempre inconsapevole. Spesso, la stessa applicazione
45
che promette di liberare dagli spyware è essa stessa uno spyware o ha in realtà
installato spyware. Tali malware, quindi, si celano spesso all’interno di altri
programmi, apparentemente innocui, che possono infettare il device target. Il
captatore informatico non viene individuato dai sistemi antivirus dei device ove
viene allocato, poiché utilizza delle tecniche di mascheramento in grado di eludere i
sistemi di rilevamento. I captatori, generalmente, vengono iniettati sfruttando una
vulnerabilità all’interno del sistema operativo target, non nota nemmeno agli
sviluppatori del programma, definita comunemente “0-day” (in quanto il
programmatore del codice vittima dell’attacco ha zero giorni per poter effettuare la
correzione dopo che questo viene attaccato sfruttando una sua vulnerabilità
intrinseca). Talvolta, (sempre più spesso in verità) uno spyware può essere
installato su un device di un inconsapevole utente sfruttando le usuali tecniche di
ingegneria sociale, utilizzando metodi di comunicazione e di persuasione allo scopo
di ottenere o compromettere informazioni personali, tramite un vero e proprio studio
di ogni soggetto da intercettare.
Alcuni spyware vengono eseguiti solo nel momento in cui si utilizza l’applicazione di
cui fanno parte e con cui sono stati installati e, dunque, la loro esecuzione cessa nel
momento in cui viene chiuso il programma stesso. Altri hanno un comportamento
più invasivo poiché modificano il sistema operativo del computer ospite in modo da
essere eseguiti automaticamente ad ogni avvio. In certe circostanze, l’installazione
di spyware viene eseguita in maniera ancora più subdola, attraverso pagine web
realizzate appositamente per sfruttare le vulnerabilità dei browser o dei loro plug-in.
Si parla, in questo caso, di drive by download (o installazione tramite exploit).
Il captatore viene generalmente inoculato con diverse modalità:
- mediante posta elettronica; il malware appare come un allegato apparentemente
innocuo di posta elettronica (al limite inerte);
- mediante web; il virus è trasmesso tramite un download effettuato dall’utente da
una pagina web;
- mediante trasferimento fisico; tramite CD-ROM o un’unità USB da collegare
all’apparecchio da infettare;
- mediante infezione dall’esterno; attraverso connessione dal provider di
telecomunicazioni, falsi update o siti civetta, oppure tramite IMSI Catcher, anche
portatili, che permettono di portare attacchi di tipo “man-in-the-middle”.
Una volta inoculato all’interno del sistema, il captatore può svolgere diverse attività
e funzioni, tra le quali:
46
- intercettare chiamate vocali, chat, SMS, messaggi istantanei, e-mail;
- catturare immagini dallo schermo del dispositivo;
- acquisire la cronologia telefonica e la lista dei contatti;
- intercettare ciò che viene digitato sulla tastiera del device;
- visualizzare la cronologia delle ricerche web e “catturare” le schermate
visualizzate sul dispositivo;
- registrare le telefonate effettuate anche mediante applicazioni o programmi (per
es. Skype);
- effettuare download e upload di file sul dispositivo stesso;
- realizzare intercettazioni di tipo ambientale con attivazione del microfono;
- mettere in funzione la foto-videocamera di telefoni o computer per vedere i volti
delle persone vicine;
- sfruttare i sistemi GPS per geolocalizzare i soggetti sorvegliati;
- svolgere funzioni di key logger;
- entrare nella rete domestica dell’utente, attraverso la password del Wi-Fi, e fare
ulteriori intercettazioni.
Per quanto concerne gli scenari aperti dall’impiego dell’IA, i Deep Fakes giocano un
ruolo particolarmente significativo.
«Fake news», notizie false. Se ne parla molto da molto tempo, in quanto il
fenomeno è oggetto di particolare discussione con riferimento ad Internet ed al
ruolo centrale recitato dai social network quale fonte d’informazione. Un contesto
problematico se, come citano talune fonti, circa il 50% del traffico online (soprattutto
nelle piattaforme social) è generato da Bots, cioè software presenti in rete e costruiti
ad hoc per fingersi umani. Ma come vengono costruite le notizie false basate sui
c.d. deep fakes e che parte ha in questo l’intelligenza artificiale?
Per spiegarlo, si può ripercorrere la sequenza utilizzata in alcuni dei casi mediatici
più eclatanti: si parte da un file audio ascrivibile ad un determinato soggetto,
successivamente, utilizzando un sistema di software a reti neurali (in grado di auto-
apprendere), attraverso l’analisi di milioni di immagini relative a diverse forme e
posizioni casuali della sua bocca e dei suoi movimenti, con l’aiuto dell’IA si definisce
la corretta sequenza delle posizioni che si adattano al file audio. Il filmato, così
“costruito”, magari solo relativo alla parte inferiore del volto di un personaggio
famoso, viene sintetizzato all’interno di un video in cui il soggetto preso di mira
riferisce tutt’altro. L’IA è stata così in grado non solo di ricomporre i movimenti della
47
bocca, ma anche particolari quali il movimento delle rughe attorno alle labbra
oppure al mento. Il risultato finale è una clip audio-video ad alta definizione in cui
vengono pronunciate, in maniera assolutamente naturale, cose differenti da quelle
dette in un’altra occasione.
In più, il sistema neurale riesce in poco tempo, e con un basso dispendio di energie,
a realizzare il video. Nel passato ci sarebbe voluto il duraturo intervento di esperti di
post-produzione, il lavoro sarebbe stato molto complicato, lungo e noioso. Oggi,
invece, si può produrre in brevissimo tempo un video talmente di qualità che è
molto, molto difficile (se non impossibile) accorgersi con occhio umano che il video
è falso.
Ricercatori del Max Planck Institute for Informatics26 hanno recentemente mostrato
come sia possibile, rimanendo nel mondo online, ricostruire in tempo reale un video
presente in rete, sfruttando una semplice webcam. In particolare la faccia di un
attore, ripreso dalla stessa webcam, è in grado di modificare l’espressione del
personaggio nel video. Nella descrizione dell’esperimento gli scienziati hanno
sottolineato come la metodologia in oggetto può, ad esempio, avere un impatto
nell’uso delle video conferenze. Al di là di ciò, però, il loro esperimento
inevitabilmente sottolinea la facilità con cui le immagini possono essere distorte e il
rischio connesso a queste tecnologie.
Tuttavia, per procedere ulteriormente nella comprensione dei fenomeni in corso di
evoluzione, occorre approfondire le differenze presenti in alcune tipologie di IA, più
precisamente nei sistemi utilizzati.
- Sistemi neurali supervisionati
Un tale sistema, in linea di massima, prevede un’operatività in parallelo e a più
livelli. L’informazione (input) viene immessa nel nodo (neurone simulato) il
quale, dopo averla elaborata, la trasmette ai nodi successivi e in parallelo. Si
giunge così a un primo risultato (output) transitorio. Questo viene «passato» al
livello superiore dove si ripete il processo. Di livello in livello la rete neurale, in
modo autonomo arriva all’elaborazione finale dell’informazione. Il processo,
tuttavia, è per l’appunto supervisionato. L’input iniziale, un dato certo quale
l’immagine di un uomo, deve essere coerente con l’output finale: la macchina
viene addestrata a “considerare” l’immagine come un uomo. Fino a quando ciò
non accade il procedimento viene ripetuto, vale a dire che c’è una supervisione.
26 www.mpg.de (English Version), ultimo accesso 10 aprile 2020.
48
Alla fine l’intelligenza artificiale riconoscerà l’uomo, e i percorsi seguiti
nell’elaborare gli input saranno stati decisi in autonomia dall’A.I..
- Sistemi neurali non supervisionati
Nell’AI non supervisionata, al contrario, l’attività di allenamento per fare
coincidere il risultato finale con quello iniziale (la macchina riconosce il gatto in
una foto di un gatto) non c’è. L’input è elaborato dal sistema neurale il quale, in
maniera autonoma, può dare luogo all’errore, all’output della notizia falsa.
Questo procedimento viene a sua volta “monitorato” da un altro sistema neurale
che valuta se l’output falso è riconoscibile come tale oppure no. Fino a quando
la seconda AI non rileva che l’informazione appare vera, il risultato del primo
sistema non supervisionato viene rimandato indietro. Solo quando il “neural
system” di controllo riconosce la “fake news” come reale il processo sarà
completo. Si dirà, allora: qual è l’obiettivo di tutto questo sforzo? Quello di dare
vita a parti di testo (o notizie) che sono false ma appaiono fortemente vere.
- La propaganda computazionale
In realtà, non è solo una questione di video o di audio. C’è anche il fronte della
“Computational propaganda”, cioè degli algoritmi e dell’automazione della
pubblicazione di news sfruttati al fine di sostenere, ad esempio, una determinata
“linea di pensiero”. Per comprendere appieno il fenomeno si deve, dapprima,
ricordare che tutto il meccanismo si basa sul cosiddetto “bias” di conferma, un
atteggiamento, presente nell’essere umano, in forza del quale più che tentare di
farsi una propria opinione, ad esempio su di un evento, si tenderà a cercare la
conferma di quanto già noto; in senso lato si tratta di un modo in cui si
concretizza l’ancestrale comportamento di allontanare il dolore, la fatica: crearsi
una nuova opinione comporta uno sforzo; bisogna capire se la fonte della news
è attendibile; se sussiste un conflitto d’interessi oppure se l’informazione è
accurata o contiene degli errori ed, istintivamente, l’essere umano tende ad
evitare quest’impegno. Orbene, da un lato c’è la digitalizzazione
dell’informazione (Internet), con la contestuale espansione dei social network e
disintermediazione dei media tradizionali, dall’altro si assiste all’evoluzione della
potenza computazionale. Gli algoritmi, sempre più sofisticati, permettono di
scandagliare in lungo e in largo le tracce lasciate dagli utenti online: dai like sulle
piattaforme social ai siti visitati fino ai video scaricati e ai commenti scritti nelle
chat. Una mole immensa d’informazioni (Big Data) che sono sfruttati a piene
mani (non sempre in maniera conforme alla legge) per definire gruppi (cluster) di
49
persone che, individuate nelle loro caratteristiche personali, diventano oggetti
del micro-targeting operato per veicolare le “fake news”. Vale a dire, la falsa
notizia non viene inviata a casaccio, bensì è spedita solo a quei soggetti che
paiono essere più facilmente “aggredibili” dalla finta informazione (quelli che
sono – perché così emerge dal loro profiling – più propensi a crederci).
Ciò che completa il quadro viene da sé come risultato dei normali comportamenti
umani: al di là del micro-targeting e del fenomeno del bias, la “fake news” riesce a
diventare virale, ad espandersi nel mondo di Internet attraverso il meccanismo della
conferma. Si tratta di un altro bias che, in parole semplici, consiste nell’ipotizzare
che tutti la pensino come noi. È per questo che, in generale, ci troviamo spesso con
persone che hanno comportamenti simili ai nostri e con queste vengono condivise
le pagine dei social network; persone che piacciono, con cui non di rado si hanno
idee in comune. Addirittura, nel momento in cui un social friend raggiunto dalla “fake
news” la rilancia, se ne imita il comportamento. Altra tecnica è quella della
polarizzazione della discussione: vengono scientificamente individuati argomenti
divisivi in quanto la notizia falsa deve avere a che fare con tematiche dove sia più
facile indurre posizioni “nette” e precise. In questo modo il target della “fake news”,
già predisposto ad accettarla, darà il suo assenso e la rilancerà.
Nello scenario descritto, un’altra grave causa di preoccupazione è rappresentata
dalla inevitabile “weaponisation” delle tecniche di Machine Learning e dalla parallela
crescita di tecniche di attacco sviluppate specificamente per colpire queste
piattaforme. Si tratta in effetti di due problemi distinti, entrambi legati alla diffusione
di sistemi basati su ML. Da un lato, infatti, si assiste alle prime fasi dell’utilizzo di
tecniche di Machine Learning per la realizzazione di cyber attacchi con l’obiettivo di
renderli sempre più efficaci e meno costosi e dall’altro esiste ormai la concreta
possibilità che sistemi basati su AI possano essere silenziosamente alterati e indotti
in errore tramite tecniche di “adversarial machine learning” oltre che, più
banalmente, attaccati e compromessi con tecniche tradizionali. D’altra parte, l’IA è
chiaramente una tecnologia dual use, non v’è dubbio che può essere usata sia per
scopi civili che militari e, più in generale, per fini benefici e/o dannosi, per scopi
difensivi e/o offensivi.
Come detto, l’IA può ampliare il divario di conoscenze e competenze tecniche, ma
soprattutto può automatizzare la creazione di disinformazione e l’esempio più
semplice viene dall’utilizzo del così detto spear phishing in cui gli algoritmi di
50
machine learning possono automatizzare la raccolta di informazioni sulle potenziali
vittime, possono identificare gli utenti meno esperti, distinguendoli da quelli che
sicuramente sapranno adottare contromisure.
d. Analisi dei punti GPS
L’analisi delle posizioni GPS estratte dai dispositivi informatici o dagli spazi di
archiviazione remota (es. sistemi cloud) di grandi comunità di soggetti, potrebbe
fornire un valido ausilio per individuare, mediante un modello predittivo, gli
spostamenti che un target compirà.
L’individuazione di opportuni algoritmi di clustering dei dati spazio-temporali potrà
consentire di determinare:
- percorsi comuni, cioè lo stesso percorso, costituito da almeno p punti in
comune, compiuto da almeno n soggetti;
- stay points aggregati, cioè posizioni in cui almeno n soggetti hanno passato
almeno m minuti. Grazie all’arricchimento semantico (es.: integrando le fasce
orarie), è possibile caratterizzare uno stay point come luogo di lavoro, abitazione
o generico luogo frequentato dalla persona.
Infine, l’evoluzione delle tecnologie e dei servizi localizzazione ha generato, in
questi ultimi anni, la creazione di una grande quantità di dati geografici destrutturati,
generati a loro volta dai:
- sistemi elettronici di comunicazione mobili (es. smartphone, tablet ecc.) i cui dati
GPS, BTS (c.d. “traffico di cella”) ed hotspot Wi-Fi vengono forniti più o meno
consapevolmente dagli utenti, in cambio di pseudo applicazioni gratuite, a
favore di società terze, che a loro volta rivendono tali dati ad altre società di
pubblicità al fine di implementare il c.d. “proxymity marketing” (o “marketing di
prossimità”), ossia pubblicità da esporre in una certa area geografica e da
proporre ad una data classe di clienti target, i cui interessi dovrebbero essere
predetti sulla base delle sue attività pregresse (machine learning);
51
Figura 1 Proximity marketing
- messaggi georefenziati in maniera:
o esplicita, come ad esempio i post pubblici pubblicati sui social media (es.
Twitter, Instagram, ecc.) da parte degli utenti che vogliono ostentare la loro
presenza fisica in un dato luogo. Ad esempio, in Figura 2 viene proposto un
esempio di post pubblici su Twitter georeferenziati volontariamente da
persone che gravitavano vicino al Colosseo;
Figura 2 Esempio di geolocalizzazione esplicita su social media
o implicita, come ad esempio i post pubblici, recensioni e commenti agli stessi,
non necessariamente georeferenziati, ad esercizi commerciali e/o strutture
ricettive in generale, come ad esempio quelli forniti a servizi tipo TripAdvisor,
Trivago, Booking.com, Google Maps, ecc. Ad esempio, in Figura 3 viene
52
proposto un esempio di post pubblico, non georeferenziato, da parte di tale
“Paolo Tagliacozzi”, che dall’analisi semantica del testo, si evince che nel
mese di gennaio 2020 ha soggiornato in un dato hotel di Ischia (NA).
Figura 3 Esempio di geolocalizzazione implicita
- sistemi di localizzazione, come ad esempio i navigatori portatili e fissi, specie
per quanto concerne le autovetture di ultima generazione che forniscono sistemi
di realtà aumentata e “Infotainment”, che al fine di fornire informazioni sia
pertinenti, che in tempo reale, devono necessariamente comunicare i dati di
localizzazione del veicolo a società terze;
- sistemi di car sharing e loro similari o affini (es. Enjoy, Car2Go, BlaBlaCar), che
per loro natura contrattuale prevedono la comunicazione dei dati di
localizzazione sia del veicolo che dell’utente;
- sistemi di rilevamento automatici “passivi”, come ad esempio caselli
autostradali, sistemi di sorveglianza urbana, ecc., che se opportunamente
configurati con sistemi di intelligenza artificiale potrebbero identificare in tempo
reale persone e rispettivi veicoli.
Tutti questi dati di localizzazione, se opportunamente acquisiti, correlati ed
analizzati in maniera automatica potrebbero fornire un grosso supporto al processo
di decision making giudiziario, costituendo così un vero e proprio “pedinamento
digitale”.
53
4. VALUTAZIONE DEI PUNTI DI INTERSEZIONE BUSINESS
INTELLIGENCE (PIONIERA NEL SETTORE) ED INTELLIGENZA
ARTIFICIALE.
Sebbene la Business Intelligence (BI) e l’Intelligenza Artificiale (IA) siano strumenti
che vanno assumendo un’importanza ed una diffusione sempre crescente nel
panorama tecnologico attuale, esse vengono spesso confuse e nel parlare comune i
rispettivi obiettivi ed il loro mutuo rapporto appaiono generalmente assai sfumati.
Secondo la definizione di Hans Peter Luhn27, che nel 1958 introdusse il concetto, la
«Business Intelligence si riferisce al complesso dei processi, delle tecnologie e degli
strumenti utilizzati per raccogliere ed analizzare i dati ed informazioni strategiche
relativi ad una determinata organizzazione28 ed ai risultati da essi ottenuti ed ha
come scopo quello di fornire a coloro che nell’organizzazione sono deputati a
prendere le decisioni strumenti di analisi ed informazioni utili all’uopo».
Secondo la definizione di Marco Somalvico, l’IA, termine coniato da John McCarthy
nel 1956, ha invece come obiettivo quello di «studiare i fondamenti teorici, le
metodologie e le tecniche che consentono la progettazione di sistemi hardware e di
sistemi software capaci di conferire ad un elaboratore elettronico prestazioni che, ad
un osservatore comune, sembrerebbero essere di pertinenza esclusiva
dell’intelligenza umana.». Secondo una suddivisione attualmente in voga gli studi
sull’IA attengono alla pianificazione, all’elaborazione del linguaggio naturale, al
ragionamento (deduzione-induzione-problem solving), alla rappresentazione della
conoscenza, al movimento ed alla manipolazione, all’apprendimento ed all’aspetto
debole o forte dell’IA.
Appare chiaro dalla definizione come BI ed IA abbiano di per sé presupposti ed
obiettivi completamente diversi in cui l’unico aspetto di comunalità è costituito dalla
parola “intelligenza” che compare in entrambe le locuzioni ma con la differenza
sostanziale che nel caso della Business Intelligence essa è riferita alla maggiore
consapevolezza del soggetto umano nell’atto della decisione per effetto dalla visione
ricavata a partire dai dati e dalle informazioni, mentre nel caso dell’Intelligenza
Artificiale essa è riferita alla capacità delle macchine di replicare modalità e
prestazioni tipiche dell’intelligenza umana.
27 www.em.m.wikipedia.org, ultimo accesso 10 aprile 2020. 28 Sebbene applicata inizialmente alle sole Aziende evidentemente orientate al Business
successivamente, la Business Intelligence è stata applicata ad un più ampio spettro di Organizzazioni.
54
I progressi effettuati dall’IA nel recente passato, determinati dalla seconda giovinezza
dell’IA ed in particolare di quella legata allo sviluppo dei sistemi connettivi29, da un
nuovo approccio e dalla crescita esponenziale dei dati e delle informazioni oggi
disponibili per promuoverne l’addestramento, hanno tuttavia avvicinato,
gradualmente e significativamente, i due settori. Dall’altra parte attraverso un
approccio sinergico l’IA contribuisce a rendere più ampio l’insieme degli strumenti
che consentono alla BI il raggiungimento del proprio obiettivo e dall’altra, in maniera
più incisiva e subdola, attraverso un approccio inclusivo che va al di là degli
strumenti resi disponibili e che vede l’AI applicata in maniera determinante anche alla
fase decisionale successiva all’estrazione di conoscenza della BI ed in cui il ruolo del
soggetto umano appare sempre più sfumato.
a. Business Intelligence – Stato dell’Arte
I concetti di BI ed AI nascono in due contesti profondamente diversi: da una parte l’AI
nasce in ambito accademico come ricerca di base; la BI prende invece le mosse
nell’ambito operativo aziendale come una metodologia che attraverso i dati e le
informazioni raccolte da processi appositamente progettati e realizzati30, mira a
spiegare le caratteristiche del business dell’azienda presente e passato ed abilitare
decisioni maggiormente consapevoli per il futuro. Secondo quanto afferma Michael
F. Gorman, la BI spiega infatti il “cosa è stato” ed il “cosa è” di un’azienda, ma non dà
alcuna indicazione su “cosa fare in futuro” che spetta invece all’uomo. In altre parole,
la BI può trasformare una grande quantità di dati ed informazioni in una visione
coerente (analisi descrittiva), ma non è concepita per fornire indicazioni su come i
dati e le informazioni ottenute devono essere utilizzate per le future decisioni. Gli
aspetti predittivi, connessi ad esempio con le ipotesi di scenario attualmente assai
utilizzate nel supporto alla decisione, non appartengono a rigore alla BI nella sua
accezione iniziale, ma afferiscono più propriamente all’Analisi dei Dati vera e propria
(Data Analytics in linguaggio moderno) che comprende oltre all’analisi descrittiva
29 Lo sviluppo dell’IA avviene secondo due filoni principali: i sistemi simbolici ed i sistemi sub-
simbolici o connettivi. I sistemi simbolici sono quelli che emulano le funzioni ad alto livello del cervello quali la rappresentazione formale della conoscenza, la logica, le regole d’inferenza etc. I sistemi sub-simbolici emulano le funzioni del cervello a livello elementare ovvero a livello di singolo neurone. Sono un esempio di questo tipo le reti neurali artificiali ovvero sistemi composti da un grande numero di entità elementari interconnesse tra loro da cui il nome di sistemi connettivi.
30 La raccolta di dati ed informazioni in ambito aziendale ai tempi dell’introduzione del concetto della Business Analysis non era affatto nuova: basti pensare ad esempio ai dati raccolti per la necessità del controllo della produzione introdotta dalla Teoria della Qualità già nei primi anni del ‘900.
55
anche l’analisi predittiva, associata alla previsione in senso generale, e quella
prescrittiva in cui oltre alla previsione degli effetti correlati a ciascuna decisione
vengono individuate le azioni necessarie per raggiungere quegli effetti. Più avanti,
dopo l’incontro del mondo della BI con quello dell’IA ed ancor più successivamente
nell’epoca dei Big Data, l’Analisi dei Dati (Data Analytics) convergerà con la BI
all’interno della naturale evoluzione di quest’ultima: la Business Data Analytics.
Tra gli strumenti principalmente utilizzati per l’analisi dei dati raccolti per le esigenze
della BI figurano l’Analisi Statistica ed il Data Mining, entrambi in questo contesto
possono essere inquadrati come il complesso dei metodi e delle tecnologie
finalizzate all’estrazione automatica o semiautomatica di informazioni utili per l’attività
dell’Azienda/Organizzazione a partire da grandi quantità di dati. Analisi Statistica e
Data Mining, che nel linguaggio della Data Analytics attengono entrambi all’Analisi
Descrittiva, condividono, pertanto, lo stesso obiettivo ma differiscono per il fatto che
l’Analisi Statistica mira ad estrarre conoscenza relativamente all’intera popolazione
oggetto di studio, mentre il Data Mining pone in particolare l’attenzione sul singolo
individuo della popolazione. Si può, pertanto, affermare a ragione che essi sono
complementari nello studio dei dati che attengono all’Azienda/Organizzazione con la
differenza che l’Analisi Statistica ne fornisce una descrizione piatta mentre il Data
Mining pone l’attenzione sui particolari processi che contribuiscono a quella
descrizione ed essendo questi assai meno palesi l’informazione deve essere estratta
dalla miniera dei dati secondo un’analogia che richiama efficacemente lo sforzo della
ricerca e rende assai evidente l’associazione tra dati e valore. L’analogia risultò così
efficace che per traslato oggi con Data Mining si indica tutto l’insieme dei processi di
estrazione di informazioni palesi e nascoste nei dati, eseguita in maniera automatica
o semiautomatica per renderla disponibile e direttamente utilizzabile per il supporto
alla decisione. Questa accezione è tuttavia impropria perché comporta la
sovrapposizione di numerosi concetti ed una lunga teoria di equivoci semantici non
ultimo quello di confondere lo strumento del Data Mining con l’intera branca della
Business Intelligence in un processo di sineddoche. Per questo nella presente
trattazione il termine sarà utilizzato strettamente nella sua accezione originale.
Sviluppando ulteriormente il concetto, si può affermare che il Data Mining ricerca, in
maniera automatica e svincolata da ipotesi, possibili correlazioni e schemi di
correlazioni che possono presentarsi all’interno di una base di dati.
Sebbene i fondamenti teorici alla base dell’Analisi Statistica e del Data Mining e gli
strumenti da essi utilizzati, quali gli algoritmi di classificazione, gli alberi decisionali,
56
l’analisi di correlazione31, di regressione32 e di aggregazione (clustering),
appartenessero da molto tempo al patrimonio delle conoscenze umane, il loro
impiego operativo in ambito aziendale avvenne solo grazie al conseguimento di due
imprescindibili obiettivi di natura tecnologica, costituiti rispettivamente dalla capacità
di gestione in formato digitale di grandi volumi di dati e dalla disponibilità della
capacità computazionale necessaria per l’implementazione dei processi automatici o
semiautomatici necessari per la loro elaborazione. Detto in un linguaggio moderno
che ricorrerà più avanti, i dati raccolti dalla BI erano caratterizzati da un modello V2
ovvero da Volumi ragguardevoli e da Velocità di generazione (che a quel tempo
potevano ritenersi) assai elevate. Non a caso molti studiosi identificano l’avvento del
Data Mining nelle Aziende con l’inizio della raccolta dei dati sui dispositivi informatici
e la costituzione delle prime basi di dati con modelli dei dati gerarchici nel 1960.
L’applicazione dell’Analisi Statistica e del Data Mining ai dati raccolti è solo una delle
attività condotte all’interno di una delle fasi di un processo assai più articolato, noto
come Processo di Estrazione della Conoscenza (Knowledge Discovery Process) che
ha come obiettivo la ricerca di relazioni ed informazioni presenti nei dati a
disposizione non note a priori. Questo processo, che costituisce struttura portante
delle BI, sviluppato per fasi di raffinamento successive,33 assume ancora oggi
carattere di assoluta generalità indipendentemente dalle tecnologie utilizzate. Esso
comprende34:
- la fase di definizione e comprensione del dominio applicativo in cui si individuano
le problematiche dell’Azienda/Organizzazione che inducono alla ricerca di ulteriore
conoscenza e/o si formulano ipotesi di cambiamento indicando, nella maniera più
chiara possibile, gli obiettivi che si intendono perseguire;
- la fase di individuazione delle fonti dei dati interne ed esterne
all’Azienda/Organizzazione ritenute necessarie per l’esecuzione del processo e
l’acquisizione da esse di dati ed informazioni;
31 L’analisi di correlazione determina la misura in cui due modificano insieme il loro valore. La
correlazione può essere positiva, se le variabili si muovono in parallelo ovvero al crescere dell’una cresce anche l’altra, o negativa se al crescere dell’una l’altra diminuisce.
32 L’analisi di regressione esamina la relazione che intercorre tra una variabile dipendente ed una o più variabili indipendenti.
33 In particolare lo sviluppo avvenne nell’era del modello relazionale in cui venne indicato come KDD (Knowledge Discovery in Databases). Al tempo i dati erano esclusivamente memorizzati all’interno di Database Relazionali (RDBMS)
34 In letteratura le fasi e le modalità di raggruppamento delle attività che compongono il Processo di Estrazione della Conoscenza compaiono in una vasta teoria di forme e con diverse nomenclature senza tuttavia che i concetti differiscano nella sostanza.
57
- la fase di estrazione, pulizia e pre-processing dei dati e delle informazioni
provenienti dalle fonti di cui al punto precedente. In particolare se essi sono
immagazzinati in formati particolari, vengono estratti, ne vengono standardizzate
le caratteristiche, ne viene controllata la qualità e si adottano le decisioni sul
trattamento dei dati mancanti e/o incompleti, di quelli con carattere di
eccezionalità35 e sulla mitigazione degli effetti del rumore presente al loro interno,
vengono selezionati i dati e gli elementi di informazione necessari, si definisce la
storicità e la frequenza di aggiornamento e la necessità/opportunità dell’uso di
variabili e/o indicatori ricavabili dai dati già esistenti e si procede alla loro
integrazione;
- la fase* di integrazione e realizzazione di un set unico di dati aggregati a partire
dalle fonti dei dati interne e esterne all’Azienda/Organizzazione individuate e
sottoposte alla fase di pulizia e pre-processing precedente. In questo stadio si
definisce il modello dei dati che verrà utilizzato nella successiva fase* di
estrazione della conoscenza e la maniera in cui essi verranno rappresentati in
relazione agli obiettivi stabiliti nella prima delle fasi elencate;
- la fase di trasformazione, di riduzione e proiezione dei dati* in cui i dati* vengono
trasformati secondo il modello adottato e si procede, laddove possibile, alla
riduzione del numero delle variabili;
- la fase* di scelta della strategia, delle tecniche, dei metodi e degli strumenti ritenuti
più appropriati per l’estrazione della conoscenza nella fase* successiva indicando
gli algoritmi associati a ciascuno strumento. A livello di strategia si indicano in
questa fase*, in relazione al contesto ed all’obiettivo da perseguire, le tipologie di
analisi della Data Analytics che si intendono condurre (descrittiva, predittiva,
prescrittiva), quali tecniche di indagine si intendono adottare per ciascuna tipologia
di analisi36 (descrittiva, predittiva e di prescrittiva), quali metodi adottare all’interno
delle tipologie di analisi selezionate (classificazione, regressione, aggregazione,
alberi decisionali etc.) e gli strumenti associati a ciascuno dei metodi individuati37.
- la fase di estrazione della conoscenza vera e propria in cui, attraverso raffinamenti
successivi, vengono integrate, combinate ed iterate le tecniche, i metodi e gli
strumenti individuati nella fase precedente per individuare, nelle modalità di
35 In questi casi potrebbe ad esempio essere applicate tecniche di anti-aliasing o di sovra-
campionamento. 36 Al tempo attuale si indica ad esempio in questo contesto il ruolo assegnato all’IA per
ciascuna tipologia di analisi. Nell’analisi descrittiva ad esempio si possono combinare l’Analisi Statistica, il Data Mining ed IA).
37 Per la classificazione si possono ad esempio utilizzare algoritmi classici o strumenti di IA.
58
rappresentazione definite, nuovi elementi di conoscenza (modelli, relazioni e
pattern di interesse). Tali elementi vengono infine interpretati e le implicazioni ad
essi connesse analizzate e verificate fino a renderne massima l’efficacia.
- fase di consolidamento dell’ulteriore conoscenza individuata in cui essa viene
integrata con gli altri elementi di conoscenza già precedentemente acquisiti, si
procede alla valutazione del miglioramento della prestazione atteso grazie
all’impiego dei nuovi elementi di conoscenza, si predispone, attraverso la
definizione di metriche di performance cruscotti operativi (dashboards), il
monitoraggio dello scostamento tra i dati reali rispetto a quanto previsto e viene
generata la necessaria documentazione per gli utenti finali.
E’ importante porre in evidenza che la sequenza delle fasi elencate non è in alcun
modo rigida ed il movimento (anche reiterato) tra fasi diverse (non rispettando
necessariamente l’ordine) nell’ambito del processo è prassi pressoché consolidata.
b. Intelligence Militare – Stato dell’arte
L’Intelligence Militare si pone alla base della capacità di difesa e di pianificazione ed
attraverso l’analisi dei dati e delle informazioni raccolte fornisce indicazioni ed
orientamento per assistere i comandanti nelle loro decisioni e la sua accuratezza,
tempestività ed affidabilità sono essenziali per la riuscita delle operazioni militari.
L’attività di Intelligence è intimamente legata alle modalità con cui lavora il cervello
umano: essa infatti opera da una parte grazie a processi logici rigorosamente
codificati e dall’altra si affida anche ad intuizioni e processi estremamente creativi.
Per questo l’Intelligenza Artificiale, che ha come obiettivo quello di replicare su un
elaboratore elettronico funzioni di pertinenza esclusiva dell’intelligenza umana, trova
in questo ambito un ambiente di applicazione naturalmente affine. Sebbene non sia
ancora chiarito se alcuni risultati dell’applicazione dell’apprendimento automatico
(Machine Learning) che l’uomo non riesce a comprendere ed inquadrare in un
modello logico e per il quale Egli invoca l’Explainable Artificial Intelligence afferiscano
alla sfera dell’intuizione e della creatività, l’applicazione dell’Intelligenza Artificiale al
settore dell’Intelligence appare allo stato attuale l’unico cammino percorribile per
estrarre ulteriore conoscenza dall’enorme quantità di dati ed informazioni raccolte
che può a ragione essere considerato un contesto Big Data.
L’IA non è tuttavia l’unica tecnologia dirompente (Disruptive Technology) che è in
grado di fornire un contributo significativo nel campo dell’Intelligence. Non è
improprio affermare infatti che le Disruptive Technologies (Big Data Analytics,
59
Internet of Military Things, IA, Blockchain, Edge Computing) nel loro complesso
stiano già operando od opereranno nel prossimo futuro una rivoluzione ancor più
profonda rispetto ad altri settori ampliandone le capacità e nel contempo aprendo
nuove sfide. Per dare un’idea della tipologia delle attività e delle funzioni per le quali
questi miglioramenti si renderanno concreti verrà offerta una veloce panoramica
sull’Intelligence Militare e di come si essa si inserisca nel panorama già attuale della
conduzione delle operazioni militari nell’ambito dell’Internet of Military Things
passando successivamente a dimostrare come ed infine a descrivere l’applicazione
delle Disruptive Technologies alle attività delle diverse fasi dell’Intelligence Militare.
L’attività di Intelligence Militare si può scomporre da un punto di vista logico in una
serie di momenti o fasi costituenti il cosiddetto ciclo di Intelligence, che non si
pongono necessariamente in stretta successione ed in cui intervengono attori e si
realizzano funzioni diverse. Queste sono costituite rispettivamente da:
- pianificazione e direzione in cui gli organi di comando interessati definiscono gli
obiettivi informativi ritenuti necessari per le proprie decisioni e che possono
attenere al livello strategico, al livello operativo ed al livello tattico. Gli obiettivi
informativi, allo scopo di indirizzare le fasi successive, vengono resi espliciti ed
inseriti all’interno degli elenchi degli Elementi Essenziali di Informazione e degli
Altri Elementi di Informazione;
- raccolta delle informazioni in cui vengono messe in atto, da parte degli
attori/organi preposti, tutte le attività di raccolta dei dati e delle informazioni
riferite agli Elementi definiti nella fase precedente; dati ed informazioni vengono
raccolti attraverso attività tecniche specifiche a partire da una serie di sorgenti
dette fonti. Tali attività, sulla base di una serie di caratteristiche della fonte o del
metodo di raccolta, sono state catalogate in:
o HUMINT (acronimo di HUMan Intelligence) se le notizie raccolte provengono
da fonti umane e per questo si contrappone ad altri canali di informazione di
natura parzialmente od esclusivamente tecnologica;
o SIGINT (acronimo di SIGnals Intelligence) se le notizie raccolte provengono
dall’intercettazione e dall’analisi dei segnali emessi per la comunicazione tra
persone oppure tra macchine ed in questo caso prende il nome di ELINT
(acronimo di ELectronic-signals INTelligence) o da una combinazione delle
due. Dal momento che le comunicazioni riservate sono criptate le operazioni
di SIGINT utilizzano strumenti di criptoanalisi;
60
o GEOINT (acronimo di GEOspatial Intelligence) se le notizie provengono
dall’analisi di fotografie aeree, da immagini satellitari o da dati
geomorfologici. Quando l’analisi è riferita alle sole fotografie aeree ed alle
immagini satellitari si parla di IMINT (acronimo di IMagery Intelligence);
o MASINT (acronimo di Measurement And Signature INTelligence) se le
notizie provengono dall’analisi dei dati ottenuti da uno o più strumenti di
rilevamento utilizzati per identificare qualsiasi caratteristica distintiva
associata ad una sorgente, ad un emettitore, ad un trasmettitore per
facilitarne l’individuazione, la misura e l’identificazione. Comprende una serie
molto vasta di sotto-discipline costituite dai settori elettro-ottico, nucleare,
geofisico, radar, materiali e radiofrequenza;
o MEDINT (acronimo di MEDical Intelligence) se le notizie provengono
dall’analisi, dalla valutazione e dall’interpretazione di notizie di carattere
medico, biologico ed ambientale rilevanti per la pianificazione strategica,
operativa e medica in relazione al mantenimento della capacità di combattere
delle forze amiche e per la valutazione delle capacità mediche sia civili che
militari della parte avversa;
o OSINT (acronimo di Open Source Intelligence) se le notizie provengono da
fonti pubbliche liberamente accessibili;
o TECHINT (acronimo di TECHnical INTelligence) se le notizie sono derivate
dall’analisi degli armamenti ed equipaggiamenti utilizzati dalle forze nemiche;
o CYBINT/DNINT (acronimo di CYBer INTelligence o Digital Network
INTelligence) se le notizie sono derivate dall’analisi delle interazioni di uno o
più soggetti all’interno del cyberspazio;
o FININT (acronimo di FINancial INTelligence) se le notizie sono ricavate
dall’analisi delle transazioni finanziarie eseguite dalla parte avversa.
Appare evidente come tale suddivisione non sia scevra da forzature, ma la sua
ragion d’essere è quella di affermare il concetto che ciascuna attività di raccolta
delle informazioni contiene specificità e metodologie proprie per eseguire la
raccolta dei dati e che condizionano anche le fasi successive;
- elaborazione in cui le notizie raccolte in ciascuna delle attività di raccolta
elencate vengono classificate, valutate e correlate tra loro;
- analisi e produzione in cui le notizie afferenti ad ogni singolo elemento di
informazione raccolto vengono collazionate e trasformate (data & information
fusion) in un’informazione unitaria utilizzabile della quale viene anche indicata
61
l’affidabilità. L’informazione generata viene confezionata e rese disponibile nei
formati concordati per la fruizione e per la visualizzazione da parte degli utenti;
- divulgazione ovvero l’ultima fase del ciclo che si ricollega alla prima poiché
costituisce la distribuzione dell’informazione agli organi di comando che ne
avevano fatto domanda con la richiesta* contestuale di fornire un ritorno in
termini di accuratezza, tempestività ed affidabilità.
Nel riconoscere come la velocità di esecuzione del ciclo, oltre che l’accuratezza, la
tempestività e l’affidabilità, costituisca un elemento abilitante per la conquista di una
posizione di predominio in situazioni di conflitto palese o meno, non si può non
considerare che nel futuro, grazie all’impiego di nuove tecnologie le attività militari
subiranno un’ulteriore accelerazione. In questo contesto di ipervelocità in cui la
guerra sarà verosimilmente combattuta da missili ipersonici, sciami di droni e robot e
la durata di un conflitto secondo alcuni autori sarà solo di alcuni minuti la durata del
ciclo di intelligence non potrà che essere di secondi.
In sintesi, quindi, le tipologie di dati ed informazioni trattate dall’Intelligence Militare
provengono da una sterminata quantità di fonti diverse ognuna delle quali possiede
prerogative di immagazzinamento di dati ed informazioni proprie. Tra questi figurano
file multimediali, immagini da satellite, fotografie, manoscritti, file di log, file contenenti
misure raccolte da sensori, testi in formato digitale ricavati da fonti aperte, relativi a
report, a documenti etc. e così via.
Guardando questi elementi nella prospettiva della prima versione del modello V3 di
Laney si può affermare che il primo elemento può essere considerato una prova
inconfutabile per difetto non solo del Volume, ma anche della Velocità con la quale
l’Intelligence Militare produce dati ed informazioni, il secondo un esempio della
Velocità nell’epoca della digitalizzazione con la quale si possano generare contenuti
su un determinato argomento e della mancata capacità (allora!) di estrarne
informazioni ed il terzo una costatazione ineccepibile della Varietà con la quale i dati
e le informazioni emergono dalla fase di raccolta. Se l’attinenza della tematica
dell’Intelligence Militare con i parametri del modello V3 di Laney appare ineccepibile, i
parametri ulteriori considerati nel modello allargato di Laney (V6C) sono addirittura
parte integrante dell’attività di Intelligence ed in particolar modo della fase di
Elaborazione ed Analisi. Appurata l’attinenza dell’Intelligence Militare con l’ambito
Big Data, è possibile constatare come l’intero ciclo dell’Intelligence sia di fatto
proiettabile sull’intero Processo di Estrazione della Conoscenza descritto nella
Business Data Analytics.
62
Nel suo intervento il Gen. Tony Thomas al GEOInt Symposium proseguiva ponendo
in evidenza la necessità impellente di estrarre informazioni utili alla decisione da
questa enorme mole di dati e sottolineando come allo stato attuale gli strumenti in
nostro possesso la rapidità con la quale i dati e le informazioni crescono è di gran
lunga superiore a quella con la quale da essi siamo in grado di estrarre informazioni
utili. Il ricorso alle nuove tecniche ed agli avanzati algoritmi dell’IA e del Deep
Learning rappresenta in questo senso una prospettiva fondamentale per un
ripensamento radicale circa le modalità in cui l’attività di Intelligence Militare viene
condotta per venire a capo della problematica.
Non si deve, peraltro, ritenere che il panorama dell’Intelligence Militare sia in fase di
assestamento e che gli sforzi possano massicciamente concentrarsi su aspetti
specifici senza che il contesto cambi significativamente: l’Intelligence Militare è infatti
un’attività in continuo cambiamento sotto la spinta, da una parte della continua
proliferazione di sorgenti di dati ed informazioni e dall’altra dell’impellente necessità
di estrarre ulteriore conoscenza a partire dai dati e dalle informazioni raccolte in
maniera accurata, tempestiva ed affidabile (aspetto descrittivo), di prevedere le
possibili evoluzioni (aspetto predittivo) e pianificare le azioni conseguenti (aspetto
prescrittivo), in perfetta analogia con gli obiettivi della Business Data Analytics e che
possono a ragione essere considerate le Military Analytics. La proliferazione delle
fonti è determinata sia dal crescente interesse verso i dati generati dalle fonti aperte
sia dalla crescita esponenziale di sensori e sistemi concepiti e sviluppati
specificamente per ridurre il personale impegnato ed i rischi di perdite sul campo e
con esse le connesse dialettiche interne nei Paesi a regime democratico. Una delle
facoltà maggiormente importanti del cervello umano è la capacità di astrazione e
questa è di fondamentale importanza nell’azione di comando e di direzione.
Attualmente l’IA è in grado di replicare questa facoltà in maniera assai limitata nei
sistemi esperti e secondo una corrente di pensiero non sarà mai possibile per un
computer raggiungere il livello di astrazione necessario a cogliere la visione di
assieme di una situazione (big picture) del livello di complessità necessario a dirigere
in completa autonomia un’azione di Intelligence. Una visione opposta sostiene
invece che questa visione è parte di un meccanismo di protezione della mente
umana che non vuole rassegnarsi a cedere un ruolo di centralità ed essere sostituita
da una macchina. La realtà attuale indica che una capacità di astrazione a così
ampio respiro non è stata ancora raggiunta ed in questo contesto l’uomo è
saldamente nel loop decisionale ad orchestrare e presiedere le decisioni più
63
importanti ed un cambiamento in questo senso appare inverosimile nel breve/medio
termine.
In contesti del genere non è allora impensabile che in futuro la pianificazione e la
direzione dell’attività di Intelligence Militare non possa essere effettuata a valle di un
processo di Data Analytics di tipo prescrittivo in cui sia una macchina, prima di
intraprendere le azioni individuate come necessarie in relazione al raggiungimento di
un determinato obiettivo, a chiedere ad un’altra macchina di avviare il ciclo di
Intelligence definendo gli Elementi Essenziali di Informazione all’interno di un
processo che ci piace ancora immaginare scandito dalle fasi logiche dell’approccio
umano, ma che nella pratica sarà inevitabilmente senza cesure. In uno scenario
tuttavia in cui i conflitti si risolveranno nel giro di pochi minuti, grazie al grado di
autonomia raggiunto da alcuni sistemi d’arma, ciò che appare inverosimile è la
capacità dell’uomo di entrare nel loop per le decisioni importanti e di uscirne
mantenendo costantemente la consapevolezza della situazione.
Assai più vicina è invece la prospettiva di uno scenario in cui la raccolta delle
informazioni avverrà attraverso processi sempre più automatizzati e con un
coinvolgimento sempre maggiore di sensori e macchine in possesso di
caratteristiche di autonomia. Ciò appare maggiormente evidente per le attività di
Intelligence in cui l’aspetto tecnologico è più sostanziale, ma ugualmente efficace
risulta l’applicazione delle nuove tecnologie ad attività in cui l’intervento umano risulta
essenziale per definizione.
L’avvento del mondo digitale ha altresì creato notevoli problematiche rispetto alla
creazione di identità di copertura per chi è impiegato sul campo. Ingannare occhi
esperti fingendo di essere qualcun altro è al giorno d’oggi una sfida tremendamente
difficile e ciò è tanto più vero per le persone più giovani che generalmente
posseggono un’impronta digitale corposa con cui fare confronti ed analisi; d’altra
parte un’impronta digitale esigua non costituisce una soluzione credibile poiché
creerebbe sospetto sul versante opposto. La disponibilità sul mercato di sensori
biometrici a bassissimo costo rende inoltre praticamente impossibili gli scambi di
persona. Per questo le identità di copertura vengono per lo più create da zero
sviluppando l’impronta digitale connessa e per questo richiedono uno sforzo
interpretativo ed una capacità di immedesimazione assai maggiore rispetto al
passato.
I vantaggi della tecnologia per l’attività HUMINT possono tuttavia anche essere
utilizzati in senso opposto per attività di contro-intelligence ed in questo spirito
64
stabilire se un volontario che voglia collaborare costituisca una risorsa od una
minaccia è un’attività che richiede molto tempo e molte verifiche.
Come già accennato lo sviluppo futuro del dominio militare, su cui tutti gli attori
internazionali si stanno concentrando, prevede un nuovo paradigma in cui tutte le
attività saranno sempre più eseguite da entità o cose (“Things”) interconnesse che
comunicano tra loro per coordinarsi, imparare ed interagire con l’ambiente fisico in
cui sono immerse assicurando così una maggiore efficienza ed una più avanzata
consapevolezza situazionale.
Le fasi di elaborazione e di analisi e produzione del Ciclo di Intelligence
corrispondono alle fasi di esecuzione delle Analytics della Business Intelligence nel
contesto Big Data ovvero all’estrazione di conoscenza a partire dai dati raccolti
contenuti nel Data Lake. La differenza fondamentale che in generale caratterizza le
Analytics eseguite in ambito militare, per questo definite Military Analytics, è la
contingenza temporale con la quale la conoscenza deve essere estratta affinché
questa si possa tradurre in un vantaggio.
In questo contesto si fa esplicito riferimento alla visione in cui i conflitti nel futuro si
svolgeranno nel giro di pochi minuti e non alla differenza con l’ambito civile in cui già
operano aziende, quali BlackSky, Planet e Maxar, che sono in grado di fornire a chi è
in grado di sostenerne il costo, servizi di individuazione di oggetti e soggetti, la loro
geolocalizzazione e tracciatura in tempi sorprendentemente rapidi. Per operare
efficacemente nel contesto dell’ipervelocità dei conflitti il governo degli Stati Uniti
d’altra parte nel 2012 ha avviato la realizzazione, attraverso il National
Reconnaissance Office, di un progetto denominato Sentient, ufficialmente non
ancora operativo, con capacità di condurre Military Analytics di tipo prescrittivo in
tempi rapidi secondo le caratteristiche descritte nella presente trattazione ovvero di
individuare automaticamente una situazione di minaccia attraverso i dispositivi ed i
sistemi dell’ecosistema IoMT ed inviare i messaggi per l’avvio delle azioni ritenute
necessarie conseguenti tra quelle previste.
Un esempio in questo senso può essere quello dell’individuazione di spostamenti di
velivoli da una base all’altra in un paese ostile, del movimento di una colonna di
automezzi in movimento in teatro operativo, di anomalie nella rotta di una nave, dalla
verifica dei danneggiamenti ad infrastrutture causati da un’esplosione o da una
calamità naturale, della presenza di un particolare individuo in un particolare luogo in
relazione agli argomenti da egli trattati durante una conversazione estratti grazie alla
65
lettura labiale etc. In tutti questi casi è grazie alle Military Analytics che vengono
rivelati gli eventi, ma non è solo questo l’ambito in cui esse vengono utilizzate.
Il processo di estrazione della conoscenza comporta in tutte le Analytics l’utilizzo di
metodi ed algoritmi assai raffinati, ivi compresi quelli di Intelligenza Artificiale ed in
particolare di Machine Learning e Deep Learning per i quali vengono utilizzate reti
neurali profonde (Deep Neural Networks - DNN). Grazie ad esse viene eseguita la
segmentazione semantica delle immagini, il riconoscimento e la classificazione degli
oggetti, la loro tracciatura, l’individuazione delle anomalie solo per citare i principali
ambiti di applicazione.
A questo proposito occorre porre in evidenza che a fianco dei numerosi vantaggi ad
esse connessi esistono anche una serie di elementi limitativi che da una parte
definiscono più nettamente il perimetro della loro applicabilità e dall’altra possono
rallentare od in alcuni casi impedire l’applicazione del Machine Learning e Deep
Learning in certi settori dell’ambito militare costituiti rispettivamente:
- dalla mancanza di trasparenza ed interpretabilità dei modelli utilizzati che ha
sollevato l’esigenza dell’Explainable-IA auspicabilmente senza rinunciare ai
vantaggi di ML e DL;
- dalla possibilità di essere ingannati attraverso opportune manipolazioni dei
segnali forniti in ingresso alle DNN;
- dalla necessità di una grande quantità di dati per l’addestramento e ciò non
sempre si verifica.
Allo stato attuale, la maniera più appropriata per garantire una forma di trasparenza
ed interpretabilità ad una DNN sono quella della spiegazione ovvero di evidenziare
quali caratteristiche del segnale in ingresso hanno indotto il sistema a determinare*
una determinata* uscita o di calcolare preventivamente quali sono le caratteristiche
del segnale in input che attiveranno massimamente una determinata* caratteristica
del segnale in uscita.
Gli inganni possibili nei confronti delle reti neurali utilizzate per il ML ed il DL possono
essere perpetrati o agendo sui dati mostrati in ingresso al sistema di classificazione o
sul modello di apprendimento. Sottoponendo al classificatore (la rete neurale) in
ingresso due segnali che differiscono tra loro solo (e di questo è impossibile
accorgersi quando il segnale è di grandi dimensioni come ad esempio nel caso di
un’immagine) per una piccola perturbazione38 applicata a ciascun pixel si possono
ottenere due risultati completamente diversi. Sebbene esistano una serie di tecniche
38 Realizzata nel modo opportuno.
66
difensive rispetto a questo tipo di minaccia, prima tra tutte quella di includere nel
processo di addestramento della rete alcuni esempi di segnali in ingresso
manomessi, nessuna di queste mette il proprio classificatore completamente a riparo
da vulnerabilità specie se chi attacca conosce il modello di classificatore utilizzato ed
i metodi di difesa utilizzati. Applicando sui propri assetti metodi di camuffamento
specificamente concepiti possono quindi essere ingannati i sistemi di riconoscimento
avversari basati sulle DNN.
Afferiscono all’ultima categoria, ad esempio, alcuni problemi di inferenza
geospaziale39 il cui scopo è quello di individuare il luogo più probabile o l’insieme dei
luoghi più probabili in cui si verificherà un evento compatibilmente con un set di
osservazioni di quell’evento all’interno di un dominio di conoscenza. In quest’ultimo
sono contenute tutte le relazioni note tra una specifica un possibile posizione (luogo)
con quelle in cui sono state effettuate le osservazioni. In questo caso il numero di
osservazioni ovvero il numero degli eventi in cui si è verificato l’evento oggetto di
studio non sono spesso sufficienti per l’utilizzo del ML e del DL e per questo si ricorre
ad altri strumenti quali ad esempio le reti Bayesiane in cui a ciascun collegamento tra
una possibile posizione ed i luoghi di osservazione viene assegnata una probabilità
sulla base delle relazioni contenute all’interno del dominio di conoscenza. Un
algoritmo di questo tipo, caratterizzato da una notevole complessità computazionale,
è stato applicato40 per l’identificazione della posizione dei depositi di esplosivo
utilizzati per la fabbricazione di dispositivi IED41 utilizzati negli attentati a Baghdad a
partire dalla posizione di questi ultimi. L’esperienza dimostra infatti questi si trovano a
distanza assai limitata rispetto alla posizione del deposito.
Sebbene non si possa disconoscere che le limitazioni descritte necessitino di
approfondimenti e studi che ne aiutino il superamento non è possibile tuttavia non
concludere che l’Intelligenza Artificiale e le DNN costituiscano nel campo
dell’Intelligence Militare una risorsa essenziale e di fatto al momento unica per
districarsi nello straripante mare dei dati e delle informazioni oggi disponibili per
estrarre elementi di ulteriore conoscenza nei tempi utili al decisore (umano o meno).
c. Intelligence di Polizia - lo stato dell’arte
L’Intelligence di Polizia si presenta* come uno dei settori in cui l’utilizzo delle Big
Data Analytics e dell’IA appare maggiormente promettente ed in alcuni casi come
39 In inglese definiti come Geospatial Abduction Problems - GAP 40 Progetto SCARE (Spatio-Cultural Abductive Reasoning Engine). 41 IED: Improvised Explosive Device
67
l’unico strumento in grado di processare la grande quantità di dati ed informazioni
disponibili con l’obiettivo di ricavare ulteriori elementi di conoscenza. Sebbene, per la
mancanza della trasparenza necessaria richiesta dal GDPR della Comunità Europea,
i risultati di una Data Analytics che utilizzi l’IA per l’individuazione tra molti di un
sospettato in relazione all’evidenza di un reato non possano essere utilizzati, questa
metodologia di indagine si rivela utilissima per la sua capacità di mettere in luce
elementi di conoscenza che indirizzano specifici filoni investigativi, che aiutano ad
attuare strategie di prevenzione, a stabilire relazioni e connessioni etc. In questo
spirito vengono di seguito indicati alcuni esempi di come questo venga già realizzato
soprattutto in ambito internazionale.
A partire dai primi anni del nuovo millennio ed in particolar modo dall’attentato alle
Twin Towers ovvero dall’avvento di organizzazioni criminali in grado di eseguire
azioni terroristiche a in qualsiasi parte del globo terrestre, i governi dei principali
paesi (Stati Uniti in testa) hanno avviato e sostenuto enormi sforzi contro il riciclaggio
internazionale del denaro al fine di bloccare i flussi trans-nazionali di denaro che
alimentano organizzazioni criminali e terroristiche. Per questo le organizzazioni
criminali hanno abbandonato per i loro fini di riciclaggio il sistema finanziario per
rivolgersi al mercato commerciale globale e nei confronti di questo fenomeno le Big
Data Analytics sono uno strumento assai efficace per la loro tracciatura. Le
organizzazioni criminali infatti hanno sviluppato metodi sempre più sofisticati per
perseguire il loro scopo e solo attraverso tecniche analitiche assai raffinate possono
essere portate alla luce.
L’utilizzo di tecniche di Big Data Analytics nel settore della prevenzione dei crimini è
relativamente recente e le esperienze più significative sono soprattutto state
effettuate negli Stati Uniti. L’attività di prevenzione condotta dalle Forze di Polizia
sulla base del rischio associato a ciascuna zona all’interno di una specifica area di
giurisdizione mira al miglioramento della sicurezza pubblica individuando i luoghi
cosiddetti attrattori del rischio a partire dai dati relativi alle evidenze raccolte in
relazione a ciascuna tipologia di crimine commesso. L’insieme dei dati associati ai
crimini commessi costituisce a tutti gli effetti un ambito Big Data sia per la quantità
che per la varietà dei dati raccolti. Da essi è possibile ricavare attraverso una Data
Analytics che combina, per mezzo dell’IA, i dati dei crimini raccolti in passato con gli
indicatori demografici (disagio sociale, coesistenza multirazziale etc.) il cosiddetto
modello di rischio denominato Risk Terrain Model (RTM) in cui per ciascun punto
68
dell’area di giurisdizione viene determinata la probabilità associata a ciascuna
tipologia di crimine (omicidio, furto in casa, furto di autoveicolo etc.). Il modello viene
quindi utilizzato per predisporre strategie di deterrenza costituite dal posizionamento
nelle strade di pattuglie di presidio nelle posizioni ritenute maggiormente critiche
individuate in relazione a selezionate tipologie di crimine oggetto di contrasto. Le
posizioni delle pattuglie sono ricavate suddividendo la rete stradale urbana in unità
costitute o da tratti di strada o da incroci detti unità e calcolando per ciascuno di essi
un indice di probabilità ovvero di propensione all’occorrenza di crimini considerando:
- se trattasi di un tratto di strada o di un incrocio;
- se trattasi di un tratto di strada che interseca celle ad alto rischio individuate dal
Risk Terrain Model;
- se trattasi di un tratto di strada che interseca tratti di strada ad alto rischio;
- il coefficiente di disagio sociale dell’intorno del tratto di strada;
- il coefficiente di eterogeneità sociale dell’intorno del tratto di strada;
- il numero di interventi eseguiti in passato dalla polizia a seguito di un evento
criminale in quel tratto di strada;
- il numero di interventi proattivi eseguiti dalla polizia in passato in quel tratto di
strada.
Dalla distribuzione geospaziale dei valori dell’indice si individuano le zone (aggregati
di unità) con maggiore propensione al verificarsi di eventi criminali di ciascuna
tipologia. I risultati di queste esperienze, condotte in un certo numero di città degli
Stati Uniti (Colorado Springs, Glendale, Newark, Kansas City) si sono mostrati assai
incoraggianti producendo una significativa riduzione dei crimini della tipologia per la
quale la strategia di contrasto era stata predisposta.
Tra i metodi investigativi che generano i maggiori volumi di dati ed informazioni
figurano le intercettazioni delle comunicazioni telefoniche, le intercettazioni
ambientali e l’utilizzo dei cosiddetti captatori informatici ovvero di applicazioni
software che vengono installate sui dispositivi mobili personali all’insaputa
dell’utilizzatore da parte dell’Autorità Giudiziaria allo scopo di carpire dati42 da
remoto. I dati e le informazioni ricavate attraverso queste metodologie si presentano
massimamente non strutturati ed una parte fondamentale del processo di estrazione
di conoscenza avviene attraverso l’analisi di testi ricavati dalle trascrizioni del
materiale raccolto attraverso le intercettazioni. Talvolta in questo ambito è richiesto
42 La tipologia di dati che possono essere raccolti può essere decisa a priori da chi ha disposto
l’installazione del captatore informatico; da un punto di vista tecnico non esistono limiti alla tipologia dei dati che possono essere raccolti.
69
anche l’aiuto di tecniche criptografiche, ma nel linguaggio parlato tuttavia le
informazioni vengono frequentemente criptate semplicemente trasponendo il
significato semantico di idee e concetti. Molto spesso ciò porta a frasi sintatticamente
corrette ma prive di alcun significato logico ed in questo contesto è
fondamentalmente importante ricavare le relazioni che intercorrono tra i soggetti e le
entità, dette ontologie, citate all’interno delle conversazioni per poi provare a
decodificare la trasposizione. Per questo è sempre più frequente l’utilizzo nelle Text
Analytics di tecniche di IA che analizzano da una parte la comunicazione secondo le
modalità precedentemente descritte e dall’altra ne ricavano le ontologie sotto forma
di grafi di conoscenza.
d. Punti di intersezione
La tendenza nata con la Business Intelligence di orientare le decisioni di
un’Azienda/Organizzazione a partire dai dati ha pervaso ormai praticamente tutte le
attività umane.
Appare evidente dalla breve rassegna del panorama applicativo delle Big Data
Analytics nell’ambito civile della Business Intelligence, in quello dell’Intelligence
Militare ed in quello nell’Intelligence di Polizia come da una parte questa metodologia
di indagine sia sempre più diffusa e come dall’altra l’utilizzo di tecniche di Intelligenza
Artificiale sia diventato sempre più pervasivo in questa tipologia di analisi costituendo
in taluni casi l’unica prospettiva percorribile allo stato attuale per ricavare nuovi
elementi di conoscenza non noti a priori contenuti nei dati e nelle informazioni
raccolte. Al di là delle specificità dei singoli ambiti gli elementi comuni sono in effetti
la metodologia stessa delle Big Data Analytics, le tecnologie e l’organizzazione
retrostante che ne abilitano l’esecuzione. La metodologia alla base delle Big Data
Analytics prende spunto da un nuovo approccio epistemologico basato da una parte
sulla multidisciplinarità e dall’altra su una conoscenza per esperienza che l’enorme
quantità di dati ed informazioni oggi a disposizione ha reso possibile. Per anni
impegnati alla ricerca delle leggi che governano l’universo quale estrema astrazione
del processo cognitivo ed unico vero mezzo per coglierne l’essenza, i dati ci hanno
consentito di riscoprire l’euristica e di fare a meno della legge del fenomeno che
rimane nascosta all’interno dei dati e che non siamo più in grado di scrivere ma che
possiamo comunque affermare di conoscere. E’ una forma di conoscenza alternativa
che appare più grezza ed imperfetta, ma non per questo meno efficace. Anzi i dati
spesso ci spiazzano e vanno oltre e l’imbarazzo di non riuscire a costruire un
70
modello logico comprensibile sulla realtà che essi ci indicano ci immobilizza, ma di
cui non dobbiamo avere paura: è una scienza nuova, è la scienza dei dati.
Al di là dell’aspetto filosofico, non bisogna disconoscere l’aspetto tecnologico ed
organizzativo che ci ha condotto sino a questo punto; le capacità di gestione e di
manipolazione di quantità di dati così grandi ha richiesto grandissimi sforzi e seppur
ancora migliorabile ad essa si deve oggi la possibilità di estrarre conoscenza dal
secchio dei rifiuti. Così erano considerati fino a poco tempo fa i dati non strutturati e
la ferma convinzione che anch’essi avrebbero potuto contribuire alla causa
dell’estrazione della conoscenza ci ha indotto a costruire le tecnologie ed
organizzazione per ri-rovesciare nel piatto quanto contenuto nel secchio
riconoscendo che nel togliere la buccia avevamo gettato buona parte del frutto.
L’insegnamento più sottile e probabilmente più prezioso che viene dal settore civile
risiede nel fatto che l’organizzazione necessaria per l’approccio alle Big Data
Analitycs richiede tuttavia maturità e coordinamento: la maturità della cultura del
valore dei dati e della loro condivisione ed il coordinamento necessario per distribuire
lo sforzo computazionale. Il valore dei dati, al di là dell’aspetto economico legato al
loro sfruttamento per fini commerciali, è facilmente comprensibile poiché all’interno
del nuovo paradigma di conoscenza i dati contengono la conoscenza e per questo
essi devono essere accessibili, interpretabili e continuamente disponibili per il riuso.
Nessun Ente, inoltre, è in grado da solo né di archiviare né di elaborare l’enorme
volume dei dati e delle informazioni richiesti in questo approccio. Moltissime delle
fonti utilizzate per le Data Analytics nel settore civile sono aperte e, laddove
necessario, l’acquisto dei dati viene attentamente valutato in funzione del vantaggio
e del valore che l’estrazione di ulteriore conoscenza comporta.
La trasposizione di questo concetto all’ambito governativo dell’Intelligence Militare e
di Polizia richiede il riconoscimento del dato come valore effettivo e centrale del
contesto Intelligence e la predisposizione di un ambiente operativo distribuito che
garantisca da una parte il raggiungimento degli obiettivi e dall’altra il rispetto del
principio del need to know. In questo contesto, l’ambiente operativo distribuito
contiene al suo interno sia le competenze sia la volontà di predisporre apparati e
sistemi hardware e software interconnessi tra loro da reti iperveloci che, seppur
afferenti a soggetti diversi possono essere resi disponibili attraverso un meccanismo
di orchestrazione generale per partecipare all’esecuzione delle Data Analytics che
possono essere o di interesse comune, perché direttamente collegate alla Sicurezza
Nazionale, o di interesse dei singoli settori. D’altro canto il paradigma del calcolo
71
distribuito per i Big Data non richiede necessariamente la predisposizione di mega-
piattaforme, ma solo che sia le piccole piattaforme che quelle più grandi possano,
alla bisogna, essere messe a fattor comune per realizzare la capacità elaborativa
richiesta anche considerando le risorse che possono essere reperite sul Cloud che
consentirebbero di realizzare piattaforme effettivamente “liquide”.
La costruzione delle competenze nell’ambito della Data Science rimane una delle
sfide maggiori da affrontare e per le quali il settore civile si presenta estremamente
più agile rispetto a quello governativo. Quest’ultimo, in particolare nel settore
dell’Intelligence non può prescindere da competenze interne che deve costruire e
strutturare necessariamente in un processo a due fasi in cui nella prima:
- si individuano quali tra le risorse umane più giovani e già preparate dedicare alla
Data Science;
- riconvertendo alcune di quelle con maggiore esperienza già presenti;
- ricorrendo alla collaborazione esterna con l’Industria e con l’Accademia e nella
seconda avviando percorsi interni specificamente dedicati alla Data Science.
e. Prospettive future
L’utilizzo della Data Analytics offre potenzialmente prospettive enormi di sviluppo nel
campo dell’Intelligence Militare e di Polizia e con esse importanti sfide. L’accesso a
questa nuova dimensione non può prescindere dai seguenti elementi abilitanti:
- l’adozione di un’organizzazione data-centrica per l’elaborazione e l’analisi dei dati
e delle informazioni ovvero che riconosca i dati come un assetto chiave nell’ambito
dell’Intelligence. Ciò implica:
o l’introduzione di figure professionali (Data Scientist) specificamente dedicate a
garantirne l’accesso, l’interpretabilità e la continuità disponibilità per il loro riuso
ed a partecipare con gli analisti allo sviluppo della Data Analyitcs;
o l’eliminazione di qualsiasi forma di protezione dei dati rispetto a vincoli di natura
applicativa per accedere ai dati ed interpretarli secondo i canoni di sicurezza
desiderati ovvero i dati devono essere accessibili, interpretabili e sicura senza
dipendere da alcuna applicazione secondo quanto stabilito nel manifesto “Data
Centric”;
- la necessità di costituire una piattaforma di calcolo distribuita per l’Intelligence a
livello Difesa per l’elaborazione delle Data Analytics e che sia in grado di accedere
ai dati ed alle informazioni dei singoli ambiti disciplinari in maniera semplice ed
intuitiva;
72
- la necessità di realizzare un archivio di dati ed informazioni distribuito di facile
accesso con organizzazioni di dati e metadati associati, standardizzati e supportati
da un servizio di directory per indirizzare gli utenti verso le diverse aree tematiche
per le quali le informazioni sono disponibili;
- l’attenzione costante verso il riuso delle applicazioni attraverso la loro massima
configurabilità ed adattabilità al contesto operativo. Si fa esplicito riferimento in
questo senso alle applicazioni di Data Analytics che utilizzano algoritmi di Machine
Learning e Deep Learning che attraverso operazioni di riaddestramento possono
essere efficacemente riutilizzate e riadattate a contesti diversi. Si immagini ad
esempio il caso della possibilità di riconversione di un’Analytics sviluppata per il
riconoscimento di entità od oggetti nelle immagini da satellite inizialmente
addestrata per l’individuazione di veicoli, a quella della presenza di uomini a piedi
con armamento spalleggiabile;
- la codifica degli algoritmi in linguaggi appropriati, comuni a tutti i settori disciplinari
e che gli analisti partecipino loro stessi alla codifica per adattare al meglio gli
algoritmi al contesto operativo e per questo è necessario un percorso di
riadattamento e riaddestramento ad essi specificamente dedicato;
- la costante attenzione verso il settore della ricerca e sviluppo per avere
costantemente la consapevolezza dell’affidabilità degli strumenti utilizzati per le
Data Analytics in relazione alle capacità di spoofing messe a punto nei loro
confronti nel panorama internazionale. Un filone che si è andato sviluppando in
questo senso è quello dell’Adversarial Machine Learning che ha come obiettivo
quello di produrre segnali in ingresso tali da confondere i sistemi di IA
nell’espletamento della loro funzione.
Sebbene sia fisiologico che una cospicua parte dei dati e delle informazioni raccolte
vengano archiviate senza che da esse venga estratta alcuna ulteriore conoscenza, e
ciò sarà tanto più vero quanto maggiori saranno i dati generati, questa percentuale
sarà tanto più ridotta quanto maggiore e trasversale sarà il coinvolgimento di tutti gli
attori nel panorama dell’Intelligence.
73
5. LE ESPERIENZE ISTITUZIONALI NEL SETTORE
a. Progetto UE Copernicus
Nel paradigma della Data Science, i dati e le informazioni sono conoscenza e per
questo fonti di dati aggiornate ed attendibili costituiscono una risorsa di
fondamentale importanza nell’ambito delle Big Data Analytics. Giova citare a tal
proposito lo sforzo del progetto Copernicus, avviato dall’Unione Europea.
Copernicus è un programma mirato all’osservazione della Terra attraverso un
insieme complesso di sistemi che raccolgono informazioni da molteplici fonti ovvero
da satelliti di osservazione e da sensori di terra, di mare ed aviotrasportati.
Attraverso l’integrazione e l’elaborazione di questi dati ed informazioni vengono
realizzati una serie di servizi per la fornitura agli utenti istituzionali ed all’industria di
informazioni aggiornate ed affidabili che attengono all’ambiente, al territorio ed alla
sicurezza. Non secondario è, inoltre, l’obiettivo di raggiungere una sostanziale
indipendenza nel rilevamento e nella gestione dei dati relativi allo stato di salute del
pianeta, supportando le necessità delle politiche pubbliche europee attraverso la
fornitura di servizi precisi ed affidabili. I servizi disponibili spaziano all’interno di sei
aree tematiche: il suolo, il mare, l’atmosfera, i cambiamenti climatici, la gestione
delle emergenze e la sicurezza. Tutti sono erogati da operatori incaricati dalla
Commissione Europea e comprendono una vasta teoria di applicazioni sviluppate a
beneficio delle aree urbane, della pianificazione regionale e locale, dell’agricoltura,
della pesca, della silvicoltura, della salute, dei trasporti, dei cambiamenti climatici,
dello sviluppo e della Protezione Civile.
La vastità dei dati e delle informazioni rese disponibili dai servizi del progetto
Copernicus costituirà una fonte di fondamentale importanza da cui trarre dati ed
informazioni per alimentare il Data Lake e costruire le Analytics per estrarre ulteriori
elementi di conoscenza.
b. Tecniche NATO Intelligence Fusion Center
La fusione dei dati e delle informazioni raccolte nell’ambito dell’Intelligence Militare
ha subito nel corso degli ultimi 20 anni una significativa evoluzione. Il contesto
dell’Alleanza costituisce uno scenario privilegiato poiché in esso confluiscono le
esperienze positive provenienti dai diversi Paesi Membri maturate nel corso dello
sviluppo dei sistemi nazionali, sviluppati per lo scopo analogo.
74
E’ molto interessante, sotto questo aspetto, la traiettoria del concetto di Fusion
Center all’interno della NATO negli ultimi 20 anni. L’introduzione di questo concetto
avvenne all’indomani dell’attentato delle Twin Towers a New York nel 2001, con
una connotazione spiccatamente operativa. In questo ambito l’elemento cardine
della fusione delle informazioni era un Geographic Information System che aveva il
compito di collocare, nello spazio e nel tempo, le informazioni afferenti alle
tematiche provenienti dal Teatro contenute in ciascun layer, soprattutto in relazione
al monitoraggio ed alla pianificazione delle operazioni, per avere una visione
operativa comune (Common Operating Picture). La sovrapponibilità dei layer e la
capacità di condurre analisi rendevano assimilabile questo strumento alle strutture
OLAP43 utilizzate per il Data Mining, consentendo entrambe di rivelare appunto
relazioni geospaziali presenti all’interno dei dati non note a priori.
Con il passare del tempo, il concetto si è consolidato ed è stato altresì diffusamente
utilizzato all’interno del ciclo di Intelligence Militare per integrare i contributi delle
diverse fonti, ma via via che si è passati a modalità di estrazione della conoscenza
sempre più sofisticate ed evolute, la possibilità della predisposizione di
un’infrastruttura di capacità adeguate alle ambizioni dell’Alleanza sono state
progressivamente accantonate e confinate al contributo dei singoli Paesi Membri.
Per questo motivo, seppure di interesse, una struttura in grado di eseguire Big Data
Analytics attraverso l’impiego di Machine Learning e Deep Learning ed Ontologie,
non è presente in ambito NATO.
La difficoltà è riconducibile da una parte agli sforzi organizzativi e di coordinamento
necessari per predisporre l’infrastruttura ispirandosi agli elementi precedentemente
descritti e dall’altra alla necessità di rivedere il ruolo della NATO nel panorama
internazionale, in un contesto in cui sono sempre di più gli attori che privilegiano
l’ambito nazionale rispetto a quello comune. Questo secondo aspetto ha impedito di
applicare a questa causa il paradigma del calcolo distribuito, in cui ciascun Paese
avrebbe potuto rendere disponibili e condividere una certa quantità di risorse da
dedicare per gli scopi dell’Intelligence Militare.
43 OLAP: Online Analytical Processing: sistema che disegna un insieme di tecniche software
per l’analisi interattiva e veloce di grandi quantità di dati.
75
6. ESPERIENZE INDUSTRIALI NEL SETTORE
Il capitolo descrive i sistemi braINT e SEonSE che costituiscono i riferimenti primari
per le applicazioni di acquisizione, elaborazione ed utilizzo avanzato delle informazioni
satellitari. In linea di principio, i due sistemi, attraverso e a seguito della loro
correlazione con fonti alternative ed impiegando metodi di intelligenza artificiale per
trarre elevato contenuto informativo sintetico, da una quantità di dati di principio molto
elevata e non utilizzabile senza questo tipo di azione di analisi e sintesi automatica,
consentono di ottenere un elevato valore aggiunto, particolarmente interessante per il
settore industriale in senso lato.
Il capitolo descrive in dettaglio i due sistemi, spiegandone architettura, modalità
operative offerte e parametri di funzionamento di massima.
a. Programma braINT
Il sistema braINT è la soluzione e-GEOS dedicata alle applicazioni IMINT satellitari
(IMagery INTelligence - attività di raccolta di informazioni mediante l'analisi di
fotografie aeree o satellitari) e fornisce un modo innovativo per ottenere un facile
accesso alle funzionalità di telerilevamento a supporto degli utenti della difesa e
dell'intelligence.
La piattaforma braINT è un'architettura software distribuita, progettata e sviluppata
per supportare l'analista IMINT Imagery (IA) attraverso l'intero processo di Imagery
Intelligence, ovvero a partire dalla ricezione della richiesta di informazioni (RFI) fino
all'invio del rapporto finale.
Il cuore del sistema è l'implementazione e l'esecuzione di flussi di lavoro operativi
che supportano l'utente fin dall'inizio dell'attivazione di IMINT (ovvero la ricezione di
una specifica RFI), fino all'invio dei risultati dell'analisi, in altri termini, il rapporto
IMINT prodotto.
I flussi di lavoro IMINT che sfruttano le informazioni sui dati satellitari sono
caratterizzati da una serie di attività, tra le quali:
- identificazione della procedura operativa in base alla RFI ricevuta;
- pianificazione dell'acquisizione di immagini satellitari;
- recupero e omogeneizzazione di informazioni accessorie (ovvero immagini e
informazioni open source);
- preparazione dei dati SAT (ovvero pre-elaborazione delle immagini SAT);
- interpretazione visiva e analisi dei prodotti di osservazione della Terra;
76
- produzione e spedizione del report.
Il sistema braINT consente una gestione centralizzata delle risorse operative e
porta alla elaborazione di un flusso di lavoro “operativo” basato non solo
sull'esecuzione di ogni singola attività del flusso di lavoro stesso, ma anche sulla
gestione delle risorse operative. Attraverso il processo accentrato, il braINT
consente di realizzare il:
- monitoraggio continuo dello stato del flusso di lavoro in esecuzione;
- analisi storica delle attività operative svolte (capacità di data mining);
- identificazione automatica dell'operatore/analista appropriato e la conseguente
assegnazione dell'attività da eseguire sulla base di regole predefinite
(personalizzabili) come:
o Esperienza di analista;
o Competenze degli analisti.
Il principio fondamentale utilizzato come linea guida durante la progettazione della
piattaforma braINT è la modularità. La piattaforma è progettata per essere
configurata in base alle esigenze dell’utilizzatore stesso. In particolare, ciascuna
delle attività elencate in precedenza viene eseguita da un modulo indipendente
dedicato, che può essere gestito come soluzione autonoma o facilmente integrato
nelle catene operative proprie dell’utilizzatore.
Scendendo nel dettaglio dell’aspetto tecnico, la piattaforma braINT si compone di
una serie di moduli, quali:
- software di gestione del flusso di lavoro (braint workflow manager software,
bWM);
- componenti operativi, ciascuno gestito direttamente dal bWM o dal relativo
modulo che verrà descritto nelle successive sezioni:
o Collector: pianificazione dell'acquisizione dei dati di telerilevamento
satellitare e recupero dell'archivio.
o Producer: elaborazione dati SAR VHR e OPT e creazione di valore aggiunto
o Analyst: Interpretazione dei dati di valore aggiunto e analisi IMINT.
Il seguente schema descrive l'architettura logica della piattaforma braINT:
77
Figure 1: braint logic high-level architecture
L’architettura descritta, progettata per essere scalabile ed espandibile per crescere
facilmente nel tempo, è composta principalmente da processori automatici e semi-
automatici, proprietari e-GEOS, ad alte prestazioni, workflow operativi e pacchetti
software COTS per lo sfruttamento di dati multi-missione/multi –sensori. L’intera
struttura è concepita per generare prodotti e servizi a valore aggiunto in diversi
domini applicativi. Nella tabella seguente è riportata una descrizione sintetica di
ciascuna funzione logica della piattaforma:
Function Task Expected input Provided Output
Collector Definizione del
piano di
acquisizione da
satellite, secondo I
requisiti IMINT
applicabili
Imagery
characteristics
satellitare
Piano di acquisizione
da satellite
Producer Preparazione dati
satellitari
-Dati satellite
imagery grezzi
-Parametri di
processazione
Sat VA image products
(prodotti di imagine
satellitare a valore
aggiunto)
78
Table 1: Descrizione sintetico dei moduli operative di braint
Tornando alla descrizione delle componenti del sistema braINT e quindi più
specificatamente del bWM - braint Workflow Management System –
preliminarmente è necessario specificare che il bWM gestisce tutti i compiti
necessari all'esecuzione di un flusso di lavoro operativo.
In termini concreti, il sistema consente agli operatori della piattaforma di:
- gestire una RFI;
- selezionare e inizializzare il flusso di lavoro corretto;
- assegnare compiti specifici;
- monitorare lo stato di esecuzione dell'attività;
- accedere all'interfaccia grafica dei moduli interattivi;
- eseguire e gestire attività automatiche;
- catalogare i prodotti generati e i dati acquisiti;
- accedere ad archivi esterni adeguatamente strutturati e definiti.
Il braINT workflow Manager è il sistema operativo concepito per lo sfruttamento
delle immagini satellitari all'interno del campo di applicazione IMINT.
Concretamente è una procedura composta da attività consecutive e / o parallele
progettate per estrarre dalle immagini satellitari le informazioni di interesse richieste
nella RFI.
Le attività principali del workflow manager sono:
- gestione del flusso di lavoro eseguibile, assegnazione delle risorse e
impostazione dell'ambiente di lavoro;
- gestione delle attività operative: esecuzione dell'elemento di lavoro automatico
e gestione delle azioni manuali che devono essere eseguite dall'operatore e
dagli IA coinvolti;
Analyst Prodotto Value-
added ottenuto da
interpretazioni di
remote sensing
IMINT
- SAT VA image
products
- IMINT
interpretation
WorkFlow
IMINT Report
bWM Workflow execution
Management
RFI Workflow set-up,
assegnazione task,
invio report
79
- monitoraggio e controllo dell'attività operativa: controllo qualità e approvazione
dei prodotti intermedi, analisi delle prestazioni e monitoraggio di ciascun modulo
operativo.
La procedura brevemente descritta è suddivisa in tre sotto-procedure secondo le tre
fasi operative descritte nella sezione precedente:
- assegnazione dei dati satellitari / recupero dell'archivio e raccolta e
omogeneizzazione di dati non satellitari;
- elaborazione dei dati satellitari e generazione di prodotti a valore aggiunto;
- interpretazione visiva del prodotto e analisi IMINT con il supporto di strumenti
dedicati e l'integrazione dei dati non satellitari omogeneizzati.
Un esempio di set preliminare di WFs operativi, già implementato nel braint WF
manager si riferisce alle famiglie di attività IMINT già analizzate:
Figure 2: Attività IMINT: Descrizione delle 5 famiglie fondamentali
Le componenti operative introdotte (Collector-Producer-Analyst) intervengono in
una interazione continua di dati e elementi che portano allo sviluppo dell’output
braINT. Descrivendo singolarmente le componenti indicate, in estrema sintesi si
individua nel:
80
- collettore; il componente che consente la definizione del piano di acquisizione
dei dati satellitari secondo i requisiti della RFI o una richiesta specifica. Il braINT
Collector consente lo sfruttamento delle funzionalità del bWM relative
all'accesso al catalogo o agli archivi esterni adeguatamente strutturati e definiti,
al fine di supportare l'operatore nella selezione dei dati, verificando la
disponibilità dei dati di archivio nell'area di interesse. Utilizzando il modulo
Collector, l'operatore può anche raccogliere dati esterni. Braint Collector ha un
componente server, il motore Collector e la GUI di Collector;
- Producer; il componente essenziale per la generazione di dati satellitari a valore
aggiunto. Questo si compone di ulteriori sottocomponenti, in questo elaborato
solo elencati per semplicità di trattazione, tra I quali:
o Motore di produzione (Producer Engine) - componente server che fornisce
sw proprietario e-GEOS per la generazione di dati a valore aggiunto da
satellite;
o Producer GUI - interfaccia per l'interazione con l'operatore;
o COTs; insieme di software forniti per consentire il controllo di qualità (QC) e
l'elaborazione di dati specifici;
- Analyst; componente essenziale che consente l'interpretazione di Imagery
Anlayst dei prodotti a valore aggiunto generati e dei dati raccolti esterni.
La piattaforma braINT garantisce un accesso sicuro attraverso uno strumento
dedicato per l'Autenticazione, l'Autorizzazione e l’Accounting (AAA).
Come già anticipato, la piattaforma è strutturata per offrire la soluzione e-GEOS alle
applicazioni IMINT satellitari; nel suo insieme, come riportato nella premessa
descrittiva della piattaforma braINT, fornisce un modo innovativo per ottenere un
facile accesso alle funzionalità di telerilevamento a supporto degli utenti della difesa
e dell'intelligence.
Volendo sviluppare il concetto IMIN-T, la pianificazione dell'acquisizione dei dati
satellitari e / o il recupero dei dati archiviati è il primo passo del flusso di lavoro
interno e rappresenta la fase cruciale per la corretta esecuzione del compito.
L'interfaccia del servizio utente e-GEOS (USI) è un insieme di interfacce Web per
aiutare gli utenti a trovare e ordinare prodotti distribuiti da e-GEOS. È gestito
direttamente da bWM che ne configura l'elenco di parametri per definire il piano di
acquisizione dati specifico al fine di soddisfare la RFI che ha innescato il flusso di
81
lavoro. Il bWM traduce i requisiti RFI in un elenco di parametri necessari per la
definizione del piano dati contenente, distinguendoli in:
- requisiti operativi appartenenti all'attività IMINT, quali:
o forma AOI (Area of Interest) ed estensione geografica;
o finestra temporale;
o tempo di osservazione preferito (ad es. mattina / sera);
o tipo di target (ad es. categorie STANAG 3596), evento e attività di interesse;
o tempo disponibile per l'esecuzione dell'intero flusso di lavoro e per la fase di
pianificazione e raccolta;
o il set completo di parametri per eseguire un'acquisizione OPT.
- set completo di parametri da definire durante l'impostazione di un piano di
acquisizione satellitare SAR, ad esempio:
o missione satellitare preferita e relative caratteristiche del sensore SAR (ad
es. lunghezza d'onda del segnale, larghezza di banda);
o modalità di acquisizione;
o configurazione polarimetrica preferita;
o passaggio dell'orbita satellitare suggerito (crescente/decrescente) e direzione
del sensore (destra / sinistra);
o angolo off-nadir o set preferito di angoli off-nadir;
- configurazione Multiple collections:
o coppia / serie interferometrica;
o serie interferometriche personalizzate (ad es. serie di coppie a intervallo di
tempo fisso, come una coppia ogni mese);
o serie interferometriche complesse (ad esempio serie interlacciate con
geometrie diverse, coppia di serie con diversa configurazione geometrica
come diversi angoli di incidenza o direzione opposta dell'illuminazione);
o radargrammetric pair / triple;
o coppia stereo;
o set stereo / radargrammetrici complessi (ad es. coppia di coppie stereo
radargrammetriche / triple);
o acquisizioni senza vincoli geometrici;
o intervallo di tempo di acquisizione preferito tra le acquisizioni in caso di più
raccolte (ad es. breve, medio, lungo o una combinazione di esse).
Per supportare anche la fase di raccolta dei dati satellitari, saranno definiti anche:
o il numero complessivo di dati SAR satellitari da acquisire;
82
o un elenco di possibili eventi indesiderati che possono verificarsi con la
metodologia da attuare per gestire le eccezioni (ad es. rifiuto o mancata
acquisizione dei dati satellitari);
o la scadenza temporale per l'invio di ogni richiesta di acquisizione dati SAR
satellitare al fine di rispettare i tempi ufficiali di ordinazione della missione di
telerilevamento selezionata.
Altro aspetto, che si ritiene utile approfondire per meglio descrivere l’apporto del
sistema braINT, è quello riferito al Data and Metadata manageent System (DMMS).
In altra parte dell’elaborato si è trattato di Metadata descrivendone ampiamente il
significato e la portanza; in questo ambito specifico, rimanendo quindi nella
descrizione del sistema braINT, il modulo DMMS è realizzato per soddisfare i
requisiti di gestione di dati, documenti e metadati. In altri termini, rappresenta il
catalogo della piattaforma ed è progettato per la gestione di tutti i dati geospaziali e
non geospaziali necessari per la corretta esecuzione delle fasi operative dei flussi di
lavoro.
La piattaforma sfrutta quindi servizi dedicati per la creazione, il caricamento, la
modifica, la ricerca e l'eliminazione di documenti, dati e relativi metadata, offrendo
servizi classici per la gestione dei documenti e, inoltre, servizi di utilità per la
gestione dei metadati dei documenti.
Il DMMS in particolare, è a sua volta caratterizzato da due diversi componenti:
- Metadata Manager; responsabile dell'estrazione, aggiunta e memorizzazione
delle informazioni sui metadati (core e aggiuntive) per una migliore
caratterizzazione e completamento del contenuto caricato44;
- Document Manager; pensato per assicurare le operazioni di base sui documenti
(operazioni CRUD, Create, Read or Retreave, Update, Delate or Destroy).
Terminata la descrizione del braINT, allo scopo di darne un concreto esempio di
funzionalità, restano da introdurre i concetti di Layers e di interfaccia propri del
Sistema braINT. In questo contesto, si inseriscono i Producer Engine e i braINT
interactive layers da un lato e dall’altro i braINT data collection GUI, i braINT
Processing GUI e il braINT Analysis GUI.
44 I metadati principali sono quelli relativi e specifici al singolo flusso di lavoro in esecuzione (o
caso) mentre quelli aggiuntivi si riferiscono a metadati specifici per documento;
83
Il Producer Engine si basa sul framework distribuito e-GEOS per l'analisi e
l'elaborazione dei dati. Questo componente è progettato per essere modulare,
general purpose ed è attualmente utilizzato in e-GEOS per servizi operativi dedicati
alla gestione, visualizzazione ed elaborazione dei dati SAR. In particolare, è in
grado di leggere, calibrare e geocodificare i dati dalle missioni SAR più rilevanti sul
satellite. La capacità di elaborazione di Producer Engine va dall'analisi dei dati di
base e alla preelaborazione per la valutazione della qualità, la navigazione delle
immagini (image browsing) e il miglioramento all'elaborazione algoritmica avanzata
come:
- elaborazione di dati SAR di base:
o coregistrazione;
o calibrazione;
o geocodifica e orto-correzione;
o catalogazione dei dati.
- elaborazione dati SAR multi-temporale:
o mappa di rilevamento del cambiamento di ampiezza, per siti chiave e
monitoraggio dei target e rilevamento delle attività umane;
o mappa multi-temporale coerente, per siti chiave avanzati e capacità di
monitoraggio degli obiettivi e caratterizzazione delle attività sul terreno (ad
es. analisi del terreno disturbato);
o coerenza interferometrica e interferogramma;
o gestione dello stack multi-temporale.
- sfruttamento avanzato dei dati SAR.
84
Figure 3: Prodotti a valore aggiunto SAR Basic e SAR Multi-Temporal generabili con
I moduli braint Producer
Il braINT Interactive fornisce al personale operativo della piattaforma le interfacce
necessarie per interagire con il bWM al fine di:
- gestire le attività del Workflow;
- eseguire attività del flusso di lavoro;
- eseguire il controllo di qualità dell'output di un singolo task.
L’interfaccia braINT collection GUI è stata progettata per consentire all'operatore di
effettuare una revisione critica del piano di acquisizione dati generato
automaticamente dal motore di raccolta. I risultati vengono presentati con una
logica di classificazione in base ai parametri impostati da bWM in conseguenza dei
requisiti del workflow IMINT. I risultati sono presentati come Data Take
Opportunities (DTO) che indica:
- impronta del DTO in forma geografica;
- metadati rilevanti come supporto per le scelte di Collection Manager.
85
Figure 4: Collector GUI
L’interfaccia Processing GUI è stata progettata per consentire all'operatore dedicato
di eseguire il controllo di qualità dei prodotti a valore aggiunto generati da eMAGE
come passaggio automatico del workflow gestito da bWM.
Sono forniti COTs dedicati per:
- visualizzazione dei prodotti a valore aggiunto ed esecuzione del controllo
qualità;
- rielaborazione dei dati in caso di CQ negativo;
- esecuzione specifica dell'attività del flusso di lavoro.
L’interfaccia Analysis GUI è stata progettata per supportare completamente l'IA
durante l'analisi e l'interpretazione di IMINT del prodotto a valore aggiunto generato
attraverso i dati satellitari.
L'interfaccia di Analisi braINT fornisce, quindi, le linee guida per l'analista di
immagini per eseguire l'attività attraverso una guida visiva che mostra le principali
regole di interpretazione. COTS software vengono forniti per consentire all'analista
di immagini la creazione di un ambiente di analisi adeguato per produrre un
rapporto IMINT conforme alla RFI.
Il risultato finale della fase di analisi IMINT è il rapporto IMINT. Esso contiene
informazioni estratte dall'analista IMINT dai prodotti a valore aggiunto (integrati, se
disponibili, con informazioni accessorie) forniti dalla funzione producer e generati
dai dati acquisiti con le funzioni di raccolta. La combinazione di tutte le fonti di
86
informazione descritte con gli strumenti di analisi forniti dal braint analyst, porta a un
report che soddisfa la RFI iniziale che ha innescato l'esecuzione del flusso di lavoro
operativo.
Nella tabella seguente è riportata una descrizione sintetica dei prodotti disponibili.
Come menzionato in precedenza, l’elenco indicato può essere ulteriormente
ampliato e / o personalizzato durante la fase preoperativa in base alle esigenze
dell'utente finale.
Figure 5: Lista preliminare dei Reports generabili
I report vengono forniti all'utente finale (l'autore della RFI o un'altra entità
autorizzata) secondo il format concordato, chiudendo l’interazione venutasi a
creare.
b. Programma SEonSE (Smart Eyes on the Seas)
Il sistema SEonSE (Smart Eyes on the Seas45) è la nuova piattaforma di
sorveglianza marittima e-GEOS, strutturata per fornire un modo innovativo di
45 http://www.e-geos.it/SEonSE, ultimo accesso 23 marzo 2020.
87
accesso ai servizi marittimi, consentendone la personalizzazione e quindi
customizzazione delle regole di esercizio, come ad esempio le notifiche di allerta
precoce, basate sui criteri definiti e richiesti direttamente dagli utenti.
La piattaforma, che integra i dati AIS terrestri e satellitari include una serie di moduli
di elaborazione, che nell’ambito dell’elaborato vengono soltanto elencati,
rinviandone la eventuale trattazione di dettaglio ad eventuali ulteriori
approfondimenti da sviluppare in altri contesti:
- rilevamento e classificazione delle navi;
- rilevazione e classificazione di fuoriuscite di petrolio;
- SAR Wind and Wave (modulo per recuperare la stima dei campi Wind e Wave
sul mare dai dati SAR);
- Activity Mapper Aid Tool (compresi rilevamento delle modifiche e mappa
coerente multi-temporale) per analizzare sia le immagini satellitari SAR che
quelle ottiche;
- generazione di report.
In termini schematici, la piattaforma si compone del:
- motore SEonSE; si tratta di un modulo dedicato alla generazione di prodotti a
valore aggiunto conseguiti elaborando dati grezzi forniti in input. Il modulo, in
altri termini, fornisce le capacità di estrazione delle caratteristiche marittime
rilevate, supportando gli operatori con procedure automatiche e supervisionate,
offrendo flessibilità nella personalizzazione del report di output. Attraverso il
SEonSE Engine, vengono elaborati e integrati un complesso di dati. Il motore è
progettato per essere modulare, adattabile e fungibile alle esigenze
dell’utilizzatore finale. Ad oggi, viene proficuamente utilizzato per la fornitura di
servizi operativi dedicati alla gestione, visualizzazione e all'elaborazione di dati
SAR e ottici.
La consegna dei prodotti di output viene eseguita attraverso un modulo di
reporting che consente di personalizzare i prodotti in vari formati che vanno dal
semplice HTML al KML, ai formati classici di dati geografici come ESRI
Shapefile e GeoTIFF.
Il modulo SEonSE Engine è un multi-sorgente, in altre parole un Sistema che
“ingerisce” dati da diversi tipi di piattaforme (ad esempio: satelliti, torrette
Elettro-Ottiche) consentendone una versatilità multi-missione (ad esempio:
88
elabora sia i dati SAR che i satelliti ottici), integrando dati ausiliari, come dati
identificativi delle navi e met-ocean e dati open source.
- portale SEonSE; in breve, un modulo dedicato allo sfruttamento e alla
consulenza dei prodotti a valore aggiunto da parte di un modulo gestore di
facile utilizzo che offre funzionalità per la ricerca, la visualizzazione, l'analisi, il
filtro e l'interrogazione di tutti i contenuti disponibili.
Il modulo “portale” offre una serie di funzionalità principali, fornendo un output di
Report generati in rapporti PDF, con layout personalizzabile, comprese
informazioni sul periodo di tempo monitorato, il numero e l'estensione
geografica delle acquisizioni satellitari, nonché delle navi rilevate e delle
fuoriuscite di petrolio.
In termini di moduli disponibili, a seguire se ne riporta un’elencazione esaustiva,
finalizzata alla rapida comprensione della estrema versatilità del portale stesso:
- inserimento automatico dei dati; il modulo è in grado di ingerire
automaticamente i report marittimi disponibili interfacciando le fonti di
informazioni preconfigurate;
- calcolo della traccia storica e prevista; il modulo offre la possibilità di calcolare
la traccia storica di un target identificato applicando una correlazione spazio-
temporale e la traccia prevista per target identificato e sconosciuto
propagandone la posizione;
- configurazione, esecuzione e notifica delle regole di allarme rapido; il modulo
offre la possibilità di configurare regole di allarme rapido definite dall'utente e di
controllarle durante ogni processo di importazione. Il sistema fornisce regole di
preallarme preconfigurate basate per esempio su:
o avvicinamento o ingresso di un’area di interesse da parte del target;
o variazione rapida di parametri significativi (come posizione, velocità o rotta
ecc);
o persistenza di parametri inattesi (velocità, posizione, rotta ecc);
o inconsistenza o disallineamento tra dati dei messaggi AIS e dati rilevati.
- modulo di Persistenza dei dati; il modulo offre la possibilità di archiviare tutti i
set di dati disponibili, compresi quelli storici, tramite il componente GeoDB;
- interfaccia standard; il modulo offre un'interfaccia standard per fornire i
contenuti disponibili attraverso più standard;
89
- modulo WebGIS; il modulo offre un client WebGIS per la consultazione dei
contenuti disponibili in termini di visualizzazione dei dati, ricerca (ad es.
Specificando l'intervallo di tempo o l'insieme dei parametri di interesse), filtro e
query;
- modulo per Fusione di dati online; il modulo offre all'utente una funzionalità per
gestire la fusione di dati online tra le navi rilevate dal satellite o il set di dati AIS
o le navi rilevate dal satellite (correlazione SAR2SAR) o un set di dati
dell'utente. L'utente può anche modificare le diverse soglie (ad es. Tempo di
propagazione e distanza massima) per ottenere risultati diversi con diversi livelli
di qualità;
- estrazione di modelli di vita marittimi (maritime patterns of life); il modulo
consente di derivare le rotte più comuni (e volumi di traffico marittimo),
raggruppate per tipo di nave;
- Geospatial Analytics; il modulo offre una dashboard, aggiornata
automaticamente, dedicata all'analisi geospaziale dei contenuti forniti. La
dashboard è composta da una serie di grafici, collegati tra loro per un'analisi
multidimensionale e personalizzabili in base alle esigenze dell’utilizzatore finale.
Il seguente elenco fornisce un esempio di grafici configurabili:
o numero di acquisizione per giorno;
o numero di navi rilevate per giorno e dimensioni della classe;
o distribuzione delle navi rilevate per dimensione della classe;
o numero di perdite di olio rilevate per giorno e livello di confidenza;
o distribuzione delle fuoriuscite di petrolio rilevate per livello di confidenza e
potenziale identificazione di chi inquina;
o mappa del calore delle navi rilevate.
o mappa del calore delle perdite di olio rilevate.
Lo schema sottostante descrive l'architettura logica della soluzione SEonSE:
90
Figura 6: SEonSE (Smart Eyes on the SEas) – Descrizione dell’architetura logica
Scendendo nel dettaglio operativo di funzionamento del sistema, la soluzione
SEonSE offre sostanzialmente due modalità di fruizione della capacità
prestazionale:
- SERVIZIO (SEaaS - SEonSE as a Service); la prima modalità di fruizione del
sistema è costituita dalla capacità stessa del sistema e-GEOS di elaborare e
consegnare le funzionalità estratte, utilizzando le proprie risorse (cioè i dati
raccolti e in possesso);
- PIATTAFORMA (SEaaP - SEonSE come piattaforma); in questa modalità di
fruizione, la soluzione SEonSE viene distribuita nei locali del cliente e il cliente
può elaborare i dati utilizzando le proprie risorse;
Figura 7: SEonSE (Smart Eyes on the SEas) schema di deployment
91
Il Sistema SEonSE rappresenta, in termini pratici una suite aperta e avanzata, in
grado di fornire rapporti di rilevamento di sversamenti di navi e di petrolio in tempo
quasi reale (ovvero entro 15 ÷ 30 minuti dall'ingestione di dati satellitari), compresa
l'integrazione di dati met-oceanografici e dati di identificazione delle navi. La suite
consente l'integrazione di dati geospaziali esterni (dati di riferimento, dati ottici,
mappe, ecc.) e informazioni accessorie fornendo un rapporto informativo completo
per l'utilizzo da parte dell’utente finale.
SEonSE elabora e rende disponibile un'immagine di sensibilizzazione del dominio
marittimo multisensore per le aree di interesse in tutto il mondo e può ingerire e
fondere i dati AIS (terrestri e satellitari) forniti dai principali fornitori commerciali (ad
es. ExactEarth, Orbcomm, Spire) o dagli utilizzatori stessi.
92
7. CONCLUSIONI
a. Considerazioani Finali
Una delle facoltà maggiormente importanti del cervello umano è la capacità di
astrazione e questa è di fondamentale importanza nell’azione di comando e di
direzione.
Attualmente l’IA è in grado di replicare questa facoltà in maniera molto limitata nei
sistemi esperti e secondo una corrente di pensiero non sarà mai possibile per un
computer raggiungere il livello di astrazione necessario a cogliere la visione di
assieme di una situazione (big picture), del livello di complessità necessario a
dirigere in completa autonomia un’azione di Intelligence. Una visione opposta
sostiene, invece, che questa visione sia parte di un meccanismo di protezione della
mente umana che non vuole rassegnarsi a cedere un ruolo di centralità ed essere
sostituita da una macchina.
La realtà attuale, come descritta nel lavoro di analisi approntato nell’elaborato,
indica che una capacità di astrazione a così ampio respiro non è stata ancora
raggiunta ed in questo contesto l’uomo è saldamente nel loop decisionale ad
orchestrare e presiedere le decisioni più importanti ed un cambiamento in questo
senso appare inverosimile nel breve/medio termine.
Quando tuttavia l’ambito è sufficientemente ristretto ed il problema è ben posto in
senso logico è possibile, già attualmente, ottenere risultati inimmaginabili sino a
poco tempo fa, sia sotto l’aspetto della direzione che della pianificazione.
Questa è realtà concreta nel più volte citato campo della guida autonoma (di veicoli
o mezzi aerei per esempio) in cui il problema di recarsi da un luogo all’altro è
sufficientemente ristretto e ben posto sotto l’aspetto logico. In contesti del genere
non è allora impensabile che in futuro la pianificazione e la direzione dell’attività, di
Intelligence Militare come di Intelligence di Polizia non possa essere effettuata a
valle di un processo di Data Analytics di tipo prescrittivo, in cui sia una macchina,
prima di intraprendere le azioni individuate come necessarie in relazione al
raggiungimento di un determinato obiettivo, a chiedere ad un’altra macchina di
avviare il ciclo di Intelligence, definendo gli Elementi Essenziali di Informazione
all’interno di un processo che oggi ancora immaginiamo scandito dalle fasi logiche
dell’approccio umano, ma che nella pratica sarà inevitabilmente senza cesure.
In uno scenario in cui i conflitti si risolveranno nel giro di pochi minuti, grazie al
grado di autonomia raggiunto da alcuni sistemi d’arma, ciò che appare inverosimile
93
è la capacità dell’uomo di entrare nel loop per le decisioni importanti e di uscirne
mantenendo costantemente la consapevolezza della situazione.
Assai più vicina è invece la prospettiva di uno scenario in cui la raccolta delle
informazioni avverrà attraverso processi sempre più automatizzati e con un
coinvolgimento sempre maggiore di sensori e macchine in possesso di
caratteristiche di autonomia. Ciò appare maggiormente evidente per le attività di
Intelligence in cui l’aspetto tecnologico è più sostanziale, ma ugualmente efficace
risulta l’applicazione delle nuove tecnologie ad attività in cui l’intervento umano
risulta essenziale per definizione.
Internet ed i social media hanno ad esempio creato nuove opportunità e nel
contempo nuove sfide per l’attività HUMINT, che seppure senza cambiare
radicalmente pelle rispetto alle metodologie ed ai prodotti classici (individuazione
delle fonti, verifiche, elaborazione di requisiti per piani, di avvisi di minacce e
relativa diffusione) va gradualmente riadattandosi a questo nuovo scenario, in
sinergia sempre più stretta con le attività OSINT. Alcune delle fasi preliminari del
ciclo di acquisizione delle informazioni, ovvero l’individuazione delle fonti, la sua
valutazione ed il suo sviluppo può essere fatta in gran parte attraverso Internet.
Il reclutamento di persone con particolari capacità personali ed effettiva o potenziale
possibilità di accedere ad informazioni segrete possono essere cyber-reclutate,
analizzando i curriculum-vitae inviati alle agenzie di collocamento virtuali, le risposte
ad annunci di lavoro o anche partecipando a chat-room che trattano argomenti
specifici direttamente o indirettamente collegati a problematiche di interesse.
La capacità di monitoraggio ed analisi dei contenuti che compaiono nei social media
o nel deep web46, ambiti in cui le Text Analytics trovano la loro naturale
collocazione, possono consentire di individuare fonti, fornire indicazioni su come
indirizzare la loro ricerca e di mettere in luce alcune vulnerabilità ad esse connesse,
sfruttabili nel successivo sviluppo della fonte. Non solo, la presenza sui social può
essere altresì sfruttata per veicolare e diffondere informazioni false (fake e deep
fake) per raggiungere obiettivi specifici.
La rete, in senso lato, viene utilizzata efficacemente quale mezzo di distribuzione e
diffusione per le comunicazioni sicure con il personale impegnato sul campo per
assegnare compiti, per effettuare riporti, evitando così la necessità di incontri
elusivi.
46 Per deep web o in lingua italiana web profondo si intende l’insieme delle risorse informative
del World Wide Web non indicizzate dai motori di ricerca.
94
Molti dispositivi hanno la capacità di effettuare misure fisiche, di apprendere e di
eseguire azioni: sensori, veicoli, robot, velivoli47, dispositivi indossabili48, sensori
biometrici, munizionamento, armature etc., presentano tutti la caratteristica della
capacità di connessione e di generare dati. Nell’elaborato, sono stati indicati:
dispositivi che veicolano dati, ovvero dispositivi che, attaccati ad un’entità fisica,
consentono a quest’ultima di connettersi ad una rete di comunicazioni più
ampia;
dispositivi che catturano dati, ovvero dispositivi in grado di leggere/scrivere e di
interagire con le cose fisiche;
dispositivi rilevatori/attuatori, ovvero in grado di rilevare informazioni od
effettuare misure dell’ambiente circostante e di convertirle in un segnale
elettronico o effettuare un’operazione fisica;
dispositivi generali, ovvero dispositivi integrati in grado di processare e
comunicare scambiando informazioni con una rete più ampia.
A quest’ultima categoria, i dispositivi generali, è presente e facilmente riconoscibile
il c.d. paradigma dell’Edge Computing, in cui i dispositivi che si trovano sul limite
(edge) tra la rete e l’ambiente fisico sono coinvolti e non solo partecipano alla
raccolta dei dati, ma anche in toto od in parte alla fase di analisi ed elaborazione dei
dati conformemente allo schema di calcolo distribuito necessario per l’esecuzione
delle Big Data Analytics.
Ad essi è demandato anche il compito della raccolta dei dati e delle informazioni per
fini di Intelligence Militare e di Polizia, che possono eseguire in maniera efficiente,
spesso poco costosa ed altamente automatizzabile. Si può chiedere ad esempio ad
un entità/cosa di proseguire nella raccolta fintantoché i dati e le informazioni rilevate
non diano evidenza del verificarsi di una condizione giudicata abilitante per le azioni
successive da un decisore umano, da un’entità/cosa a monte o da essa stessa. E’
questo, ad esempio, ciò che accade nel caso di una telecamera di sorveglianza
all’interno di una casa che, alla rivelazione di un movimento, attiva una serie di
eventi discendenti quale ad esempio una chiamata al proprietario.
L’enorme varietà di dati che scaturiscono dall’ecosistema IoMT (immagini satellitari,
contenuti multimediali, fotografie aeree, manoscritti, documenti testuali da file, email
e social media etc.) non può essere archiviata in un “mare magno” da cui
successivamente verranno tratti i dati che confluiranno all’interno del Data Lake per
47 Noti anche come Unmanned Aerial Vehicle – UAV. 48 Noti anche come Human-Wearable Device – HWD.
95
l’esecuzione delle singole Police/Military Analytics. Serve un cervello razionale che
possa leggere la chiave per catalogare le informazioni in modo da coordinarle in via
trasversale, per il raggiungimento dell’obiettivo.
Le fasi di elaborazione e di analisi e produzione del Ciclo di Intelligence
corrispondono alle fasi di esecuzione delle Analytics della Business Intelligence nel
contesto Big Data ovvero all’estrazione di conoscenza a partire dai dati raccolti
contenuti nel Data Lake. La differenza fondamentale che in generale caratterizza le
Analytics eseguite in ambito militare o di polizia è la contingenza temporale con la
quale la conoscenza deve essere estratta affinché questa si possa tradurre in un
vantaggio.
Per operare efficacemente nel contesto dell’ipervelocità dei conflitti, il governo degli
Stati Uniti, già nel 2012 ha avviato la realizzazione, attraverso il National
Reconnaissance Office, di un progetto denominato Sentient, ufficialmente non
ancora operativo, con capacità di condurre Military Analytics di tipo prescrittivo in
tempi rapidi, secondo le caratteristiche descritte nella presente trattazione ovvero di
individuare automaticamente una situazione di minaccia attraverso i dispositivi ed i
sistemi dell’ecosistema IoMT ed inviare i messaggi per l’avvio delle azioni ritenute
necessarie conseguenti tra quelle previste.
Un esempio in questo senso può essere quello dell’individuazione di spostamenti di
velivoli da una base all’altra in un paese ostile, del movimento di una colonna di
automezzi in movimento in teatro operativo, di anomalie nella rotta di una nave,
dalla verifica dei danneggiamenti ad infrastrutture causati da un’esplosione o da
una calamità naturale, della presenza di un particolare individuo in un particolare
luogo in relazione agli argomenti da egli trattati durante una conversazione estratti
grazie alla lettura labiale etc.
In tutti questi casi è grazie alle Military Analytics (in realtà lo stesso approccio è
applicabile anche in contesto di Police Anaytics) che vengono rivelati gli eventi, ma
non è solo questo l’ambito in cui esse vengono utilizzate.
In conclusione, un mondo nuovo si affaccia ed oggi è difficile circoscriverne
precisamente i confini. Ciò che è chiaro, invece sin d’ora, è che serve una “regola”,
un sistema di norme che ne disciplini l’utilizzo, non le tecniche in senso tecnico.
In questa sfida oggi sono coinvolti tutti i Paesi che hanno abbracciato l’IA; trovarne
un inquadramento giuridico che possa considerarsi unitariamente condiviso è forse
prematuro, ma indubbiamente dovrà essere fatto prima che si creino comportamenti
96
sperequati nell’utilizzo e soprattutto nello sviluppo stessa della stessa Intelligenza
Artificiale.
b. Prospettive Future
Al termine dell’analisi condotta, che per espresso mandato del committente è stata
principalmente incentrata sugli impatti dell’Intelligenza Artificiale su Intelligence
Militare e di Polizia, resta evidente che eistono spazi infiniti di indagine che portano
alla evidenza di ricercare una nuova lettura del significato della parola IA stessa.
Nel panorama corrente operano molteplici sottocategorie di Machine Learning che
in realtà rappresentano approcci pratici di applicazione degli stessi algoritmi di
Machine Learning approfonditi nell’elaborato. Un esempio può essere
rappresentato dagli “alberi delle decisioni” basati su grafi attraverso i quali si
sviluppano modelli predittivi, grazie ai quali è possibile scoprire le conseguenze
(output) di determinate decisioni (input).
Spesso, dietro ogni applicazione pratica del Machine Learning esistono modelli di
apprendimento differenti che vanno dall’identificazione delle strutture (cosa
definisce il singolo modello e qual è la sua natura) al riconoscimento degli oggetti
che devono far parte di un gruppo piuttosto che di un altro.
Dietro la sintetica espressione di apprendimento, si celano algoritmi di deep
learning estremamente complessi, che racchiudono nella loro intrinseca
complessità, i punti di vantaggio, ma anche le doblezze dei sistemi di IA.
In particolare, il termine apprendimento profondo deriva dalla struttura degli
algoritmi utilizzati ovvero dagli strati o livelli di dati, connessi in maniera
sequenziale.
Assimilando ogni livello ad una operazione di filtraggio del dato in ingresso,
l’intuizione dietro il funzionamento di ogni algoritmo è quella di applicare una
determinata sequenza di filtri al dato in ingresso (ad esempio, una immagine
rappresentante un determinato oggetto). Ogni livello, o filtro, è caratterizzato da un
insieme di dati, percettori e recettori (neuroni volendo fare un’analogia con il
funzionamento del pensiero umano), che vengono attivati solo quando
percepiscono una determinata struttura (codice) al loro ingresso.
Questo meccanismo, in linea di principio, permette via via di comprimere
l’informazione contenuta nell’immagine di partenza e costruire rappresentazioni più
astratte dell’oggetto che si vuole riconoscere, fino a poterne determinare la classe
97
di appartenenza, nella fattispecie, classificare correttamente l’oggetto rappresentato
nell’immagine e fornire l’informazione necessaria.
La complessità di ogni algoritmo sta chiaramente nel costruire rappresentazioni in
maniera automatica, ovvero nel comprendere come costruire la sequenza di
operazioni di filtraggio da applicare al dato in ingresso. Allo scopo, questi algoritmi
necessitano di una fase di addestramento, in cui al sistema sono sottoposte diverse
immagini di oggetti che dovrà essere in grado di riconoscere, insieme alla loro
etichetta di classe. Durante la procedura di addestramento, l’algoritmo cerca di
predire la classe corretta di questi oggetti e, in caso di errore, corregge i suoi
parametri in modo che all’iterazione successiva la predizione risulti diversa,
avvicinandosi via via a quella corretta.
Questo meccanismo ieratico corrisponde a variare il modo in cui ogni neurone
risponde a determinate strutture o pattern osservati nei dati. Alla fine di questo
processo, l’algoritmo avrà imparato a distinguere oggetti di classi diverse sulla base
di correlazioni statistiche e particolari pattern associati alle diverse tipologie di
oggetti presenti nei dati.
È facile intuire come questo meccanismo sia profondamente diverso dal complesso
procedimento di apprendimento degli umani, non fosse altro per il fatto che noi non
abbiamo bisogno di milioni di esempi per riconoscere gli oggetti e il mondo che ci
circonda.
Tuttavia, stante l’enorme disponibilità di dati che è possibile raccogliere oggi e
l’imponente potenza di calcolo dei nuovi calcolatori e delle architetture cloud, in
alcuni scenari applicativi specifici, l’apprendimento profondo ha dimostrato di
raggiungere prestazioni migliori degli esseri umani (gli algoritmi migliori raggiungono
un’accuratezza superiore a quella media riportata dagli esseri umani), ma anche
punti di vulnerabilità propri, lontani da quelli che possono influenzare il pensiero
umano.
Non di rado, infatti, sono proprio gli algoritmi a soffrire di “allucinazioni” piuttosto
particolari. Esistono infatti determinate manipolazioni dei dati forniti loro in ingresso
capaci di confonderli, in alcuni casi, anche clamorosamente. E lo scenario descritto
sopra, identifica solo una particolare vulnerabilità degli algoritmi di IA, nota come
evasion e consistente, di fatto, nel confondere la classificazione del dato in ingresso
manipolandone il contenuto, per opera di un algoritmo precedentemente
addestrato.
98
In uno scenario differente, noto come poisoning, si possono contaminare i dati di
addestramento per impedire al sistema di funzionare correttamente, causando un
disservizio (denial of service) per gli utenti legittimi (ad esempio, impedendo a un
dipendente di autenticarsi correttamente sui servizi aziendali), o impiantando delle
backdoor nel sistema (in modo da potersi garantire accesso ad un sistema protetto
o causare errori di funzionamento del sistema quando il dato in ingresso attiva la
backdoor) nei casi di utilizzo per attività di Intelligence, sia Militare che di Polizia.
Accanto, quindi, all’utilizzo dell’intelligenza artificiale come strumento per
accrescere le capacità di scoperta e di difesa, è necessario considerare il “dark
side” dell’intelligenza artificiale, ovvero il possibile utilizzo delle stesse tecnologie
“utili”, per affinare metodi e attacchi dalla efficacia devastante.
Nei due decenni scorsi si è assistito ad un importante cambiamento di paradigma
nel rapporto tra dato ed algoritmo; il crescente utilizzo di algoritmi di intelligenza
artificiale, reti neurali, deep learning etc., ha spostato il vantaggio competitivo
dell’algoritmo alla disponibilità dei dati, prerequisito fondamentale per addestrare i
sistemi di apprendimento stesso.
E dietro questo semplice paradigna, l’utilizzo del medesimo algoritmo che si gioca
oggi, ma ancor di più si giocherà nel futuro prevedibile, la continua escalation fra
attacco e difesa cyber.
Sarà quanto mai necessario isolare non solo i “bad actors”, potenziali autori di
attacchi, ma indiviuare i meccanismi che possono attaccare gli algoritmi alla base
dei sistemi di Intelligence attuali, in un campo che vede potenziare la possibilità di
attacchi, con tre prevedibili effetti sulle minacce di tipo informatico: l’espansione
delle minacce esistenti, l’introduzione di nuovi tipi di minaccia ed infine un
cambiamento o evoluzione delle minacce stesse.
I costi degli attacchi potrebbero ridursi grazie alla scalabilità offerta dai sistemi di
intelligenza artificiale, utilizzata per completare le attività che altrimenti
richiederebbero l’impiego di persone. Un possibile effetto sarebbe quello di
accrescere il numero di attori che possono effettuare attacchi, la velocità con cui
questi attacchi possono essere eseguiti e l’insieme dei potenziali obiettivi.
Nuovi tipi di attacco potrebbero essere lanciati con l’aiuto di sistemi di intelligenza
artificiale per eseguire attività che sarebbero altrimenti poco pratiche o troppo
dispendiose per l’uomo. L’IA permetterà, inoltre, di aumentare l’efficacia di attacchi
che sfruttino le vulnerabilità umane, ad esempio attraverso l’uso di sistemi in grado
99
di riprodurre la voce o l’immagine delle persone (si pensi proprio ai deep fake di cui
s’è parlato).
Infine, gli attori malevoli potrebbero sfruttare le vulnerabilità dei sistemi di
intelligenza artificiale schierati dai difensori.
È lecito, quindi, attendersi, o meglio chiedersi se l’uso di sistemi di intelligenza
artificiale possa rendere le minacce già esistenti più efficaci, più mirate e più difficili
da affrontare.
L’uso dell’IA per automatizzare le attività necessarie alla realizzazione di attacchi
informatici cambierà il compromesso esistente fra la scala e l’efficacia degli attacchi
stessi. Su questo fronte, e con esito non affatto scontato, si giocherà la battaglia di
Intelligence che non potrà prescindere sullo sviluppo stesso dell’Intelligenza
Artificiale che l’ha determinata.
100
BIBLIOGRAFIA
1. Jhon Locke, Saggio sull’intelletto umano, La Scuola, Brescia, 1966
2. Howard Garner, Formae Mentis, Saggio sulla pluralità dell’intelligenza, Feltrinelli,
2013
3. The DENDRAL Project, The History of Artificial Intelligence, Stanford Uniiversity
(CA), 1969
4. Martin Hilbert, “School for Communication and Journalism”, Southern California,
2014
101
SITOGRAFIA
1. www.corriere.it
2. www.difesa.it
3. www.treccani.it
4. www.commons.wikimedia.org
5. www.zlhent.com
6. www.polimi.it
7. www.wikipedia.org
8. www.ai4business.it
9. www.ec.europa.eu
10. www.google.com
11. www.agi.it
12. www.europa.eu
13. www.giurcost.org
14. www.tiscali.it
15. www.4clegal.com
16. www.fondazioneleonardo-cdm.com
17. www.ilpost.it
18. www.laciviltacattolica.it
19. www.mpg.de (English Version)
20. www.em.m.wikipedia.org
21. www.e-geos.it/SEonSE
102
NOTA SUL Ce.Mi.S.S.
Ce.Mi.S.S.49
Il Centro Militare di Studi Strategici (Ce.Mi.S.S.) è l'Organismo che gestisce, nell'ambito e
per conto del Ministero della Difesa, la ricerca su temi di carattere strategico.
Costituito nel 1987 con Decreto del Ministro della Difesa, il Ce.Mi.S.S. svolge la propria
opera valendosi si esperti civili e militari, italiani ed esteri, in piena libertà di espressione di
pensiero.
Quanto contenuto negli studi pubblicati riflette quindi esclusivamente l'opinione del
Ricercatore e non quella del Ministero della Difesa.
49 http://www.difesa.it/SMD_/CASD/IM/CeMiSS/Pagine/default.aspx
Stampato dalla Tipografia delCentro Alti Studi per la Difesa