Sviluppare e allenare un algoritmo di AI sono attività complementari.
La fase di sviluppo consiste nell’allenare l’algoritmo, per renderlo autonomo e capace di rispondere agli obiettivi di progetto.
Per sviluppare un algoritmo di Intelligenza Artificiale è indispensabile soddisfare una condizione di base: bisogna avere a disposizione un dataset sufficientemente ampio.
Il dataset è l’insieme di dati di input e output che l’algoritmo dovrà gestire: gli input sono i dati consegnati in entrata all’algoritmo, che ci si aspetta vengano trasformati nei corrispondenti output. Se il cliente dispone del dataset, il nostro team di sviluppo si occupa di realizzare un software di AI che impari autonomamente a trasformare gli input in output.
Questo processo è definito training ed è il punto focale dell’attività di sviluppo.
E se non ho il dataset?
Per tutti coloro che non lo possiedono, il nostro team ha la capacità di creare un dataset sintetico: si tratta di generare i dati di input e output usando le poche informazioni di cui si dispone e campionando tutti i parametri rilevanti. Attraverso tecnologie di riconoscimento, riusciamo infatti a trasformare i prodotti in un pacchetto di immagini, componendo un dataset da zero.
Questo processo è particolarmente adatto alle aziende che vendono/realizzano prodotti standardizzati.
Allenare un algoritmo di AI
Come visto nel capitolo precedente, Design your AI Software, in sede di progettazione viene stabilito lo scopo dell’algoritmo e le modalità che dovrà seguire per portare ai risultati desiderati. L’attività di sviluppo è quindi guidata da direzioni strategiche chiare e ha lo scopo di allenare l’algoritmo secondo un processo – e per raggiungere un obiettivo – consolidato.
La capacità dell’algoritmo di raggiungere gli obiettivi di progetto è strettamente legata al dataset, ovvero dipende dalla tipologia e dalla quantità di dati che l’engine ha a disposizione. Un algoritmo, infatti, restituisce sempre una risposta, ma la sua qualità e attinenza con le richieste del cliente dipendono dalla completezza del dataset che gli è stato fornito.
Requisiti per il dataset di training
Il dataset quindi deve avere alcune qualità essenziali.
- Ampiezza: deve contenere una grande mole di dati, sufficiente a consentire all’algoritmo di allenarsi il più possibile, perfezionando il raggiungimento dei risultati.
- Varietà: deve comprendere possibilmente tutte, o la maggior parte, delle casistiche che vogliamo vengano riconosciute dall’algoritmo.
- Completezza: deve disporre di tutti i parametri necessari per interpretare l’input correttamente e tradurlo nell’output atteso.
Ogni algoritmo di AI esegue efficacemente un compito se viene messo nelle condizioni di farlo, come succede agli esseri umani. Siamo tutti in grado di fornire delle risposte, ma il modo in cui rispondiamo dipende da quanti dati, parametri e informazioni pertinenti abbiamo a disposizione per ragionare.
L’obiettivo della fase di sviluppo
Una volte che il dataset è pronto, si passa al vero e proprio training.
Nei progetti di AI, l’obiettivo della fase di sviluppo è rendere l’algoritmo autonomo, in modo che quando riceverà un input assente nel dataset di training riuscirà comunque a elaborarlo, convertendolo in un output corretto.
Per allenare l’algoritmo bisogna scegliere un modello matematico adatto al task da imparare, individuando i parametri su cui eseguire il training. Dopodiché si fornisce all’algoritmo il dataset di training completo di input e output. L’allenamento richiede grandi risorse hardware, solitamente con GPU performanti, e può durare da alcune ore a svariati giorni.
Una volta concluso l’allenamento, il team di sviluppo effettua una validazione. Questa procedura consiste nel testare l’algoritmo fornendogli un dataset inedito, al fine di verificare la sua capacità di fitting (trasformazione dell’input nel giusto output).
Se i risultati sono soddisfacenti, si passa alla fase di test funzionale, una procedura qualitativa eseguita da un operatore utilizzando un numero ridotto di input, con lo scopo di sottoporre all’algoritmo situazioni borderline.
In caso contrario, il team di sviluppo reitera tornando alla fase di training, variando il modello, i parametri o il dataset.
Quando il test funzionale dà risultato positivo, si procede alla pubblicazione dell’algoritmo che, a questo punto, inizia a portare benefici all’azienda e al suo business.