AUTORI

Joydeep Dey
Head of Data Enablement
@BIP xTech UK

Nell’ultimo anno l’IA generativa ha vissuto un’ascesa vertiginosa. Dal lancio del modello linguistico alimentato dall’IA ChatGPT nel novembre 2022, il sito ha già raggiunto 1,5 miliardi di visite mensili. Le società finanziarie ne hanno preso atto e l’IA è diventata rapidamente la nuova frontiera per gli investimenti di private equity. Nel secondo trimestre del 2023, i finanziamenti di private equity in startup di IA generativa hanno raggiunto i 14,1 miliardi di dollari, 11,6 miliardi in più rispetto al 2022.

È evidente l’importanza dell’IA. Uno dei principali dibattiti riguarda la qualità dei dati e di come questa si ripercuota sui risultati generati dall’IA. Tuttavia, non si tratta di una preoccupazione nuova.

Nel 2018, lo strumento di recruitment dell’IA di Amazon ha mostrato pregiudizi nei confronti delle donne. Infatti, a causa di set di dati limitati basati su curriculum prevalentemente maschili, lo strumento ha declassato le candidature che presentavano la parola “donna”.

Si è già detto molto su come la qualità dei dati possa influenzare i risultati dell’IA generativa. Ma come possono gli sviluppatori garantire l’utilizzo dei migliori dati di addestramento per creare modelli di IA efficaci?

Quanto è importante la qualità dei dati?

È innegabile che l’IA stia migliorando molte aree della società. I risultati preliminari dell’uso dell’IA nello screening del cancro al seno hanno dimostrato che il carico di lavoro umano è quasi dimezzato. Tuttavia, i pregiudizi che potrebbero accompagnare gli strumenti di IA se utilizzati per le assunzioni, dalle risorse umane o dalle forze dell’ordine, sono una prospettiva preoccupante da affrontare.

La maggior parte delle aziende deve concentrare l’attenzione sull’adozione di misure pratiche durante le fasi iniziali dell’implementazione dell’IA per mitigare la nascita di eventuali discrepanze. Gli algoritmi di IA dettano i risultati, consentendo di svolgere le attività in modo più rapido ed efficiente.

Il recente esempio di Octopus Energy mostra il potenziale dell’IA nell’assistenza clienti: le e-mail automatizzate dall’IA hanno raggiunto un tasso di soddisfazione dei clienti dell’80%, il 15% in più rispetto all’intervento da parte del personale qualificato e addestrato. Tali algoritmi consentono ai modelli di apprendere, analizzare dati e prendere decisioni in base alle conoscenze acquisite. Per fare ciò, l’IA richiede grandi quantità di dati da reperire e utilizzare in modo etico.

Utilizzare dati provenienti da fonti diverse e che siano rappresentativi dell’intera popolazione aiuta a mitigare potenziali pregiudizi e imprecisioni che potrebbero emergere se si utilizza un sottoinsieme ristretto di dati. Anche la creazione di team di ingegneria dei dati diversificati per l’IA e l’apprendimento automatico, che riflettano le persone che utilizzano l’algoritmo e ne subiscono l’impatto, contribuirà a ridurre tali pregiudizi.

Tenere conto dei pregiudizi a livello di dati può risultare più difficile nel caso di algoritmi di apprendimento non supervisionato. Infatti, qualsiasi difetto nel set di dati originale si manifesterà nei modelli generati. Inoltre, la progettazione degli strumenti per filtrare i pregiudizi può ridurre la qualità del modello. È qui che si stanno sviluppando approcci alle regole fuori dagli schemi per ottenere risultati migliori.

Come possiamo aiutarti?

Entra in contatto con gli esperti e le professioniste di BIP xTech

Contattaci

Seguire la folla o rompere gli schemi?

I metodi convenzionali di approvvigionamento dei dati, come l’etichettatura dei dati, con l’aggiunta di descrizioni chiare o marcatori per categorizzare grandi insiemi di dati, si basano su pratiche consolidate. Contribuiscono a fornire risultati affidabili se la qualità dei dati è elevata. Al contrario, dati di scarsa qualità possono generare pregiudizi.

Tuttavia, spesso è difficile abbandonare metodi consolidati. Per questo motivo, nell’ultimo anno sempre più aziende tecnologiche si sono allontanate da tali metodi, utilizzando invece modelli linguistici di grandi dimensioni (LLM) per avviare il processo di analisi dei dati.

Gli LLM sono un tipo di algoritmo di IA che utilizza il deep learning per classificare e categorizzare grandi insiemi di dati in modo più efficiente e veloce. Grazie alle capacità di comprensione e generazione del linguaggio, gli LLM sono in grado di rilevare potenziali discrepanze nei dati che potrebbero propagare risultati distorti.

Le piattaforme LLM personalizzate si stanno diffondendo in diversi settori, tra cui la cybersecurity. Le grandi aziende tecnologiche stanno cercando di espandersi in tale ambito: ad esempio Google ha annunciato il Google Cloud Security AI Workbench.

Tuttavia, gli LLM possono essere manipolati per far trapelare informazioni, soprattutto se ai dati di addestramento utilizzati per mettere a punto il modello vengono aggiunte informazioni fuorvianti. Per gli utenti può risultare difficile verificare se i dati di addestramento iniziali siano stati manomessi, poiché spesso le informazioni o la trasparenza disponibili sull’integrità dei dati di addestramento sono limitate. Ciononostante, è incoraggiante che queste nuove tecnologie possano aiutare a identificare informazioni potenzialmente errate o fuorvianti.

Poiché si tratta di tecnologie ancora in fase di sviluppo, sarebbe deleterio abbandonare completamente le funzioni predittive più tradizionali come l’etichettatura dei dati, soprattutto quando i LLM potrebbero non comprendere appieno la complessità di alcuni tipi di dati o contesti, rendendo necessaria l’etichettatura umana per migliorare l’accuratezza.

La prossima normativa fornirà una risposta?

Con la pubblicazione da parte del governo britannico di test per l’approvazione di nuove leggi sull’IA, anche i governi e i blocchi commerciali a livello globale si sono affrettati a implementare i propri quadri normativi. Sebbene l’approccio più cauto del Regno Unito sia in contrasto con l’EU AI Act, è chiaro che la regolamentazione, rigorosa o meno, svolgerà un ruolo fondamentale nel garantire l’utilizzo di dati di addestramento di alta qualità. Dalla trasparenza e responsabilità delle fonti dei dati all’incoraggiamento della condivisione dei dati tra le organizzazioni, la regolamentazione contribuirà a garantire l’equità dei modelli.

Tuttavia, la praticabilità della regolamentazione dell’IA si sta rivelando problematica, in quanto le questioni relative alla definizione di IA ad alto rischio sono ancora oggetto di dibattito. La recente legge europea sull’IA offre soluzioni credibili ai problemi di qualità dei dati. La nuova legislazione si concentra principalmente sul rafforzamento delle norme sulla qualità dei dati e sulla responsabilità. Pertanto, i fornitori di IA dovranno garantire la conformità dei sistemi di IA ai requisiti basati sul rischio, tra cui la registrazione dei dati e delle risorse di formazione e un sistema di gestione che controlli la qualità dei dati.

Per le organizzazioni che attualmente utilizzano l’IA, l’implementazione di un proprio set interno di standard per l’IA che renda le persone responsabili dell’accuratezza dell’etichettatura dei dati e che verifichi regolarmente eventuali errori o incongruenze, aiuterà a risolvere eventuali problemi.

Promuovendo standard di qualità dei dati e la governance dell’IA, le aziende sono in grado di migliorare l’accuratezza e l’equità dei propri modelli di IA, continuando a raccogliere i frutti di questa tecnologia emergente.