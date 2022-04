Questo modello è ad oggi il più potente in lingua araba, con 10 miliardi di parametri

Offre applicazioni per riepiloghi automatizzati, chatbot e marketing personalizzato

ABU DHABI, Emirati Arabi Uniti–(BUSINESS WIRE)–L’Istituto per l’innovazione tecnologica (Technology Innovation Institute, TII), un centro di ricerca globale, nonché il pilastro su cui poggia la ricerca applicata del Consiglio per la ricerca tecnologica avanzata (Advanced Technology Research Council) di Abu Dhabi, ha annunciato oggi il lancio di NOOR, il modello di NLP in lingua araba più vasto in assoluto a livello mondiale.





Il team di illustri ricercatori ed esperti in intelligenza artificiale (artificial intelligence, AI) del TII ha unito le forze con LightOn, un’azienda tecnologica che mette a disposizione delle imprese l’intelligenza artificiale su vastissima scala, per trasformare il modello di NLP in lingua araba. Il modello NOOR rende possibile l’esecuzione di funzioni che vanno ben oltre la sfera linguistica offrendo dati di pipeline d’alta qualità end-to-end, compresi scansione, filtraggio e curation dei dati su larga scala. Il modello agevola l’addestramento e la gestione distribuiti su vastissima scala per l’offerta di applicazioni basate su inferenze efficienti e specializzazione basata su modello.

Il dottor Ray O. Johnson, amministratore delegato del TII e di ASPIRE, ha dichiarato: “Questa iniziativa ci mette sulla buona strada per esaltare le nostre capacità e credenziali nel campo della ricerca e innalzare lo status di Abu Dhabi e degli Emirati Arabi Uniti quale ecosistema di ricerca di tutto rispetto. I nostri team di esperti hanno dimostrato per l’ennesima volta che questa regione è in grado di condurre attività di ricerca e sviluppo i cui esiti rivoluzionari esercitano un impatto a livello mondiale”.

La dottoressa Ebtesam Almazrouei, direttrice dell’Unità AI Cross-Center del TII, ha dichiarato: “I modelli linguistici di grandi dimensioni hanno preso d’assalto il mondo dell’elaborazione del linguaggio naturale e siamo orgogliosi di presentare questo modello all’avanguardia con 10 miliardi di parametri, il più grande modello al mondo di NLP in lingua araba. Il volume straordinariamente elevato di set di dati raccolti per addestrare il modello per la lingua araba è il frutto di mesi di lavoro comportante la curation, lo scarto e il filtraggio di molteplici fonti. Un ringraziamento speciale a tutto il team che ha lavorato a questo progetto per rendere NOOR il modello di esplorazione di riferimento per la lingua araba usato da accademici e aziende di tutto il mondo”.

Parlando del lancio, il professor Mérouane Debbah, capo ricercatore presso il Centro di ricerca sulla scienza digitale (Digital Science Research Center) dell’Unità AI Cross-Center del TII, ha dichiarato: “Con l’introduzione di NOOR il TII ha ampliato la portata del modello arabo moderno standard sfruttando il know-how rinvenibile nei modelli linguistici di grandi dimensioni per la creazione di competenze interdisciplinari all’avanguardia in questa nuova generazione di ricerca sull’intelligenza artificiale”.

Per curare il volume più elevato al mondo di set di dati interdisciplinari e d’alta qualità per la lingua araba, l’esclusivo set di dati di NOOR, che comprende più di 30 miliardi di termini, abbina dati web a libri, poesie, articoli e informazioni tecniche per espandere in misura considerevole l’applicabilità del modello.

Secondo quanto riferito dalla dottoressa Ebtesam Almazrouei, il modello NOOR si basa sulla popolare architettura Transformer. Come modello di sola decodifica, simile nella struttura al modello GPT-3, è programmato per eseguire compiti generativi con un’architettura aggiornata che riflette gli ultimi sviluppi nel mondo dell’apprendimento automatico, tra cui miglioramenti quali l’ottimizzazione delle codifiche posizionali. Per aiutare a garantire la qualità su larga scala nel set di dati di NOOR, il team TII ha progettato una pipeline di filtraggio automatizzata basata su tecniche di apprendimento automatico. Questi strumenti identificano il testo rilevante per riferimenti d’alta qualità proteggendo il modello dalla divulgazione non autorizzata fino al contenuto spam.

Sfruttando il parallelismo 3D all’avanguardia, NOOR è stato addestrato su una risorsa di calcolo ad alte prestazioni (High-Performance Computing) con 128 GPU A100, per consentire la distribuzione dei calcoli e garantire un utilizzo efficiente delle risorse hardware disponibili.

La direttrice dell’Unità AI Cross-Center ha osservato che questo non è che il primo degli sforzi che l’unità intende intraprendere per contribuire alla strategia di più ampia portata degli Emirati Arabi Uniti nel campo dell’intelligenza artificiale.

Questo modello è stato battezzato con la parola araba “luce”: un modo per indicare come questo modello in lingua araba possa illuminare la mente.

