Σε μια κίνηση που ενισχύει την προσβασιμότητα, τη διαφάνεια και τη γλωσσική συμπερίληψη, η ισπανική κυβέρνηση προχώρησε πρόσφατα στη δημόσια διάθεση γλωσσικών μοντέλων τεχνητής νοημοσύνης που έχουν αναπτυχθεί στο πλαίσιο του έργου ALIA. Τα μοντέλα αυτά καλύπτουν τόσο την ισπανική όσο και τις συν-επίσημες γλώσσες της χώρας (καταλανικά, βασκικά, γαλικιανά) και διατίθενται με άδεια ανοικτού κώδικα.

Η πρωτοβουλία εντάσσεται στη Στρατηγική Τεχνητής Νοημοσύνης της Ισπανίας για το 2024 και ακολουθεί τη φιλοσοφία «Public money, public code», που προκρίνει τη διάθεση ψηφιακών εργαλείων, χρηματοδοτούμενων από δημόσιους πόρους, με ανοικτό και επαναχρησιμοποιήσιμο χαρακτήρα. Την πολιτική εποπτεία του έργου έχει η Γραμματεία Ψηφιοποίησης και Τεχνητής Νοημοσύνης, ενώ ο επιστημονικός συντονισμός ανήκει στο Κέντρο Υπερυπολογιστικής Βαρκελώνης (BSC-CNS).

Ανάπτυξη με Έμφαση στη Διαφάνεια και τα Δικαιώματα

Η ανάπτυξη των μοντέλων συνοδεύεται από ρητή στόχευση για τη διασφάλιση της διαφάνειας, της δεοντολογίας και της προστασίας των θεμελιωδών δικαιωμάτων. Στα δημόσια κείμενα που πλαισιώνουν την πρωτοβουλία δίνεται έμφαση στην ανάγκη για ανοικτά, επαληθεύσιμα μοντέλα, που συμμορφώνονται με τις αρχές προστασίας προσωπικών δεδομένων και πνευματικής ιδιοκτησίας.

Προβλέπεται πιλοτική αξιοποίηση των μοντέλων αυτών, τόσο στην εξυπηρέτηση πολιτών μέσω εσωτερικού chatbot στη φορολογική διοίκηση, όσο και στην πρωτοβάθμια φροντίδα υγείας, με στόχο τη βελτίωση της διάγνωσης καρδιακής ανεπάρκειας μέσω ανάλυσης δεδομένων.

Τεχνικά Χαρακτηριστικά και Διάθεση

Η πρώτη ομάδα μοντέλων που δημοσιεύτηκε περιλαμβάνει:

ALIA-40B: γλωσσικό μοντέλο τύπου transformer (decoder-only), εκπαιδευμένο από την αρχή σε 9,37 τρισεκατομμύρια tokens κειμένου σε 35 ευρωπαϊκές γλώσσες και σε γλώσσες προγραμματισμού.

Salamandra-7B και 2B: μοντέλα αντίστοιχης αρχιτεκτονικής, εκπαιδευμένα σε ακόμη μεγαλύτερους όγκους δεδομένων (12,875 τρισεκατομμύρια tokens), με διαθέσιμα όλα τα αρχεία εκπαίδευσης στο GitHub.

Salamandra-7B-Instruct και 2B-Instruct: παραλλαγές των παραπάνω, ενισχυμένες με 276.000 οδηγίες σε ισπανικά, αγγλικά και καταλανικά.

mRoBERTa: πολυγλωσσικό μοντέλο βασισμένο στην αρχιτεκτονική RoBERTa, εκπαιδευμένο από την αρχή σε 12,8 TB δεδομένων, πολύ μεγαλύτερου όγκου σε σχέση με προγενέστερα αντίστοιχα μοντέλα όπως τα XLM-RoBERTa.

RoBERTa-ca: εξειδικευμένο καταλανικό μοντέλο, που αξιοποιεί μεθόδους μεταφοράς βαρών από το mRoBERTa και εκπαιδεύεται συνεχώς σε κατάλληλο σώμα κειμένων (95 GB καταλανικών δεδομένων).

Όλα τα μοντέλα διατίθενται ελεύθερα στην πλατφόρμα HuggingFace με άδεια Apache 2.0, ενώ έχουν ελεγχθεί από την Ισπανική Υπηρεσία Εποπτείας Τεχνητής Νοημοσύνης (AESIA).

Προς ένα Ευρωπαϊκό Οικοσύστημα Ανοικτών Μοντέλων

Η συγκεκριμένη πρωτοβουλία αναδεικνύει έναν πιθανό προσανατολισμό για τις ευρωπαϊκές χώρες που διαμορφώνουν δημόσιες πολιτικές για την τεχνητή νοημοσύνη: την ενίσχυση της χρήσης ανοικτών, διαφανών και προσβάσιμων μοντέλων, ιδίως σε τομείς δημοσίου ενδιαφέροντος και σε περιβάλλοντα που απαιτούν γλωσσική και πολιτισμική προσαρμογή.

Για το ελληνικό οικοσύστημα έρευνας και καινοτομίας, τέτοιες πρωτοβουλίες δημιουργούν σημεία αναφοράς και ευκαιρίες τεχνικής διαλειτουργικότητας, θεσμικής σύγκλισης και ανταλλαγής τεχνογνωσίας. Η πρόσβαση σε τεκμηριωμένα μοντέλα ανοικτού κώδικα μπορεί να λειτουργήσει συμπληρωματικά στην ανάπτυξη εγχώριων λύσεων και να ενισχύσει τη συνεργασία στο ευρωπαϊκό πλαίσιο, ειδικά μέσα από πρωτοβουλίες όπως ο Κανονισμός για τη Διαλειτουργική Ευρώπη (Interoperable Europe Act) και η Ευρωπαϊκή Συμμαχία για τις Δεξιότητες στην Τεχνητή Νοημοσύνη (AI Skills Alliance).

Πηγή: https://interoperable-europe.ec.europa.eu/collection/open-source-observatory-osor/news/spanish-authorities-release-alia-ai-models