esthonia

Στην εποχή της προηγμένης τεχνητής νοημοσύνης, και των συνεχώς εξελισσόμενων γλωσσικών τεχνολογιών, η διατήρηση των λιγότερο ομιλούμενων γλωσσών έχει αναδειχθεί σε σημαντικό προβληματισμό. Το Πανεπιστήμιο του Turku στη Φινλανδία, σε συνεργασία με το Ινστιτούτο Γλώσσας της Εσθονίας (EKI), ξεκίνησε μία πρωτοποριακή προσπάθεια για την ανάπτυξη ενός ανοιχτού μεγάλου γλωσσικού μοντέλου, που θα περιλαμβάνει δεδομένα από όλες τις ευρωπαϊκές γλώσσες, συμπεριλαμβανομένης της εσθονικής. Αυτή η φιλόδοξη πρωτοβουλία στοχεύει στη διαφύλαξη των σημαντικών εθνικών γλωσσών και πολιτισμών, στην μετά την επικράτηση του –αγγλόφωνου–ChatGPT εποχή.

Η Eleri Aedmaa, μηχανικός επεξεργασίας φυσικής γλώσσας στο Ινστιτούτο Εσθονικής Γλώσσας, υπογραμμίζει τη σπουδαιότητα αυτής της προσπάθειας. Επισημαίνει ότι η επιτυχία των μεγάλων γλωσσικών μοντέλων όπως το ChatGPT οφείλεται στον τεράστιο όγκο κειμένου στον οποίο εκτίθενται, που τους επιτρέπει να κατανοούν και να μιμούνται πειστικά την ανθρώπινη επικοινωνία. Σε μια νέα εποχή για τις γλωσσικές τεχνολογίες, η ανάγκη για γλωσσικά δεδομένα μεγάλου όγκου, σε όλες τις Ευρωπαϊκές εθνικές γλώσσες, αποκτά βαρύνουσα σημασία.

Η εσθονική γλώσσα βρίσκεται σε ένα σημείο καμπής μέσα στις ραγδαίες εξελίξεις για τις αγγλόφωνες γλωσσικές τεχνολογίες. Τα μεγάλα γλωσσικά μοντέλα, συμπεριλαμβανομένου του GPT-4, μπορούν να κατανοήσουν τα εσθονικά, αλλά εξακολουθούν να σχηματίζουν τις έννοιες που χρησιμοποιούν μέσα από την εκπαίδευσή τους στην αγγλική γλώσσα, μεταφράζοντας τελικά προς στα εσθονικά. Αυτός ο περιορισμός αποτελεί μακροπρόθεσμα απειλή για την εσθονική γλώσσα, καθώς οι επικεφαλής της προσπάθειας θεωρούν ότι τα μοντέλα αυτά δεν εκτίθενται εξίσου στο πολιτισμικό πλαίσιο που περιβάλλει την εθνική τους γλώσσα. Αφού η γλώσσα βεβαίως δεν αποτελεί απλώς μια συλλογή λέξεων, αλλά αποτελεί φορέα των σημασιών, του πολιτισμού, της ιστορίας και της ταυτότητας ενός λαού.

Η Aedmaa υπογραμμίζει ακόμα τη σημασία της διατήρησης όλων των Ευρωπαϊκών γλωσσών στην εποχή της καινοφανούς τεχνολογικής εξέλιξης στον τομέα του λόγου και της ομιλίας. Παραλληλίζοντας τις σημερινές εξελίξεις στην γλωσσική ικανότητα των νευρωνικών δικτύων με την εφεύρεση της τυπογραφίας, και την προτεραιότητα που αυτή έδωσε στις γλώσσες οι οποίες “τυπώνονται” σε σχέση με τις “προφορικές” γλώσσες, υπογραμμίζει την ανάγκη να διασφαλιστεί ότι οι Ευρωπαϊκές γλώσσες δεν θα υποτιμηθούν στην εποχή των, πρωτίστως “αγγλομαθών”, μεγάλων γλωσσικών μοντέλων.

Ωστόσο η εκπαίδευση ενός μεγάλου γλωσσικού μοντέλου, παρόμοιου με GPT-4, στα εσθονικά αντιμετωπίζει μια μεγάλη πρόκληση: την έλλειψη άμεσα διαθέσιμου εσθονικού κειμενικού περιεχομένου σε ψηφιακή μορφή, σε σύγκριση με τις περισσότερο ομιλούμενες Ευρωπαϊκές γλώσσες. Στην αγγλική γλώσσα βρίσκονται διαθέσιμες –σε ψηφιακή μορφή– πάνω από 800 δισεκατομμύρια λέξεις στο σώμα κειμένων της, ενώ κατά αντιπαραβολή τα διαθέσιμα δεδομένα της εσθονικής γλώσσας αριθμούν μόλις τρία δισεκατομμύρια λέξεις περίπου. Αυτοί οι αριθμοί καθιστούν σαφές ότι απαιτούνται συντεταγμένες προσπάθειες για να διασφαλιστεί το “ψηφιακό” μέλλον της εσθονικής γλώσσας.

Μία πιο ανοιχτή γλωσσική τεχνολογία

Το Πανεπιστήμιο του Turku, σε συνεργασία με την εταιρεία γλωσσικής τεχνολογίας SiloGen, αναπτύσσει ένα μεγάλο γλωσσικό μοντέλο στα πρότυπα του GPT-4, αλλά με μια σημαντική διαφορά. Έχει εκπαιδευτεί σε ένα ευρύ φάσμα ευρωπαϊκών γλωσσών, που αναδεικνύει τη γλωσσική ποικιλομορφία. Αντίθετα από τα “κλειστά” γλωσσικά μοντέλα, που δεν κοινοποιούν τα σύνολα δεδομένων και των πρωτοκόλλων της εκπαίδευσής τους, το μοντέλο αυτό θα είναι ανοικτού κώδικα, καθιστώντας έτσι την αρχιτεκτονική και τη σύνθεση των δεδομένων εκπαίδευσής του του διαφανή και άρα προσιτή σε όποιον ενδιαφέρεται να αναπτύξει περαιτέρω εφαρμογές γλωσσικής τεχνολογίας.

Αυτή η πρωτοβουλία υποστηρίζεται από την Business Finland και το πρόγραμμα Horizon της ΕΕ, σηματοδοτώντας έτσι την βαρύτητα που αποδίδεται στη διατήρηση της γλωσσικής ποικιλομορφίας και τον εκδημοκρατισμό των γλωσσικών τεχνολογιών. Μα οι δυσκολίες στην εύρεση προσβάσιμων δεδομένων εκπαίδευσης παραμένουν, καθώς υπάρχει έλλειψη σε ανοιχτής πρόσβασης, μηχανικά διαλειτουργικό περιεχόμενο στην εσθονική γλώσσα. Ο Kadri Vare, επικεφαλής του τμήματος Τεχνολογίας Γλώσσας και Ομιλίας του EKI, υπογραμμίζει την ανάγκη εμπλουτισμού του διαθέσιμου, ψηφιοποιημένου, περιεχομένου, που απαιτείται ώστε να διασφαλιστεί η επιτυχία του έργου. Τονίζει επίσης τις προκλήσεις που αφορούν την προστασία της ιδιωτικής ζωής των πολιτών και την δεοντολογικά άρτια μεταχείριση των πλέον ευαίσθητων πληροφοριών τους. Τέτοιες προκλήσεις αντιμετωπίζουν βέβαια όλες οι πρωτοβουλίες ανοιχτών δεδομένων στον τομέα της ψηφιακής διακυβέρνησης.

Το EKI συμβάλλει ενεργά στην ανάδειξη του ανοιχτής πρόσβασης ψηφιοποιημένου περιεχομένου στα εσθονικά, συγκεντρώνοντας ένα αξιοσημείωτου όγκου σώμα κειμένων. Αυτό το σύνολο κειμενικών δεδομένων διαμοιράζεται προς επανάχρηση από την ευρύτερη ερευνητική και τεχνολογική κοινότητα, δείχνοντας έτσι τη δέσμευσή του οργανισμού να διατηρήσει την ψηφιακή παρουσία της εσθονικής γλώσσας, προς όφελος των μελλοντικών γενεών.

Καταλήγοντας, το φιλόδοξο σχέδιο του Πανεπιστημίου του Turku, σε συνεργασία με το Ινστιτούτο Εσθονικής Γλώσσας, αποτελεί έναν φάρο ελπίδας για τη διατήρηση των λιγότερο ομιλούμενων γλωσσών, όπως η εσθονική, στην εποχή των μεγάλων γλωσσικών μοντέλων. Οδεύουμε σε μια εποχή όπου η γλωσσική τεχνολογία θα διαδραματίσει καθοριστικό ρόλο στην δημόσια ζωή, και την ψηφιακή διακυβέρνηση, και καθίσταται ολοένα και πιο σημαντικό να διασφαλίσουμε ότι η γλωσσική ποικιλομορφία και ο πολιτισμικός πλούτος που αυτή εγκιβωτίζει, επιβιώνουν και μετασχηματίζονται μέσω και των γλωσσικών μας τεχνολογιών. Η εσθονική γλώσσα, όπως και πολλές άλλες εθνικές, Ευρωπαϊκές και μη, γλώσσες, αποτελεί πολύτιμο μέρος της παγκόσμιας πολιτιστικής κληρονομιάς, και η διατήρησή της είναι μια προσπάθεια που αξίζει να επιδιώξουμε με αποφασιστικότητα.

Πηγή: https://news.err.ee/1609120697/finland-s-chatgpt-equivalent-begins-to-think-in-estonian-as-well