Μια ιστορία μηχανικής μετάφρασης από τον Ψυχρό Πόλεμο στη βαθιά μάθηση

Ανοίγω τη Μετάφραση Google δύο φορές συχνότερα από το Facebook και η άμεση μετάφραση των τιμών δεν είναι πια cyberpunk για μένα. Αυτό λέμε πραγματικότητα. Είναι δύσκολο να φανταστεί κανείς ότι αυτό είναι αποτέλεσμα μιας εκατονταετίας αγώνα για την οικοδόμηση των αλγορίθμων της μηχανικής μετάφρασης και ότι δεν υπήρξε ορατή επιτυχία κατά το ήμισυ αυτής της περιόδου.

Οι ακριβείς εξελίξεις που θα συζητήσω σε αυτό το άρθρο θέτουν τη βάση όλων των σύγχρονων συστημάτων επεξεργασίας γλωσσών - από μηχανές αναζήτησης έως μικροκύματα φωνητικά ελεγχόμενα. Μιλώ για την εξέλιξη και τη δομή της διαδικτυακής μετάφρασης σήμερα.

Στην αρχή

Η ιστορία ξεκινά το 1933. Ο σοβιετικός επιστήμονας Peter Troyanskii παρουσίασε «τη μηχανή επιλογής και εκτύπωσης λέξεων κατά τη μετάφραση από τη μία γλώσσα στην άλλη» στην Ακαδημία Επιστημών της ΕΣΣΔ. Η εφεύρεση ήταν εξαιρετικά απλή - είχε κάρτες σε τέσσερις διαφορετικές γλώσσες, μια γραφομηχανή και μια φωτογραφική μηχανή παλιού σχολείου.

Ο χειριστής πήρε την πρώτη λέξη από το κείμενο, βρήκε μια αντίστοιχη κάρτα, πήρε μια φωτογραφία και πληκτρολόγησε τα μορφολογικά χαρακτηριστικά της (ουσιαστικό, πληθυντικό, γενετικό) στη γραφομηχανή. Τα πλήκτρα της γραφομηχανής κωδικοποίησαν ένα από τα χαρακτηριστικά. Η ταινία και η ταινία της κάμερας χρησιμοποιήθηκαν ταυτόχρονα, φτιάχνοντας ένα σετ πλαισίων με λέξεις και τη μορφολογία τους.

Παρ 'όλα αυτά, όπως συνέβη συχνά στην ΕΣΣΔ, η εφεύρεση θεωρήθηκε «άχρηστη». Ο Troyanskii πέθανε από Στενοκαρδία αφού προσπάθησε να ολοκληρώσει την εφεύρεσή του για 20 χρόνια. Κανείς στον κόσμο δεν ήξερε για το μηχάνημα έως ότου δύο σοβιετικοί επιστήμονες βρήκαν τα διπλώματα ευρεσιτεχνίας του το 1956.

Ήταν στην αρχή του Ψυχρού Πολέμου. Στις 7 Ιανουαρίου 1954, στα κεντρικά γραφεία της IBM στη Νέα Υόρκη, ξεκίνησε το πείραμα Georgetown – IBM. Ο υπολογιστής IBM 701 μετέφρασε αυτόματα 60 ρωσικές προτάσεις στα Αγγλικά για πρώτη φορά στην ιστορία.

«Ένα κορίτσι που δεν κατάλαβε μια λέξη της γλώσσας των Σοβιέτ τράβηξε τα ρωσικά μηνύματα στις κάρτες IBM. Ο «εγκέφαλος» έσπασε τις αγγλικές του μεταφράσεις σε έναν αυτόματο εκτυπωτή με την ταχύτητα των δυόμισι γραμμών ανά δευτερόλεπτο », - ανέφερε το δελτίο τύπου της IBM.

Ωστόσο, οι θριαμβευτικοί τίτλοι έκρυβαν μια μικρή λεπτομέρεια. Κανείς δεν ανέφερε ότι τα μεταφρασμένα παραδείγματα επιλέχθηκαν προσεκτικά και δοκιμάστηκαν για να αποκλείσουν οποιαδήποτε ασάφεια. Για καθημερινή χρήση, αυτό το σύστημα δεν ήταν καλύτερο από ένα βιβλίο με φράσεις τσέπης. Παρ 'όλα αυτά, ξεκίνησε αυτός ο αγώνας όπλων: ο Καναδάς, η Γερμανία, η Γαλλία και ειδικά η Ιαπωνία, όλοι συμμετείχαν στον αγώνα για αυτόματη μετάφραση.

Ο αγώνας για την αυτόματη μετάφραση

Ο μάταιος αγώνας για τη βελτίωση της αυτόματης μετάφρασης διήρκεσε σαράντα χρόνια. Το 1966, η επιτροπή ALPAC των ΗΠΑ, στη διάσημη έκθεσή της, χαρακτήρισε τη μηχανική μετάφραση ακριβή, ανακριβής και χωρίς συμβιβασμούς. Αντίθετα, συνέστησαν την εστίαση στην ανάπτυξη λεξικών, η οποία απέκλεισε τους Αμερικανούς ερευνητές από τον αγώνα για σχεδόν μια δεκαετία.

Παρόλα αυτά, μια βάση για τη σύγχρονη επεξεργασία φυσικής γλώσσας δημιουργήθηκε μόνο από τους επιστήμονες και τις προσπάθειές τους, την έρευνα και τις εξελίξεις. Όλες οι σημερινές μηχανές αναζήτησης, τα φίλτρα ανεπιθύμητης αλληλογραφίας και οι προσωπικοί βοηθοί εμφανίστηκαν χάρη σε πολλές χώρες που κατασκοπεύουν η μία την άλλη.

Μηχανική μετάφραση βάσει κανόνα (RBMT)

Οι πρώτες ιδέες σχετικά με τη μη αυτόματη μετάφραση βάσει κανόνων εμφανίστηκαν τη δεκαετία του '70. Οι επιστήμονες κοίταξαν το έργο των διερμηνέων, προσπαθώντας να αναγκάσουν τους εξαιρετικά αργούς υπολογιστές να επαναλάβουν αυτές τις ενέργειες. Αυτά τα συστήματα αποτελούνταν από:

  • Δίγλωσσο λεξικό (RU -> EN)
  • Ένα σύνολο γλωσσικών κανόνων για κάθε γλώσσα (Για παράδειγμα, τα ουσιαστικά που καταλήγουν σε ορισμένα επίθημα όπως -heit, -keit, -ung είναι θηλυκά)

Αυτό είναι. Εάν χρειαστεί, τα συστήματα θα μπορούσαν να συμπληρωθούν με παραβιάσεις, όπως λίστες ονομάτων, ορθογραφικοί διορθωτές και μεταφραστές.

Το PROMPT και το Systran είναι τα πιο διάσημα παραδείγματα συστημάτων RBMT. Απλώς ρίξτε μια ματιά στο Aliexpress για να νιώσετε την απαλή ανάσα αυτής της χρυσής εποχής.

Αλλά ακόμη και είχαν κάποιες αποχρώσεις και υποείδη.

Άμεση μηχανική μετάφραση

Αυτός είναι ο πιο απλός τύπος αυτόματης μετάφρασης. Χωρίζει το κείμενο σε λέξεις, τα μεταφράζει, διορθώνει ελαφρώς τη μορφολογία και εναρμονίζει τη σύνταξη για να κάνει το όλο πράγμα να ακούγεται σωστό, λίγο πολύ. Όταν ο ήλιος δύει, οι εκπαιδευμένοι γλωσσολόγοι γράφουν τους κανόνες για κάθε λέξη.

Η έξοδος επιστρέφει κάποιο είδος μετάφρασης. Συνήθως, είναι αρκετά άθλιο. Φαίνεται ότι οι γλωσσολόγοι σπατάλησαν το χρόνο τους για τίποτα.

Τα σύγχρονα συστήματα δεν χρησιμοποιούν καθόλου αυτήν την προσέγγιση και οι σύγχρονοι γλωσσολόγοι είναι ευγνώμονες.

Μηχανική μετάφραση βάσει μεταφοράς

Σε αντίθεση με την άμεση μετάφραση, προετοιμάζουμε πρώτα καθορίζοντας τη γραμματική δομή της πρότασης, όπως διδάσκουμε στο σχολείο. Στη συνέχεια χειριζόμαστε ολόκληρες κατασκευές, όχι λέξεις, μετά. Αυτό βοηθά στην επίτευξη αξιοπρεπούς μετατροπής της σειράς λέξεων στη μετάφραση. Θεωρητικά.

Στην πράξη, είχε ως αποτέλεσμα τη μετάφραση κατά λέξη και εξαντλημένους γλωσσολόγους. Από τη μία πλευρά, έφερε απλοποιημένους γενικούς κανόνες γραμματικής. Αλλά από την άλλη, έγινε πιο περίπλοκη λόγω του αυξημένου αριθμού κατασκευών λέξεων σε σύγκριση με μεμονωμένες λέξεις.

Διαγλωσσική Μηχανική Μετάφραση

Σε αυτήν τη μέθοδο, το κείμενο προέλευσης μετατρέπεται στην ενδιάμεση αναπαράσταση και είναι ενοποιημένο για όλες τις γλώσσες του κόσμου (interlingua). Είναι το ίδιο interlingua Descartes που ονειρευόταν: μια μετα-γλώσσα, η οποία ακολουθεί τους καθολικούς κανόνες και μετατρέπει τη μετάφραση σε ένα απλό έργο «εμπρός και πίσω». Στη συνέχεια, η interlingua θα μετατρέπονταν σε οποιαδήποτε γλώσσα-στόχο και εδώ ήταν η μοναδικότητα!

Λόγω της μετατροπής, η Interlingua συχνά συγχέεται με συστήματα που βασίζονται στη μεταφορά. Η διαφορά είναι οι γλωσσικοί κανόνες που είναι συγκεκριμένοι για κάθε γλώσσα και interlingua και όχι τα ζεύγη γλωσσών. Αυτό σημαίνει ότι μπορούμε να προσθέσουμε μια τρίτη γλώσσα στο σύστημα interlingua και να μεταφράσουμε και τα τρία. Δεν μπορούμε να το κάνουμε αυτό σε συστήματα που βασίζονται σε μεταφορά.

Φαίνεται τέλειο, αλλά στην πραγματική ζωή δεν είναι. Ήταν εξαιρετικά δύσκολο να δημιουργηθεί μια τέτοια καθολική interlingua - πολλοί επιστήμονες έχουν εργαστεί σε αυτό όλη τους τη ζωή. Δεν έχουν πετύχει, αλλά χάρη σε αυτούς έχουμε πλέον μορφολογικά, συντακτικά, ακόμη και σημασιολογικά επίπεδα αναπαράστασης. Αλλά η μόνη θεωρία κειμένου Σημασίας κοστίζει μια περιουσία!

Η ιδέα της ενδιάμεσης γλώσσας θα επιστρέψει. Ας περιμένουμε λίγο.

Όπως μπορείτε να δείτε, όλα τα RBMT είναι χαζά και τρομακτικά, και αυτός είναι ο λόγος που χρησιμοποιούνται σπάνια, εκτός και για συγκεκριμένες περιπτώσεις (όπως η μετάφραση αναφοράς καιρού κ.λπ.). Μεταξύ των πλεονεκτημάτων του RBMT, που αναφέρονται συχνά είναι η μορφολογική του ακρίβεια (δεν μπερδεύει τις λέξεις), η αναπαραγωγιμότητα των αποτελεσμάτων (όλοι οι μεταφραστές έχουν το ίδιο αποτέλεσμα) και η ικανότητα να το συντονίσει στην θεματική περιοχή (να διδάξει οικονομολόγους ή όρους συγκεκριμένα για προγραμματιστές, για παράδειγμα).

Ακόμα κι αν κάποιος πέτυχε να δημιουργήσει ένα ιδανικό RBMT, και οι γλωσσολόγοι το ενίσχυσαν με όλους τους κανόνες ορθογραφίας, θα υπήρχαν πάντα κάποιες εξαιρέσεις: όλα τα ακανόνιστα ρήματα στα αγγλικά, διαχωρίσιμα προθέματα στα γερμανικά, επιθήματα στα ρωσικά και καταστάσεις όταν οι άνθρωποι απλά πες το διαφορετικά. Οποιαδήποτε προσπάθεια να ληφθούν υπόψη όλες οι αποχρώσεις θα χάσει εκατομμύρια ανθρώπινες ώρες.

Και μην ξεχνάτε τα ομώνυμα. Η ίδια λέξη μπορεί να έχει διαφορετικό νόημα σε διαφορετικό πλαίσιο, το οποίο οδηγεί σε μια ποικιλία μεταφράσεων. Πόσες έννοιες μπορείτε να καταλάβετε εδώ: Είδα έναν άνδρα σε έναν λόφο με ένα τηλεσκόπιο ;

Οι γλώσσες δεν αναπτύχθηκαν με βάση ένα σταθερό σύνολο κανόνων - ένα γεγονός που λατρεύουν οι γλωσσολόγοι. Επηρεάστηκαν πολύ περισσότερο από την ιστορία των εισβολών τα τελευταία τριακόσια χρόνια. Πώς θα μπορούσατε να το εξηγήσετε σε μια μηχανή;

Σαράντα χρόνια του Ψυχρού Πολέμου δεν βοήθησαν στην εξεύρεση διακριτής λύσης. Το RBMT ήταν νεκρό.

Μηχανική μετάφραση βάσει παραδείγματος (EBMT)

Η Ιαπωνία ενδιαφέρθηκε ιδιαίτερα για τη μάχη για τη μηχανική μετάφραση. Δεν υπήρχε Ψυχρός Πόλεμος, αλλά υπήρχαν λόγοι: πολύ λίγοι άνθρωποι στη χώρα γνώριζαν Αγγλικά. Υποσχέθηκε να είναι αρκετά θέμα στο επερχόμενο κόμμα παγκοσμιοποίησης. Έτσι, οι Ιάπωνες είχαν εξαιρετικά κίνητρα να βρουν μια μέθοδο εργασίας της μηχανικής μετάφρασης.

Η μετάφραση από Αγγλικά-Ιαπωνικά βάσει κανόνα είναι εξαιρετικά περίπλοκη. Η δομή της γλώσσας είναι εντελώς διαφορετική και σχεδόν όλες οι λέξεις πρέπει να αναδιαταχθούν και να προστεθούν νέες. Το 1984, ο Makoto Nagao από το Πανεπιστήμιο του Κιότο είχε την ιδέα να χρησιμοποιήσει έτοιμες φράσεις αντί για επαναλαμβανόμενη μετάφραση .

Ας φανταστούμε ότι πρέπει να μεταφράσουμε μια απλή πρόταση - «Πάω στον κινηματογράφο». Και ας πούμε ότι έχουμε ήδη μεταφράσει μια άλλη παρόμοια πρόταση - «Πάω στο θέατρο» - και μπορούμε να βρούμε τη λέξη «κινηματογράφος» στο λεξικό.

Το μόνο που χρειαζόμαστε είναι να καταλάβουμε τη διαφορά μεταξύ των δύο προτάσεων, να μεταφράσουμε τη λέξη που λείπει και, στη συνέχεια, να μην την βλάψουμε. Όσο περισσότερα παραδείγματα έχουμε, τόσο καλύτερη είναι η μετάφραση.

Δημιουργώ φράσεις σε άγνωστες γλώσσες με τον ίδιο ακριβώς τρόπο!

Το EBMT έδειξε το φως της ημέρας σε επιστήμονες από όλο τον κόσμο: αποδεικνύεται ότι μπορείτε απλά να τροφοδοτήσετε τη μηχανή με υπάρχουσες μεταφράσεις και να μην περάσετε χρόνια σχηματίζοντας κανόνες και εξαιρέσεις. Δεν είναι ακόμη μια επανάσταση, αλλά σαφώς το πρώτο βήμα προς αυτήν. Η επαναστατική εφεύρεση της στατιστικής μετάφρασης θα συνέβαινε σε μόλις πέντε χρόνια.

Στατιστική μηχανική μετάφραση (SMT)

Στις αρχές του 1990, στο IBM Research Center, παρουσιάστηκε για πρώτη φορά ένα σύστημα μηχανικής μετάφρασης που δεν γνώριζε τίποτα για κανόνες και γλωσσολογία στο σύνολό του. Ανέλυσε παρόμοια κείμενα σε δύο γλώσσες και προσπάθησε να κατανοήσει τα μοτίβα.

Η ιδέα ήταν απλή αλλά όμορφη. Μια πανομοιότυπη πρόταση σε δύο γλώσσες χωρίζεται σε λέξεις, οι οποίες αντιστοιχίστηκαν μετά. Αυτή η λειτουργία επαναλήφθηκε περίπου 500 εκατομμύρια φορές για να μετρήσει, για παράδειγμα, πόσες φορές η λέξη "Das Haus" μεταφράστηκε ως "σπίτι" έναντι "κτίριο" έναντι "κατασκευή" και ούτω καθεξής.

Εάν τις περισσότερες φορές η λέξη προέλευσης μεταφράστηκε ως «σπίτι», το χρησιμοποιούσε το μηχάνημα. Σημειώστε ότι δεν θέσαμε κανόνες ούτε χρησιμοποιήσαμε λεξικά - όλα τα συμπεράσματα έγιναν από μηχανή, καθοδηγούμενα από στατιστικά και τη λογική ότι «αν οι άνθρωποι μεταφράσουν έτσι, το ίδιο και εγώ.» Έτσι γεννήθηκε η στατιστική μετάφραση.

Η μέθοδος ήταν πολύ πιο αποτελεσματική και ακριβής από όλες τις προηγούμενες. Και δεν χρειάστηκαν γλωσσολόγοι. Όσο περισσότερα κείμενα χρησιμοποιήσαμε, τόσο καλύτερη μετάφραση έχουμε.

Απομένει ακόμη μια ερώτηση: πώς θα συσχετίσει η μηχανή τη λέξη "Das Haus" και τη λέξη "κτίριο" - και πώς θα γνωρίζαμε ότι αυτές ήταν οι σωστές μεταφράσεις;

Η απάντηση ήταν ότι δεν θα ξέραμε. Στην αρχή, το μηχάνημα υπέθεσε ότι η λέξη "Das Haus" συσχετίστηκε εξίσου με οποιαδήποτε λέξη από τη μεταφρασμένη πρόταση. Στη συνέχεια, όταν εμφανίστηκε το "Das Haus" σε άλλες προτάσεις, ο αριθμός συσχετίσεων με το "σπίτι" θα αυξανόταν. Αυτός είναι ο «αλγόριθμος ευθυγράμμισης λέξεων», μια τυπική εργασία για μηχανική μάθηση σε πανεπιστήμιο.

Η μηχανή χρειάστηκε εκατομμύρια και εκατομμύρια προτάσεις σε δύο γλώσσες για να συλλέξει τα σχετικά στατιστικά στοιχεία για κάθε λέξη. Πώς τα πήραμε; Λοιπόν, αποφασίσαμε να πάρουμε τις περιλήψεις των συνεδριάσεων του Ευρωπαϊκού Κοινοβουλίου και του Συμβουλίου Ασφαλείας των Ηνωμένων Εθνών - ήταν διαθέσιμες στις γλώσσες όλων των χωρών-μελών και τώρα ήταν διαθέσιμες για λήψη από την UN Corpora και την Europarl Corpora.

SMT βάσει λέξεων

Στην αρχή, τα πρώτα συστήματα στατιστικής μετάφρασης λειτούργησαν χωρίζοντας την πρόταση σε λέξεις, καθώς αυτή η προσέγγιση ήταν απλή και λογική. Το πρώτο μοντέλο στατιστικής μετάφρασης της IBM ονομάστηκε Μοντέλο ένα. Αρκετά κομψό, έτσι; Μαντέψτε τι ονόμασαν το δεύτερο;

Μοντέλο 1: «η σακούλα των λέξεων»

Το μοντέλο ένα χρησιμοποίησε μια κλασική προσέγγιση - για να χωριστεί σε λέξεις και να μετρήσει στατιστικά. Η σειρά λέξεων δεν ελήφθη υπόψη. Το μόνο κόλπο ήταν η μετάφραση μιας λέξης σε πολλές λέξεις. Για παράδειγμα, το "Der Staubsauger" θα μπορούσε να μετατραπεί σε "Ηλεκτρική σκούπα", αλλά αυτό δεν σήμαινε ότι θα αποδειχθεί το αντίστροφο.

Ακολουθούν μερικές απλές εφαρμογές στο Python: shawa / IBM-Model-1.

Μοντέλο 2: εξέταση της σειράς λέξεων σε προτάσεις

Η έλλειψη γνώσης σχετικά με τη σειρά λέξεων των γλωσσών έγινε πρόβλημα για το μοντέλο 1 και είναι πολύ σημαντικό σε ορισμένες περιπτώσεις.

Το μοντέλο 2 ασχολήθηκε με αυτό: απομνημόνευσε το συνηθισμένο μέρος που παίρνει η λέξη στην πρόταση εξόδου και ανακατεύει τις λέξεις για τον πιο φυσικό ήχο στο ενδιάμεσο βήμα. Τα πράγματα έγιναν καλύτερα, αλλά ήταν ακόμα κάπως άθλια.

Μοντέλο 3: επιπλέον γονιμότητα

Νέες λέξεις εμφανίστηκαν στη μετάφραση αρκετά συχνά, όπως άρθρα στα γερμανικά ή χρησιμοποιώντας το "do" όταν αρνήθηκε στα αγγλικά. «Ich θα τριών Persimonen» → «Εγώ δεν δεν θέλω Κάκι.» Για να το αντιμετωπίσουμε, δύο ακόμη βήματα προστέθηκαν στο μοντέλο 3

  • Η εισαγωγή διακριτικού NULL, εάν το μηχάνημα θεωρεί την αναγκαιότητα μιας νέας λέξης
  • Επιλέγοντας το σωστό γραμματικό σωματίδιο ή λέξη για κάθε ευθυγράμμιση λέξεων-λέξεων

Μοντέλο 4: ευθυγράμμιση λέξεων

Το μοντέλο 2 θεωρούσε τη λέξη ευθυγράμμιση, αλλά δεν ήξερε τίποτα για την αναδιάταξη. Για παράδειγμα, τα επίθετα συχνά αλλάζουν θέσεις με το ουσιαστικό και ανεξάρτητα από το πόσο καλή απομνημόνευση της παραγγελίας, δεν θα έκανε την έξοδο καλύτερη. Επομένως, το Μοντέλο 4 έλαβε υπόψη τη λεγόμενη «σχετική σειρά» - το μοντέλο έμαθε εάν δύο λέξεις άλλαζαν πάντα θέσεις.

Μοντέλο 5: Διορθώσεις σφαλμάτων

Τίποτα νέο εδώ. Το μοντέλο 5 πήρε μερικές ακόμη παραμέτρους για την εκμάθηση και επιλύθηκε το πρόβλημα με αντικρουόμενες θέσεις λέξεων.

Παρά την επαναστατική τους φύση, τα βασισμένα σε λέξεις συστήματα δεν κατάφεραν να αντιμετωπίσουν τις περιπτώσεις, το φύλο και την ομοφωνία. Κάθε λέξη μεταφράστηκε με έναν αληθινό τρόπο, σύμφωνα με τη μηχανή. Τέτοια συστήματα δεν χρησιμοποιούνται πλέον, καθώς έχουν αντικατασταθεί από τις πιο προηγμένες μεθόδους που βασίζονται σε φράσεις.

SMT βάσει φράσης

Αυτή η μέθοδος βασίζεται σε όλες τις μεταφραστικές αρχές που βασίζονται στη λέξη: στατιστικά στοιχεία, αναδιάταξη και λεξικά hacks. Παρόλο που, για τη μάθηση, χωρίζει το κείμενο όχι μόνο σε λέξεις αλλά και σε φράσεις. Αυτά ήταν τα n-gram, για να είμαστε ακριβείς, που ήταν μια συνεχόμενη ακολουθία n λέξεων στη σειρά.

Έτσι, η μηχανή έμαθε να μεταφράζει σταθερούς συνδυασμούς λέξεων, οι οποίοι βελτίωσαν αισθητά την ακρίβεια.

Το τέχνασμα ήταν ότι οι φράσεις δεν ήταν πάντα απλές συντακτικές κατασκευές και η ποιότητα της μετάφρασης έπεσε σημαντικά εάν παρεμβαίνει οποιοσδήποτε γνώριζε τη γλωσσολογία και τη δομή των προτάσεων. Ο Frederick Jelinek, ο πρωτοπόρος της γλωσσολογίας των υπολογιστών, αστειεύτηκε μια φορά: «Κάθε φορά που απολύω έναν γλωσσολόγο, η απόδοση του αναγνωριστή ομιλίας αυξάνεται».

Εκτός από τη βελτίωση της ακρίβειας, η μετάφραση βάσει φράσεων παρείχε περισσότερες επιλογές στην επιλογή των δίγλωσσων κειμένων για μάθηση. Για τη μετάφραση με βάση τη λέξη, η ακριβής αντιστοίχιση των πηγών ήταν κρίσιμη, η οποία αποκλείει οποιαδήποτε λογοτεχνική ή δωρεάν μετάφραση. Η μετάφραση βάσει φράσεων δεν είχε κανένα πρόβλημα να μάθει από αυτές. Για να βελτιώσουν τη μετάφραση, οι ερευνητές άρχισαν να αναλύουν τους ιστότοπους ειδήσεων σε διαφορετικές γλώσσες για το σκοπό αυτό.

Από το 2006, όλοι άρχισαν να χρησιμοποιούν αυτήν την προσέγγιση. Οι μεταφραστές Google, Yandex, Bing και άλλοι διαδικτυακοί μεταφραστές υψηλού προφίλ εργάστηκαν ως βασισμένοι σε φράσεις μέχρι το 2016. Ο καθένας από εσάς μπορεί πιθανώς να θυμηθεί τις στιγμές που η Google είτε μετέφρασε την πρόταση άψογα είτε είχε ως αποτέλεσμα πλήρη ανοησία, σωστά; Οι ανοησίες προήλθαν από χαρακτηριστικά που βασίζονται σε φράσεις.

Η καλή παλιά προσέγγιση που βασίζεται σε κανόνες παρείχε με συνέπεια ένα προβλέψιμο, αλλά φοβερό αποτέλεσμα. Οι στατιστικές μέθοδοι ήταν εκπληκτικές και αινιγματικές. Η Μετάφραση Google μετατρέπει «τριακόσια» σε «300» χωρίς δισταγμό. Αυτό ονομάζεται στατιστική ανωμαλία.

Η μετάφραση με βάση τη φράση έχει γίνει τόσο δημοφιλής, που όταν ακούτε «στατιστική μηχανική μετάφραση» αυτό είναι ό, τι πραγματικά σημαίνει. Μέχρι το 2016, όλες οι μελέτες επαίνεσαν τη μετάφραση που βασίζεται σε φράσεις ως την τελευταία λέξη της τεχνολογίας. Τότε, κανείς δεν πίστευε ότι η Google είχε ήδη πυροδοτήσει τις δυνάμεις της, ετοιμάζεται να αλλάξει ολόκληρη την εικόνα της μηχανικής μετάφρασης.

SMT βασισμένο σε σύνταξη

Αυτή η μέθοδος πρέπει επίσης να αναφερθεί, εν συντομία. Πολλά χρόνια πριν από την εμφάνιση νευρωνικών δικτύων, η μετάφραση με βάση τη σύνταξη θεωρήθηκε «το μέλλον ή η μετάφραση», αλλά η ιδέα δεν απογειώθηκε.

Οι υποστηρικτές της μετάφρασης που βασίζονται στη σύνταξη πίστευαν ότι ήταν δυνατή η συγχώνευσή της με τη μέθοδο που βασίζεται σε κανόνες. Είναι απαραίτητο να κάνετε μια ακριβή σύνταξη ανάλυσης της πρότασης - για να προσδιορίσετε το θέμα, το κατηγορηματικό και άλλα μέρη της πρότασης και, στη συνέχεια, να δημιουργήσετε ένα δέντρο προτάσεων. Χρησιμοποιώντας το, το μηχάνημα μαθαίνει να μετατρέπει συντακτικές μονάδες μεταξύ γλωσσών και μεταφράζει τις υπόλοιπες με λέξεις ή φράσεις. Αυτό θα είχε λύσει το ζήτημα της ευθυγράμμισης λέξεων μια για πάντα.

Το πρόβλημα είναι ότι η συντακτική ανάλυση λειτουργεί τρομερά, παρά το γεγονός ότι θεωρούμε ότι λύθηκε πριν από λίγο (καθώς έχουμε τις έτοιμες βιβλιοθήκες για πολλές γλώσσες). Προσπάθησα να χρησιμοποιήσω συντακτικά δέντρα για εργασίες λίγο πιο περίπλοκες από το να αναλύσω το θέμα και το κατηγορηματικό. Και κάθε φορά που εγκατέλειψα και χρησιμοποιούσα μια άλλη μέθοδο.

Επιτρέψτε μου να ξέρω στα σχόλια αν το καταφέρετε να το χρησιμοποιήσετε τουλάχιστον μία φορά.

Neural Machine Μετάφραση (NMT)

Ένα πολύ διασκεδαστικό χαρτί σχετικά με τη χρήση νευρωνικών δικτύων στη μηχανική μετάφραση δημοσιεύτηκε το 2014. Το Διαδίκτυο δεν το παρατήρησε καθόλου, εκτός από την Google - έβγαλαν τα φτυάρια τους και άρχισαν να σκάβουν. Δύο χρόνια αργότερα, το Νοέμβριο του 2016, η Google έκανε μια ανακοίνωση που αλλάζει το παιχνίδι.

Η ιδέα ήταν κοντά στη μεταφορά του στυλ μεταξύ φωτογραφιών. Θυμάστε εφαρμογές όπως το Prisma, ποιες βελτιωμένες εικόνες σε στιλ κάποιου διάσημου καλλιτέχνη; Δεν υπήρχε μαγεία. Το νευρικό δίκτυο διδάχθηκε να αναγνωρίζει τους πίνακες του καλλιτέχνη. Στη συνέχεια, τα τελευταία επίπεδα που περιείχαν την απόφαση του δικτύου καταργήθηκαν. Η προκύπτουσα στυλιζαρισμένη εικόνα ήταν απλώς η ενδιάμεση εικόνα που πήρε το δίκτυο. Αυτή είναι η φαντασία του δικτύου και το θεωρούμε όμορφο.

Εάν μπορούμε να μεταφέρουμε το στυλ στη φωτογραφία, τι γίνεται αν προσπαθήσουμε να επιβάλουμε άλλη γλώσσα σε ένα κείμενο προέλευσης; Το κείμενο θα ήταν το ακριβές «στυλ του καλλιτέχνη» και θα προσπαθούσαμε να το μεταφέρουμε διατηρώντας παράλληλα την ουσία της εικόνας (με άλλα λόγια, την ουσία του κειμένου).

Φανταστείτε ότι προσπαθώ να περιγράψω το σκυλί μου - το μέσο μέγεθος, την αιχμηρή μύτη, τη μικρή ουρά, πάντα γαβγίζει. Αν σας έδωσα αυτό το σύνολο των χαρακτηριστικών του σκύλου και αν η περιγραφή ήταν ακριβής, θα μπορούσατε να το σχεδιάσετε, παρόλο που δεν το έχετε δει ποτέ.

Τώρα, φανταστείτε το κείμενο προέλευσης είναι το σύνολο συγκεκριμένων χαρακτηριστικών. Βασικά, σημαίνει ότι το κωδικοποιείτε και αφήνετε το άλλο νευρωνικό δίκτυο να το αποκωδικοποιήσει ξανά στο κείμενο, αλλά σε άλλη γλώσσα. Ο αποκωδικοποιητής γνωρίζει μόνο τη γλώσσα του. Δεν έχει ιδέα για την προέλευση των χαρακτηριστικών, αλλά μπορεί να τα εκφράσει, για παράδειγμα, στα Ισπανικά. Συνεχίζοντας την αναλογία, δεν έχει σημασία πώς σχεδιάζετε το σκυλί - με κραγιόνια, ακουαρέλα ή το δάχτυλό σας. Το ζωγραφίζετε όσο μπορείτε.

Για άλλη μια φορά - ένα νευρικό δίκτυο μπορεί να κωδικοποιήσει την πρόταση μόνο στο συγκεκριμένο σύνολο χαρακτηριστικών και ένα άλλο μπορεί να τις αποκωδικοποιήσει μόνο στο κείμενο. Και οι δύο δεν έχουν ιδέα για το ένα το άλλο, και ο καθένας τους γνωρίζει μόνο τη δική του γλώσσα. Θυμάστε κάτι; Η Interlingua επέστρεψε. Τα-ντα.

Το ερώτημα είναι, πώς βρίσκουμε αυτά τα χαρακτηριστικά; Είναι προφανές όταν μιλάμε για το σκυλί, αλλά πώς να αντιμετωπίσουμε το κείμενο; Πριν από τριάντα χρόνια, οι επιστήμονες προσπάθησαν ήδη να δημιουργήσουν τον παγκόσμιο κώδικα γλώσσας και κατέληξε σε αποτυχία.

Ωστόσο, έχουμε βαθιά μάθηση τώρα. Και αυτό είναι το βασικό του καθήκον! Η κύρια διάκριση μεταξύ της βαθιάς μάθησης και των κλασικών νευρωνικών δικτύων έγκειται ακριβώς στην ικανότητα αναζήτησης αυτών των συγκεκριμένων χαρακτηριστικών, χωρίς καμία ιδέα για τη φύση τους. Εάν το νευρωνικό δίκτυο είναι αρκετά μεγάλο και υπάρχουν μερικές χιλιάδες κάρτες βίντεο, μπορείτε επίσης να βρείτε αυτές τις δυνατότητες στο κείμενο.

Θεωρητικά, μπορούμε να μεταφέρουμε τα χαρακτηριστικά που αποκτήθηκαν από τα νευρικά δίκτυα στους γλωσσολόγους, έτσι ώστε να μπορούν να ανοίξουν γενναίους νέους ορίζοντες για τον εαυτό τους.

Το ερώτημα είναι, τι είδους νευρωνικό δίκτυο πρέπει να χρησιμοποιείται για την κωδικοποίηση και την αποκωδικοποίηση; Τα Convolutional Neural Networks (CNN) ταιριάζουν απόλυτα στις φωτογραφίες, καθώς λειτουργούν με ανεξάρτητα μπλοκ pixel.

Αλλά δεν υπάρχουν ανεξάρτητα μπλοκ στο κείμενο - κάθε λέξη εξαρτάται από το περιβάλλον της. Το κείμενο, η ομιλία και η μουσική είναι πάντα συνεπή. Έτσι τα επαναλαμβανόμενα νευρωνικά δίκτυα (RNN) θα ήταν η καλύτερη επιλογή για να τα χειριστείτε, αφού θυμούνται το προηγούμενο αποτέλεσμα - την προηγούμενη λέξη, στην περίπτωσή μας.

Τώρα τα RNN χρησιμοποιούνται παντού - η αναγνώριση ομιλίας του Siri (αναλύει την ακολουθία ήχων, όπου το επόμενο εξαρτάται από το προηγούμενο), συμβουλές πληκτρολογίου (απομνημονεύστε το προηγούμενο, μαντέψτε το επόμενο), δημιουργία μουσικής και ακόμη και chatbots.

Για τους σπασίκλες σαν εμένα: στην πραγματικότητα, η αρχιτεκτονική των νευρικών μεταφραστών ποικίλλει πολύ. Το κανονικό RNN χρησιμοποιήθηκε στην αρχή, στη συνέχεια αναβαθμίστηκε σε αμφίδρομη, όπου ο μεταφραστής εξέτασε όχι μόνο λέξεις πριν από την αρχική λέξη, αλλά και την επόμενη λέξη. Αυτό ήταν πολύ πιο αποτελεσματικό. Στη συνέχεια, ακολούθησε το σκληρό RNN πολλαπλών επιπέδων με μονάδες LSTM για μακροπρόθεσμη αποθήκευση του μεταφραστικού περιβάλλοντος.

Σε δύο χρόνια, τα νευρικά δίκτυα ξεπέρασαν ό, τι είχε εμφανιστεί τα τελευταία 20 χρόνια μετάφρασης. Η νευρική μετάφραση περιέχει 50% λιγότερα λάθη στη σειρά λέξεων, 17% λιγότερα λεξικά λάθη και 19% λιγότερα γραμματικά λάθη. Τα νευρικά δίκτυα έμαθαν ακόμη και να εναρμονίσουν το φύλο και την περίπτωση σε διαφορετικές γλώσσες. Και κανείς δεν τους δίδαξε να το κάνουν.

Οι πιο αξιοσημείωτες βελτιώσεις σημειώθηκαν σε πεδία όπου η άμεση μετάφραση δεν χρησιμοποιήθηκε ποτέ. Οι στατιστικές μέθοδοι αυτόματης μετάφρασης λειτουργούσαν πάντα χρησιμοποιώντας τα Αγγλικά ως βασική πηγή. Έτσι, εάν μεταφράσατε από Ρωσικά σε Γερμανικά, το μηχάνημα μεταφράζει πρώτα το κείμενο στα Αγγλικά και μετά από Αγγλικά σε Γερμανικά, γεγονός που οδηγεί σε διπλή απώλεια.

Η νευρική μετάφραση δεν το χρειάζεται - απαιτείται μόνο ένας αποκωδικοποιητής ώστε να μπορεί να λειτουργήσει. Αυτή ήταν η πρώτη φορά που έγινε δυνατή η άμεση μετάφραση μεταξύ γλωσσών χωρίς κοινό λεξικό.

Μετάφραση Google (από το 2016)

Το 2016, η Google ενεργοποίησε τη νευρική μετάφραση για εννέα γλώσσες. Ανέπτυξαν το σύστημά τους με το όνομα Google Neural Machine Translation (GNMT). Αποτελείται από 8 κωδικοποιητές και 8 στρώματα αποκωδικοποιητών RNN, καθώς και συνδέσεις προσοχής από το δίκτυο αποκωδικοποιητή.

Δεν διαιρούσαν μόνο προτάσεις, αλλά και λέξεις. Έτσι αντιμετώπισαν ένα από τα σημαντικότερα θέματα NMT - σπάνιες λέξεις. Τα NMTs είναι ανίσχυρα όταν η λέξη δεν είναι στο λεξικό τους. Ας πούμε, "Vas3k". Αμφιβάλλω ότι κάποιος δίδαξε το νευρικό δίκτυο να μεταφράσει το ψευδώνυμό μου. Σε αυτήν την περίπτωση, το GMNT προσπαθεί να χωρίσει τις λέξεις σε κομμάτια λέξεων και να ανακτήσει τη μετάφρασή τους. Εξυπνος.

Συμβουλή: Η Μετάφραση Google που χρησιμοποιείται για μετάφραση ιστότοπων στο πρόγραμμα περιήγησης εξακολουθεί να χρησιμοποιεί τον παλιό αλγόριθμο που βασίζεται σε φράσεις. Κατά κάποιο τρόπο, η Google δεν το έχει αναβαθμίσει και οι διαφορές είναι αρκετά αισθητές σε σύγκριση με την ηλεκτρονική έκδοση.

Η Google χρησιμοποιεί έναν μηχανισμό crowdsourcing στην ηλεκτρονική έκδοση. Οι χρήστες μπορούν να επιλέξουν την έκδοση που θεωρούν την πιο σωστή και αν αρέσει σε πολλούς χρήστες, η Google θα μεταφράζει πάντα αυτήν τη φράση με αυτόν τον τρόπο και θα την επισημαίνει με ένα ειδικό σήμα. Αυτό λειτουργεί φανταστικά για σύντομες καθημερινές φράσεις όπως, «Ας πάμε στον κινηματογράφο» ή «Σε περιμένω». Η Google γνωρίζει καλύτερα τα συνομιλητικά Αγγλικά από ό, τι εγώ :(

Το Microsoft Bing λειτουργεί ακριβώς όπως η Μετάφραση Google. Αλλά το Yandex είναι διαφορετικό.

Μετάφραση Yandex (από το 2017)

Το Yandex ξεκίνησε το νευρικό σύστημα μετάφρασης το 2017. Το κύριο χαρακτηριστικό του, όπως δηλώθηκε, ήταν η υβριδικότητα. Το Yandex συνδυάζει νευρικές και στατιστικές προσεγγίσεις για τη μετάφραση της πρότασης και στη συνέχεια επιλέγει την καλύτερη με τον αγαπημένο αλγόριθμο CatBoost.

Το θέμα είναι, η νευρική μετάφραση συχνά αποτυγχάνει κατά τη μετάφραση σύντομων φράσεων, καθώς χρησιμοποιεί το πλαίσιο για να επιλέξει τη σωστή λέξη. Θα ήταν δύσκολο αν η λέξη εμφανίστηκε πολύ λίγες φορές σε δεδομένα εκπαίδευσης. Σε τέτοιες περιπτώσεις, μια απλή στατιστική μετάφραση βρίσκει τη σωστή λέξη γρήγορα και απλά.

Το Yandex δεν μοιράζεται τις λεπτομέρειες. Μας εξουδετερώνει με δελτία τύπου μάρκετινγκ. ΕΝΤΑΞΕΙ.

Φαίνεται ότι η Google χρησιμοποιεί SMT για τη μετάφραση λέξεων και σύντομων φράσεων. Δεν το αναφέρουν σε κανένα άρθρο, αλλά είναι αρκετά αξιοσημείωτο αν κοιτάξετε τη διαφορά μεταξύ της μετάφρασης σύντομων και μεγάλων εκφράσεων. Εκτός αυτού, το SMT χρησιμοποιείται για την εμφάνιση των στατιστικών της λέξης.

Το συμπέρασμα και το μέλλον

Όλοι εξακολουθούν να είναι ενθουσιασμένοι για την ιδέα του “Babel fish” - άμεση μετάφραση ομιλίας. Η Google έχει κάνει βήματα προς αυτήν την κατεύθυνση με τα Pixel Buds, αλλά στην πραγματικότητα, δεν είναι ακόμα αυτό που ονειρευόμασταν. Η άμεση μετάφραση ομιλίας είναι διαφορετική από τη συνήθη μετάφραση. Πρέπει να γνωρίζετε πότε να ξεκινήσετε τη μετάφραση και πότε να κλείσετε και να ακούσετε. Δεν έχω δει τις κατάλληλες προσεγγίσεις για να το λύσω ακόμα. Εκτός αν, ίσως, Skype…

Και εδώ είναι μια ακόμη κενή περιοχή: όλη η μάθηση περιορίζεται στο σύνολο των παράλληλων μπλοκ κειμένου. Τα βαθύτερα νευρικά δίκτυα μαθαίνουν ακόμη σε παράλληλα κείμενα. Δεν μπορούμε να διδάξουμε το νευρωνικό δίκτυο χωρίς να το παρέχουμε πηγή. Οι άνθρωποι, αντίθετα, μπορούν να συμπληρώσουν το λεξικό τους με την ανάγνωση βιβλίων ή άρθρων, ακόμη και αν δεν τα μεταφράζουν στη μητρική τους γλώσσα.

Εάν οι άνθρωποι μπορούν να το κάνουν, το νευρικό δίκτυο μπορεί να το κάνει επίσης, θεωρητικά. Βρήκα μόνο ένα πρωτότυπο που προσπαθεί να υποκινήσει το δίκτυο, το οποίο γνωρίζει μια γλώσσα, να διαβάσει τα κείμενα σε άλλη γλώσσα για να αποκτήσω εμπειρία. Θα το δοκιμάσω μόνος μου, αλλά είμαι ανόητος. Εντάξει, αυτό είναι.

Αυτή η ιστορία γράφτηκε αρχικά στα ρωσικά και μετά μεταφράστηκε στα αγγλικά στο Vas3k.com από τον Vasily Zubarev. Είναι ο φίλος μου και είμαι πολύ σίγουρος ότι το blog του θα πρέπει να εξαπλωθεί.

Χρήσιμοι σύνδεσμοι

  • Philipp Koehn: Στατιστική μηχανική μετάφραση. Πιο ολοκληρωμένη συλλογή των μεθόδων που έχω βρει.
  • Moses - δημοφιλής βιβλιοθήκη για τη δημιουργία δικών στατιστικών μεταφράσεων
  • OpenNMT - μία ακόμη βιβλιοθήκη, αλλά για τους νευρικούς μεταφραστές
  • Το άρθρο από έναν από τους αγαπημένους μου bloggers που εξηγεί το RNN και το LSTM
  • Ένα βίντεο «Πώς να φτιάξετε έναν μεταφραστή γλώσσας», αστείος τύπος, καθαρή εξήγηση. Ακόμα δεν είναι αρκετό.
  • Οδηγός κειμένου από το TensorFlow σχετικά με τη δημιουργία του δικού σας νευρικού μεταφραστή, για όσους θέλουν περισσότερα παραδείγματα και να δοκιμάσουν τον κώδικα.

Άλλα άρθρα από το Vas3k.com

Πώς λειτουργούν τα Ethereum και τα έξυπνα συμβόλαια

Διανεμημένο Turing Machine με Blockchain Chain Protection vas3k.com Blockchain Inside Out: Πώς λειτουργεί το Bitcoin

Για πάντα με απλές λέξεις vas3k.com

Ενα τελευταίο πράγμα…

Εάν σας άρεσε αυτό το άρθρο, κάντε κλικ στο ? παρακάτω και μοιραστείτε το με άλλα άτομα, ώστε να μπορούν να το απολαύσουν επίσης.