Εισαγωγή στο ROUGE και πώς να το χρησιμοποιήσετε για την αξιολόγηση περιλήψεων

Εισαγωγή στο ROUGE και πώς να το χρησιμοποιήσετε για την αξιολόγηση περιλήψεων

Το ROUGE σημαίνει Recall-Oriented Understanding για Gisting Evaluation. Είναι ουσιαστικά ένα σύνολο μετρήσεων για την αξιολόγηση της αυτόματης σύνοψης των κειμένων καθώς και των μηχανικών μεταφράσεων.

Λειτουργεί συγκρίνοντας μια σύνοψη ή μετάφραση που παράγεται αυτόματα με ένα σύνολο περιλήψεων αναφοράς (συνήθως ανθρώπινης παραγωγής). Ας πούμε ότι έχουμε τις ακόλουθες περιλήψεις συστήματος και αναφοράς:

Σύνοψη συστήματος (τι παρήγαγε η μηχανή):

the cat was found under the bed

Περίληψη αναφοράς (πρότυπο χρυσού - συνήθως από ανθρώπους):

the cat was under the bed

Αν λάβουμε υπόψη μόνο τις μεμονωμένες λέξεις, ο αριθμός των αλληλεπικαλυπτόμενων λέξεων μεταξύ της σύνοψης συστήματος και της περίληψης αναφοράς είναι 6. Αυτό, ωστόσο, δεν σας λέει πολλά ως μέτρηση. Για να έχουμε μια καλή ποσοτική τιμή, μπορούμε πραγματικά να υπολογίσουμε την ακρίβεια και την ανάκληση χρησιμοποιώντας την επικάλυψη.

Με απλά λόγια, η ανάκληση (στο πλαίσιο του ROUGE) αναφέρεται στο ποσό της περίληψης αναφοράςη σύνοψη συστήματος ανακτά ή καταγράφει. Εάν εξετάζουμε απλώς τις μεμονωμένες λέξεις, μπορεί να υπολογιστεί ως:

Σε αυτό το παράδειγμα, η ανάκληση θα ήταν:

Αυτό σημαίνει ότι όλες οι λέξεις στη σύνοψη αναφοράς έχουν ληφθεί από τη σύνοψη συστήματος , πράγμα που ισχύει στην πραγματικότητα για αυτό το παράδειγμα. Βόιλα!

Αυτό φαίνεται πολύ καλό για ένα σύστημα σύνοψης κειμένων. Αλλά δεν σας λέει την άλλη πλευρά της ιστορίας. Μια σύνοψη που δημιουργείται από μηχανή (σύνοψη συστήματος) μπορεί να είναι εξαιρετικά μεγάλη, καταγράφοντας όλες τις λέξεις στη σύνοψη αναφοράς. Όμως, πολλές από τις λέξεις στη σύνοψη του συστήματος μπορεί να είναι άχρηστες, κάνοντας την περίληψη άσκοπα ριζική.

Εδώ μπαίνει η ακρίβεια. Όσον αφορά την ακρίβεια, αυτό που μετράτε ουσιαστικά είναι, πόσο από τη σύνοψη του συστήματος ήταν στην πραγματικότητα σχετική ή αναγκαία ; Η ακρίβεια μετριέται ως:

Σε αυτό το παράδειγμα, η ακρίβεια θα ήταν:

Αυτό σημαίνει απλώς ότι 6 από τις 7 λέξεις στη σύνοψη του συστήματος ήταν στην πραγματικότητα σχετικές ή αναγκαίες. Εάν είχαμε την ακόλουθη σύνοψη συστήματος, σε αντίθεση με το παραπάνω παράδειγμα -

Σύνοψη συστήματος 2:

the tiny little cat was found under the big funny bed

Η ακρίβεια γίνεται τώρα:

Τώρα, αυτό δεν φαίνεται τόσο καλό, έτσι; Αυτό συμβαίνει επειδή έχουμε μερικές περιττές λέξεις στην περίληψη. Η πτυχή της ακρίβειας καθίσταται πολύ κρίσιμη όταν προσπαθείτε να δημιουργήσετε περιλήψεις που είναι περιεκτικές στη φύση. Επομένως, είναι πάντα καλύτερο να υπολογίζετε τόσο την ακρίβεια όσο και την ανάκληση και στη συνέχεια να αναφέρετε το F-Measure .

Εάν οι περιλήψεις σας αναγκάζονται κατά κάποιο τρόπο να είναι συνοπτικές μέσω ορισμένων περιορισμών, τότε θα μπορούσατε να χρησιμοποιήσετε μόνο την ανάκληση, καθώς η ακρίβεια είναι λιγότερο ανησυχητική σε αυτό το σενάριο.

Τα ROUGE-N, ROUGE-S και ROUGE-L μπορούν να θεωρηθούν ως η λεπτομέρεια των κειμένων που συγκρίνονται μεταξύ των περιλήψεων του συστήματος και των περιλήψεων αναφοράς.

  • ROUGE-Ν - μέτρα unigram , bigram , τρίγραμμοκαι επικάλυψη υψηλότερης τάξης n-gram
  • ROUGE-L - μετρά τη μεγαλύτερη ακολουθία λέξεων που ταιριάζει με τη χρήση LCS. Ένα πλεονέκτημα της χρήσης του LCS είναι ότι δεν απαιτεί διαδοχικούς αγώνες αλλά αντιστοιχίες σε σειρά που αντικατοπτρίζουν τη σειρά λέξεων σε επίπεδο φράσης. Δεδομένου ότι περιλαμβάνει αυτόματα τα μεγαλύτερα σε σειρά n-γραμμάρια κοινά, δεν χρειάζεστε ένα προκαθορισμένο μήκος n-gram.
  • ROUGE-S - Είναι οποιοδήποτε ζεύγος λέξεων σε μια πρόταση με τη σειρά, επιτρέποντας αυθαίρετα κενά. Αυτό μπορεί επίσης να ονομαστεί παράλειψη γραμμάριου. Για παράδειγμα, το skip-bigram μετρά την επικάλυψη ζευγών λέξεων που μπορεί να έχει το πολύ δύο κενά μεταξύ των λέξεων. Για παράδειγμα, για τη φράση «γάτα στο καπέλο», το skip-bigrams θα ήταν «γάτα μέσα, γάτα το, καπέλο γάτας, στο, στο καπέλο, το καπέλο».

Για παράδειγμα, το ROUGE-1 αναφέρεται σε αλληλεπικάλυψη unigrams μεταξύ της σύνοψης συστήματος και της περίληψης αναφοράς. Το ROUGE-2 αναφέρεται στην αλληλεπικάλυψη των bigrams μεταξύ του συστήματος και των περιλήψεων αναφοράς.

Ας πάρουμε το παράδειγμα από ψηλά. Ας πούμε ότι θέλουμε να υπολογίσουμε τα αποτελέσματα ακρίβειας και ανάκλησης ROUGE-2 .

Σύνοψη συστήματος:

the cat was found under the bed

Περίληψη αναφοράς:

the cat was under the bed

Σύνοψη Bigrams συστήματος:

the cat, cat was, was found, found under, under the, the bed

Περίληψη αναφοράς Bigrams:

the cat, cat was, was under, under the, the bed

Με βάση τα παραπάνω bigrams, η ανάκληση ROUGE-2 έχει ως εξής:

Ουσιαστικά, η σύνοψη του συστήματος έχει ανακτήσει 4 bigrams από τα 5 bigrams από τη σύνοψη αναφοράς, κάτι που είναι αρκετά καλό! Τώρα η ακρίβεια ROUGE-2 έχει ως εξής:

Η ακρίβεια εδώ μας λέει ότι από όλα τα bigrams σύνοψης συστήματος, υπάρχει 67% επικάλυψη με τη σύνοψη αναφοράς. Αυτό δεν είναι ούτε πολύ κακό. Λάβετε υπόψη ότι καθώς οι περιλήψεις (τόσο οι περιλήψεις συστήματος όσο και οι αναφορές) γίνονται όλο και μεγαλύτερες, θα υπάρχουν λιγότερα επικαλυπτόμενα bigrams. Αυτό ισχύει ιδιαίτερα στην περίπτωση της αφαιρετικής περίληψης, όπου δεν χρησιμοποιείτε ξανά προτάσεις για σύνοψη.

Ο λόγος για τον οποίο κάποιος θα χρησιμοποιούσε το ROUGE-1 πάνω ή σε συνδυασμό με το ROUGE-2 (ή άλλα πιο λεπτά μεγέθη ROUGE), είναι επίσης να δείξει την ευχέρεια των περιλήψεων ή της μετάφρασης. Η διαίσθηση είναι ότι αν ακολουθήσετε πιο προσεκτικά τις σειρές λέξεων της περίληψης αναφοράς, τότε η περίληψή σας είναι στην πραγματικότητα πιο άπταιστη.

Για περισσότερες αναλυτικές πληροφορίες σχετικά με αυτές τις μετρήσεις αξιολόγησης, μπορείτε να ανατρέξετε στο έγγραφο του Lin. Το μέτρο που πρέπει να χρησιμοποιήσετε εξαρτάται από τη συγκεκριμένη εργασία που προσπαθείτε να αξιολογήσετε. Εάν εργάζεστε σε εξορυκτική σύνοψη με αρκετά ρήσιμες περιλήψεις συστήματος και αναφοράς, τότε είναι λογικό να χρησιμοποιείτε τα ROUGE-1 και ROUGE-L. Για πολύ συνοπτικές περιλήψεις, μόνο το ROUGE-1 μπορεί να αρκεί, ειδικά εάν εφαρμόζετε επίσης αφαίρεση λέξεων και διακοπής λέξεων.

Έγγραφα για ανάγνωση

  • ROUGE: Ένα πακέτο για αυτόματη αξιολόγηση των περιλήψεων