Τσιουάουα ή μάφιν; Η αναζήτησή μου για το καλύτερο API όρασης υπολογιστή

Αυτό το δημοφιλές διαδικτυακό meme καταδεικνύει την ανησυχητική ομοιότητα που μοιράζεται μεταξύ των chihuahuas και των muffins. Αυτές οι εικόνες κοινοποιούνται συνήθως σε παρουσιάσεις στον κλάδο της Τεχνητής Νοημοσύνης (AI) (περιλαμβάνονται και οι ίδιοι).

Αλλά μια ερώτηση που δεν έχω δει κανείς να απαντάει είναι πόσο καλή είναι η σύγχρονη τεχνητή νοημοσύνη στην εξάλειψη της αβεβαιότητας μιας εικόνας που θα μπορούσε να μοιάζει με ένα chihuahua ή ένα muffin; Για την ψυχαγωγία και την εκπαίδευσή σας, θα ερευνήσω αυτήν την ερώτηση σήμερα.

Η δυαδική ταξινόμηση ήταν δυνατή από τότε που ο αλγόριθμος perceptron εφευρέθηκε το 1957. Αν νομίζετε ότι η AI έχει υποχωρήσει τώρα, οι New York Times ανέφεραν το 1958 ότι η εφεύρεση ήταν η αρχή ενός υπολογιστή που θα μπορούσε «να περπατήσει, να μιλήσει, να δει, γράψτε, αναπαραγάγετε τον εαυτό του και να συνειδητοποιήσετε την ύπαρξή του. " Ενώ οι μηχανές perceptron, όπως το Mark 1, σχεδιάστηκαν για αναγνώριση εικόνας, στην πραγματικότητα μπορούν να διακρίνουν μόνο μοτίβα που είναι γραμμικά διαχωρίσιμα. Αυτό τους εμποδίζει να μάθουν τα περίπλοκα μοτίβα που βρίσκονται στα περισσότερα οπτικά μέσα.

Δεν υπάρχει αμφιβολία ότι ο κόσμος ήταν απογοητευμένος και ακολούθησε ένας χειμώνας AI. Έκτοτε, οι αντιλήψεις πολλαπλών επιπέδων (δημοφιλείς τη δεκαετία του 1980) και τα συνελικτικά νευρωνικά δίκτυα (που πρωτοστάτησε ο Yann LeCun το 1998) έχουν ξεπεράσει σημαντικά τις αντιλήψεις ενός στρώματος σε εργασίες αναγνώρισης εικόνας.

Με μεγάλα σύνολα δεδομένων με ετικέτα, όπως το ImageNet και τον ισχυρό υπολογισμό GPU, οι πιο προηγμένες αρχιτεκτονικές νευρωνικών δικτύων όπως το AlexNet, το VGG, το Inception και το ResNet έχουν επιτύχει προηγμένες επιδόσεις στην όραση του υπολογιστή.

API όρασης υπολογιστή και αναγνώρισης εικόνας

Εάν είστε μηχανικός μηχανικής μάθησης, είναι εύκολο να πειραματιστείτε και να βελτιώσετε αυτά τα μοντέλα χρησιμοποιώντας προ-εκπαιδευμένα μοντέλα και βάρη είτε στο Keras / Tensorflow είτε στο PyTorch. Εάν δεν νιώθετε άνετα να τροποποιήσετε τα νευρικά δίκτυα μόνοι σας, είστε τυχεροί. Σχεδόν όλοι οι κορυφαίοι γίγαντες της τεχνολογίας και οι πολλά υποσχόμενες νεοσύστατες εταιρείες ισχυρίζονται ότι «εκδημοκρατίζουν την τεχνητή νοημοσύνη» προσφέροντας εύχρηστα API όρασης υπολογιστή.

Ποιο ειναι καλυτερο? Για να απαντήσετε σε αυτήν την ερώτηση, θα πρέπει να ορίσετε με σαφήνεια τους επιχειρηματικούς σας στόχους, τις περιπτώσεις χρήσης προϊόντων, τα δοκιμαστικά σύνολα δεδομένων και τις μετρήσεις επιτυχίας για να μπορέσετε να συγκρίνετε τις λύσεις μεταξύ τους.

Αντί μιας σοβαρής έρευνας, μπορούμε τουλάχιστον να αποκτήσουμε μια αίσθηση υψηλού επιπέδου για τις διαφορετικές συμπεριφορές κάθε πλατφόρμας, δοκιμάζοντάς τις με το πρόβλημα παιχνιδιού της διαφοροποίησης ενός chihuahua από ένα muffin.

Διεξαγωγή της δοκιμής

Για να το κάνω αυτό, χώρισα το κανονικό meme σε 16 δοκιμαστικές εικόνες. Στη συνέχεια, χρησιμοποιώ κώδικα ανοιχτού κώδικα που γράφτηκε από τον μηχανικό Gaurav Oberoi για να ενοποιήσω τα αποτελέσματα από τα διαφορετικά API. Κάθε εικόνα ωθείται μέσω των έξι API που αναφέρονται παραπάνω, τα οποία επιστρέφουν ετικέτες υψηλής εμπιστοσύνης ως προβλέψεις τους. Οι εξαιρέσεις είναι η Microsoft, η οποία επιστρέφει τόσο ετικέτες όσο και λεζάντες, και Cloudsight, η οποία χρησιμοποιεί την υβριδική τεχνολογία human-AI για να επιστρέψει μόνο μία λεζάντα. Αυτός είναι ο λόγος για τον οποίο το Cloudsight μπορεί να επιστρέψει τρομερά ακριβείς λεζάντες για πολύπλοκες εικόνες, αλλά χρειάζεται επεξεργασία 10-20 φορές περισσότερο.

Παρακάτω είναι ένα παράδειγμα της εξόδου. Για να δείτε τα αποτελέσματα και των 16 εικόνων chihuahua έναντι muffin, κάντε κλικ εδώ.

Πόσο καλά έκαναν τα API; Εκτός από τη Microsoft, η οποία μπερδεύει αυτό το muffin για ένα γεμιστό ζώο, κάθε άλλο API αναγνώρισε ότι η εικόνα ήταν φαγητό. Αλλά δεν υπήρχε συμφωνία για το αν το φαγητό ήταν ψωμί, κέικ, μπισκότα ή muffins. Η Google ήταν το μόνο API που αναγνώρισε με επιτυχία το muffin ως την πιο πιθανή ετικέτα.

Ας δούμε ένα παράδειγμα chihuahua.

Και πάλι, τα API τα πήγαν αρκετά καλά. Όλοι τους συνειδητοποίησαν ότι η εικόνα είναι σκύλος, αν και μερικοί από αυτούς έχασαν την ακριβή φυλή.

Ωστόσο, υπήρχαν συγκεκριμένες αποτυχίες. Η Microsoft επέστρεψε μια κατάφωρα λάθος λεζάντα τρεις ξεχωριστές φορές, περιγράφοντας το muffin είτε ως γεμιστό ζώο είτε ως αρκουδάκι.

Η Google ήταν το απόλυτο αναγνωριστικό muffin, επιστρέφοντας το "muffin" ως την υψηλότερη ετικέτα εμπιστοσύνης για 6 από τις 7 εικόνες muffin στο σετ δοκιμών. Τα άλλα API δεν επέστρεψαν το "muffin" ως την πρώτη ετικέτα για οποιαδήποτε εικόνα muffin, αλλά αντίθετα επέστρεψαν λιγότερο σχετικές ετικέτες όπως "ψωμί", "cookie" ή "cupcake".

Ωστόσο, παρά τις επιτυχίες της, η Google απέτυχε σε αυτήν τη συγκεκριμένη εικόνα muffin, επιστρέφοντας ως «προβλέψεις» και «ομάδα φυλών σκύλων» ως προβλέψεις.

Ακόμη και οι πιο εξελιγμένες πλατφόρμες μηχανικής μάθησης του κόσμου παραβιάζονται από την πρόκληση του chihuahua έναντι του muffin. Ένα ανθρώπινο μικρό παιδί χάνει τη βαθιά μάθηση όταν πρόκειται να καταλάβει τι είναι το φαγητό και τι είναι το Fido.

Ποιο API όρασης υπολογιστή είναι το καλύτερο;

Για να βρείτε την απάντηση σε αυτό το αόριστο μυστήριο, θα πρέπει να κατευθυνθείτε στο TOPBOTS για να διαβάσετε ολόκληρο το αρχικό άρθρο!