Ξεπερνώντας τις προκλήσεις της εργασίας με μικρά δεδομένα

Ξεπερνώντας τις προκλήσεις της εργασίας με μικρά δεδομένα

Dezember 6, 2022 0 Von admin

Για να ενισχύσουμε περαιτέρω τη δέσμευσή μας να παρέχουμε κορυφαία στον κλάδο κάλυψη της τεχνολογίας δεδομένων, η VentureBeat είναι ενθουσιασμένη που καλωσορίζει τον Andrew Brust και τον Tony Baer ως τακτικούς συνεισφέροντες. Παρακολουθήστε τα άρθρα τους στο Data Pipeline.

Είχατε πρόβλημα με τα καθίσματα του αεροπλάνου επειδή είστε πολύ ψηλός; Ή μήπως δεν καταφέρατε να φτάσετε στο επάνω ράφι του σούπερ μάρκετ επειδή είστε πολύ κοντοί; Είτε έτσι είτε αλλιώς, σχεδόν όλα αυτά τα πράγματα έχουν σχεδιαστεί με γνώμονα το ύψος του μέσου ατόμου: 170 cm — ή 5′ 7″.

Στην πραγματικότητα, σχεδόν τα πάντα στον κόσμο μας είναι σχεδιασμένα γύρω από τους μέσους όρους.

Οι περισσότερες επιχειρήσεις λειτουργούν μόνο με μέσους όρους, επειδή ταιριάζουν στις περισσότερες περιπτώσεις. Επιτρέπουν στις εταιρείες να μειώσουν το κόστος παραγωγής και να μεγιστοποιήσουν τα κέρδη. Ωστόσο, υπάρχουν πολλά σενάρια όπου η κάλυψη του 70-80% των περιπτώσεων δεν είναι αρκετή. Εμείς ως κλάδος πρέπει να κατανοήσουμε πώς να αντιμετωπίσουμε αποτελεσματικά τις υπόλοιπες περιπτώσεις.

Σε αυτό το άρθρο, θα μιλήσουμε για τις προκλήσεις της εργασίας με μικρά δεδομένα σε δύο συγκεκριμένες περιπτώσεις: Όταν τα σύνολα δεδομένων έχουν λίγες εγγραφές γενικά και όταν δεν αντιπροσωπεύονται υποτμήματα μεγαλύτερων, μεροληπτικών συνόλων δεδομένων. Θα βρείτε επίσης χρήσιμες συμβουλές για το πώς να προσεγγίσετε αυτά τα προβλήματα.

Εκδήλωση

Ευφυής Σύνοδος Ασφάλειας

Μάθετε τον κρίσιμο ρόλο του AI & ML στην ασφάλεια στον κυβερνοχώρο και τις ειδικές περιπτωσιολογικές μελέτες του κλάδου στις 8 Δεκεμβρίου. Εγγραφείτε για το δωρεάν πάσο σας σήμερα.

Κάνε εγγραφή τώρα

Τι είναι τα μικρά δεδομένα;

Είναι σημαντικό να κατανοήσουμε πρώτα την έννοια των μικρών δεδομένων. Τα μικρά δεδομένα, σε αντίθεση με τα μεγάλα δεδομένα, είναι δεδομένα που έρχονται σε μικρούς όγκους που είναι συχνά κατανοητοί στον άνθρωπο. Τα μικρά δεδομένα μπορεί επίσης μερικές φορές να είναι ένα υποσύνολο ενός μεγαλύτερου συνόλου δεδομένων που περιγράφει μια συγκεκριμένη ομάδα.

Ποια είναι τα προβλήματα με τα μικρά δεδομένα για πραγματικές εργασίες;

Υπάρχουν δύο κοινά σενάρια για προκλήσεις μικρών δεδομένων.

Σενάριο 1: Η διανομή δεδομένων περιγράφει αρκετά καλά τον εξωτερικό κόσμο, αλλά απλά δεν έχετε πολλά δεδομένα. Μπορεί να είναι δαπανηρή η συλλογή ή θα μπορούσε να περιγράψει αντικείμενα που δεν παρατηρούνται τόσο συχνά στον πραγματικό κόσμο. Για παράδειγμα, δεδομένα σχετικά με τον καρκίνο του μαστού για νεότερες γυναίκες: Θα έχετε πιθανώς έναν εύλογο όγκο δεδομένων για λευκές γυναίκες ηλικίας 45-55 ετών και άνω, αλλά όχι για νεότερες.

Σενάριο 2: Μπορεί να δημιουργείτε ένα σύστημα μετάφρασης για μια από τις γλώσσες χαμηλών πόρων. Για παράδειγμα, υπάρχουν πολλά διαθέσιμα δεδομένα στα ιταλικά διαθέσιμα στο διαδίκτυο, αλλά με τις ραετορομαντικές γλώσσες, η διαθεσιμότητα των χρησιμοποιήσιμων δεδομένων είναι πιο περίπλοκη.

Πρόβλημα 1: Το μοντέλο γίνεται επιρρεπές σε υπερβολική τοποθέτηση

Όταν το σύνολο δεδομένων είναι μεγάλο, μπορείτε να αποφύγετε την υπερβολική προσαρμογή, αλλά αυτό είναι πολύ πιο δύσκολο στην περίπτωση μικρών δεδομένων. Κινδυνεύετε να δημιουργήσετε ένα πολύ περίπλοκο μοντέλο που ταιριάζει απόλυτα στα δεδομένα σας, αλλά δεν είναι τόσο αποτελεσματικό σε πραγματικά σενάρια.

Λύση: Χρησιμοποιήστε πιο απλά μοντέλα. Συνήθως, όταν εργάζονται με μικρά δεδομένα, οι μηχανικοί μπαίνουν στον πειρασμό να χρησιμοποιήσουν περίπλοκα μοντέλα για να εκτελέσουν πιο περίπλοκους μετασχηματισμούς και να περιγράψουν πιο περίπλοκες εξαρτήσεις. Αυτά τα μοντέλα δεν θα σας βοηθήσουν με το πρόβλημα υπερβολικής προσαρμογής όταν το σύνολο δεδομένων σας είναι μικρό και δεν έχετε την πολυτέλεια να τροφοδοτείτε απλώς περισσότερα δεδομένα στον αλγόριθμο.

Εκτός από την υπερβολική προσαρμογή, μπορεί επίσης να παρατηρήσετε ότι ένα μοντέλο που έχει εκπαιδευτεί σε μικρά δεδομένα δεν συγκλίνει πολύ καλά. Για τέτοια δεδομένα, η πρόωρη σύγκλιση μπορεί να δημιουργήσει τεράστιο πρόβλημα για τους προγραμματιστές, καθώς το μοντέλο αποτυγχάνει σε τοπικά βέλτιστα πολύ γρήγορα και είναι δύσκολο να βγει από εκεί.

Σε αυτό το σενάριο, είναι δυνατό να αναβαθμίσετε το δείγμα σας. Υπάρχουν πολλοί αλγόριθμοι, όπως οι κλασσικές μέθοδοι δειγματοληψίας, όπως η τεχνική της συνθετικής μειοψηφίας υπερδειγματοληψίας (SMOTE) και οι σύγχρονες τροποποιήσεις της και προσεγγίσεις που βασίζονται σε νευρωνικά δίκτυα, όπως τα γενετικά αντίπαλα δίκτυα (GANs). Η λύση εξαρτάται από το πόσα δεδομένα έχετε πραγματικά. Συχνά, η στοίβαξη μπορεί να σας βοηθήσει να βελτιώσετε τις μετρήσεις και όχι να προσαρμόσετε υπερβολικά.

Μια άλλη πιθανή λύση είναι η χρήση της μάθησης μεταφοράς. Η εκμάθηση μεταφοράς μπορεί να χρησιμοποιηθεί για την αποτελεσματική δημιουργία λύσεων, ακόμα κι αν έχετε ένα μικρό σύνολο δεδομένων. Ωστόσο, για να μπορέσετε να εκτελέσετε εκμάθηση μεταφοράς, πρέπει να έχετε αρκετά δεδομένα από παρακείμενα πεδία από τα οποία μπορεί να μάθει το μοντέλο σας.

Δεν είναι πάντα δυνατό να συλλέξετε αυτά τα δεδομένα, και ακόμη κι αν το κάνετε, μπορεί να λειτουργήσει μόνο σε κάποιο βαθμό. Εξακολουθούν να υπάρχουν εγγενείς διαφορές μεταξύ διαφορετικών εργασιών. Επιπλέον, η εγγύτητα διαφορετικών πεδίων δεν μπορεί να αποδειχθεί, καθώς δεν μπορούν να μετρηθούν άμεσα. Συχνά, αυτή η λύση είναι επίσης ουσιαστικά μια υπόθεση που παρέχεται από τη δική σας εμπειρία που χρησιμοποιείτε για να δημιουργήσετε μια διαδικασία μεταφοράς μάθησης.

Πρόβλημα 2: Η κατάρα της διάστασης

Υπάρχουν πολλά χαρακτηριστικά αλλά πολύ λίγα αντικείμενα, πράγμα που σημαίνει ότι το μοντέλο δεν μαθαίνει. Τί μπορεί να γίνει?

Η λύση είναι να μειωθεί ο αριθμός των χαρακτηριστικών. Μπορείτε να εφαρμόσετε εξαγωγή χαρακτηριστικών (κατασκευή) ή επιλογή χαρακτηριστικών ή μπορείτε να χρησιμοποιήσετε και τα δύο. Για τις περισσότερες περιπτώσεις, θα είναι καλύτερο να εφαρμόσετε πρώτα την επιλογή χαρακτηριστικών.

Εξαγωγή χαρακτηριστικών

Χρησιμοποιείτε την εξαγωγή χαρακτηριστικών για να μειώσετε τη διάσταση του μοντέλου σας και να βελτιώσετε την απόδοσή του όταν εμπλέκονται μικρά δεδομένα. Για αυτό, μπορείτε να χρησιμοποιήσετε μεθόδους πυρήνα, συνελικτικά νευρωνικά δίκτυα (CNN) ή ακόμα και κάποιες μεθόδους οπτικοποίησης και ενσωμάτωσης όπως το PCA και το t-SNE.

Στα CNN, τα συνελικτικά επίπεδα λειτουργούν σαν φίλτρα. Για παράδειγμα, για εικόνες, τα συνελικτικά επίπεδα εκτελούν εξαγωγή χαρακτηριστικών εικόνας και υπολογίζουν μια νέα εικόνα σε ένα νέο ενδιάμεσο επίπεδο.

Το πρόβλημα είναι ότι για τις περισσότερες περιπτώσεις με εξαγωγή χαρακτηριστικών, χάνετε την ερμηνευτικότητα. Δεν μπορείτε να χρησιμοποιήσετε το μοντέλο που προκύπτει στην ιατρική διάγνωση, επειδή ακόμα κι αν υποτίθεται ότι η ακρίβεια της διάγνωσης βελτιωθεί όταν τη δίνετε στον γιατρό, αυτός δεν θα μπορεί να το χρησιμοποιήσει λόγω ιατρικής δεοντολογίας. Η διάγνωση που βασίζεται στο CNN είναι δύσκολο να ερμηνευτεί, πράγμα που σημαίνει ότι δεν λειτουργεί για ευαίσθητες εφαρμογές.

Επιλογή χαρακτηριστικών

Μια άλλη προσέγγιση περιλαμβάνει την εξάλειψη ορισμένων χαρακτηριστικών. Για να λειτουργήσει αυτό, πρέπει να επιλέξετε τα πιο χρήσιμα και να διαγράψετε όλα τα υπόλοιπα. Για παράδειγμα, εάν πριν είχατε 300 χαρακτηριστικά, μετά τη μείωση θα έχετε 20 και η κατάρα της διάστασης θα αρθεί. Το πιθανότερο είναι ότι τα προβλήματα θα εξαφανιστούν. Επιπλέον, σε αντίθεση με την εξαγωγή χαρακτηριστικών, το μοντέλο σας θα εξακολουθεί να είναι ερμηνεύσιμο, επομένως η επιλογή χαρακτηριστικών μπορεί να εφαρμοστεί ελεύθερα σε ευαίσθητες εφαρμογές.

Πως να το κάνεις? Υπάρχουν τρεις κύριες προσεγγίσεις, αλλά η απλούστερη είναι η χρήση μεθόδων φιλτραρίσματος. Ας φανταστούμε ότι θέλετε να δημιουργήσετε ένα μοντέλο που να προβλέπει κάποια κατηγορία — για παράδειγμα, θετικά ή αρνητικά αποτελέσματα εξετάσεων για καρκίνο. Εδώ μπορείτε να εφαρμόσετε μια μέθοδο επιλογής χαρακτηριστικών που βασίζεται στη συσχέτιση Spearman. Εάν η συσχέτιση είναι υψηλή, τότε διατηρείτε το χαρακτηριστικό. Πολλές μέθοδοι που μπορείτε να χρησιμοποιήσετε σε αυτήν την κατηγορία προέρχονται από μαθηματικές στατιστικές: Spearman, Pearson, Information Gain ή Gini index (μεταξύ άλλων).

Το πόσες δυνατότητες να διατηρήσετε είναι μια διαφορετική ερώτηση. Συνήθως, αποφασίζουμε με βάση τους υπολογιστικούς περιορισμούς που έχουμε και πόσες δυνατότητες πρέπει να διατηρήσουμε για να τους καλύψουμε. Ή μπορούμε απλώς να εισαγάγουμε έναν απλό κανόνα όπως „επιλέξτε όλα τα χαρακτηριστικά με συσχετισμό υψηλότερο από 0,7“. Φυσικά, υπάρχουν ορισμένες ευρετικές τεχνικές όπως ο «αλγόριθμος του σπασμένου ραβδιού» ή ο «κανόνας του αγκώνα» που μπορείτε να εφαρμόσετε, αλλά κανένα από αυτά δεν εγγυάται το καλύτερο δυνατό αποτέλεσμα.

Μια άλλη προσέγγιση είναι η χρήση ενσωματωμένων μεθόδων. Αυτά λειτουργούν πάντα σε ζεύγη με κάποια άλλα μοντέλα ML. Υπάρχουν πολλά μοντέλα με ορισμένες ενσωματωμένες λειτουργίες που σας επιτρέπουν να κάνετε επιλογή χαρακτηριστικών, όπως τυχαία δάση. Για κάθε δέντρο, εφαρμόζεται το λεγόμενο „out-of-the-bag-error“: κάθε δέντρο μπορεί να είναι σωστό ή λάθος στην ταξινόμηση κάθε αντικειμένου. Αν ήταν σωστό, προσθέτουμε βαθμολογίες σε όλα τα χαρακτηριστικά του, αν όχι — εξαγωγή.

Στη συνέχεια, μετά την επανακανονικοποίηση (κάθε χαρακτηριστικό μπορεί να παρουσιαστεί διαφορετικές φορές στο σύνολο των δέντρων), ταξινομήστε τα με βάση τις βαθμολογίες που λήφθηκαν και, στη συνέχεια, κόψτε ορισμένα χαρακτηριστικά που δεν χρειάζεστε, όπως και στις μεθόδους φιλτραρίσματος. Κατά τη διάρκεια ολόκληρης της διαδικασίας, χρησιμοποιεί το μοντέλο απευθείας στη διαδικασία επιλογής χαρακτηριστικών. όλες οι ενσωματωμένες μέθοδοι συνήθως κάνουν το ίδιο.

Τέλος, μπορούμε να χρησιμοποιήσουμε κλασικές μεθόδους περιτυλίγματος. Η ιδέα τους είναι τόσο απλή: Πρώτον, πρέπει με κάποιο τρόπο να επιλέξετε ένα υποσύνολο χαρακτηριστικών, ακόμη και τυχαία. Στη συνέχεια, εκπαιδεύστε μερικά μοντέλα σε αυτό. Ένα κοινό μοντέλο μετάβασης είναι μια λογιστική παλινδρόμηση, καθώς είναι μάλλον απλή. Αφού το εκπαιδεύσετε, θα λάβετε κάποιες μετρήσεις για τη βαθμολογία σας στην F1. Στη συνέχεια, μπορείτε να το κάνετε ξανά και να αξιολογήσετε την απόδοση.

Για να είμαστε ειλικρινείς, εδώ, μπορείτε να χρησιμοποιήσετε οποιονδήποτε αλγόριθμο βελτιστοποίησης για να επιλέξετε το επόμενο υποσύνολο προς αξιολόγηση. Όσο περισσότερα χαρακτηριστικά έχουμε, τόσο μεγαλύτερη είναι η διάσταση. Έτσι, τα περιτυλίγματα χρησιμοποιούνται συνήθως για θήκες με κάτω από 100 χαρακτηριστικά. Τα φίλτρα λειτουργούν σε οποιονδήποτε αριθμό λειτουργιών, ακόμη και σε ένα εκατομμύριο. Οι μέθοδοι ενσωμάτωσης χρησιμοποιούνται για ενδιάμεσες περιπτώσεις, εάν γνωρίζετε ποιο μοντέλο θα χρησιμοποιήσετε αργότερα.

Επίσης, υπάρχουν υβριδικές (διαδοχικές) και συνολικές (παράλληλες) μέθοδοι. Το απλούστερο παράδειγμα μιας υβριδικής μεθόδου είναι ο αλγόριθμος επιλογής προς τα εμπρός: Πρώτα επιλέγει κάποιο υποσύνολο χαρακτηριστικών με μια μέθοδο φιλτραρίσματος και μετά τα προσθέτει ένα προς ένα στο προκύπτον σύνολο χαρακτηριστικών με τρόπο περιτυλίγματος με φθίνουσα μετρική σειρά.

Τι γίνεται αν τα δεδομένα σας είναι ελλιπή;

Λοιπόν, τι μπορεί να γίνει όταν τα δεδομένα είναι προκατειλημμένα και δεν αντιπροσωπεύουν το πλήθος; Τι γίνεται αν δεν έχετε πιάσει το θέμα; Για να είμαι ειλικρινής, είναι δύσκολο να προβλέψεις πότε μπορεί να συμβεί.

Πρόβλημα 1

Ξέρετε ότι υπάρχει κάτι που δεν καλύψετε ή είναι σπάνιο. Υπάρχει ένας «λόφος» στη διανομή των δεδομένων σας για τον οποίο γνωρίζετε πολλά, αλλά δεν γνωρίζετε πολλά για τις «ουρές» του.

Λύση: Κόβετε τις «ουρές», διδάσκετε το μοντέλο σε έναν «λόφο» και μετά μπορείτε να διδάξετε ξεχωριστά μοντέλα στις «ουρές». Το πρόβλημα είναι ότι εάν υπάρχουν τόσα λίγα παραδείγματα, τότε μπορεί να χρησιμοποιηθεί απλώς μια γραμμική ή μια λύση που βασίζεται σε δέντρα. τίποτα άλλο δεν θα λειτουργήσει. Μπορείτε επίσης να χρησιμοποιήσετε μόνο ειδικούς και να δημιουργήσετε ερμηνεύσιμα μοντέλα για τις «ουρές» με τη βοήθειά τους.

Πρόβλημα 2

Ένα μοντέλο είναι ήδη σε παραγωγή, νέα αντικείμενα φτάνουν και δεν ξέρουμε πώς να τα ταξινομήσουμε. Οι περισσότερες επιχειρήσεις απλώς θα τις αγνοήσουν επειδή είναι μια φθηνή και βολική λύση για πραγματικά σπάνιες περιπτώσεις. Για παράδειγμα, με το NLP, αν και υπάρχουν μερικές πιο εξελιγμένες λύσεις, μπορείτε να αγνοήσετε άγνωστες λέξεις και να δείξετε το καλύτερο αποτέλεσμα.

Λύση: Τα σχόλια των χρηστών μπορούν να σας βοηθήσουν να συμπεριλάβετε περισσότερη ποικιλομορφία στο σύνολο δεδομένων σας. Εάν οι χρήστες σας έχουν αναφέρει κάτι που δεν έχετε στο σύνολο δεδομένων σας, καταγράψτε αυτό το αντικείμενο, προσθέστε το στο εκπαιδευτικό σύνολο και, στη συνέχεια, μελετήστε το προσεκτικά. Στη συνέχεια, μπορείτε να στείλετε τα συλλεγμένα σχόλια σε ειδικούς για να ταξινομήσετε νέα αντικείμενα.

Πρόβλημα 3

Το σύνολο δεδομένων σας μπορεί να είναι ελλιπές και δεν γνωρίζετε ότι υπάρχει το πρόβλημα. Δεν μπορούμε να προβλέψουμε κάτι που δεν γνωρίζουμε. Καταστάσεις όπου δεν γνωρίζουμε ότι έχουμε ένα ελλιπές σύνολο δεδομένων μπορεί να έχουν ως αποτέλεσμα την επιχείρησή μας να αντιμετωπίζει πραγματικούς κινδύνους φήμης, οικονομικούς και νομικούς.

Λύση: Στο στάδιο της αξιολόγησης κινδύνου, θα πρέπει πάντα να έχετε υπόψη σας ότι υπάρχει μια τέτοια πιθανότητα. Οι επιχειρήσεις πρέπει να διαθέτουν τον απαραίτητο προϋπολογισμό για την κάλυψη τέτοιων κινδύνων και ένα σχέδιο δράσης για την επίλυση κρίσεων φήμης και άλλων συναφών προβλημάτων.

Λύσεις

Οι περισσότερες λύσεις έχουν σχεδιαστεί για να ταιριάζουν σε ένα μέσο όρο. Ωστόσο, σε ευαίσθητες καταστάσεις όπως αυτές της υγειονομικής περίθαλψης και των τραπεζών, η εφαρμογή της πλειοψηφίας δεν αρκεί. Τα μικρά δεδομένα μπορούν να μας βοηθήσουν να καταπολεμήσουμε το πρόβλημα της λύσης «ένα μέγεθος για όλους» και να εισάγουμε περισσότερη ποικιλομορφία στο σχεδιασμό των προϊόντων μας.

Η εργασία με μικρά δεδομένα είναι πρόκληση. Τα εργαλεία που χρησιμοποιούμε σήμερα στη μηχανική εκμάθηση (ML) είναι ως επί το πλείστον σχεδιασμένα για να λειτουργούν με Big Data, επομένως πρέπει να είστε δημιουργικοί. Ανάλογα με το σενάριο που αντιμετωπίζετε, μπορείτε να επιλέξετε διαφορετικές μεθόδους, από SMOTE έως μαθηματικά στατιστικά έως GAN, και να τις προσαρμόσετε στην περίπτωση χρήσης σας.

Ο Ivan Smetannikov είναι επικεφαλής της ομάδας επιστήμης δεδομένων στο Serokell.

DataDecisionMakers

Καλώς ήρθατε στην κοινότητα του VentureBeat!

Το DataDecisionMakers είναι όπου οι ειδικοί, συμπεριλαμβανομένων των τεχνικών που ασχολούνται με τα δεδομένα, μπορούν να μοιράζονται πληροφορίες και καινοτομίες που σχετίζονται με δεδομένα.

Εάν θέλετε να διαβάσετε για ιδέες αιχμής και ενημερωμένες πληροφορίες, τις βέλτιστες πρακτικές και το μέλλον των δεδομένων και της τεχνολογίας δεδομένων, ελάτε μαζί μας στο DataDecisionMakers.

Ίσως ακόμη και να σκεφτείτε να συνεισφέρετε ένα δικό σας άρθρο!

Διαβάστε περισσότερα από το DataDecisionMakers