Ποια είναι η διαφορά μεταξύ ενός προβλήματος μείωσης της κλίσης και ενός προβλήματος έκρηξης στο RNN;


Απάντηση 1:

Εάν θα δείτε τη μαθηματική έκφραση για ένα RNN ή ένα βασικό τεχνητό νευρικό δίκτυο γενικά, θα παρατηρήσετε ότι η έκφραση για κλίση προβάλλει τον πολλαπλασιασμό των βαρών για ένα συγκεκριμένο επίπεδο. Και τα βάρη στα εξωτερικά στρώματα πρέπει να περάσουν από τον συνεχή πολλαπλασιασμό του πλέγματος με βάση την έκφραση που προκύπτει.

Λόγω αυτού, εάν η τιμή της κλίσης γίνει μικρότερη από 1, ο επακόλουθος πολλαπλασιασμός θα είχε ως αποτέλεσμα έναν αριθμό ακόμη μικρότερου μεγέθους. Διαισθητικά, φανταστείτε ότι έχετε 0,9 ως βάρος όταν υπολογίζετε τον πολλαπλασιασμό, παίρνει το 0,81 το οποίο είναι μικρότερο. Τελικά, η κλίση γίνεται τόσο μικρή που εξαφανίζεται και αυτό είναι που λέμε ότι είναι ένα πρόβλημα εξαφανίσεως. Το τελικό αποτέλεσμα σταματά εντελώς ανάλογα με την αρχική χρονική σφραγίδα.

Από την άλλη πλευρά, αν οι τιμές κλίσεων αρχίσουν να γίνονται μεγαλύτερες του 1, ο συνεχιζόμενος πολλαπλασιασμός της μήτρας αρχίζει να αυξάνει την αξία του εκθετικά, (είναι εύκολο να δούμε, a ^ x είναι εκθετική για a> 1) αυτή η ανησυχητική αύξηση τελικά καταρρίπτει την κλίση Τιμές NaN ή τιμές τέτοιων μεγάλων μεγεθών, που το μοντέλο ανατινάσσεται ή καταρρέει. Αυτό θα λέγατε ως πρόβλημα εκρηκτικής κλίσης.

Είναι αναπόφευκτα εξαιτίας αυτών των δύο μεγάλων προβλημάτων που έχουμε καταλήξει σε GRUs, LSTMs και άλλα είδη αποκλεισμένων μοντέλων για να κερδίσουμε περισσότερη ευρωστία τελικά.

Ίσως θελήσετε να ρίξετε μια ματιά σε αυτό το μέσο blog που εξηγεί αυτά τα πράγματα αρκετά καλά:

https://link.medium.com/J6yjXw2xCS

Ελπίζω ότι βοηθά :)

Στην υγειά σας !