LSTM құрылғысы ақауды бірегей аддитивті градиент құрылымы арқылы шешеді, оның құрамына ұмыту қақпасының белсендірулеріне тікелей кіру кіреді, бұл желіні жиі қақпаларды жаңарту арқылы қате градиентінен қажетті әрекетті ынталандыруға мүмкіндік береді. оқу процесінің әр қадамында.
LSTM жарылу градиентін қалай шешеді?
Өте қысқа жауап: LSTM ұяшық күйін (әдетте c арқылы белгіленеді) және жасырын қабатты/шығысты (әдетте h арқылы белгілейді) ажыратады және c жадыларын тұрақтырақ ететін c үшін қосымша жаңартуларды ғана жасайды. Осылайша c арқылы өтетін градиент сақталады және жойылуы қиын (сондықтан жалпы градиент жойылуы қиын).
Жоғалған градиент мәселесін қалай шешуге болады?
Шешімдері: Ең қарапайым шешім - кішкентай туынды тудырмайтын ReLU сияқты басқа белсендіру функцияларын пайдалану. Қалдық желілер - бұл басқа шешім, өйткені олар бұрынғы қабаттарға қалдық қосылымдарды қамтамасыз етеді.
LSTM қандай мәселені шешеді?
LSTM. LSTM (ұзақ қысқа мерзімді жадының қысқашасы) бірінші кезекте кері таралудағы жоғалатын градиент мәселесін шешеді. LSTM-де есте сақтау процесін басқаратын гатинг механизмі қолданылады. LTM құрылғыларындағы ақпаратты ашылатын және жабылатын қақпалар арқылы сақтауға, жазуға немесе оқуға болады.
Неліктен LSTMs градиенттеріңіздің кері өту жолындағы көріністі жоғалтуын тоқтатады?
Мұның себебі, осы тұрақты қате ағынын орындау үшін кіріс немесе үміткер қақпаларына кері ағып кетпеу үшін градиент есебі қысқартылды.