Varför lstm löser försvinnande gradient?

Innehållsförteckning:

Varför lstm löser försvinnande gradient?
Varför lstm löser försvinnande gradient?

Video: Varför lstm löser försvinnande gradient?

Video: Varför lstm löser försvinnande gradient?
Video: What is LSTM (Long Short Term Memory)? 2024, November
Anonim

LSTM:er löser problemet med hjälp av en unik additiv gradientstruktur som inkluderar direktåtkomst till forget gate-aktiveringarna, vilket gör det möjligt för nätverket att uppmuntra önskat beteende från felgradienten med frekvent uppdatering av grindar på varje tidssteg i inlärningsprocessen.

Hur löser LSTM exploderande lutning?

Ett mycket kort svar: LSTM kopplar bort celltillstånd (typiskt betecknat med c) och dolda lager/utgångar (typiskt betecknat med h), och gör endast additiva uppdateringar till c, vilket gör minnen i c mer stabila. Således är gradienten som flyter genom c bibehållen och svår att försvinna (därför är den övergripande gradienten svår att försvinna).

Hur kan försvinnande gradientproblem lösas?

Lösningar: Den enklaste lösningen är att använda andra aktiveringsfunktioner, såsom ReLU, som inte orsakar en liten derivata. Restnätverk är en annan lösning, eftersom de ger restanslutningar direkt till tidigare lager.

Vilket problem löser LSTM?

LSTMs. LSTM (kort för långt korttidsminne) löser i första hand problemet med försvinnande gradient i backpropagation. LSTM använder en grindmekanism som styr memoiseringsprocessen. Information i LSTM kan lagras, skrivas eller läsas via grindar som öppnas och stänger.

Varför LSTM:er hindrar dina lutningar från att försvinna från en vy från baklängespasset?

Anledningen till detta är för att, för att upprätthålla detta konstanta felflöde, trunkerades gradientberäkningen för att inte flöda tillbaka till ingångs- eller kandidatgrindarna.

Rekommenderad: