¿Por qué el uso de una puerta olvidada en los LSTM provoca gradientes de desaparición / muerte?

Tienes razón en cierto sentido. Sin embargo, recuerde que la puerta del olvido de alguna manera actúa como una constante de tiempo. Suponga que su compuerta olvidada está fijada a un valor [math] f [/ math]. Entonces su regla de actualización para la puerta de su celda es [math] c_ {t + 1} = (1-f) \, c_t + \ ldots [/ math]. En términos generales, el valor de [math] c [/ math] en un momento determinado se desvanece exponencialmente, con una constante de tiempo de [math] \ frac {1} {f} [/ math]. Lo mismo sucede en el paso hacia atrás: el gradiente se desvanece con la misma constante de tiempo.

Además, rara vez te enfrentas a dependencias de tiempo ilimitadas. En la mayoría de los conjuntos de datos, hay una constante de tiempo [math] T [/ math] para la cual no hay dependencias temporales que excedan [math] T [/ math].

Por lo tanto, lo que necesita es que sus gradientes no se desvanezcan demasiado en períodos de veces como máximo igual a [math] T [/ math]. Esto sucederá tan pronto como tengas una unidad con una constante de tiempo suficientemente grande. Como mencionó Rohan Kapur, esto está directamente relacionado con el sesgo de la puerta olvidada: la constante de tiempo intrínseca de una puerta olvidada con sesgo [math] b [/ math] es aproximadamente [math] e ^ {- b} [/ math] . La constante de tiempo exacta en cada paso de tiempo fluctuará alrededor de este valor. Por lo tanto, si inicializa su red con sesgos razonables, no debería preocuparse demasiado por la desaparición de los gradientes.

Lo hace. Puede solucionarlo al inicializar el sesgo de olvidar a un valor más alto. Mire este documento para una exploración empírica de la sintonización de redes neuronales recurrentes: http://proceedings.mlr.press/v37

Parece que sí, y de alguna manera revierte el beneficio que obtuvimos de los gradientes aditivos. Pero, mientras configuramos el sesgo de olvido en un valor muy alto, la red neuronal tardará un tiempo en sintonizar y hacer que este sesgo vuelva a su valor óptimo. Mientras eso sucede, el aprendizaje no está bloqueado.