Reducción de la pérdida: Comprueba tu comprensión

Comprueba tus conocimientos: Tamaño del lote

Explora las opciones que aparecen a continuación.

Cuando se realiza un descenso de gradientes en un conjunto de datos grande, ¿cuáles de los siguientes tamaños de lote probablemente serán más eficientes?
El lote completo.
El cálculo del gradiente desde un lote completo no es eficaz. Es decir, el gradiente suele calcularse de manera mucho más eficiente (y con la misma precisión) desde un lote más pequeño que desde un lote completo mucho más grande.
Es un lote pequeño o incluso un lote de un ejemplo (SGD).
Sorprendentemente, realizar un descenso de gradientes en un lote pequeño o incluso un lote de un ejemplo suele ser más eficiente que realizar el lote completo. Después de todo, encontrar la gradiente de un ejemplo es mucho más económico que encontrar la gradiente de millones de ejemplos. Para garantizar una buena muestra representativa, el algoritmo recoge otro lote pequeño aleatorio (o un lote de uno) en cada iteración.