Ruta de recompensa
Una ruta de recompensa es un conjunto de acciones que un agente de inteligencia artificial puede realizar para recibir una recompensa. El agente elige las acciones que maximizan la recompensa esperada, que suele definirse como una función del estado actual del agente y del siguiente estado al que pasará. En muchos casos, la función de … Leer más