< [[neurali:modelli di apprendimento]]
====Dopamina====

https://it.wikipedia.org/wiki/Dopammina

La dopamina è un neurotrasmettitore prodotto in diverse aree del cervello

La dopamina ha diverse funzioni nel cervello: 
  * comportamento
  * cognizione
  * movimento
  * motivazione
  * inibizione
  * punizione e soddisfazione
  * sonno 
  * attenzione 
  * memoria


  * i neuroni dopaminergici sono quelli il cui principale neurotrasmettitore è la dopamina
  * i neuroni dopaminergici formano un sistema di neuromodulazione (pilotano altri neuroni)
 
==== Osservazioni sperimentali ====
  - Ripetendo più volte l'associazione Stimolo-Ricompensa, la dopamina interviene anche in anticipo alla ricompensa, al solo Stimolo.
  - Se la ricompensa ritarda, la dopamina interviene nel momento in cui dovrebbe arrivare la Ricompensa.

==== Fattore tempo ====

Temporal Credit Assignment Problem

Le due precedenti osservazioni sperimentali hanno permesso di stabilire che nel cervello c'è una specie di cronometro. Ovvero, nelle reti neurali ci dovrebbe essere, oltre alle informazioni sullo Stato, anche una informazione temporale. 
> Per rappresentare il tempo nelle reti [[neurali:spiking_neural_network]] si può usare un integratore con input costante (onda triangolare?)

È importante avere in memoria informazioni su //stato precedente// e //stato attuale// per poter calcolare un  Delta, per poter poi aggiornare la //funzione valore// stimato con il valore effettivamente misurato.
> Per mantenere le informazioni sullo //stato precedente// e //attuale// si potrebbero usare [[neurali:recurrent_neural_network|connessioni ricorrenti]], come una [[neurali:neuroni#sinapsineurali|autoapsi]] (sinapsi ad anello) 

Potjans ottiene questo effetto e modifica il valore dello stato DOPO la ricompensa.

  * [[neurali:modello actor-critic]]

Le informazioni necessarie al sistema sono:
  - lo stato attuale
  - il valore della ricompensa nello stato attuale
  - l'azione eseguita per arrivare nello stato attuale?