Podržano učenje

Podržano učenje (енгл. reinforcement learning – RL) područje je mašinskog učenja i optimalne kontrole koje se bavi time kako bi inteligentni agenti trebali odabrati akcije u okruženju kako bi maksimizovali pojam kumulativne nagrade. Podržano učenje jedno je od tri osnovne paradigme mašinskog učenja, uz nadzirano učenje i nenadzirano učenje.

Podržano učenje se razlikuje od nadziranog učenja po tome što ne zahteva prikazivanje označenih ulazno/izlaznih parova, kao ni obavezno ispravljanje suboptimalnih akcija. Umesto toga, fokus je na pronalaženju ravnoteže između istraživanja (nepoznatih područja) i iskorištavanja (trenutnog znanja).^[1] Okruženje se obično izražava u obliku Markovljevog procesa odlučivanja (MDP) jer mnogi algoritmi podržanog učenja u ovom kontekstu koriste tehnike dinamičkog programiranja.^[2]

Glavna razlika između klasičnih metoda dinamičkog programiranja i algoritama podržanog učenja je da podržano učenje ne pretpostavlja poznavanje tačnog matematičkog modela MDP-a i da cilja na velike MDP-ove za koje tačne metode postaju nemoguće.^[3]

Formalizacija problema[уреди | уреди извор]

Zaleđina[уреди | уреди извор]

Podržano učenje se uglavnom definiše kao Markovljev proces odlučivanja nazvan po ruskom matematičaru Markovu. Model je koncipiran kao skup stanja koja poseduju sve informacije o sistemu odnosno okolini koje modeluju. Svako od stanja omogućuje što preciznije predviđanje posledica svake izvedene radnje. MDP se formalno zapisuje kao četverac $(S,A(s),P(s'|s,a),R(s,s',a))$ , pri čemu je:

$S$ : množina svih mogućih stanja.
$A(s)$ : množina svih mogućih radnji u svakom stanju. $s\in S$
$P(s'|s,a)$ : verovatnoća prelaza u stanje $s'$ , pod pretpostavkom da se nalazimo u stanju $s$ i da je izvršena radnja $a\in A(s)$ .
$R(s,s',a)$ : nagrada / kazna

Strategija[уреди | уреди извор]

Cilj postupka je pronaći strategiju ponašanja (policy) π: $s\in S\rightarrow a\in A(s)$ , koja za svako stanje $s$ ^[4]^‍:61 i akciju $a$ maksimizira očekivanu buduću nagradu. Strategija se može menjati tokom učenja zavisno od količine dobijenih nagrada.

Postoji nekoliko opcija za odabir akcije, na primer:

pohlepna: uvek će biti izabrana najbolja akcija - $\pi (s)=\arg \max _{a}Q(s,a)$
ε-pohlepna: uglavnom će biti izabrana najbolja akcija, povremeno sa verovatnoćom ε biće odabrana i nasumična akcija

Vrednost funkcije[уреди | уреди извор]

Postoje dve slične varijante vrednosti funkcije

Funkcije vrednosti stanja $V(s)$ (state value function)
Funkcije vrednosti prelaza između stanja $Q(s,a)$ (state-action value function)

Funkcije vrednosti definirane su kao alat za traženje maksimalne sume svih očekivanih nagrada pomoću sledećeg algoritma:

Čekaj nagradu u budućnosti s faktorom umanjenja γ:
- Uvažavajući stanja $s\in S$ : $V^{\pi }(s)=E\{rt+1+\gamma rt+2+\gamma ^{2}rt+3+...|st=s,\pi \}$
- Uvažavajući prelaze između stanja $s\in S,a\in A(s)$ : $Q^{\pi }(s,a)=E\{rt+1+\gamma rt+2+\gamma 2rt+3+...|st=s,at=a,\pi \}$