Processing math: 100%

Pekiştirmeli Öğrenme - Bölüm 10: On-policy Control With Approximation

Bu çalışma, Richard Sutton ve Andrew Barto tarafından kaleme alınan RL: An introduction (Sutton, R. S., & Barto, A. G. 2018) kitabının çeviri ve özetini barındırmaktadır.

Önceki Bölüm Sonraki Bölüm

# Pekiştirmeli Öğrenme - Bölüm 10: On-policy Control With Approximation

# On-policy Control With Approximation

Bu bölümde eylem-değer fonksiyonunun ˆq(s,a,w)q(s,a) parametrik yaklaşımıyla kontrol problemine geri dönülmektedir.

# Episodik Yarı-Gradyan Kontrolü

Ağırlık vektörü w ile parametrelendirilmiş bir fonksiyonel form olarak temsil edilen, ˆqqπ , yaklaşık eylem-değer fonksiyonudur. Daha önce StUt formundaki eğitim örnekler dikkate alınmıştı. Şimdi ise St,AtUt formundaki örnekler dikkate alınmaktadır. Eylem-değer tahmini için gradyen iniş (gradient descent) güncellemesi:

wt+1wt+α|Utˆq(St,At,wt)|ˆq(St,At,wt)

Örneğin, tek adımlı Sarsa yöntemi için güncelleme:

wt+1wt+α[Rt+1γˆq(St+1,At+1,wt)ˆq(St,At,wt)]ˆq(St,At,wt)

Bu yönteme tek-adımlı Sarsa epizodik yarıgradyan denilmektedir. Kontrol yöntemlerini oluşturmak için, bu tür eylemdeğer tahmin yöntemlerini politika geliştirme ve eylem seçimi teknikleriyle birleştirmek gerekmektedir.

Örnek 10.1 : Mountain Car Görevi

Aşağıdaki diyagramda gösterildiği gibi güçlü bir dağ yolunda güçlü bir bir arabayı kullanma görevi düşünülürse zorluk, yer çekiminin otomobilin motorundan güçlü olması ve dik yokuşta bile hızlanamamasıdır.

SEKİL-101

Şekil 10.1 : The Mountain Car Görevi (sol üst panel) tek seferde öğrenilen ilerleme maliyetin fonksiyonu :(maxaˆq(s,a,w))

Tek çözüm ilk olarak hedeften uzaklaşmak ve sol taraftaki zıt eğimi ortadan kaldırmaktır. Daha sonra, araç tam gazla yol boyunca yavaşlasa bile yokuş yukarı çıkmak için yeterli durgunluğa (interia) sahip olmaktadır.

Dağın zirvesinde arabanın taşıdığı hedef pozisyona kadar bütün süredeki adımlar üzerindeki ödül bu problemde 1dir. 3 tane eylem vardır: tam gaz ileri(+1), tam gaz geri(1) ve sıfır gaz(0). Arabanın pozisyonu xt, hızı ˙xt ve güncellemesi:

xt+1˙=bound[xt+˙xt+1] ˙xt+1˙=bound[˙xt+0.001At0.0025cos(3xt)]

Kısıtlama işlemi 1.2xt+10.5 ve 0.07˙xt+10.07 olarak uygulanmaktadır. Kare kodlama yöntemiyle oluşturulan özellik vektörleri (x(s,a)) eylemdeğer fonksiyonlarına yaklaşmak için parametre vektörleriyle doğrusal olarak birleştirilmiştir:

ˆq(s,a,w)˙=wTx(s,a)=di=1wixi(s,a)

# N-adımlı Yarı-Gradyen Sarsa

Yarıgradyen Sarsa güncelleme eşitliğinde hedef güncelleme olarak nadımlı getiri kullanılarak epizodik yarıgradyen Sarsa’nın nadımlı versiyonu elde edilmektedir. nadımlı getiriden fonksiyon yaklaşımına aşağıdaki gibi bir genelleştirme yapılmaktadır.

Gt:t+nRt+1+γRt+2++γn1Rt+n+γnˆq(St+n,At+n,wt+n1),t+n<T,

Eğer n+t>=T olursa Gt:t+1=Gt olmaktadır. Buradan nadımlı ağırlık güncellemesi ise:

wt+nwt+n1+a[Gt:t+nˆq(St,At,wt+n1)]ˆq(St,At,wt+n1),

olarak ifade edilmektedir. Aşağıda epizodik nadımlı yarıgradyen Sarsa’nın kaba kodu verilmiştir.

SEKİL-102

# Ortalama Ödül: Devam Eden Görevler İçin Yeni Bir Problem Düzenlemesi

Ortalama ödül düzenlemesi, ajan ve çevre arasındaki etkileşimin sona ermeden veya başlama durumları olmadan devam ettiği problemlerdir.

Ortalama ödül düzenlemesinde, politika πnin kalitesi ödül oranının ortalaması gibi veya politika takip edildiğinde r(π), aşağıdaki gibi tanımlanabilir:

r(π)limh1hht=1E[RtS0,A0:t1π] =limtE[RtS0,A0:t1π], =sμπ(s)aπ(as)a1,rp(s,rs,a)r,

MDP hakkındaki bu varsayım ergodiklik (ergodicity) olarak bilinmektedir. Bu, MDP’nin başladığı veya bir ajan tarafından verilen erken kararın geçici bir etkiye sahip olabileceği anlamına gelmektedir. Ergodiklik, yukarıdaki denklemlerdeki sınırların varlığını garanti etmek için yeterlidir. Sabit durum dağılımı, πye göre eylemler seçilirse aşağıdaki gibi aynı dağıtımda kalan özel bir dağıtım haline gelmektedir:

sμπ(s)aπ(as)p(ss,a)=μπ(s)

Ortalama ödül düzenlemesinde getiriler, ödüller ve ortalama ödül arasındaki farklarla tanımlanmaktadır ve diferansiyel getiri olarak bilinmektedir. Karşılık gelen değer fonksiyonları ise diferansiyel değer fonksiyonları olarak bilinmektedir.

GtRt+1r(π)+Rt+2r(π)+Rt+3r(π)+

Diferansiyel değer fonksiyonları, Bellman denklemleriyle benzer yapıdadır. Tüm γlar çıkarılmaktadır. Tüm ödüller ise, ödül ve gerçek ortalama ödül arasındaki farkla değiştirilmektedir.

vπ(s)=a(as)r,s1p(s,rs,a)[rr(π)+vπ(s)], qπ(s,a)=r,sp(s,rs,a)[rr(π)+aπ(as)qπ(s,a)] v(s)=maxar,sp(s,rs,a)[rmaxπr(π)+v(s)],and q(s,a)=r,sp(s,rs,a)[rmaxπr(π)+maxaq(s,a)]

# İndirgenmiş Düzenlemenin Kullanımdan Kaldırılması

Devam eden problemlerin formülasyonu, her durum getirilerinin ayrı ayrı tanımlanabildiği ve ortalaması alınabileceği tablo halinde çok faydalı olmuştur. Ancak eş zamanlı olaylarda, bu problem formülasyonunu kullanmanın gerekip gerekmediği tartışılmaktadır.

Nedenini görmek için, herhangi bir başlangıç veya son olmaksızın sonsuz sayıda getiri düşünüldüğünde açıkça tanımlanan durumlar bulunmamaktadır. Durumlar, yalnızca durumları birbirinden ayırmak için çok az şey yapan özellik vektörleri tarafından temsil edilmektedir.

Aslında politika için indirgenmiş getirilerin ortalaması her zaman r(π)=11γ yani gerçek ortalama ödül r(π)dir. Bu nedenle indirgenme oranı gamanın problem formülasyonu üzerinde etkisi yoktur.

İndirgenmiş olarak her ödül, getiri olduğunda her pozisyonda bir kez görünmektedir. t. ödülü, bir getiride indirgemeyip 1 getiri 2. getiride indirgenip, t1000. getiride 999 kez indirgenme olmaktadır. Bu ödülün ağırlığı: 1+γ+γ2+=11γ olmaktadır. Bütün durumlar için aynı olduğu için, hepsi aynı şekilde indirgenmekte ve getirilerin ortalaması, bu kez ortalama ödül veya r(π)1γ olmaktadır.

Sonuç olarak indirgenme parametresi γ, bir problem parametresinden çözüm metotu parametresine dönüşmektedir.

# Diferansiyel Yarı-Gradyende nadımlı Sarsa

nadımlı paketlemeyi genelleştirmek için zamansal fark hatasının nadımlı bir versiyonuna ihtiyaç vardır. nadımlı getiriyi diferansiyel formuna, fonksiyon yaklaşımıyla genelleştirerek başlanır:

Gt:t+n˙=Rt+1ˉRt+1+Rt+2ˉRt+2+...++Rt+nˉRt+n+ˆq(St+n,At+n,wt+n1)

Daha sonra zamansal fark hatası:

δGt:t+nˆq(St,At,w) olarak bulunur. Sözde kod için aşağıda algoritma verilmiştir.

SEKİL-103

ˆq:SxAxRdR a policy π wRd arbitrarily (w=0)