Tez Arşivi

Tez aramanızı kolaylaştıracak arama motoru. Yazar, danışman, başlık ve özete göre tezleri arayabilirsiniz.


Orta Doğu Teknik Üniversitesi / Fen Bilimleri Enstitüsü / Bilgisayar Mühendisliği Bölümü

Abstraction in reinforcement learning

Pekiştirmeli öğrenmede soyutlama

Teze Git (tez.yok.gov.tr)

Bu tezin tam metni bu sitede bulunmamaktadır. Teze erişmek için tıklayın. Eğer tez bulunamazsa, YÖK Tez Merkezi tarama bölümünde 199362 tez numarasıyla arayabilirsiniz.

Özet:

ABSTRACTABSTRACTION IN REINFORCEMENT LEARNINGGirgin, SertanM.S., Department of Computer EngineeringSupervisor : Prof. Dr. Faruk PolatMarch 2007, 111 pagesReinforcement learning is the problem faced by an agent that must learn behaviorthrough trial-and-error interactions with a dynamic environment. Generally, the prob-lem to be solved contains subtasks that repeat at different regions of the state space.Without any guidance an agent has to learn the solutions of all subtask instancesindependently, which degrades the learning performance.In this thesis, we propose two approaches to build connections between differentregions of the search space leading to better utilization of gained experience andaccelerate learning is proposed. In the first approach, we first extend existing workof McGovern and propose the formalization of stochastic conditionally terminatingsequences with higher representational power. Then, we describe how to efficientlydiscover and employ useful abstractions during learning based on such sequences. Themethod constructs a tree structure to keep track of frequently used action sequencestogether with visited states. This tree is then used to select actions to be executed ateach step.In the second approach, we propose a novel method to identify states with sim-ilar sub-policies, and show how they can be integrated into reinforcement learningframework to improve the learning performance. The method uses an efficient datastructure to find common action sequences started from observed states and definesa similarity function between states based on the number of such sequences. Usingthis similarity function, updates on the action-value function of a state are reflectedivto all similar states. This, consequently, allows experience acquired during learningbe applied to a broader context.Effectiveness of both approaches is demonstrated empirically by conducting exten-sive experiments on various domains.Keywords: Reinforcement Learning, Abstraction, Similarity, Options, ConditionallyTerminating Sequencesv

Summary:

üOZüğPEKISTIRMELI OGRENMEDE SOYUTLAMAşGirgin, SertanDoktora, Bilgisayar Mühendisliği Bülümüu g ou uTez Yüneticisi : Prof. Dr. Faruk PolatoMart 2007, 111 sayfaPekiştirmeli üğrenme dinamik bir ortam ile deneme-yanılma etkileşimleri aracılığylas og s gdavranış üğrenmeye calışan bir etmenin karşılaştığı problemdir. Genellikle, cüzülmesis og şs s sg şo ugereken problem durum uzayının farklı bülgelerinde tekrar eden altgürevler barındırır.o oHerhangi bir yünlendirme olmadan etmen tüm bu tekrarlamaları birbirinden bağımsızo u golarak üğrenmek zorundadır ve bu durum da üğrenme performansının düşmesine yolog og usaşmaktadır.cBu tezde, arama uzayının farklı bülgeleri arasında bağlantı kurarak edinilen deney-o gimin daha verimli kullanımını ve üğrenmenin hızlanmasını sağlayan iki yaklaşım üne-og g sorilmektedir. Birinci yaklaşımda, McGovern'in mevcut calışması geliştirilerek dahas şs syüksek temsil gücüne sahip stokastik koşullu sonlanan diziler tanımlanmıştır. Dahau uu s ssonra, bu dizilere dayalı olarak üğrenme esnasında yararlı soyutlamaların nasıl keşfedi-og slebileceği ve kullanılabileceği anlatılmıştır. Yüntem sıkşa kullanılan hareket dizilerinig g s o cziyaret edilen durumlar ile birlikte takip edebilmek işin bir ağaş yapısı kurmaktadır.c gcBu ağaş ile her adımda seşilecek hareketlere karar verilmektedir.gc c˙Ikinci yaklaşımda, benzer alt-davranış bişimlerine sahip durumları belirlemek işins sc couüzgün bir yüntem ünerilmiş ve mevcut algoritmalar ile nasıl entegre edilebileceğio o s ggüsterilmiştir. Yüntem güzlemlenen durumlardan başlayan ortak hareket dizilerinio s o o sbulmak işin verimli bir veriyapısı kullanmakta ve bu dizilerin sayısına bağlı olarakc gdurumlar arasında bir benzerlik fonksiyonu tanımlanmaktadır. Bu fonksiyon ile birvidurumun hareket-değer fonksiyonu uzerindeki güncellemeler tüm benzer durumlarag ü u uyansıtılmakta ve dolayısıyla üğrenme esnasında edinilen deneyimin daha geniş birog salana uygulanmasına olanak sağlamaktadır.g˙Iki yaklaşımın da başarısı ceşitli problemler uzerinde kapsamlı deneyler ile güsteril-s s şs ü omiştir.sügAnahtar Kelimeler: Pekiştirmeli Oğrenme, Soyutlama, Benzerlik, Opsiyonlar, Koşullus sSonlanan Dizilervii