INC 637 Artificial Intelligence Lecture 13 Reinforcement Learning (RL) (continue)

Slides:



Advertisements
งานนำเสนอที่คล้ายกัน
Strength of Materials I EGCE201 กำลังวัสดุ 1
Advertisements

John Rawls  John Rawls is the most famous American social contract theorist argued that “Justice is fairness” He Thought human natural have a appropriate.
Probabilistic Robotics
คำสั่ง DISPLAY รูปแบบที่ 1 DISPLAY identifier-1, identifier-2 … literal-1 literal-2 [ UPON mnemonic-name ]  ตัวอย่าง DISPLAY STUDENT-NAME. DISPLAY.
1 C Programming An Introduction. 2 Preprocessing Directives เขียนได้ 2 รูปแบบ #include คอมไพเลอร์จะทำ การค้นหาเฮดเดอร์ไฟล์ที่ระบุ จากไดเร็คทอรีที่ใช้
Set is a basic term in Mathematics. There is no precise definition for term “set”, But roughly speaking, a set is a collection of objects, Things or symbols,
Arithmetic Verb Template. ADD MOVE ZERO TO NO. ADD 1 TO NO. 0 1.
INC 551 Artificial Intelligence Lecture 2. Review Environment Action Sense, Perceive Make Decision Agent World Model Deliberative Agent.
จำนวน สถานะ NUMBER OF STATES. ประเด็นที่ สนใจ The number of distinct states the finite state machine needs in order to recognize a language is related.
Supreeya Wongtra-ngan,MD.,MHPEd. CLINICAL COMPETENCIES  Factual Knowledge  Technical Skill  Problem Solving Skill  Communication Skill  Manners &
Human Resource Management
ตัวเก็บประจุและความจุไฟฟ้า
VARIABLES, EXPRESSION and STATEMENTS. Values and Data Types Value เป็นสิ่งพื้นฐาน มีลักษณะเป็น ตัวอักษร หรือ ตัวเลข อาทิ 2+2 หรือ “Hello world” Value.
Chapter 7 : Deflection by Various Geometrical
อาจารย์ มธ. อธิบายการใช้ โมเดลของ
GAME THEORY AND APPLICATIONS
Chapter 5: Functions of Random Variables. สมมติว่าเรารู้ joint pdf ของ X 1, X 2, …, X n --> ให้หา pdf ของ Y = u (X 1, X 2, …, X n ) 3 วิธี 1. Distribution.
Data Structures and Algorithms
โครงสร้างข้อมูลแบบรายการโยง (Linked Lists) Data Structures and Algorithms อ. ธารารัตน์ พวงสุวรรณ คณะวิทยาศาสตร์และศิลปศาสตร์ มหาวิทยาลัยบูรพา วิทยาเขตสารสนเทศจันทบุรี
ระบบการจัดเก็บในคลังสินค้า
: Chapter 1: Introduction 1 Montri Karnjanadecha ac.th/~montri Image Processing.
ออโตมาตาจำกัด FINITE AUTOMATA
REGULAR EXPRESSION การบรรยายแบบสม่ำเสมอ
Click when ready Wang991.wordpress.com © All rights reserved Stand SW 100 Relation and function.
Principal Facts and Ideas Objectives 1. 1.Understand principal properties of central-force problem 2. 2.Solve problems : angular momentum of a single particle.
Chapter 19 Network Layer: Logical Addressing
Inductive, Deductive Reasoning ผศ.( พิเศษ ) น. พ. นภดล สุชาติ พ. บ. M.P.H.
Course Software Engineering SE Overview and Introduction.
INC 551 Artificial Intelligence
INC 551 Artificial Intelligence
INC 551 Artificial Intelligence
INC341 Steady State Error Lecture 6.
Chap 4 Complex Algebra. For application to Laplace Transform Complex Number.
Chapter 3 Solution by Series. Introduction Complementary Function Particular Integral  Chapter 2 If F(x),G(x) are constant.
MK380 Marketing Information System
Functions Standard Library Functions User-defined Functions.
MAT 231: คณิตศาสตร์ไม่ต่อเนื่อง (3) Function Growth & Time-Complexity
Chapter 20 Expert System Chapter 20 Expert System Artificial Intelligence ดร. วิภาดา เวทย์ประสิทธิ์ ภาควิชาวิทยาการคอมพิวเตอร์ คณะ วิทยาศาสตร์
8/3/2014The Realities of software Testing1 Software testing Realities What is the realities of software testing Why does the software testing not complete.
หน่วยที่ 5 การกำหนดเงื่อนไข. if - เลือกว่าทำหรือไม่ if if (เงื่อนไข) คำสั่ง;
Exercise 4: Page 41.
S Sex attitudes and practices among some Bangkok University Thai students Sample size : 40 students : 20 boys, 20 girls Age Range : years old Average.
July Lecture Side Lecture by Suradet Tantrairatn Lecturer and Researcher Chapter Four June 2010 Definitions, Goals, and Objective.
A Classical Apriori Algorithm for Mining Association Rules
Menu and Interactive with Powerpoint ให้นำเรื่อง Input /Output Technology มา จัดทำ การนำเสนอ โดยใช้หลักการ Menu and Interactive with powerpoint มาประยุกต์
Algorithm Efficiency There are often many approaches (algorithms) to solve a problem. How do we choose between them? At the heart of computer program.
CPE 332 Computer Engineering Mathematics II Week 2 Chapter 2 Matrix.
Introduction to Earned Value Analysis.
Writing a research. Why Research?  To find whether the messages and the materials are appropriate to the target group  To modify the messages and the.
iWaLL โดย 1. นายวีกิจ สัจจะมโนรมย์
Liang, Introduction to Java Programming, Sixth Edition, (c) 2007 Pearson Education, Inc. All rights reserved Java Programming Language.
STACK ADT By Pantharee S.. Stack Model  A list with the restriction that insertions deletions can be performed in only one position (LIFO)  Push – insert.
List ADTs By Pantharee S..
การสร้าง WebPage ด้วย Java Script Wachirawut Thamviset.
Chapter 3 Simple Supervised learning
Chapter 1/1 Arrays. Introduction Data structures are classified as either linear or nonlinear Linear structures: elements form a sequence or a linear.
21 August ดรุณี ศมาวรรตกุล 1 2. ADT List - Unsorted list ADT - list implementation - Sorted List - Circular list - Doubly linked list.
An Online Computer Assisted Instruction Development of Electronics Devices Subject for Learning Effectiveness Testing By Assoc.Prof. Suwanna Sombunsukho.
Physical Chemistry IV The Ensemble
Thongchai Pratipanawatr
Bitcoin Mining. Hello, I’m Pawaris and I love Bitcoin.
In-Class Exercises Discrete Mathematics
 Mr.Nitirat Tanthavech.  HTML forms are used to pass data to a server.  A form can contain input elements like text fields, checkboxes, radio-buttons,
Advancing Professional Construction and Program Management Worldwide
The management of change Changes in work patterns and jobs
Forces and Laws of Motion
Workday Merit Process - Approvers
Extreme Programming Explained: Embrace Change
STRATEGIES FOR SUCCESS
Year 9 Term 1 Foundation (Unit 1) INTEGERS, ROUNDING AND PLACE VALUE
ใบสำเนางานนำเสนอ:

INC 637 Artificial Intelligence Lecture 13 Reinforcement Learning (RL) (continue)

Reinforcement Learning Value Table State Value Table 1 dimension State Action Value Table 2 dimension State Action (Q-table) (V-table)

Bellman Equation for a Policy  So: Or, without the expectation operator: คำนวณหา Value Function จาก policy π

Bellman Optimality Equation for V* The value of a state under an optimal policy must equal the expected return for the best action from that state:

3 Methods to find V* Dynamic Programming Monte Carlo Temporal Difference

Dynamic Programming Policy EvaluationPolicy Improvement ประกอบด้วยขบวนการหลัก 2 ส่วน

Policy Evaluation แต่ละ state มีสมการของตัวเองซึ่งขื้นกับ value function ของ next state เป็นสมการ linear หลายตัวแปร อย่างไรก็ตาม ก็ยังยากที่จะแก้สมการถ้ามีหลายๆ state

Iterative Policy Evaluation a “sweep” A sweep consists of applying a backup operation to each state. ตือใช้ value function จาก อันก่อนมาประมาณอันปัจจุบัน A full policy evaluation backup:

Example Undiscounted episodic task Actions that would take agent off the grid leave state unchanged Reward is –1 for every action until the terminal state is reached Terminal state

(0.25(-1+0.0) (-1-1.0) (-1-1.0) (-1-1.0)

Policy Improvement สามารถทำได้จาก value function ที่คำนวณได้มาโดยปรับ ให้ไปเลือก action ที่มี value function สูงสุด เรียกว่าเป็น greedy actions

Iterative Policy Improvement policy evaluationpolicy improvement “greedification” การ estimate ค่า value function โดยใช้ค่า estimate ของมันเองเรียก Bootstrapping

Dynamic Programming

Monte Carlo Method Dynamic Programming ต้องรู้ world model นั่นคือมี reward เท่าใด ที่ไหมบ้าง และ next state เป็นอะไร Monte Carlo จะไม่ต้องรู้ world model มาก่อน คุณสมบัติของ Monte Carlo ใช้ได้กับ episodic tasks เท่านั้น learn จาก ประสบการณ์จริงโดยใช้ complete returned reward

Monte Carlo Policy Evaluation Goal: learn V  (s) Given: some number of episodes under  which contain s Idea: Average returns observed after visits to s Every-Visit MC: average returns for every time s is visited in an episode First-visit MC: average returns only for first time s is visited in an episode Both converge asymptotically 12345

Backup Diagram of MC Entire episode included Only one choice at each state (unlike DP) MC does not bootstrap Time required to estimate one state does not depend on the total number of states Series of actions s1 s2 s3 a1 a2 a3

Monte Carlo Policy Iteration Policy Improvement

Example: Blackjack Object: Have your card sum be greater than the dealers without exceeding 21. States (200 of them): –current sum (12-21) –dealer’s showing card (ace-10) –do I have a useable ace? Reward: +1 for winning, 0 for a draw, -1 for losing Actions: stick (stop receiving cards), hit (receive another card) Policy: Stick if my sum is 20 or 21, else hit

เช่นในสถานะการหนึ่งไม่มี usable ace และ เจ้ามือ show 8 เราเริ่มต้นที่ แต้ม = 12 จั่วได้ เป็น 14 และ 18 แล้วดูผลว่าแพ้หรือชนะ จะนำค่าผลลัพธืที่ได้มา update state ที่ 12, 14, 18 นี้ ทำไปหลายหมื่นครั้งจะได้กราฟของทุก state ดังรูป

Temporal Difference (TD) Policy Evaluation (the prediction problem): for a given policy , compute the state-value function Recall: target: the actual return after time t target: an estimate of the return

Simple Monte Carlo TTTTTTTTTT

Simplest TD Method TTTTTTTTTT

Dynamic Programming T T T TTTTTTTTTT

TD Bootstraps and Samples Bootstrapping: update involves an estimate –MC does not bootstrap –DP bootstraps –TD bootstraps Sampling: update does not involve an expected value –MC samples –DP does not sample –TD samples

Learning an Action-Value Function

Sarsa: On-Policy TD ที่เป็น on-policy เพราะต้องทำ action ก่อนเพื่อให้ได้ next state แล้วค่อยนำมา update value table

Q-learning Off-Policy TD ที่เป็น off-policy เพราะไม่ต้องทำตาม next state ที่จะเลือกเอา action ที่ได้ reward สูงสุด

Current state Action ไปทางขวา Next state