งานนำเสนอกำลังจะดาวน์โหลด โปรดรอ

งานนำเสนอกำลังจะดาวน์โหลด โปรดรอ

INC 551 Artificial Intelligence Lecture 9 Introduction to Machine Learning.

งานนำเสนอที่คล้ายกัน


งานนำเสนอเรื่อง: "INC 551 Artificial Intelligence Lecture 9 Introduction to Machine Learning."— ใบสำเนางานนำเสนอ:

1 INC 551 Artificial Intelligence Lecture 9 Introduction to Machine Learning

2 What is machine learning (or computer learning)? ทางปฏิบัติ คือการหา function ที่เหมาะสมเพื่อ map input และ output ทางวัตถุประสงค์ คือการปรับตัวของ computer จาก ข้อมูลหนึ่งๆ ที่ป้อนเข้าไป

3 Definition of Learning A computer program is said to “learn” from experience E with respect to some class of tasks T and performance P, if its performance improves with experience E Tom Mitchell, 1997

4 To learn = To change parameters in the world model

5 Deliberative Agent Environment Action Sense, Perceive Make Decision Agent World Model How to create a world model that represents real world?

6 Car Model Throttle Amount (x) Speed (v)

7 Learning as function Mapping Find better function mapping Add Add Performance error = 1 Performance error = 0.2 ปรับตัว

8 Learning Design Issues 1. Components of the performance to be learned 2. Feedback (supervised, reinforcement, unsupervised) 3. Representation (function, tree, neural net, state-action model, genetic code)

9 Types of Learning Supervised Learning มีครูสอนบอกว่าอะไรดี อะไรไม่ดี เหมือนเรียนในห้อง Reinforcement Learning เรียนรู้แบบปฏิบัติไปเลย นักเรียนเลือกทำสิ่งที่อยากเรียนเอง ครูคอยบอกว่าดีหรือไม่ดี Unsupervised Learning ไม่มีครูคอยบอกอะไรเลย นักศึกษาแยกแยะสิ่งดี ไม่ดี ออกเป็น 2 พวก แต่ก็ยังไม่รู้ว่าอะไรดี ไม่ดี

10 Supervised Learning โดยทั่วไปจะมี data ที่เป็น Training set และ Test set Training set ใช้ในการเรียน, Test set ใช้ในการทดสอบ Data เหล่านี้จะบอกว่าอะไร เป็น Type A, B, C, … Learner Training set features type Learner Test set features type Answer การเรียน การใช้งาน

11 Graph Fitting Find function f that is consistent for all samples

12 xf(x)type 13.2B A 42.3B 2-3.1B 74.4A B 54.2A Data Mapping

13 1 2 3 ใช้ Least Mean Square Algorithm

14 Overfit Ockham’s razor principle “Prefer the simplest”

15 Least Mean Square Algorithm Let We can find the weight vector recursively using where n = current state μ = step size

16 MATLAB Example Match x,y pair x=[ ] y=[ ] Epoch 1

17 MATLAB Example Match x,y pair x=[ ] y=[ ] Epoch 2

18 MATLAB Example Match x,y pair x=[ ] y=[ ] Epoch 3

19 MATLAB Example Match x,y pair x=[ ] y=[ ] Epoch 4

20 MATLAB Example Match x,y pair x=[ ] y=[ ] Epoch 8

21 Neural Network 1 brain = 100,000,000,000 neurons Neuron model

22 Mathematical Model of Neuron

23 Activation Function Step function Sigmoid function

24 Network of Neurons สามารถแบ่งเป็น 2 ชนิด 1. Single layer feed-forward network (perceptron) 2. Multilayer feed-forward network

25 Single layer Network x1 x2 x0 y สมมติว่า activation function ไม่มี ซึ่งเป็น linear equation W0 W1 W2

26 ในกรณีที่ activation function เป็น step จะเหมือนเป็นเส้นตรงคอยแบ่งกลุ่ม ซึ่งเส้นตรงนี้จะแบ่งที่ไหน จะขึ้นกับค่า weight w j

27 Perceptron Algorithm มาจาก least-square method ใช้เพื่อปรับ weight ของ neuron ให้เหมาะสม α = learning rate

28 Multilayer Neural Network มี hidden layers เพิ่มเข้ามา Learn ด้วย Back-Propagation Algorithm

29 Back-Propagation Algorithm

30 Learning Progress ใช้ training set ป้อนเข้าไปหลายๆครั้ง แต่ละครั้งเรียก Epoch

31 Types of Learning Supervised Learning มีครูสอนบอกว่าอะไรดี อะไรไม่ดี เหมือนเรียนในห้อง Reinforcement Learning เรียนรู้แบบปฏิบัติไปเลย นักเรียนเลือกทำสิ่งที่อยากเรียนเอง ครูคอยบอกว่าดีหรือไม่ดี Unsupervised Learning ไม่มีครูคอยบอกอะไรเลย นักศึกษาแยกแยะสิ่งดี ไม่ดี ออกเป็น 2 พวก แต่ก็ยังไม่รู้ว่าอะไรดี ไม่ดี

32 Source: Reinforcement Learning: An Introduction Richard Sutton and Andrew Barto MIT Press, 2002

33 Supervised Learning System InputsOutputs Training Info = desired (target) outputs (features/class) Supervised Learning RL System Inputs Outputs (“actions”) Evaluations (“rewards” / “penalties”) Environment Reinforcement Learning

34 Properties of RL Learner is not told which actions to take Trial-and-Error search Possibility of delayed reward –Sacrifice short-term gains for greater long- term gains The need to explore and exploit Considers the whole problem of a goal- directed agent interacting with an uncertain environment

35 Model of RL Environment action state reward Agent Key components state, action, reward, and transition

36 Agent: ฉันอยู่ที่ 134 เลือกทำการกระทำแบบที่ 12 Environment: เธอได้ 29 คะแนน และได้ไปอยู่ที่ 113 Agent: ฉันอยู่ที่ 113 เลือกทำการกระทำแบบที่ 8 Environment: เธอได้ 33 คะแนน และได้ไปอยู่ที่ 35 Agent: ฉันอยู่ที่ 35 เลือกทำการกระทำแบบที่ 8 Environment: เธอได้ 72 คะแนน และได้ไปอยู่ที่ 134 Agent: ฉันอยู่ที่ 134 เลือกทำการกระทำแบบที่ 4 Environment: เธอได้ 66 คะแนน และได้ไปอยู่ที่ 35 Agent: ฉันอยู่ที่ 35 เลือกทำการกระทำแบบที่ 2 Environment: เธอได้ 53 คะแนน และได้ไปอยู่ที่ 88 : State Action Reward Next state

37 Example: Tic-Tac-Toe X X XOO X X O X O X O X O X X O X O X O X O X O X O X } x’s move } o’s move } x’s move... x x x x o x o x o x x x x o o Assume an imperfect opponent: —he/she sometimes makes mistakes

38 1. Make a table with one entry per state: State V(s) – estimated probability of winning.5 ?... 1 win 0 loss... 0 draw x x x x o o o o o x x oo oo x x x x o 2. Now play lots of games. To pick our moves, look ahead one step: current state various possible next states * Just pick the next state with the highest estimated prob. of winning — the largest V(s);

39 s s’

40 Table Generalizing Function State V sss...ssss...s N เหมือนกับ function mapping

41 Value Table State Value Table 1 dimension State Action Value Table 2 dimension State Action (Q-table) (V-table)

42 Examples of RL Implementations Start with a random network Play very many games against self Learn a value function from this simulated experience Action selection by 2–3 ply search Value TD error Tesauro, 1992–1995 TD-Gammon

43 10 floors, 4 elevator cars STATES: button states; positions, directions, and motion states of cars; passengers in cars & in halls ACTIONS: stop at, or go by, next floor REWARDS: roughly, –1 per time step for each person waiting Conservatively about 10 states 22 Crites and Barto, 1996 Elavator Dispatching

44 Issues in Reinforcement Learning Trade-off between exploration and exploitation ε – greedy softmax Algorithms to find the value function for delayed reward Dynamic Programming Monte Carlo Temporal Difference

45 n-Armed Bandit Problem Slot Machine Slot machine มีคันโยกอยู่หลายอันซึ่งให้รางวัลไม่เท่ากัน สมมติลองเล่นไปเรื่อยๆจนถึงจุดๆหนึ่ง ได้ข้อสรุปว่า เล่นคันโยก 1 26 ครั้ง ได้ รางวัล 4 baht/ ครั้ง เล่นคันโยก 2 14 ครั้ง ได้ รางวัล 3 baht/ ครั้ง เล่นคันโยก 3 10 ครั้ง ได้ รางวัล 2 baht/ ครั้ง เล่นคันโยก 4 16 ครั้ง ได้ รางวัล 102 baht/ ครั้ง

46 Exploration and Exploitation จะมีปัญหา 2 อย่าง จะลองเล่นคันโยกที่ 5 ต่อไปไหม ค่าเฉลี่ยของรางวัลที่ผ่านมาเที่ยงตรงแค่ไหน Exploitation คือการใช้ในสิ่งที่เรียนมา คือเล่นอัน 4 ไปเรื่อยๆตลอด Exploration คือสำรวจต่อ โดยลองมากขึ้นในสิ่งที่ยังไม่เคยทำ Balance เรียก Greedy

47 ε-greedy Action Selection Greedy ε-greedy คือเลือกทางที่ให้ผลตอบแทนสูงสุด

48 Test: 10-armed Bandit Problem n = 10 possible actions Each is chosen randomly from a normal distribution: each is also normal: 1000 plays repeat the whole thing 2000 times and average the results

49 Results

50 SoftMax Action Selection SoftMax จะเลือก greedy action ตามปริมาณของ reward Reward มาก ก็จะเลือก greedy action ด้วย probability สูง โดยคำนวณจาก Gibb-Boltzmann distribution “computational temperature”

51 Algorithms to find the Value Function Incremental Implementation Markov’s decision process (MDP) Value Function Characteristics Bellman’s Equation Solution methods

52 Incremental Implementation Value function มาจากค่าเฉลี่ยจาก reward หลายๆครั้ง แปลว่าต้องคำนวณ Q ใหม่ทุกๆครั้งที่มี reward เข้ามา โดยเก็บค่า reward ไว้ด้วย Incremental คือจะทำการ update Q ตาม reward ที่เข้ามา This is a common form for update rules: NewEstimate = OldEstimate + StepSize[Target – OldEstimate]

53 Policy คือวิธีการเลือก action โดยดูจาก state ที่ agent อยู่ Goal: To maximize total reward (reward คำนวณยังไง )

54 Types of Tasks Episodic Tasks สามารถแบ่งเป็น ส่วนๆ เช่น เกมส์, maze Non-episodic Tasks ไม่มีจุดสิ้นสุด จะใช้ discount method T คือ terminal state

55 Markov Decision Process การใช้ RL จะสมมุติให้ model ของปัญหาอยู่ในรูปแบบ Markov Decision Process (MDP) ซึ่ง model นี้จะประกอบด้วยส่วนสำคัญ 4 ส่วน State, Action, Reward, Transition State = s Action = a Reward Transition

56 MDP สามารถเขียนให้อยู่ในรูป state transition ได้

57 The value of a state is the expected return starting from that state; depends on the agent’s policy: The value of taking an action in a state under policy  is the expected return starting from that state, taking that action, and thereafter following  : Value Function

58 Bellman Equation for a Policy  So: Or, without the expectation operator: คำนวณหา Value Function จาก policy π

59 Example: Grid World Action = {up, down, left, right} ถ้าอยู่ที่จุด A แล้วทำ action อะไรก็ได้จะมาอยู่ที่ A’ แล้วได้ reward = 10 ถ้าอยู่ที่จุด B แล้วทำ action อะไรก็ได้จะมาอยู่ที่ B’ แล้วได้ reward = 5 ชนกำแพง reward = -1 นอกนั้น reward = 0 สามารถหา value function ได้ตามรูป b

60 For finite MDPs, policies can be partially ordered: There is always at least one (and possibly many) policies that is better than or equal to all the others. This is an optimal policy. We denote them all  *. Optimal policies share the same optimal state-value function: Optimal policies also share the same optimal action- value function: Optimal Value Function

61 Bellman Optimality Equation for V* The value of a state under an optimal policy must equal the expected return for the best action from that state:

62 Bellman Optimality Equation for Q*

63 Why Optimal State-Value Functions are Useful? Any policy that is greedy with respect to is an optimal policy. Therefore, given, one-step-ahead search produces the long-term optimal actions. Example: Grid World

64 หน้าที่ของ RL ก็คือหา optimal value function


ดาวน์โหลด ppt INC 551 Artificial Intelligence Lecture 9 Introduction to Machine Learning.

งานนำเสนอที่คล้ายกัน


Ads by Google