Uncertainty Russell and Norvig: Chapter 13 Slides adapted from: robotics.stanford.edu/~latombe/cs121/2004/home.htm CS121 – Winter 2004
environment agent ? sensors actuators ? ? ? model
An Old Problem …
Types of Uncertainty Uncertainty in prior knowledge E.g., some causes of a disease are unknown and are not represented in the background knowledge of a medical-assistant agent
Types of Uncertainty Uncertainty in prior knowledge E.g., some causes of a disease are unknown and are not represented in the background knowledge of a medical-assistant agent Uncertainty in actions E.g., actions are represented with relatively short lists of preconditions, while these lists are in fact arbitrary long
Types of Uncertainty For example, to drive my car in the morning: It must not have been stolen during the night It must not have flat tires There must be gas in the tank The battery must not be dead The ignition must work I must not have lost the car keys No truck should obstruct the driveway I must not have suddenly become blind or paralytic Etc… Not only would it not be possible to list all of them, trying would also be very inefficient!
Types of Uncertainty Uncertainty in prior knowledge E.g., some causes of a disease are unknown and are not represented in the background knowledge of a medical-assistant agent Uncertainty in actions E.g., actions are represented with relatively short lists of preconditions, while these lists are in fact arbitrary long Uncertainty in perception E.g., sensors do not return exact or complete information (locality of sensor) about the world; a robot never knows exactly its position
Types of Uncertainty Uncertainty in prior knowledge E.g., some causes of a disease are unknown and are not represented in the background knowledge of a medical-assistant agent Uncertainty in actions E.g., actions are represented with relatively short lists of preconditions, while these lists are in fact arbitrary long Uncertainty in perception E.g., sensors do not return exact or complete information (locality of sensor) about the world; a robot never knows exactly its position Courtesy R. Chatila
Types of Uncertainty Uncertainty in prior knowledge E.g., some causes of a disease are unknown and are not represented in the background knowledge of a medical-assistant agent Uncertainty in actions E.g., actions are represented with relatively short lists of preconditions, while these lists are in fact arbitrary long Uncertainty in perception E.g., sensors do not return exact or complete information about the world; a robot never knows exactly its position Sources of uncertainty: 1.Laziness (efficiency?) 2.Ignorance What we call uncertainty is a summary of all that is not explicitly taken into account in the agent’s KB
Questions How to represent uncertainty in knowledge? How to reason with uncertain knowledge? Which action to choose under uncertainty?
Handling Uncertainty Approaches: 1. [Optimistic] Default reasoning 2. [Pessimistic] Worst-case reasoning 3. [Realist] Probabilistic reasoning
Default Reasoning Rationale: The world is fairly normal. Abnormalities are rare So, an agent assumes normality, until there is evidence of the contrary E.g., if an agent sees a bird x, it assumes that x can fly, unless it has evidence that x is a penguin, an ostrich, a dead bird, a bird with broken wings, …
Representation in Logic BIRD(x) AB F (x) FLIES(x) PENGUINS(x) AB F (x) BROKEN-WINGS(x) AB F (x) BIRD(Tweety) … Default rule: Unless AB F (Tweety) can be proven True, assume it is False But what to do if several defaults are contradictory? Which ones to keep? Which one to reject?
Representation in Logic BIRD(x) AB F (x) FLIES(x) PENGUINS(x) AB F (x) BROKEN-WINGS(x) AB F (x) BIRD(Tweety) … Default rule: Unless AB F (Tweety) can be proven True, assume it is False But what to do if several defaults are contradictory? Which ones to keep? Which one to reject? Very active research field in the 80’s Non-monotonic logics: defaults, circumscription, closed-world assumptions Applications to databases
Worst-Case Reasoning Rationale: Just the opposite! The world is ruled by Murphy’s Law Uncertainty is defined by sets, e.g., the set possible outcomes of an action, the set of possible positions of a robot The agent assumes the worst case, and chooses the actions that maximizes a utility function in this case
Worst-Case Reasoning Rationale: Just the opposite! The world is ruled by Murphy’s Law Uncertainty is defined by sets, e.g., the set possible outcomes of an action, the set of possible positions of a robot The agent assumes the worst case, and chooses the actions that maximizes a utility function in this case Example: Adversarial search (next lecture)
Probabilistic Reasoning Rationale: The world is not divided between “normal” and “abnormal”, nor is it adversarial. Possible situations have various likelihoods (probabilities) The agent has probabilistic beliefs – pieces of knowledge with associated probabilities (strengths) – and chooses its actions to maximize the expected value of some utility function
Target Tracking Example Maximization of worst-case value of utility vs. of expected value of utility target robot Utility = escape time of target
Forthcoming Classes 1. Problem-solving with worst-case uncertainty (adversarial search, 1 class) 2. Problem solving with probabilistic uncertainty (2 classes) 3. Inference with probabilistic knowledge (belief nets, 1 class)
Notion of Probability You drive on 101 to SFO often, and you notice that 70% of the times there is a traffic slowdown at the exit to highway 92. The next time you plan to drive on 101, you will believe that the proposition “there is a slowdown at the exit to 92” is True with probability 0.7
Notion of Probability The probability of a proposition A is a real number P(A) between 0 and 1 P(True) = 1 and P(False) = 0 P(AvB) = P(A) + P(B) - P(A B) orand
Axioms of probability Notion of Probability The probability of a proposition A is a real number P(A) between 0 and 1 P(True) = 1 and P(False) = 0 P(AvB) = P(A) + P(B) - P(A B) P(Av A) = 1 = P(A) + P( A) So: P(A) = 1 - P( A) A B
Frequency Interpretation Draw a ball from a bag containing n balls of the same size, r red and s yellow. The probability that the proposition A = “the ball is red” is true corresponds to the relative frequency with which we expect to draw a red ball P(A) = r/n
Subjective Interpretation There are many situations in which there is no objective frequency interpretation: On a windy day, just before paragliding from the top of El Capitan, you say “there is probability 0.05 that I am going to die” You have worked hard on your AI class and you believe that the probability that you will get an A is 0.9
Random Variables A proposition that takes the value True with probability p and False with probability 1-p is a random variable with distribution (p,1-p) If a bag contains balls having 3 possible colors – red, yellow, and blue – the color of a ball picked at random from the bag is a random variable with 3 possible values The (probability) distribution of a random variable X with n values x 1, x 2, …, x n is: (p 1, p 2, …, p n ) with P(X=x i ) = p i and i=1,…,n p i = 1
Expected Value Random variable X with n values x 1,…,x n and distribution (p 1,…,p n ) E.g.: X is the state reached after doing an action A under uncertainty, e.g. the color of a ball picked from a bag Function U of X E.g., U = -1 if red ball, 0 if yellow, and +1 if blue The expected value of U after doing A is E[U] = i=1,…,n p i U(x i ) E.g., E[U] = -1 x P[X=red] + 0 x P[X=yellow]+ 1 x P[X=blue]
Joint Distribution k random variables X 1, …, X k The joint distribution of these variables is a table in which each entry gives the probability of one combination of values of X 1, …, X k Example: P(Cavity Toothache) P( Cavity Toothache) Toothache Toothache Cavity Cavity
Joint Distribution Says It All P( Toothache ) = P( (Toothache Cavity) v (Toothache Cavity) ) = P( Toothache Cavity ) + P( Toothache Cavity ) = = 0.05 Toothache Toothache Cavity Cavity
Joint Distribution Says It All P( Toothache v Cavity ) = P( (Toothache Cavity) v (Toothache Cavity) v ( Toothache Cavity) ) = = 0.11 Toothache Toothache Cavity Cavity
Conditional Probability Definition: P(A B) = P(A|B) P(B) |A B | = |A B|/|B| X |B|/1 Read P(A|B): Probability of A given that we know B P(A) is called the prior probability of A P(A|B) is called the posterior or conditional probability of A given B B A
Example P( Cavity Toothache ) = P( Cavity|Toothache ) P( Toothache ) P( Cavity ) = 0.1 P( Cavity|Toothache ) = P( Cavity Toothache ) / P( Toothache ) = 0.04/0.05 = 0.8 Toothache Toothache Cavity Cavity Toothache Toothache Cavity Cavity Toothache Toothache Cavity Cavity
Generalization P(A B C) = P(A|B,C) P(B|C) P(C) P(A|B C)
Conditional Independence Propositions A and B are (conditionally) independent iff: P(A|B) = P(A) P(A B) = P(A) P(B) B
Conditional Independence Propositions A and B are (conditionally) independent iff: P(A|B) = P(A) P(A B) = P(A) P(B) A
Conditional Independence Propositions A and B are (conditionally) independent iff: P(A|B) = P(A) P(A B) = P(A) P(B) A and B are independent given C iff: P(A|B,C) = P(A|C) P(A B|C) = P(A|C) P(B|C) B A
Car Example Three propositions: Gas Battery Starts P(Battery|Gas) = P(Battery) Gas and Battery are independent P(Battery|Gas, Starts) ≠ P(Battery| Starts) Gas and Battery are not independent given Starts
Bayes’ Rule P(A B) = P(A|B) P(B) = P(B|A) P(A) P(B|A) = P(A|B) P(B) P(A)
Given: P(Cavity) = 0.1 P(Toothache) = 0.05 P(Cavity|Toothache) = 0.8 Bayes’ rule tells: P(Toothache|Cavity) = (0.8 x 0.05)/0.1 = 0.4 Example cause symptom
Generalization P(A B C) = P(A B|C) P(C) = P(A|B,C) P(B|C) P(C) P(A B C) = P(A B|C) P(C) = P(B|A,C) P(A|C) P(C) P(B|A,C) = P(A|B,C) P(B|C) P(A|C)
Summary Types of uncertainty Default/worst-case/probabilistic reasoning Probability Random variable/expected value Joint distribution Conditional probability Conditional independence Bayes’ rule
ประชากร (Population) และ ตัวอย่าง (Sample) คำว่า “ประชากร” มาจากการนำสถิติมาใช้ครั้งแรกในเรื่อง ประชากรจนเป็นที่รู้จักกันแพร่หลายในนามของสถิติ ประชากร โดยเฉพาะการทำสำมะโนประชากรของ สหรัฐอเมริกา ในปัจจุบัน “ประชากร” ในวิชาสถิติไม่ได้หมายถึงประชากรหรือข้อมูล ที่มาจากประชากรเท่านั้น แต่มีความหมายรวมถึงข้อมูลที่มา จาก คน สัตว์ หรือสิ่งของ ที่เราสนใจศึกษาทั้งหมด คำว่า ”ประชากร” นำมาใช้ในความหมายเดียวกับ เอกภพ สัมพัทธ์( Universe) หรือ ปริภูมิตัวอย่าง (Sample Space) ในวิชาคณิตศาสตร์ คำว่า “ตัวอย่าง” นำมาใช้ในความหมายเดียวกันกับจุด ตัวอย่าง (Sample Point) หรือ เหตุการณ์ (Event) ในวิชา คณิตศาสตร์
ประชากร (Population) และ ตัวอย่าง (Sample) ในความเป็นจริงศัพท์ทางเทคนิคที่สอดคล้องกัน น่าจะเป็น ประชากร กับ สิ่งทดลอง(subject) และ เอกภพสัมพัทธ์ กับ ตัวอย่าง(sample) แต่อย่างไร ก็ตามเราได้ใช้คำว่า population คู่กับ sample หรือ “ประชากร” คู่กับ “ตัวอย่าง” มาจนเป็นที่คุ้นเคยและ เข้าใจกันดี ต่อไปจะกล่าวถึงนิยามและทฤษฎีที่เกี่ยวข้องกับ ความน่าจะเป็นเพื่อนำไปใช้ในสถิติอนุมาน
นิยาม1.1:เซตของสมาชิกที่เป็นตัวแทนของ ผลลัพธ์ที่เป็นไปได้ทั้งหมดของการทดลอง เรียกว่าปริภูมิตัวอย่าง แทนด้วยสัญลักษณ์ S เช่น S 1 = {1,2,3,4,5,6} S 2 = {เลขคู่, เลขคี่}
นิยาม 1.2:สมาชิกใด ๆ ของปริภูมิตัวอย่าง เรียกว่า จุดตัวอย่าง นิยาม 1.3:เหตุการณ์ใด ๆ คือ เซตย่อยของ ปริภูมิตัวอย่างแทนด้วย สัญลักษณ์ตัวพิมพ์ ใหญ่ เช่น A,B,C,... S1 = {H,T} A = {H}
ถ้าเหตุการณ์ใด ๆ ที่เซตนั้นประกอบด้วยสมาชิก (Element) ของปริภูมิตัวอย่างเพียงตัวเดียวเรียกว่า เหตุการณ์อย่างง่าย (Simple Event) ถ้าเหตุการณ์ ใด ๆ ที่เซตนั้นประกอบด้วย ยูเนียน(Union) ของ เหตุการณ์อย่างง่าย เรียกว่า เหตุการณ์ประกอบ (Compound Event) S = {โพธิ์แดง,โพธิ์ดำ, หลามตัด, ดอกจิก} A = {โพธิ์แดง } B = {โพธิ์แดง} {หลามตัด} หรือ B = { โพธิ์แดง, หลามตัด}
การนับจำนวนจุดตัวอย่าง ทฤษฎี 1.1 ถ้าการกระทำการใด ๆ สามารถจัดกระทำได้ N 1 วิธี และถ้าแต่ละวิธีสามารถกระทำการ ครั้งที่ 2 ได้ N 2 วิธี และการกระทำการทั้ง 2 ครั้ง สามารถกระทำร่วมกันได้ N 1 N 2 วิธี
ตัวอย่าง:โยนลูกเต๋า 1 คู่ { (1,1),(1,2),(1,3),(1,4),(1,5),(1,6), (2,1),(2,2),(2,3),(2,4),(2,5),(2,6), (3,1),(3,2),(3,3),(3,4),(3,5),(3,6), (4,1),(4,2),(4,3),(4,4),(4,5),(5,6), (5,1),(5,2),(5,3),(5,4),(5,5),(5,6), (6,1),(6,2),(6,3),(6,4),(6,5),(6,6) } ลูกเต๋า ลูกที่ 1 มีหน้าที่จะเกิดได้ 6 หน้า (N 1 ) ลูกเต๋า ลูกที่ 2 มีหน้าที่จะเกิดได้ 6 หน้า (N 2 ) โยนลูกเต๋าพร้อมกันจำนวนจุดตัวอย่าง = 6x6 (N 1 N 2 ) = 36 วิธี
ทฤษฎี 1.2 ถ้าการกระทำการใด ๆ สามารถจัดกระทำได้ N 1 วิธี แต่ละวิธีสามารถกระทำการครั้งที่ 2 ได้ N 2 วิธี และแต่ละวิธีสามารถกระทำการครั้งที่ 3 ได้ N 3 วิธี … ฯลฯ ดังนั้นลำดับเหตุการณ์ของการกระทำทั้ง K ครั้ง สามารถกระทำรวมกันได้ N 1 N 2 N 3...N K วิธี ตัวอย่าง: มีกี่วิธีในการเลือกทานอาหารเที่ยงจากแกง 4 อย่าง ผัด 3 อย่าง ของหวาน 5 อย่างและเครื่องดื่ม 4 อย่างสามารถเลือกทานได้ 4x3x5x4 = 240 วิธี
ตัวอย่าง จำนวนคู่ 3 หลักที่ได้จากเลขโดด 1,2,5,6 และ 9 ถ้าเลขโดดแต่ละตัวใช้เพียงครั้งเดียว จะจัดจำนวนคู่ 3 หลัก จากเลขที่กำหนดได้กี่ จำนวน หลักหน่วย จัดได้ 2 วิธี หลักสิบ จัดได้4 วิธี หลักร้อย จัดได้ 3 วิธี จำนวนคู่ 3 หลัก จัดได้ 2x4x3 = 24วิธี
วิธีเรียงสับเปลี่ยน (Permutation) วิธีเรียงสับเปลี่ยน (Permutation) เป็นการจัดเรียง เซตของวัตถุทั้งหมดหรือบางส่วน ทฤษฎี 1.3 วิธีเรียงสับเปลี่ยนของวัตถุที่แตกต่าง กัน N สิ่ง จัดได้ N! วิธี ทฤษฎี 1.4วิธีเรียงสับเปลี่ยนของวัตถุที่ แตกต่างกัน N สิ่ง ทีละ r สิ่ง จัดได้ N P r N P r = (N!)/(N-r)! หมายเหตุ การจัดวัตถุที่แตกต่างกัน N สิ่งโดยจัด ครั้งละ r สิ่ง สามารถจัดได้ (N)(N-1)...(N-r+1) วิธี
ตัวอย่าง: หยิบลอตเตอรี่ 2 ใบ จากจำนวน 20 ใบ ครั้ง ละใบโดยลำดับที่ในการหยิบมีความหมายที่ แตกต่างกัน จงหาจำนวนจุดตัวอย่าง 20 P 2 = (20!)/(20-2)! = (20!)/(18)! = (20)(19) = 380 วิธี
ความน่าจะเป็น นิยาม: ความน่าจะเป็นของเหตุการณ์ A ใดๆ คือ ผลบวกของน้ำหนักของจุดตัวอย่าง ทั้งหมด ใน A ดังนั้น 0 P(A) 1 P( ) = 0 P(S) = 1
ตัวอย่าง:โยนเหรียญ โยนเหรียญ 2 ครั้ง จงหาความน่าจะเป็นที่จะเกิด หัวอย่างน้อย 1 ครั้ง S = { HH, HT, TH, TT} ถ้าเหรียญสมดุลย์ โอกาสที่จะเกิดหน้าหัว หรือก้อยเท่ากัน ดังนั้นการให้น้ำหนัก W กับ จุดตัวอย่าง แต่ละตัว เท่ากัน ดังนี้ 4W = 1 W = 1/4 A แทนเหตุการณ์ที่เกิดหัวอย่างน้อย 1 ครั้ง P(A) = 3/4
นิยาม สำหรับการทดลองใด ๆ ที่มีผลลัพธ์แตกต่าง กัน N อย่าง และแต่ละอย่างมีโอกาสเกิดเท่า ๆ กัน ถ้ามีเพียง n อย่าง เป็นจำนวนจุด ตัวอย่างในเหตุการณ์ A ดังนั้น ความน่าจะ เป็นของ A คือ P(A) = n/N
ตัวอย่าง ดึงไพ่ 1 ใบ จากสำรับ(ไพ่ 1 สำรับ ประกอบด้วย 52 ใบ เป็นโพธิ์แดง 13 ใบ) ให้ หาความน่าจะเป็น ที่จะได้โพธิ์แดง วิธีทำ ให้ A : เป็นเหตุการณ์ที่หยิบไพ่ 1 ใบแล้วได้ โพธิ์แดง P(A) = 13/52 = 1/4
นิยาม เหตุการณ์ A และ B เป็นเหตุการณ์ที่แยกต่างหากจากกัน (Mutually exclusive event) ถ้า A B = ตัวอย่าง การโยนลูกเต๋า ให้ A เป็นเหตุการณ์ที่ได้จำนวนคู่ และ B คือ เหตุการณ์ได้จำนวนคี่ วิธีทำ A = {2,4,6} B = {1,3,5} A B = เนื่องจากไม่มีสมาชิกที่ร่วมกันเลย ดังนั้น A และ B เป็น เหตุการณ์ที่แยกต่างหากจากกัน