Back-Propagation Learning (การเรียนรู้แบบแพร่กลับ) (ต่อ)

Slides:



Advertisements
งานนำเสนอที่คล้ายกัน
คลิกที่นี่เพื่อเข้าชม
Advertisements

การกำหนดโครงสร้าง ตาม ว 108 (ว 1)
การศึกษาและประยุกต์ใช้ขั้นตอนวิธีเชิง วิวัฒน์แบบหลายจุดประสงค์บนคลังข้อมูล เจเมทัล Study of Evolutionary Algorithm in Multi- objective on Library jMetal.
ลิมิตและความต่อเนื่อง
ลำดับทางเดียว (Monotonic Sequences)
การทำงานแบบเลือกทำ (Selection)
ระบบเครือข่ายคอมพิวเตอร์
Control Statement if..else switch..case for while do-while.
การเลือกตัวอย่าง อ.สมพงษ์ พันธุรัตน์.
เกณฑ์คุณภาพเครือข่ายบริการปฐมภูมิ
Register Allocation and Graph Coloring
Ordering and Liveness Analysis ลำดับและการวิเคราะห์บอกความ เป็นอยู่หรือความตาย.
Control structure part II
รหัสระหว่างกลาง (Intermediate code)
Data Type part.III.
อสมการ.
องค์ประกอบ e-Learning และ WBI
การประมาณค่าทางสถิติ
บทที่ 1. พื้นฐานความรู้ทั่วไป
INC341 State space representation & First-order System
Perceptron and Delta rule training for the NN
Adaline and Delta rule training for NN
Image Processing & Computer Vision
คอมพิวเตอร์ช่วยสอน ประเภทติวเตอร์ Tutorial.
Surachai Wachirahatthapong
น.ส.กฤติกา วงศาวณิช นายศุภชัย ตั้งบุญญะศิริ
บทที่ 5 ทฤษฎีการผลิต (Production Theory)
ระบบกลไก.
การเลือกจำนวน Hidden Node ที่เหมาะสมกับโครงข่ายประสาทเทียม
ประชากร และกลุ่มตัวอย่าง
การใช้งานเบื้องต้นของเครื่องคิดเลขทางการเงิน
สถิติเชิงสรุปอ้างอิง(Inferential or Inductive Statistics)
การออกแบบการวิจัย(Research Design)
การวางแผนและ การจัดทำ IT Audit
ระบบช่วยสนับสนุนการตัดสินใจเลือกรถขนส่ง
ความรู้เบื้องต้นเกี่ยวกับระบบฐานข้อมูล
คณิตศาสตร์คอมพิวเตอร์
การออกแบบและการวิเคราะห์อัลกอริทึม
การก้าวสู่องค์กรแห่ง การเรียนรู้. * กระแสการเปลี่ยนแปลงที่เกิดขึ้นมันรวดเร็วและรุนแรง ก็ด้วยปัจจัยที่ เกิดจากการก้าวกระโดดของเทคโนโลยีสาร สนเทศ ส่งผลให้เวทีการ.
หน่วยที่ 3 การวิเคราะห์การผลิต.
หมวดที่ 5 การวัดผลและการประเมิน
สัปดาห์ที่ 16 โครงข่ายสองพอร์ท Two-Port Networks (Part II)
วิชาคณิตศาสตร์พื้นฐาน รหัสวิชา ค ครูผู้สอน นางสาวสมใจ จันทรงกรด
ระบบช่วยสนับสนุนการตัดสินใจเลือกรถขนส่ง
ทศวรรษการพัฒนาเด็กไทย
เสรี ชิโนดม ฟังก์ชัน เสรี ชิโนดม
วิทยา กรระสี (วท.บ. วิทยาการคอมพิวเตอร์)
ฟังก์ชัน.
การออกแบบโครงสร้าง (Structured Design)
วิชา วิศวกรรมซอฟต์แวร์ (Software Engineering)
Uncertainty of Measurement
ศูนย์กำลังคนอาชีวศึกษา
Computer Programming การเขียนโปรแกรมคอมพิวเตอร์
หลักการแก้ปัญหา
กลวิธีการสอนคณิตศาสตร์ระดับประถมศึกษา
บทที่ 9 พอยเตอร์. สื่อชุดนี้เป็นลิขสิทธิ์ของสำนักพิมพ์วังอักษรใช้เพื่อ การศึกษาเท่านั้น พอยเตอร์ (Pointer) พอยเตอร์คือต้นฉบับของชนิดข้อมูล เป็นชนิด ข้อมูลที่สร้างจากข้อมูลมาตรฐานชนิดหนึ่ง.
ระบบควบคุมอัตโนมัตในงานอุตสาหกรรม
stack #2 ผู้สอน อาจารย์ ยืนยง กันทะเนตร
Artificial Neural Network โครงข่ายประสาทเทียม
ค่าคงที่สมดุล การเขียนความสัมพันธ์ของค่า K กับความเข้มข้นของสาร
หลักการเขียนโปรแกรม ( )
โครงสร้าง ภาษาซี.
การตรวจสอบคุณภาพ ของเครื่องมือการวิจัย
BC305 การวิเคราะห์และออกแบบระบบสารสนเทศ
ADDIE Model.
บทที่ 8 การวิจัยเชิงพรรณนา : การสำรวจ
1 Functions กนกวรรธน์ เซี่ยงเจ็น สำนักวิชาเทคโนโลยีสารสนเทศ และการสื่อสาร มหาวิทยาลัยนเรศวร พะเยา.
ให้โอกาสผู้เรียนมีส่วนร่วมรับผิดชอบ สร้างความมีวินัย การตรงต่อเวลา
ตัวอย่าง : ประสิทธิภาพในการผลิต คำถาม : ให้การผลิตสินค้าชนิดหนึ่งมีผู้ผลิต 2 ราย ที่มี Production function เหมือนกันดังนี้ q = K 0.25 L 0.75 ราย A ใช้
หน้า 1/6. หน้า 2/6 กำลัง หมายถึง อัตราการทำงาน หรือ สิ่งที่บ่งบอกว่า งานที่ทำในเวลานั้น ๆ มีมาก น้อยเพียงไร การคิดจะคล้ายกับงาน นั่นคือ ถ้า เมื่อไรก็ตาม.
ใบสำเนางานนำเสนอ:

Back-Propagation Learning (การเรียนรู้แบบแพร่กลับ) (ต่อ) ไกรฤกษ์ เชยชื่น, M.Eng. Electrical

วิเคราะห์การใช้งานเครือข่ายแบบแพร่กลับ - การลู่เขŒา (Convergence) ของอัลกอริทึ่มการฝึกสอนเป็นส่วนที่จำเป็น - พารามิเตอร์ของเครือข่ายถือเป็นสิ่งแรกที่ผู้ใช้เครือข่ายประสาทเทียมทุกรูปแบบต้องคำนึงถึง

การเลือกพารามิเตอร์ของเครือข่าย - โครงสร้างของเครือข่ายมีผลโดยตรงต่อประสิทธิภาพ การประมาณค่าฟังก์ชัน - จำนวนนิวรอนและจำนวนชั้นซ่อนเร้นจะต้องเหมาะสม - โดยทั่วไปแล้วเราไม่สามารถบอกได้ว่าจำนวนดังกล่าวคืออะไร - ตัวเลือกดังกล่าวย‹อมขึ้นอยู่กับความซับซ้อนของฟังก์ชัน

ลองเปลี่ยน ความซับซ้อนของฟังก์ชัน เมื่อ ใช้โครงสร้าง เหมือนกันคือ 1-2-1 (input 1 layer, hidden 2 layer, output 1 layer)

1-10-1 1-5-3-1 1-6-4-1

การลู่เข้า (Convergence) - การฝึกสอนของเครือข่ายซึ่งมุ่งเน้นไปที่ทำให้ค่าความผิดพลาดกำลังสองเฉลี่ยมีค่าน้อยที่สุด - การลู่เข้าอาจลู่เข้าสู่ local minimum ซึ่งค่า weight และ ไบแอส อาจไม่ใช่ค่าที่ถูกต้อง - ค่าอัตราการเรียนรู้ที่ต่ำๆ ช่วยยืนยันการลู่เข้าแต่จะใช้เวลานาน

การทำให้เป็นกรณีทั่วไป (Generalization) - คือความสามารถในการเป็นกรณีทั่วไปได้ นั่น คือจากการฝึกสอนด้วยจำนวนตัวอย่าง (คู่อินพุต/เป้าหมาย) จำนวนที่จำกัด เครือข่ายสามารถทำงานเป็นกรณีทั่วไปได้ โดยครอบคลุมคู‹อินพุต/เป้าหมายที่ไม่ใช่ตัวอย่างในชุดข้อมูลที่ใช้ฝึกสอนได้อย่างถูกต้อง การปรับแต‹งอัลกอริทึมการเรียนรูŒแบบแพร‹กลับ

การปรับแต่งอัลกอริทึมการเรียนรู้แบบแพร่กลับ - เราสามารถดูประสิทธิภาพของเครือข่ายได้จากพื้นผิวค่าความผิดพลาด (Error surface) คำสั่ง Demo BP ของ Matlab คือ nnd12sd1 - การลู่เข้าของการฝึกสอนสำหรับค่าเริ่มต้นที่ ตำแหน่งต่างๆ จะเห็นได้ว่าไม่ใช่ทุกค่าเริ่มต้นที่ให้การลู่เข้าสู่คำตอบที่ต้องการได้

การปรับแต่งอัลกอริทึมการเรียนรู้แบบแพร่กลับ Global minimum Local minimum - การลู่เข้าของการฝึกสอนสำหรับค่าเริ่มต้นที่ ตำแหน่งต่างๆ จะเห็นได้ว่าไม่ใช่ทุกค่าเริ่มต้นที่ให้การลู่เข้าสู่คำตอบที่ต้องการได้

การปรับแต่งอัลกอริทึมการเรียนรู้แบบแพร่กลับด้วย โมเมนตัม โมเมนตัมใช้หลักการของ Low pass filter ซึ่งจะใช้ ค่าคงที่โมเมนตัม, η ในการกรองเอาความถี่สูงออกไป สมการพื้นฐานแสดงได้ดังนี้ New output Old output input

การปรับแต่งอัลกอริทึมการเรียนรู้แบบแพร่กลับด้วย โมเมนตัม η=0.2 η=0.4 η=0.7 η=0.9

การปรับแต่งอัลกอริทึมการเรียนรู้แบบแพร่กลับด้วย โมเมนตัม ไม่มี โมเมนตัม มี โมเมนตัม

อัตราการเรียนรู้ที่ปรับค่าได้ (Variable Learning Rate) ถ้าการ Training เป็นไปด้วยดี ( error decreased) แล้วเพิ่ม step size α = α*1.1 ถ้าการ Training เป็นไปไม่ดี ( error increased) แล้วลด step size α = α*0.5 ถ้าการ Training เป็นไปด้วยดีพอใช้ ( error decreased) ไม่ต้องปรับ learning rate *ฟังก์ชันที่ใช้ในการปรับค่าตั้งต้นของ network net=init(net)

Matlab command Steepest descent with momentum Adaptive learning rate net=newff(minmax(p),[3,1],{'tansig','purelin'},'traingdm'); net.trainParam.show = 50; net.trainParam.lr = 0.05; net.trainParam.mc = 0.9; % mc = momentum constant net.trainParam.epochs = 300; net.trainParam.goal = 1e-5; Adaptive learning rate net=newff(minmax(p),[3,1],{'tansig','purelin'},'traingda'); net.trainParam.show = 50; net.trainParam.lr = 0.05; net.trainParam.lr_inc = 1.05; % lr_inc = learning rate increasing net.train.Param.lr_dec = 0.7; % lr_dec = learning rate decreasing net.trainParam.epochs = 300; net.trainParam.goal = 1e-5; [net,tr]=train(net,p,t);