หลักสูตรข้อขัดข้องของแมชชีนเลิร์นนิงเวอร์ชันใหม่ที่ได้รับการปรับปรุงจะพร้อมให้บริการในเดือนสิงหาคม 2024 โปรดติดตามต่อไป

หน้านี้ได้รับการแปลโดย Cloud Translation API

ลดการสูญเสีย: การไล่ระดับสี

แผนภาพวิธีการแบบวนซ้ำ (รูปที่ 1) มีกล่องคลื่นเทียมสีเขียวที่มีชื่อว่า "การอัปเดตพารามิเตอร์ Compute" ตอนนี้เราจะแทนที่ฝุ่นละอองนางฟ้าอัลกอริทึมด้วยสิ่งที่สำคัญมากขึ้น

สมมติว่าเรามีเวลาและทรัพยากรในการประมวลผลเพื่อคำนวณการขาดทุนสำหรับค่าที่เป็นไปได้ทั้งหมดของ $w_1$ สำหรับปัญหาการถดถอยที่เราตรวจสอบ กราฟของความสูญเสียกับ $w_1$ จะเป็นผลลัพธ์ที่นูนเสมอ กล่าวคือ พล็อตเรื่อง จะมีรูปทรงคล้ายชามเสมอ

พล็อตของเส้นโค้งรูปตัว U ที่มีแกนแนวตั้งระบุว่า "การสูญเสีย" และแกนแนวนอนมีป้ายกำกับเป็นค่าน้ำหนัก w i

รูปที่ 2 ปัญหาการถดถอยทำให้ลดรูปนูนลงเทียบกับแผนภาพน้ำหนัก

โจทย์การนูนจะมีค่าต่ำสุดเพียงค่าเดียว ซึ่งก็คือจุดเดียวที่มีความชันเป็น 0 พอดี ซึ่งก็คือจุดที่ฟังก์ชันการลดทอน

การคำนวณฟังก์ชันการสูญเสียสำหรับค่าทั้งหมดที่เป็นไปได้ของ $w_1$จากชุดข้อมูลทั้งหมดจะเป็นวิธีหาจุดบรรจบกันที่ไม่มีประสิทธิภาพ มาดูกลไกที่ดีกว่ากัน ซึ่งเป็นที่นิยมมากในแมชชีนเลิร์นนิงที่เรียกว่าการไล่ระดับสี

ขั้นตอนแรกในการไล่ระดับสีลงคือการเลือกค่าเริ่มต้น (จุดเริ่มต้น) สำหรับ $w_1$ จุดเริ่มต้นก็ไม่ได้สำคัญเท่าไหร่นัก อัลกอริทึมจำนวนมากจึงตั้งค่า $w_1$ เป็น 0 หรือเลือกค่าแบบสุ่ม ตัวเลขต่อไปนี้แสดงให้เห็นว่าเราได้เลือกจุดเริ่มต้นที่มากกว่า 0 เล็กน้อย

พล็อตของเส้นโค้งรูปตัว U จุดที่อยู่ด้านบนด้านซ้ายของเส้นโค้งมีป้ายกำกับ "จุดเริ่มต้น"

รูปที่ 3 จุดเริ่มต้นสำหรับการไล่ระดับสีลง

จากนั้นอัลกอริทึมการลดการไล่ระดับสีจะคำนวณการไล่ระดับสีของเส้นโค้งการสูญเสียที่จุดเริ่มต้น ในรูปที่ 3 การไล่ระดับสีของการสูญเสียจะเท่ากับอนุพันธ์ (ความชัน) ของเส้นโค้ง ซึ่งจะบอกให้ทราบว่าทางใดเป็น "อุ่นขึ้น" หรือ "เย็นลง" เมื่อมีน้ำหนักหลายระดับ การไล่ระดับสีจะเป็นเวกเตอร์ของอนุพันธ์บางส่วนเทียบกับน้ำหนัก

คลิกไอคอนบวกเพื่อดูข้อมูลเพิ่มเติมเกี่ยวกับอนุพันธ์และการไล่ระดับสีบางส่วน

การคำนวณเกี่ยวกับแมชชีนเลิร์นนิงนั้นน่าสนใจมาก และเรายินดีที่คุณคลิกลิงก์เพื่อเรียนรู้เพิ่มเติม อย่างไรก็ตาม โปรดทราบว่า TensorFlow จะจัดการการคำนวณการไล่ระดับสีทั้งหมดให้คุณ คุณจึงไม่ต้องเข้าใจแคลคูลัสที่มีให้

อนุพันธ์บางส่วน

ฟังก์ชันหลายตัวแปรคือฟังก์ชันที่มีอาร์กิวเมนต์มากกว่า 1 รายการ เช่น

$$f(x,y) = e^{2y}\sin(x)$$

อนุพันธ์บางส่วน $f$ ที่เกี่ยวข้องกับ $x$ ซึ่งมีคำจำกัดความดังนี้

$$ \partial f \over \partial x $$

เป็นอนุพันธ์ของ $f$ ที่จัดว่าเป็นฟังก์ชันของ $x$เพียงอย่างเดียว วิธีค้นหาสิ่งต่อไปนี้

$$\partial f \over \partial x $$

คุณต้องคง $y$ ค่าคงที่ (ดังนั้น $f$ จะกลายเป็นฟังก์ชันของตัวแปรเดียว $x$) แล้วหาอนุพันธ์ปกติของ $f$ที่เกี่ยวข้องกับ $x$ ตัวอย่างเช่น เมื่อ $y$ คงที่ที่ 1 ฟังก์ชันก่อนหน้าจะกลายเป็น

$$ f(x) = e^2\sin(x) $$

นี่เป็นเพียงฟังก์ชันของตัวแปรเดียว $x$ซึ่งมีอนุพันธ์เป็น

$$ e^2\cos(x) $$

โดยทั่วไป เมื่อนึกถึง $y$ คงที่ อนุพันธ์ย่อยของ $f$ ที่เคารพ $x$ จะมีการคำนวณดังนี้

$$\frac{\partial f}{\partial x}(x,y) = e^{2y}\cos(x)$$

ในทำนองเดียวกัน หากเรา $x$ กำหนดแทน อนุพันธ์ย่อยของ $f$ โดยยึดตาม $y$ คือ

$$ \frac{\partial f}{\partial y}(x,y) = 2e^{2y}\sin(x) $$

อนุพันธ์บางส่วนจะบอกให้คุณทราบว่าฟังก์ชันเปลี่ยนแปลงไปมากน้อยเพียงใดเมื่อคุณปรับค่าตัวแปรหนึ่งเล็กน้อย ในตัวอย่างก่อนหน้านี้

$$ \frac{\partial f}{\partial x} (0,1) = e^2 \approx 7.4 $$

ดังนั้น เมื่อคุณเริ่มต้นที่ $(0,1)$ให้ $y$ คงที่ แล้วเคลื่อนที่ $x$ เล็กน้อย $f$ การเปลี่ยนแปลงประมาณ 7.4 เท่าของจำนวนเงินที่คุณเปลี่ยนแปลง $x$

ในแมชชีนเลิร์นนิง อนุพันธ์บางส่วนมักจะใช้ร่วมกับการไล่ระดับสีของฟังก์ชัน

การไล่ระดับสี

การไล่ระดับสีของฟังก์ชันซึ่งแสดงดังต่อไปนี้เป็นเวกเตอร์ของอนุพันธ์บางส่วนที่สัมพันธ์กับตัวแปรอิสระทั้งหมด

$$ \nabla f $$

ตัวอย่างเช่น หาก

$$ f(x,y) = e^{2y}\sin(x) $$

ให้:

$$\nabla f(x,y) = \left(\frac{\partial f}{\partial x}(x,y), \frac{\partial f}{\partial y}(x,y)\right) = (e^{2y}\cos(x), 2e^{2y}\sin(x))$$

โปรดทราบดังต่อไปนี้

$$\nabla f$$	ชี้ไปทิศทางการเพิ่มสูงสุดของฟังก์ชัน
$$ {-\nabla f} $$	ชี้ไปทิศทางการลดสูงสุดของฟังก์ชัน

จำนวนของมิติข้อมูลในเวกเตอร์เท่ากับจำนวนตัวแปรในสูตรสำหรับ $f$กล่าวคือ เวกเตอร์จะอยู่ในพื้นที่โดเมนของฟังก์ชัน ตัวอย่างเช่น กราฟของฟังก์ชันต่อไปนี้ $f(x,y)$:

$$ f(x,y) = 4 + (x - 2)^2 + 2y^2 $$

เมื่อดูใน 3 มิติที่มี $z = f(x,y)$ ดูเหมือนหุบเขา โดยมีขั้นต่ำอยู่ที่ $(2,0,4)$:

การไล่ระดับสีของ $f(x,y)$ คือเวกเตอร์ 2 มิติที่จะบอกคุณว่า$(x,y)$ ทิศทางใดที่ควรเคลื่อนที่เพื่อเพิ่มความสูงให้สูงที่สุด ดังนั้นค่าลบของการไล่ระดับสีจะย้ายคุณไปตามทิศทางของความสูงที่ลดลงสูงสุด กล่าวคือ ค่าลบของเวกเตอร์การไล่ระดับสีจะชี้ไปยังหุบเขา

ในแมชชีนเลิร์นนิง ใช้การไล่ระดับสีในส่วนไล่ระดับสี เรามักจะมีฟังก์ชันสูญเสีย ตัวแปรหลายอย่างที่กำลังพยายามลดให้น้อยที่สุด และพยายามทำเช่นนี้โดยลบค่าการไล่ระดับสีที่เป็นค่าลบของฟังก์ชัน

โปรดทราบว่าการไล่ระดับสีเป็นเวกเตอร์ ดังนั้นจึงมีลักษณะทั้งสองดังต่อไปนี้

เส้นทาง
ขนาด

การไล่ระดับสีจะชี้ไปในทิศทางที่เพิ่มขึ้นสูงสุดในฟังก์ชันการสูญเสียเสมอ อัลกอริทึมขั้นตอนการไล่ระดับสีจะดำเนินการในทิศทาง ของการไล่ระดับสีเชิงลบเพื่อลดการสูญเสียให้เร็วที่สุด

พล็อตของเส้นโค้งรูปตัว U จุดทางด้านซ้ายของเส้นโค้งมีป้ายกำกับ "จุดเริ่มต้น" ลูกศรที่มีป้ายกำกับ "การไล่ระดับสีเชิงลบ" ชี้จากจุดนี้ทางด้านขวา

รูปที่ 4 การไล่ระดับสีเพื่อลดการไล่ระดับสีต้องใช้การไล่ระดับสีเชิงลบ

ในการระบุจุดถัดไปในเส้นโค้งของฟังก์ชันการสูญเสีย อัลกอริทึมการไล่ระดับสีจะเพิ่มลงในขนาดบางส่วนของการไล่ระดับสีไปยังจุดเริ่มต้นดังที่แสดงในรูปต่อไปนี้

พล็อตของเส้นโค้งรูปตัว U จุดทางด้านซ้ายของเส้นโค้งมีป้ายกำกับ "จุดเริ่มต้น" ลูกศรที่มีป้ายกำกับ "การไล่ระดับสีเชิงลบ" ชี้จากจุดนี้ทางด้านขวา ลูกศรอีกจุดจากปลายลูกศรแรกลงไปยังจุดที่ 2 บนเส้นโค้ง จุดที่สองจะมีข้อความระบุว่า "จุดถัดไป"

รูปที่ 5 ขั้นตอนการไล่ระดับสีจะนำเราไปยังจุดถัดไปบนเส้นโค้งการสูญเสีย

การไล่ระดับสีลงจะทำซ้ำขั้นตอนนี้โดยให้เข้าใกล้จุดขั้นต่ำสุดเข้าไปอีก

หมายเหตุ: เมื่อทำการลดการไล่ระดับสี เราจะแปลงกระบวนการข้างต้นเป็นแบบทั่วไปเพื่อปรับแต่งพารามิเตอร์โมเดลทั้งหมดพร้อมกัน เช่น หากต้องการหาค่าที่เหมาะสมของทั้ง $w_1$ และการให้น้ำหนักพิเศษ $b$เราจะคำนวณการไล่ระดับสีโดยคำนึงถึงทั้ง $w_1$ และ $b$ต่อไป เราจะแก้ไขค่าของ $w_1$และ $b$ ตามการไล่ระดับสีที่เกี่ยวข้อง จากนั้นเราจะทำขั้นตอนเหล่านี้ซ้ำ จนกว่าจะมีการสูญเสียถึงยอดขั้นต่ำ

แนวทางการดําเนินการซ้ํา

อัตราการเรียนรู้