อย่าลืมว่าการถดถอยแบบโลจิสติกส์จะสร้างทศนิยมระหว่าง 0 ถึง 1.0 ตัวอย่างเช่น เอาต์พุตของการถดถอยแบบโลจิสติกส์ 0.8 จากตัวแยกประเภทอีเมลแนะนําว่ามีโอกาส 80% ที่อีเมลจะเป็นสแปมและ 20% จะไม่ใช่จดหมายขยะ เห็นได้ชัดว่าผลรวมของความน่าจะเป็นของอีเมลว่าเป็นจดหมายขยะไม่ใช่สแปม 1.0
Softmax ขยายความคิดนี้ไปสู่โลกที่หลากหลาย กล่าวคือ Softmax จะกําหนดความน่าจะเป็นแบบทศนิยมให้กับแต่ละชั้นเรียนในโจทย์หลายชั้นเรียน ความน่าจะเป็นทศนิยมต้องรวมกันได้ 1.0 ข้อจํากัดเพิ่มเติมนี้ช่วยให้การฝึกมีความสะดวกรวดเร็วกว่าที่เคย
ตัวอย่างเช่น การกลับไปที่การวิเคราะห์รูปภาพที่คุณเห็นในรูปที่ 1 Softmax อาจให้ความเป็นไปได้ต่อไปนี้ของรูปภาพที่เป็นคลาสที่เจาะจง
ระดับ | ความน่าจะเป็น |
---|---|
apple | 0.001 |
หมี | 0.04 |
ลูกกวาด | 0.008 |
หมา | 0.95 |
ไข่ | 0.001 |
ใช้ Softmax ผ่านเลเยอร์เครือข่ายระบบประสาทก่อนชั้นเอาต์พุต เลเยอร์ Softmax ต้องมีจํานวนโหนดเท่ากับเลเยอร์เอาต์พุต
รูปที่ 2 เลเยอร์ Softmax ภายในโครงข่ายประสาท
ตัวเลือก Softmax
พิจารณา Softmax เวอร์ชันต่อไปนี้
Full Softmax คือ Softmax ที่เราได้พูดคุยกันมา นั่นคือ Softmax จะคํานวณความน่าจะเป็นสําหรับชั้นเรียนทุกชั้นที่เป็นไปได้
การสุ่มตัวอย่างผู้สมัครหมายความว่า Softmax จะคํานวณความน่าจะเป็นของป้ายกํากับเชิงบวกทั้งหมด แต่ใช้ตัวอย่างแบบสุ่มของป้ายกํากับเชิงลบเท่านั้น เช่น หากเราต้องพิจารณาว่าภาพอินพุตเป็นสุนัขบีเกิลหรือเลือดสุนัขหรือไม่ เราไม่ต้องระบุความน่าจะเป็นของตัวอย่างทั้งหมดที่ไม่ใช่สุนัข
Softmax แบบเต็มตัวมีราคาค่อนข้างถูกเมื่อจํานวนชั้นเรียนมีน้อยแต่แพงขึ้นอย่างมากเมื่อจํานวนชั้นเรียนเพิ่มขึ้น การสุ่มตัวอย่างผู้สมัครจะช่วยปรับปรุงประสิทธิภาพในการมีชั้นเรียนจํานวนมากได้
ป้ายกํากับเดียวเทียบกับหลายป้ายกํากับ
Softmax จะถือว่าแต่ละตัวอย่างเป็นสมาชิกในชั้นเรียนเพียงชั้นเดียว แต่ตัวอย่างบางส่วนอาจเป็นสมาชิกในหลายชั้นเรียนพร้อมกันได้ ตัวอย่างเช่น
- คุณไม่สามารถใช้ Softmax ได้
- คุณต้องใช้การเกิดปัญหาซ้ําหลายครั้ง
ตัวอย่างเช่น สมมติว่าตัวอย่างของคุณเป็นรูปภาพที่มีสินค้า 1 รายการ ซึ่งได้แก่ ผลไม้ Softmax สามารถระบุความเป็นไปได้ที่สิ่งนั้นๆ จะเป็นลูกแพร์ ส้ม แอปเปิล และอื่นๆ หากตัวอย่างของคุณเป็นรูปภาพ ที่มีสิ่งของหลากหลายประเภท เช่น ผลไม้หลากหลาย ต้องใช้การถดถอยแบบโลจิสติกส์หลายครั้งแทน