ข้อมูลตัวเลข: การแปลงพหุนาม

ในบางครั้ง เมื่อผู้ปฏิบัติงาน ML มีความรู้ด้านโดเมนที่แนะนำ ว่าตัวแปรหนึ่งเกี่ยวข้องกับกำลังสอง ลูกบาศก์ หรือกำลังอื่นของอีกตัวหนึ่ง ตัวแปรที่มีประโยชน์มาก ฟีเจอร์สังเคราะห์จาก ของฟีเจอร์ตัวเลขที่มีอยู่

พิจารณาการกระจายของจุดข้อมูลต่อไปนี้ โดยที่วงกลมสีชมพูแสดงถึง หนึ่งคลาสหรือหมวดหมู่ (เช่น ชนิดของต้นไม้) และสามเหลี่ยมสีเขียว ชนิดอื่น (หรือชนิดของต้นไม้):

วันที่ รูปที่ 17 y=x^2 การกระจายของจุดข้อมูล โดยมีสามเหลี่ยมด้านล่าง
            เส้นโค้งและวงกลมเหนือเส้นโค้ง
รูปที่ 17 มี 2 ชั้นเรียนที่คั่นด้วยบรรทัดไม่ได้

จะไม่สามารถวาดเส้นตรงที่แยกส่วนทั้งสองออกจากกันได้อย่างชัดเจน แต่จะวาดเส้นโค้งได้ดังนี้

วันที่ รูปที่ 18 รูปภาพเดียวกับรูปที่ 17 เฉพาะครั้งนี้กับ y=x^2
            เพื่อกำหนดขอบเขตที่ชัดเจนระหว่างสามเหลี่ยมกับ
            แวดวง
รูปที่ 18 คั่นชั้นเรียนด้วย y = x2

ตามที่ได้กล่าวถึงใน โมดูลการถดถอยเชิงเส้น รูปแบบเชิงเส้นที่มีคุณลักษณะหนึ่ง $x_1$ อธิบายด้วยสมการเชิงเส้น

$$y = b + w_1x_1$$

เราจะจัดการฟีเจอร์เพิ่มเติมด้วยการเพิ่มข้อกำหนด \(w_2x_2\) \(w_3x_3\)ฯลฯ

การไล่ระดับสีจะค้นหาเมธอด weight $w_1$ (หรือน้ำหนัก \(w_1\), \(w_2\), \(w_3\)ในกรณีที่มีฟีเจอร์เพิ่มเติม) ที่ลด โมเดลก็หายไป แต่ไม่สามารถคั่นจุดข้อมูลที่แสดงด้วยเส้นได้ ฉันต้องทำอย่างไร

สามารถใช้ทั้งสมการเชิงเส้นและอนุญาตให้ใช้ความเป็นเชิงเส้นได้ โดยกำหนดคำศัพท์ใหม่ \(x_2\)ซึ่งจะเป็น \(x_1\) สี่เหลี่ยมจัตุรัสดังนี้

$$x_2 = x_1^2$$

คุณลักษณะสังเคราะห์นี้เรียกว่าการแปลงพหุนามจะมีการดำเนินการเช่นเดียวกับ ฟีเจอร์อื่นๆ สูตรเชิงเส้นก่อนหน้าจะกลายเป็น

$$y = b + w_1x_1 + w_2x_2$$

ซึ่งยังสามารถถือว่าเป็น การถดถอยเชิงเส้น และน้ำหนักที่ระบุด้วยค่าการไล่ระดับสีตามปกติ ที่มีพจน์ยกกำลัง 2 ซ่อนอยู่ การแปลงพหุนาม ไม่มีการเปลี่ยนแปลง วิธีฝึกของโมเดลเชิงเส้น การเพิ่มการแปลงพหุนามช่วยให้ เพื่อแยกจุดข้อมูลโดยใช้เส้นโค้งของ รูปแบบ $y = b + w_1x + w_2x^2$

ปกติแล้ว คุณลักษณะที่เป็นตัวเลขที่น่าสนใจจะคูณกันด้วยตัวมันเอง กล่าวคือ ยกกําลัง บางครั้งผู้ปฏิบัติงานด้าน ML สามารถคาดเดาได้อย่างชาญฉลาด เกี่ยวกับเลขชี้กำลังที่เหมาะสม ตัวอย่างเช่น ความสัมพันธ์หลายๆ แบบใน จะเกี่ยวข้องกับคำในรูปยกกำลัง 2 ซึ่งรวมถึงความเร่งที่เกิดจากแรงโน้มถ่วง การลดทอนแสงหรือเสียงเมื่ออยู่ไกล และพลังงานศักย์ยืดหยุ่น

แนวคิดที่เกี่ยวข้องใน ข้อมูลเชิงหมวดหมู่คือ feature Cross และอื่นๆ มักจะสังเคราะห์คุณลักษณะที่แตกต่างกัน 2 อย่าง