ข้อมูลเชิงหมวดหมู่มี ชุดที่เฉพาะเจาะจงของค่าที่เป็นไปได้ เช่น
- สัตว์สายพันธุ์ต่างๆ ในอุทยานแห่งชาติ
- ชื่อถนนในเมืองใดเมืองหนึ่ง
- อีเมลเป็นสแปมหรือไม่
- ทาสีภายนอกบ้าน
- ตัวเลข Binding ซึ่งมีคำอธิบายในส่วนการทำงานกับตัวเลข โมดูลข้อมูล
ตัวเลขอาจเป็นข้อมูลเชิงหมวดหมู่ก็ได้
ข้อมูลตัวเลขจริง จะเพิ่มขึ้นอย่างมีนัยสำคัญ ตัวอย่างเช่น ลองพิจารณา โมเดลที่คาดการณ์มูลค่าของบ้านโดยพิจารณาจากพื้นที่ โปรดทราบว่าโดยทั่วไป โมเดลที่มีประโยชน์ในการประเมินราคาบ้านจะอาศัย ฟีเจอร์หลายร้อยรายการ หรือถ้าอย่างอื่นทั้งหมดเหมือนกัน บ้านที่มีสี่เหลี่ยมขนาด 200 ช่อง เมตรควรมีค่ามากกว่าบ้านที่เหมือนกันขนาด 100 ตารางเท่าๆ กันโดยประมาณ เมตร
บ่อยครั้ง คุณควรแสดงคุณลักษณะที่มีค่าจำนวนเต็มเป็น ข้อมูลเชิงหมวดหมู่แทนข้อมูลตัวเลข เช่น ลองพิจารณาที่อยู่ทางไปรษณีย์ โค้ดที่ค่าเป็นจำนวนเต็ม หากคุณเป็นตัวแทน แสดงเป็นตัวเลขมากกว่าเชิงหมวดหมู่ คุณจะถามโมเดลว่า เพื่อหาความสัมพันธ์ที่เป็นตัวเลข ระหว่างรหัสไปรษณีย์ต่างๆ กล่าวคือ คุณกำลังบอกให้โมเดล ถือว่ารหัสไปรษณีย์ 20004 เป็นสัญญาณที่มีขนาดใหญ่ 2 เท่า (หรือครึ่งหนึ่ง) เมื่อเทียบกับรหัสไปรษณีย์ 10002 การนำเสนอรหัสไปรษณีย์เป็นข้อมูลเชิงหมวดหมู่ช่วยให้โมเดล ระบุน้ำหนักของรหัสไปรษณีย์แต่ละรหัสแยกกัน
การเข้ารหัส
การเข้ารหัส หมายถึง การแปลงข้อมูลเชิงกลุ่มหรือข้อมูลอื่นๆ เป็นเวกเตอร์ของตัวเลข
ที่โมเดลจะฝึกได้ Conversion นี้เป็นสิ่งที่จำเป็นเนื่องจากโมเดลสามารถ
ฝึกกับค่าจุดลอยตัวเท่านั้น โมเดลจะไม่สามารถฝึกกับสตริง เช่น
"dog"
หรือ "maple"
โมดูลนี้จะอธิบายความแตกต่าง
วิธีการเข้ารหัสสำหรับข้อมูลเชิงหมวดหมู่