วิธีที่ Google สร้างชื่อสําหรับเอกสารที่มีภาษาหรือตัวเขียนไม่ตรงกัน

วันศุกร์ที่ 3 มิถุนายน 2022

ในสัปดาห์นี้ เราได้เปิดตัวการปรับปรุงอัลกอริทึมที่ระบุเอกสารที่มีการเขียนองค์ประกอบชื่อในภาษาหรือตัวเขียนต่างจากเนื้อหา และเลือกชื่อที่คล้ายกับภาษาและตัวเขียนของเอกสาร ซึ่งขึ้นอยู่กับหลักการทั่วไปที่กําหนดว่าชื่อเอกสารควรเขียนด้วยภาษาหรือตัวเขียนของเนื้อหาหลัก นั่นเป็นเหตุผลหนึ่งที่ทําให้เราอาจใช้องค์ประกอบอื่นนอกเหนือจากองค์ประกอบชื่อ

ชื่อที่มีหลายภาษา

ชื่อที่มีหลายภาษาใช้วลีเดียวกันโดยมีภาษาหรือตัวเขียนต่างกัน 2 ภาษา รูปแบบที่ได้รับความนิยมสูงสุดคือการใส่เวอร์ชันภาษาอังกฤษต่อท้ายข้อความชื่อต้นฉบับ

ชีวประวัติของชัชชาติ สิทธิพันธุ์ - Chadchart Sittipunt Biography in Thai

ในตัวอย่างนี้ ชื่อประกอบด้วย 2 ส่วน (คั่นด้วยเครื่องหมายขีดกลาง) และแสดงเนื้อหาเดียวกันในภาษาต่างๆ (ไทยและอังกฤษ) แม้ว่าชื่อจะเป็นทั้ง 2 ภาษา แต่เอกสารจะเป็นเขียนเป็นภาษาไทยเท่านั้น ระบบของเราตรวจพบข้อมูลที่ไม่ตรงกันดังกล่าวและอาจใช้เฉพาะข้อความบรรทัดแรกในภาษาไทยอย่างเช่น

ชีวประวัติของชัชชาติ สิทธิพันธุ์

ชื่อที่ใช้ตัวเขียนละติน

การทับศัพท์คือการเขียนเนื้อหาจากภาษาหนึ่งเป็นภาษาอื่นโดยใช้ตัวเขียนของภาษาอื่นนั้น ตัวอย่างเช่น ลองดูชื่อหน้าของเพลงที่เขียนในภาษาไทยแต่ทับศัพท์เพื่อใช้อักขระละตินแทนที่จะเป็นภาษาไทย ดังนี้

Lob Mai Dai Chuay Hai Luem

ในกรณีดังกล่าว ระบบของเราจะพยายามหาชื่ออื่นที่ใช้ตัวเขียนหลักของหน้านั้น โดยในกรณีนี้อาจเป็น

ลบไม่ได้ช่วยให้ลืม

สรุป

โดยทั่วไป ระบบของเรามักจะใช้องค์ประกอบชื่อของหน้าเว็บ ในกรณีที่ชื่อมีหลายภาษาหรือเขียนทับศัพท์ ระบบอาจพิจารณาใช้ตัวเลือกที่ตรงกับภาษาหลักของหน้าเว็บ เพราะเหตุนี้ คุณจึงควรตั้งชื่อที่ตรงกับภาษาและ/หรือตัวเขียนของเนื้อหาหลักของหน้า

เรายินดีรับฟังความคิดเห็นเพิ่มเติมในฟอรัมนี้ รวมถึงในชุดข้อความเกี่ยวกับหัวข้อนี้ที่เปิดเป็นภาษาอังกฤษและภาษาญี่ปุ่น