معلومات عن ملف robots.txt

يحدّد ملف robots.txt عناوين URL التي يمكن لبرامج الزحف التابعة لمحركات البحث الوصول إليها على موقعك الإلكتروني. وغالبًا ما تُستخدم هذه المعلومات لتجنّب تحميل عبء زائد على موقعك الإلكتروني من خلال طلبات الزحف ،وهي ليست آلية لإخفاء صفحة ويب من نتائج البحث على Google. أمّا إذا أردت إخفاء صفحة ويب، فعليك حظر الفهرسة باستخدام علامة noindex أو حماية الصفحة بكلمة مرور.

ما الغرض من استخدام ملف robots.txt؟

يتم استخدام ملف robots.txt بشكل أساسي لإدارة عدد زيارات الزاحف إلى موقعك الإلكتروني، ويتم استخدامه عادةً لإخفاء ملف من نتائج البحث على Google، حسب نوع الملف:

تأثير robots.txt في مختلف أنواع الملفات
صفحة ويب

يمكنك استخدام ملف robots.txt لصفحات الويب (بتنسيق HTML أو PDF أو تنسيق آخر ليس تنسيق وسائط ويمكن أن يقرأه محرّك البحث Google) لإدارة حركة الزحف إذا كنت تعتقد أنّه سيتم تحميل عبء زائد على الخادم من خلال الطلبات الواردة من زاحف Google، أو لتجنّب الزحف إلى صفحات غير مهمة أو متشابهة على موقعك الإلكتروني.

إذا تم حظر صفحة الويب باستخدام ملف robots.txt، قد يستمر عنوان URL في الظهور في نتائج البحث، ولكن نتيجة البحث لن تتضمّن وصفًا. وسيتم استبعاد ملفات الصور والفيديو وملفات PDF والملفات الأخرى التي ليست بتنسيق HTML. إذا ظهرت لك نتيجة البحث هذه لصفحتك وأردت إصلاحها، عليك إزالة إدخال robots.txt الذي يحظر الصفحة. وإذا أردت إخفاء الصفحة تمامًا من البحث، عليك استخدام طريقة أخرى.

ملف وسائط

يمكنك استخدام ملف robots.txt لإدارة حركة الزحف بالإضافة إلى منع ظهور ملفات الصور والفيديو والملفات الصوتية في نتائج "بحث Google". ولن يمنع ذلك الصفحات الأخرى أو المستخدمين الآخرين من إضافة روابط تؤدي إلى ملف الصور/الفيديو/الصوت الخاص بك.

ملف موارد يمكنك استخدام ملف robots.txt لحظر ملفات الموارد، مثل الصور أو النصوص البرمجية أو ملفات الأنماط غير المهمة، إذا كنت تعتقد أنّ الصفحات التي يتم تحميلها بدون هذه الموارد لن تتأثر كثيرًا بعدم ظهور هذه الملفات فيها. ويجب عدم حظر هذه الموارد إذا كان عدم توفّرها يجعل من الصعب على زاحف Google فهم محتوى الصفحة، وإلا لن يتمكن محرك البحث Google من إتمام عملية تحليل صفحاتك التي تعتمد على هذه الموارد على نحو جيد.

معرفة حدود طريقة الحظر باستخدام ملف robots.txt

قبل إنشاء أو تعديل ملف robots.txt، عليك معرفة حدود طريقة حظر عناوين URL هذه. واستنادًا إلى أهدافك وحالتك، قد تحتاج إلى استخدام آليات أخرى لضمان عدم إمكانية العثور على عناوين URL الخاصة بموقعك الإلكتروني على الويب.

  • قد لا تتوافق توجيهات ملف robots.txt مع بعض محرّكات البحث
    لا يمكن للتعليمات في ملفات robots.txt فرض سلوك محدّد على الزاحف إلى موقعك الإلكتروني، لأنّ الزاحف هو من يتّخذ قرار اتّباع هذه التعليمات أم لا. وعلمًا أن Googlebot وبرامج زحف الويب الأخرى الحسنة السمعة تتّبع التعليمات الواردة في ملف robots.txt، قد لا تمتثل برامج الزحف الأخرى لها. وبالتالي، إذا أردت حماية المعلومات من برامج زحف الويب، ننصحك باستخدام طرق حظر أخرى مثل حماية الملفات الخاصة على الخادم بكلمة مرور.
  • تفسّر برامج الزحف المختلفة البنية بطرق مختلفة
    علمًا أنّ برامج زحف الويب الحسنة السمعة تتّبع التوجيهات الواردة في ملف robots.txt، قد يفسّر كل زاحف التوجيهات بشكل مختلف. عليك معرفة البنية الصحيحة للتعامل مع مختلف برامج زحف الويب، لأن بعض هذه البرامج قد لا يتمكن من فهم تعليمات معيّنة.
  • سيظل بالإمكان فهرسة صفحة تم حظرها باستخدام ملف robot.txt إذا تمت إضافة رابط يؤدي إليها في مواقع إلكترونية أخرى
    علمًا أنّ محرّك البحث Google لا يزحف إلى المحتوى الذي تم حظره باستخدام ملف robots.txt أو يفهرسه، قد نعثر على عنوان URL غير مسموح بالوصول إليه ونفهرسه إذا تمت إضافة روابط تؤدي إليه في أماكن أخرى على الويب. ونتيجة لذلك، يمكن أن يستمر ظهور عنوان URL وربما المعلومات الأخرى المتاحة بشكل علني، مثل نص الرابط في الروابط المؤدية إلى الصفحة، وذلك في نتائج "بحث Google". لمنع ظهور عنوان URL في نتائج "بحث Google" على نحو سليم، يجب حماية الملفات على الخادم باستخدام كلمة مرور، أو استخدام العلامة الوصفية أو عنوان الاستجابة noindex، أو إزالة الصفحة تمامًا.

إنشاء ملف robots.txt

إذا تبيّن لك أنك بحاجة إلى ملف robots.txt، تعرَّف على كيفية إنشاء ملف robots.txt.