الجمعة 7 مارس 2025
تشكّل ملفات robots.txt أداةً فعّالة لمالكي المواقع الإلكترونية منذ وقت طويل، فهي تُستخدم بشكل نشط منذ أكثر من 30 عامًا، كما أنّها متوافقة مع معظم مشغّلي برامج الزحف (مثل الأدوات المخصّصة لمالكي المواقع الإلكترونية، والخدمات، ومحركات البحث). في هذا الإصدار ضمن سلسلة Robots Refresher، سنتعرّف عن قرب على المرونة التي توفّرها لك ملفات robots.txt لإطلاع برامج الروبوت على الإجراءات المطلوب اتخّاذها (أو عدم اتّخاذها) على موقعك الإلكتروني.
كيفية بدء استخدام ملفات robots.txt
طريقة عمل هذه الملفات بسيطة: أنشِئ ملفًا نصيًا باسم "robots.txt" وحمِّله إلى موقعك الإلكتروني، وإذا كنت تستخدم نظامًا لإدارة المحتوى (CMS)، من المرجّح أن تكون هذه العملية أسهل. يمكنك ترك ملف robots.txt فارغًا (أو عدم تحميل ملف من الأساس) إذا كنت تريد السماح بالزحف إلى جميع أقسام موقعك الإلكتروني، أو يمكنك إضافة قواعد لإدارة الزحف. على سبيل المثال، إذا أردت أن تطلب من جميع برامج التتبُّع (المعروفة باسم برامج الزحف والروبوتات وبرامج العنكبوت) عدم الانتقال إلى صفحة "الإضافة إلى سلة التسوق"، يمكنك كتابة النص التالي في ملف robots.txt:
user-agent: * disallow: /cart
إجراءات أكثر تحديدًا يمكن تنفيذها باستخدام ملف robots.txt
ملف robots.txt هو الطريقة الأكثر فعالية لإطلاع برامج الروبوت المختلفة على الإجراءات التي يجب تنفيذها أو عدم تنفيذها على موقعك الإلكتروني. وقد يكون هذا الملف عبارة عن بضعة أسطر فقط، أو قد يكون أكثر تعقيدًا ويتضمّن قواعد مفصَّلة أكثر تستهدف أنماطًا محدَّدة من عناوين URL. يمكنك استخدام ملف robots.txt لحل مشاكل فنية (مثل التقسيم غير الضروري على صفحات) أو لأسباب شخصية أو تحريرية (مثلاً إذا أردت ألّا يتم الزحف إلى أقسام معيّنة). على سبيل المثال، يمكنك إجراء ما يلي:
إبلاغ برامج تتبُّع مختلفة (ولكن ليس كلها) بالقاعدة نفسها
تُبلغ هذه المجموعة كلاً من |
user-agent: examplebot user-agent: otherbot disallow: /search |
إبلاغ أحد برامج التتبُّع بتجنُّب المسارات التي تتضمّن مقطعًا نصًا معيّنًا
على سبيل المثال، يمكنك أن تطلب من |
user-agent: documentsbot disallow: *.pdf |
السماح لبرنامج تتبُّع بالزحف إلى مدونتك ولكن ليس إلى المسودات |
user-agent: documentsbot allow: /blog/ disallow: /blog/drafts/ |
حظر أحد برامج الزحف من الوصول إلى أجزاء محدّدة على موقعك الإلكتروني مع السماح لبرامج الزحف الأخرى بالوصول إلى الموقع بأكمله
يؤدي ملف robots.txt هذا إلى حظر |
user-agent: * allow: / user-agent: aicorp-trainer-bot disallow: / allow: /$ |
إضافة تعليق للاطّلاع عليه في المستقبل
يمكنك كتابة العلامة |
# I don't want bots in my highschool photos user-agent: * disallow: /photos/highschool/ |
لمعرفة المزيد، يمكنك الاطّلاع على قائمة القواعد المفيدة التي يمكن إضافتها إلى ملف robots.txt.
طريقة إجراء التغييرات على ملف robots.txt (من الناحية العملية)
يعمل بروتوكول استبعاد برامج الروبوت (REP) من خلال جمع القواعد معًا ("allow" أو "disallow") وتحديد برامج الروبوت التي تنطبق عليها هذه القواعد. ولست بحاجة إلى إلمام بالبرمجة أو خبرة باستخدام الأدوات، بل كل ما عليك فعله هو إضافة هذه القواعد إلى ملف نصي وتحميله إلى موقعك الإلكتروني.
في معظم المواقع الإلكترونية، تكون هذه العملية أكثر بساطة. إذا كنت تستخدم نظامًا لإدارة المحتوى، فإنّه يتضمّن عادةً ميزة مدمجة تتيح لك تعديل ملف robots.txt. على سبيل المثال، تسمح لك بعض أنظمة إدارة المحتوى بتعديل ملف robots.txt باستخدام مربعات اختيار أو نموذج بسيط، كما يشمل الكثير منها مكوّنات إضافية تساعدك في إعداد القواعد لملف robots.txt وكتابتها. للاطّلاع على الإمكانات المتاحة في نظام إدارة المحتوى الذي تستخدمه، ما عليك سوى إجراء بحث عن اسم النظام + "تعديل ملف robots.txt".
بعد إعداد الملف، يمكنك اختباره للتأكّد من أنّه يعمل كما هو مطلوب. أنشأ منتدى الويب العديد من أدوات الاختبار للمساعدة في ذلك، مثل أداة TametheBots لاختبار ملفات robots.txt وهذا المحلل لملفات robots.txt، وكلاهما يستخدمان المكتبة المفتوحة المصدر لمحلل ملفات robots.txt.
إذا كان لديك أي أسئلة حول ملفات robots.txt، يمكنك التواصل معنا على LinkedIn أو الدردشة مع خبراء يشاركونك الاهتمامات نفسها في منتدياتنا.