الجمعة 14 مارس 2025
يتيح ملف robots.txt لمالكي المواقع الإلكترونية أن يحدّدوا بطريقة مبسّطة أقسام الموقع التي يريدون السماح لبرامج الزحف بالوصول إليها.
لمساعدة مالكي الموقع الإلكتروني في أن يوضّحوا بشكل أفضل الإجراءات التي يهمّهم أن تنفّذها محركات البحث وبرامج الزحف في ما يتعلّق بصفحاتهم، ابتكر المنتدى المعنيّ بتطوير معايير الويب علامات meta
لبرامج الروبوت في العام 1996 بعد أشهر قليلة من اقتراح استخدام علامات meta
في HTML (أي قبل تأسيس شركة Google). في وقت لاحق، تمت إضافة عناوين استجابة HTTP التي تتضمن علامة X-Robots-Tag
.
يتم إرسال هذه التعليمات مع عنوان URL، لذا فإنّ برامج الزحف تأخذها في الاعتبار فقط إذا لم يتم منع الزحف إلى عنوان URL باستخدام ملف robots.txt. وهي تشكل معًا "بروتوكول استبعاد برامج الروبوت" (REP).
نظرة على علامات meta
لبرامج الروبوت
العلامات (أو العناصر) الوصفية هي طريقة لتضمين بيانات وصفية يمكن للآلة قراءتها.
وتشكل علامات meta
لبرامج الروبوت "نوعًا" واحدًا من علامات meta
، وتسري على برامج الزحف، بما في ذلك برامج الزحف في محرّكات البحث. وهي تحدد ما يلي: هل الزحف محظور إلى المحتوى؟ هل يجب عدم تتبُّع الروابط على الصفحة عند الزحف؟ يمكن توفير هذه المعلومات بسهولة على الصفحة مباشرةً باستخدام علامات meta
لبرامج الروبوت.
"بروتوكول استبعاد برامج الروبوت" متوافق مع أي عنوان URL
لإتاحة مستوى التحكم نفسه في المحتوى الذي ليس بتنسيق HTML، تم إنشاء عناوين استجابة HTTP التي تتضمن علامة "X-Robots-Tag
". تشكّل عناوين HTTP هذه أيضًا جزءًا من "بروتوكول استبعاد برامج الروبوت".
وتتيح هذه العناوين استخدام القيَم نفسها كعلامة meta
لبرامج الروبوت، ويمكن إضافتها إلى أي جزء من المحتوى معروض على الإنترنت.
وبالإضافة إلى HTML، تتيح Google استخدام هذه العناوين لأنواع المحتوى الأخرى، مثل ملفات PDF والمستندات والصور.
ومعظم هذه التنسيقات للملفات لا تشمل آلية مكافئة لعلامات meta
، لذا فإنّ عنوان استجابة HTTP يكون مفيدًا في هذه الحالة.
بدء استخدام عناوين الاستجابة وعلامات meta
لبرامج الروبوت
تتميز البنية ببساطتها وقابلية توسيعها. ويتم تنفيذ القواعد بشكل عام إما من قِبل مطوِّر على الويب، أو من خلال نظام لإدارة المحتوى (CMS) حيث قد تتوفّر لمالكي المواقع الإلكترونية مربعات اختيار أو قوائم منسدلة لتحديد تفضيلاتهم. قد تكون عناصر التحكّم هذه موجّهة لبرنامج زحف محدَّد، مثل Googlebot. وفي حال عدم تحديد اسم برنامج زحف، تكون موجّهة لجميع برامج الزحف التي تتيح القيم التي تم اختيارها.
على سبيل المثال، تطلب القواعد التالية من جميع برامج الزحف عدم فهرسة الصفحة المرتبطة:
- في شكل علامة HTML
meta
على صفحة ويب:<meta name="robots" content="noindex">
قد يكون الاطّلاع على عناوين الاستجابة وعلامات
meta
الحالية في الصفحة أكثر تعقيدًا ويتطلّب فحصًا مباشرًا لمحتوى الصفحة أو العناوين. يمكنك الاطّلاع على علامات HTMLmeta
المدرَجة على أي صفحة إما من خلال التحقّق من مصدر الصفحة في المتصفّح أو باستخدام أدوات المطوّرين في Chrome لفحص الصفحة.
- في شكل عنوان استجابة HTTP:
X-Robots-Tag: noindex
يمكنك التحقّق من عناوين استجابة HTTP لعناوين URL فردية باستخدام أدوات المطوّرين في Chrome ضمن لوحة الشبكة.
أمثلة إضافية على التوجيهات التي يمكنك تحديدها:
يجب عدم عرض مقتطف لهذه الصفحة أو لهذا المستند. |
في عنوان HTTP:
X-Robots-Tag: nosnippet <meta name="robots" content="nosnippet"> |
يجب عدم فهرسة هذه الصفحة في تحدّد عناصر التحكّم هذه برنامج زحف واحدًا بشكل صريح. |
X-Robots-Tag: examplebot-news: noindex <meta name="examplebot-news" content="noindex"> |
يجب ألّا يعرض يُرجى الملاحظة أنّ التوجيهات الصالحة الأكثر تقييدًا هي التي تسري، لذا بالنسبة إلى |
X-Robots-Tag: examplebot: nosnippet X-Robots-Tag: nofollow <meta name="examplebot" content="nosnippet"> <meta name="robots" content="nofollow"> |
طريقة اختيار آلية "بروتوكول استبعاد برامج الروبوت"
كيف يمكن اختيار الآلية المناسبة للاستخدام؟ يتشابه ملف robots.txt مع عناصر التحكّم على مستوى الصفحة من الناحية الأساسية، ولكن لا يمكن استبدال إحدى هاتين الآليتَين بالأخرى بشكل كامل. في بعض الأحيان، قد يكون أحد الإجراءات ممكنًا باستخدام إحدى الآليتين حصرًا، على سبيل المثال، إيقاف عملية الزحف (في صفحات نتائج البحث اللامتناهية مثلاً، يمكن استخدام robots.txt)، أو التحكّم في خادم بروتوكول نقل الملفات (يمكن استخدام robots.txt)، أو عدم عرض مقتطف للصفحة (يمكن استخدام عناصر التحكّم على مستوى الصفحة فقط). إذا لم تكُن بحاجة إلى التعامل بشكل مختلف مع حظر الزحف وحظر الفهرسة، يمكنك استخدام ملف robots.txt لعمليات التحكّم الأوسع نطاقًا (مثل حظر الزحف إلى أجزاء كبيرة من موقعك الإلكتروني) وعناصر التحكّم على مستوى الصفحة لحظر الزحف إلى صفحات فردية.
"بروتوكول استبعاد برامج الروبوت" هو معيار فعّال وشائع الاستخدام
إنّ جميع عناصر التحكّم هذه قابلة للتوسيع بطبيعتها. وعلى مدار السنوات، تعاون مالكو المواقع الإلكترونية مع محركات البحث ومشغّلي برامج الزحف لتطوير هذه العناصر.
في البداية، تمت إضافة عدد قليل من القيم، من ضمنها noindex
وnofollow
، ولاحقًا، تم اعتماد المزيد من القيم، مثل nosnippet
وnoarchive
وmax-snippet:
.
وفي بعض الأحيان، تم إيقاف بعض القيم نهائيًا، كما هي الحال مع noodp
التي كانت تستخدم مقتطفات من مشروع الدليل المفتوح / DMOZ قبل إغلاق هذا الدليل.
تتيح Google لمالكي المواقع الإلكترونية استخدام عدد كبير من القيم، كما يتيح مشغّلو برامج الزحف الأخرى الكبرى استخدام مقدار مماثل.
ضمن إطار "بروتوكول استبعاد برامج الروبوت"، يمكن لمالكي المواقع الإلكترونية تحديد البيانات التي سيتم الزحف إليها والتحكّم في كيفية استخدام محركات البحث لها. ويمكن إجراء ذلك على نطاق واسع للأجزاء الكبيرة من المواقع الإلكترونية أو على مستوى دقيق جدًا للصفحات الفردية أو حتى الصور ضمن الصفحات. عناصر التحكّم هذه معروفة ومتاحة في جميع أنظمة إدارة المحتوى الشائعة الاستخدام، كما أنّها متوافقة مع معظم مشغّلي برامج الزحف التجاريين ومستخدمة من قِبل مليارات المضيفين على الإنترنت في وقتنا الحالي.