‫Robots Refresher: الدقّة في التحكّم على مستوى الصفحة

الجمعة 14 مارس 2025

يتيح ملف robots.txt لمالكي المواقع الإلكترونية أن يحدّدوا بطريقة مبسّطة أقسام الموقع التي يريدون السماح لبرامج الزحف بالوصول إليها. لمساعدة مالكي الموقع الإلكتروني في أن يوضّحوا بشكل أفضل الإجراءات التي يهمّهم أن تنفّذها محركات البحث وبرامج الزحف في ما يتعلّق بصفحاتهم، ابتكر المنتدى المعنيّ بتطوير معايير الويب علامات meta لبرامج الروبوت في العام 1996 بعد أشهر قليلة من اقتراح استخدام علامات meta في HTML (أي قبل تأسيس شركة Google). في وقت لاحق، تمت إضافة عناوين استجابة HTTP التي تتضمن علامة X-Robots-Tag. يتم إرسال هذه التعليمات مع عنوان URL، لذا فإنّ برامج الزحف تأخذها في الاعتبار فقط إذا لم يتم منع الزحف إلى عنوان URL باستخدام ملف robots.txt. وهي تشكل معًا "بروتوكول استبعاد برامج الروبوت" (REP).

نظرة على علامات meta لبرامج الروبوت

العلامات (أو العناصر) الوصفية هي طريقة لتضمين بيانات وصفية يمكن للآلة قراءتها. وتشكل علامات meta لبرامج الروبوت "نوعًا" واحدًا من علامات meta، وتسري على برامج الزحف، بما في ذلك برامج الزحف في محرّكات البحث. وهي تحدد ما يلي: هل الزحف محظور إلى المحتوى؟ هل يجب عدم تتبُّع الروابط على الصفحة عند الزحف؟ يمكن توفير هذه المعلومات بسهولة على الصفحة مباشرةً باستخدام علامات meta لبرامج الروبوت.

"بروتوكول استبعاد برامج الروبوت" متوافق مع أي عنوان URL

لإتاحة مستوى التحكم نفسه في المحتوى الذي ليس بتنسيق HTML، تم إنشاء عناوين استجابة HTTP التي تتضمن علامة "X-Robots-Tag". تشكّل عناوين HTTP هذه أيضًا جزءًا من "بروتوكول استبعاد برامج الروبوت". وتتيح هذه العناوين استخدام القيَم نفسها كعلامة meta لبرامج الروبوت، ويمكن إضافتها إلى أي جزء من المحتوى معروض على الإنترنت. وبالإضافة إلى HTML، تتيح Google استخدام هذه العناوين لأنواع المحتوى الأخرى، مثل ملفات PDF والمستندات والصور. ومعظم هذه التنسيقات للملفات لا تشمل آلية مكافئة لعلامات meta، لذا فإنّ عنوان استجابة HTTP يكون مفيدًا في هذه الحالة.

بدء استخدام عناوين الاستجابة وعلامات meta لبرامج الروبوت

تتميز البنية ببساطتها وقابلية توسيعها. ويتم تنفيذ القواعد بشكل عام إما من قِبل مطوِّر على الويب، أو من خلال نظام لإدارة المحتوى (CMS) حيث قد تتوفّر لمالكي المواقع الإلكترونية مربعات اختيار أو قوائم منسدلة لتحديد تفضيلاتهم. قد تكون عناصر التحكّم هذه موجّهة لبرنامج زحف محدَّد، مثل Googlebot. وفي حال عدم تحديد اسم برنامج زحف، تكون موجّهة لجميع برامج الزحف التي تتيح القيم التي تم اختيارها.

على سبيل المثال، تطلب القواعد التالية من جميع برامج الزحف عدم فهرسة الصفحة المرتبطة:

  • في شكل علامة HTML meta على صفحة ويب:
    <meta name="robots" content="noindex">

    قد يكون الاطّلاع على عناوين الاستجابة وعلامات meta الحالية في الصفحة أكثر تعقيدًا ويتطلّب فحصًا مباشرًا لمحتوى الصفحة أو العناوين. يمكنك الاطّلاع على علامات HTML meta المدرَجة على أي صفحة إما من خلال التحقّق من مصدر الصفحة في المتصفّح أو باستخدام أدوات المطوّرين في Chrome لفحص الصفحة.

  • في شكل عنوان استجابة HTTP:
    X-Robots-Tag: noindex

    يمكنك التحقّق من عناوين استجابة HTTP لعناوين URL فردية باستخدام أدوات المطوّرين في Chrome ضمن لوحة الشبكة.

أمثلة إضافية على التوجيهات التي يمكنك تحديدها:

يجب عدم عرض مقتطف لهذه الصفحة أو لهذا المستند.

في عنوان HTTP:
X-Robots-Tag: nosnippet
أو في HTML:
<meta name="robots" content="nosnippet">

يجب عدم فهرسة هذه الصفحة في ExampleBot-News، وليس هناك توجيه خاص ببرامج الزحف الأخرى.

تحدّد عناصر التحكّم هذه برنامج زحف واحدًا بشكل صريح.

X-Robots-Tag: examplebot-news: noindex
أو
<meta name="examplebot-news" content="noindex">

يجب ألّا يعرض ExampleBot مقتطفًا، وبالإضافة إلى ذلك، يجب ألّا تتّبع جميع برامج الزحف الأخرى الروابط على هذه الصفحة.

يُرجى الملاحظة أنّ التوجيهات الصالحة الأكثر تقييدًا هي التي تسري، لذا بالنسبة إلى ExampleBot، سيكون التوجيه مدمجًا على شكل "nosnippet, nofollow".

X-Robots-Tag: examplebot: nosnippet
X-Robots-Tag: nofollow
أو
<meta name="examplebot" content="nosnippet">
<meta name="robots" content="nofollow">

طريقة اختيار آلية &quot;بروتوكول استبعاد برامج الروبوت&quot;

كيف يمكن اختيار الآلية المناسبة للاستخدام؟ يتشابه ملف robots.txt مع عناصر التحكّم على مستوى الصفحة من الناحية الأساسية، ولكن لا يمكن استبدال إحدى هاتين الآليتَين بالأخرى بشكل كامل. في بعض الأحيان، قد يكون أحد الإجراءات ممكنًا باستخدام إحدى الآليتين حصرًا، على سبيل المثال، إيقاف عملية الزحف (في صفحات نتائج البحث اللامتناهية مثلاً، يمكن استخدام robots.txt)، أو التحكّم في خادم بروتوكول نقل الملفات (يمكن استخدام robots.txt)، أو عدم عرض مقتطف للصفحة (يمكن استخدام عناصر التحكّم على مستوى الصفحة فقط). إذا لم تكُن بحاجة إلى التعامل بشكل مختلف مع حظر الزحف وحظر الفهرسة، يمكنك استخدام ملف robots.txt لعمليات التحكّم الأوسع نطاقًا (مثل حظر الزحف إلى أجزاء كبيرة من موقعك الإلكتروني) وعناصر التحكّم على مستوى الصفحة لحظر الزحف إلى صفحات فردية.

&quot;بروتوكول استبعاد برامج الروبوت&quot; هو معيار فعّال وشائع الاستخدام

إنّ جميع عناصر التحكّم هذه قابلة للتوسيع بطبيعتها. وعلى مدار السنوات، تعاون مالكو المواقع الإلكترونية مع محركات البحث ومشغّلي برامج الزحف لتطوير هذه العناصر. في البداية، تمت إضافة عدد قليل من القيم، من ضمنها noindex وnofollow، ولاحقًا، تم اعتماد المزيد من القيم، مثل nosnippet وnoarchive وmax-snippet:. وفي بعض الأحيان، تم إيقاف بعض القيم نهائيًا، كما هي الحال مع noodp التي كانت تستخدم مقتطفات من مشروع الدليل المفتوح / DMOZ قبل إغلاق هذا الدليل. تتيح Google لمالكي المواقع الإلكترونية استخدام عدد كبير من القيم، كما يتيح مشغّلو برامج الزحف الأخرى الكبرى استخدام مقدار مماثل.

ضمن إطار &quot;بروتوكول استبعاد برامج الروبوت&quot;، يمكن لمالكي المواقع الإلكترونية تحديد البيانات التي سيتم الزحف إليها والتحكّم في كيفية استخدام محركات البحث لها. ويمكن إجراء ذلك على نطاق واسع للأجزاء الكبيرة من المواقع الإلكترونية أو على مستوى دقيق جدًا للصفحات الفردية أو حتى الصور ضمن الصفحات. عناصر التحكّم هذه معروفة ومتاحة في جميع أنظمة إدارة المحتوى الشائعة الاستخدام، كما أنّها متوافقة مع معظم مشغّلي برامج الزحف التجاريين ومستخدمة من قِبل مليارات المضيفين على الإنترنت في وقتنا الحالي.


بإمكانك الاطّلاع على الحلقات المتبقية من سلسلة Robots Refresher: