مواصفات العلامة الوصفية لبرامج الروبوت ورأس X-Robots-Tag HTTP

ملخّص

يوضح هذا المستند بالتفصيل كيفية استخدام إعدادات الفهرسة على مستوى الصفحة للتحكم في كيفية توفير Google للمحتوى من خلال نتائج البحث. ويمكنك تحديد هذه الإعدادات عن طريق تضمين علامة وصفية على صفحات ‎(X)HTML أو في رأس HTTP.

استخدام علامة وصفية لبرامج الروبوت

تسمح لك العلامة الوصفية لبرامج الروبوت باستخدام طريقة دقيقة ومحددة للصفحة للتحكم في طريقة فهرسة صفحة فردية وعرضها للمستخدمين في نتائج البحث. ضعْ العلامة الوصفية لبرامج الروبوت في القسم <head> لصفحة محدّدة، على هذا النحو:

<!DOCTYPE html>
<html><head>
<meta name="robots" content="noindex" />
(…)
</head>
<body>(…)</body>
</html>

توجِّه العلامة الوصفية لبرامج الروبوت في المثال المذكور أعلاه معظم محركات البحث بعدم عرض الصفحة في نتائج البحث. وتحدّد قيمة السمة name لبرامج (robots) أن الأمر سيطبّق على جميع برامج الزحف. لتوجيه زاحف معين، استبدل قيمة robots للسمة name باسم الزاحف الذي تريد توجيهه. برامج الزحف الخاصة معروفة أيضًا كوكلاء مستخدم (يستخدم الزاحف وكيل المستخدم التابع له لطلب صفحة ما). ويحمل زاحف الويب القياسي من Google اسم وكيل المستخدم Googlebot. لمنع Googlebot فقط من الزحف إلى صفحتك، حدِّث العلامة على النحو التالي:

<meta name="googlebot" content="noindex" />

توجِّه هذه العلامة الآن محرك البحث Google (ولكن ليس محركات البحث الأخرى) بعدم عرض هذه الصفحة في نتائج بحث الويب. وتُعدّ كل من السمتَين name وcontent غير حساسة لحالة الأحرف.

يمكن أن يكون لمحركات البحث برامج زحف مختلفة بخصائص وأغراض مختلفة. راجِع القائمة الكاملة لبرامج الزحف من Google. على سبيل المثال، لعرض صفحة ما في نتائج بحث الويب من Google، ولكن ليس في "أخبار Google"، استخدِم العلامة الوصفية التالية:

<meta name="googlebot-news" content="noindex" />

إذا كنت تحتاج إلى تحديد عدة برامج زحف بشكل فردي، يمكنك استخدام علامات وصفية متعددة لبرامج الروبوت.

<meta name="googlebot" content="noindex">
<meta name="googlebot-news" content="nosnippet">

إذا واجهت برامج الزحف أوامر متداخلة، سنستخدم الأمر الأكثر تحديدًا منها.

استخدام رأس X-Robots-Tag HTTP

يمكن استخدام X-Robots-Tag كعنصر في استجابة رأس HTTP لعنوان URL محدّد. ويمكن أيضًا تحديد أي أمر يمكن استخدامه في العلامة الوصفية لبرامج الروبوت باعتباره X-Robots-Tag. وهذا مثال لاستجابة HTTP باستخدام X-Robots-Tag التي توجِّه برامج الزحف بعدم فهرسة إحدى الصفحات:

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: noindex
(…)

يمكن دمج رؤوس X-Robots-Tag المتعددة في استجابة HTTP، أو يمكنك تحديد قائمة من الأوامر مفصولة بفواصل. وهذا مثال لاستجابة رأس HTTP التي تتضمن علامة noarchive X-Robots-Tag تم دمجها مع unavailable_after X-Robots-Tag.

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: noarchive
X-Robots-Tag: unavailable_after: 25 Jun 2010 15:00:00 PST
(…)

ومن الممكن أن تحدد X-Robots-Tag وكيل مستخدم قبل الأوامر بشكل اختياري. على سبيل المثال، يمكن استخدام المجموعة التالية من رؤوس X-Robots-Tag HTTP للسماح بعرض صفحة في نتائج بحث محركات مختلفة بشكل مشروط:

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: googlebot: nofollow
X-Robots-Tag: otherbot: noindex, nofollow
(…)

الأوامر المحددة بدون وكيل مستخدم صالحة لجميع برامج الزحف. ويوضح القسم أدناه كيفية معالجة الأوامر المدمجة. ويكون الاسم غير حساس لحالة الأحرف وكذلك القيم المحددة.

أوامر الفهرسة والعرض الصالحة

يمكن استخدام الأوامر الأخرى المتعددة للتحكم في الفهرسة والعرض باستخدام العلامة الوصفية لبرامج الروبوت وX-Robots-Tag. وتمثل كل قيمة أمرًا محددًا. يعرض الجدول التالي جميع الأوامر التي يلتزم بها محرك البحث Google ومعانيها. ملاحظة: من الممكن ألا تتم معاملة هذه الأوامر بالطريقة نفسها بواسطة جميع برامج زحف محركات البحث الأخرى. ويمكن دمج أوامر متعددة في قائمة مفصولة بفواصل (راجع معالجة الأوامر المدمجة أدناه). وتُعد هذه الأوامر غير حساسة لحالة الأحرف.

الأوامر
all لا توجد قيود للفهرسة أو العرض. ملاحظة: هذا الأمر هو القيمة التلقائية وليس له أي تأثير إذا تم إدراجه بشكل واضح.
noindex لا تعرض هذه الصفحة في نتائج البحث ولا تعرض رابط "نسخة مخبأة" في نتائج البحث.
nofollow لا تتبع الروابط على هذه الصفحة.
none يعادل noindex, nofollow.
noarchive لا يظهر رابط "نسخة مخبأة" في نتائج البحث.
nosnippet لا تعرض مقتطفًا نصيًا أو معاينة فيديو في نتائج البحث لهذه الصفحة، بينما تظلّ الصورة المصغّرة الثابتة (إن وُجدت) مرئية.
notranslate لا تعرض ترجمة لهذه الصفحة في نتائج البحث.
noimageindex لا تفهرس الصور على هذه الصفحة.
unavailable_after: [RFC-850 date/time] لا تعرض هذه الصفحة في نتائج البحث بعد التاريخ/الوقت المحدد. يجب تحديد التاريخ/الوقت بتنسيق RFC 850 format.

بعد أن يتم منح ملف robots.txt (أو عند عدم وجود أحد هذه الملفات) الإذن بالزحف إلى صفحة ما، تتم معاملة الصفحات تلقائيًا باعتبارها قابلة للزحف وقابلة للفهرسة وقابلة للأرشفة، ويتم اعتماد محتواها للاستخدام في المقتطفات التي يتم عرضها في نتائج البحث، ما لم يتم رفض الإذن بالتحديد في علامة وصفية لبرامج الروبوت أو في X-Robots-Tag.

معالجة أوامر الفهرسة والعرض المدمجة

يمكنك إنشاء تعليمات توجيهية متعددة عن طريق دمج أوامر العلامات الوصفية لبرامج الروبوت باستخدام الفواصل. ونذكر هنا مثالاً لعلامة وصفية لبرامج الروبوتات التي توجِّه برامج زحف الويب بعدم فهرسة الصفحة أو بعدم الزحف إلى أي رابط على الصفحة:

<meta name="robots" content="noindex, nofollow">

بالنسبة للحالات التي يتم فيها تحديد برامج زحف متعددة بالإضافة إلى أوامر مختلفة، سيستخدم محرك البحث مجموعة من الأوامر السلبية. مثل:

<meta name="robots" content="nofollow">
<meta name="googlebot" content="noindex">

سيفهم برنامج الزحف Googlebot الصفحة التي تضمّ هذه العلامات الوصفية باعتبارها تحتوي على أمر noindex, nofollow.

التطبيق العملي لعلامة X-Robots-Tag باستخدام Apache

يمكنك إضافة X-Robots-Tag إلى استجابات HTTP للموقع باستخدام ملفات ‎.htaccess وhttpd.conf المتوفرة تلقائيًا على خوادم الويب المستندة إلى Apache. وتتمثل فائدة استخدام X-Robots-Tag مع استجابات HTTP في أنه يمكنك تحديد أوامر الزحف التي يتم تطبيقها بشكل شامل على الموقع. كما يسمح دعم التعبيرات العادية بمستوى عالٍ من المرونة.

على سبيل المثال، لإضافة noindex, nofollow X-Robots-Tag إلى استجابة HTTP لجميع ملفات PDF على الموقع بالكامل، أضِف المقتطف التالي إلى ملف ‎.htaccess أو ملف httpd.conf لجذر الموقع:

<Files ~ "\.pdf$">
  Header set X-Robots-Tag "noindex, nofollow"
</Files>

يمكنك استخدام X-Robots-Tag لملفات غير HTML مثل ملفات الصور التي يكون فيها استخدام العلامات الوصفية لبرامج الروبوت غير ممكن. وهذا مثال لإضافة أمر noindex X-Robots-Tag لملفات الصور (‎.png، .jpeg، .jpg، .gif) عبر الموقع بالكامل:

<Files ~ "\.(png|jpe?g|gif)$">
  Header set X-Robots-Tag "noindex"
</Files>

دمج الزحف مع أوامر الفهرسة / العرض

يتم اكتشاف العلامات الوصفية لبرامج الروبوت ورؤوس X-Robots-Tag HTTP عندما يتم الزحف إلى عنوان URL. في حال منع صفحة ما من الزحف من خلال ملف robots.txt، لن يتم بعد ذلك العثور على أي معلومات عن أوامر الفهرسة أو العرض وبالتالي سيتم تجاهلها. إذا كان من الواجب اتّباع أوامر الفهرسة أو العرض، لا يمكن منع عناوين URL التي تحتوي على هذه الأوامر من الزحف.