محلّل ملف robots.txt من Google أصبح الآن مفتوح المصدر

الاثنين 1 تموز (يوليو) 2019

لمدة 25 عامًا، ظلّ بروتوكول استبعاد الروبوتات (REP) معيارًا قائمًا بغض النظر عن مدى جدواه. وقد كان لذلك تداعيات مزعجة في بعض الأحيان. فمن ناحية، وبالنسبة إلى مشرفي المواقع، كان ذلك يعني عدم معرفة ما يجري تحديدًا في الحالات غير المعتادة، مثل ما يحدث عندما يضمّن محرر النصوص أحرف BOM في ملفات robots.txt. ومن ناحية أخرى، بالنسبة إلى مطوّري برامج الزحف والأدوات، لم يساعدهم هذا البروتوكول في فهم ما يجب فعله، مثل كيفية التعامل بشكل مناسب مع ملفات robots.txt الكبيرة التي يبلغ حجمها مئات الميغابايت.

Googlebot يقدّم موقعًا إلكترونيًا جديدًا

أعلنّا اليوم أننا نقود الجهود لتحويل REP إلى معيار للإنترنت. وهذه خطوة مهمة، إلا أنّها تفرض على المطوّرين بذل مزيد من الجهود عند تحليل ملفات robots.txt.

نحن في الخدمة: فتحنا مصادر مكتبة C++‎ التي تستخدمها أنظمة الإنتاج الخاصة بنا لتحليل القواعد ومطابقتها في ملفات robots.txts. هذه المكتبة متاحة منذ 20 عامًا وتحتوي على أجزاء من التعليمات البرمجية التي تمت كتابتها في التسعينيات. منذ ذلك الحين تطورت المكتبة، وتعلَّمنا الكثير حول كيفية كتابة مشرفي المواقع لملفات robots.txt والحالات غير المعتادة التي كان علينا أن نشملها، وأضفنا ما تعلّمناه على مر السنين أيضًا إلى مسودة الإنترنت متى كان لذلك صلة بالموضوع.

علاوةً على ذلك، أضفنا أداة اختبار إلى الحزمة المفتوحة المصدر لمساعدتك في اختبار بعض القواعد. بذلك، يكون الاستخدام واضحًا جدًا بعد إنشاء المحتوى مباشرةً:

robots_main <robots.txt content> <user_agent> <url>

إذا كنت تريد الاطّلاع على المكتبة، يمكنك التوجّه إلى مستودع GitHub الخاص بنا للوصول إلى محلّل robots.txt. تسعدنا رؤية المحتوى الذي ستنشئه باستخدام المكتبة. إذا كنت قد أنشأت محتوى باستخدام المكتبة، يُرجى إخبارنا برأيك من خلال Twitter، وإذا كانت لديك تعليقات أو أسئلة حول المكتبة، يمكنك التواصل معنا من خلال GitHub.