الاثنين 24 فبراير 2025
نتلقّى بين الحين والآخر أسئلة حول ملفات robots.txt والعلامات الوصفية لبرامج الروبوت ووظائف التحكّم المتاحة من خلالها. ووجدنا أنّ الوقت مناسب الآن كي نقدّم إنعاشًا سريعًا لذاكرتك حول هذه المواضيع بعد أن أطلقنا السلسلة حول الزحف في شهر ديسمبر. لذا، إذا كنت مهتمًا بمعرفة المزيد عن عناصر التحكّم هذه، ننصحك بمتابعة هذه السلسلة الجديدة ضمن منشورات المدوّنة.
سنبدأ بالأساسيات، أي ملف robots.txt.
إذًا، ما هو ملف robots.txt؟
"robots.txt" هو ملف يمكن لأي موقع إلكتروني توفيره. ويكون في أبسط أشكاله عبارةً عن ملف نصي مُخزَّن على الخادم. تتضمّن جميع المواقع الإلكترونية تقريبًا ملف robots.txt.
للاطّلاع على أحد هذه الملفات، ما عليك سوى إضافة /robots.txt
في نهاية اسم النطاق ثم الانتقال إلى ذلك العنوان. على سبيل المثال، يمكن العثور على ملف robots.txt لهذا الموقع الإلكتروني على العنوان developers.google.com/robots.txt
.
تستخدم معظم المواقع الإلكترونية أنظمة إدارة المحتوى (CMS) التي يمكنها إنشاء هذه الملفات تلقائيًا، ولكن حتى في حال إعداد الموقع الإلكتروني "يدويًا"، فإنّه من السهل إنشاء هذه الملفات. وسنلقي نظرة على بعض الصيغ المختلفة في المنشورات المستقبلية.
لماذا تُستخدم هذه الملفات؟
الغرض من ملفات robots.txt هو إطلاع برامج الزحف التي تصل إلى الموقع الإلكتروني على أقسام الموقع المتاحة للوصول الآلي (أو ما يُسمّى الزحف)، والأقسام غير المتاحة لذلك. وتسمح هذه الملفات لمالكي المواقع الإلكترونية بتحديد ما يهمّهم أن يتم الزحف إليه، سواء كان الموقع الإلكتروني بأكمله أو أقسامًا منه أو حتى ملفات محددة ضمنه. وتتميز هذه الملفات بقابلية قراءتها من قِبل الألة والأشخاص العاديين على حدّ سواء. وهذا يعني أنّ هذه الملفات تحدد دائمًا بوضوح ما إذا كان يُسمح لبرنامج زحف معيّن بالوصول الآلي إلى الصفحة أم لا.
إنّ الالتزام بهذه التوجيهات هو من المعايير المتّبعة عند إنشاء أي برنامج زحف. ويسهل على المطوّرين إتاحة استخدام التوجيهات، فهناك أكثر من 1000 مكتبة مفتوحة المصدر متاحة لهم. يقدّم الملف تعليمات لبرامج الزحف كي يتم الزحف إلى الموقع الإلكتروني بالطريقة الأمثل. وبما أنّ المواقع الإلكترونية الحديثة قد تكون معقّدة وقد يصعب على برامج الزحف التنقل تلقائيًا فيها، تساعد قواعد robots.txt هذه البرامج في التركيز على المحتوى المناسب. تساهم هذه القواعد أيضًا في أن تتجنّب برامج الزحف الصفحات التي تم إنشاؤها ديناميكيًا والتي قد تحمِّل الخادم عبئًا زائدًا، ما يؤدي إلى خفض فعالية الزحف بشكل غير ضروري. ويحرص معظم مشغّلي برامج الزحف التجاريين على اتّباع القواعد في ملفات robots.txt لأنّ ذلك مفيد من الناحية الفنية ويساهم في الحفاظ على علاقة جيدة مع مالكي المواقع الإلكترونية.
الجمهور هو من أنشأ هذا التنسيق ونشره
استُخدمت ملفات robots.txt منذ ظهور الإنترنت، وهي إحدى الأدوات الأساسية التي تتيح للإنترنت العمل بالشكل المطلوب. على وجه التحديد، تم ابتكار لغة HTML، وهي ركيزة صفحات الويب، في العام 1991، في حين ظهرت أولى المتصفّحات في العام 1992، واستُخدمت ملفات robots.txt للمرة الأولى في العام 1994. ويعني ذلك أنّها ظهرت قبل Google التي تأسست في العام 1998. ومنذ ذلك الحين، بقي تنسيقها بدون تغيير تقريبًا، وبالتالي فإنّ الملفات التي تم إنشاؤها في البدايات ستكون صالحة في الوقت الحالي. ونتيجة ثلاث سنوات من التفاعل المجتمعي حول العالم، تم اعتماد هذه الملفات كمعيار مقترَح من قِبل مجموعة مهندسي شبكة الإنترنت (IETF) في العام 2022.
إذا كان لديك موقع إلكتروني، من المرجّح أنه يتضمّن ملف robots.txt. يتوفر منتدى نابض بالحياة ونشط يتناول ملفات robots.txt، كما تتوفر آلاف الأدوات البرمجية لمساعدتك على إنشاء واختبار وإدارة وفهم ملفات robots.txt بمختلف أشكالها وأحجامها. ومن أبرز مزايا ملفات robots.txt هي أنّها لا تتطلّب استخدام أي أدوات معقدة، بل يمكنك قراءتها في المتصفح. وإذا كنت تدير موقعًا إلكترونيًا، يمكنك تعديل الملف الخاص به في محرِّر نصوص بسيط.
نظرتنا إلى المستقبل...
يتميّز تنسيق robots.txt بمرونته. فهو قابل للتطوير، إذ يمكن لأفراد منتدى الويب العام توسيع نطاقه، كما يمكن إطلاق إضافات لبرامج الزحف في الوقت المناسب بدون أن يؤدي ذلك إلى تعطيل الملفات المتاحة حاليًا بهذا التنسيق. وقد شهدنا ذلك في العام 2007 حين تم الإعلان عن إطلاق التوجيه "خريطة الموقع" لمحركات البحث. ويحدث ذلك بانتظام حاليًا بالتزامن مع إتاحة محركات البحث ومشغّلي برامج الزحف لبرامج "وكيل مستخدم" جديدة، مثل البرامج المستخدَمة لأغراض الذكاء الاصطناعي (AI).
ستبقى ملفات robots.txt متاحة على الدوام. فالعمل مع منتدى الإنترنت الأوسع نطاقًا على إكمال وضع تنسيقات جديدة للملفات يستغرق عدة سنوات، وإنشاء الأدوات المناسبة لها كي تصبح مفيدة لمنظومة الويب المتكاملة يستغرق وقتًا أطول. في حين أنّ ملفات robots.txt تتميّز بأنّها بسيطة ودقيقة ومعبّرة وواضحة ومتوافقة مع برامج الزحف، كما أنّها أثبتت كفاءتها على مدى عقود.
هل يهمّك الاطّلاع على التفاصيل؟ ترقّب إصداراتنا التالية ضمن سلسلة Robots Refresher على مدوّنة "مجموعة خدمات بحث Google".