Robots মেটা ট্যাগ এবং X-Robots-Tag HTTP হেডারের স্পেসিফিকেশন

সারসংক্ষেপ

সার্চ ফলাফলে Google কীভাবে আপনার কন্টেন্ট দেখাবে তা পৃষ্ঠার লেভেলের ইন্ডেক্সিং সেটিংস নিয়ন্ত্রণ করে পরিচালনা করার বিষয়ে আপনি এই ডকুমেন্ট থেকে জানতে পারবেন। (X)HTML পৃষ্ঠায় অথবা HTTP হেডারে মেটা ট্যাগ ব্যবহার করে আপনি এগুলি উল্লেখ করতে পারেন।

robots মেটা ট্যাগের ব্যবহার

কোনও নির্দিষ্ট পৃষ্ঠা কীভাবে ইন্ডেক্স করা হবে এবং সার্চ ফলাফলে দেখানো হবে, তা robots মেটা ট্যাগের মাধ্যমে আপনি সুক্ষভাবে নিয়ন্ত্রণ করতে পারেন। robots মেটা ট্যাগটি পৃষ্ঠার <head> বিভাগে এইভাবে যোগ করুন:

<!DOCTYPE html>
<html><head>
<meta name="robots" content="noindex" />
(…)
</head>
<body>(…)</body>
</html>

উপরের উদাহরণে উল্লেখ করা robots মেটা ট্যাগটি বেশিরভাগ সার্চ ইঞ্জিনকে সার্চ ফলাফলে পৃষ্ঠাটি না দেখানোর জন্য নির্দেশ দিচ্ছে। name অ্যাট্রিবিউটের (robots) মানটি ইঙ্গিত করছে যে নির্দেশটি সব ক্রলারের ক্ষেত্রে প্রযোজ্য হয়। কোনও নির্দিষ্ট ক্রলারকে নির্দেশ দিতে চাইলে, name অ্যাট্রিবিউটের মান হিসেবে robots-এর পরিবর্তে সেই ক্রলারের নাম ব্যবহার করুন। নির্দিষ্ট ক্রলারকে ইউজার-এজেন্টও (কোনও পৃষ্ঠার অনুরোধ করার জন্য ক্রলার নিজস্ব ইউজার-এজেন্ট ব্যবহার করে) বলে। Google সাধারণত যে ওয়েব ক্রলারটি ব্যবহার করে, সেটির ইউজার-এজেন্ট Googlebot নামে পরিচিত। শুধুমাত্র Googlebot-কে আপনার পৃষ্ঠাটি ক্রল করতে বাধা দিতে ট্যাগটি এইভাবে আপডেট করুন:

<meta name="googlebot" content="noindex" />

এই ট্যাগ এখন Google-কে (কিন্তু অন্য কোনও সার্চ ইঞ্জিনকে নয়) সেটির ওয়েব সার্চ ফলাফলে পৃষ্ঠাটি না দেখানোর নির্দেশ দিচ্ছে। name এবং content-এর ক্ষেত্রে, ছোট ও বড় হাতের অক্ষরের মধ্যে পার্থক্য করা হয় না।

বিভিন্ন প্রপার্টি ও প্রয়োজনের জন্য সার্চ ইঞ্জিনের বিভিন্ন ধরনের ক্রলার থাকতে পারে। Google-এর ক্রলারের সম্পূর্ণ তালিকা দেখুন। যেমন, আপনি কোনও পৃষ্ঠা Google News-এ দেখিয়ে Google-এর ওয়েব সার্চ ফলাফলে দেখাতে চাইলে নিম্নলিখিত মেটা ট্যাগটি ব্যবহার করুন:

<meta name="googlebot-news" content="noindex" />

একাধিক ক্রলার আলাদা করে উল্লেখ করার প্রয়োজন থাকলে, একাধিক robots মেটা ট্যাগ ব্যবহার করতে পারেন:

<meta name="googlebot" content="noindex">
<meta name="googlebot-news" content="nosnippet">

আমাদের ক্রলার পরস্পরবিরোধী নির্দেশ খুঁজে পেলে, সবচেয়ে বেশি বিধিনিষেধ আছে এমন নির্দেশ মেনে চলা হবে।

X-Robots-Tag HTTP হেডার ব্যবহার করা

কোনও ইউআরএলের HTTP হেডার প্রতিক্রিয়ার এলিমেন্ট হিসেবে X-Robots-Tag ট্যাগটি ব্যবহার করা যেতে পারে। robots মেটা ট্যাগে যে নির্দেশ ব্যবহার করা যায় সেটি X-Robots-Tag হিসেবেও উল্লেখ করা যেতে পারে। নিম্নলিখিত উদাহরণে একটি HTTP প্রতিক্রিয়া দেখানো হল যেটি X-Robots-Tag ব্যবহার করে সব ক্রলারকে একটি নির্দিষ্ট পৃষ্ঠা ক্রল না করার নির্দেশ দেওয়া হয়:

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: noindex
(…)

আপনি HTTP প্রতিক্রিয়াতে একাধিক X-Robots-Tag হেডার একসাথে ব্যবহার করতে পারেন অথবা কমা দিয়ে আলাদা করা একাধিক নির্দেশ সহ একটি তালিকাও উল্লেখ করতে পারেন। নিম্নলিখিত উদাহরণে একটি HTTP হেডার প্রতিক্রিয়াতে noarchive X-Robots-Tagunavailable_after X-Robots-Tag একসাথে ব্যবহার করে দেখানো হল।

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: noarchive
X-Robots-Tag: unavailable_after: 25 Jun 2010 15:00:00 PST
(…)

নির্দেশের আগে X-Robots-Tag ট্যাগ ঐচ্ছিকভাবে একটি ইউজার-এজেন্টও উল্লেখ করতে পারে। যেমন, বিভিন্ন সার্চ ইঞ্জিনের ফলাফলে কোনও একটি পৃষ্ঠা শর্ত মেনে দেখানোর অনুমতি দেওয়ার জন্য এই X-Robots-Tag HTTP হেডারগুলি ব্যবহার করা যেতে পারে:

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: googlebot: nofollow
X-Robots-Tag: otherbot: noindex, nofollow
(…)

নির্দেশে ইউজার-এজেন্ট লেখা না থাকলে, সেটি সব ক্রলারের ক্ষেত্রে প্রযোজ্য হয়। একাধিক নির্দেশ একসাথে প্রয়োগ করার জন্য কী করতে হয় তা নিচের বিভাগে বলা আছে। নাম ও উল্লিখিত মানে ছোট ও বড় হাতের অক্ষরের মধ্যে পার্থক্য করা হয় না।

ইন্ডেক্সিং ও সার্ভিংয়ের জন্য সঠিক নির্দেশ

ইন্ডেক্সিং ও সার্ভিং নিয়ন্ত্রণ করার জন্য robots মেটা ট্যাগ ও X-Robots-Tag-এর সাথে আরও অনেক নির্দেশ ব্যবহার করা যেতে পারে। প্রতিটি মান একটি নির্দিষ্ট নির্দেশকে বোঝায়। Google মেনে চলে এমন নির্দেশগুলির অর্থ নিচের সারণীতে দেওয়া হল। মনে রাখবেন যে অন্যান্য সার্চ ইঞ্জিনের ক্রলার এই নির্দেশগুলিকে একইভাবে নাও মানতে পারে। আপনি কমা দিয়ে আলাদা করা একাধিক নির্দেশ সহ একটি তালিকাও উল্লেখ করতে পারেন (একাধিক নির্দেশ একসাথে প্রয়োগ করা সম্পর্কে জানতে নিচে দেখুন)। এই নির্দেশগুলির ক্ষেত্রে ছোট ও বড় হাতের অক্ষরের মধ্যে পার্থক্য করা হয় না।

নির্দেশ
all ইন্ডেক্সিং বা সার্ভিংয়ের উপরে কোনও বিধিনিষেধ নেই। মনে রাখবেন যে এই নির্দেশ ডিফল্ট হিসেবে ধরে নেওয়া হয় এবং আলাদা করে উল্লেখ করলেও এটির বিশেষ কোনও প্রভাব থাকে না।
noindex সার্চ ফলাফলে এই পৃষ্ঠা এবং এটির "ক্যাশে করা" লিঙ্ক দেখাবেন না।
nofollow এই পৃষ্ঠার লিঙ্কগুলি অনুসরণ করবেন না।
none noindex, nofollow নির্দেশগুলির সমতুল্য।
noarchive সার্চ ফলাফলে "ক্যাশে করা" লিঙ্ক দেখাবেন না।
nosnippet সার্চ ফলাফলে এই পৃষ্ঠার টেক্সট স্নিপেট অথবা ভিডিও প্রিভিউ দেখাবেন না। তবে, স্ট্যাটিক থাম্বনেল (উপলভ্য থাকলে) দেখানো হবে।
notranslate সার্চ ফলাফলে এই পৃষ্ঠা অনুবাদ করে দেখানোর বিকল্প রাখবেন না।
noimageindex এই পৃষ্ঠার ছবি ইন্ডেক্স করবেন না।
unavailable_after: [RFC-850 date/time] উল্লিখিত তারিখ/সময়ের পরে এই পৃষ্ঠা সার্চ ফলাফলে আর দেখাবেন না। তারিখ/সময় RFC 850 ফর্ম্যাট-এ উল্লেখ করতে হবে।

robots মেটা ট্যাগ বা X-Robots-Tag-এর মাধ্যমে অননুমোদিত না হলে, robots.txt ফাইল (বা সেটির অনুপস্থিতি) ডিফল্টভাবে পৃষ্ঠা ক্রল, ইন্ডেক্স ও আর্কাইভ করা এবং সার্চ ফলাফলে সেটির কন্টেন্ট স্নিপেট হিসেবে দেখানোর অনুমতি দেয়।

একসাথে একাধিক ইন্ডেক্সিং ও সার্ভিংয়ের জন্য নির্দেশ ব্যবহার করা

আপনি একাধিক robots মেটা ট্যাগের মাঝে কমা দিয়ে একসাথে অনেকগুলি নির্দেশ দিতে পারেন। একটি পৃষ্ঠা একইসাথে ইন্ডেক্স না করা ও সেটির কোনও লিঙ্ক ক্রল না করার নির্দেশ দেয় এমন একটি robots মেটা ট্যাগের উদাহরণ নিচে দেওয়া হল:

<meta name="robots" content="noindex, nofollow">

একাধিক ক্রলারের জন্য আলাদা নির্দেশ দেওয়া থাকলে, সার্চ ইঞ্জিন নেতিবাচক নির্দেশগুলি সম্মিলিত করে ব্যবহার করে। যেমন:

<meta name="robots" content="nofollow">
<meta name="googlebot" content="noindex">

কোনও পৃষ্ঠায় এই মেটা ট্যাগগুলি থাকলে, Googlebot সেটি ক্রল করার সময় নির্দেশকে noindex, nofollow হিসেবে ধরে নেয়।

অ্যাপাচিতে X-Robots-Tag-এর ব্যবহারিক প্রয়োগ

সাধারণত, অ্যাপাচি ভিত্তিক ওয়েব সার্ভারে ডিফল্ট ফাইল হিসেবে .htaccess এবং httpd.conf ফাইল থাকে। আপনি এগুলি ব্যবহার করে কোনও সাইটের HTTP প্রতিক্রিয়ায় X-Robots-Tag যোগ করতে পারেন। HTTP প্রতিক্রিয়ায় X-Robots-Tag ব্যবহার করলে, আপনি সম্পূর্ণ সাইট ক্রল করার জন্য নির্দেশ প্রয়োগ করতে পারেন। রেগুলার এক্সপ্রেশন ব্যবহার করা যায় বলে আপনি সেগুলির মাধ্যমে বিভিন্ন ধরনের নির্দেশ দিতে পারেন।

যেমন, সম্পূর্ণ সাইটের সব ফাইলের জন্য HTTP প্রতিক্রিয়াতে noindex, nofollow X-Robots-Tag যোগ করতে চাইলে, সাইটের .htaccess বা httpd.conf ফাইলে নিম্নলিখিত স্নিপেট যোগ করুন:

<Files ~ "\.pdf$">
  Header set X-Robots-Tag "noindex, nofollow"
</Files>

যেখানে robots মেটা ট্যাগ ব্যবহার করা যায় না সেখানে X-Robots-Tag ব্যবহার করতে পারেন, যেমন ছবির ফাইলের মতো HTML নয় এমন ফাইল। কোনও সাইটের সব ছবির ফাইলে (.png, .jpeg, .jpg, .gif) noindex X-Robots-Tag নির্দেশ ব্যবহার করার একটি উদাহরণ নিচে দেওয়া হল:

<Files ~ "\.(png|jpe?g|gif)$">
  Header set X-Robots-Tag "noindex"
</Files>

ইন্ডেক্সিং / সার্ভিংয়ের সাথে ক্রলিংয়ের জন্য নির্দেশ ব্যবহার করা

কোনও ইউআরএল ক্রল করার সময় সেটির robots মেটা ট্যাগ ও X-Robots-Tag HTTP হেডার দেখা হয়। robots.txt ফাইলের মাধ্যমে কোনও পৃষ্ঠাকে ক্রল করার অনুমতি না দেওয়া হলে, সেটি থেকে ইন্ডেক্সিং বা সার্ভিংয়ের জন্য কোনও নির্দেশ খুঁজে পাওয়া যায় না, তাই সেগুলিকে উপেক্ষা করা হয়। ইন্ডেক্সিং বা সার্ভিংয়ের জন্য নির্দেশ অনুসরণ করতে হলে, যে ইউআরএলে নির্দেশ আছে সেটি ক্রল করতে দিতে হবে।