রোবট মেটা ট্যাগ এবং X-Robots-Tag HTTP হেডার সংক্রান্ত স্পেসিফিকেশন

সারসংক্ষেপ

সার্চের ফলাফলের মাধ্যমে Google যেভাবে কন্টেন্ট তুলে ধরে, তা পৃষ্ঠা স্তরের ইন্ডেক্সিং সেটিংসের মাধ্যমে কীভাবে নিয়ন্ত্রণ করা যায় তা এই ডকুমেন্টে বলা আছে। (X)HTML পৃষ্ঠায় অথবা HTTP হেডারে মেটা ট্যাগ ব্যবহার করে আপনি এটি নিয়ন্ত্রণ করতে পারেন।

robots মেটা ট্যাগের ব্যবহার

কোনও নির্দিষ্ট পৃষ্ঠা কীভাবে ইন্ডেক্স করা হবে এবং সার্চের ফলাফলে দেখানো হবে, তা robots মেটা ট্যাগের মাধ্যমে আপনি গ্র্যানুলার পদ্ধতিতে নিয়ন্ত্রণ করতে পারেন। robots মেটা ট্যাগটি পৃষ্ঠার <head> বিভাগে রাখুন, ঠিক এইভাবে:

<!DOCTYPE html>
<html><head>
<meta name="robots" content="noindex" />
(…)
</head>
<body>(…)</body>
</html>

উপরের উদাহরণে robots মেটা ট্যাগটি বেশিরভাগ সার্চ ইঞ্জিনকে সার্চের ফলাফলে পৃষ্ঠাটি না দেখানোর জন্য নির্দেশ দিচ্ছে। name অ্যাট্রিবিউটের (robots) মানটি ইঙ্গিত করছে যে নির্দেশিকাটি সমস্ত ক্রলারের উপরে প্রযোজ্য। কোনও নির্দিষ্ট ক্রলারকে নির্দেশ দিতে চাইলে name অ্যাট্রিবিউটের মান হিসেবে robots-এর বদলে ক্রলারটির নাম ব্যবহার করুন। নির্দিষ্ট কিছু ক্রলারকে ইউজার এজেন্ট নামেও ডাকা হয় (কোনও পৃষ্ঠার অনুরোধ করার জন্য ক্রলারগুলি ইউজার এজেন্টকে ব্যবহার করে)। Google সাধারণত যে ওয়েব ক্রলারটি ব্যবহার করে, সেটির ইউজার এজেন্ট Googlebot নামে পরিচিত। আপনার পৃষ্ঠাটি ক্রল করা থেকে শুধুমাত্র Googlebot-কে আটকাতে হলে ট্যাগটি এইভাবে আপডেট করুন:

<meta name="googlebot" content="noindex" />

এই ট্যাগটি Google-কে (কিন্তু অন্য কোনও সার্চ ইঞ্জিনকে নয়) সার্চের ফলাফলে এই পৃষ্ঠাটি না দেখানোর নির্দেশ দিচ্ছে। name এবং content, কোনওটির ক্ষেত্রেই ছোট এবং বড় হাতের অক্ষরের মধ্যে পার্থক্য করা হয় না।

বিভিন্ন প্রপার্টি এবং প্রয়োজনের জন্য সার্চ ইঞ্জিনের বিভিন্ন ক্রলার থাকতে পারে। Google-এর ক্রলারের সম্পূর্ণ তালিকা দেখুন। যেমন, আপনি যদি কোনও পৃষ্ঠা Google-এর ওয়েব সার্চের ফলাফলে দেখাতে চান কিন্তু Google News-এ দেখাতে না চান, তাহলে এই মেটা ট্যাগটি ব্যবহার করতে পারেন:

<meta name="googlebot-news" content="noindex" />

যদি একাধিক ক্রলার আলাদা করে উল্লেখ করার দরকার হয় তাহলে একাধিক robots মেটা ট্যাগ ব্যবহার করতে পারেন:

<meta name="googlebot" content="noindex">
<meta name="googlebot-news" content="nosnippet">

আমাদের ক্রলার যদি পরস্পরবিরোধী নির্দেশিকা খুঁজে পায় তাহলে যেটিতে বেশি বিধিনিষেধ নির্দিষ্ট করা আছে, সেটিই অনুসরণ করবে।

X-Robots-Tag HTTP হেডারের ব্যবহার

কোনও ইউআরএলের HTTP হেডার প্রতিক্রিয়ার এলিমেন্ট হিসেবে X-Robots-Tag ট্যাগটি ব্যবহার করা যেতে পারে। robots মেটা ট্যাগে যে নির্দেশিকা ব্যবহার করা যায় তা X-Robots-Tag হিসেবেও উল্লেখ করা যেতে পারে। নিচে এমন একটি HTTP প্রতিক্রিয়ার উদাহরণ দেওয়া হল যেটির X-Robots-Tag সমস্ত ক্রলারকে একটি নির্দিষ্ট পৃষ্ঠা ক্রল না করার নির্দেশ দিচ্ছে:

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: noindex
(…)

আপনি HTTP প্রতিক্রিয়াতে একাধিক X-Robots-Tag হেডার একসাথে ব্যবহার করতে পারেন। অথবা চাইলে একাধিক নির্দেশিকার মাঝে কমা দিয়ে একটি তালিকাও তৈরি করে নিতে পারেন। নিচে এমন একটি HTTP হেডার প্রতিক্রিয়ার উদাহরণ দেওয়া হল যেটিতে noarchive X-Robots-Tag এবং একটি unavailable_after X-Robots-Tag একসাথে ব্যবহার করা হয়েছে।

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: noarchive
X-Robots-Tag: unavailable_after: 25 Jun 2010 15:00:00 PST
(…)

এছাড়া আপনি চাইলে X-Robots-Tag ট্যাগে নির্দেশিকার আগে একটি ইউজার এজেন্টও নির্দিষ্ট করে দিতে পারেন। যেমন, বিভিন্ন সার্চ ইঞ্জিনের সার্চের ফলাফলে কোনও একটি পৃষ্ঠা দেখানো অথবা না দেখানোর জন্য এই X-Robots-Tag HTTP হেডারগুলি ব্যবহার করা যেতে পারে।

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: googlebot: nofollow
X-Robots-Tag: otherbot: noindex, nofollow
(…)

যে নির্দেশিকার ক্ষেত্রে কোনও ইউজার এজেন্টের নাম নির্দিষ্ট করা থাকে না সেটি সমস্ত ক্রলারের উপরে প্রযোজ্য হয়। একাধিক নির্দেশিকা একসাথে প্রয়োগ করার জন্য কী করতে হয় তা নিচের বিভাগে বিশদে বলা আছে। নাম এবং নির্দিষ্ট করা মান, কোনওটির ক্ষেত্রেই ছোট এবং বড় হাতের অক্ষরের মধ্যে পার্থক্য করা হয় না।

ইন্ডেক্স করা ও দেখানো সংক্রান্ত সঠিক নির্দেশিকা

কোনও পৃষ্ঠা ইন্ডেক্স করা এবং দেখানো হবে কিনা, তা robots মেটা ট্যাগ এবং X-Robots-Tag-এর মাধ্যমে নিয়ন্ত্রণ করার আরও কিছু পদ্ধতি আছে। নিচে উল্লেখ করা প্রত্যেকটি মান হল একটি করে নির্দিষ্ট নির্দেশিকা। Google যে সমস্ত নির্দেশিকা অনুসরণ করে, সেগুলি এবং সেগুলির অর্থ নিচের সারণীতে দেওয়া হল। দ্রষ্টব্য: অন্যান্য সার্চ ইঞ্জিনের ক্রলার এই নির্দেশিকাগুলি একইভাবে অনুসরণ নাও করতে পারে। একাধিক নির্দেশিকার মাঝে কমা দিয়ে একটি তালিকা তৈরি করা যেতে পারে (একাধিক নির্দেশিকা একসাথে প্রয়োগ করার বিষয়ে জানতে নিচে দেখুন)। এই নির্দেশিকাগুলির ক্ষেত্রে ছোট এবং বড় হাতের অক্ষরের মধ্যে পার্থক্য করা হয় না।

নির্দেশিকা
all পৃষ্ঠা ইন্ডেক্স করা অথবা দেখানোর উপরে কোনও বিধিনিষেধ নেই। দ্রষ্টব্য: এই নির্দেশিকাটি ডিফল্ট হিসেবে ধরে নেওয়া হয় এবং এটি আলাদা করে উল্লেখ করলেও আলাদা কোনও প্রভাব ফেলে না।
noindex সার্চের ফলাফলে এই পৃষ্ঠাটি এবং এটির "ক্যাশ করা" লিঙ্ক দেখানো হবে না।
nofollow এই পৃষ্ঠার লিঙ্কগুলি ফলো করা হবে না।
none এটি noindex, nofollow নির্দেশিকার সমতুল্য
noarchive সার্চের ফলাফলে "ক্যাশ করা" লিঙ্ক দেখানো হবে না।
nosnippet সার্চের ফলাফলে এই পৃষ্ঠাটির টেক্সট স্নিপেট অথবা ভিডিও প্রিভিউ দেখানো হবে না। তবে স্ট্যাটিক থাম্বনেল দেখানো হবে (যদি সেই রকম কিছু থাকে)।
notranslate সার্চের ফলাফলে এই পৃষ্ঠাটির অনুবাদ দেখার বিকল্প রাখা হবে না।
noimageindex এই পৃষ্ঠাটির ছবি ইন্ডেক্স করা হবে না।
unavailable_after: [RFC-850 date/time] নির্দিষ্ট করে দেওয়া তারিখ/সময়ের পরে এই পৃষ্ঠাটি আর সার্চের ফলাফলে দেখানো হবে না। তারিখ/সময়টি RFC 850 ফর্ম্যাটে উল্লেখ করতে হবে।

যদি robots.txt ফাইলে পৃষ্ঠাটি ক্রল করার অনুমতি দেওয়া থাকে অথবা ফাইলটি না থাকার কারণে যদি পৃষ্ঠাটি ক্রল করা যায়, তাহলে ডিফল্ট সেটিং অনুযায়ী ধরে নেওয়া হবে যে পৃষ্ঠাটি ক্রল, ইন্ডেক্স, আর্কাইভ করা যাবে এবং সেটির কন্টেন্ট দিয়ে স্নিপেট তৈরি করে সার্চের ফলাফলে দেখানো যাবে, যদি না তা করার অনুমতি robots মেটা ট্যাগ অথবা X-Robots-Tag-এ ব্লক করা থাকে।

পৃষ্ঠা ইন্ডেক্স করা এবং দেখানোর সাথে সম্পর্কিত একাধিক নির্দেশিকা একসাথে প্রয়োগ করা

আপনি একাধিক robots মেটা ট্যাগের মাঝে কমা দিয়ে একসাথে অনেকগুলি নির্দেশিকা দিতে পারেন। নিচে এমন একটি robots মেটা ট্যাগের উদাহরণ দেওয়া হল যেটি ওয়েব ক্রলারকে নির্দিষ্ট কোনও পৃষ্ঠা ইন্ডেক্স না করার এবং সেই পৃষ্ঠার কোনও লিঙ্ক ক্রল না করার নির্দেশ দিচ্ছে:

<meta name="robots" content="noindex, nofollow">

যদি একাধিক ক্রলারের জন্য আলাদা আলাদা নির্দেশিকা দেওয়া থাকে তাহলে অনুমতি না দেওয়া সংক্রান্ত নির্দেশিকাগুলির সম্মিলিত নির্দেশটি সার্চ ইঞ্জিন অনুসরণ করবে। যেমন:

<meta name="robots" content="nofollow">
<meta name="googlebot" content="noindex">

কোনও পৃষ্ঠায় এই মেটা ট্যাগগুলি থাকলে Googlebot সেটি ক্রল করার ক্ষেত্রে noindex, nofollow নির্দেশিকা ধরে নেবে।

অ্যাপাচি-তে X-Robots-Tag-এর ব্যবহারিক প্রয়োগ

অ্যাপাচি ভিত্তিক ওয়েব সার্ভারে ডিফল্ট ফাইল হিসেবে যে .htaccess এবং httpd.conf ফাইল থাকে, সেগুলি ব্যবহার করে আপনি কোনও সাইটের HTTP প্রতিক্রিয়ায় X-Robots-Tag যোগ করতে পারেন। HTTP প্রতিক্রিয়ায় X-Robots-Tag ব্যবহার করলে আপনি ক্রল করা সম্পর্কিত যে নির্দেশিকা দেবেন তা সম্পূর্ণ সাইটে প্রযোজ্য হবে। সাধারণত ব্যবহার করা ট্যাগগুলি এখানে ব্যবহার করা যায়, তাই এগুলির মাধ্যমে আপনি বিভিন্ন ধরনের নির্দেশিকা দিতে পারেন।

যেমন, কোনও সাইটের সমস্ত .PDF ফাইলে noindex, nofollow X-Robots-Tag যোগ করতে চাইলে আপনি সাইটের রুট .htaccess অথবা httpd.conf ফাইলে এই স্নিপেটটি ব্যবহার করতে পারেন:

<Files ~ "\.pdf$">
  Header set X-Robots-Tag "noindex, nofollow"
</Files>

HTML নয়, এমন ফাইল, যেমন ছবির ফাইলের ক্ষেত্রে robots মেটা ট্যাগ ব্যবহার করা সম্ভব না হলে আপনি X-Robots-Tag ব্যবহার করতে পারেন। কোনও সাইটের সমস্ত ছবির ফাইলে (.png, .jpeg, .jpg, .gif) noindex X-Robots-Tag নির্দেশিকা ব্যবহারের একটি উদাহরণ নিচে দেওয়া হল:

<Files ~ "\.(png|jpe?g|gif)$">
  Header set X-Robots-Tag "noindex"
</Files>

পৃষ্ঠা ক্রল করা এবং ইন্ডেক্স করা / দেখানো সংক্রান্ত নির্দেশিকা একসাথে ব্যবহার করা

কোনও ইউআরএল ক্রল করার সময় সেটির robots মেটা ট্যাগ এবং X-Robots-Tag HTTP হেডার খুঁজে নেওয়া হয়। যদি robots.txt ফাইলের মাধ্যমে কোনও পৃষ্ঠা ক্রল করার অনুমতি ব্লক করা হয়ে থাকে তাহলে সেটি ইন্ডেক্স করা অথবা দেখানো সংক্রান্ত নির্দেশিকা খুঁজে পাওয়া যাবে না এবং অনুসরণও করা যাবে না। যদি ইন্ডেক্স করা এবং দেখানো সংক্রান্ত নির্দেশিকা অনুসরণ করতে হয়, তাহলে যে ইউআরএলে এই নির্দেশিকাগুলি আছে, সেগুলিকে ক্রল করার অনুমতি একেবারেই প্রত্যাখ্যান করা যাবে না।

Send feedback about...

সার্চ
সার্চ