চলছি, যেমন চলছে। ইমেইল: lostindrk@gmail.com
ক্রলার, স্পাইডার অথবা ওয়েব ওয়ান্ডারার ইত্যাদি প্রোগাম সাধারণত ওয়েবে সারাক্ষণ ঘুরে বেড়ায়। বিভিন্ন ধরণের সার্চ ইন্জিন বা গুগল, সবধরণের সাইটের ইন্ডক্সিং এর কাজে ওয়েব রোবটস ব্যবহার করে থাকে। মানে, চলমান এই প্রোগাম সাধারণ সাইটের সবধরণের অংশ স্ক্যান করে ফেলে। হ্যাকাররা সাধারণত অনেকটা একই কাজ করে অনেক কিছুই ধারণা পেয়ে যায়।
এতে ভয়ের ব্যাপারটা হলো,
ওয়েবসাইটের অনেক ব্যাপারই আছে যা সাধারণত দেখানো হয়না কিন্তু জরুরী। সেক্ষেত্রে প্রাইভেসি নামক ব্যাপারটা প্রোগামটি হতে আশা করাটা বোকামি ছাড়া আর কিছু না।
সেক্ষেত্রে, ওয়েব এডমিনরা কিছু প্রতিরোধ মূলক কিছু কাজ করে থাকেন। সংরক্ষিত অংশটির জন্য ওয়েব রুটে robots.txt নামের একটি টেক্সট ফাইল রেখে দেন। এতে কোন অংশটিতে ইনডেক্সিং প্রোগামগুলো যাবে/যাবে না, তাতে লেখা থাকে।
মানে, ব্রাউজারের এড্রেসে আপনি যদি এভাবে লেখেন, http://www.abc.com/robots.txt তাহলে সাইট http://www.abc.com/ এর কোন অংশে ওয়েব এডমিন সাধারণ প্রবেশে মানা করেছেন, তার ধারণা পাওয়া যাবে।
উদাহরণ:
সা.ই. এর সাইটের রোবটস এ এডমিন কি লেখেছেন যদি দেখতে চান, তাহলে ব্রাউজারের এড্রেসে লিখুন:
http://www.somewhereinblog.net/robots.txt
এর পর, দেখা যাক কি লেখা আছে।
User-agent: *User-agent: *
Allow: /
Disallow: /loginmanager
Disallow: /activation
Disallow: /action
Disallow: /bba
Disallow: /blog/autoDraftComment
Disallow: /blog/getpostsbydate
Disallow: /blog/*/newpost
মজার না!!!
ওয়েব রোবটস সম্পর্কে বিস্তারিত জানতে:
http://www.robotstxt.org/
ধন্যবাদ
পোস্টটি একই সাথে "আনওফিসিয়াল এথিক্যাল হ্যাকিং" গ্রুপে প্রকাশিত।
।
অনলাইনে ছড়িয়ে ছিটিয়ে থাকা কথা গুলোকেই সহজে জানবার সুবিধার জন্য একত্রিত করে আমাদের কথা । এখানে সংগৃহিত কথা গুলোর সত্ব (copyright) সম্পূর্ণভাবে সোর্স সাইটের লেখকের এবং আমাদের কথাতে প্রতিটা কথাতেই সোর্স সাইটের রেফারেন্স লিংক উধৃত আছে ।