দ্রষ্টব্য: এই চিত্র শ্রেণীবিভাগ কোর্সটি বাতিল করা হয়েছে এবং ১৫ ডিসেম্বর, ২০২৫ তারিখে এটি মুছে ফেলা হবে।

এই পৃষ্ঠাটি Cloud Translation API অনুবাদ করেছে।

এমএল প্র্যাকটিকাম: ইমেজ ক্লাসিফিকেশন

Google ফটোতে সার্চ পাওয়ার জন্য Google কীভাবে অত্যাধুনিক চিত্র শ্রেণীবিভাগ মডেল তৈরি করেছে তা জানুন। কনভোল্যুশনাল নিউরাল নেটওয়ার্কে একটি ক্র্যাশ কোর্স পান, এবং তারপর কুকুরের ফটো থেকে বিড়ালের ছবি আলাদা করতে আপনার নিজস্ব ইমেজ ক্লাসিফায়ার তৈরি করুন।

পূর্বশর্ত

মেশিন লার্নিং ক্র্যাশ কোর্সবা ML মৌলিক বিষয়ের সাথে সমতুল্য অভিজ্ঞতা
প্রোগ্রামিং বেসিকগুলিতে দক্ষতা এবং পাইথনে কোডিং করার কিছু অভিজ্ঞতা

দ্রষ্টব্য: এই অনুশীলনের কোডিং অনুশীলনগুলি Keras API ব্যবহার করে। কেরাস হল নিউরাল নেটওয়ার্ক কনফিগার করার জন্য একটি উচ্চ-স্তরের গভীর-শিক্ষার API। এটি একটি স্বতন্ত্র লাইব্রেরি এবং TensorFlow-এর মধ্যে একটি মডিউল হিসাবে উভয়ই উপলব্ধ।

কোলাব অনুশীলনের জন্য কেরাসের সাথে পূর্বের অভিজ্ঞতার প্রয়োজন নেই, কারণ কোড তালিকাগুলি ব্যাপকভাবে মন্তব্য করা হয় এবং ধাপে ধাপে ব্যাখ্যা করা হয়। ব্যাপক API ডকুমেন্টেশন কেরাস সাইটেও পাওয়া যায়।

ভূমিকা

2013 সালের মে মাসে, Google ব্যক্তিগত ফটোগুলির জন্য অনুসন্ধান প্রকাশ করে , ব্যবহারকারীদের ছবিগুলিতে উপস্থিত বস্তুর উপর ভিত্তি করে তাদের লাইব্রেরিতে ফটোগুলি পুনরুদ্ধার করার ক্ষমতা দেয়৷

গুগল ফটোর স্ক্রিনশট সিয়ামিজ বিড়ালদের জন্য অনুসন্ধান দেখাচ্ছে চিত্র 1. সিয়ামিজ বিড়ালদের জন্য Google ফটো অনুসন্ধান পণ্য সরবরাহ করে!

বৈশিষ্ট্যটি, পরে 2015 সালে Google Photos- এ অন্তর্ভুক্ত করা হয়েছিল, ব্যাপকভাবে একটি গেম-চেঞ্জার হিসাবে বিবেচিত হয়েছিল, এটি ধারণার একটি প্রমাণ যে কম্পিউটার ভিশন সফ্টওয়্যার ছবিগুলিকে মানবিক মান অনুযায়ী শ্রেণীবদ্ধ করতে পারে, বিভিন্ন উপায়ে মান যোগ করে:

ব্যবহারকারীদের আর ছবির বিষয়বস্তুকে শ্রেণীবদ্ধ করতে "সৈকত" এর মতো লেবেল দিয়ে ফটো ট্যাগ করার দরকার নেই, একটি ম্যানুয়াল টাস্ক দূর করে যা শত শত বা হাজার হাজার ছবির সেট পরিচালনা করার সময় বেশ ক্লান্তিকর হয়ে উঠতে পারে।
ব্যবহারকারীরা তাদের ফটো সংগ্রহ নতুন উপায়ে অন্বেষণ করতে পারে, অনুসন্ধান পদ ব্যবহার করে এমন বস্তুগুলির সাথে ফটোগুলি সনাক্ত করতে যা তারা হয়তো কখনও ট্যাগ করেনি৷ উদাহরণস্বরূপ, পটভূমিতে খেজুর গাছ রয়েছে এমন সমস্ত অবকাশের ফটোগুলিকে পৃষ্ঠের জন্য তারা "পাম গাছ" অনুসন্ধান করতে পারে৷
সফ্টওয়্যার সম্ভাব্যভাবে ট্যাক্সোনমিকাল পার্থক্যগুলি "দেখতে" পারে যা শেষ ব্যবহারকারীরা নিজেরাই উপলব্ধি করতে সক্ষম নাও হতে পারে (যেমন, সিয়ামিজ এবং অ্যাবিসিনিয়ান বিড়ালদের মধ্যে পার্থক্য), কার্যকরভাবে ব্যবহারকারীদের ডোমেন জ্ঞান বৃদ্ধি করে৷

কিভাবে চিত্র শ্রেণীবিভাগ কাজ করে

চিত্র শ্রেণীবিভাগ একটি তত্ত্বাবধানে শিক্ষার সমস্যা: লক্ষ্য শ্রেণীর একটি সেট সংজ্ঞায়িত করুন (ছবিতে সনাক্ত করার জন্য বস্তু), এবং লেবেলযুক্ত উদাহরণ ফটোগুলি ব্যবহার করে তাদের চিনতে একটি মডেলকে প্রশিক্ষণ দিন। প্রাথমিক কম্পিউটার ভিশন মডেলগুলি মডেলের ইনপুট হিসাবে কাঁচা পিক্সেল ডেটার উপর নির্ভর করত। যাইহোক, চিত্র 2-এ দেখানো হিসাবে, শুধুমাত্র কাঁচা পিক্সেল ডেটা একটি ইমেজে ক্যাপচার করা বস্তুর অগণিত বৈচিত্রগুলিকে অন্তর্ভুক্ত করার জন্য যথেষ্ট স্থিতিশীল উপস্থাপনা প্রদান করে না। বস্তুর অবস্থান, বস্তুর পিছনের পটভূমি, পরিবেষ্টিত আলো, ক্যামেরার কোণ এবং ক্যামেরার ফোকাস সবই কাঁচা পিক্সেল ডেটাতে ওঠানামা করতে পারে; এই পার্থক্যগুলি যথেষ্ট তাৎপর্যপূর্ণ যে পিক্সেল RGB মানগুলির ওজনযুক্ত গড় গ্রহণ করে এগুলি সংশোধন করা যায় না।

বিভিন্ন ব্যাকগ্রাউন্ড এবং আলোর অবস্থা সহ বিভিন্ন অবস্থানে বিড়ালদের বৈশিষ্ট্যযুক্ত ফটোগুলির কোলাজ এবং চিত্রগুলি থেকে প্রাপ্ত গড় পিক্সেল ডেটা চিত্র 2. বাম : বিড়ালগুলি বিভিন্ন ব্যাকড্রপ এবং আলোর অবস্থা সহ বিভিন্ন ভঙ্গিতে একটি ফটোতে ক্যাপচার করা যেতে পারে। ডান : এই বৈচিত্র্যের জন্য অ্যাকাউন্টে পিক্সেল ডেটার গড় কোনো অর্থপূর্ণ তথ্য তৈরি করে না।

বস্তুগুলিকে আরও নমনীয়ভাবে মডেল করার জন্য, ক্লাসিক কম্পিউটার ভিশন মডেলগুলি পিক্সেল ডেটা থেকে প্রাপ্ত নতুন বৈশিষ্ট্যগুলি যুক্ত করেছে, যেমন রঙের হিস্টোগ্রাম , টেক্সচার এবং আকারগুলি। এই পদ্ধতির নেতিবাচক দিকটি ছিল যে বৈশিষ্ট্য ইঞ্জিনিয়ারিং একটি বাস্তব বোঝা হয়ে উঠেছে, কারণ সেখানে অনেকগুলি ইনপুট টুইক করা হয়েছিল। একটি বিড়াল শ্রেণীবিভাগের জন্য, কোন রং সবচেয়ে প্রাসঙ্গিক ছিল? আকৃতির সংজ্ঞা কতটা নমনীয় হওয়া উচিত? কারণ বৈশিষ্ট্যগুলিকে এত সুনির্দিষ্টভাবে টিউন করা দরকার ছিল, শক্তিশালী মডেলগুলি তৈরি করা বেশ চ্যালেঞ্জিং ছিল এবং নির্ভুলতা ক্ষতিগ্রস্থ হয়েছিল৷

পূর্বশর্ত

মেশিন লার্নিং ক্র্যাশ কোর্সবা ML মৌলিক বিষয়ের সাথে সমতুল্য অভিজ্ঞতা
প্রোগ্রামিং বেসিকগুলিতে দক্ষতা এবং পাইথনে কোডিং করার কিছু অভিজ্ঞতা

ভূমিকা

ব্যবহারকারীদের আর ছবির বিষয়বস্তুকে শ্রেণীবদ্ধ করতে "সৈকত" এর মতো লেবেল দিয়ে ফটো ট্যাগ করার দরকার নেই, একটি ম্যানুয়াল টাস্ক দূর করে যা শত শত বা হাজার হাজার ছবির সেট পরিচালনা করার সময় বেশ ক্লান্তিকর হয়ে উঠতে পারে।
ব্যবহারকারীরা তাদের ফটো সংগ্রহ নতুন উপায়ে অন্বেষণ করতে পারে, অনুসন্ধান পদ ব্যবহার করে এমন বস্তুগুলির সাথে ফটোগুলি সনাক্ত করতে যা তারা হয়তো কখনও ট্যাগ করেনি৷ উদাহরণস্বরূপ, পটভূমিতে খেজুর গাছ রয়েছে এমন সমস্ত অবকাশের ফটোগুলিকে পৃষ্ঠের জন্য তারা "পাম গাছ" অনুসন্ধান করতে পারে৷
সফ্টওয়্যার সম্ভাব্যভাবে ট্যাক্সোনমিকাল পার্থক্যগুলি "দেখতে" পারে যা শেষ ব্যবহারকারীরা নিজেরাই উপলব্ধি করতে সক্ষম নাও হতে পারে (যেমন, সিয়ামিজ এবং অ্যাবিসিনিয়ান বিড়ালদের মধ্যে পার্থক্য), কার্যকরভাবে ব্যবহারকারীদের ডোমেন জ্ঞান বৃদ্ধি করে৷

কিভাবে চিত্র শ্রেণীবিভাগ কাজ করে

পরবর্তী

কনভোল্যুশনাল নিউরাল নেটওয়ার্ক, কনভোলিউশনাল নিউরাল নেটওয়ার্ক