এমএল প্র্যাকটিকাম: ইমেজ ক্লাসিফিকেশন

Google ফটোতে সার্চ পাওয়ার জন্য Google কীভাবে অত্যাধুনিক চিত্র শ্রেণীবিভাগ মডেল তৈরি করেছে তা জানুন। কনভোল্যুশনাল নিউরাল নেটওয়ার্কে একটি ক্র্যাশ কোর্স পান, এবং তারপর কুকুরের ফটো থেকে বিড়ালের ছবি আলাদা করতে আপনার নিজস্ব ইমেজ ক্লাসিফায়ার তৈরি করুন।

পূর্বশর্ত

ভূমিকা

2013 সালের মে মাসে, Google ব্যক্তিগত ফটোগুলির জন্য অনুসন্ধান প্রকাশ করে, ব্যবহারকারীদের ছবিগুলিতে উপস্থিত বস্তুর উপর ভিত্তি করে তাদের লাইব্রেরিতে ফটোগুলি পুনরুদ্ধার করার ক্ষমতা দেয়৷

গুগল ফটোর স্ক্রিনশট সিয়ামিজ বিড়ালদের জন্য অনুসন্ধান দেখাচ্ছে চিত্র 1. সিয়ামিজ বিড়ালদের জন্য Google ফটো অনুসন্ধান পণ্য সরবরাহ করে!

বৈশিষ্ট্যটি, পরে 2015 সালে Google Photos- এ অন্তর্ভুক্ত করা হয়েছিল, ব্যাপকভাবে একটি গেম-চেঞ্জার হিসাবে বিবেচিত হয়েছিল, এটি ধারণার একটি প্রমাণ যে কম্পিউটার ভিশন সফ্টওয়্যার ছবিগুলিকে মানবিক মান অনুযায়ী শ্রেণীবদ্ধ করতে পারে, বিভিন্ন উপায়ে মান যোগ করে:

  • ব্যবহারকারীদের আর ছবির বিষয়বস্তুকে শ্রেণীবদ্ধ করতে "সৈকত" এর মতো লেবেল দিয়ে ফটো ট্যাগ করার দরকার নেই, একটি ম্যানুয়াল টাস্ক দূর করে যা শত শত বা হাজার হাজার ছবির সেট পরিচালনা করার সময় বেশ ক্লান্তিকর হয়ে উঠতে পারে।
  • ব্যবহারকারীরা তাদের ফটো সংগ্রহ নতুন উপায়ে অন্বেষণ করতে পারে, অনুসন্ধান পদ ব্যবহার করে এমন বস্তুগুলির সাথে ফটোগুলি সনাক্ত করতে যা তারা হয়তো কখনও ট্যাগ করেনি৷ উদাহরণস্বরূপ, পটভূমিতে খেজুর গাছ রয়েছে এমন সমস্ত অবকাশের ফটোগুলিকে পৃষ্ঠের জন্য তারা "পাম গাছ" অনুসন্ধান করতে পারে৷
  • সফ্টওয়্যার সম্ভাব্যভাবে ট্যাক্সোনমিকাল পার্থক্যগুলি "দেখতে" পারে যা শেষ ব্যবহারকারীরা নিজেরাই উপলব্ধি করতে সক্ষম নাও হতে পারে (যেমন, সিয়ামিজ এবং অ্যাবিসিনিয়ান বিড়ালদের মধ্যে পার্থক্য), কার্যকরভাবে ব্যবহারকারীদের ডোমেন জ্ঞান বৃদ্ধি করে৷

কিভাবে চিত্র শ্রেণীবিভাগ কাজ করে

চিত্র শ্রেণীবিভাগ একটি তত্ত্বাবধানে শিক্ষার সমস্যা: লক্ষ্য শ্রেণীর একটি সেট সংজ্ঞায়িত করুন (ছবিতে সনাক্ত করার জন্য বস্তু), এবং লেবেলযুক্ত উদাহরণ ফটোগুলি ব্যবহার করে তাদের চিনতে একটি মডেলকে প্রশিক্ষণ দিন। প্রাথমিক কম্পিউটার ভিশন মডেলগুলি মডেলের ইনপুট হিসাবে কাঁচা পিক্সেল ডেটার উপর নির্ভর করত। যাইহোক, চিত্র 2-এ দেখানো হিসাবে, শুধুমাত্র কাঁচা পিক্সেল ডেটা একটি ইমেজে ক্যাপচার করা বস্তুর অগণিত বৈচিত্রগুলিকে অন্তর্ভুক্ত করার জন্য যথেষ্ট স্থিতিশীল উপস্থাপনা প্রদান করে না। বস্তুর অবস্থান, বস্তুর পিছনের পটভূমি, পরিবেষ্টিত আলো, ক্যামেরার কোণ এবং ক্যামেরার ফোকাস সবই কাঁচা পিক্সেল ডেটাতে ওঠানামা করতে পারে; এই পার্থক্যগুলি যথেষ্ট তাৎপর্যপূর্ণ যে পিক্সেল RGB মানগুলির ওজনযুক্ত গড় গ্রহণ করে এগুলি সংশোধন করা যায় না।

বিভিন্ন ব্যাকগ্রাউন্ড এবং আলোর অবস্থা সহ বিভিন্ন অবস্থানে বিড়ালদের বৈশিষ্ট্যযুক্ত ফটোগুলির কোলাজ এবং চিত্রগুলি থেকে প্রাপ্ত গড় পিক্সেল ডেটা চিত্র 2. বাম : বিড়ালগুলি বিভিন্ন ব্যাকড্রপ এবং আলোর অবস্থা সহ বিভিন্ন ভঙ্গিতে একটি ফটোতে ক্যাপচার করা যেতে পারে। ডান : এই বৈচিত্র্যের জন্য অ্যাকাউন্টে পিক্সেল ডেটার গড় কোনো অর্থপূর্ণ তথ্য তৈরি করে না।

বস্তুগুলিকে আরও নমনীয়ভাবে মডেল করার জন্য, ক্লাসিক কম্পিউটার ভিশন মডেলগুলি পিক্সেল ডেটা থেকে প্রাপ্ত নতুন বৈশিষ্ট্যগুলি যুক্ত করেছে, যেমন রঙের হিস্টোগ্রাম , টেক্সচার এবং আকারগুলি। এই পদ্ধতির নেতিবাচক দিকটি ছিল যে বৈশিষ্ট্য ইঞ্জিনিয়ারিং একটি বাস্তব বোঝা হয়ে উঠেছে, কারণ সেখানে অনেকগুলি ইনপুট টুইক করা হয়েছিল। একটি বিড়াল শ্রেণীবিভাগের জন্য, কোন রং সবচেয়ে প্রাসঙ্গিক ছিল? আকৃতির সংজ্ঞা কতটা নমনীয় হওয়া উচিত? কারণ বৈশিষ্ট্যগুলিকে এত সুনির্দিষ্টভাবে টিউন করা দরকার ছিল, শক্তিশালী মডেলগুলি তৈরি করা বেশ চ্যালেঞ্জিং ছিল এবং নির্ভুলতা ক্ষতিগ্রস্থ হয়েছিল৷