মেশিন লার্নিং শব্দকোষ: ইমেজ মডেল

এই পৃষ্ঠায় ইমেজ মডেলের শব্দকোষ রয়েছে। সকল শব্দকোষের জন্য এখানে ক্লিক করুন

বর্ধিত বাস্তবতা

#ছবি

একটি প্রযুক্তি যা একটি কম্পিউটার-উত্পাদিত চিত্রকে বাস্তব জগতের একজন ব্যবহারকারীর দৃষ্টিভঙ্গির উপর তুলে ধরে, এইভাবে একটি যৌগিক দৃশ্য প্রদান করে।

অটোএনকোডার

#ভাষা
#ছবি

একটি সিস্টেম যা ইনপুট থেকে সবচেয়ে গুরুত্বপূর্ণ তথ্য বের করতে শেখে। অটোএনকোডার হল একটি এনকোডার এবং ডিকোডারের সংমিশ্রণ। অটোএনকোডারগুলি নিম্নলিখিত দ্বি-পদক্ষেপ প্রক্রিয়ার উপর নির্ভর করে:

  1. এনকোডার ইনপুটকে একটি (সাধারণত) ক্ষতিকর নিম্ন-মাত্রিক (মধ্যবর্তী) বিন্যাসে ম্যাপ করে।
  2. ডিকোডার নিম্ন-মাত্রিক বিন্যাসটিকে মূল উচ্চ-মাত্রিক ইনপুট বিন্যাসে ম্যাপ করে মূল ইনপুটের একটি ক্ষতিকারক সংস্করণ তৈরি করে।

এনকোডারের মধ্যবর্তী বিন্যাস থেকে যতটা সম্ভব ঘনিষ্ঠভাবে মূল ইনপুট পুনর্গঠন করার জন্য ডিকোডার প্রচেষ্টার মাধ্যমে অটোএনকোডারদের এন্ড-টু-এন্ড প্রশিক্ষিত করা হয়। মধ্যবর্তী বিন্যাসটি মূল বিন্যাসের চেয়ে ছোট (নিম্ন-মাত্রিক) হওয়ায়, অটোএনকোডারকে ইনপুটে কোন তথ্য অপরিহার্য তা শিখতে বাধ্য করা হয় এবং আউটপুটটি ইনপুটের সাথে পুরোপুরি অভিন্ন হবে না।

যেমন:

  • যদি ইনপুট ডেটা একটি গ্রাফিক হয়, অ-নির্ভুল অনুলিপিটি মূল গ্রাফিকের অনুরূপ হবে, তবে কিছুটা পরিবর্তিত হবে। সম্ভবত অ-নির্ভুল অনুলিপি মূল গ্রাফিক থেকে শব্দ সরিয়ে দেয় বা কিছু অনুপস্থিত পিক্সেল পূরণ করে।
  • যদি ইনপুট ডেটা পাঠ্য হয় তবে একটি অটোএনকোডার নতুন পাঠ্য তৈরি করবে যা মূল পাঠ্যের অনুকরণ করে (কিন্তু অনুরূপ নয়)।

পরিবর্তনশীল অটোএনকোডারগুলিও দেখুন।

অটো রিগ্রেসিভ মডেল

#ভাষা
#ছবি
#generativeAI

একটি মডেল যা তার নিজের পূর্বের ভবিষ্যদ্বাণীগুলির উপর ভিত্তি করে একটি ভবিষ্যদ্বাণী অনুমান করে৷ উদাহরণস্বরূপ, অটো-রিগ্রেসিভ ল্যাঙ্গুয়েজ মডেলগুলি পূর্বে ভবিষ্যদ্বাণী করা টোকেনের উপর ভিত্তি করে পরবর্তী টোকেনের পূর্বাভাস দেয়। সমস্ত ট্রান্সফরমার -ভিত্তিক বৃহৎ ভাষার মডেলগুলি স্বয়ংক্রিয়-রিগ্রেসিভ।

বিপরীতে, GAN- ভিত্তিক ইমেজ মডেলগুলি সাধারণত অটো-রিগ্রেসিভ হয় না কারণ তারা একটি একক ফরোয়ার্ড-পাসে একটি ছবি তৈরি করে এবং ধাপে ধাপে নয়। যাইহোক, কিছু ইমেজ জেনারেশন মডেল অটো- রিগ্রেসিভ কারণ তারা ধাপে ধাপে একটি ইমেজ তৈরি করে।

আবদ্ধ বাক্স

#ছবি

একটি ছবিতে, ( x , y ) আগ্রহের একটি এলাকার চারপাশে একটি আয়তক্ষেত্রের স্থানাঙ্ক, যেমন নীচের ছবিতে কুকুর।

সোফায় বসে থাকা কুকুরের ছবি। একটি সবুজ আবদ্ধ বাক্স           (275, 1271) এবং নীচে-ডান-এর উপরে-বাম স্থানাঙ্ক সহ           (2954, 2761) এর স্থানাঙ্ক কুকুরের শরীরকে ঘেরাও করে

আবর্তন

#ছবি

গণিতে, আকস্মিকভাবে বলতে গেলে, দুটি ফাংশনের মিশ্রণ। মেশিন লার্নিং-এ, একটি কনভোলিউশন কনভোলিউশনাল ফিল্টার এবং ইনপুট ম্যাট্রিক্সকে মিশ্রিত করে ওজন প্রশিক্ষণের জন্য।

মেশিন লার্নিং-এ "কনভোলিউশন" শব্দটি প্রায়শই কনভোলিউশনাল অপারেশন বা কনভোল্যুশনাল লেয়ারকে বোঝানোর একটি সংক্ষিপ্ত উপায়।

কনভল্যুশন ছাড়া, একটি মেশিন লার্নিং অ্যালগরিদমকে একটি বড় টেনসরের প্রতিটি কোষের জন্য একটি পৃথক ওজন শিখতে হবে। উদাহরণস্বরূপ, 2K x 2K চিত্রগুলিতে একটি মেশিন লার্নিং অ্যালগরিদম প্রশিক্ষণকে 4M পৃথক ওজন খুঁজে বের করতে বাধ্য করা হবে। কনভোল্যুশনের জন্য ধন্যবাদ, একটি মেশিন লার্নিং অ্যালগরিদমকে শুধুমাত্র কনভোলিউশনাল ফিল্টারে প্রতিটি সেলের জন্য ওজন খুঁজে বের করতে হয়, যা মডেলটিকে প্রশিক্ষণের জন্য প্রয়োজনীয় স্মৃতিকে নাটকীয়ভাবে হ্রাস করে। যখন কনভোলিউশনাল ফিল্টার প্রয়োগ করা হয়, তখন এটি কেবল কোষ জুড়ে প্রতিলিপি করা হয় যাতে প্রতিটি ফিল্টার দ্বারা গুণিত হয়।

আরও তথ্যের জন্য ইমেজ ক্লাসিফিকেশন কোর্সে কনভোলিউশনাল নিউরাল নেটওয়ার্কের পরিচয় দেখুন।

convolutional ফিল্টার

#ছবি

দুই অভিনেতার একজন কনভোল্যুশনাল অপারেশনে । (অন্য অভিনেতাটি একটি ইনপুট ম্যাট্রিক্সের একটি স্লাইস।) একটি কনভোলিউশনাল ফিল্টার হল একটি ম্যাট্রিক্স যার র্যাঙ্ক ইনপুট ম্যাট্রিক্সের সমান, কিন্তু একটি ছোট আকার। উদাহরণস্বরূপ, একটি 28x28 ইনপুট ম্যাট্রিক্স দেওয়া হলে, ফিল্টারটি 28x28 এর চেয়ে ছোট যে কোনো 2D ম্যাট্রিক্স হতে পারে।

ফটোগ্রাফিক ম্যানিপুলেশনে, একটি কনভোলিউশনাল ফিল্টারের সমস্ত কোষ সাধারণত এক এবং শূন্যের একটি ধ্রুবক প্যাটার্নে সেট করা হয়। মেশিন লার্নিং-এ, কনভোলিউশনাল ফিল্টারগুলি সাধারণত এলোমেলো সংখ্যার সাথে বীজযুক্ত হয় এবং তারপরে নেটওয়ার্ক আদর্শ মানগুলিকে প্রশিক্ষণ দেয়

আরও তথ্যের জন্য ইমেজ ক্লাসিফিকেশন কোর্সে কনভোলিউশন দেখুন।

আবর্তিত স্তর

#ছবি

একটি গভীর নিউরাল নেটওয়ার্কের একটি স্তর যেখানে একটি কনভোলিউশনাল ফিল্টার একটি ইনপুট ম্যাট্রিক্স বরাবর যায়। উদাহরণস্বরূপ, নিম্নলিখিত 3x3 কনভোলিউশনাল ফিল্টার বিবেচনা করুন:

নিম্নলিখিত মান সহ একটি 3x3 ম্যাট্রিক্স: [[0,1,0], [1,0,1], [0,1,0]]

নিম্নলিখিত অ্যানিমেশনটি 5x5 ইনপুট ম্যাট্রিক্সের সাথে জড়িত 9টি রূপান্তরমূলক ক্রিয়াকলাপ সমন্বিত একটি রূপান্তরমূলক স্তর দেখায়। লক্ষ্য করুন যে প্রতিটি কনভোলিউশনাল অপারেশন ইনপুট ম্যাট্রিক্সের একটি ভিন্ন 3x3 স্লাইসে কাজ করে। ফলস্বরূপ 3x3 ম্যাট্রিক্স (ডানদিকে) 9টি কনভোল্যুশনাল অপারেশনের ফলাফল নিয়ে গঠিত:

দুটি ম্যাট্রিক্স দেখানো একটি অ্যানিমেশন। প্রথম ম্যাট্রিক্স হল 5x5           ম্যাট্রিক্স: [[128,97,53,201,198], [35,22,25,200,195],           [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]]।           দ্বিতীয় ম্যাট্রিক্স হল 3x3 ম্যাট্রিক্স:           [[181,303,618], [115,338,605], [169,351,560]]।           দ্বিতীয় ম্যাট্রিক্সটি কনভোলিউশনাল প্রয়োগ করে গণনা করা হয়           ফিল্টার [[0, 1, 0], [1, 0, 1], [0, 1, 0]] জুড়ে           5x5 ম্যাট্রিক্সের বিভিন্ন 3x3 উপসেট।

আরও তথ্যের জন্য চিত্র শ্রেণীবিভাগ কোর্সে সম্পূর্ণ সংযুক্ত স্তরগুলি দেখুন৷

কনভোল্যুশনাল নিউরাল নেটওয়ার্ক

#ছবি

একটি নিউরাল নেটওয়ার্ক যেখানে অন্তত একটি স্তর একটি কনভোলিউশনাল স্তর । একটি সাধারণ কনভোলিউশনাল নিউরাল নেটওয়ার্ক নিম্নলিখিত স্তরগুলির কিছু সমন্বয় নিয়ে গঠিত:

কনভোল্যুশনাল নিউরাল নেটওয়ার্কগুলি নির্দিষ্ট ধরণের সমস্যা যেমন ইমেজ স্বীকৃতিতে দুর্দান্ত সাফল্য পেয়েছে।

convolutional অপারেশন

#ছবি

নিম্নলিখিত দুই-পদক্ষেপ গাণিতিক অপারেশন:

  1. কনভোলিউশনাল ফিল্টার এবং একটি ইনপুট ম্যাট্রিক্সের একটি স্লাইসের উপাদান-ভিত্তিক গুণ। (ইনপুট ম্যাট্রিক্সের স্লাইসটি কনভোলিউশনাল ফিল্টারের মতো একই র্যাঙ্ক এবং আকার রয়েছে।)
  2. ফলিত পণ্য ম্যাট্রিক্সে সমস্ত মানের সমষ্টি।

উদাহরণস্বরূপ, নিম্নলিখিত 5x5 ইনপুট ম্যাট্রিক্স বিবেচনা করুন:

5x5 ম্যাট্রিক্স: [[128,97,53,201,198], [35,22,25,200,195],           [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]]।

এখন নিম্নলিখিত 2x2 কনভোলিউশনাল ফিল্টারটি কল্পনা করুন:

2x2 ম্যাট্রিক্স: [[1, 0], [0, 1]]

প্রতিটি কনভোলিউশনাল অপারেশন ইনপুট ম্যাট্রিক্সের একটি একক 2x2 স্লাইস জড়িত। উদাহরণস্বরূপ, ধরুন আমরা ইনপুট ম্যাট্রিক্সের উপরের-বাম দিকে 2x2 স্লাইস ব্যবহার করি। সুতরাং, এই স্লাইসে কনভল্যুশন অপারেশনটি নিম্নরূপ দেখায়:

কনভোলিউশনাল ফিল্টার [[1, 0], [0, 1]] উপরে-বামে প্রয়োগ করা হচ্ছে           ইনপুট ম্যাট্রিক্সের 2x2 বিভাগ, যা [[128,97], [35,22]]।           কনভোলিউশনাল ফিল্টার 128 এবং 22 কে অক্ষত রাখে, কিন্তু শূন্য           97 এবং 35 এর বাইরে। ফলস্বরূপ, কনভোলিউশন অপারেশন ফল দেয়           মান 150 (128+22)।

একটি কনভোলিউশনাল লেয়ারে কনভোলিউশনাল ক্রিয়াকলাপগুলির একটি সিরিজ থাকে, প্রতিটি ইনপুট ম্যাট্রিক্সের একটি আলাদা স্লাইসে কাজ করে।

ডি

তথ্য বৃদ্ধি

#ছবি

কৃত্রিমভাবে অতিরিক্ত উদাহরণ তৈরি করতে বিদ্যমান উদাহরণগুলিকে রূপান্তর করে প্রশিক্ষণের উদাহরণের পরিসর এবং সংখ্যা বৃদ্ধি করা। উদাহরণ স্বরূপ, ধরুন ছবিগুলি আপনার বৈশিষ্ট্যগুলির মধ্যে একটি, কিন্তু আপনার ডেটাসেটে মডেলটির জন্য প্রয়োজনীয় অ্যাসোসিয়েশন শেখার জন্য যথেষ্ট ইমেজ উদাহরণ নেই৷ আদর্শভাবে, আপনার মডেলকে সঠিকভাবে প্রশিক্ষণ দিতে সক্ষম করার জন্য আপনি আপনার ডেটাসেটে পর্যাপ্ত লেবেলযুক্ত ছবি যুক্ত করবেন। যদি এটি সম্ভব না হয়, তবে ডেটা বর্ধন প্রতিটি চিত্রকে ঘোরাতে, প্রসারিত করতে এবং প্রতিফলিত করে মূল ছবির অনেকগুলি রূপ তৈরি করতে পারে, সম্ভবত চমৎকার প্রশিক্ষণ সক্ষম করার জন্য যথেষ্ট লেবেলযুক্ত ডেটা প্রদান করে।

গভীরভাবে বিভাজ্য কনভোলিউশনাল নিউরাল নেটওয়ার্ক (sepCNN)

#ছবি

ইনসেপশনের উপর ভিত্তি করে একটি কনভোল্যুশনাল নিউরাল নেটওয়ার্ক আর্কিটেকচার, কিন্তু যেখানে ইনসেপশন মডিউলগুলি গভীরভাবে বিভাজ্য কনভোলিউশন দিয়ে প্রতিস্থাপিত হয়। Xception নামেও পরিচিত।

একটি গভীরতার দিক থেকে বিভাজ্য কনভোলিউশন (এছাড়াও বিভাজ্য কনভোলিউশন হিসাবে সংক্ষেপে) একটি স্ট্যান্ডার্ড 3D কনভোলিউশনকে দুটি পৃথক কনভোলিউশন অপারেশনে পরিণত করে যেগুলি গণনাগতভাবে আরও দক্ষ: প্রথমত, একটি গভীরতার দিক থেকে কনভোলিউশন, যার গভীরতা 1 (n ✕ n ✕ 1), এবং তারপরে দ্বিতীয়, দৈর্ঘ্য এবং প্রস্থ 1 (1 ✕ 1 ✕ n)।

আরও জানতে, দেখুন এক্সসেপশন: ডিপ লার্নিং উইথ ডেপথওয়াইজ সেপারেবল কনভোলিউশন

ডাউনস্যাম্পলিং

#ছবি

ওভারলোড করা শব্দ যার অর্থ নিম্নলিখিত যেকোন একটি হতে পারে:

  • একটি মডেলকে আরও দক্ষতার সাথে প্রশিক্ষণ দেওয়ার জন্য একটি বৈশিষ্ট্যে তথ্যের পরিমাণ হ্রাস করা। উদাহরণস্বরূপ, একটি চিত্র সনাক্তকরণ মডেল প্রশিক্ষণের আগে, উচ্চ-রেজোলিউশনের চিত্রগুলিকে নিম্ন-রেজোলিউশন বিন্যাসে নামিয়ে আনা।
  • কম-প্রতিনিধিত্বশীল ক্লাসের মডেল প্রশিক্ষণ উন্নত করার জন্য ওভার-রিপ্রেজেন্টেড ক্লাসের উদাহরণগুলির একটি অসামঞ্জস্যপূর্ণভাবে কম শতাংশের উপর প্রশিক্ষণ। উদাহরণস্বরূপ, একটি শ্রেণী-ভারসাম্যহীন ডেটাসেটে , মডেলগুলি সংখ্যাগরিষ্ঠ শ্রেণী সম্পর্কে অনেক কিছু শিখতে থাকে এবং সংখ্যালঘু শ্রেণী সম্পর্কে যথেষ্ট নয়। ডাউনস্যাম্পলিং সংখ্যাগরিষ্ঠ এবং সংখ্যালঘু শ্রেণীর প্রশিক্ষণের পরিমাণের ভারসাম্য বজায় রাখতে সাহায্য করে।

আরও তথ্যের জন্য ডেটাসেট দেখুন: মেশিন লার্নিং ক্র্যাশ কোর্সে ভারসাম্যহীন ডেটাসেট

ফাইন-টিউনিং

#ভাষা
#ছবি
#generativeAI

একটি নির্দিষ্ট ব্যবহারের ক্ষেত্রে এর পরামিতিগুলিকে পরিমার্জিত করার জন্য একটি প্রাক-প্রশিক্ষিত মডেলে একটি দ্বিতীয়, টাস্ক-নির্দিষ্ট প্রশিক্ষণ পাস। উদাহরণস্বরূপ, কিছু বড় ভাষা মডেলের জন্য সম্পূর্ণ প্রশিক্ষণের ক্রম নিম্নরূপ:

  1. প্রাক-প্রশিক্ষণ: একটি বিশাল সাধারণ ডেটাসেটে একটি বৃহৎ ভাষার মডেলকে প্রশিক্ষণ দিন, যেমন সমস্ত ইংরেজি ভাষার উইকিপিডিয়া পৃষ্ঠা।
  2. ফাইন-টিউনিং: একটি নির্দিষ্ট কাজ করার জন্য প্রাক-প্রশিক্ষিত মডেলকে প্রশিক্ষণ দিন, যেমন মেডিকেল প্রশ্নের উত্তর দেওয়া। ফাইন-টিউনিংয়ে সাধারণত নির্দিষ্ট কাজের উপর দৃষ্টি নিবদ্ধ করে শত শত বা হাজার হাজার উদাহরণ জড়িত থাকে।

আরেকটি উদাহরণ হিসাবে, একটি বড় ইমেজ মডেলের জন্য সম্পূর্ণ প্রশিক্ষণের ক্রম নিম্নরূপ:

  1. প্রাক-প্রশিক্ষণ: একটি বিশাল সাধারণ ইমেজ ডেটাসেটে একটি বড় ইমেজ মডেলকে প্রশিক্ষণ দিন, যেমন উইকিমিডিয়া কমন্সের সমস্ত ছবি।
  2. ফাইন-টিউনিং: একটি নির্দিষ্ট কাজ সম্পাদন করার জন্য পূর্ব-প্রশিক্ষিত মডেলকে প্রশিক্ষণ দিন, যেমন অর্কাসের ছবি তৈরি করা।

ফাইন-টিউনিং নিম্নলিখিত কৌশলগুলির যেকোন সংমিশ্রণকে অন্তর্ভুক্ত করতে পারে:

  • প্রাক-প্রশিক্ষিত মডেলের বিদ্যমান পরামিতিগুলির সমস্ত পরিবর্তন করা। একে কখনও কখনও ফুল ফাইন-টিউনিং বলা হয়।
  • অন্যান্য বিদ্যমান পরামিতিগুলি অপরিবর্তিত রেখে (সাধারণত, ইনপুট স্তরের সবচেয়ে কাছের স্তরগুলি) রেখে শুধুমাত্র প্রাক-প্রশিক্ষিত মডেলের বিদ্যমান প্যারামিটারগুলির কিছু পরিবর্তন করা (সাধারণত, আউটপুট স্তরের নিকটতম স্তরগুলি)। প্যারামিটার-দক্ষ টিউনিং দেখুন।
  • আরও স্তর যুক্ত করা হচ্ছে, সাধারণত আউটপুট স্তরের নিকটতম বিদ্যমান স্তরগুলির উপরে।

ফাইন-টিউনিং হল ট্রান্সফার লার্নিং এর একটি ফর্ম। যেমন, ফাইন-টিউনিং একটি ভিন্ন লস ফাংশন ব্যবহার করতে পারে বা প্রাক-প্রশিক্ষিত মডেলকে প্রশিক্ষিত করতে ব্যবহৃত মডেলের তুলনায় ভিন্ন মডেলের ধরন ব্যবহার করতে পারে। উদাহরণস্বরূপ, আপনি একটি রিগ্রেশন মডেল তৈরি করতে একটি প্রাক-প্রশিক্ষিত বড় ইমেজ মডেলকে সূক্ষ্ম-টিউন করতে পারেন যা একটি ইনপুট চিত্রে পাখির সংখ্যা ফেরত দেয়।

নিম্নলিখিত পদগুলির সাথে ফাইন-টিউনিং তুলনা করুন এবং বৈসাদৃশ্য করুন:

আরও তথ্যের জন্য মেশিন লার্নিং ক্র্যাশ কোর্সে ফাইন-টিউনিং দেখুন।

জি

মিথুন

#ভাষা
#ছবি
#generativeAI

Google-এর সবচেয়ে উন্নত AI সমন্বিত ইকোসিস্টেম। এই ইকোসিস্টেমের উপাদানগুলির মধ্যে রয়েছে:

  • বিভিন্ন মিথুন মডেল
  • মিথুন মডেলের ইন্টারেক্টিভ কথোপকথন ইন্টারফেস। ব্যবহারকারীরা প্রম্পট টাইপ করে এবং মিথুন সেই প্রম্পটে সাড়া দেয়।
  • বিভিন্ন জেমিনি API
  • মিথুন মডেলের উপর ভিত্তি করে বিভিন্ন ব্যবসায়িক পণ্য; উদাহরণস্বরূপ, গুগল ক্লাউডের জন্য মিথুন

মিথুন মডেল

#ভাষা
#ছবি
#generativeAI

গুগলের অত্যাধুনিক ট্রান্সফরমার -ভিত্তিক মাল্টিমডাল মডেল । মিথুন মডেলগুলি বিশেষভাবে এজেন্টদের সাথে সংহত করার জন্য ডিজাইন করা হয়েছে৷

ব্যবহারকারীরা মিথুন মডেলের সাথে ইন্টারেক্টিভ ডায়ালগ ইন্টারফেস এবং SDK-এর মাধ্যমে বিভিন্ন উপায়ে যোগাযোগ করতে পারে।

জেনারেটিভ এআই

#ভাষা
#ছবি
#generativeAI

কোনো আনুষ্ঠানিক সংজ্ঞা ছাড়াই একটি উদীয়মান রূপান্তরমূলক ক্ষেত্র। এটি বলেছে, বেশিরভাগ বিশেষজ্ঞরা সম্মত হন যে জেনারেটিভ এআই মডেলগুলি নিম্নলিখিত সমস্ত সামগ্রী তৈরি করতে পারে ("উত্পন্ন"):

  • জটিল
  • সুসঙ্গত
  • মূল

উদাহরণস্বরূপ, একটি জেনারেটিভ এআই মডেল পরিশীলিত প্রবন্ধ বা চিত্র তৈরি করতে পারে।

LSTMs এবং RNN সহ কিছু আগের প্রযুক্তিও আসল এবং সুসংগত বিষয়বস্তু তৈরি করতে পারে। কিছু বিশেষজ্ঞ এই আগের প্রযুক্তিগুলিকে জেনারেটিভ AI হিসাবে দেখেন, অন্যরা মনে করেন যে সত্যিকারের জেনারেটিভ AI-এর জন্য আগের প্রযুক্তিগুলি তৈরি করতে পারে তার চেয়ে আরও জটিল আউটপুট প্রয়োজন।

ভবিষ্যদ্বাণীমূলক ML এর সাথে বৈসাদৃশ্য।

আমি

ইমেজ স্বীকৃতি

#ছবি

একটি প্রক্রিয়া যা একটি চিত্রের বস্তু(গুলি), প্যাটার্ন(গুলি), বা ধারণা(গুলি) শ্রেণীবদ্ধ করে৷ ইমেজ রিকগনিশন ইমেজ ক্লাসিফিকেশন নামেও পরিচিত।

আরও তথ্যের জন্য, এমএল প্র্যাকটিকাম: চিত্র শ্রেণীবিভাগ দেখুন।

আরও তথ্যের জন্য এমএল প্র্যাকটিকাম: ইমেজ ক্লাসিফিকেশন কোর্সটি দেখুন।

ইউনিয়নের উপর ছেদ (IoU)

#ছবি

তাদের মিলন দ্বারা বিভক্ত দুটি সেটের ছেদ। মেশিন-লার্নিং ইমেজ-ডিটেকশন টাস্কে, IoU গ্রাউন্ড-ট্রুথ বাউন্ডিং বক্সের সাপেক্ষে মডেলের ভবিষ্যদ্বাণীকৃত বাউন্ডিং বক্সের যথার্থতা পরিমাপ করতে ব্যবহৃত হয়। এই ক্ষেত্রে, দুটি বাক্সের জন্য IoU হল ওভারল্যাপিং এলাকা এবং মোট ক্ষেত্রফলের মধ্যে অনুপাত এবং এর মান 0 (পূর্বাভাসিত বাউন্ডিং বক্স এবং গ্রাউন্ড-ট্রুথ বাউন্ডিং বক্সের কোন ওভারল্যাপ নয়) থেকে 1 (পূর্বাভাসিত বাউন্ডিং বক্স এবং গ্রাউন্ড) পর্যন্ত -সত্য আবদ্ধ বাক্সে একই স্থানাঙ্ক রয়েছে)।

উদাহরণস্বরূপ, নীচের ছবিতে:

  • ভবিষ্যদ্বাণীকৃত বাউন্ডিং বাক্সটি (যে স্থানাঙ্কগুলি সীমাবদ্ধ করে যেখানে মডেলটি পেইন্টিংয়ের রাতের টেবিলের পূর্বাভাস দেয়) বেগুনি রঙে রূপরেখা দেওয়া হয়েছে।
  • গ্রাউন্ড-ট্রুথ বাউন্ডিং বক্স (পেইন্টিংয়ের রাতের টেবিলটি আসলে অবস্থিত যেখানে স্থানাঙ্কগুলি সীমাবদ্ধ করে) সবুজ রঙে রূপরেখা দেওয়া হয়েছে।

ভ্যান গগ আর্লেসের ভিনসেন্টের বেডরুমের ছবি আঁকছেন, দুটি ভিন্ন           বিছানার পাশে রাতের টেবিলের চারপাশে বাঁধা বাক্স। স্থল-সত্য           বাউন্ডিং বক্স (সবুজ রঙে) রাতের টেবিলটিকে পুরোপুরি ঘেরাও করে। দ           পূর্বাভাসিত বাউন্ডিং বক্স (বেগুনি রঙে) 50% নিচে এবং ডানদিকে অফসেট করা হয়েছে           স্থল-সত্য আবদ্ধ বাক্সের; এটি নীচে-ডান কোয়ার্টারকে ঘেরা           রাতের টেবিল, কিন্তু বাকি টেবিল মিস.

এখানে, ভবিষ্যদ্বাণী এবং গ্রাউন্ড ট্রুথের (নীচে বাম দিকে) বাউন্ডিং বাক্সগুলির ছেদ হল 1, এবং ভবিষ্যদ্বাণী এবং গ্রাউন্ড ট্রুথ (ডানদিকে নীচে) সীমাবদ্ধ বাক্সগুলির মিলন হল 7, তাই IoU হল \(\frac{1}{7}\).

উপরের মত একই চিত্র, কিন্তু প্রতিটি বাউন্ডিং বাক্সের সাথে চারটি ভাগে বিভক্ত           চতুর্ভুজ নীচে-ডানদিকে মোট সাতটি চতুর্ভুজ রয়েছে           গ্রাউন্ড-ট্রুথ বাউন্ডিং বক্সের চতুর্ভুজ এবং উপরের-বাম           পূর্বাভাসিত আবদ্ধ বাক্সের চতুর্ভুজ একে অপরকে ওভারল্যাপ করে। এই           ওভারল্যাপিং বিভাগ (সবুজ রঙে হাইলাইট করা) এর প্রতিনিধিত্ব করে           ছেদ, এবং 1 এর ক্ষেত্রফল আছে।উপরের মত একই চিত্র, কিন্তু প্রতিটি বাউন্ডিং বাক্সের সাথে চারটি ভাগে বিভক্ত           চতুর্ভুজ নীচে-ডানদিকে মোট সাতটি চতুর্ভুজ রয়েছে           গ্রাউন্ড-ট্রুথ বাউন্ডিং বক্সের চতুর্ভুজ এবং উপরের-বাম           পূর্বাভাসিত আবদ্ধ বাক্সের চতুর্ভুজ একে অপরকে ওভারল্যাপ করে।           সম্পূর্ণ অভ্যন্তর উভয় আবদ্ধ বাক্স দ্বারা ঘেরা           (সবুজ রঙে হাইলাইট) ইউনিয়ন প্রতিনিধিত্ব করে, এবং আছে           7 এর একটি এলাকা।

কে

মূল পয়েন্ট

#ছবি

একটি ছবিতে নির্দিষ্ট বৈশিষ্ট্যের স্থানাঙ্ক। উদাহরণস্বরূপ, একটি চিত্র স্বীকৃতি মডেল যা ফুলের প্রজাতিকে আলাদা করে, কীপয়েন্টগুলি প্রতিটি পাপড়ি, স্টেম, পুংকেশর এবং আরও অনেক কিছুর কেন্দ্র হতে পারে।

এল

ল্যান্ডমার্ক

#ছবি

কীপয়েন্টের প্রতিশব্দ।

এম

এমএমআইটি

#ভাষা
#ছবি
#generativeAI

মাল্টিমোডাল নির্দেশের সংক্ষিপ্ত রূপ।

MNIST

#ছবি

LeCun, Cortes, এবং Burges দ্বারা সংকলিত একটি পাবলিক-ডোমেন ডেটাসেট যেখানে 60,000টি ছবি রয়েছে, প্রতিটি ছবি দেখায় যে কীভাবে একজন মানুষ ম্যানুয়ালি 0-9 থেকে একটি নির্দিষ্ট অঙ্ক লিখেছেন। প্রতিটি ছবি পূর্ণসংখ্যার একটি 28x28 অ্যারে হিসাবে সংরক্ষণ করা হয়, যেখানে প্রতিটি পূর্ণসংখ্যা 0 এবং 255 এর মধ্যে একটি গ্রেস্কেল মান, অন্তর্ভুক্ত।

MNIST হল মেশিন লার্নিং এর জন্য একটি ক্যানোনিকাল ডেটাসেট, প্রায়শই নতুন মেশিন লার্নিং পদ্ধতির পরীক্ষা করতে ব্যবহৃত হয়। বিস্তারিত জানার জন্য, হাতে লেখা অঙ্কের MNIST ডেটাবেস দেখুন।

MOE

#ভাষা
#ছবি
#generativeAI

বিশেষজ্ঞদের মিশ্রণের সংক্ষিপ্ত রূপ।

পৃ

পুলিং

#ছবি

একটি ম্যাট্রিক্স (বা ম্যাট্রিক্স) কমিয়ে একটি ছোট ম্যাট্রিক্সে একটি পূর্ববর্তী কনভোলিউশনাল স্তর দ্বারা তৈরি করা। পুলিংয়ে সাধারণত পুল করা এলাকা জুড়ে সর্বোচ্চ বা গড় মান নেওয়া হয়। উদাহরণস্বরূপ, ধরুন আমাদের নিম্নলিখিত 3x3 ম্যাট্রিক্স রয়েছে:

3x3 ম্যাট্রিক্স [[5,3,1], [8,2,5], [9,4,3]]।

একটি পুলিং অপারেশন, ঠিক একটি কনভোলিউশনাল অপারেশনের মতো, সেই ম্যাট্রিক্সটিকে স্লাইসে বিভক্ত করে এবং তারপর স্ট্রাইডের মাধ্যমে সেই কনভোল্যুশনাল অপারেশনটিকে স্লাইড করে। উদাহরণ স্বরূপ, ধরুন পুলিং অপারেশন কনভোলিউশনাল ম্যাট্রিক্সকে 1x1 স্ট্রাইড সহ 2x2 স্লাইসে বিভক্ত করেছে। নিচের চিত্রটি চিত্রিত করে, চারটি পুলিং অপারেশন সঞ্চালিত হয়। কল্পনা করুন যে প্রতিটি পুলিং অপারেশন সেই স্লাইসে চারটির সর্বোচ্চ মান বেছে নেয়:

ইনপুট ম্যাট্রিক্স হল 3x3 মান সহ: [[5,3,1], [8,2,5], [9,4,3]]।           ইনপুট ম্যাট্রিক্সের উপরের-বাম 2x2 সাবম্যাট্রিক্স হল [[5,3], [8,2]], তাই           উপরের-বাম পুলিং অপারেশনের মান 8 পাওয়া যায় (যা           সর্বাধিক 5, 3, 8, এবং 2)। ইনপুটের উপরের-ডান 2x2 সাবম্যাট্রিক্স           ম্যাট্রিক্স হল [[3,1], [2,5]], তাই উপরের-ডান পুলিং অপারেশন ফল দেয়           মান 5. ইনপুট ম্যাট্রিক্সের নীচে-বাম 2x2 সাবম্যাট্রিক্স হল           [[8,2], [9,4]], তাই নীচে-বাম পুলিং অপারেশনটি মান দেয়           9. ইনপুট ম্যাট্রিক্সের নীচে-ডানদিকে 2x2 সাবম্যাট্রিক্স হল           [[2,5], [4,3]], তাই নিচের-ডানদিকে পুলিং অপারেশনের মান পাওয়া যায়           5. সংক্ষেপে, পুলিং অপারেশন 2x2 ম্যাট্রিক্স দেয়           [[8,5], [9,5]]।

পুলিং ইনপুট ম্যাট্রিক্সে অনুবাদমূলক ইনভেরিয়েন্স প্রয়োগ করতে সাহায্য করে।

ভিশন অ্যাপ্লিকেশনের জন্য পুলিং আরও আনুষ্ঠানিকভাবে স্থানিক পুলিং হিসাবে পরিচিত। টাইম-সিরিজ অ্যাপ্লিকেশনগুলি সাধারণত পুলিংকে টেম্পোরাল পুলিং হিসাবে উল্লেখ করে। কম আনুষ্ঠানিকভাবে, পুলিংকে প্রায়ই সাবস্যাম্পলিং বা ডাউনস্যাম্পলিং বলা হয়।

পোস্ট-প্রশিক্ষিত মডেল

#ভাষা
#ছবি
#generativeAI

ঢিলেঢালাভাবে সংজ্ঞায়িত শব্দ যা সাধারণত একটি প্রাক-প্রশিক্ষিত মডেলকে বোঝায় যা কিছু পোস্ট-প্রসেসিংয়ের মধ্য দিয়ে গেছে, যেমন নিচের এক বা একাধিক:

প্রাক-প্রশিক্ষিত মডেল

#ভাষা
#ছবি
#generativeAI

সাধারণত, একটি মডেল যা ইতিমধ্যে প্রশিক্ষিত হয়েছে। শব্দটি একটি পূর্বে প্রশিক্ষিত এমবেডিং ভেক্টরকেও বোঝাতে পারে।

প্রাক-প্রশিক্ষিত ভাষা মডেল শব্দটি সাধারণত একটি ইতিমধ্যে প্রশিক্ষিত বড় ভাষা মডেলকে বোঝায়।

প্রাক-প্রশিক্ষণ

#ভাষা
#ছবি
#generativeAI

একটি বড় ডেটাসেটে একটি মডেলের প্রাথমিক প্রশিক্ষণ৷ কিছু প্রাক-প্রশিক্ষিত মডেল হল আনাড়ি জায়ান্ট এবং সাধারণত অতিরিক্ত প্রশিক্ষণের মাধ্যমে পরিমার্জিত হতে হবে। উদাহরণস্বরূপ, এমএল বিশেষজ্ঞরা একটি বিশাল টেক্সট ডেটাসেটে, যেমন উইকিপিডিয়ার সমস্ত ইংরেজি পৃষ্ঠাগুলিতে একটি বড় ভাষার মডেলকে প্রাক-প্রশিক্ষণ দিতে পারে। প্রাক-প্রশিক্ষণের পরে, ফলস্বরূপ মডেলটি নিম্নলিখিত কৌশলগুলির মাধ্যমে আরও পরিমার্জিত হতে পারে:

আর

ঘূর্ণনশীল পরিবর্তন

#ছবি

একটি ইমেজ শ্রেণীবিভাগের সমস্যায়, একটি অ্যালগরিদমের সক্ষমতা সফলভাবে ছবি শ্রেণীবদ্ধ করতে এমনকি যখন চিত্রের অভিযোজন পরিবর্তিত হয়। উদাহরণস্বরূপ, অ্যালগরিদম এখনও একটি টেনিস র‌্যাকেটকে চিহ্নিত করতে পারে যে এটি উপরে, পাশে বা নীচে নির্দেশ করে। উল্লেখ্য যে ঘূর্ণনগত পরিবর্তন সবসময় কাম্য নয়; উদাহরণস্বরূপ, একটি উল্টো-ডাউন 9 কে 9 হিসাবে শ্রেণীবদ্ধ করা উচিত নয়৷

এছাড়াও অনুবাদমূলক ইনভেরিয়েন্স এবং সাইজ ইনভেরিয়েন্স দেখুন।

এস

আকার পরিবর্তন

#ছবি

একটি ইমেজ শ্রেণীবিভাগ সমস্যায়, একটি অ্যালগরিদমের ক্ষমতা সফলভাবে ছবি শ্রেণীবদ্ধ করার ক্ষমতা এমনকি যখন ছবির আকার পরিবর্তন হয়। উদাহরণস্বরূপ, অ্যালগরিদম এখনও একটি বিড়ালকে শনাক্ত করতে পারে যে এটি 2M পিক্সেল বা 200K পিক্সেল ব্যবহার করে। মনে রাখবেন যে এমনকি সেরা ইমেজ শ্রেণীবিভাগের অ্যালগরিদমগুলির এখনও আকারের পরিবর্তনের ব্যবহারিক সীমা রয়েছে। উদাহরণস্বরূপ, একটি অ্যালগরিদম (বা মানুষের) শুধুমাত্র 20 পিক্সেল খরচ করে এমন একটি বিড়ালের ছবিকে সঠিকভাবে শ্রেণীবদ্ধ করার সম্ভাবনা নেই।

এছাড়াও ট্রান্সলেশনাল ইনভেরিয়েন্স এবং রোটেশনাল ইনভেরিয়েন্স দেখুন।

স্থানিক পুলিং

#ছবি

পুলিং দেখুন।

অগ্রসর

#ছবি

একটি কনভোল্যুশনাল অপারেশন বা পুলিং-এ, ইনপুট স্লাইসের পরবর্তী সিরিজের প্রতিটি মাত্রায় ডেল্টা। উদাহরণস্বরূপ, নিম্নোক্ত অ্যানিমেশনটি একটি কনভোল্যুশনাল অপারেশন চলাকালীন একটি (1,1) অগ্রগতি প্রদর্শন করে। অতএব, পরবর্তী ইনপুট স্লাইস পূর্ববর্তী ইনপুট স্লাইসের ডানদিকে একটি অবস্থান শুরু করে। যখন অপারেশনটি ডান প্রান্তে পৌঁছায়, তখন পরবর্তী স্লাইসটি বাম দিকে থাকে কিন্তু একটি অবস্থান নিচে থাকে।

একটি ইনপুট 5x5 ম্যাট্রিক্স এবং একটি 3x3 কনভোলিউশনাল ফিল্টার। কারণ      স্ট্রাইড হল (1,1), একটি কনভোলিউশনাল ফিল্টার 9 বার প্রয়োগ করা হবে। প্রথম      কনভোলিউশনাল স্লাইস ইনপুটের উপরের-বাম 3x3 সাবম্যাট্রিক্সের মূল্যায়ন করে      ম্যাট্রিক্স দ্বিতীয় স্লাইস শীর্ষ-মধ্য 3x3 মূল্যায়ন করে      সাবম্যাট্রিক্স তৃতীয় কনভোল্যুশনাল স্লাইস উপরের-ডান 3x3 মূল্যায়ন করে      সাবম্যাট্রিক্স  চতুর্থ স্লাইস মধ্য-বাম 3x3 সাবম্যাট্রিক্স মূল্যায়ন করে।      পঞ্চম স্লাইস মধ্যম 3x3 সাবম্যাট্রিক্স মূল্যায়ন করে। ষষ্ঠ ফালি      মধ্য-ডান 3x3 সাবম্যাট্রিক্স মূল্যায়ন করে। সপ্তম স্লাইস মূল্যায়ন      নীচে-বাম 3x3 সাবম্যাট্রিক্স।  অষ্টম স্লাইস মূল্যায়ন      নীচে-মধ্য 3x3 সাবম্যাট্রিক্স। নবম স্লাইস নীচে-ডান 3x3 মূল্যায়ন করে      সাবম্যাট্রিক্স

পূর্বের উদাহরণটি একটি দ্বি-মাত্রিক অগ্রগতি প্রদর্শন করে। যদি ইনপুট ম্যাট্রিক্স ত্রিমাত্রিক হয়, তাহলে স্ট্রাইডও ত্রিমাত্রিক হবে।

সাবস্যাম্পলিং

#ছবি

পুলিং দেখুন।

টি

তাপমাত্রা

#ভাষা
#ছবি
#generativeAI

একটি হাইপারপ্যারামিটার যা একটি মডেলের আউটপুটের এলোমেলোতার মাত্রা নিয়ন্ত্রণ করে। উচ্চ তাপমাত্রার ফলে আরও এলোমেলো আউটপুট হয়, যখন কম তাপমাত্রার ফলে কম এলোমেলো আউটপুট হয়।

সেরা তাপমাত্রা নির্বাচন নির্দিষ্ট অ্যাপ্লিকেশন এবং মডেলের আউটপুট পছন্দের বৈশিষ্ট্য উপর নির্ভর করে। উদাহরণস্বরূপ, সৃজনশীল আউটপুট তৈরি করে এমন একটি অ্যাপ্লিকেশন তৈরি করার সময় আপনি সম্ভবত তাপমাত্রা বাড়াবেন। বিপরীতভাবে, মডেলের নির্ভুলতা এবং ধারাবাহিকতা উন্নত করার জন্য চিত্র বা পাঠ্যকে শ্রেণীবদ্ধ করে এমন একটি মডেল তৈরি করার সময় আপনি সম্ভবত তাপমাত্রা কমিয়ে দেবেন।

তাপমাত্রা প্রায়ই softmax সঙ্গে ব্যবহার করা হয়.

অনুবাদমূলক অসঙ্গতি

#ছবি

একটি চিত্র শ্রেণিবিন্যাসের সমস্যায়, একটি অ্যালগরিদমের ক্ষমতা সফলভাবে চিত্রগুলিকে শ্রেণিবদ্ধ করতে পারে এমনকি যখন চিত্রের মধ্যে বস্তুর অবস্থান পরিবর্তিত হয়। উদাহরণস্বরূপ, অ্যালগরিদম এখনও একটি কুকুরকে শনাক্ত করতে পারে, তা ফ্রেমের কেন্দ্রে বা ফ্রেমের বাম প্রান্তে হোক।

সাইজ ইনভেরিয়েন্স এবং রোটেশনাল ইনভেরিয়েন্সও দেখুন।