মেশিন লার্নিং শব্দকোষ: ইমেজ মডেল

এই পৃষ্ঠায় ইমেজ মডেলের শব্দকোষ রয়েছে। সকল শব্দকোষের জন্য এখানে ক্লিক করুন

উদ্দীপিত বাস্তবতা

#ছবি

একটি প্রযুক্তি যা একটি কম্পিউটার-উত্পাদিত চিত্রকে বাস্তব জগতের একজন ব্যবহারকারীর দৃষ্টিভঙ্গির উপর তুলে ধরে, এইভাবে একটি যৌগিক দৃশ্য প্রদান করে।

অটোএনকোডার

#ভাষা
#ছবি

একটি সিস্টেম যা ইনপুট থেকে সবচেয়ে গুরুত্বপূর্ণ তথ্য বের করতে শেখে। অটোএনকোডার হল একটি এনকোডার এবং ডিকোডারের সংমিশ্রণ। অটোএনকোডারগুলি নিম্নলিখিত দ্বি-পদক্ষেপ প্রক্রিয়ার উপর নির্ভর করে:

  1. এনকোডার ইনপুটকে একটি (সাধারণত) ক্ষতিকর নিম্ন-মাত্রিক (মধ্যবর্তী) বিন্যাসে ম্যাপ করে।
  2. ডিকোডার নিম্ন-মাত্রিক বিন্যাসটিকে মূল উচ্চ-মাত্রিক ইনপুট বিন্যাসে ম্যাপ করে মূল ইনপুটের একটি ক্ষতিকারক সংস্করণ তৈরি করে।

এনকোডারের মধ্যবর্তী বিন্যাস থেকে যতটা সম্ভব ঘনিষ্ঠভাবে মূল ইনপুট পুনর্গঠন করার জন্য ডিকোডার প্রচেষ্টার মাধ্যমে অটোএনকোডারদের এন্ড-টু-এন্ড প্রশিক্ষিত করা হয়। মধ্যবর্তী বিন্যাসটি মূল বিন্যাসের চেয়ে ছোট (নিম্ন-মাত্রিক) হওয়ায়, অটোএনকোডারকে ইনপুটে কোন তথ্য অপরিহার্য তা শিখতে বাধ্য করা হয় এবং আউটপুটটি ইনপুটের সাথে পুরোপুরি অভিন্ন হবে না।

উদাহরণ স্বরূপ:

  • যদি ইনপুট ডেটা একটি গ্রাফিক হয়, অ-নির্ভুল অনুলিপিটি মূল গ্রাফিকের অনুরূপ হবে, তবে কিছুটা পরিবর্তিত হবে। সম্ভবত অ-নির্ভুল অনুলিপি মূল গ্রাফিক থেকে শব্দ সরিয়ে দেয় বা কিছু অনুপস্থিত পিক্সেল পূরণ করে।
  • যদি ইনপুট ডেটা পাঠ্য হয় তবে একটি অটোএনকোডার নতুন পাঠ্য তৈরি করবে যা মূল পাঠ্যের অনুকরণ করে (কিন্তু অনুরূপ নয়)।

এছাড়াও পরিবর্তনশীল অটোএনকোডার দেখুন।

অটো রিগ্রেসিভ মডেল

#ভাষা
#ছবি
#generativeAI

একটি মডেল যা তার নিজের পূর্বের ভবিষ্যদ্বাণীগুলির উপর ভিত্তি করে একটি ভবিষ্যদ্বাণী অনুমান করে৷ উদাহরণস্বরূপ, অটো-রিগ্রেসিভ ল্যাঙ্গুয়েজ মডেলগুলি পূর্বে ভবিষ্যদ্বাণী করা টোকেনের উপর ভিত্তি করে পরবর্তী টোকেনের পূর্বাভাস দেয়। সমস্ত ট্রান্সফরমার -ভিত্তিক বৃহৎ ভাষার মডেলগুলি স্বয়ংক্রিয়-রিগ্রেসিভ।

বিপরীতে, GAN- ভিত্তিক ইমেজ মডেলগুলি সাধারণত অটো-রিগ্রেসিভ হয় না কারণ তারা একটি একক ফরোয়ার্ড-পাসে একটি ইমেজ তৈরি করে এবং ধাপে ধাপে নয়। যাইহোক, কিছু ইমেজ জেনারেশন মডেল অটো রিগ্রেসিভ কারণ তারা ধাপে ধাপে একটি ইমেজ তৈরি করে।

সীমান্ত বক্স

#ছবি

একটি ছবিতে, ( x , y ) একটি আয়তক্ষেত্রের স্থানাঙ্কগুলি আগ্রহের জায়গার চারপাশে, যেমন নীচের ছবিতে কুকুরটি৷

সোফায় বসে থাকা কুকুরের ছবি। (275, 1271) উপরে-বাম স্থানাঙ্ক এবং (2954, 2761) নীচে-ডান স্থানাঙ্ক সহ একটি সবুজ বাউন্ডিং বাক্স কুকুরের শরীরকে ঘিরে রেখেছে

আবর্তন

#ছবি

গণিতে, আকস্মিকভাবে বলতে গেলে, দুটি ফাংশনের মিশ্রণ। মেশিন লার্নিং-এ, একটি কনভোলিউশন কনভোলিউশনাল ফিল্টার এবং ইনপুট ম্যাট্রিক্সকে মিশ্রিত করে ওজন প্রশিক্ষণের জন্য।

মেশিন লার্নিং-এ "কনভোলিউশন" শব্দটি প্রায়শই কনভোলিউশনাল অপারেশন বা কনভোল্যুশনাল লেয়ারকে বোঝানোর একটি সংক্ষিপ্ত উপায়।

কনভল্যুশন ছাড়া, একটি মেশিন লার্নিং অ্যালগরিদমকে একটি বড় টেনসরের প্রতিটি কোষের জন্য একটি পৃথক ওজন শিখতে হবে। উদাহরণস্বরূপ, 2K x 2K চিত্রগুলিতে একটি মেশিন লার্নিং অ্যালগরিদম প্রশিক্ষণকে 4M পৃথক ওজন খুঁজে বের করতে বাধ্য করা হবে। কনভোল্যুশনের জন্য ধন্যবাদ, একটি মেশিন লার্নিং অ্যালগরিদমকে শুধুমাত্র কনভোলিউশনাল ফিল্টারে প্রতিটি সেলের জন্য ওজন খুঁজে বের করতে হয়, যা মডেলটিকে প্রশিক্ষণের জন্য প্রয়োজনীয় স্মৃতিকে নাটকীয়ভাবে হ্রাস করে। যখন কনভোলিউশনাল ফিল্টার প্রয়োগ করা হয়, তখন এটি কেবল কোষ জুড়ে প্রতিলিপি করা হয় যাতে প্রতিটি ফিল্টার দ্বারা গুণিত হয়।

convolutional ফিল্টার

#ছবি

দুই অভিনেতার মধ্যে একজন কনভোলেশনাল অপারেশনে । (অন্য অভিনেতাটি একটি ইনপুট ম্যাট্রিক্সের একটি স্লাইস।) একটি কনভোলিউশনাল ফিল্টার হল একটি ম্যাট্রিক্স যার র্যাঙ্ক ইনপুট ম্যাট্রিক্সের সমান, কিন্তু একটি ছোট আকার। উদাহরণস্বরূপ, একটি 28x28 ইনপুট ম্যাট্রিক্স দেওয়া হলে, ফিল্টারটি 28x28 এর চেয়ে ছোট যে কোনো 2D ম্যাট্রিক্স হতে পারে।

ফটোগ্রাফিক ম্যানিপুলেশনে, একটি কনভোল্যুশনাল ফিল্টারের সমস্ত কোষ সাধারণত এক এবং শূন্যের একটি ধ্রুবক প্যাটার্নে সেট করা হয়। মেশিন লার্নিং-এ, কনভোলিউশনাল ফিল্টারগুলি সাধারণত র্যান্ডম সংখ্যার সাথে বীজ হয় এবং তারপরে নেটওয়ার্ক আদর্শ মানগুলিকে প্রশিক্ষণ দেয়

আবর্তিত স্তর

#ছবি

একটি গভীর নিউরাল নেটওয়ার্কের একটি স্তর যেখানে একটি কনভোলিউশনাল ফিল্টার একটি ইনপুট ম্যাট্রিক্স বরাবর যায়। উদাহরণস্বরূপ, নিম্নলিখিত 3x3 কনভোলিউশনাল ফিল্টার বিবেচনা করুন:

নিম্নলিখিত মান সহ একটি 3x3 ম্যাট্রিক্স: [[0,1,0], [1,0,1], [0,1,0]]

নিম্নলিখিত অ্যানিমেশনটি 5x5 ইনপুট ম্যাট্রিক্সের সাথে জড়িত 9টি রূপান্তরমূলক ক্রিয়াকলাপ সমন্বিত একটি রূপান্তরমূলক স্তর দেখায়। লক্ষ্য করুন যে প্রতিটি কনভোলিউশনাল অপারেশন ইনপুট ম্যাট্রিক্সের একটি ভিন্ন 3x3 স্লাইসে কাজ করে। ফলস্বরূপ 3x3 ম্যাট্রিক্স (ডান দিকে) 9টি কনভোলিউশনাল অপারেশনের ফলাফল নিয়ে গঠিত:

দুটি ম্যাট্রিক্স দেখানো একটি অ্যানিমেশন। প্রথম ম্যাট্রিক্স হল 5x5 ম্যাট্রিক্স: [[128,97,53,201,198], [35,22,25,200,195], [37,24,28,197,182], [33,28,92,195,179], [10,74], [31,74]। দ্বিতীয় ম্যাট্রিক্স হল 3x3 ম্যাট্রিক্স: [[181,303,618], [115,338,605], [169,351,560]]। দ্বিতীয় ম্যাট্রিক্সটি 5x5 ম্যাট্রিক্সের বিভিন্ন 3x3 উপসেট জুড়ে কনভোলিউশনাল ফিল্টার [[0, 1, 0], [1, 0, 1], [0, 1, 0]] প্রয়োগ করে গণনা করা হয়।

কনভোল্যুশনাল নিউরাল নেটওয়ার্ক

#ছবি

একটি নিউরাল নেটওয়ার্ক যেখানে অন্তত একটি স্তর একটি কনভোলিউশনাল স্তর । একটি সাধারণ কনভোলিউশনাল নিউরাল নেটওয়ার্ক নিম্নলিখিত স্তরগুলির কিছু সমন্বয় নিয়ে গঠিত:

কনভোল্যুশনাল নিউরাল নেটওয়ার্কগুলি নির্দিষ্ট ধরণের সমস্যা যেমন ইমেজ স্বীকৃতিতে দুর্দান্ত সাফল্য পেয়েছে।

convolutional অপারেশন

#ছবি

নিম্নলিখিত দ্বি-পদক্ষেপ গাণিতিক অপারেশন:

  1. কনভোল্যুশনাল ফিল্টার এবং একটি ইনপুট ম্যাট্রিক্সের একটি স্লাইসের উপাদান-ভিত্তিক গুণ। (ইনপুট ম্যাট্রিক্সের স্লাইসটি কনভোলিউশনাল ফিল্টারের মতো একই র্যাঙ্ক এবং আকার রয়েছে।)
  2. ফলিত পণ্য ম্যাট্রিক্সে সমস্ত মানের সমষ্টি।

উদাহরণস্বরূপ, নিম্নলিখিত 5x5 ইনপুট ম্যাট্রিক্স বিবেচনা করুন:

5x5 ম্যাট্রিক্স: [[128,97,53,201,198], [35,22,25,200,195], [37,24,28,197,182], [33,28,92,195,179], [31,40,197,107]।

এখন নিম্নলিখিত 2x2 কনভোলিউশনাল ফিল্টারটি কল্পনা করুন:

2x2 ম্যাট্রিক্স: [[1, 0], [0, 1]]

প্রতিটি কনভোলিউশনাল অপারেশন ইনপুট ম্যাট্রিক্সের একটি একক 2x2 স্লাইস জড়িত। উদাহরণস্বরূপ, ধরুন আমরা ইনপুট ম্যাট্রিক্সের উপরের-বাম দিকে 2x2 স্লাইস ব্যবহার করি। সুতরাং, এই স্লাইসে কনভল্যুশন অপারেশনটি নিম্নরূপ দেখায়:

ইনপুট ম্যাট্রিক্সের উপরের-বাম 2x2 বিভাগে কনভোলিউশনাল ফিল্টার [[1, 0], [0, 1]] প্রয়োগ করা হচ্ছে, যা [[128,97], [35,22]]। কনভোলিউশন ফিল্টার 128 এবং 22 কে অক্ষত রাখে, কিন্তু 97 এবং 35 কে শূন্য করে দেয়। ফলস্বরূপ, কনভোলিউশন অপারেশন মান 150 (128+22) দেয়।

একটি কনভোলিউশনাল লেয়ারে কনভোলিউশনাল ক্রিয়াকলাপগুলির একটি সিরিজ থাকে, প্রতিটি ইনপুট ম্যাট্রিক্সের একটি আলাদা স্লাইসে কাজ করে।

ডি

তথ্য বৃদ্ধি

#ছবি

কৃত্রিমভাবে অতিরিক্ত উদাহরণ তৈরি করতে বিদ্যমান উদাহরণগুলিকে রূপান্তর করে প্রশিক্ষণের উদাহরণের পরিসর এবং সংখ্যা বৃদ্ধি করা। উদাহরণ স্বরূপ, ধরুন ছবিগুলি আপনার বৈশিষ্ট্যগুলির মধ্যে একটি, কিন্তু আপনার ডেটাসেটে মডেলটির জন্য দরকারী অ্যাসোসিয়েশনগুলি শেখার জন্য যথেষ্ট ইমেজ উদাহরণ নেই৷ আদর্শভাবে, আপনি আপনার মডেলকে সঠিকভাবে প্রশিক্ষণ দিতে সক্ষম করতে আপনার ডেটাসেটে পর্যাপ্ত লেবেলযুক্ত ছবি যুক্ত করবেন। যদি তা সম্ভব না হয়, তবে ডেটা অগমেন্টেশন প্রতিটি চিত্রকে ঘোরাতে, প্রসারিত করতে এবং প্রতিফলিত করতে পারে মূল ছবির অনেকগুলি রূপ তৈরি করতে, সম্ভবত চমৎকার প্রশিক্ষণ সক্ষম করার জন্য যথেষ্ট লেবেলযুক্ত ডেটা প্রদান করে।

গভীরভাবে বিভাজ্য কনভোলিউশনাল নিউরাল নেটওয়ার্ক (sepCNN)

#ছবি

ইনসেপশনের উপর ভিত্তি করে একটি কনভোলিউশনাল নিউরাল নেটওয়ার্ক আর্কিটেকচার, কিন্তু যেখানে ইনসেপশন মডিউলগুলিকে গভীরভাবে বিভাজ্য কনভোলিউশন দিয়ে প্রতিস্থাপিত করা হয়। Xception নামেও পরিচিত।

একটি গভীরতার দিক থেকে বিভাজ্য কনভোলিউশন (এছাড়াও বিভাজ্য কনভোলিউশন হিসাবে সংক্ষেপে) একটি স্ট্যান্ডার্ড 3D কনভোলিউশনকে দুটি পৃথক কনভোলিউশন অপারেশনে পরিণত করে যেগুলি গণনাগতভাবে আরও দক্ষ: প্রথমত, একটি গভীরতার দিক থেকে কনভোলিউশন, যার গভীরতা 1 (n ✕ n ✕ 1), এবং তারপরে দ্বিতীয়, দৈর্ঘ্য এবং প্রস্থ 1 (1 ✕ 1 ✕ n) সহ একটি পয়েন্টওয়াইজ কনভোল্যুশন।

আরও জানতে, এক্সসেপশন দেখুন: গভীরভাবে বিভাজ্য কনভোলিউশনের সাথে গভীর শিক্ষা

ডাউনস্যাম্পলিং

#ছবি

ওভারলোড করা শব্দ যার অর্থ নিম্নলিখিত যেকোন একটি হতে পারে:

  • একটি মডেলকে আরও দক্ষতার সাথে প্রশিক্ষণ দেওয়ার জন্য একটি বৈশিষ্ট্যে তথ্যের পরিমাণ হ্রাস করা। উদাহরণস্বরূপ, একটি চিত্র শনাক্তকরণ মডেল প্রশিক্ষণের আগে, উচ্চ-রেজোলিউশনের চিত্রগুলিকে নিম্ন-রেজোলিউশন বিন্যাসে নামিয়ে নিন।
  • কম-প্রতিনিধিত্বশীল ক্লাসের মডেল প্রশিক্ষণের উন্নতির জন্য অতিরিক্ত-প্রস্তুতিবদ্ধ শ্রেণীর উদাহরণগুলির একটি অসমনুপাতিকভাবে কম শতাংশের উপর প্রশিক্ষণ। উদাহরণস্বরূপ, একটি শ্রেণী-ভারসাম্যহীন ডেটাসেটে , মডেলগুলি সংখ্যাগরিষ্ঠ শ্রেণী সম্পর্কে অনেক কিছু শিখতে থাকে এবং সংখ্যালঘু শ্রেণী সম্পর্কে যথেষ্ট নয়। ডাউনস্যাম্পলিং সংখ্যাগরিষ্ঠ এবং সংখ্যালঘু শ্রেণীর প্রশিক্ষণের পরিমাণের ভারসাম্য বজায় রাখতে সাহায্য করে।

ফাইন টিউনিং

#ভাষা
#ছবি
#generativeAI

একটি নির্দিষ্ট ব্যবহারের ক্ষেত্রে এর পরামিতিগুলিকে পরিমার্জিত করার জন্য একটি প্রাক-প্রশিক্ষিত মডেলে একটি দ্বিতীয়, টাস্ক-নির্দিষ্ট প্রশিক্ষণ পাস। উদাহরণস্বরূপ, কিছু বড় ভাষা মডেলের জন্য সম্পূর্ণ প্রশিক্ষণের ক্রম নিম্নরূপ:

  1. প্রাক-প্রশিক্ষণ: একটি বিশাল সাধারণ ডেটাসেটে একটি বৃহৎ ভাষার মডেলকে প্রশিক্ষণ দিন, যেমন সমস্ত ইংরেজি ভাষার উইকিপিডিয়া পৃষ্ঠা।
  2. ফাইন-টিউনিং: একটি নির্দিষ্ট কাজ করার জন্য প্রাক-প্রশিক্ষিত মডেলকে প্রশিক্ষণ দিন, যেমন মেডিকেল প্রশ্নের উত্তর দেওয়া। ফাইন-টিউনিংয়ে সাধারণত শত শত বা হাজার হাজার উদাহরণ থাকে যা নির্দিষ্ট কাজের উপর দৃষ্টি নিবদ্ধ করে।

আরেকটি উদাহরণ হিসাবে, একটি বড় ইমেজ মডেলের জন্য সম্পূর্ণ প্রশিক্ষণের ক্রম নিম্নরূপ:

  1. প্রাক-প্রশিক্ষণ: একটি বিশাল সাধারণ ইমেজ ডেটাসেটে একটি বড় ইমেজ মডেলকে প্রশিক্ষণ দিন, যেমন উইকিমিডিয়া কমন্সের সমস্ত ছবি।
  2. ফাইন-টিউনিং: একটি নির্দিষ্ট কাজ সম্পাদন করার জন্য পূর্ব-প্রশিক্ষিত মডেলকে প্রশিক্ষণ দিন, যেমন অর্কাসের ছবি তৈরি করা।

ফাইন-টিউনিং নিম্নলিখিত কৌশলগুলির যেকোন সংমিশ্রণকে অন্তর্ভুক্ত করতে পারে:

  • প্রাক-প্রশিক্ষিত মডেলের বিদ্যমান পরামিতিগুলির সমস্ত পরিবর্তন করা। একে কখনও কখনও ফুল ফাইন-টিউনিং বলা হয়।
  • অন্যান্য বিদ্যমান প্যারামিটার অপরিবর্তিত রেখে (সাধারণত, ইনপুট স্তরের সবচেয়ে কাছের স্তরগুলি) রেখে শুধুমাত্র প্রাক-প্রশিক্ষিত মডেলের বিদ্যমান পরামিতিগুলির কিছু পরিবর্তন করা (সাধারণত, আউটপুট স্তরের নিকটতম স্তরগুলি)। প্যারামিটার-দক্ষ টিউনিং দেখুন।
  • আরও স্তর যোগ করা হচ্ছে, সাধারণত আউটপুট স্তরের নিকটতম বিদ্যমান স্তরগুলির উপরে।

ফাইন-টিউনিং হল ট্রান্সফার লার্নিং এর একটি ফর্ম। যেমন, ফাইন-টিউনিং একটি ভিন্ন লস ফাংশন ব্যবহার করতে পারে বা প্রাক-প্রশিক্ষিত মডেলকে প্রশিক্ষণের জন্য ব্যবহৃত একটি ভিন্ন মডেলের ধরন ব্যবহার করতে পারে। উদাহরণস্বরূপ, আপনি একটি রিগ্রেশন মডেল তৈরি করতে একটি প্রাক-প্রশিক্ষিত বড় ইমেজ মডেলকে সূক্ষ্ম-টিউন করতে পারেন যা একটি ইনপুট চিত্রে পাখির সংখ্যা ফেরত দেয়।

নিম্নোক্ত পদগুলির সাথে ফাইন-টিউনিং তুলনা করুন এবং বৈসাদৃশ্য করুন:

জি

জেনারেটিভ এআই

#ভাষা
#ছবি
#generativeAI

কোনো আনুষ্ঠানিক সংজ্ঞা ছাড়াই একটি উদীয়মান রূপান্তরমূলক ক্ষেত্র। এটি বলেছে, বেশিরভাগ বিশেষজ্ঞরা সম্মত হন যে জেনারেটিভ এআই মডেলগুলি নিম্নলিখিত সমস্ত সামগ্রী তৈরি করতে পারে ("উত্পন্ন"):

  • জটিল
  • সুসঙ্গত
  • মূল

উদাহরণস্বরূপ, একটি জেনারেটিভ এআই মডেল পরিশীলিত প্রবন্ধ বা চিত্র তৈরি করতে পারে।

LSTM এবং RNN সহ কিছু পূর্বের প্রযুক্তিও মূল এবং সুসংগত বিষয়বস্তু তৈরি করতে পারে। কিছু বিশেষজ্ঞ এই আগের প্রযুক্তিগুলিকে জেনারেটিভ AI হিসাবে দেখেন, অন্যরা মনে করেন যে সত্যিকারের জেনারেটিভ AI-এর জন্য আগের প্রযুক্তিগুলি তৈরি করতে পারে তার চেয়ে আরও জটিল আউটপুট প্রয়োজন।

ভবিষ্যদ্বাণীমূলক ML এর সাথে বৈসাদৃশ্য।

আমি

ইমেজ স্বীকৃতি

#ছবি

একটি প্রক্রিয়া যা একটি চিত্রের বস্তু(গুলি), প্যাটার্ন(গুলি), বা ধারণা(গুলি) শ্রেণীবদ্ধ করে৷ ইমেজ রিকগনিশন ইমেজ ক্লাসিফিকেশন নামেও পরিচিত।

আরও তথ্যের জন্য, এমএল প্র্যাকটিকাম: চিত্র শ্রেণিবিন্যাস দেখুন।

ইউনিয়নের উপর ছেদ (IoU)

#ছবি

তাদের মিলন দ্বারা বিভক্ত দুটি সেটের ছেদ। মেশিন-লার্নিং ইমেজ-ডিটেকশন টাস্কে, IoU ব্যবহার করা হয় গ্রাউন্ড-ট্রুথ বাউন্ডিং বক্সের সাপেক্ষে মডেলের ভবিষ্যদ্বাণীকৃত বাউন্ডিং বক্সের যথার্থতা পরিমাপ করতে। এই ক্ষেত্রে, দুটি বাক্সের জন্য IoU হল ওভারল্যাপিং এলাকা এবং মোট ক্ষেত্রফলের মধ্যে অনুপাত, এবং এর মান 0 (অনুমানিত বাউন্ডিং বক্স এবং গ্রাউন্ড-ট্রুথ বাউন্ডিং বক্সের কোন ওভারল্যাপ নয়) থেকে 1 (পূর্বাভাসিত বাউন্ডিং বক্স এবং গ্রাউন্ড) পর্যন্ত -সত্য আবদ্ধ বাক্সে একই স্থানাঙ্ক রয়েছে)।

উদাহরণস্বরূপ, নীচের ছবিতে:

  • ভবিষ্যদ্বাণীকৃত বাউন্ডিং বাক্সটি (যে স্থানাঙ্কগুলি সীমাবদ্ধ করে যেখানে মডেলটি পেইন্টিংয়ের রাতের টেবিলের পূর্বাভাস দেয়) বেগুনি রঙে রূপরেখা দেওয়া হয়েছে।
  • গ্রাউন্ড-ট্রুথ বাউন্ডিং বক্স (পেইন্টিংয়ের রাতের টেবিলটি আসলে অবস্থিত যেখানে স্থানাঙ্কগুলি সীমাবদ্ধ করে) সবুজ রঙে রূপরেখা দেওয়া হয়েছে।

ভ্যান গগ আরলেসের ভিনসেন্টের বেডরুমের ছবি আঁকছেন, বিছানার পাশে রাতের টেবিলের চারপাশে দুটি আলাদা বাউন্ডিং বাক্স রয়েছে। গ্রাউন্ড-ট্রুথ বাউন্ডিং বাক্স (সবুজ রঙে) রাতের টেবিলকে পুরোপুরি পরিক্রমা করে। ভবিষ্যদ্বাণী করা বাউন্ডিং বক্স (বেগুনি রঙে) 50% নিচে এবং গ্রাউন্ড-ট্রুথ বাউন্ডিং বক্সের ডানদিকে অফসেট করা হয়েছে; এটি রাতের টেবিলের নীচের-ডান কোয়ার্টারে ঘেরা, কিন্তু টেবিলের বাকি অংশ মিস করে।

এখানে, ভবিষ্যদ্বাণী এবং গ্রাউন্ড ট্রুথের জন্য বাউন্ডিং বাক্সগুলির ছেদ হল 1, এবং ভবিষ্যদ্বাণী এবং গ্রাউন্ড ট্রুথ (ডানদিকে নীচে) বাউন্ডিং বাক্সগুলির মিলন হল 7, তাই IoU হল \(\frac{1}{7}\)।

উপরের মত একই চিত্র, কিন্তু প্রতিটি বাউন্ডিং বাক্সের সাথে চারটি চতুর্ভুজে বিভক্ত। গ্রাউন্ড-ট্রুথ বাউন্ডিং বক্সের নিচের-ডান চতুর্ভুজ এবং পূর্বাভাসিত বাউন্ডিং বক্সের উপরের-বাম চতুর্ভুজ পরস্পরকে ওভারল্যাপ করার কারণে মোট সাতটি চতুর্ভুজ রয়েছে। এই ওভারল্যাপিং বিভাগটি (সবুজ রঙে হাইলাইট করা) ছেদকে প্রতিনিধিত্ব করে এবং এর ক্ষেত্রফল 1।উপরের মতো একই চিত্র, কিন্তু প্রতিটি বাউন্ডিং বাক্সের সাথে চারটি চতুর্ভুজে বিভক্ত। গ্রাউন্ড-ট্রুথ বাউন্ডিং বক্সের নিচের-ডান চতুর্ভুজ এবং পূর্বাভাসিত বাউন্ডিং বক্সের উপরের-বাম চতুর্ভুজ পরস্পরকে ওভারল্যাপ করার কারণে মোট সাতটি চতুর্ভুজ রয়েছে। উভয় বাউন্ডিং বাক্স (সবুজ রঙে হাইলাইট করা) দ্বারা আবদ্ধ সম্পূর্ণ অভ্যন্তরটি ইউনিয়নের প্রতিনিধিত্ব করে এবং এর ক্ষেত্রফল 7।

কে

গুরুত্বপূর্ণ দিক

#ছবি

একটি ছবিতে নির্দিষ্ট বৈশিষ্ট্যের স্থানাঙ্ক। উদাহরণস্বরূপ, একটি চিত্র স্বীকৃতি মডেল যা ফুলের প্রজাতিকে আলাদা করে, কীপয়েন্টগুলি প্রতিটি পাপড়ি, স্টেম, পুংকেশর এবং আরও অনেক কিছুর কেন্দ্র হতে পারে।

এল

ল্যান্ডমার্ক

#ছবি

কীপয়েন্টের প্রতিশব্দ।

এম

MNIST

#ছবি

LeCun, Cortes, এবং Burges দ্বারা সংকলিত একটি পাবলিক-ডোমেন ডেটাসেট যেখানে 60,000টি ছবি রয়েছে, প্রতিটি ছবি দেখায় যে কীভাবে একজন মানুষ ম্যানুয়ালি 0-9 থেকে একটি নির্দিষ্ট অঙ্ক লিখেছেন। প্রতিটি ছবি পূর্ণসংখ্যার একটি 28x28 অ্যারে হিসাবে সংরক্ষণ করা হয়, যেখানে প্রতিটি পূর্ণসংখ্যা 0 এবং 255 এর মধ্যে একটি গ্রেস্কেল মান, অন্তর্ভুক্ত।

MNIST হল মেশিন লার্নিং এর জন্য একটি ক্যানোনিকাল ডেটাসেট, প্রায়ই নতুন মেশিন লার্নিং পদ্ধতির পরীক্ষা করতে ব্যবহৃত হয়। বিস্তারিত জানার জন্য, হাতে লেখা অঙ্কের MNIST ডেটাবেস দেখুন।

পৃ

পুলিং

#ছবি

একটি ছোট ম্যাট্রিক্সে একটি পূর্ববর্তী কনভোলিউশনাল স্তর দ্বারা তৈরি একটি ম্যাট্রিক্স (বা ম্যাট্রিক্স) হ্রাস করা। পুলিংয়ে সাধারণত পুল করা এলাকা জুড়ে সর্বোচ্চ বা গড় মান নেওয়া হয়। উদাহরণস্বরূপ, ধরুন আমাদের নিম্নলিখিত 3x3 ম্যাট্রিক্স রয়েছে:

3x3 ম্যাট্রিক্স [[5,3,1], [8,2,5], [9,4,3]]।

একটি পুলিং অপারেশন, ঠিক একটি কনভোলিউশনাল অপারেশনের মতো, সেই ম্যাট্রিক্সটিকে স্লাইসে বিভক্ত করে এবং তারপর স্ট্রাইডের মাধ্যমে সেই কনভোল্যুশনাল অপারেশনটিকে স্লাইড করে। উদাহরণ স্বরূপ, ধরুন পুলিং অপারেশন কনভোলিউশনাল ম্যাট্রিক্সকে 1x1 স্ট্রাইড সহ 2x2 স্লাইসে বিভক্ত করেছে। নীচের চিত্রটি চিত্রিত করে, চারটি পুলিং অপারেশন সঞ্চালিত হয়। কল্পনা করুন যে প্রতিটি পুলিং অপারেশন সেই স্লাইসে চারটির সর্বোচ্চ মান বেছে নেয়:

ইনপুট ম্যাট্রিক্স হল 3x3 মান সহ: [[5,3,1], [8,2,5], [9,4,3]]। ইনপুট ম্যাট্রিক্সের উপরের-বাম 2x2 সাবম্যাট্রিক্স হল [[5,3], [8,2]], তাই উপরের-বাম পুলিং অপারেশনের মান 8 পাওয়া যায় (যা সর্বোচ্চ 5, 3, 8, এবং 2) ) ইনপুট ম্যাট্রিক্সের উপরের-ডান 2x2 সাবম্যাট্রিক্স হল [[3,1], [2,5]], তাই উপরের-ডান পুলিং অপারেশনটি 5 মান দেয়। ইনপুট ম্যাট্রিক্সের নীচে-বাম 2x2 সাবম্যাট্রিক্স হল [[ 8,2], [9,4]], সুতরাং নীচে-বাম পুলিং অপারেশনটি 9 মান দেয়। ইনপুট ম্যাট্রিক্সের নীচে-ডান 2x2 সাবম্যাট্রিক্স হল [[2,5], [4,3]], তাই নীচে-ডান দিকের পুলিং অপারেশনটি 5 মান দেয়। সংক্ষেপে, পুলিং অপারেশনটি 2x2 ম্যাট্রিক্স [[8,5], [9,5]] দেয়।

পুলিং ইনপুট ম্যাট্রিক্সে ট্রান্সলেশনাল ইনভেরিয়েন্স জোরদার করতে সাহায্য করে।

ভিশন অ্যাপ্লিকেশনের জন্য পুলিং আরও আনুষ্ঠানিকভাবে স্থানিক পুলিং হিসাবে পরিচিত। টাইম-সিরিজ অ্যাপ্লিকেশনগুলি সাধারণত পুলিংকে টেম্পোরাল পুলিং হিসাবে উল্লেখ করে। কম আনুষ্ঠানিকভাবে, পুলিংকে প্রায়ই সাবস্যাম্পলিং বা ডাউনস্যাম্পলিং বলা হয়।

প্রাক-প্রশিক্ষিত মডেল

#ভাষা
#ছবি
#generativeAI

মডেল বা মডেল উপাদান (যেমন একটি এমবেডিং ভেক্টর ) যা ইতিমধ্যেই প্রশিক্ষিত হয়েছে। কখনও কখনও, আপনি একটি নিউরাল নেটওয়ার্কে প্রাক-প্রশিক্ষিত এমবেডিং ভেক্টর খাওয়াবেন। অন্য সময়ে, আপনার মডেল প্রাক-প্রশিক্ষিত এম্বেডিংয়ের উপর নির্ভর না করে নিজেরাই এম্বেডিং ভেক্টরকে প্রশিক্ষণ দেবে।

প্রাক-প্রশিক্ষিত ভাষা মডেল শব্দটি একটি বড় ভাষা মডেলকে বোঝায় যা প্রাক-প্রশিক্ষণের মধ্য দিয়ে গেছে।

প্রাক-প্রশিক্ষণ

#ভাষা
#ছবি
#generativeAI

একটি বড় ডেটাসেটে একটি মডেলের প্রাথমিক প্রশিক্ষণ৷ কিছু প্রাক-প্রশিক্ষিত মডেল হল আনাড়ি জায়ান্ট এবং সাধারণত অতিরিক্ত প্রশিক্ষণের মাধ্যমে পরিমার্জিত হতে হবে। উদাহরণস্বরূপ, এমএল বিশেষজ্ঞরা একটি বিশাল টেক্সট ডেটাসেটে, যেমন উইকিপিডিয়ার সমস্ত ইংরেজি পৃষ্ঠাগুলিতে একটি বৃহৎ ভাষার মডেলকে প্রাক-প্রশিক্ষণ দিতে পারে। প্রাক-প্রশিক্ষণের পরে, ফলস্বরূপ মডেলটি নিম্নলিখিত কৌশলগুলির মাধ্যমে আরও পরিমার্জিত হতে পারে:

আর

ঘূর্ণনশীল পরিবর্তন

#ছবি

একটি ইমেজ শ্রেণীবিভাগের সমস্যায়, একটি অ্যালগরিদমের সক্ষমতা সফলভাবে চিত্রগুলিকে শ্রেণীবদ্ধ করতে পারে এমনকি যখন চিত্রের অভিযোজন পরিবর্তিত হয়। উদাহরণস্বরূপ, অ্যালগরিদম এখনও একটি টেনিস র‌্যাকেটকে চিহ্নিত করতে পারে যে এটি উপরে, পাশে বা নীচে নির্দেশ করে। মনে রাখবেন যে ঘূর্ণনগত পরিবর্তন সবসময় কাম্য নয়; উদাহরণস্বরূপ, একটি উলটো-ডাউন 9 কে 9 হিসাবে শ্রেণীবদ্ধ করা উচিত নয়৷

এছাড়াও অনুবাদমূলক ইনভেরিয়েন্স এবং সাইজ ইনভেরিয়েন্স দেখুন।

এস

আকার পরিবর্তন

#ছবি

একটি চিত্র শ্রেণিবিন্যাসের সমস্যায়, একটি অ্যালগরিদমের ক্ষমতা সফলভাবে চিত্রগুলিকে শ্রেণিবদ্ধ করতে পারে এমনকি যখন চিত্রের আকার পরিবর্তন হয়। উদাহরণস্বরূপ, অ্যালগরিদম এখনও একটি বিড়ালকে সনাক্ত করতে পারে যে এটি 2M পিক্সেল বা 200K পিক্সেল ব্যবহার করে। মনে রাখবেন যে এমনকি সেরা ইমেজ শ্রেণীবিভাগের অ্যালগরিদমগুলিতে এখনও আকারের পরিবর্তনের ব্যবহারিক সীমা রয়েছে। উদাহরণস্বরূপ, একটি অ্যালগরিদম (বা মানুষ) শুধুমাত্র 20 পিক্সেল গ্রাসকারী একটি বিড়ালের ছবিকে সঠিকভাবে শ্রেণীবদ্ধ করার সম্ভাবনা কম।

এছাড়াও ট্রান্সলেশনাল ইনভেরিয়েন্স এবং রোটেশনাল ইনভেরিয়েন্স দেখুন।

স্থানিক পুলিং

#ছবি

পুলিং দেখুন।

অগ্রসর

#ছবি

একটি কনভোল্যুশনাল অপারেশন বা পুলিং-এ, ইনপুট স্লাইসের পরবর্তী সিরিজের প্রতিটি মাত্রায় ডেল্টা। উদাহরণস্বরূপ, নিম্নোক্ত অ্যানিমেশনটি একটি কনভোল্যুশনাল অপারেশনের সময় একটি (1,1) অগ্রগতি প্রদর্শন করে। অতএব, পরবর্তী ইনপুট স্লাইসটি পূর্ববর্তী ইনপুট স্লাইসের ডানদিকে একটি অবস্থান শুরু করে। যখন অপারেশনটি ডান প্রান্তে পৌঁছায়, তখন পরবর্তী স্লাইসটি বাম দিকে থাকে তবে একটি অবস্থান নিচে থাকে।

একটি ইনপুট 5x5 ম্যাট্রিক্স এবং একটি 3x3 কনভোলিউশনাল ফিল্টার। কারণ স্ট্রাইড হল (1,1), একটি কনভোল্যুশনাল ফিল্টার 9 বার প্রয়োগ করা হবে। প্রথম কনভোলিউশনাল স্লাইস ইনপুট ম্যাট্রিক্সের উপরের-বাম 3x3 সাবম্যাট্রিক্সকে মূল্যায়ন করে। দ্বিতীয় স্লাইস টপ-মিডল 3x3 সাবম্যাট্রিক্স মূল্যায়ন করে। তৃতীয় কনভোলিউশনাল স্লাইস উপরের-ডান 3x3 সাবম্যাট্রিক্সের মূল্যায়ন করে। চতুর্থ স্লাইস মধ্য-বাম 3x3 সাবম্যাট্রিক্স মূল্যায়ন করে। পঞ্চম স্লাইস মধ্যম 3x3 সাবম্যাট্রিক্স মূল্যায়ন করে। ষষ্ঠ স্লাইস মধ্যম-ডান 3x3 সাবম্যাট্রিক্স মূল্যায়ন করে। সপ্তম স্লাইস নীচে-বাম 3x3 সাবম্যাট্রিক্স মূল্যায়ন করে। অষ্টম স্লাইস নিচের-মাঝের 3x3 সাবম্যাট্রিক্সের মূল্যায়ন করে। নবম স্লাইস নীচে-ডান 3x3 সাবম্যাট্রিক্স মূল্যায়ন করে।

পূর্বের উদাহরণটি একটি দ্বি-মাত্রিক অগ্রগতি প্রদর্শন করে। যদি ইনপুট ম্যাট্রিক্স ত্রিমাত্রিক হয়, তাহলে স্ট্রাইডও ত্রিমাত্রিক হবে।

সাবস্যাম্পলিং

#ছবি

পুলিং দেখুন।

টি

তাপমাত্রা

#ভাষা
#ছবি
#generativeAI

একটি হাইপারপ্যারামিটার যা একটি মডেলের আউটপুটের এলোমেলোতার মাত্রা নিয়ন্ত্রণ করে। উচ্চ তাপমাত্রার ফলে বেশি র্যান্ডম আউটপুট হয়, যখন কম তাপমাত্রার ফলে কম এলোমেলো আউটপুট হয়।

সেরা তাপমাত্রা নির্বাচন নির্দিষ্ট অ্যাপ্লিকেশন এবং মডেলের আউটপুট পছন্দের বৈশিষ্ট্য উপর নির্ভর করে। উদাহরণস্বরূপ, সৃজনশীল আউটপুট তৈরি করে এমন একটি অ্যাপ্লিকেশন তৈরি করার সময় আপনি সম্ভবত তাপমাত্রা বাড়াবেন। বিপরীতভাবে, মডেলের নির্ভুলতা এবং ধারাবাহিকতা উন্নত করার জন্য চিত্র বা পাঠ্যকে শ্রেণীবদ্ধ করে এমন একটি মডেল তৈরি করার সময় আপনি সম্ভবত তাপমাত্রা কমিয়ে দেবেন।

তাপমাত্রা প্রায়ই softmax সঙ্গে ব্যবহার করা হয়.

অনুবাদমূলক অসঙ্গতি

#ছবি

একটি চিত্র শ্রেণিবিন্যাসের সমস্যায়, একটি অ্যালগরিদমের ক্ষমতা সফলভাবে চিত্রগুলিকে শ্রেণিবদ্ধ করতে পারে এমনকি যখন চিত্রের মধ্যে বস্তুর অবস্থান পরিবর্তিত হয়। উদাহরণস্বরূপ, অ্যালগরিদম এখনও একটি কুকুরকে সনাক্ত করতে পারে, তা ফ্রেমের কেন্দ্রে বা ফ্রেমের বাম প্রান্তে হোক।

সাইজ ইনভেরিয়েন্স এবং রোটেশনাল ইনভেরিয়েন্সও দেখুন।