মেশিন লার্নিং শব্দকোষ: ইমেজ মডেল

এই পৃষ্ঠায় ইমেজ মডেলের শব্দকোষ রয়েছে। সকল শব্দকোষের জন্য এখানে ক্লিক করুন

উদ্দীপিত বাস্তবতা

#ছবি

একটি প্রযুক্তি যা একটি কম্পিউটার-উত্পাদিত চিত্রকে বাস্তব জগতের একজন ব্যবহারকারীর দৃষ্টিভঙ্গির উপর তুলে ধরে, এইভাবে একটি যৌগিক দৃশ্য প্রদান করে।

অটোএনকোডার

#ভাষা
#ছবি

একটি সিস্টেম যা ইনপুট থেকে সবচেয়ে গুরুত্বপূর্ণ তথ্য বের করতে শেখে। অটোএনকোডার হল একটি এনকোডার এবং ডিকোডারের সংমিশ্রণ। অটোএনকোডারগুলি নিম্নলিখিত দ্বি-পদক্ষেপ প্রক্রিয়ার উপর নির্ভর করে:

  1. এনকোডার ইনপুটকে একটি (সাধারণত) ক্ষতিকর নিম্ন-মাত্রিক (মধ্যবর্তী) বিন্যাসে ম্যাপ করে।
  2. ডিকোডার নিম্ন-মাত্রিক বিন্যাসটিকে মূল উচ্চ-মাত্রিক ইনপুট বিন্যাসে ম্যাপ করে মূল ইনপুটের একটি ক্ষতিকারক সংস্করণ তৈরি করে।

এনকোডারের মধ্যবর্তী বিন্যাস থেকে যতটা সম্ভব ঘনিষ্ঠভাবে মূল ইনপুট পুনর্গঠন করার জন্য ডিকোডার প্রচেষ্টার মাধ্যমে অটোএনকোডারদের এন্ড-টু-এন্ড প্রশিক্ষিত করা হয়। মধ্যবর্তী বিন্যাসটি মূল বিন্যাসের চেয়ে ছোট (নিম্ন-মাত্রিক) হওয়ায়, অটোএনকোডারকে ইনপুটে কোন তথ্য অপরিহার্য তা শিখতে বাধ্য করা হয় এবং আউটপুটটি ইনপুটের সাথে পুরোপুরি অভিন্ন হবে না।

উদাহরণ স্বরূপ:

  • যদি ইনপুট ডেটা একটি গ্রাফিক হয়, অ-নির্ভুল অনুলিপিটি মূল গ্রাফিকের অনুরূপ হবে, তবে কিছুটা পরিবর্তিত হবে। সম্ভবত অ-নির্ভুল অনুলিপি মূল গ্রাফিক থেকে শব্দ সরিয়ে দেয় বা কিছু অনুপস্থিত পিক্সেল পূরণ করে।
  • যদি ইনপুট ডেটা পাঠ্য হয় তবে একটি অটোএনকোডার নতুন পাঠ্য তৈরি করবে যা মূল পাঠ্যের অনুকরণ করে (কিন্তু অনুরূপ নয়)।

পরিবর্তনশীল অটোএনকোডারগুলিও দেখুন।

অটো রিগ্রেসিভ মডেল

#ভাষা
#ছবি
#generativeAI

একটি মডেল যা তার নিজের পূর্বের ভবিষ্যদ্বাণীগুলির উপর ভিত্তি করে একটি ভবিষ্যদ্বাণী অনুমান করে৷ উদাহরণস্বরূপ, অটো-রিগ্রেসিভ ল্যাঙ্গুয়েজ মডেলগুলি পূর্বে ভবিষ্যদ্বাণী করা টোকেনের উপর ভিত্তি করে পরবর্তী টোকেনের পূর্বাভাস দেয়। সমস্ত ট্রান্সফরমার -ভিত্তিক বৃহৎ ভাষার মডেলগুলি স্বয়ংক্রিয়-রিগ্রেসিভ।

বিপরীতে, GAN- ভিত্তিক ইমেজ মডেলগুলি সাধারণত অটো-রিগ্রেসিভ হয় না কারণ তারা একটি একক ফরোয়ার্ড-পাসে একটি ছবি তৈরি করে এবং ধাপে ধাপে নয়। যাইহোক, কিছু ইমেজ জেনারেশন মডেল অটো -রিগ্রেসিভ কারণ তারা ধাপে ধাপে একটি ইমেজ তৈরি করে।

সীমান্ত বক্স

#ছবি

একটি ছবিতে, ( x , y ) একটি আয়তক্ষেত্রের স্থানাঙ্কগুলি আগ্রহের একটি এলাকার চারপাশে, যেমন নীচের ছবিতে কুকুরটি।

সোফায় বসে থাকা কুকুরের ছবি। (275, 1271) উপরে-বাম স্থানাঙ্ক এবং (2954, 2761) এর নীচে-ডান স্থানাঙ্ক সহ একটি সবুজ বাউন্ডিং বাক্স কুকুরের শরীরকে ঘিরে রেখেছে

আবর্তন

#ছবি

গণিতে, আকস্মিকভাবে বলতে গেলে, দুটি ফাংশনের মিশ্রণ। মেশিন লার্নিং-এ, একটি কনভোলিউশন কনভোলিউশনাল ফিল্টার এবং ইনপুট ম্যাট্রিক্সকে মিশ্রিত করে ওজন প্রশিক্ষণের জন্য।

মেশিন লার্নিং-এ "কনভোলিউশন" শব্দটি প্রায়শই কনভোলিউশনাল অপারেশন বা কনভোল্যুশনাল লেয়ারকে বোঝানোর একটি সংক্ষিপ্ত উপায়।

কনভল্যুশন ছাড়া, একটি মেশিন লার্নিং অ্যালগরিদমকে একটি বড় টেনসরের প্রতিটি কোষের জন্য একটি পৃথক ওজন শিখতে হবে। উদাহরণস্বরূপ, 2K x 2K চিত্রগুলিতে একটি মেশিন লার্নিং অ্যালগরিদম প্রশিক্ষণকে 4M পৃথক ওজন খুঁজে বের করতে বাধ্য করা হবে। কনভোল্যুশনের জন্য ধন্যবাদ, একটি মেশিন লার্নিং অ্যালগরিদমকে শুধুমাত্র কনভোলিউশনাল ফিল্টারে প্রতিটি সেলের জন্য ওজন খুঁজে বের করতে হয়, যা মডেলটিকে প্রশিক্ষণের জন্য প্রয়োজনীয় স্মৃতিকে নাটকীয়ভাবে হ্রাস করে। যখন কনভোলিউশনাল ফিল্টার প্রয়োগ করা হয়, তখন এটি কেবল কোষ জুড়ে প্রতিলিপি করা হয় যাতে প্রতিটি ফিল্টার দ্বারা গুণিত হয়।

convolutional ফিল্টার

#ছবি

দুই অভিনেতার একজন কনভোল্যুশনাল অপারেশনে । (অন্য অভিনেতাটি একটি ইনপুট ম্যাট্রিক্সের একটি স্লাইস।) একটি কনভোলিউশনাল ফিল্টার হল একটি ম্যাট্রিক্স যার র্যাঙ্ক ইনপুট ম্যাট্রিক্সের সমান, কিন্তু একটি ছোট আকার। উদাহরণস্বরূপ, একটি 28x28 ইনপুট ম্যাট্রিক্স দেওয়া হলে, ফিল্টারটি 28x28 এর চেয়ে ছোট যেকোনো 2D ম্যাট্রিক্স হতে পারে।

ফটোগ্রাফিক ম্যানিপুলেশনে, একটি কনভোলিউশনাল ফিল্টারের সমস্ত কোষ সাধারণত এক এবং শূন্যের একটি ধ্রুবক প্যাটার্নে সেট করা হয়। মেশিন লার্নিং-এ, কনভোলিউশনাল ফিল্টারগুলি সাধারণত এলোমেলো সংখ্যার সাথে বীজযুক্ত হয় এবং তারপরে নেটওয়ার্ক আদর্শ মানগুলিকে প্রশিক্ষণ দেয়

আবর্তিত স্তর

#ছবি

একটি গভীর নিউরাল নেটওয়ার্কের একটি স্তর যেখানে একটি কনভোলিউশনাল ফিল্টার একটি ইনপুট ম্যাট্রিক্স বরাবর যায়। উদাহরণস্বরূপ, নিম্নলিখিত 3x3 কনভোলিউশনাল ফিল্টার বিবেচনা করুন:

নিম্নলিখিত মান সহ একটি 3x3 ম্যাট্রিক্স: [[0,1,0], [1,0,1], [0,1,0]]

নিম্নলিখিত অ্যানিমেশনটি 5x5 ইনপুট ম্যাট্রিক্সের সাথে জড়িত 9টি রূপান্তরমূলক ক্রিয়াকলাপ সমন্বিত একটি রূপান্তরমূলক স্তর দেখায়। লক্ষ্য করুন যে প্রতিটি কনভোলিউশনাল অপারেশন ইনপুট ম্যাট্রিক্সের একটি ভিন্ন 3x3 স্লাইসে কাজ করে। ফলস্বরূপ 3x3 ম্যাট্রিক্স (ডানদিকে) 9টি কনভোল্যুশনাল অপারেশনের ফলাফল নিয়ে গঠিত:

দুটি ম্যাট্রিক্স দেখানো একটি অ্যানিমেশন। প্রথম ম্যাট্রিক্স হল 5x5 ম্যাট্রিক্স: [[128,97,53,201,198], [35,22,25,200,195], [37,24,28,197,182], [33,28,92,195,179], [10,74], [31,74]। দ্বিতীয় ম্যাট্রিক্স হল 3x3 ম্যাট্রিক্স: [[181,303,618], [115,338,605], [169,351,560]]। দ্বিতীয় ম্যাট্রিক্সটি 5x5 ম্যাট্রিক্সের বিভিন্ন 3x3 উপসেট জুড়ে কনভোলিউশনাল ফিল্টার [[0, 1, 0], [1, 0, 1], [0, 1, 0]] প্রয়োগ করে গণনা করা হয়।

কনভোল্যুশনাল নিউরাল নেটওয়ার্ক

#ছবি

একটি নিউরাল নেটওয়ার্ক যেখানে অন্তত একটি স্তর একটি কনভোলিউশনাল স্তর । একটি সাধারণ কনভোলিউশনাল নিউরাল নেটওয়ার্ক নিম্নলিখিত স্তরগুলির কিছু সমন্বয় নিয়ে গঠিত:

কনভোল্যুশনাল নিউরাল নেটওয়ার্কগুলি নির্দিষ্ট ধরণের সমস্যা যেমন ইমেজ স্বীকৃতিতে দুর্দান্ত সাফল্য পেয়েছে।

convolutional অপারেশন

#ছবি

নিম্নলিখিত দুই-পদক্ষেপ গাণিতিক অপারেশন:

  1. কনভোলিউশনাল ফিল্টার এবং একটি ইনপুট ম্যাট্রিক্সের একটি স্লাইসের উপাদান-ভিত্তিক গুণ। (ইনপুট ম্যাট্রিক্সের স্লাইসটি কনভোলিউশনাল ফিল্টারের মতো একই র্যাঙ্ক এবং আকার রয়েছে।)
  2. ফলিত পণ্য ম্যাট্রিক্সে সমস্ত মানের সমষ্টি।

উদাহরণস্বরূপ, নিম্নলিখিত 5x5 ইনপুট ম্যাট্রিক্স বিবেচনা করুন:

5x5 ম্যাট্রিক্স: [[128,97,53,201,198], [35,22,25,200,195], [37,24,28,197,182], [33,28,92,195,179], [31,40,197,107]।

এখন নিম্নলিখিত 2x2 কনভোলিউশনাল ফিল্টারটি কল্পনা করুন:

2x2 ম্যাট্রিক্স: [[1, 0], [0, 1]]

প্রতিটি কনভোলিউশনাল অপারেশন ইনপুট ম্যাট্রিক্সের একটি একক 2x2 স্লাইস জড়িত। উদাহরণস্বরূপ, ধরুন আমরা ইনপুট ম্যাট্রিক্সের উপরের-বাম দিকে 2x2 স্লাইস ব্যবহার করি। সুতরাং, এই স্লাইসে কনভল্যুশন অপারেশনটি নিম্নরূপ দেখায়:

ইনপুট ম্যাট্রিক্সের উপরের-বাম 2x2 বিভাগে কনভোলিউশনাল ফিল্টার [[1, 0], [0, 1]] প্রয়োগ করা হচ্ছে, যা [[128,97], [35,22]]। কনভোলিউশন ফিল্টার 128 এবং 22 কে অক্ষত রাখে, কিন্তু 97 এবং 35 কে শূন্য করে দেয়। ফলস্বরূপ, কনভোলিউশন অপারেশন মান 150 (128+22) দেয়।

একটি কনভোলিউশনাল লেয়ারে কনভোলিউশনাল ক্রিয়াকলাপগুলির একটি সিরিজ থাকে, প্রতিটি ইনপুট ম্যাট্রিক্সের একটি আলাদা স্লাইসে কাজ করে।

ডি

তথ্য বৃদ্ধি

#ছবি

কৃত্রিমভাবে অতিরিক্ত উদাহরণ তৈরি করতে বিদ্যমান উদাহরণগুলিকে রূপান্তর করে প্রশিক্ষণের উদাহরণের পরিসর এবং সংখ্যা বৃদ্ধি করা। উদাহরণ স্বরূপ, ধরুন ছবিগুলি আপনার বৈশিষ্ট্যগুলির মধ্যে একটি, কিন্তু আপনার ডেটাসেটে মডেলটির জন্য প্রয়োজনীয় অ্যাসোসিয়েশন শেখার জন্য যথেষ্ট ইমেজ উদাহরণ নেই৷ আদর্শভাবে, আপনার মডেলকে সঠিকভাবে প্রশিক্ষণ দিতে সক্ষম করার জন্য আপনি আপনার ডেটাসেটে পর্যাপ্ত লেবেলযুক্ত ছবি যুক্ত করবেন। যদি এটি সম্ভব না হয়, তবে ডেটা বর্ধন প্রতিটি চিত্রকে ঘোরাতে, প্রসারিত করতে এবং প্রতিফলিত করে মূল ছবির অনেকগুলি রূপ তৈরি করতে পারে, সম্ভবত চমৎকার প্রশিক্ষণ সক্ষম করার জন্য যথেষ্ট লেবেলযুক্ত ডেটা প্রদান করে।

গভীরভাবে বিভাজ্য কনভোলিউশনাল নিউরাল নেটওয়ার্ক (sepCNN)

#ছবি

ইনসেপশনের উপর ভিত্তি করে একটি কনভোল্যুশনাল নিউরাল নেটওয়ার্ক আর্কিটেকচার, কিন্তু যেখানে ইনসেপশন মডিউলগুলি গভীরভাবে বিভাজ্য কনভোলিউশন দিয়ে প্রতিস্থাপিত হয়। Xception নামেও পরিচিত।

একটি গভীরতার দিক থেকে বিভাজ্য কনভোলিউশন (এছাড়াও বিভাজ্য কনভোলিউশন হিসাবে সংক্ষিপ্ত) একটি স্ট্যান্ডার্ড 3-ডি কনভোলিউশনকে দুটি আলাদা কনভোলিউশন অপারেশনে পরিণত করে যেগুলি গণনাগতভাবে আরও দক্ষ: প্রথমত, একটি গভীরতার দিক দিয়ে কনভোলিউশন, যার গভীরতা 1 (n ✕ n ✕ 1), এবং তারপর দ্বিতীয়, দৈর্ঘ্য এবং প্রস্থ 1 (1 ✕ 1 ✕ n) সহ একটি পয়েন্টওয়াইজ কনভল্যুশন।

আরও জানার জন্য, এক্সসেপশন দেখুন: ডিপ লার্নিং উইথ ডেপথওয়াইজ সেপারেবল কনভোলিউশন

ডাউনস্যাম্পলিং

#ছবি

ওভারলোড করা শব্দ যার অর্থ নিম্নলিখিত যেকোন একটি হতে পারে:

  • একটি মডেলকে আরও দক্ষতার সাথে প্রশিক্ষণ দেওয়ার জন্য একটি বৈশিষ্ট্যে তথ্যের পরিমাণ হ্রাস করা। উদাহরণস্বরূপ, একটি চিত্র সনাক্তকরণ মডেল প্রশিক্ষণের আগে, উচ্চ-রেজোলিউশনের চিত্রগুলিকে নিম্ন-রেজোলিউশন বিন্যাসে নামিয়ে আনা।
  • কম-প্রতিনিধিত্বশীল ক্লাসের মডেল প্রশিক্ষণ উন্নত করার জন্য ওভার-রিপ্রেজেন্টেড ক্লাসের উদাহরণগুলির একটি অসামঞ্জস্যপূর্ণভাবে কম শতাংশের উপর প্রশিক্ষণ। উদাহরণস্বরূপ, একটি শ্রেণী-ভারসাম্যহীন ডেটাসেটে , মডেলগুলি সংখ্যাগরিষ্ঠ শ্রেণী সম্পর্কে অনেক কিছু শিখতে থাকে এবং সংখ্যালঘু শ্রেণী সম্পর্কে যথেষ্ট নয়। ডাউনস্যাম্পলিং সংখ্যাগরিষ্ঠ এবং সংখ্যালঘু শ্রেণীর প্রশিক্ষণের পরিমাণের ভারসাম্য বজায় রাখতে সাহায্য করে।

ফাইন টিউনিং

#ভাষা
#ছবি
#generativeAI

একটি নির্দিষ্ট ব্যবহারের ক্ষেত্রে এর পরামিতিগুলিকে পরিমার্জিত করার জন্য একটি প্রাক-প্রশিক্ষিত মডেলে একটি দ্বিতীয়, টাস্ক-নির্দিষ্ট প্রশিক্ষণ পাস। উদাহরণস্বরূপ, কিছু বড় ভাষা মডেলের জন্য সম্পূর্ণ প্রশিক্ষণের ক্রম নিম্নরূপ:

  1. প্রাক-প্রশিক্ষণ: একটি বিশাল সাধারণ ডেটাসেটে একটি বৃহৎ ভাষার মডেলকে প্রশিক্ষণ দিন, যেমন সমস্ত ইংরেজি ভাষার উইকিপিডিয়া পৃষ্ঠা।
  2. ফাইন-টিউনিং: একটি নির্দিষ্ট কাজ করার জন্য প্রাক-প্রশিক্ষিত মডেলকে প্রশিক্ষণ দিন, যেমন মেডিকেল প্রশ্নের উত্তর দেওয়া। ফাইন-টিউনিংয়ে সাধারণত নির্দিষ্ট কাজের উপর দৃষ্টি নিবদ্ধ করে শত শত বা হাজার হাজার উদাহরণ জড়িত থাকে।

আরেকটি উদাহরণ হিসাবে, একটি বড় ইমেজ মডেলের জন্য সম্পূর্ণ প্রশিক্ষণের ক্রম নিম্নরূপ:

  1. প্রাক-প্রশিক্ষণ: একটি বিশাল সাধারণ ইমেজ ডেটাসেটে একটি বড় ইমেজ মডেলকে প্রশিক্ষণ দিন, যেমন উইকিমিডিয়া কমন্সের সমস্ত ছবি।
  2. ফাইন-টিউনিং: একটি নির্দিষ্ট কাজ সম্পাদন করার জন্য পূর্ব-প্রশিক্ষিত মডেলকে প্রশিক্ষণ দিন, যেমন অর্কাসের ছবি তৈরি করা।

ফাইন-টিউনিং নিম্নলিখিত কৌশলগুলির যেকোন সংমিশ্রণকে অন্তর্ভুক্ত করতে পারে:

  • প্রাক-প্রশিক্ষিত মডেলের বিদ্যমান পরামিতিগুলির সমস্ত পরিবর্তন করা। একে কখনও কখনও ফুল ফাইন-টিউনিং বলা হয়।
  • অন্যান্য বিদ্যমান পরামিতিগুলি অপরিবর্তিত রেখে (সাধারণত, ইনপুট স্তরের সবচেয়ে কাছের স্তরগুলি) রেখে শুধুমাত্র প্রাক-প্রশিক্ষিত মডেলের বিদ্যমান প্যারামিটারগুলির কিছু পরিবর্তন করা (সাধারণত, আউটপুট স্তরের নিকটতম স্তরগুলি)। প্যারামিটার-দক্ষ টিউনিং দেখুন।
  • আরও স্তর যুক্ত করা হচ্ছে, সাধারণত আউটপুট স্তরের নিকটতম বিদ্যমান স্তরগুলির উপরে।

ফাইন-টিউনিং হল ট্রান্সফার লার্নিং এর একটি ফর্ম। যেমন, ফাইন-টিউনিং একটি ভিন্ন লস ফাংশন ব্যবহার করতে পারে বা প্রাক-প্রশিক্ষিত মডেলকে প্রশিক্ষিত করতে ব্যবহৃত মডেলের তুলনায় ভিন্ন মডেলের ধরন ব্যবহার করতে পারে। উদাহরণস্বরূপ, আপনি একটি রিগ্রেশন মডেল তৈরি করতে একটি প্রাক-প্রশিক্ষিত বড় ইমেজ মডেলকে সূক্ষ্ম-টিউন করতে পারেন যা একটি ইনপুট চিত্রে পাখির সংখ্যা ফেরত দেয়।

নিম্নলিখিত পদগুলির সাথে ফাইন-টিউনিং তুলনা করুন এবং বৈসাদৃশ্য করুন:

জি

জেনারেটিভ এআই

#ভাষা
#ছবি
#generativeAI

কোনো আনুষ্ঠানিক সংজ্ঞা ছাড়াই একটি উদীয়মান রূপান্তরমূলক ক্ষেত্র। এটি বলেছে, বেশিরভাগ বিশেষজ্ঞরা সম্মত হন যে জেনারেটিভ এআই মডেলগুলি নিম্নলিখিত সমস্ত সামগ্রী তৈরি করতে পারে ("উত্পন্ন"):

  • জটিল
  • সুসঙ্গত
  • মূল

উদাহরণস্বরূপ, একটি জেনারেটিভ এআই মডেল পরিশীলিত প্রবন্ধ বা চিত্র তৈরি করতে পারে।

LSTMs এবং RNN সহ কিছু আগের প্রযুক্তিও আসল এবং সুসংগত বিষয়বস্তু তৈরি করতে পারে। কিছু বিশেষজ্ঞ এই আগের প্রযুক্তিগুলিকে জেনারেটিভ AI হিসাবে দেখেন, অন্যরা মনে করেন যে সত্যিকারের জেনারেটিভ AI-এর জন্য আগের প্রযুক্তিগুলি তৈরি করতে পারে তার চেয়ে আরও জটিল আউটপুট প্রয়োজন।

ভবিষ্যদ্বাণীমূলক ML এর সাথে বৈসাদৃশ্য।

আমি

ইমেজ স্বীকৃতি

#ছবি

একটি প্রক্রিয়া যা একটি চিত্রের বস্তু(গুলি), প্যাটার্ন(গুলি), বা ধারণা(গুলি) শ্রেণীবদ্ধ করে৷ ইমেজ রিকগনিশন ইমেজ ক্লাসিফিকেশন নামেও পরিচিত।

আরও তথ্যের জন্য, এমএল প্র্যাকটিকাম: চিত্র শ্রেণীবিভাগ দেখুন।

ইউনিয়নের উপর ছেদ (IoU)

#ছবি

তাদের মিলন দ্বারা বিভক্ত দুটি সেটের ছেদ। মেশিন-লার্নিং ইমেজ-ডিটেকশন টাস্কে, IoU গ্রাউন্ড-ট্রুথ বাউন্ডিং বক্সের সাপেক্ষে মডেলের ভবিষ্যদ্বাণীকৃত বাউন্ডিং বক্সের যথার্থতা পরিমাপ করতে ব্যবহৃত হয়। এই ক্ষেত্রে, দুটি বাক্সের জন্য IoU হল ওভারল্যাপিং এলাকা এবং মোট ক্ষেত্রফলের মধ্যে অনুপাত এবং এর মান 0 (পূর্বাভাসিত বাউন্ডিং বক্স এবং গ্রাউন্ড-ট্রুথ বাউন্ডিং বক্সের কোন ওভারল্যাপ নয়) থেকে 1 (পূর্বাভাসিত বাউন্ডিং বক্স এবং গ্রাউন্ড) পর্যন্ত -সত্য আবদ্ধ বাক্সে একই স্থানাঙ্ক রয়েছে)।

উদাহরণস্বরূপ, নীচের ছবিতে:

  • ভবিষ্যদ্বাণীকৃত বাউন্ডিং বাক্সটি (যে স্থানাঙ্কগুলি সীমাবদ্ধ করে যেখানে মডেলটি পেইন্টিংয়ের রাতের টেবিলের পূর্বাভাস দেয়) বেগুনি রঙে রূপরেখা দেওয়া হয়েছে।
  • গ্রাউন্ড-ট্রুথ বাউন্ডিং বক্স (পেইন্টিংয়ের রাতের টেবিলটি আসলে অবস্থিত যেখানে স্থানাঙ্কগুলি সীমাবদ্ধ করে) সবুজ রঙে রূপরেখা দেওয়া হয়েছে।

ভ্যান গঘের ছবি 'ভিনসেন্টের বেডরুম ইন আর্লেস', বিছানার পাশে রাতের টেবিলের চারপাশে দুটি আলাদা বাউন্ডিং বাক্স রয়েছে। গ্রাউন্ড-ট্রুথ বাউন্ডিং বক্স (সবুজ রঙে) রাতের টেবিলটিকে পুরোপুরি পরিক্রমা করে। ভবিষ্যদ্বাণী করা বাউন্ডিং বক্স (বেগুনি রঙে) 50% নিচে এবং গ্রাউন্ড-ট্রুথ বাউন্ডিং বক্সের ডানদিকে অফসেট করা হয়েছে; এটি রাতের টেবিলের নীচের-ডান প্রান্তে ঘেরা, কিন্তু টেবিলের বাকি অংশ মিস করে।

এখানে, ভবিষ্যদ্বাণী এবং গ্রাউন্ড ট্রুথের জন্য বাউন্ডিং বাক্সগুলির ছেদ হল 1, এবং ভবিষ্যদ্বাণী এবং গ্রাউন্ড ট্রুথের জন্য বাউন্ডিং বাক্সগুলির মিলন হল 7, তাই IoU হল \(\frac{1}{7}\)।

উপরের মত একই চিত্র, কিন্তু প্রতিটি আবদ্ধ বাক্স চারটি চতুর্ভুজে বিভক্ত। গ্রাউন্ড-ট্রুথ বাউন্ডিং বক্সের নিচের-ডান চতুর্ভুজ এবং ভবিষ্যদ্বাণী করা বাউন্ডিং বক্সের উপরের-বাম চতুর্ভুজ পরস্পরকে ওভারল্যাপ করার কারণে মোট সাতটি চতুর্ভুজ রয়েছে। এই ওভারল্যাপিং বিভাগটি (সবুজ রঙে হাইলাইট করা) ছেদকে প্রতিনিধিত্ব করে এবং এর ক্ষেত্রফল 1।উপরের মত একই চিত্র, কিন্তু প্রতিটি আবদ্ধ বাক্স চারটি চতুর্ভুজে বিভক্ত। গ্রাউন্ড-ট্রুথ বাউন্ডিং বক্সের নিচের-ডান চতুর্ভুজ এবং ভবিষ্যদ্বাণী করা বাউন্ডিং বক্সের উপরের-বাম চতুর্ভুজ পরস্পরকে ওভারল্যাপ করার কারণে মোট সাতটি চতুর্ভুজ রয়েছে। উভয় বাউন্ডিং বাক্স (সবুজ রঙে হাইলাইট করা) দ্বারা আবদ্ধ সম্পূর্ণ অভ্যন্তরটি ইউনিয়নের প্রতিনিধিত্ব করে এবং এর ক্ষেত্রফল 7।

কে

গুরুত্বপূর্ণ দিক

#ছবি

একটি ছবিতে নির্দিষ্ট বৈশিষ্ট্যের স্থানাঙ্ক। উদাহরণস্বরূপ, একটি চিত্র স্বীকৃতি মডেল যা ফুলের প্রজাতিকে আলাদা করে, কীপয়েন্টগুলি প্রতিটি পাপড়ি, স্টেম, পুংকেশর এবং আরও অনেক কিছুর কেন্দ্র হতে পারে।

এল

ল্যান্ডমার্ক

#ছবি

কীপয়েন্টের প্রতিশব্দ।

এম

MNIST

#ছবি

LeCun, Cortes, এবং Burges দ্বারা সংকলিত একটি পাবলিক-ডোমেন ডেটাসেট যেখানে 60,000টি ছবি রয়েছে, প্রতিটি ছবি দেখায় যে কীভাবে একজন মানুষ ম্যানুয়ালি 0-9 থেকে একটি নির্দিষ্ট অঙ্ক লিখেছেন। প্রতিটি ছবি পূর্ণসংখ্যার একটি 28x28 অ্যারে হিসাবে সংরক্ষণ করা হয়, যেখানে প্রতিটি পূর্ণসংখ্যা 0 এবং 255 এর মধ্যে একটি গ্রেস্কেল মান, অন্তর্ভুক্ত।

MNIST হল মেশিন লার্নিং এর জন্য একটি ক্যানোনিকাল ডেটাসেট, প্রায়শই নতুন মেশিন লার্নিং পদ্ধতির পরীক্ষা করতে ব্যবহৃত হয়। বিস্তারিত জানার জন্য, হাতে লেখা অঙ্কের MNIST ডেটাবেস দেখুন।

পৃ

পুলিং

#ছবি

একটি ম্যাট্রিক্স (বা ম্যাট্রিক্স) কমিয়ে একটি ছোট ম্যাট্রিক্সে একটি পূর্ববর্তী কনভোলিউশনাল স্তর দ্বারা তৈরি করা। পুলিংয়ে সাধারণত পুল করা এলাকা জুড়ে সর্বোচ্চ বা গড় মান নেওয়া হয়। উদাহরণস্বরূপ, ধরুন আমাদের নিম্নলিখিত 3x3 ম্যাট্রিক্স রয়েছে:

3x3 ম্যাট্রিক্স [[5,3,1], [8,2,5], [9,4,3]]।

একটি পুলিং অপারেশন, ঠিক একটি কনভোলিউশনাল অপারেশনের মতো, সেই ম্যাট্রিক্সটিকে স্লাইসে বিভক্ত করে এবং তারপর স্ট্রাইডের মাধ্যমে সেই কনভোল্যুশনাল অপারেশনটিকে স্লাইড করে। উদাহরণ স্বরূপ, ধরুন পুলিং অপারেশন কনভোলিউশনাল ম্যাট্রিক্সকে 1x1 স্ট্রাইড সহ 2x2 স্লাইসে বিভক্ত করেছে। নিচের চিত্রটি চিত্রিত করে, চারটি পুলিং অপারেশন সঞ্চালিত হয়। কল্পনা করুন যে প্রতিটি পুলিং অপারেশন সেই স্লাইসে চারটির সর্বোচ্চ মান বেছে নেয়:

ইনপুট ম্যাট্রিক্স হল 3x3 মান সহ: [[5,3,1], [8,2,5], [9,4,3]]। ইনপুট ম্যাট্রিক্সের উপরের-বাম 2x2 সাবম্যাট্রিক্স হল [[5,3], [8,2]], তাই উপরের-বাম পুলিং অপারেশনের মান 8 পাওয়া যায় (যা সর্বোচ্চ 5, 3, 8, এবং 2) ) ইনপুট ম্যাট্রিক্সের উপরের-ডান 2x2 সাবম্যাট্রিক্স হল [[3,1], [2,5]], তাই উপরের-ডান পুলিং অপারেশনটি 5 মান দেয়। ইনপুট ম্যাট্রিক্সের নীচে-বাম 2x2 সাবম্যাট্রিক্স হল [[ 8,2], [9,4]], সুতরাং নীচে-বাম পুলিং অপারেশনটি 9 মান দেয়। ইনপুট ম্যাট্রিক্সের নীচে-ডান 2x2 সাবম্যাট্রিক্স হল [[2,5], [4,3]], তাই নীচে-ডান দিকের পুলিং অপারেশনটি 5 মান দেয়। সংক্ষেপে, পুলিং অপারেশনটি 2x2 ম্যাট্রিক্স [[8,5], [9,5]] দেয়।

পুলিং ইনপুট ম্যাট্রিক্সে অনুবাদমূলক ইনভেরিয়েন্স প্রয়োগ করতে সাহায্য করে।

ভিশন অ্যাপ্লিকেশনের জন্য পুলিং আরও আনুষ্ঠানিকভাবে স্থানিক পুলিং হিসাবে পরিচিত। টাইম-সিরিজ অ্যাপ্লিকেশনগুলি সাধারণত পুলিংকে টেম্পোরাল পুলিং হিসাবে উল্লেখ করে। কম আনুষ্ঠানিকভাবে, পুলিংকে প্রায়ই সাবস্যাম্পলিং বা ডাউনস্যাম্পলিং বলা হয়।

প্রাক-প্রশিক্ষিত মডেল

#ভাষা
#ছবি
#generativeAI

মডেল বা মডেল উপাদান (যেমন একটি এমবেডিং ভেক্টর ) যা ইতিমধ্যেই প্রশিক্ষিত হয়েছে। কখনও কখনও, আপনি একটি নিউরাল নেটওয়ার্কে প্রাক-প্রশিক্ষিত এমবেডিং ভেক্টর খাওয়াবেন। অন্য সময়ে, আপনার মডেল প্রাক-প্রশিক্ষিত এম্বেডিংয়ের উপর নির্ভর না করে নিজেরাই এম্বেডিং ভেক্টরকে প্রশিক্ষণ দেবে।

প্রাক-প্রশিক্ষিত ভাষা মডেল শব্দটি একটি বড় ভাষা মডেলকে বোঝায় যা প্রাক-প্রশিক্ষণের মধ্য দিয়ে গেছে।

প্রাক-প্রশিক্ষণ

#ভাষা
#ছবি
#generativeAI

একটি বড় ডেটাসেটে একটি মডেলের প্রাথমিক প্রশিক্ষণ৷ কিছু প্রাক-প্রশিক্ষিত মডেল হল আনাড়ি জায়ান্ট এবং সাধারণত অতিরিক্ত প্রশিক্ষণের মাধ্যমে পরিমার্জিত হতে হবে। উদাহরণস্বরূপ, এমএল বিশেষজ্ঞরা একটি বিশাল টেক্সট ডেটাসেটে, যেমন উইকিপিডিয়ার সমস্ত ইংরেজি পৃষ্ঠাগুলিতে একটি বড় ভাষার মডেলকে প্রাক-প্রশিক্ষণ দিতে পারে। প্রাক-প্রশিক্ষণের পরে, ফলস্বরূপ মডেলটি নিম্নলিখিত কৌশলগুলির মাধ্যমে আরও পরিমার্জিত হতে পারে:

আর

ঘূর্ণনশীল পরিবর্তন

#ছবি

একটি ইমেজ শ্রেণীবিভাগের সমস্যায়, একটি অ্যালগরিদমের সক্ষমতা সফলভাবে ছবি শ্রেণীবদ্ধ করতে এমনকি যখন চিত্রের অভিযোজন পরিবর্তিত হয়। উদাহরণস্বরূপ, অ্যালগরিদম এখনও একটি টেনিস র‌্যাকেটকে চিহ্নিত করতে পারে যে এটি উপরে, পাশে বা নীচে নির্দেশ করে। উল্লেখ্য যে ঘূর্ণনগত পরিবর্তন সবসময় কাম্য নয়; উদাহরণস্বরূপ, একটি উল্টো-ডাউন 9 একটি 9 হিসাবে শ্রেণীবদ্ধ করা উচিত নয়।

এছাড়াও অনুবাদমূলক ইনভেরিয়েন্স এবং সাইজ ইনভেরিয়েন্স দেখুন।

এস

আকার পরিবর্তন

#ছবি

একটি ইমেজ শ্রেণীবিভাগ সমস্যায়, একটি অ্যালগরিদমের ক্ষমতা সফলভাবে ছবি শ্রেণীবদ্ধ করার ক্ষমতা এমনকি যখন ছবির আকার পরিবর্তন হয়। উদাহরণস্বরূপ, অ্যালগরিদম এখনও একটি বিড়ালকে শনাক্ত করতে পারে যে এটি 2M পিক্সেল বা 200K পিক্সেল ব্যবহার করে। মনে রাখবেন যে এমনকি সেরা ইমেজ শ্রেণীবিভাগের অ্যালগরিদমগুলির এখনও আকারের পরিবর্তনের ব্যবহারিক সীমা রয়েছে। উদাহরণস্বরূপ, একটি অ্যালগরিদম (বা মানুষের) শুধুমাত্র 20 পিক্সেল খরচ করে এমন একটি বিড়ালের ছবিকে সঠিকভাবে শ্রেণীবদ্ধ করার সম্ভাবনা নেই।

এছাড়াও ট্রান্সলেশনাল ইনভেরিয়েন্স এবং রোটেশনাল ইনভেরিয়েন্স দেখুন।

স্থানিক পুলিং

#ছবি

পুলিং দেখুন।

অগ্রসর

#ছবি

একটি কনভোল্যুশনাল অপারেশন বা পুলিং-এ, ইনপুট স্লাইসের পরবর্তী সিরিজের প্রতিটি মাত্রায় ডেল্টা। উদাহরণস্বরূপ, নিম্নোক্ত অ্যানিমেশনটি একটি কনভোল্যুশনাল অপারেশন চলাকালীন একটি (1,1) অগ্রগতি প্রদর্শন করে। অতএব, পরবর্তী ইনপুট স্লাইস পূর্ববর্তী ইনপুট স্লাইসের ডানদিকে একটি অবস্থান শুরু করে। যখন অপারেশনটি ডান প্রান্তে পৌঁছায়, তখন পরবর্তী স্লাইসটি বাম দিকে থাকে কিন্তু একটি অবস্থান নিচে থাকে।

একটি ইনপুট 5x5 ম্যাট্রিক্স এবং একটি 3x3 কনভোলিউশনাল ফিল্টার। কারণ স্ট্রাইড হল (1,1), একটি কনভোলিউশনাল ফিল্টার 9 বার প্রয়োগ করা হবে। প্রথম কনভোলিউশনাল স্লাইস ইনপুট ম্যাট্রিক্সের উপরের-বাম 3x3 সাবম্যাট্রিক্সকে মূল্যায়ন করে। দ্বিতীয় স্লাইস শীর্ষ-মধ্য 3x3 সাবম্যাট্রিক্স মূল্যায়ন করে। তৃতীয় কনভোলিউশনাল স্লাইস উপরের-ডান 3x3 সাবম্যাট্রিক্সের মূল্যায়ন করে। চতুর্থ স্লাইস মধ্য-বাম 3x3 সাবম্যাট্রিক্স মূল্যায়ন করে। পঞ্চম স্লাইস মধ্যম 3x3 সাবম্যাট্রিক্স মূল্যায়ন করে। ষষ্ঠ স্লাইস মধ্য-ডান 3x3 সাবম্যাট্রিক্স মূল্যায়ন করে। সপ্তম স্লাইস নীচে-বাম 3x3 সাবম্যাট্রিক্স মূল্যায়ন করে। অষ্টম স্লাইস নিচের-মাঝের 3x3 সাবম্যাট্রিক্সকে মূল্যায়ন করে। নবম স্লাইস নীচে-ডান 3x3 সাবম্যাট্রিক্স মূল্যায়ন করে।

পূর্বের উদাহরণটি একটি দ্বি-মাত্রিক অগ্রগতি প্রদর্শন করে। যদি ইনপুট ম্যাট্রিক্স ত্রিমাত্রিক হয়, তাহলে স্ট্রাইডও ত্রিমাত্রিক হবে।

সাবস্যাম্পলিং

#ছবি

পুলিং দেখুন।

টি

তাপমাত্রা

#ভাষা
#ছবি
#generativeAI

একটি হাইপারপ্যারামিটার যা একটি মডেলের আউটপুটের এলোমেলোতার মাত্রা নিয়ন্ত্রণ করে। উচ্চ তাপমাত্রার ফলে আরও এলোমেলো আউটপুট হয়, যখন কম তাপমাত্রার ফলে কম এলোমেলো আউটপুট হয়।

সেরা তাপমাত্রা নির্বাচন নির্দিষ্ট অ্যাপ্লিকেশন এবং মডেলের আউটপুট পছন্দসই বৈশিষ্ট্য উপর নির্ভর করে। উদাহরণস্বরূপ, সৃজনশীল আউটপুট তৈরি করে এমন একটি অ্যাপ্লিকেশন তৈরি করার সময় আপনি সম্ভবত তাপমাত্রা বাড়াবেন। বিপরীতভাবে, মডেলের নির্ভুলতা এবং ধারাবাহিকতা উন্নত করার জন্য চিত্র বা পাঠ্যকে শ্রেণীবদ্ধ করে এমন একটি মডেল তৈরি করার সময় আপনি সম্ভবত তাপমাত্রা কমিয়ে দেবেন।

তাপমাত্রা প্রায়ই softmax সঙ্গে ব্যবহার করা হয়.

অনুবাদমূলক অসঙ্গতি

#ছবি

একটি চিত্র শ্রেণিবিন্যাসের সমস্যায়, একটি অ্যালগরিদমের ক্ষমতা সফলভাবে চিত্রগুলিকে শ্রেণিবদ্ধ করতে পারে এমনকি যখন চিত্রের মধ্যে বস্তুর অবস্থান পরিবর্তিত হয়। উদাহরণস্বরূপ, অ্যালগরিদম এখনও একটি কুকুরকে শনাক্ত করতে পারে, তা ফ্রেমের কেন্দ্রে বা ফ্রেমের বাম প্রান্তে হোক।

সাইজ ইনভেরিয়েন্স এবং রোটেশনাল ইনভেরিয়েন্সও দেখুন।