واژه نامه یادگیری ماشینی: مدل های تصویری

این صفحه شامل اصطلاحات واژه نامه Image Models است. برای همه اصطلاحات واژه نامه، اینجا را کلیک کنید .

آ

واقعیت افزوده

#تصویر

فناوری ای که یک تصویر تولید شده توسط کامپیوتر را بر روی دید کاربر از دنیای واقعی قرار می دهد و بنابراین یک نمای ترکیبی ارائه می دهد.

رمزگذار خودکار

#زبان
#تصویر

سیستمی که یاد می گیرد مهم ترین اطلاعات را از ورودی استخراج کند. رمزگذارهای خودکار ترکیبی از رمزگذار و رمزگشا هستند. رمزگذارهای خودکار بر فرآیند دو مرحله ای زیر متکی هستند:

  1. رمزگذار ورودی را به یک قالب (معمولا) با ابعاد پایین تر (متوسط) ترسیم می کند.
  2. رمزگشا با نگاشت قالب با ابعاد پایین تر به فرمت ورودی با ابعاد بالاتر، یک نسخه با اتلاف از ورودی اصلی ایجاد می کند.

رمزگذارهای خودکار با تلاش رمزگشا برای بازسازی ورودی اصلی از فرمت میانی رمزگذار تا حد امکان به صورت سرتاسر آموزش داده می شوند. از آنجایی که فرمت میانی کوچکتر (بُعد پایین) از فرمت اصلی است، رمزگذار خودکار مجبور است اطلاعاتی را که در ورودی ضروری است، بیاموزد و خروجی کاملاً با ورودی یکسان نخواهد بود.

مثلا:

  • اگر داده های ورودی گرافیکی باشد، کپی غیر دقیق شبیه به گرافیک اصلی است، اما تا حدودی تغییر یافته است. شاید کپی غیر دقیق، نویز را از گرافیک اصلی حذف می کند یا برخی از پیکسل های از دست رفته را پر می کند.
  • اگر داده ورودی متن باشد، یک رمزگذار خودکار متن جدیدی تولید می کند که متن اصلی را تقلید می کند (اما مشابه نیست).

رمزگذارهای خودکار متغیر را نیز ببینید.

مدل خود رگرسیون

#زبان
#تصویر
#تولید هوش مصنوعی

مدلی که پیش بینی را بر اساس پیش بینی های قبلی خود استنباط می کند. برای مثال، مدل‌های زبان رگرسیون خودکار، نشانه‌های بعدی را بر اساس نشانه‌های پیش‌بینی‌شده قبلی پیش‌بینی می‌کنند. همه مدل‌های زبان بزرگ مبتنی بر Transformer دارای رگرسیون خودکار هستند.

در مقابل، مدل‌های تصویر مبتنی بر GAN معمولاً رگرسیون خودکار نیستند، زیرا آنها یک تصویر را در یک گذر به جلو و نه به صورت تکراری در مراحل تولید می‌کنند. با این حال، برخی از مدل‌های تولید تصویر دارای رگرسیون خودکار هستند ، زیرا آنها یک تصویر را در مراحل تولید می‌کنند.

ب

جعبه مرزی

#تصویر

در یک تصویر، مختصات ( x ، y ) یک مستطیل در اطراف ناحیه مورد نظر، مانند سگ در تصویر زیر.

عکس سگی که روی مبل نشسته است. یک کادر سبز رنگ با مختصات بالا سمت چپ (275، 1271) و مختصات پایین سمت راست (2954، 2761) بدن سگ را مشخص می کند.

سی

پیچیدگی

#تصویر

در ریاضیات، به طور معمول، ترکیبی از دو تابع. در یادگیری ماشین، یک کانولوشن فیلتر کانولوشن و ماتریس ورودی را با هم مخلوط می‌کند تا وزنه‌ها را آموزش دهد.

اصطلاح "کانولوشن" در یادگیری ماشین اغلب یک روش کوتاه برای اشاره به عملیات کانولوشن یا لایه کانولوشن است.

بدون کانولوشن، یک الگوریتم یادگیری ماشین باید وزن جداگانه ای برای هر سلول در یک تانسور بزرگ یاد بگیرد. به عنوان مثال، آموزش الگوریتم یادگیری ماشین بر روی تصاویر 2K x 2K مجبور می شود 4M وزن جداگانه پیدا کند. به لطف کانولوشن‌ها، یک الگوریتم یادگیری ماشین فقط باید وزن‌هایی را برای هر سلول در فیلتر کانولوشن پیدا کند و حافظه مورد نیاز برای آموزش مدل را به‌طور چشمگیری کاهش دهد. هنگامی که فیلتر کانولوشن اعمال می شود، به سادگی در بین سلول ها تکرار می شود به طوری که هر یک در فیلتر ضرب می شود.

فیلتر کانولوشنال

#تصویر

یکی از دو بازیگر در یک عملیات کانولوشن . (بازیگر دیگر تکه‌ای از یک ماتریس ورودی است.) فیلتر کانولوشنال ماتریسی است که رتبه‌ای مشابه با ماتریس ورودی دارد، اما شکل کوچک‌تری دارد. به عنوان مثال، با توجه به یک ماتریس ورودی 28x28، فیلتر می تواند هر ماتریس دو بعدی کوچکتر از 28x28 باشد.

در دستکاری عکاسی، تمام سلول‌های یک فیلتر کانولوشن معمولاً روی یک الگوی ثابت از یک و صفر تنظیم می‌شوند. در یادگیری ماشین، فیلترهای کانولوشنال معمولاً با اعداد تصادفی کاشته می شوند و سپس شبکه مقادیر ایده آل را آموزش می دهد .

لایه کانولوشن

#تصویر

لایه ای از یک شبکه عصبی عمیق که در آن یک فیلتر کانولوشن از امتداد یک ماتریس ورودی عبور می کند. به عنوان مثال، فیلتر کانولوشنال 3x3 زیر را در نظر بگیرید:

یک ماتریس 3x3 با مقادیر زیر: [[0,1,0], [1,0,1], [0,1,0]]

انیمیشن زیر یک لایه کانولوشن را نشان می دهد که از 9 عملیات کانولوشن شامل ماتریس ورودی 5×5 تشکیل شده است. توجه داشته باشید که هر عملیات کانولوشنی روی یک برش 3x3 متفاوت از ماتریس ورودی کار می کند. ماتریس 3x3 حاصل (در سمت راست) از نتایج 9 عملیات کانولوشنی تشکیل شده است:

انیمیشنی که دو ماتریس را نشان می دهد. ماتریس اول ماتریس 5x5 است: [[128,97,53,201,198], [35,22,25,200,195]، [37,24,28,197,182]، [33,28,92,195,179], 201,179], 10,174, 20,174. ماتریس دوم ماتریس 3x3 است: [[181,303,618], [115,338,605], [169,351,560]]. ماتریس دوم با اعمال فیلتر کانولوشنال [[0, 1, 0], [1, 0, 1], [0, 1, 0]] در زیر مجموعه های مختلف 3x3 ماتریس 5x5 محاسبه می شود.

شبکه عصبی کانولوشنال

#تصویر

یک شبکه عصبی که در آن حداقل یک لایه یک لایه کانولوشن است. یک شبکه عصبی کانولوشنال معمولی از ترکیبی از لایه های زیر تشکیل شده است:

شبکه های عصبی کانولوشنال در انواع خاصی از مشکلات، مانند تشخیص تصویر، موفقیت زیادی داشته اند.

عملیات کانولوشن

#تصویر

عملیات ریاضی دو مرحله ای زیر:

  1. ضرب عنصری فیلتر کانولوشن و تکه ای از ماتریس ورودی. (برش ماتریس ورودی دارای رتبه و اندازه یکسانی با فیلتر کانولوشن است.)
  2. مجموع تمام مقادیر در ماتریس محصول حاصل.

به عنوان مثال، ماتریس ورودی 5x5 زیر را در نظر بگیرید:

ماتریس 5x5: [[128,97,53,201,198], [35,22,25,200,195], [37,24,28,197,182]، [33,28,92,195,179]، [31,410,7]210.

حالا فیلتر کانولوشنال 2x2 زیر را تصور کنید:

ماتریس 2x2: [[1، 0]، [0، 1]]

هر عملیات کانولوشن شامل یک تکه 2×2 از ماتریس ورودی است. به عنوان مثال، فرض کنید از برش 2x2 در سمت چپ بالای ماتریس ورودی استفاده می کنیم. بنابراین، عملیات پیچیدگی در این برش به صورت زیر است:

اعمال فیلتر کانولوشنال [[1، 0]، [0، 1]] در بخش 2x2 بالا سمت چپ ماتریس ورودی، که [[128،97]، [35،22]] است. فیلتر کانولوشن 128 و 22 را دست نخورده باقی می گذارد، اما 97 و 35 را صفر می کند. در نتیجه، عملیات پیچیدگی مقدار 150 (128+22) را به دست می دهد.

یک لایه کانولوشن شامل یک سری عملیات کانولوشنی است که هر کدام بر روی یک برش متفاوت از ماتریس ورودی عمل می کنند.

D

افزایش داده ها

#تصویر

تقویت مصنوعی دامنه و تعداد نمونه های آموزشی با تبدیل نمونه های موجود برای ایجاد نمونه های اضافی. برای مثال، فرض کنید تصاویر یکی از ویژگی‌های شما هستند، اما مجموعه داده‌های شما حاوی نمونه‌های تصویری کافی برای یادگیری مدل‌های مفید نیست. در حالت ایده‌آل، به اندازه کافی تصاویر برچسب‌دار را به مجموعه داده خود اضافه می‌کنید تا مدل خود را به درستی آموزش دهد. اگر این امکان پذیر نباشد، افزایش داده می‌تواند هر تصویر را بچرخاند، کشیده و منعکس کند تا انواع زیادی از تصویر اصلی تولید شود، و احتمالاً داده‌های برچسب‌گذاری شده کافی برای آموزش عالی به دست می‌آید.

شبکه عصبی کانولوشنال قابل تفکیک عمیق (sepCNN)

#تصویر

یک معماری شبکه عصبی کانولوشن مبتنی بر Inception ، اما جایی که ماژول‌های Inception با پیچیدگی‌های قابل تفکیک عمیق جایگزین می‌شوند. همچنین به عنوان Xception شناخته می شود.

یک پیچیدگی قابل تفکیک عمقی (همچنین به اختصار به عنوان کانولوشن قابل تفکیک شناخته می شود) یک کانولوشن سه بعدی استاندارد را به دو عملیات کانولوشن مجزا تبدیل می کند که از نظر محاسباتی کارآمدتر هستند: اول، یک پیچیدگی عمقی، با عمق 1 (n ✕ n ✕ 1)، و سپس دوم، یک پیچش نقطه ای، با طول و عرض 1 (1 ✕ 1 ✕ n).

برای کسب اطلاعات بیشتر، به Xception: Deep Learning with Depthwise Separable Convolutions مراجعه کنید.

پایین نمونه گیری

#تصویر

عبارت Overloaded که می تواند به معنی یکی از موارد زیر باشد:

  • کاهش حجم اطلاعات در یک ویژگی به منظور آموزش کارآمدتر یک مدل. به عنوان مثال، قبل از آموزش یک مدل تشخیص تصویر، نمونه برداری از تصاویر با وضوح بالا به یک فرمت با وضوح پایین تر.
  • آموزش بر روی درصد بسیار پایینی از نمونه‌های کلاسی که بیش از حد ارائه شده‌اند به منظور بهبود آموزش مدل در کلاس‌های کم‌نماینده. به عنوان مثال، در یک مجموعه داده با کلاس نامتعادل ، مدل‌ها تمایل دارند تا چیزهای زیادی در مورد کلاس اکثریت بیاموزند و به اندازه کافی در مورد کلاس اقلیت نیستند. کاهش نمونه به تعادل میزان آموزش در طبقات اکثریت و اقلیت کمک می کند.

اف

تنظیم دقیق

#زبان
#تصویر
#تولید هوش مصنوعی

دومین پاس آموزشی ویژه کار بر روی یک مدل از پیش آموزش دیده انجام شد تا پارامترهای آن را برای یک مورد استفاده خاص اصلاح کند. به عنوان مثال، دنباله آموزش کامل برای برخی از مدل های زبان بزرگ به شرح زیر است:

  1. قبل از آموزش: یک مدل زبان بزرگ را بر روی یک مجموعه داده کلی گسترده، مانند تمام صفحات ویکی پدیا به زبان انگلیسی، آموزش دهید.
  2. تنظیم دقیق: مدل از پیش آموزش دیده را برای انجام یک کار خاص ، مانند پاسخ به سؤالات پزشکی، آموزش دهید. تنظیم دقیق معمولاً شامل صدها یا هزاران مثال متمرکز بر یک کار خاص است.

به عنوان مثال دیگر، دنباله آموزش کامل برای یک مدل تصویر بزرگ به شرح زیر است:

  1. قبل از آموزش: یک مدل تصویر بزرگ را بر روی یک مجموعه داده کلی تصویری گسترده، مانند تمام تصاویر موجود در Wikimedia Commons آموزش دهید.
  2. تنظیم دقیق: مدل از پیش آموزش دیده را برای انجام یک کار خاص ، مانند تولید تصاویر اورکا، آموزش دهید.

تنظیم دقیق می تواند شامل هر ترکیبی از استراتژی های زیر باشد:

  • اصلاح تمام پارامترهای موجود مدل از پیش آموزش دیده. گاهی اوقات به آن تنظیم دقیق کامل می گویند.
  • اصلاح تنها برخی از پارامترهای موجود مدل از قبل آموزش دیده (معمولاً، نزدیکترین لایه ها به لایه خروجی )، در حالی که سایر پارامترهای موجود را بدون تغییر نگه می دارد (معمولاً، لایه های نزدیک به لایه ورودی ). تنظیم کارآمد پارامتر را ببینید.
  • افزودن لایه‌های بیشتر، معمولاً در بالای لایه‌های موجود که نزدیک‌ترین لایه به لایه خروجی است.

تنظیم دقیق شکلی از یادگیری انتقالی است. به این ترتیب، تنظیم دقیق ممکن است از یک تابع تلفات متفاوت یا نوع مدل متفاوتی نسبت به مواردی که برای آموزش مدل از پیش آموزش دیده استفاده می‌شود، استفاده کند. به عنوان مثال، می‌توانید یک مدل تصویر بزرگ از قبل آموزش‌دیده را برای تولید یک مدل رگرسیونی تنظیم کنید که تعداد پرندگان در یک تصویر ورودی را برمی‌گرداند.

تنظیم دقیق را با عبارات زیر مقایسه و مقایسه کنید:

جی

هوش مصنوعی مولد

#زبان
#تصویر
#تولید هوش مصنوعی

یک میدان تحول‌آفرین در حال ظهور بدون تعریف رسمی. گفته می‌شود، اکثر کارشناسان موافق هستند که مدل‌های هوش مصنوعی تولیدی می‌توانند محتوایی را ایجاد کنند ("تولید") که همه موارد زیر باشد:

  • مجتمع
  • منسجم
  • اصلی

به عنوان مثال، یک مدل هوش مصنوعی مولد می تواند مقالات یا تصاویر پیچیده ای ایجاد کند.

برخی از فناوری‌های قبلی، از جمله LSTM و RNN ، می‌توانند محتوای اصلی و منسجم تولید کنند. برخی از کارشناسان این فناوری های قبلی را به عنوان هوش مصنوعی مولد می دانند، در حالی که برخی دیگر احساس می کنند که هوش مصنوعی مولد واقعی به خروجی پیچیده تری نسبت به فناوری های قبلی نیاز دارد.

در مقابل ML پیش بینی .

من

تشخیص تصویر

#تصویر

فرآیندی که شی(ها)، الگو(ها)، یا مفهوم(ها) را در یک تصویر طبقه بندی می کند. تشخیص تصویر به عنوان طبقه بندی تصویر نیز شناخته می شود.

برای اطلاعات بیشتر، تمرین ML: طبقه بندی تصاویر را ببینید.

تقاطع روی اتحاد (IoU)

#تصویر

تقاطع دو مجموعه تقسیم شده توسط اتحاد آنها. در وظایف تشخیص تصویر یادگیری ماشینی، IoU برای اندازه‌گیری دقت جعبه مرزی پیش‌بینی‌شده مدل با توجه به جعبه مرزی حقیقت زمین استفاده می‌شود. در این مورد، IoU برای دو جعبه، نسبت بین سطح همپوشانی و مساحت کل است و مقدار آن از 0 (بدون همپوشانی جعبه مرزی پیش‌بینی‌شده و جعبه مرزی حقیقت-زمینی) تا 1 (جعبه مرزی و زمین پیش‌بینی‌شده) است. -جعبه مرزی حقیقت دقیقاً مختصات یکسانی دارد).

برای مثال در تصویر زیر:

  • جعبه مرزی پیش‌بینی‌شده (مختصات تعیین‌کننده جایی که مدل جدول شب را در نقاشی پیش‌بینی می‌کند) به رنگ بنفش مشخص شده است.
  • جعبه مرزی حقیقت زمین (مختصات تعیین کننده جایی که میز شب در نقاشی واقعاً قرار دارد) با رنگ سبز مشخص شده است.

نقاشی ون گوگ اتاق خواب ونسان در آرل، با دو جعبه متفاوت در اطراف میز شب کنار تخت. جعبه مرزی حقیقت زمین (به رنگ سبز) میز شب را کاملاً مشخص می کند. جعبه مرزی پیش‌بینی‌شده (به رنگ بنفش) 50% به سمت پایین و سمت راست جعبه مرزی حقیقت-زمینی جابجا می‌شود. یک چهارم پایین سمت راست جدول شب را در بر می گیرد، اما بقیه جدول را از دست می دهد.

در اینجا، محل تقاطع جعبه‌های مرزی برای پیش‌بینی و حقیقت زمین (در پایین سمت چپ) 1 است، و اتحاد کادرهای مرزی برای پیش‌بینی و حقیقت زمینه (زیر سمت راست) 7 است، بنابراین IoU \(\frac{1}{7}\)است.

همان تصویر بالا، اما با هر کادر محدود به چهار ربع تقسیم شده است. در مجموع هفت ربع وجود دارد، زیرا ربع پایین سمت راست کادر محدود کننده حقیقت زمین و ربع بالا سمت چپ جعبه مرزی پیش بینی شده روی یکدیگر همپوشانی دارند. این بخش همپوشانی (که با رنگ سبز مشخص شده است) تقاطع را نشان می دهد و مساحت آن 1 است.همان تصویر بالا، اما با هر کادر محدود به چهار ربع تقسیم شده است. در مجموع هفت ربع وجود دارد، زیرا ربع پایین سمت راست کادر محدود کننده حقیقت زمین و ربع بالا سمت چپ جعبه مرزی پیش بینی شده روی یکدیگر همپوشانی دارند. کل فضای داخلی محصور شده توسط هر دو جعبه مرزی (با رنگ سبز برجسته شده) نشان دهنده اتحاد است و دارای مساحت 7 است.

ک

امتیاز کلیدی

#تصویر

مختصات ویژگی های خاص در یک تصویر. به عنوان مثال، برای یک مدل تشخیص تصویر که گونه‌های گل را متمایز می‌کند، نقاط کلیدی ممکن است مرکز هر گلبرگ، ساقه، پرچم و غیره باشد.

L

نشانه ها

#تصویر

مترادف برای نقاط کلیدی .

م

MNIST

#تصویر

یک مجموعه داده دامنه عمومی که توسط LeCun، Cortes و Burges گردآوری شده است که شامل 60000 تصویر است، هر تصویر نشان می‌دهد که چگونه یک انسان به صورت دستی یک رقم خاص از 0 تا 9 را نوشته است. هر تصویر به عنوان یک آرایه 28x28 از اعداد صحیح ذخیره می شود، که در آن هر عدد صحیح یک مقدار خاکستری بین 0 تا 255، شامل می شود.

MNIST یک مجموعه داده متعارف برای یادگیری ماشین است که اغلب برای آزمایش رویکردهای جدید یادگیری ماشین استفاده می شود. برای جزئیات، به پایگاه داده ارقام دست‌نویس MNIST مراجعه کنید.

پ

ادغام

#تصویر

کاهش یک ماتریس (یا ماتریس) ایجاد شده توسط یک لایه کانولوشن قبلی به یک ماتریس کوچکتر. ادغام معمولاً شامل گرفتن حداکثر یا میانگین مقدار در سطح منطقه است. به عنوان مثال، فرض کنید ماتریس 3x3 زیر را داریم:

ماتریس 3x3 [[5،3،1]، [8،2،5]، [9،4،3]].

یک عملیات ادغام، درست مانند یک عملیات کانولوشن، آن ماتریس را به برش ها تقسیم می کند و سپس آن عملیات کانولوشن را با گام می لغزد. به عنوان مثال، فرض کنید عملیات ادغام، ماتریس کانولوشن را با یک گام 1x1 به برش های 2x2 تقسیم می کند. همانطور که نمودار زیر نشان می دهد، چهار عملیات ادغام انجام می شود. تصور کنید که هر عملیات ادغام حداکثر مقدار چهار در آن برش را انتخاب می کند:

ماتریس ورودی 3x3 با مقادیر: [[5،3،1]، [8،2،5]، [9،4،3]] است. زیر ماتریس 2x2 بالا سمت چپ ماتریس ورودی [[5،3]، [8،2]] است، بنابراین عملیات ادغام بالا سمت چپ مقدار 8 را به دست می‌دهد (که حداکثر 5، 3، 8 و 2 است. ). زیر ماتریس 2x2 بالا سمت راست ماتریس ورودی [[3،1]، [2،5]] است، بنابراین عملیات ادغام بالا سمت راست مقدار 5 را به دست می‌دهد. زیر ماتریس 2x2 پایین سمت چپ ماتریس ورودی [[ 8,2], [9,4]]، بنابراین عملیات ادغام پایین سمت چپ مقدار 9 را به دست می‌دهد. زیر ماتریس 2x2 پایین سمت راست ماتریس ورودی [[2،5]، [4،3]] است، بنابراین عملیات ادغام پایین سمت راست مقدار 5 را به دست می دهد. به طور خلاصه، عملیات ادغام ماتریس 2x2 را به دست می دهد [[8،5]، [9،5]].

ادغام به اعمال تغییر ناپذیری ترجمه در ماتریس ورودی کمک می کند.

ادغام برای کاربردهای بینایی به طور رسمی تر به عنوان ادغام فضایی شناخته می شود. برنامه های کاربردی سری زمانی معمولاً به ادغام به عنوان ادغام زمانی اشاره می کنند. کمتر به طور رسمی، ادغام اغلب به عنوان نمونه برداری فرعی یا پایین نمونه نامیده می شود.

مدل از پیش آموزش دیده

#زبان
#تصویر
#تولید هوش مصنوعی

مدل‌ها یا اجزای مدل (مانند بردار تعبیه‌شده ) که قبلاً آموزش داده شده‌اند. گاهی اوقات، بردارهای تعبیه شده از قبل آموزش دیده را به یک شبکه عصبی وارد می کنید. در مواقع دیگر، مدل شما به جای تکیه بر جاسازی های از پیش آموزش داده شده، خود بردارهای جاسازی را آموزش می دهد.

اصطلاح مدل زبانی از پیش آموزش دیده به یک مدل زبان بزرگ اطلاق می شود که دوره های پیش آموزشی را پشت سر گذاشته است.

قبل از آموزش

#زبان
#تصویر
#تولید هوش مصنوعی

آموزش اولیه یک مدل بر روی یک مجموعه داده بزرگ. برخی از مدل های از پیش آموزش دیده غول های دست و پا چلفتی هستند و معمولاً باید از طریق آموزش های اضافی اصلاح شوند. به عنوان مثال، کارشناسان ML ممکن است یک مدل زبان بزرگ را در یک مجموعه داده متنی گسترده، مانند تمام صفحات انگلیسی در ویکی‌پدیا، از قبل آموزش دهند. پس از پیش آموزش، مدل به دست آمده ممکن است از طریق هر یک از تکنیک های زیر اصلاح شود:

آر

تغییر ناپذیری چرخشی

#تصویر

در یک مسئله طبقه بندی تصویر، توانایی یک الگوریتم برای طبقه بندی موفقیت آمیز تصاویر حتی زمانی که جهت تصویر تغییر می کند. برای مثال، الگوریتم همچنان می‌تواند یک راکت تنیس را که به سمت بالا، پهلو یا پایین است، تشخیص دهد. توجه داشته باشید که تغییر ناپذیری چرخشی همیشه مطلوب نیست. برای مثال، 9 وارونه نباید به عنوان 9 طبقه بندی شود.

همچنین به عدم تغییر ترجمه و عدم تغییر اندازه مراجعه کنید.

اس

عدم تغییر اندازه

#تصویر

در یک مسئله طبقه بندی تصویر، توانایی یک الگوریتم برای طبقه بندی موفقیت آمیز تصاویر حتی زمانی که اندازه تصویر تغییر می کند. به عنوان مثال، این الگوریتم همچنان می‌تواند گربه را تشخیص دهد که آیا 2 میلیون پیکسل مصرف می‌کند یا 200 هزار پیکسل. توجه داشته باشید که حتی بهترین الگوریتم‌های طبقه‌بندی تصویر هنوز محدودیت‌های عملی در تغییر اندازه دارند. به عنوان مثال، یک الگوریتم (یا انسان) بعید است که تصویر گربه ای را که تنها 20 پیکسل مصرف می کند، به درستی طبقه بندی کند.

همچنین به عدم تغییر ترجمه و عدم تغییر چرخشی مراجعه کنید.

ادغام فضایی

#تصویر

ادغام را ببینید.

گام های بلند برداشتن

#تصویر

در یک عملیات کانولوشن یا ادغام، دلتا در هر بعد سری بعدی از برش های ورودی. به عنوان مثال، انیمیشن زیر یک گام (1،1) را در طول یک عملیات کانولوشن نشان می دهد. بنابراین، برش ورودی بعدی یک موقعیت در سمت راست برش ورودی قبلی شروع می شود. هنگامی که عملیات به لبه سمت راست می رسد، برش بعدی تماماً به سمت چپ است اما یک موقعیت پایین است.

یک ماتریس ورودی 5x5 و یک فیلتر کانولوشنال 3x3. از آنجا که گام (1،1) است، یک فیلتر کانولوشن 9 بار اعمال می شود. اولین برش کانولوشن، زیر ماتریس 3x3 بالا سمت چپ ماتریس ورودی را ارزیابی می کند. برش دوم زیر ماتریس 3x3 بالا و میانی را ارزیابی می کند. سومین برش کانولوشنال زیرماتریس 3x3 بالا سمت راست را ارزیابی می کند. برش چهارم زیر ماتریس 3x3 وسط چپ را ارزیابی می کند. برش پنجم زیر ماتریس 3x3 میانی را ارزیابی می کند. برش ششم زیر ماتریس 3x3 وسط سمت راست را ارزیابی می کند. برش هفتم زیر ماتریس 3x3 پایین سمت چپ را ارزیابی می کند. برش هشتم زیر ماتریس 3x3 پایین و وسط را ارزیابی می کند. برش نهم زیر ماتریس 3x3 پایین سمت راست را ارزیابی می کند.

مثال قبل یک گام دو بعدی را نشان می دهد. اگر ماتریس ورودی سه بعدی باشد، گام نیز سه بعدی خواهد بود.

نمونه گیری فرعی

#تصویر

ادغام را ببینید.

تی

درجه حرارت

#زبان
#تصویر
#تولید کننده هوش مصنوعی

یک فراپارامتر که درجه تصادفی بودن خروجی یک مدل را کنترل می کند. دماهای بالاتر منجر به خروجی تصادفی بیشتر می شود، در حالی که دمای پایین تر منجر به خروجی تصادفی کمتر می شود.

انتخاب بهترین دما به کاربرد خاص و خواص ترجیحی خروجی مدل بستگی دارد. برای مثال، احتمالاً هنگام ایجاد برنامه‌ای که خروجی خلاقانه ایجاد می‌کند، دما را افزایش می‌دهید. برعکس، احتمالاً هنگام ساخت مدلی که تصاویر یا متن را طبقه بندی می کند، دما را کاهش می دهید تا دقت و سازگاری مدل را بهبود بخشد.

دما اغلب با softmax استفاده می شود.

تغییر ناپذیری ترجمه

#تصویر

در یک مسئله طبقه بندی تصویر، توانایی یک الگوریتم برای طبقه بندی موفقیت آمیز تصاویر حتی زمانی که موقعیت اشیاء درون تصویر تغییر می کند. به عنوان مثال، الگوریتم هنوز هم می تواند سگ را شناسایی کند، چه در مرکز کادر باشد یا در انتهای سمت چپ قاب.

همچنین به عدم تغییر اندازه و عدم تغییر چرخشی مراجعه کنید.