این صفحه به‌وسیله ‏Cloud Translation API‏ ترجمه شده است.

واژه نامه یادگیری ماشینی: مدل های تصویری

این صفحه شامل اصطلاحات واژه نامه Image Models است. برای همه اصطلاحات واژه نامه، اینجا را کلیک کنید .

الف

واقعیت افزوده

#تصویر

فناوری ای که یک تصویر تولید شده توسط کامپیوتر را بر روی دید کاربر از دنیای واقعی قرار می دهد و بنابراین یک نمای ترکیبی ارائه می دهد.

رمزگذار خودکار

#زبان

#تصویر

سیستمی که یاد می گیرد مهم ترین اطلاعات را از ورودی استخراج کند. رمزگذارهای خودکار ترکیبی از رمزگذار و رمزگشا هستند. رمزگذارهای خودکار بر فرآیند دو مرحله ای زیر متکی هستند:

رمزگذار ورودی را به یک قالب (معمولا) با ابعاد پایین تر (متوسط) ترسیم می کند.
رمزگشا با نگاشت قالب با ابعاد پایین تر به فرمت ورودی با ابعاد بالاتر، یک نسخه با اتلاف از ورودی اصلی ایجاد می کند.

رمزگذارهای خودکار با تلاش رمزگشا برای بازسازی ورودی اصلی از فرمت میانی رمزگذار تا حد امکان به صورت سرتاسر آموزش داده می شوند. از آنجایی که فرمت میانی کوچکتر (بُعد پایین) از فرمت اصلی است، رمزگذار خودکار مجبور است اطلاعاتی را که در ورودی ضروری است، بیاموزد و خروجی کاملاً با ورودی یکسان نخواهد بود.

به عنوان مثال:

اگر داده های ورودی گرافیکی باشد، کپی غیر دقیق شبیه به گرافیک اصلی است، اما تا حدودی تغییر یافته است. شاید کپی غیر دقیق، نویز را از گرافیک اصلی حذف می کند یا برخی از پیکسل های از دست رفته را پر می کند.
اگر داده ورودی متن باشد، یک رمزگذار خودکار متن جدیدی تولید می کند که متن اصلی را تقلید می کند (اما مشابه نیست).

رمزگذارهای خودکار متغیر را نیز ببینید.

مدل خود رگرسیون

#زبان

#تصویر

#تولید کننده هوش مصنوعی

مدلی که پیش بینی را بر اساس پیش بینی های قبلی خود استنباط می کند. برای مثال، مدل‌های زبان رگرسیون خودکار، نشانه‌های بعدی را بر اساس نشانه‌های پیش‌بینی‌شده قبلی پیش‌بینی می‌کنند. همه مدل‌های زبان بزرگ مبتنی بر Transformer دارای رگرسیون خودکار هستند.

در مقابل، مدل‌های تصویر مبتنی بر GAN معمولاً رگرسیون خودکار نیستند، زیرا آنها یک تصویر را در یک گذر به جلو و نه به صورت تکراری در مراحل تولید می‌کنند. با این حال، برخی از مدل‌های تولید تصویر دارای رگرسیون خودکار هستند ، زیرا آنها یک تصویر را در مراحل تولید می‌کنند.

ب

جعبه مرزی

#تصویر

در یک تصویر، مختصات ( x ، y ) یک مستطیل در اطراف ناحیه مورد نظر، مانند سگ در تصویر زیر.

عکس سگی که روی مبل نشسته است. یک جعبه سبز رنگ با مختصات بالا-چپ (275، 1271) و پایین-راست مختصات (2954، 2761) بدن سگ را مشخص می کند

سی

پیچیدگی

#تصویر

در ریاضیات، به طور معمول، ترکیبی از دو تابع. در یادگیری ماشین، یک کانولوشن فیلتر کانولوشن و ماتریس ورودی را با هم مخلوط می‌کند تا وزنه‌ها را آموزش دهد.

اصطلاح "کانولوشن" در یادگیری ماشین اغلب یک روش کوتاه برای اشاره به عملیات کانولوشن یا لایه کانولوشن است.

بدون کانولوشن، یک الگوریتم یادگیری ماشین باید وزن جداگانه ای برای هر سلول در یک تانسور بزرگ یاد بگیرد. به عنوان مثال، آموزش الگوریتم یادگیری ماشین بر روی تصاویر 2K x 2K مجبور می شود 4M وزن جداگانه پیدا کند. به لطف کانولوشن‌ها، یک الگوریتم یادگیری ماشین فقط باید وزن‌هایی را برای هر سلول در فیلتر کانولوشن پیدا کند و حافظه مورد نیاز برای آموزش مدل را به‌طور چشمگیری کاهش دهد. هنگامی که فیلتر کانولوشن اعمال می شود، به سادگی در بین سلول ها تکرار می شود به طوری که هر یک در فیلتر ضرب می شود.

برای اطلاعات بیشتر به معرفی شبکه های عصبی کانولوشن در دوره طبقه بندی تصاویر مراجعه کنید.

فیلتر کانولوشنال

#تصویر

یکی از دو بازیگر در یک عملیات کانولوشن . (بازیگر دیگر تکه‌ای از یک ماتریس ورودی است.) فیلتر کانولوشنال ماتریسی است که رتبه‌ای مشابه با ماتریس ورودی دارد، اما شکل کوچک‌تری دارد. به عنوان مثال، با توجه به یک ماتریس ورودی 28x28، فیلتر می تواند هر ماتریس دو بعدی کوچکتر از 28x28 باشد.

در دستکاری عکاسی، تمام سلول‌های یک فیلتر کانولوشن معمولاً روی یک الگوی ثابت از یک و صفر تنظیم می‌شوند. در یادگیری ماشین، فیلترهای کانولوشنال معمولاً با اعداد تصادفی کاشته می شوند و سپس شبکه مقادیر ایده آل را آموزش می دهد .

برای اطلاعات بیشتر، Convolution را در دوره آموزشی طبقه بندی تصاویر ببینید.

لایه کانولوشن

#تصویر

لایه ای از یک شبکه عصبی عمیق که در آن یک فیلتر کانولوشن از امتداد یک ماتریس ورودی عبور می کند. به عنوان مثال، فیلتر کانولوشنال 3x3 زیر را در نظر بگیرید:

یک ماتریس 3x3 با مقادیر زیر: [[0,1,0], [1,0,1], [0,1,0]]

انیمیشن زیر یک لایه کانولوشن را نشان می دهد که از 9 عملیات کانولوشن شامل ماتریس ورودی 5×5 تشکیل شده است. توجه داشته باشید که هر عملیات کانولوشنی روی یک برش 3x3 متفاوت از ماتریس ورودی کار می کند. ماتریس 3x3 حاصل (در سمت راست) از نتایج 9 عملیات کانولوشنی تشکیل شده است:

انیمیشنی که دو ماتریس را نشان می دهد. ماتریس اول 5x5 است ماتریس: [[128,97,53,201,198], [35,22,25,200,195]، [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]]. ماتریس دوم ماتریس 3x3 است: [[181,303,618], [115,338,605], [169,351,560]]. ماتریس دوم با اعمال کانولوشن محاسبه می شود فیلتر [[0، 1، 0]، [1، 0، 1]، [0، 1، 0]] در عرض زیر مجموعه های مختلف 3x3 از ماتریس 5x5.

برای اطلاعات بیشتر، لایه های کاملاً متصل را در دوره طبقه بندی تصاویر ببینید.

شبکه عصبی کانولوشنال

#تصویر

یک شبکه عصبی که در آن حداقل یک لایه یک لایه کانولوشن است. یک شبکه عصبی کانولوشنال معمولی از ترکیبی از لایه های زیر تشکیل شده است:

لایه های کانولوشن
لایه های ادغام
لایه های متراکم

شبکه های عصبی کانولوشنال در انواع خاصی از مشکلات، مانند تشخیص تصویر، موفقیت زیادی داشته اند.

عملیات کانولوشن

#تصویر

عملیات ریاضی دو مرحله ای زیر:

ضرب عنصری فیلتر کانولوشن و تکه ای از ماتریس ورودی. (برش ماتریس ورودی دارای رتبه و اندازه یکسانی با فیلتر کانولوشن است.)
مجموع تمام مقادیر در ماتریس محصول حاصل.

به عنوان مثال، ماتریس ورودی 5x5 زیر را در نظر بگیرید:

ماتریس 5×5: [[128,97,53,201,198], [35,22,25,200,195]، [37,24,28,197,182], [33,28,92,195,179], [31,40,100,192,177]].

حالا فیلتر کانولوشنال 2x2 زیر را تصور کنید:

ماتریس 2x2: [[1، 0]، [0، 1]]

هر عملیات کانولوشن شامل یک تکه 2×2 از ماتریس ورودی است. به عنوان مثال، فرض کنید از برش 2x2 در سمت چپ بالای ماتریس ورودی استفاده می کنیم. بنابراین، عملیات پیچیدگی در این برش به صورت زیر است:

اعمال فیلتر کانولوشنال [[1, 0], [0, 1]] در بالا سمت چپ بخش 2x2 از ماتریس ورودی که [[128،97]، [35،22]] است. فیلتر کانولوشن 128 و 22 را دست نخورده باقی می گذارد، اما صفر می شود از 97 و 35. در نتیجه، عملیات پیچیدگی نتیجه می دهد مقدار 150 (128+22).

یک لایه کانولوشن شامل یک سری عملیات کانولوشنی است که هر کدام بر روی یک برش متفاوت از ماتریس ورودی عمل می کنند.

D

افزایش داده ها

#تصویر

تقویت مصنوعی دامنه و تعداد نمونه های آموزشی با تبدیل نمونه های موجود برای ایجاد نمونه های اضافی. برای مثال، فرض کنید تصاویر یکی از ویژگی‌های شما هستند، اما مجموعه داده‌های شما حاوی نمونه‌های تصویری کافی برای یادگیری مدل‌های مفید نیست. در حالت ایده‌آل، به اندازه کافی تصاویر برچسب‌دار را به مجموعه داده خود اضافه می‌کنید تا مدل خود را به درستی آموزش دهد. اگر این امکان پذیر نباشد، افزایش داده می‌تواند هر تصویر را بچرخاند، کشیده و منعکس کند تا انواع زیادی از تصویر اصلی تولید شود، و احتمالاً داده‌های برچسب‌گذاری شده کافی برای آموزش عالی به دست می‌آید.

شبکه عصبی کانولوشنال قابل تفکیک عمیق (sepCNN)

#تصویر

یک معماری شبکه عصبی کانولوشن مبتنی بر Inception ، اما جایی که ماژول‌های Inception با پیچیدگی‌های قابل تفکیک عمیق جایگزین می‌شوند. همچنین به عنوان Xception شناخته می شود.

یک پیچیدگی قابل تفکیک عمیق (همچنین به اختصار به عنوان کانولوشن قابل تفکیک نامیده می شود) یک پیچیدگی سه بعدی استاندارد را به دو عملیات کانولوشن مجزا تبدیل می کند که از نظر محاسباتی کارآمدتر هستند: اول، یک پیچیدگی عمقی، با عمق 1 (n ✕ n ✕ 1) و سپس دوم، پیچیدگی 1، طول و 1 با نقطه. ✕ n).

برای کسب اطلاعات بیشتر، به Xception: Deep Learning with Depthwise Separable Convolutions مراجعه کنید.

پایین نمونه گیری

#تصویر

عبارت Overloaded که می تواند به معنی یکی از موارد زیر باشد:

کاهش حجم اطلاعات در یک ویژگی به منظور آموزش کارآمدتر یک مدل. به عنوان مثال، قبل از آموزش یک مدل تشخیص تصویر، نمونه برداری از تصاویر با وضوح بالا به یک فرمت با وضوح پایین تر.
آموزش بر روی درصد بسیار پایینی از نمونه‌های کلاسی که بیش از حد ارائه شده‌اند به منظور بهبود آموزش مدل در کلاس‌های کم‌نماینده. به عنوان مثال، در یک مجموعه داده با کلاس نامتعادل ، مدل‌ها تمایل دارند تا چیزهای زیادی در مورد کلاس اکثریت بیاموزند و به اندازه کافی در مورد کلاس اقلیت نیستند. کاهش نمونه به تعادل میزان آموزش در طبقات اکثریت و اقلیت کمک می کند.

برای اطلاعات بیشتر ، مجموعه داده‌ها: مجموعه داده‌های نامتعادل را در دوره آموزشی Crash Learning Machine ببینید.

اف

تنظیم دقیق

#زبان

#تصویر

#تولید هوش مصنوعی

دومین پاس آموزشی ویژه کار بر روی یک مدل از پیش آموزش دیده انجام شد تا پارامترهای آن را برای یک مورد استفاده خاص اصلاح کند. به عنوان مثال، دنباله آموزش کامل برای برخی از مدل های زبان بزرگ به شرح زیر است:

قبل از آموزش: یک مدل زبان بزرگ را بر روی یک مجموعه داده کلی گسترده، مانند تمام صفحات ویکی پدیا به زبان انگلیسی، آموزش دهید.
تنظیم دقیق: مدل از پیش آموزش دیده را برای انجام یک کار خاص ، مانند پاسخ به سؤالات پزشکی، آموزش دهید. تنظیم دقیق معمولاً شامل صدها یا هزاران مثال متمرکز بر یک کار خاص است.

به عنوان مثال دیگر، دنباله آموزش کامل برای یک مدل تصویر بزرگ به شرح زیر است:

قبل از آموزش: یک مدل تصویر بزرگ را بر روی یک مجموعه داده کلی تصویری گسترده، مانند تمام تصاویر موجود در Wikimedia Commons آموزش دهید.
تنظیم دقیق: مدل از پیش آموزش دیده را برای انجام یک کار خاص ، مانند تولید تصاویر اورکا، آموزش دهید.

تنظیم دقیق می تواند شامل هر ترکیبی از استراتژی های زیر باشد:

اصلاح تمام پارامترهای موجود مدل از پیش آموزش دیده. گاهی اوقات به آن تنظیم دقیق کامل می گویند.
اصلاح تنها برخی از پارامترهای موجود مدل از قبل آموزش دیده (معمولاً، نزدیکترین لایه ها به لایه خروجی )، در حالی که سایر پارامترهای موجود را بدون تغییر نگه می دارد (معمولاً، لایه های نزدیک به لایه ورودی ). تنظیم کارآمد پارامتر را ببینید.
افزودن لایه‌های بیشتر، معمولاً در بالای لایه‌های موجود که نزدیک‌ترین لایه به لایه خروجی است.

تنظیم دقیق شکلی از یادگیری انتقالی است. به این ترتیب، تنظیم دقیق ممکن است از یک تابع تلفات متفاوت یا نوع مدل متفاوتی نسبت به مواردی که برای آموزش مدل از پیش آموزش دیده استفاده می‌شود، استفاده کند. به عنوان مثال، می‌توانید یک مدل تصویر بزرگ از قبل آموزش‌دیده را برای تولید یک مدل رگرسیونی تنظیم کنید که تعداد پرندگان در یک تصویر ورودی را برمی‌گرداند.

تنظیم دقیق را با عبارات زیر مقایسه و مقایسه کنید:

برای اطلاعات بیشتر به تنظیم دقیق در دوره تصادف یادگیری ماشین مراجعه کنید.

جی

جوزا

#زبان

#تصویر

#تولید هوش مصنوعی

این اکوسیستم شامل پیشرفته ترین هوش مصنوعی گوگل است. عناصر این اکوسیستم عبارتند از:

مدل های مختلف جمینی .
رابط مکالمه تعاملی به مدل Gemini . کاربران دستورات را تایپ می کنند و Gemini به آن درخواست ها پاسخ می دهد.
API های مختلف Gemini.
محصولات تجاری مختلف بر اساس مدل های جمینی؛ به عنوان مثال، Gemini برای Google Cloud .

مدل های جمینی

#زبان

#تصویر

#تولید هوش مصنوعی

پیشرفته ترین مدل های چندوجهی مبتنی بر ترانسفورماتور گوگل. مدل های Gemini به طور خاص برای ادغام با عوامل طراحی شده اند.

کاربران می توانند با مدل های Gemini به روش های مختلفی از جمله از طریق یک رابط گفتگوی تعاملی و از طریق SDK تعامل داشته باشند.

هوش مصنوعی مولد

#زبان

#تصویر

#تولید هوش مصنوعی

یک میدان تحول‌آفرین در حال ظهور بدون تعریف رسمی. گفته می‌شود، اکثر کارشناسان موافق هستند که مدل‌های هوش مصنوعی تولیدی می‌توانند محتوایی را ایجاد کنند ("تولید") که همه موارد زیر باشد:

مجتمع
منسجم
اصلی

به عنوان مثال، یک مدل هوش مصنوعی مولد می تواند مقالات یا تصاویر پیچیده ای ایجاد کند.

برخی از فناوری‌های قبلی، از جمله LSTM و RNN ، می‌توانند محتوای اصلی و منسجم تولید کنند. برخی از کارشناسان این فناوری های قبلی را به عنوان هوش مصنوعی مولد می دانند، در حالی که برخی دیگر احساس می کنند که هوش مصنوعی مولد واقعی به خروجی پیچیده تری نسبت به فناوری های قبلی نیاز دارد.

در مقابل ML پیش بینی .

من

تشخیص تصویر

#تصویر

فرآیندی که شی(ها)، الگو(ها)، یا مفهوم(ها) را در یک تصویر طبقه بندی می کند. تشخیص تصویر به عنوان طبقه بندی تصویر نیز شناخته می شود.

برای اطلاعات بیشتر، تمرین ML: طبقه بندی تصاویر را ببینید.

برای اطلاعات بیشتر به دوره آموزشی ML Practicum: Image Classification مراجعه کنید.

تقاطع روی اتحاد (IoU)

#تصویر

تقاطع دو مجموعه تقسیم شده توسط اتحاد آنها. در وظایف تشخیص تصویر یادگیری ماشینی، IoU برای اندازه‌گیری دقت جعبه مرزی پیش‌بینی‌شده مدل با توجه به جعبه مرزی حقیقت زمین استفاده می‌شود. در این مورد، IoU برای دو جعبه، نسبت بین سطح همپوشانی و مساحت کل است و مقدار آن از 0 (بدون همپوشانی جعبه مرزی پیش‌بینی‌شده و جعبه مرزی حقیقت زمین) تا 1 است (جعبه مرزی پیش‌بینی‌شده و جعبه مرزی حقیقت زمین دقیقاً مختصات یکسانی دارند).

برای مثال در تصویر زیر:

جعبه مرزی پیش‌بینی‌شده (مختصات تعیین‌کننده جایی که مدل جدول شب را در نقاشی پیش‌بینی می‌کند) به رنگ بنفش مشخص شده است.
جعبه مرزی حقیقت زمین (مختصات تعیین کننده جایی که میز شب در نقاشی واقعاً قرار دارد) با رنگ سبز مشخص شده است.

نقاشی ون گوگ اتاق خواب ونسان در آرل، با دو نقاشی متفاوت جعبه های محدود کننده دور میز شب کنار تخت. حقیقت زمین جعبه مرزی (به رنگ سبز) کاملاً میز شب را مشخص می کند. این جعبه مرزی پیش بینی شده (به رنگ بنفش) 50% به سمت پایین و به راست جابجا می شود جعبه مرزی حقیقت-زمینی; قسمت پایین سمت راست را در بر می گیرد از میز شب، اما بقیه میز را از دست می دهد.

در اینجا، محل تقاطع جعبه‌های مرزی برای پیش‌بینی و حقیقت زمین (در پایین سمت چپ) 1 است، و اتحاد کادرهای مرزی برای پیش‌بینی و حقیقت زمین (زیر سمت راست) 7 است، بنابراین IoU برابر است با $\frac{1}{7}$ .

همان تصویر بالا، اما با تقسیم هر کادر به چهار قسمت ربع ها در مجموع هفت ربع وجود دارد، به عنوان پایین سمت راست ربع جعبه مرزی حقیقت زمین و بالا سمت چپ ربع جعبه مرزی پیش بینی شده با یکدیگر همپوشانی دارند. این بخش همپوشانی (با رنگ سبز برجسته شده) نشان دهنده تقاطع، و مساحت آن 1 است.

ک

نقاط کلیدی

#تصویر

مختصات ویژگی های خاص در یک تصویر. به عنوان مثال، برای یک مدل تشخیص تصویر که گونه‌های گل را متمایز می‌کند، نقاط کلیدی ممکن است مرکز هر گلبرگ، ساقه، پرچم و غیره باشد.

L

نشانه ها

#تصویر

مترادف برای نقاط کلیدی .

م

MMIT

#زبان

#تصویر

#تولید هوش مصنوعی

مخفف عبارت multimodal instruction-tuned .

MNIST

#تصویر

یک مجموعه داده دامنه عمومی که توسط LeCun، Cortes و Burges گردآوری شده است که شامل 60000 تصویر است، هر تصویر نشان می‌دهد که چگونه یک انسان به صورت دستی یک رقم خاص از 0 تا 9 را نوشته است. هر تصویر به عنوان یک آرایه 28x28 از اعداد صحیح ذخیره می شود، که در آن هر عدد صحیح یک مقدار خاکستری بین 0 تا 255، شامل می شود.

MNIST یک مجموعه داده متعارف برای یادگیری ماشین است که اغلب برای آزمایش رویکردهای جدید یادگیری ماشین استفاده می شود. برای جزئیات، به پایگاه داده ارقام دست‌نویس MNIST مراجعه کنید.

MOE

#زبان

#تصویر

#تولید هوش مصنوعی

مخفف mix of experts .

پ

ادغام

#تصویر

کاهش یک ماتریس (یا ماتریس) ایجاد شده توسط یک لایه کانولوشن قبلی به یک ماتریس کوچکتر. ادغام معمولاً شامل گرفتن حداکثر یا میانگین مقدار در سطح منطقه است. به عنوان مثال، فرض کنید ماتریس 3x3 زیر را داریم:

ماتریس 3x3 [[5،3،1]، [8،2،5]، [9،4،3]].

یک عملیات ادغام، درست مانند یک عملیات کانولوشن، آن ماتریس را به برش ها تقسیم می کند و سپس آن عملیات کانولوشن را با گام می لغزد. به عنوان مثال، فرض کنید عملیات ادغام، ماتریس کانولوشن را با یک گام 1x1 به برش های 2x2 تقسیم می کند. همانطور که نمودار زیر نشان می دهد، چهار عملیات ادغام انجام می شود. تصور کنید که هر عملیات ادغام حداکثر مقدار چهار در آن برش را انتخاب می کند:

ادغام به اعمال تغییر ناپذیری ترجمه در ماتریس ورودی کمک می کند.

ادغام برای کاربردهای بینایی به طور رسمی تر به عنوان ادغام فضایی شناخته می شود. برنامه های کاربردی سری زمانی معمولاً به ادغام به عنوان ادغام زمانی اشاره می کنند. کمتر به طور رسمی، ادغام اغلب به عنوان نمونه برداری فرعی یا پایین نمونه نامیده می شود.

به معرفی شبکه های عصبی کانولوشن در دوره آموزشی ML: طبقه بندی تصاویر مراجعه کنید.

مدل پس از آموزش

#زبان

#تصویر

#تولید هوش مصنوعی

اصطلاحی با تعریف ضعیف که معمولاً به یک مدل از پیش آموزش دیده اشاره می کند که برخی از مراحل پس از پردازش را پشت سر گذاشته است، مانند یک یا چند مورد از موارد زیر:

مدل از پیش آموزش دیده

#زبان

#تصویر

#تولید هوش مصنوعی

به طور معمول، مدلی که قبلاً آموزش داده شده است. این اصطلاح همچنین می‌تواند به معنای بردار تعبیه‌شده قبلی باشد.

اصطلاح مدل زبان از پیش آموزش دیده معمولاً به یک مدل زبان بزرگ قبلاً آموزش دیده اشاره دارد.

قبل از آموزش

#زبان

#تصویر

#تولید هوش مصنوعی

آموزش اولیه یک مدل بر روی یک مجموعه داده بزرگ. برخی از مدل های از پیش آموزش دیده غول های دست و پا چلفتی هستند و معمولاً باید از طریق آموزش های اضافی اصلاح شوند. به عنوان مثال، کارشناسان ML ممکن است یک مدل زبان بزرگ را در یک مجموعه داده متنی گسترده، مانند تمام صفحات انگلیسی در ویکی‌پدیا، از قبل آموزش دهند. پس از پیش آموزش، مدل به دست آمده ممکن است از طریق هر یک از تکنیک های زیر اصلاح شود:

آر

تغییر ناپذیری چرخشی

#تصویر

در یک مسئله طبقه بندی تصویر، توانایی یک الگوریتم برای طبقه بندی موفقیت آمیز تصاویر حتی زمانی که جهت تصویر تغییر می کند. برای مثال، الگوریتم همچنان می‌تواند یک راکت تنیس را که به سمت بالا، پهلو یا پایین است، تشخیص دهد. توجه داشته باشید که تغییر ناپذیری چرخشی همیشه مطلوب نیست. برای مثال، 9 وارونه نباید به عنوان 9 طبقه بندی شود.

همچنین به عدم تغییر ترجمه و عدم تغییر اندازه مراجعه کنید.

اس

عدم تغییر اندازه

#تصویر

در یک مسئله طبقه بندی تصویر، توانایی یک الگوریتم برای طبقه بندی موفقیت آمیز تصاویر حتی زمانی که اندازه تصویر تغییر می کند. به عنوان مثال، این الگوریتم همچنان می‌تواند گربه را تشخیص دهد که آیا 2 میلیون پیکسل مصرف می‌کند یا 200 هزار پیکسل. توجه داشته باشید که حتی بهترین الگوریتم‌های طبقه‌بندی تصویر هنوز محدودیت‌های عملی در تغییر اندازه دارند. به عنوان مثال، یک الگوریتم (یا انسان) بعید است که تصویر گربه ای را که تنها 20 پیکسل مصرف می کند، به درستی طبقه بندی کند.

همچنین به عدم تغییر ترجمه و عدم تغییر چرخشی مراجعه کنید.

برای اطلاعات بیشتر به دوره کلاسترینگ مراجعه کنید.

ادغام فضایی

#تصویر

ادغام را ببینید.

گام برداشتن

#تصویر

در یک عملیات کانولوشن یا ادغام، دلتا در هر بعد سری بعدی از برش های ورودی. به عنوان مثال، انیمیشن زیر یک گام (1،1) را در طول یک عملیات کانولوشن نشان می دهد. بنابراین، برش ورودی بعدی یک موقعیت در سمت راست برش ورودی قبلی شروع می شود. هنگامی که عملیات به لبه سمت راست می رسد، برش بعدی تماماً به سمت چپ است اما یک موقعیت پایین است.

مثال قبل یک گام دو بعدی را نشان می دهد. اگر ماتریس ورودی سه بعدی باشد، گام نیز سه بعدی خواهد بود.

نمونه گیری فرعی

#تصویر

ادغام را ببینید.

تی

دما

#زبان

#تصویر

#تولید کننده هوش مصنوعی

یک فراپارامتر که درجه تصادفی بودن خروجی یک مدل را کنترل می کند. دماهای بالاتر منجر به خروجی تصادفی بیشتر می شود، در حالی که دمای پایین تر منجر به خروجی تصادفی کمتر می شود.

انتخاب بهترین دما به کاربرد خاص و خواص ترجیحی خروجی مدل بستگی دارد. برای مثال، احتمالاً هنگام ایجاد برنامه‌ای که خروجی خلاقانه ایجاد می‌کند، دما را افزایش می‌دهید. برعکس، احتمالاً هنگام ساخت مدلی که تصاویر یا متن را طبقه بندی می کند، دما را کاهش می دهید تا دقت و سازگاری مدل را بهبود بخشد.

دما اغلب با softmax استفاده می شود.

تغییر ناپذیری ترجمه

#تصویر

در یک مسئله طبقه بندی تصویر، توانایی یک الگوریتم برای طبقه بندی موفقیت آمیز تصاویر حتی زمانی که موقعیت اشیاء درون تصویر تغییر می کند. به عنوان مثال، الگوریتم هنوز هم می تواند سگ را شناسایی کند، چه در مرکز کادر باشد یا در انتهای سمت چپ قاب.

همچنین به عدم تغییر اندازه و عدم تغییر چرخشی مراجعه کنید.