این صفحه شامل اصطلاحات واژه نامه Image Models است. برای همه اصطلاحات واژه نامه، اینجا را کلیک کنید .
الف
واقعیت افزوده
فناوری ای که یک تصویر تولید شده توسط کامپیوتر را بر روی دید کاربر از دنیای واقعی قرار می دهد و بنابراین یک نمای ترکیبی ارائه می دهد.
رمزگذار خودکار
سیستمی که یاد می گیرد مهم ترین اطلاعات را از ورودی استخراج کند. رمزگذارهای خودکار ترکیبی از رمزگذار و رمزگشا هستند. رمزگذارهای خودکار بر فرآیند دو مرحله ای زیر متکی هستند:
- رمزگذار ورودی را به یک قالب (معمولا) با ابعاد پایین تر (متوسط) ترسیم می کند.
- رمزگشا با نگاشت قالب با ابعاد پایین تر به فرمت ورودی با ابعاد بالاتر، یک نسخه با اتلاف از ورودی اصلی ایجاد می کند.
رمزگذارهای خودکار با تلاش رمزگشا برای بازسازی ورودی اصلی از فرمت میانی رمزگذار تا حد امکان به صورت سرتاسر آموزش داده می شوند. از آنجایی که فرمت میانی کوچکتر (بُعد پایین) از فرمت اصلی است، رمزگذار خودکار مجبور است اطلاعاتی را که در ورودی ضروری است، بیاموزد و خروجی کاملاً با ورودی یکسان نخواهد بود.
به عنوان مثال:
- اگر داده های ورودی گرافیکی باشد، کپی غیر دقیق شبیه به گرافیک اصلی است، اما تا حدودی تغییر یافته است. شاید کپی غیر دقیق، نویز را از گرافیک اصلی حذف می کند یا برخی از پیکسل های از دست رفته را پر می کند.
- اگر داده ورودی متن باشد، یک رمزگذار خودکار متن جدیدی تولید می کند که متن اصلی را تقلید می کند (اما مشابه نیست).
رمزگذارهای خودکار متغیر را نیز ببینید.
مدل خود رگرسیون
مدلی که پیش بینی را بر اساس پیش بینی های قبلی خود استنباط می کند. برای مثال، مدلهای زبان رگرسیون خودکار ، نشانههای بعدی را بر اساس نشانههای پیشبینیشده قبلی پیشبینی میکنند. همه مدلهای زبان بزرگ مبتنی بر Transformer دارای رگرسیون خودکار هستند.
در مقابل، مدلهای تصویر مبتنی بر GAN معمولاً رگرسیون خودکار نیستند، زیرا آنها یک تصویر را در یک گذر به جلو و نه به صورت تکراری در مراحل تولید میکنند. با این حال، برخی از مدلهای تولید تصویر دارای رگرسیون خودکار هستند ، زیرا آنها یک تصویر را در مراحل تولید میکنند.
ب
جعبه مرزی
در یک تصویر، مختصات ( x ، y ) یک مستطیل در اطراف ناحیه مورد نظر، مانند سگ در تصویر زیر.
سی
پیچیدگی
در ریاضیات، به طور معمول، ترکیبی از دو تابع. در یادگیری ماشین، یک کانولوشن فیلتر کانولوشن و ماتریس ورودی را با هم مخلوط میکند تا وزنهها را آموزش دهد.
اصطلاح "کانولوشن" در یادگیری ماشین اغلب یک روش کوتاه برای اشاره به عملیات کانولوشن یا لایه کانولوشن است.
بدون کانولوشن، یک الگوریتم یادگیری ماشین باید وزن جداگانه ای برای هر سلول در یک تانسور بزرگ یاد بگیرد. به عنوان مثال، آموزش الگوریتم یادگیری ماشین بر روی تصاویر 2K x 2K مجبور می شود 4M وزن جداگانه پیدا کند. به لطف کانولوشنها، یک الگوریتم یادگیری ماشین فقط باید وزنهایی را برای هر سلول در فیلتر کانولوشن پیدا کند و حافظه مورد نیاز برای آموزش مدل را بهطور چشمگیری کاهش دهد. هنگامی که فیلتر کانولوشن اعمال می شود، به سادگی در بین سلول ها تکرار می شود به طوری که هر یک در فیلتر ضرب می شود.
برای اطلاعات بیشتر به معرفی شبکه های عصبی کانولوشن در دوره طبقه بندی تصاویر مراجعه کنید.
فیلتر کانولوشنال
یکی از دو بازیگر در یک عملیات کانولوشن . (بازیگر دیگر تکهای از یک ماتریس ورودی است.) فیلتر کانولوشنال ماتریسی است که رتبهای مشابه با ماتریس ورودی دارد، اما شکل کوچکتری دارد. به عنوان مثال، با توجه به یک ماتریس ورودی 28x28، فیلتر می تواند هر ماتریس دو بعدی کوچکتر از 28x28 باشد.
در دستکاری عکاسی، تمام سلولهای یک فیلتر کانولوشن معمولاً روی یک الگوی ثابت از یک و صفر تنظیم میشوند. در یادگیری ماشین، فیلترهای کانولوشنال معمولاً با اعداد تصادفی کاشته می شوند و سپس شبکه مقادیر ایده آل را آموزش می دهد .
برای اطلاعات بیشتر، Convolution را در دوره آموزشی طبقه بندی تصاویر ببینید.
لایه کانولوشن
لایه ای از یک شبکه عصبی عمیق که در آن یک فیلتر کانولوشن از امتداد یک ماتریس ورودی عبور می کند. به عنوان مثال، فیلتر کانولوشنال 3x3 زیر را در نظر بگیرید:
انیمیشن زیر یک لایه کانولوشن را نشان می دهد که از 9 عملیات کانولوشن شامل ماتریس ورودی 5×5 تشکیل شده است. توجه داشته باشید که هر عملیات کانولوشنی روی یک برش 3x3 متفاوت از ماتریس ورودی کار می کند. ماتریس 3x3 حاصل (در سمت راست) از نتایج 9 عملیات کانولوشنی تشکیل شده است:
برای اطلاعات بیشتر، لایه های کاملاً متصل را در دوره طبقه بندی تصاویر ببینید.
شبکه عصبی کانولوشنال
یک شبکه عصبی که در آن حداقل یک لایه یک لایه کانولوشن است. یک شبکه عصبی کانولوشنال معمولی از ترکیبی از لایه های زیر تشکیل شده است:
شبکه های عصبی کانولوشنال در انواع خاصی از مشکلات، مانند تشخیص تصویر، موفقیت زیادی داشته اند.
عملیات کانولوشن
عملیات ریاضی دو مرحله ای زیر:
- ضرب عنصری فیلتر کانولوشن و تکه ای از ماتریس ورودی. (برش ماتریس ورودی دارای رتبه و اندازه یکسانی با فیلتر کانولوشن است.)
- مجموع تمام مقادیر در ماتریس محصول حاصل.
به عنوان مثال، ماتریس ورودی 5x5 زیر را در نظر بگیرید:
حالا فیلتر کانولوشنال 2x2 زیر را تصور کنید:
هر عملیات کانولوشن شامل یک تکه 2×2 از ماتریس ورودی است. به عنوان مثال، فرض کنید از برش 2x2 در سمت چپ بالای ماتریس ورودی استفاده می کنیم. بنابراین، عملیات پیچیدگی در این برش به صورت زیر است:
یک لایه کانولوشن شامل یک سری عملیات کانولوشنی است که هر کدام بر روی یک برش متفاوت از ماتریس ورودی عمل می کنند.
D
افزایش داده ها
تقویت مصنوعی دامنه و تعداد نمونه های آموزشی با تبدیل نمونه های موجود برای ایجاد نمونه های اضافی. برای مثال، فرض کنید تصاویر یکی از ویژگیهای شما هستند، اما مجموعه دادههای شما حاوی نمونههای تصویری کافی برای یادگیری مدلهای مفید نیست. در حالت ایدهآل، به اندازه کافی تصاویر برچسبدار را به مجموعه داده خود اضافه میکنید تا مدل خود را به درستی آموزش دهد. اگر این امکان پذیر نباشد، افزایش داده میتواند هر تصویر را بچرخاند، کشیده و منعکس کند تا انواع زیادی از تصویر اصلی تولید شود، و احتمالاً دادههای برچسبگذاری شده کافی برای آموزش عالی به دست میآید.
شبکه عصبی کانولوشنال قابل تفکیک عمیق (sepCNN)
یک معماری شبکه عصبی کانولوشن مبتنی بر Inception ، اما جایی که ماژولهای Inception با پیچیدگیهای قابل تفکیک عمیق جایگزین میشوند. همچنین به عنوان Xception شناخته می شود.
یک پیچیدگی قابل تفکیک عمقی (همچنین به اختصار به عنوان کانولوشن قابل تفکیک شناخته می شود) یک کانولوشن سه بعدی استاندارد را به دو عملیات کانولوشن مجزا تبدیل می کند که از نظر محاسباتی کارآمدتر هستند: اول، یک پیچیدگی عمقی، با عمق 1 (n ✕ n ✕ 1)، و سپس دوم، یک پیچش نقطه ای، با طول و عرض 1 (1 ✕ 1 ✕ n).
برای کسب اطلاعات بیشتر، به Xception: Deep Learning with Depthwise Separable Convolutions مراجعه کنید.
پایین نمونه گیری
عبارت Overloaded که می تواند به معنی یکی از موارد زیر باشد:
- کاهش حجم اطلاعات در یک ویژگی به منظور آموزش کارآمدتر یک مدل. به عنوان مثال، قبل از آموزش یک مدل تشخیص تصویر، نمونه برداری از تصاویر با وضوح بالا به یک فرمت با وضوح پایین تر.
- آموزش بر روی درصد بسیار پایینی از نمونههای کلاسی که بیش از حد ارائه شدهاند به منظور بهبود آموزش مدل در کلاسهای کمنماینده. به عنوان مثال، در یک مجموعه داده با کلاس نامتعادل ، مدلها تمایل دارند تا چیزهای زیادی در مورد کلاس اکثریت بیاموزند و به اندازه کافی در مورد کلاس اقلیت نیستند. کاهش نمونه به تعادل میزان آموزش در طبقات اکثریت و اقلیت کمک می کند.
برای اطلاعات بیشتر ، مجموعه دادهها: مجموعه دادههای نامتعادل را در دوره آموزشی Crash Learning Machine ببینید.
اف
تنظیم دقیق
دومین پاس آموزشی ویژه کار بر روی یک مدل از پیش آموزش دیده انجام شد تا پارامترهای آن را برای یک مورد استفاده خاص اصلاح کند. به عنوان مثال، دنباله آموزش کامل برای برخی از مدل های زبان بزرگ به شرح زیر است:
- قبل از آموزش: یک مدل زبان بزرگ را بر روی یک مجموعه داده کلی گسترده، مانند تمام صفحات ویکی پدیا به زبان انگلیسی، آموزش دهید.
- تنظیم دقیق: مدل از پیش آموزش دیده را برای انجام یک کار خاص ، مانند پاسخ به سؤالات پزشکی، آموزش دهید. تنظیم دقیق معمولاً شامل صدها یا هزاران مثال متمرکز بر یک کار خاص است.
به عنوان مثال دیگر، دنباله آموزش کامل برای یک مدل تصویر بزرگ به شرح زیر است:
- قبل از آموزش: یک مدل تصویر بزرگ را بر روی یک مجموعه داده کلی تصویری گسترده، مانند تمام تصاویر موجود در Wikimedia Commons آموزش دهید.
- تنظیم دقیق: مدل از پیش آموزش دیده را برای انجام یک کار خاص ، مانند تولید تصاویر اورکا، آموزش دهید.
تنظیم دقیق می تواند شامل هر ترکیبی از استراتژی های زیر باشد:
- اصلاح تمام پارامترهای موجود مدل از پیش آموزش دیده. گاهی اوقات به آن تنظیم دقیق کامل می گویند.
- اصلاح تنها برخی از پارامترهای موجود مدل از قبل آموزش دیده (معمولاً، نزدیکترین لایه ها به لایه خروجی )، در حالی که سایر پارامترهای موجود را بدون تغییر نگه می دارد (معمولاً، لایه های نزدیک به لایه ورودی ). تنظیم کارآمد پارامتر را ببینید.
- افزودن لایههای بیشتر، معمولاً در بالای لایههای موجود که نزدیکترین لایه به لایه خروجی است.
تنظیم دقیق شکلی از یادگیری انتقالی است. به این ترتیب، تنظیم دقیق ممکن است از یک تابع تلفات متفاوت یا نوع مدل متفاوتی نسبت به مواردی که برای آموزش مدل از پیش آموزش دیده استفاده میشود، استفاده کند. به عنوان مثال، میتوانید یک مدل تصویر بزرگ از قبل آموزشدیده را برای تولید یک مدل رگرسیونی تنظیم کنید که تعداد پرندگان در یک تصویر ورودی را برمیگرداند.
تنظیم دقیق را با عبارات زیر مقایسه و مقایسه کنید:
برای اطلاعات بیشتر به تنظیم دقیق در دوره تصادف یادگیری ماشین مراجعه کنید.
جی
جوزا
این اکوسیستم شامل پیشرفته ترین هوش مصنوعی گوگل است. عناصر این اکوسیستم عبارتند از:
- مدل های مختلف جمینی .
- رابط مکالمه تعاملی به مدل Gemini . کاربران دستورات را تایپ می کنند و Gemini به آن درخواست ها پاسخ می دهد.
- API های مختلف Gemini.
- محصولات تجاری مختلف بر اساس مدل های جمینی؛ به عنوان مثال، Gemini برای Google Cloud .
مدل های جمینی
پیشرفته ترین مدل های چندوجهی مبتنی بر ترانسفورماتور گوگل. مدل های Gemini به طور خاص برای ادغام با عوامل طراحی شده اند.
کاربران می توانند با مدل های Gemini به روش های مختلفی از جمله از طریق یک رابط گفتگوی تعاملی و از طریق SDK تعامل داشته باشند.
هوش مصنوعی مولد
یک میدان تحولآفرین در حال ظهور بدون تعریف رسمی. گفته میشود، اکثر کارشناسان موافق هستند که مدلهای هوش مصنوعی تولیدی میتوانند محتوایی را ایجاد کنند ("تولید") که همه موارد زیر باشد:
- مجتمع
- منسجم
- اصلی
به عنوان مثال، یک مدل هوش مصنوعی مولد می تواند مقالات یا تصاویر پیچیده ای ایجاد کند.
برخی از فناوریهای قبلی، از جمله LSTM و RNN ، میتوانند محتوای اصلی و منسجم تولید کنند. برخی از کارشناسان این فناوری های قبلی را به عنوان هوش مصنوعی مولد می دانند، در حالی که برخی دیگر احساس می کنند که هوش مصنوعی مولد واقعی به خروجی پیچیده تری نسبت به فناوری های قبلی نیاز دارد.
در مقابل ML پیش بینی .
من
تشخیص تصویر
فرآیندی که شی(ها)، الگو(ها)، یا مفهوم(ها) را در یک تصویر طبقه بندی می کند. تشخیص تصویر به عنوان طبقه بندی تصویر نیز شناخته می شود.
برای اطلاعات بیشتر، تمرین ML: طبقه بندی تصاویر را ببینید.
برای اطلاعات بیشتر به دوره آموزشی ML Practicum: Image Classification مراجعه کنید.
تقاطع روی اتحاد (IoU)
تقاطع دو مجموعه تقسیم شده توسط اتحاد آنها. در وظایف تشخیص تصویر یادگیری ماشینی، IoU برای اندازهگیری دقت جعبه مرزی پیشبینیشده مدل با توجه به جعبه مرزی حقیقت زمین استفاده میشود. در این مورد، IoU برای دو جعبه، نسبت بین سطح همپوشانی و مساحت کل است و مقدار آن از 0 (بدون همپوشانی جعبه مرزی پیشبینیشده و جعبه مرزی حقیقت-زمینی) تا 1 (جعبه مرزی و زمین پیشبینیشده) است. -جعبه مرزی حقیقت دقیقاً مختصات یکسانی دارد).
برای مثال در تصویر زیر:
- جعبه مرزی پیشبینیشده (مختصات تعیینکننده جایی که مدل جدول شب را در نقاشی پیشبینی میکند) به رنگ بنفش مشخص شده است.
- جعبه مرزی حقیقت زمین (مختصات تعیین کننده جایی که میز شب در نقاشی واقعاً قرار دارد) با رنگ سبز مشخص شده است.
در اینجا، محل تقاطع جعبههای مرزی برای پیشبینی و حقیقت زمین (در پایین سمت چپ) 1 است، و اتحاد کادرهای مرزی برای پیشبینی و حقیقت زمین (زیر سمت راست) 7 است، بنابراین IoU برابر است با \(\frac{1}{7}\).
ک
نقاط کلیدی
مختصات ویژگی های خاص در یک تصویر. به عنوان مثال، برای یک مدل تشخیص تصویر که گونههای گل را متمایز میکند، نقاط کلیدی ممکن است مرکز هر گلبرگ، ساقه، پرچم و غیره باشد.
L
نشانه ها
مترادف برای نقاط کلیدی .
م
MMIT
مخفف عبارت multimodal instruction-tuned .
MNIST
یک مجموعه داده دامنه عمومی که توسط LeCun، Cortes و Burges گردآوری شده است که شامل 60000 تصویر است، هر تصویر نشان میدهد که چگونه یک انسان به صورت دستی یک رقم خاص از 0 تا 9 را نوشته است. هر تصویر به عنوان یک آرایه 28x28 از اعداد صحیح ذخیره می شود، که در آن هر عدد صحیح یک مقدار خاکستری بین 0 تا 255، شامل می شود.
MNIST یک مجموعه داده متعارف برای یادگیری ماشین است که اغلب برای آزمایش رویکردهای جدید یادگیری ماشین استفاده می شود. برای جزئیات، به پایگاه داده ارقام دستنویس MNIST مراجعه کنید.
MOE
مخفف mix of experts .
پ
ادغام
کاهش یک ماتریس (یا ماتریس) ایجاد شده توسط یک لایه کانولوشن قبلی به یک ماتریس کوچکتر. ادغام معمولاً شامل گرفتن حداکثر یا میانگین مقدار در سطح منطقه است. به عنوان مثال، فرض کنید ماتریس 3x3 زیر را داریم:
یک عملیات ادغام، درست مانند یک عملیات کانولوشن، آن ماتریس را به برش ها تقسیم می کند و سپس آن عملیات کانولوشن را با گام می لغزد. به عنوان مثال، فرض کنید عملیات ادغام، ماتریس کانولوشن را با یک گام 1x1 به برش های 2x2 تقسیم می کند. همانطور که نمودار زیر نشان می دهد، چهار عملیات ادغام انجام می شود. تصور کنید که هر عملیات ادغام حداکثر مقدار چهار در آن برش را انتخاب می کند:
ادغام به اعمال تغییر ناپذیری ترجمه در ماتریس ورودی کمک می کند.
ادغام برای کاربردهای بینایی به طور رسمی تر به عنوان ادغام فضایی شناخته می شود. برنامه های کاربردی سری زمانی معمولاً به ادغام به عنوان ادغام زمانی اشاره می کنند. کمتر به طور رسمی، ادغام اغلب به عنوان نمونه برداری فرعی یا پایین نمونه نامیده می شود.
مدل پس از آموزش
اصطلاحی با تعریف ضعیف که معمولاً به یک مدل از پیش آموزش دیده اشاره می کند که برخی از مراحل پس از پردازش را پشت سر گذاشته است، مانند یک یا چند مورد از موارد زیر:
مدل از پیش آموزش دیده
به طور معمول، مدلی که قبلاً آموزش داده شده است. این اصطلاح همچنین میتواند به معنای بردار تعبیهشده قبلی باشد.
اصطلاح مدل زبان از پیش آموزش دیده معمولاً به یک مدل زبان بزرگ قبلاً آموزش دیده اشاره دارد.
قبل از آموزش
آموزش اولیه یک مدل بر روی یک مجموعه داده بزرگ. برخی از مدل های از پیش آموزش دیده غول های دست و پا چلفتی هستند و معمولاً باید از طریق آموزش های اضافی اصلاح شوند. به عنوان مثال، کارشناسان ML ممکن است یک مدل زبان بزرگ را در یک مجموعه داده متنی گسترده، مانند تمام صفحات انگلیسی در ویکیپدیا، از قبل آموزش دهند. پس از پیش آموزش، مدل به دست آمده ممکن است از طریق هر یک از تکنیک های زیر اصلاح شود:
آر
تغییر ناپذیری چرخشی
در یک مسئله طبقه بندی تصویر، توانایی یک الگوریتم برای طبقه بندی موفقیت آمیز تصاویر حتی زمانی که جهت تصویر تغییر می کند. برای مثال، الگوریتم همچنان میتواند یک راکت تنیس را که به سمت بالا، پهلو یا پایین است، تشخیص دهد. توجه داشته باشید که تغییر ناپذیری چرخشی همیشه مطلوب نیست. برای مثال، 9 وارونه نباید به عنوان 9 طبقه بندی شود.
همچنین به عدم تغییر ترجمه و عدم تغییر اندازه مراجعه کنید.
اس
عدم تغییر اندازه
در یک مسئله طبقه بندی تصویر، توانایی یک الگوریتم برای طبقه بندی موفقیت آمیز تصاویر حتی زمانی که اندازه تصویر تغییر می کند. به عنوان مثال، این الگوریتم همچنان میتواند گربه را تشخیص دهد که آیا 2 میلیون پیکسل مصرف میکند یا 200 هزار پیکسل. توجه داشته باشید که حتی بهترین الگوریتمهای طبقهبندی تصویر هنوز محدودیتهای عملی در تغییر اندازه دارند. به عنوان مثال، یک الگوریتم (یا انسان) بعید است که تصویر گربه ای را که تنها 20 پیکسل مصرف می کند، به درستی طبقه بندی کند.
همچنین به عدم تغییر ترجمه و عدم تغییر چرخشی مراجعه کنید.
ادغام فضایی
ادغام را ببینید.
گام برداشتن
در یک عملیات کانولوشن یا ادغام، دلتا در هر بعد سری بعدی از برش های ورودی. به عنوان مثال، انیمیشن زیر یک گام (1،1) را در طول یک عملیات کانولوشن نشان می دهد. بنابراین، برش ورودی بعدی یک موقعیت در سمت راست برش ورودی قبلی شروع می شود. هنگامی که عملیات به لبه سمت راست می رسد، برش بعدی تماماً به سمت چپ است اما یک موقعیت پایین است.
مثال قبل یک گام دو بعدی را نشان می دهد. اگر ماتریس ورودی سه بعدی باشد، گام نیز سه بعدی خواهد بود.
نمونه گیری فرعی
ادغام را ببینید.
تی
دما
یک فراپارامتر که درجه تصادفی بودن خروجی یک مدل را کنترل می کند. دماهای بالاتر منجر به خروجی تصادفی بیشتر می شود، در حالی که دمای پایین تر منجر به خروجی تصادفی کمتر می شود.
انتخاب بهترین دما به کاربرد خاص و خواص ترجیحی خروجی مدل بستگی دارد. برای مثال، احتمالاً هنگام ایجاد برنامهای که خروجی خلاقانه ایجاد میکند، دما را افزایش میدهید. برعکس، احتمالاً هنگام ساخت مدلی که تصاویر یا متن را طبقه بندی می کند، دما را کاهش می دهید تا دقت و سازگاری مدل را بهبود بخشد.
دما اغلب با softmax استفاده می شود.
تغییر ناپذیری ترجمه
در یک مسئله طبقه بندی تصویر، توانایی یک الگوریتم برای طبقه بندی موفقیت آمیز تصاویر حتی زمانی که موقعیت اشیاء درون تصویر تغییر می کند. به عنوان مثال، الگوریتم هنوز هم می تواند سگ را شناسایی کند، چه در مرکز کادر باشد یا در انتهای سمت چپ قاب.
همچنین به عدم تغییر اندازه و عدم تغییر چرخشی مراجعه کنید.