اندازهگیری شباهت از تعبیهها
با مجموعهها، منظم بمانید
ذخیره و طبقهبندی محتوا براساس اولویتهای شما.
اکنون برای هر جفت نمونه جاسازی دارید. یک معیار شباهت نظارت شده این جاسازی ها را می گیرد و عددی را با اندازه گیری شباهت آنها برمی گرداند. به یاد داشته باشید که جاسازی ها بردار اعداد هستند. برای یافتن شباهت بین دو بردار \(A = [a_1,a_2,...,a_n]\) و \(B = [b_1,b_2,...,b_n]\)، یکی از این سه معیار تشابه را انتخاب کنید:
اندازه گیری کنید | معنی | فرمول | با افزایش شباهت، این معیار ... |
---|
فاصله اقلیدسی | فاصله بین انتهای بردارها | \(\sqrt{(a_1-b_1)^2+(a_2-b_2)^2+...+(a_N-b_N)^2}\) | کاهش می یابد |
کسینوس | کسینوس زاویه \(\theta\) بین بردارها | \(\frac{a^T b}{|a| \cdot |b|}\) | افزایش می دهد |
محصول نقطه ای | کسینوس ضرب در طول هر دو بردار | \(a_1b_1+a_2b_2+...+a_nb_n\) \(=|a||b|cos(\theta)\) | افزایش می دهد. همچنین با طول بردارها افزایش می یابد. |
انتخاب معیار تشابه
بر خلاف کسینوس، حاصل ضرب نقطه ای متناسب با طول برداری است. این مهم است زیرا نمونههایی که اغلب در مجموعه آموزشی ظاهر میشوند (مثلاً ویدیوهای محبوب YouTube) معمولاً دارای بردارهای جاسازی شده با طول زیاد هستند.اگر می خواهید محبوبیت کسب کنید، محصول نقطه ای را انتخاب کنید. با این حال، خطر این است که نمونه های رایج ممکن است معیار تشابه را منحرف کنند. برای متعادل کردن این انحراف، می توانید طول را تا یک توان افزایش دهید \(\alpha\ < 1\) برای محاسبه حاصل ضرب نقطه ای به عنوان \(|a|^{\alpha}|b|^{\alpha}\cos(\theta)\).
برای درک بهتر اینکه چگونه طول بردار معیار تشابه را تغییر می دهد، طول بردارها را به 1 نرمال کنید و توجه کنید که این سه اندازه با یکدیگر متناسب می شوند.
پس از عادی سازی a و b به گونه ای که \(||a||=1\) و \(||b||=1\)، این سه معیار به شرح زیر است:
- فاصله اقلیدسی = \(||a-b|| = \sqrt{||a||^2 + ||b||^2 - 2a^{T}b}
= \sqrt{2-2\cos(\theta_{ab})}\).
- محصول نقطه ای = \( |a||b| \cos(\theta_{ab})
= 1\cdot1\cdot \cos(\theta_{ab}) = cos(\theta_{ab})\).
- کسینوس = \(\cos(\theta_{ab})\).
بنابراین، هر سه معیار تشابه معادل هستند زیرا با آنها متناسب هستند \(cos(\theta_{ab})\).
بررسی معیارهای تشابه
معیار تشابه شباهت بین یک جفت مثال را نسبت به جفت مثال های دیگر کمیت می دهد. دو نوع دستی و تحت نظارت در زیر با هم مقایسه می شوند:
تایپ کنید | نحوه ایجاد | بهترین برای | مفاهیم |
---|
دستی | ترکیب دستی داده های ویژگی | مجموعه داده های کوچک با ویژگی هایی که ترکیب آنها ساده است. | بینشی در مورد نتایج محاسبات شباهت می دهد. اگر دادههای ویژگی تغییر کرد، باید معیار تشابه را بهصورت دستی بهروزرسانی کنید. |
تحت نظارت | فاصله بین جاسازیهای ایجاد شده توسط DNN تحت نظارت را اندازهگیری کنید. | مجموعه داده های بزرگ با ویژگی هایی که ترکیب آنها سخت است. | هیچ بینشی در مورد نتایج نمی دهد. با این حال، یک DNN می تواند به طور خودکار با تغییر داده های ویژگی سازگار شود. |
جز در مواردی که غیر از این ذکر شده باشد،محتوای این صفحه تحت مجوز Creative Commons Attribution 4.0 License است. نمونه کدها نیز دارای مجوز Apache 2.0 License است. برای اطلاع از جزئیات، به خطمشیهای سایت Google Developers مراجعه کنید. جاوا علامت تجاری ثبتشده Oracle و/یا شرکتهای وابسته به آن است.
تاریخ آخرین بهروزرسانی 2025-02-25 بهوقت ساعت هماهنگ جهانی.
[null,null,["تاریخ آخرین بهروزرسانی 2025-02-25 بهوقت ساعت هماهنگ جهانی."],[[["\u003cp\u003eSupervised similarity measures leverage embeddings to quantify the similarity between data examples using Euclidean distance, cosine, or dot product.\u003c/p\u003e\n"],["\u003cp\u003eDot product incorporates vector length, reflecting popularity, while cosine similarity focuses solely on the angle between vectors, ignoring popularity.\u003c/p\u003e\n"],["\u003cp\u003eNormalizing vector lengths makes Euclidean distance, cosine, and dot product proportional, essentially measuring the same thing.\u003c/p\u003e\n"],["\u003cp\u003eSupervised similarity, using embeddings and a distance metric, is suitable for large, complex datasets, while manual similarity, relying on feature combinations, is better for small, straightforward datasets.\u003c/p\u003e\n"]]],[],null,["# Measuring similarity from embeddings\n\nYou now have embeddings for any pair of examples. A supervised similarity\nmeasure takes these embeddings and returns a number measuring their similarity.\nRemember that embeddings are vectors of numbers. To find the similarity between\ntwo vectors \\\\(A = \\[a_1,a_2,...,a_n\\]\\\\) and \\\\(B = \\[b_1,b_2,...,b_n\\]\\\\),\nchoose one of these three similarity measures:\n\n| Measure | Meaning | Formula | As similarity increases, this measure... |\n|--------------------|-----------------------------------------------|--------------------------------------------------------------|---------------------------------------------------|\n| Euclidean distance | Distance between ends of vectors | \\\\(\\\\sqrt{(a_1-b_1)\\^2+(a_2-b_2)\\^2+...+(a_N-b_N)\\^2}\\\\) | Decreases |\n| Cosine | Cosine of angle \\\\(\\\\theta\\\\) between vectors | \\\\(\\\\frac{a\\^T b}{\\|a\\| \\\\cdot \\|b\\|}\\\\) | Increases |\n| Dot product | Cosine multiplied by lengths of both vectors | \\\\(a_1b_1+a_2b_2+...+a_nb_n\\\\) \\\\(=\\|a\\|\\|b\\|cos(\\\\theta)\\\\) | Increases. Also increases with length of vectors. |\n\nChoosing a similarity measure\n-----------------------------\n\nIn contrast to the cosine, the dot product is proportional to the vector length.\nThis is important because examples that appear very frequently in the training\nset (for example, popular YouTube videos) tend to have embedding vectors with\nlarge lengths.\n\nIf you\nwant to capture popularity, then choose dot product. However, the risk is that\npopular examples may skew the similarity metric. To balance this skew, you can\nraise the length to an exponent \\\\(\\\\alpha\\\\ \\\u003c 1\\\\) to calculate the dot product\nas \\\\(\\|a\\|\\^{\\\\alpha}\\|b\\|\\^{\\\\alpha}\\\\cos(\\\\theta)\\\\).\n\nTo better understand how vector length changes the similarity measure, normalize\nthe vector lengths to 1 and notice that the three measures become proportional\nto each other. \nProof: Proportionality of Similarity Measures \nAfter normalizing a and b such that \\\\(\\|\\|a\\|\\|=1\\\\) and \\\\(\\|\\|b\\|\\|=1\\\\), these three measures are related as:\n\n- Euclidean distance = \\\\(\\|\\|a-b\\|\\| = \\\\sqrt{\\|\\|a\\|\\|\\^2 + \\|\\|b\\|\\|\\^2 - 2a\\^{T}b} = \\\\sqrt{2-2\\\\cos(\\\\theta_{ab})}\\\\).\n- Dot product = \\\\( \\|a\\|\\|b\\| \\\\cos(\\\\theta_{ab}) = 1\\\\cdot1\\\\cdot \\\\cos(\\\\theta_{ab}) = cos(\\\\theta_{ab})\\\\).\n- Cosine = \\\\(\\\\cos(\\\\theta_{ab})\\\\).\nThus, all three similarity measures are equivalent because they are proportional to \\\\(cos(\\\\theta_{ab})\\\\).\n\nReview of similarity measures\n-----------------------------\n\nA similarity measure quantifies the similarity between a pair of\nexamples, relative to other pairs of examples. The two types, manual and\nsupervised, are compared below:\n\n| Type | How to create | Best for | Implications |\n|------------|--------------------------------------------------------------------|-------------------------------------------------------------------|----------------------------------------------------------------------------------------------------------------------------------|\n| Manual | Manually combine feature data. | Small datasets with features that are straightforward to combine. | Gives insight into results of similarity calculations. If feature data changes, you must manually update the similarity measure. |\n| Supervised | Measure distance between embeddings generated by a supervised DNN. | Large datasets with hard-to-combine features. | Gives no insight into results. However, a DNN can automatically adapt to changing feature data. |"]]