এই পৃষ্ঠাটি Cloud Translation API অনুবাদ করেছে।

ভঙ্গি সনাক্তকরণ

ML Kit Pose Detection API হল একটি লাইটওয়েট বহুমুখী সমাধান যা অ্যাপ ডেভেলপারদের জন্য একটি অবিচ্ছিন্ন ভিডিও বা স্ট্যাটিক ইমেজ থেকে রিয়েল টাইমে একটি বিষয়ের শরীরের ভঙ্গি সনাক্ত করতে পারে৷ একটি ভঙ্গি কঙ্কালের ল্যান্ডমার্ক পয়েন্টগুলির একটি সেট সহ সময়ের এক মুহুর্তে শরীরের অবস্থান বর্ণনা করে। ল্যান্ডমার্কগুলি শরীরের বিভিন্ন অংশ যেমন কাঁধ এবং নিতম্বের সাথে মিলে যায়। ল্যান্ডমার্কের আপেক্ষিক অবস্থানগুলি একটি ভঙ্গি থেকে অন্যটি আলাদা করতে ব্যবহার করা যেতে পারে।

আইওএস অ্যান্ড্রয়েড

এমএল কিট পোজ ডিটেকশন একটি পূর্ণ-শরীরের 33 পয়েন্ট কঙ্কালের মিল তৈরি করে যার মধ্যে মুখের ল্যান্ডমার্ক (কান, চোখ, মুখ এবং নাক) এবং হাত ও পায়ের বিন্দু রয়েছে। নীচের চিত্র 1 ব্যবহারকারীর ক্যামেরার মধ্য দিয়ে যে ল্যান্ডমার্কগুলি দেখছে তা দেখায়, তাই এটি একটি আয়না চিত্র। ব্যবহারকারীর ডান দিকটি চিত্রের বাম দিকে প্রদর্শিত হয়:

চিত্র 1. ল্যান্ডমার্ক

এমএল কিট পোজ সনাক্তকরণের জন্য দুর্দান্ত ফলাফল অর্জনের জন্য বিশেষ সরঞ্জাম বা এমএল দক্ষতার প্রয়োজন হয় না। এই প্রযুক্তির সাহায্যে বিকাশকারীরা তাদের ব্যবহারকারীদের জন্য কোডের কয়েকটি লাইন দিয়ে এক ধরনের অভিজ্ঞতা তৈরি করতে পারে।

ভঙ্গি সনাক্ত করতে ব্যবহারকারীর মুখ উপস্থিত থাকতে হবে। ভঙ্গি সনাক্তকরণ সর্বোত্তম কাজ করে যখন বিষয়ের পুরো শরীরটি ফ্রেমে দৃশ্যমান হয়, তবে এটি শরীরের আংশিক ভঙ্গিও সনাক্ত করে। সেক্ষেত্রে যে ল্যান্ডমার্কগুলি স্বীকৃত নয় সেগুলিকে ছবির বাইরে স্থানাঙ্ক বরাদ্দ করা হয়৷

মূল ক্ষমতা

ক্রস-প্ল্যাটফর্ম সমর্থন Android এবং iOS উভয় ক্ষেত্রেই একই অভিজ্ঞতা উপভোগ করুন৷
সম্পূর্ণ বডি ট্র্যাকিং মডেলটি হাত ও পায়ের অবস্থান সহ 33টি মূল কঙ্কালের ল্যান্ডমার্ক পয়েন্ট প্রদান করে।
InFrameLikelihood স্কোর প্রতিটি ল্যান্ডমার্কের জন্য, একটি পরিমাপ যা ল্যান্ডমার্কটি ছবির ফ্রেমের মধ্যে থাকার সম্ভাবনা নির্দেশ করে। স্কোরের পরিসীমা 0.0 থেকে 1.0, যেখানে 1.0 উচ্চ আত্মবিশ্বাস নির্দেশ করে।
দুটি অপ্টিমাইজড SDK বেস SDK পিক্সেল 4 এবং iPhone X এর মতো আধুনিক ফোনে রিয়েল টাইমে চলে৷ এটি যথাক্রমে ~30 এবং ~45 fps হারে ফলাফল প্রদান করে৷ যাইহোক, ল্যান্ডমার্ক স্থানাঙ্কের নির্ভুলতা পরিবর্তিত হতে পারে। নির্ভুল SDK একটি ধীর ফ্রেমরেটে ফলাফল প্রদান করে, কিন্তু আরও সঠিক স্থানাঙ্ক মান তৈরি করে।
গভীরতা বিশ্লেষণের জন্য Z সমন্বয় আরও তথ্যের জন্য, নীচের Z স্থানাঙ্ক বিভাগটি দেখুন।

পোজ ডিটেকশন এপিআই ফেসিয়াল রিকগনিশন এপিআই এর অনুরূপ যে এটি ল্যান্ডমার্ক এবং তাদের অবস্থানের একটি সেট প্রদান করে। যাইহোক, যখন মুখ সনাক্তকরণ এছাড়াও একটি হাসি মুখ বা খোলা চোখের মতো বৈশিষ্ট্যগুলি সনাক্ত করার চেষ্টা করে, পোজ সনাক্তকরণ একটি ভঙ্গিতে বা ভঙ্গিতে ল্যান্ডমার্কের সাথে কোনও অর্থ সংযুক্ত করে না। আপনি একটি ভঙ্গি ব্যাখ্যা করতে আপনার নিজস্ব অ্যালগরিদম তৈরি করতে পারেন। কিছু উদাহরণের জন্য পোজ ক্লাসিফিকেশন টিপস দেখুন।

ভঙ্গি সনাক্তকরণ একটি ছবিতে শুধুমাত্র একজন ব্যক্তিকে সনাক্ত করতে পারে। যদি ছবিতে দুজন লোক থাকে, তাহলে মডেল সর্বোচ্চ আত্মবিশ্বাসের সাথে সনাক্ত করা ব্যক্তিকে ল্যান্ডমার্ক বরাদ্দ করবে।

Z স্থানাঙ্ক

Z স্থানাঙ্ক হল একটি পরীক্ষামূলক মান যা প্রতিটি ল্যান্ডমার্কের জন্য গণনা করা হয়। এটি X এবং Y স্থানাঙ্কের মতো "ইমেজ পিক্সেল" এ পরিমাপ করা হয়, তবে এটি একটি সত্যিকারের 3D মান নয়। Z অক্ষটি ক্যামেরার লম্ব এবং একটি বিষয়ের নিতম্বের মধ্যে দিয়ে যায়। জেড অক্ষের উৎপত্তি প্রায় নিতম্বের মধ্যবর্তী বিন্দু (বাম/ডান এবং সামনে/পেছনে ক্যামেরার সাপেক্ষে)। নেতিবাচক Z মান ক্যামেরার দিকে; ইতিবাচক মান এটি থেকে দূরে। Z স্থানাঙ্কের একটি উপরের বা নিম্ন সীমা নেই।

নমুনা ফলাফল

নিচের সারণীটি ডানদিকের ভঙ্গিতে কয়েকটি ল্যান্ডমার্কের জন্য স্থানাঙ্ক এবং ইনফ্রেমলাইকলিহুড দেখায়। নোট করুন যে ব্যবহারকারীর বাম হাতের জন্য Z স্থানাঙ্কগুলি নেতিবাচক, কারণ সেগুলি বিষয়ের নিতম্বের কেন্দ্রের সামনে এবং ক্যামেরার দিকে থাকে৷

ল্যান্ডমার্ক	টাইপ	অবস্থান	ইনফ্রেমলাইকলিহুড
11	বাম কাঁধে	(734.9671, 550.7924, -118.11934)	0.9999038
12	ডান কাঁধ	(391.27032, 583.2485, -321.15836)	0.9999894
13	LEFT_ELBOW	(903.83704, 754.676, -219.67009)	0.9836427
14	RIGHT_ELBOW	(322.18152, 842.5973, -179.28519)	0.99970156
15	বাম হাতের কবজি	(1073.8956, 654.9725, -820.93463)	০.৯৭৩৭৭৩৭
16	RIGHT_WRIST	(218.27956, 1015.70435, -683.6567)	0.995568
17	LEFT_PINKY	(1146.1635, 609.6432, -956.9976)	0.95273364
18	RIGHT_PINKY	(176.17755, 1065.838, -776.5006)	০.৯৭৮৫৩৪৮

ফণা অধীনে

এই API-এর অন্তর্নিহিত ML মডেলগুলির আরও বাস্তবায়নের বিবরণের জন্য, আমাদের Google AI ব্লগ পোস্টটি দেখুন।

আমাদের ML ন্যায্যতা অনুশীলন এবং মডেলগুলিকে কীভাবে প্রশিক্ষণ দেওয়া হয়েছিল সে সম্পর্কে আরও জানতে, আমাদের মডেল কার্ড দেখুন৷