এই পৃষ্ঠাটি Cloud Translation API অনুবাদ করেছে।

এমএল পাইপলাইন

উৎপাদন ML-এ, লক্ষ্য একটি একক মডেল তৈরি করা এবং এটি স্থাপন করা নয়। লক্ষ্য হল সময়ের সাথে মডেলগুলি বিকাশ, পরীক্ষা এবং স্থাপনের জন্য স্বয়ংক্রিয় পাইপলাইন তৈরি করা। কেন? বিশ্ব পরিবর্তিত হওয়ার সাথে সাথে ডেটা স্থানান্তরের প্রবণতা, যার ফলে উত্পাদনের মডেলগুলি বাসি হয়ে যায়। দীর্ঘ মেয়াদে উচ্চ-মানের ভবিষ্যদ্বাণী পরিবেশন করা চালিয়ে যেতে মডেলদের সাধারণত আপ-টু-ডেট ডেটার সাথে পুনরায় প্রশিক্ষণের প্রয়োজন হয়। অন্য কথায়, আপনি বাসি মডেলগুলিকে তাজা দিয়ে প্রতিস্থাপন করার একটি উপায় চাইবেন।

পাইপলাইন ছাড়া, একটি বাসি মডেল প্রতিস্থাপন একটি ত্রুটি-প্রবণ প্রক্রিয়া। উদাহরণস্বরূপ, একবার একটি মডেল খারাপ ভবিষ্যদ্বাণী পরিবেশন করা শুরু করলে, কাউকে ম্যানুয়ালি নতুন ডেটা সংগ্রহ এবং প্রক্রিয়া করতে হবে, একটি নতুন মডেলকে প্রশিক্ষণ দিতে হবে, এর গুণমান যাচাই করতে হবে এবং অবশেষে এটি স্থাপন করতে হবে। এমএল পাইপলাইনগুলি এই পুনরাবৃত্তিমূলক প্রক্রিয়াগুলির অনেকগুলিকে স্বয়ংক্রিয় করে, মডেলগুলির পরিচালনা এবং রক্ষণাবেক্ষণকে আরও দক্ষ এবং নির্ভরযোগ্য করে তোলে।

পাইপলাইন নির্মাণ

এমএল পাইপলাইনগুলি সু-সংজ্ঞায়িত কাজগুলিতে মডেলগুলি তৈরি এবং স্থাপনের পদক্ষেপগুলি সংগঠিত করে৷ পাইপলাইনগুলির দুটি ফাংশনের মধ্যে একটি রয়েছে: ভবিষ্যদ্বাণী প্রদান করা বা মডেল আপডেট করা।

ভবিষ্যদ্বাণী প্রদান

পরিবেশনকারী পাইপলাইন পূর্বাভাস প্রদান করে। এটি আপনার মডেলটিকে বাস্তব জগতে প্রকাশ করে, এটি আপনার ব্যবহারকারীদের কাছে অ্যাক্সেসযোগ্য করে তোলে। উদাহরণস্বরূপ, যখন একজন ব্যবহারকারী একটি ভবিষ্যদ্বাণী চান—আগামীকাল আবহাওয়া কেমন হবে, বা বিমানবন্দরে যেতে কত মিনিট সময় লাগবে, বা প্রস্তাবিত ভিডিওগুলির একটি তালিকা—সেভিং পাইপলাইন ব্যবহারকারীর ডেটা গ্রহণ করে এবং প্রক্রিয়া করে, একটি ভবিষ্যদ্বাণী করে এবং তারপরে এটি ব্যবহারকারীর কাছে পৌঁছে দেয়৷

মডেল আপডেট করা হচ্ছে

মডেলগুলি উত্পাদনে যাওয়ার প্রায় সাথে সাথেই বাসি হয়ে যায়। সংক্ষেপে, তারা পুরানো তথ্য ব্যবহার করে ভবিষ্যদ্বাণী করছে। তাদের প্রশিক্ষণ ডেটাসেটগুলি একদিন আগে বা কিছু ক্ষেত্রে, এক ঘন্টা আগে বিশ্বের অবস্থা ক্যাপচার করেছে। অনিবার্যভাবে বিশ্ব পরিবর্তিত হয়েছে: একজন ব্যবহারকারী আরও ভিডিও দেখেছেন এবং সুপারিশের একটি নতুন তালিকা প্রয়োজন; বৃষ্টির কারণে ট্রাফিক ধীর হয়ে গেছে এবং ব্যবহারকারীদের তাদের আগমনের সময়ের জন্য আপডেট করা অনুমান প্রয়োজন; একটি জনপ্রিয় প্রবণতা খুচরা বিক্রেতাদের নির্দিষ্ট আইটেমগুলির জন্য আপডেট করা ইনভেন্টরি পূর্বাভাসের জন্য অনুরোধ করে।

সাধারণত, প্রোডাকশন মডেল বাসি হয়ে যাওয়ার আগে দলগুলি নতুন মডেলগুলিকে ভালভাবে প্রশিক্ষণ দেয়। কিছু ক্ষেত্রে, দলগুলি একটি ক্রমাগত প্রশিক্ষণ এবং স্থাপনার চক্রে প্রতিদিন নতুন মডেলগুলিকে প্রশিক্ষণ দেয় এবং স্থাপন করে। আদর্শভাবে, প্রোডাকশন মডেল বাসি হয়ে যাওয়ার আগে একটি নতুন মডেলকে প্রশিক্ষণ দেওয়া উচিত।

নিম্নলিখিত পাইপলাইনগুলি একটি নতুন মডেলকে প্রশিক্ষণের জন্য একসাথে কাজ করে:

ডেটা পাইপলাইন । ডেটা পাইপলাইন প্রশিক্ষণ এবং পরীক্ষার ডেটাসেট তৈরি করতে ব্যবহারকারীর ডেটা প্রক্রিয়া করে।
প্রশিক্ষণ পাইপলাইন । প্রশিক্ষণ পাইপলাইন ডেটা পাইপলাইন থেকে নতুন প্রশিক্ষণ ডেটাসেটগুলি ব্যবহার করে মডেলগুলিকে প্রশিক্ষণ দেয়।
বৈধতা পাইপলাইন । বৈধতা পাইপলাইন ডেটা পাইপলাইন দ্বারা উত্পন্ন পরীক্ষার ডেটাসেটগুলি ব্যবহার করে উত্পাদন মডেলের সাথে তুলনা করে প্রশিক্ষিত মডেলটিকে বৈধ করে।

চিত্র 4 প্রতিটি ML পাইপলাইনের ইনপুট এবং আউটপুটগুলিকে চিত্রিত করে৷

এমএল পাইপলাইন

ML পাইপলাইনগুলি তাদের ইনপুট এবং আউটপুট দেখাচ্ছে৷ পরিবেশন পাইপলাইন ব্যবহারকারীর ইনপুট নেয় এবং পূর্বাভাস প্রদান করে। ডেটা পাইপলাইন প্রক্রিয়া করে প্রশিক্ষণ এবং পরীক্ষার ডেটাসেট তৈরি করার জন্য অ্যাপ্লিকেশন ডেটা লগগুলি প্রশিক্ষণ এবং বৈধতা পাইপলাইন প্রশিক্ষণ এবং নতুন বৈধতা ব্যবহার মডেল

চিত্র 4 । এমএল পাইপলাইনগুলি মডেলগুলি বিকাশ এবং রক্ষণাবেক্ষণের জন্য অনেকগুলি প্রক্রিয়া স্বয়ংক্রিয় করে। প্রতিটি পাইপলাইন তার ইনপুট এবং আউটপুট দেখায়।

খুব সাধারণ স্তরে, পাইপলাইনগুলি কীভাবে উত্পাদনে একটি নতুন মডেল রাখে:

প্রথমত, একটি মডেল উৎপাদনে যায় এবং পরিবেশনকারী পাইপলাইন ভবিষ্যদ্বাণী প্রদান করা শুরু করে।
ডেটা পাইপলাইন অবিলম্বে নতুন প্রশিক্ষণ এবং পরীক্ষার ডেটাসেট তৈরি করতে ডেটা সংগ্রহ করা শুরু করে।
একটি সময়সূচী বা একটি ট্রিগারের উপর ভিত্তি করে, প্রশিক্ষণ এবং বৈধতা পাইপলাইনগুলি ডেটা পাইপলাইন দ্বারা উত্পন্ন ডেটাসেটগুলি ব্যবহার করে একটি নতুন মডেলকে প্রশিক্ষণ দেয় এবং যাচাই করে৷
যখন বৈধতা পাইপলাইন নিশ্চিত করে যে নতুন মডেলটি উৎপাদন মডেলের চেয়ে খারাপ নয়, তখন নতুন মডেলটি স্থাপন করা হয়।
এই প্রক্রিয়া ক্রমাগত পুনরাবৃত্তি হয়।

মডেল অচলতা এবং প্রশিক্ষণ ফ্রিকোয়েন্সি

প্রায় সব মডেলই বাসি হয়ে গেছে। কিছু মডেল অন্যদের তুলনায় দ্রুত বাসি হয়ে যায়। উদাহরণস্বরূপ, যে মডেলগুলি পোশাকের সুপারিশ করে তারা সাধারণত দ্রুত বাসি হয়ে যায় কারণ ভোক্তার পছন্দগুলি ঘন ঘন পরিবর্তন করার জন্য কুখ্যাত। অন্যদিকে, যে মডেলগুলি ফুল সনাক্ত করে সেগুলি কখনই বাসি হতে পারে না। একটি ফুলের সনাক্তকরণ বৈশিষ্ট্য স্থিতিশীল থাকে।

বেশির ভাগ মডেল উৎপাদনে আসার পরপরই বাসি হতে শুরু করে। আপনি একটি প্রশিক্ষণ ফ্রিকোয়েন্সি স্থাপন করতে চাইবেন যা আপনার ডেটার প্রকৃতিকে প্রতিফলিত করে। ডেটা গতিশীল হলে, প্রায়ই ট্রেন করুন। যদি এটি কম গতিশীল হয় তবে আপনাকে প্রায়শই প্রশিক্ষণের প্রয়োজন হবে না।

ট্রেনের মডেলগুলি বাসি হওয়ার আগে। প্রারম্ভিক প্রশিক্ষণ সম্ভাব্য সমস্যাগুলি সমাধান করার জন্য একটি বাফার প্রদান করে, উদাহরণস্বরূপ, যদি ডেটা বা প্রশিক্ষণ পাইপলাইন ব্যর্থ হয়, বা মডেলের মান খারাপ হয়।

একটি প্রস্তাবিত সর্বোত্তম অনুশীলন হল প্রতিদিনের ভিত্তিতে নতুন মডেলগুলিকে প্রশিক্ষণ দেওয়া এবং স্থাপন করা। নিয়মিত সফ্টওয়্যার প্রকল্পগুলির মতো যেগুলির একটি দৈনিক নির্মাণ এবং প্রকাশের প্রক্রিয়া রয়েছে, প্রশিক্ষণ এবং বৈধতার জন্য এমএল পাইপলাইনগুলি যখন প্রতিদিন চালানো হয় তখন প্রায়শই সেরা হয়৷

আপনার বোঝার চেক করুন

নিম্নলিখিত মডেলগুলির মধ্যে কোনটি দ্রুত বাসি হয়ে যাওয়ার সম্ভাবনা রয়েছে এবং নতুন ডেটাতে প্রশিক্ষিত একজনের সাথে ক্রমাগত প্রতিস্থাপন করতে হবে? প্রযোজ্য সব নির্বাচন করুন.

স্প্যামের পূর্বাভাস দেয়

সঠিক। এই মডেলগুলি ডেটা ব্যবহার করে যা নতুন স্প্যাম কৌশলগুলির মতো কারণগুলির একটি সংগ্রহের প্রতিক্রিয়া হিসাবে ক্রমাগত পরিবর্তিত হয়। ফলস্বরূপ, সদা পরিবর্তনশীল প্রবণতাগুলির প্রতিক্রিয়া জানাতে তাদের ক্রমাগত আপডেট করা দরকার।

পোশাক সুপারিশ করে

সঠিক। এই মডেলগুলি ডেটা ব্যবহার করে যা ভোক্তার পছন্দগুলির মতো কারণগুলির সংগ্রহের প্রতিক্রিয়া হিসাবে ক্রমাগত পরিবর্তিত হয়। ফলস্বরূপ, সদা পরিবর্তনশীল প্রবণতাগুলির প্রতিক্রিয়া জানাতে তাদের ক্রমাগত আপডেট করা দরকার।

পাখির প্রজাতির শ্রেণিবিন্যাস করে

পাখির প্রজাতি সময়ের সাথে পরিবর্তিত হয় না।

লেনদেন জালিয়াতি হলে ভবিষ্যদ্বাণী করে

সঠিক। এই মডেলগুলি ডেটা ব্যবহার করে যা নতুন জালিয়াতির কৌশলগুলির মতো কারণগুলির সংগ্রহের প্রতিক্রিয়া হিসাবে ক্রমাগত পরিবর্তিত হয়। ফলস্বরূপ, সদা পরিবর্তনশীল প্রবণতাগুলির প্রতিক্রিয়া জানাতে তাদের ক্রমাগত আপডেট করা দরকার।

পাইপলাইন পরিবেশন করা

পরিবেশনকারী পাইপলাইন দুটি উপায়ের একটিতে ভবিষ্যদ্বাণী তৈরি করে এবং সরবরাহ করে: অনলাইন বা অফলাইন।

অনলাইন ভবিষ্যদ্বাণী । অনলাইন ভবিষ্যদ্বাণীগুলি রিয়েল টাইমে ঘটে, সাধারণত একটি অনলাইন সার্ভারে একটি অনুরোধ পাঠিয়ে এবং একটি ভবিষ্যদ্বাণী ফেরত দিয়ে৷ উদাহরণস্বরূপ, যখন একজন ব্যবহারকারী একটি ভবিষ্যদ্বাণী চায়, ব্যবহারকারীর ডেটা মডেলটিতে পাঠানো হয় এবং মডেলটি পূর্বাভাস প্রদান করে।
অফলাইন ভবিষ্যদ্বাণী । অফলাইন ভবিষ্যদ্বাণীগুলি পূর্বনির্ধারিত এবং ক্যাশে করা হয়৷ একটি ভবিষ্যদ্বাণী পরিবেশন করতে, অ্যাপটি ডাটাবেসে ক্যাশে করা ভবিষ্যদ্বাণী খুঁজে পায় এবং এটি ফেরত দেয়। উদাহরণস্বরূপ, একটি সাবস্ক্রিপশন-ভিত্তিক পরিষেবা তার গ্রাহকদের জন্য মন্থন হারের পূর্বাভাস দিতে পারে। মডেলটি প্রতিটি গ্রাহকের জন্য মন্থনের সম্ভাবনার ভবিষ্যদ্বাণী করে এবং এটি ক্যাশে করে। যখন অ্যাপটির ভবিষ্যদ্বাণীর প্রয়োজন হয়-উদাহরণস্বরূপ, মন্থন করতে চলেছে এমন ব্যবহারকারীদের উদ্দীপনা দেওয়ার জন্য-এটি কেবল পূর্বনির্ধারিত ভবিষ্যদ্বাণীটি দেখায়।

চিত্র 5 দেখায় কিভাবে অনলাইন এবং অফলাইন ভবিষ্যদ্বাণী তৈরি এবং বিতরণ করা হয়।

অনলাইন এবং অফলাইন ভবিষ্যদ্বাণী

ভবিষ্যদ্বাণী রিয়েল টাইমে বিতরণ করা যেতে পারে বা লুকআপের জন্য ব্যাচ এবং ক্যাশে করা যেতে পারে।

চিত্র 5 । অনলাইন ভবিষ্যদ্বাণী বাস্তব সময়ে ভবিষ্যদ্বাণী প্রদান করে। অফলাইন ভবিষ্যদ্বাণীগুলি ক্যাশে করা হয় এবং পরিবেশন করার সময় দেখা হয়৷

ভবিষ্যদ্বাণী পোস্ট-প্রসেসিং

সাধারণত, ভবিষ্যদ্বাণীগুলি বিতরণ করার আগে পোস্ট-প্রসেস করা হয়। উদাহরণস্বরূপ, ভবিষ্যদ্বাণীগুলি বিষাক্ত বা পক্ষপাতদুষ্ট বিষয়বস্তু সরাতে পোস্ট-প্রসেস করা হতে পারে। শ্রেণীবিভাগ ফলাফল হতে পারেএকটি প্রক্রিয়ার মধ্য দিয়ে যানমডেলের কাঁচা আউটপুট দেখানোর পরিবর্তে ফলাফলগুলিকে পুনরায় সাজাতে, উদাহরণস্বরূপ, আরও বেশি প্রামাণিক বিষয়বস্তুকে উত্সাহিত করতে, ফলাফলের বৈচিত্র্য উপস্থাপন করতে, নির্দিষ্ট ফলাফলগুলিকে হ্রাস করতে (যেমন ক্লিকবেট) বা আইনি কারণে ফলাফলগুলি সরান৷

চিত্র 6 একটি পরিবেশন পাইপলাইন এবং পূর্বাভাস প্রদানের সাথে জড়িত সাধারণ কাজগুলি দেখায়।

পোস্ট-প্রসেসিং পূর্বাভাস

পরিবেশন পাইপলাইন সাধারণত পোস্ট-প্রসেসিং পূর্বাভাস।

চিত্র 6 । ভবিষ্যদ্বাণী প্রদানের জন্য জড়িত সাধারণ কাজগুলিকে চিত্রিত করে পরিবেশন করা পাইপলাইন৷

উল্লেখ্য যে ফিচার ইঞ্জিনিয়ারিং ধাপটি সাধারণত মডেলের মধ্যে তৈরি করা হয় এবং একটি পৃথক, একক প্রক্রিয়া নয়। সার্ভিং পাইপলাইনে থাকা ডেটা প্রসেসিং কোড প্রায়ই ডেটা প্রসেসিং কোডের সাথে প্রায় একই রকম হয় যা ডেটা পাইপলাইন প্রশিক্ষণ এবং ডেটাসেট তৈরি করতে ব্যবহার করে।

সম্পদ এবং মেটাডেটা স্টোরেজ

পরিবেশনকারী পাইপলাইনে মডেল ভবিষ্যদ্বাণী এবং যদি সম্ভব হয়, গ্রাউন্ড ট্রুথ লগ করার জন্য একটি সংগ্রহস্থল অন্তর্ভুক্ত করা উচিত।

লগিং মডেল ভবিষ্যদ্বাণী আপনাকে আপনার মডেলের গুণমান নিরীক্ষণ করতে দেয়৷ ভবিষ্যদ্বাণীগুলি একত্রিত করে, আপনি আপনার মডেলের সাধারণ গুণমান নিরীক্ষণ করতে পারেন এবং এটি মান হারাতে শুরু করেছে কিনা তা নির্ধারণ করতে পারেন৷ সাধারণত, প্রশিক্ষণের ডেটাসেটের লেবেলগুলির মতো উত্পাদন মডেলের ভবিষ্যদ্বাণীগুলির গড় হওয়া উচিত৷ আরও তথ্যের জন্য, ভবিষ্যদ্বাণী পক্ষপাত দেখুন।

স্থল সত্য ক্যাপচার

কিছু কিছু ক্ষেত্রে, স্থল সত্য অনেক পরে পাওয়া যায়। উদাহরণস্বরূপ, যদি একটি আবহাওয়া অ্যাপ ভবিষ্যতে ছয় সপ্তাহের মধ্যে আবহাওয়ার পূর্বাভাস দেয়, তাহলে স্থল সত্য (আসলে আবহাওয়া কী) ছয় সপ্তাহের জন্য উপলব্ধ হবে না।

যখন সম্ভব, অ্যাপে প্রতিক্রিয়া প্রক্রিয়া যোগ করে ব্যবহারকারীদের গ্রাউন্ড ট্রুথ রিপোর্ট করতে বলুন। ব্যবহারকারীরা যখন তাদের ইনবক্স থেকে তাদের স্প্যাম ফোল্ডারে মেল স্থানান্তর করে তখন একটি মেল অ্যাপ স্পষ্টভাবে ব্যবহারকারীর প্রতিক্রিয়া ক্যাপচার করতে পারে। যাইহোক, এটি তখনই কাজ করে যখন ব্যবহারকারী সঠিকভাবে তাদের মেল শ্রেণীবদ্ধ করে। যখন ব্যবহারকারীরা তাদের ইনবক্সে স্প্যাম ছেড়ে যায় (কারণ তারা জানে যে এটি স্প্যাম এবং এটি কখনই খুলবে না), প্রশিক্ষণের ডেটা ভুল হয়ে যায়। মেইলের সেই নির্দিষ্ট অংশটিকে "স্প্যাম নয়" লেবেল করা হবে যখন এটি "স্প্যাম" হওয়া উচিত। অন্য কথায়, সর্বদা গ্রাউন্ড ট্রুথ ক্যাপচার এবং রেকর্ড করার উপায় খুঁজে বের করার চেষ্টা করুন , কিন্তু ফিডব্যাক মেকানিজমের মধ্যে থাকতে পারে এমন ত্রুটিগুলি সম্পর্কে সচেতন থাকুন।

চিত্র 7 দেখায় ভবিষ্যদ্বাণীগুলি একজন ব্যবহারকারীকে বিতরণ করা হচ্ছে এবং একটি সংগ্রহস্থলে লগ করা হয়েছে৷

লগিং পূর্বাভাস

পরিবেশনকারী পাইপলাইনে মডেলের অচলতা নিরীক্ষণের জন্য ভবিষ্যদ্বাণীগুলি লগ করা উচিত।

চিত্র 7 । মডেলের গুণমান নিরীক্ষণের জন্য পূর্বাভাস লগ করুন।

ডেটা পাইপলাইন

ডেটা পাইপলাইনগুলি অ্যাপ্লিকেশন ডেটা থেকে প্রশিক্ষণ এবং পরীক্ষা ডেটাসেট তৈরি করে। প্রশিক্ষণ এবং বৈধতা পাইপলাইন তারপর নতুন মডেল প্রশিক্ষণ এবং বৈধতা ডেটাসেট ব্যবহার করে.

ডেটা পাইপলাইন একই বৈশিষ্ট্যগুলির সাথে প্রশিক্ষণ এবং পরীক্ষা ডেটাসেট তৈরি করে এবং মডেলটিকে প্রশিক্ষণের জন্য মূলত ব্যবহৃত লেবেল, কিন্তু নতুন তথ্য সহ। উদাহরণস্বরূপ, একটি মানচিত্র অ্যাপ আবহাওয়ার মতো অন্যান্য প্রাসঙ্গিক ডেটা সহ লক্ষ লক্ষ ব্যবহারকারীর জন্য পয়েন্টের মধ্যে সাম্প্রতিক ভ্রমণের সময় থেকে প্রশিক্ষণ এবং পরীক্ষা ডেটাসেট তৈরি করবে।

একটি ভিডিও সুপারিশ অ্যাপ প্রশিক্ষণ এবং পরীক্ষার ডেটাসেট তৈরি করবে যাতে প্রস্তাবিত তালিকা থেকে ব্যবহারকারীর ক্লিক করা ভিডিওগুলি অন্তর্ভুক্ত থাকে (যেগুলিতে ক্লিক করা হয়নি), সেইসাথে দেখার ইতিহাসের মতো অন্যান্য প্রাসঙ্গিক ডেটা।

চিত্র 8 প্রশিক্ষণ এবং পরীক্ষার ডেটাসেট তৈরি করতে অ্যাপ্লিকেশন ডেটা ব্যবহার করে ডেটা পাইপলাইনকে চিত্রিত করে।

ডেটা পাইপলাইন

ডেটা পাইপলাইন প্রশিক্ষণ এবং পরীক্ষার ডেটাসেট তৈরি করে।

চিত্র 8 । ডেটা পাইপলাইন প্রশিক্ষণ এবং বৈধতা পাইপলাইনের জন্য ডেটাসেট তৈরি করতে অ্যাপ্লিকেশন ডেটা প্রক্রিয়া করে।

তথ্য সংগ্রহ এবং প্রক্রিয়াকরণ

ডেটা পাইপলাইনগুলিতে ডেটা সংগ্রহ এবং প্রক্রিয়াকরণের কাজগুলি সম্ভবত পরীক্ষামূলক পর্যায়ের থেকে আলাদা হবে (যেখানে আপনি নির্ধারণ করেছেন যে আপনার সমাধানটি সম্ভব ছিল):

তথ্য সংগ্রহ । পরীক্ষার সময়, ডেটা সংগ্রহের জন্য সাধারণত সংরক্ষিত ডেটা অ্যাক্সেস করা প্রয়োজন। ডেটা পাইপলাইনগুলির জন্য, ডেটা সংগ্রহের জন্য স্ট্রিমিং লগ ডেটা অ্যাক্সেস করার জন্য আবিষ্কার এবং অনুমোদনের প্রয়োজন হতে পারে।
আপনার যদি মানব-লেবেলযুক্ত ডেটার প্রয়োজন হয় (যেমন চিকিৎসা চিত্র), আপনার এটি সংগ্রহ এবং আপডেট করার জন্যও একটি প্রক্রিয়ার প্রয়োজন হবে।
ডেটা প্রসেসিং । পরীক্ষার সময়, সঠিক বৈশিষ্ট্যগুলি স্ক্র্যাপিং, যোগদান এবং পরীক্ষার ডেটাসেটগুলির নমুনা থেকে এসেছে৷ ডেটা পাইপলাইনগুলির জন্য, একই বৈশিষ্ট্যগুলি তৈরি করার জন্য সম্পূর্ণ ভিন্ন প্রক্রিয়ার প্রয়োজন হতে পারে। যাইহোক, বৈশিষ্ট্য এবং লেবেলগুলিতে একই গাণিতিক ক্রিয়াকলাপ প্রয়োগ করে পরীক্ষা-নিরীক্ষার পর্যায় থেকে ডেটা রূপান্তরগুলি নকল করতে ভুলবেন না।

সম্পদ এবং মেটাডেটা স্টোরেজ

আপনার প্রশিক্ষণ এবং পরীক্ষার ডেটাসেটগুলি সংরক্ষণ, সংস্করণ এবং পরিচালনার জন্য আপনার একটি প্রক্রিয়ার প্রয়োজন হবে৷ সংস্করণ নিয়ন্ত্রিত সংগ্রহস্থল নিম্নলিখিত সুবিধা প্রদান করে:

প্রজননযোগ্যতা । মডেল প্রশিক্ষণ পরিবেশ পুনরায় তৈরি এবং মানসম্মত করুন এবং বিভিন্ন মডেলের মধ্যে পূর্বাভাসের গুণমানের তুলনা করুন।
সম্মতি নিরীক্ষাযোগ্যতা এবং স্বচ্ছতার জন্য নিয়ন্ত্রক সম্মতির প্রয়োজনীয়তাগুলি মেনে চলুন।
ধরে রাখা । কতক্ষণ ডেটা সংরক্ষণ করতে হবে তার জন্য ডেটা ধরে রাখার মান সেট করুন।
অ্যাক্সেস ব্যবস্থাপনা । সূক্ষ্ম অনুমতির মাধ্যমে কারা আপনার ডেটা অ্যাক্সেস করতে পারে তা পরিচালনা করুন।
ডেটা অখণ্ডতা । আপনার ডেটা বা আপনার মডেলের সমস্যাগুলি নির্ণয় করা সহজ করে, সময়ের সাথে সাথে ডেটাসেটের পরিবর্তনগুলি ট্র্যাক করুন এবং বোঝুন।
আবিষ্কারযোগ্যতা । অন্যদের জন্য আপনার ডেটাসেট এবং বৈশিষ্ট্যগুলি খুঁজে পাওয়া সহজ করুন৷ অন্যান্য দলগুলি তখন নির্ধারণ করতে পারে যে তারা তাদের উদ্দেশ্যে উপযোগী হবে কিনা।

আপনার তথ্য নথিভুক্ত করা

ভাল ডকুমেন্টেশন অন্যদেরকে আপনার ডেটা সম্পর্কে মূল তথ্য বুঝতে সাহায্য করে, যেমন এর ধরন, উৎস, আকার এবং অন্যান্য প্রয়োজনীয় মেটাডেটা। বেশিরভাগ ক্ষেত্রে, একটি ডিজাইন ডকে আপনার ডেটা নথিভুক্ত করা যথেষ্ট। আপনি যদি আপনার ডেটা ভাগ বা প্রকাশ করার পরিকল্পনা করেন তবে ব্যবহার করুনডেটা কার্ডতথ্য গঠন করতে। ডেটা কার্ডগুলি অন্যদের জন্য আপনার ডেটাসেটগুলি আবিষ্কার এবং বোঝা সহজ করে তোলে৷

প্রশিক্ষণ এবং বৈধতা পাইপলাইন

প্রশিক্ষণ এবং বৈধতা পাইপলাইনগুলি বাসি হওয়ার আগে উত্পাদন মডেলগুলি প্রতিস্থাপন করতে নতুন মডেল তৈরি করে। ক্রমাগত প্রশিক্ষণ এবং নতুন মডেলের বৈধতা নিশ্চিত করে যে সর্বোত্তম মডেলটি সর্বদা উৎপাদনে থাকে।

প্রশিক্ষণ পাইপলাইন প্রশিক্ষণ ডেটাসেটগুলি থেকে একটি নতুন মডেল তৈরি করে, এবং যাচাইকরণ পাইপলাইন পরীক্ষা ডেটাসেট ব্যবহার করে উৎপাদনে থাকা মডেলের সাথে নতুন মডেলের গুণমানের তুলনা করে।

চিত্র 9 একটি নতুন মডেল প্রশিক্ষণের জন্য একটি প্রশিক্ষণ ডেটাসেট ব্যবহার করে প্রশিক্ষণ পাইপলাইনকে চিত্রিত করে।

প্রশিক্ষণ পাইপলাইন

প্রশিক্ষণ পাইপলাইন তাজা ডেটাতে নতুন মডেলগুলিকে প্রশিক্ষণ দেয়।

চিত্র 9 । প্রশিক্ষণ পাইপলাইন সাম্প্রতিকতম প্রশিক্ষণ ডেটাসেট ব্যবহার করে নতুন মডেলগুলিকে প্রশিক্ষণ দেয়।

মডেলটি প্রশিক্ষিত হওয়ার পরে, বৈধতা পাইপলাইন প্রশিক্ষিত মডেলের সাথে উত্পাদন মডেলের গুণমানের তুলনা করার জন্য পরীক্ষার ডেটাসেট ব্যবহার করে।

সাধারণভাবে, প্রশিক্ষিত মডেলটি উৎপাদন মডেলের চেয়ে অর্থপূর্ণভাবে খারাপ না হলে, প্রশিক্ষিত মডেলটি উৎপাদনে যায়। প্রশিক্ষিত মডেল খারাপ হলে, পর্যবেক্ষণ পরিকাঠামো একটি সতর্কতা তৈরি করা উচিত. খারাপ ভবিষ্যদ্বাণী গুণমান সহ প্রশিক্ষিত মডেলগুলি ডেটা বা বৈধতা পাইপলাইনগুলির সাথে সম্ভাব্য সমস্যাগুলি নির্দেশ করতে পারে। এই পদ্ধতিটি সর্বোত্তম মডেলটি নিশ্চিত করার জন্য কাজ করে, যা সর্বদা নতুন তথ্যের উপর প্রশিক্ষিত হয়।

সম্পদ এবং মেটাডেটা স্টোরেজ

মডেল এবং তাদের মেটাডেটা মডেল স্থাপনাগুলি সংগঠিত এবং ট্র্যাক করতে সংস্করণযুক্ত সংগ্রহস্থলে সংরক্ষণ করা উচিত। মডেল সংগ্রহস্থল নিম্নলিখিত সুবিধা প্রদান করে:

ট্র্যাকিং এবং মূল্যায়ন । উৎপাদনে মডেল ট্র্যাক করুন এবং তাদের মূল্যায়ন এবং ভবিষ্যদ্বাণী মানের মেট্রিক্স বোঝুন।
মডেল রিলিজ প্রক্রিয়া । সহজেই পর্যালোচনা করুন, অনুমোদন করুন, প্রকাশ করুন বা মডেলগুলি ফিরিয়ে দিন।
প্রজননযোগ্যতা এবং ডিবাগিং । মডেল ফলাফলগুলি পুনরুত্পাদন করুন এবং একটি মডেলের ডেটাসেট এবং ডিপ্লয়মেন্ট জুড়ে নির্ভরতা ট্রেস করে আরও কার্যকরভাবে সমস্যাগুলি ডিবাগ করুন৷
আবিষ্কারযোগ্যতা । অন্যদের জন্য আপনার মডেল খুঁজে পেতে এটা সহজ করুন. অন্যান্য দলগুলি তখন নির্ধারণ করতে পারে যে আপনার মডেল (বা এর কিছু অংশ) তাদের উদ্দেশ্যে ব্যবহার করা যেতে পারে কিনা।

চিত্র 10 একটি মডেল সংগ্রহস্থলে সংরক্ষিত একটি বৈধ মডেলকে চিত্রিত করে।

মডেল স্টোরেজ

একটি সংস্করণযুক্ত সংগ্রহস্থলে মডেল সংরক্ষণ করুন

চিত্র 10 । বৈধ মডেল ট্র্যাকিং এবং আবিষ্কারযোগ্যতার জন্য একটি মডেল সংগ্রহস্থলে সংরক্ষণ করা হয়।

ব্যবহার করুনমডেল কার্ডনথিভুক্ত করতে এবং আপনার মডেল সম্পর্কে মূল তথ্য শেয়ার করতে, যেমন এর উদ্দেশ্য, আর্কিটেকচার, হার্ডওয়্যার প্রয়োজনীয়তা, মূল্যায়ন মেট্রিক্স ইত্যাদি।

আপনার বোঝার চেক করুন

ভবিষ্যদ্বাণী, ডেটাসেট এবং মডেলগুলি সঞ্চয় করতে সংস্করণযুক্ত সংগ্রহস্থলগুলি ব্যবহার করার কিছু প্রধান কারণ কী কী? প্রযোজ্য সব নির্বাচন করুন.

পুনরুত্পাদন এবং ডিবাগ সমস্যা

সঠিক। সংস্করণযুক্ত সংগ্রহস্থলগুলিতে সম্পদ সংরক্ষণ করা সমস্যাগুলি নির্ণয় এবং ডিবাগ করার জন্য গুরুত্বপূর্ণ।

মডেলের মান পর্যবেক্ষণ করুন

সঠিক। সংস্করণযুক্ত সংগ্রহস্থলে সম্পদ সংরক্ষণ করা মডেলের গুণমান নিরীক্ষণের জন্য গুরুত্বপূর্ণ।

কম্পিউট কোটা কমিয়ে দিন

পাইপলাইন নির্মাণের চ্যালেঞ্জ

পাইপলাইন তৈরি করার সময়, আপনি নিম্নলিখিত চ্যালেঞ্জগুলির সম্মুখীন হতে পারেন:

আপনার প্রয়োজনীয় ডেটা অ্যাক্সেস পাচ্ছেন । আপনার কেন এটি প্রয়োজন তা সমর্থন করার জন্য ডেটা অ্যাক্সেসের প্রয়োজন হতে পারে। উদাহরণস্বরূপ, আপনাকে ব্যাখ্যা করতে হতে পারে যে ডেটা কীভাবে ব্যবহার করা হবে এবং কীভাবে ব্যক্তিগত শনাক্তযোগ্য তথ্য (PII) সমস্যাগুলি সমাধান করা হবে তা ব্যাখ্যা করতে হবে। আপনার মডেল নির্দিষ্ট ধরণের ডেটা অ্যাক্সেসের সাথে কীভাবে আরও ভাল ভবিষ্যদ্বাণী করে তা প্রদর্শন করে একটি প্রমাণ-অফ-ধারণা প্রদর্শন করতে প্রস্তুত থাকুন৷
সঠিক বৈশিষ্ট্য পাওয়া . কিছু ক্ষেত্রে, পরীক্ষামূলক পর্যায়ে ব্যবহৃত বৈশিষ্ট্যগুলি রিয়েল-টাইম ডেটা থেকে উপলব্ধ হবে না। অতএব, পরীক্ষা করার সময়, আপনি উত্পাদনে একই বৈশিষ্ট্যগুলি পেতে সক্ষম হবেন তা নিশ্চিত করার চেষ্টা করুন।
কীভাবে ডেটা সংগ্রহ করা হয় এবং উপস্থাপন করা হয় তা বোঝা । ডেটা কীভাবে সংগ্রহ করা হয়েছিল, কে এটি সংগ্রহ করেছিল এবং কীভাবে এটি সংগ্রহ করা হয়েছিল (অন্যান্য সমস্যাগুলির সাথে) তা শিখতে সময় এবং প্রচেষ্টা নিতে পারে। তথ্যটি পুঙ্খানুপুঙ্খভাবে বোঝা গুরুত্বপূর্ণ। উত্পাদনে যেতে পারে এমন একটি মডেলকে প্রশিক্ষণ দেওয়ার জন্য আপনি যে ডেটাতে আত্মবিশ্বাসী নন এমন ডেটা ব্যবহার করবেন না।
প্রচেষ্টা, খরচ এবং মডেলের মানের মধ্যে ট্রেডঅফ বোঝা । একটি ডেটা পাইপলাইনে একটি নতুন বৈশিষ্ট্য অন্তর্ভুক্ত করার জন্য অনেক প্রচেষ্টার প্রয়োজন হতে পারে। যাইহোক, অতিরিক্ত বৈশিষ্ট্যটি শুধুমাত্র মডেলের গুণমানকে কিছুটা উন্নত করতে পারে। অন্য ক্ষেত্রে, একটি নতুন বৈশিষ্ট্য যোগ করা সহজ হতে পারে। যাইহোক, বৈশিষ্ট্যটি পেতে এবং সংরক্ষণ করার সংস্থানগুলি নিষেধজনকভাবে ব্যয়বহুল হতে পারে।
গণনা করা হচ্ছে । পুনঃপ্রশিক্ষণের জন্য আপনার যদি TPU-এর প্রয়োজন হয়, তাহলে প্রয়োজনীয় কোটা পাওয়া কঠিন হতে পারে। এছাড়াও, টিপিইউ পরিচালনা করা জটিল। উদাহরণস্বরূপ, আপনার মডেল বা ডেটার কিছু অংশ বিশেষভাবে TPU-এর জন্য একাধিক TPU চিপগুলিতে বিভক্ত করে ডিজাইন করার প্রয়োজন হতে পারে।
সঠিক গোল্ডেন ডেটাসেট খোঁজা হচ্ছে । যদি ডেটা ঘন ঘন পরিবর্তিত হয়, সামঞ্জস্যপূর্ণ এবং সঠিক লেবেল সহ সোনালী ডেটাসেটগুলি পাওয়া চ্যালেঞ্জিং হতে পারে।

পরীক্ষার সময় এই ধরনের সমস্যা ধরা সময় বাঁচায়. উদাহরণস্বরূপ, আপনি সেরা বৈশিষ্ট্য এবং মডেলগুলি বিকাশ করতে চান না শুধুমাত্র শিখতে যে তারা উত্পাদনে কার্যকর নয়৷ অতএব, যত তাড়াতাড়ি সম্ভব নিশ্চিত করার চেষ্টা করুন যে আপনার সমাধানটি উত্পাদন পরিবেশের সীমাবদ্ধতার মধ্যে কাজ করবে। পরীক্ষা-নিরীক্ষার পর্যায়ে ফিরে আসার চেয়ে সমাধান কাজ করে তা যাচাই করার জন্য সময় ব্যয় করা ভাল কারণ পাইপলাইন ফেজ অনতিক্রম্য সমস্যাগুলি উন্মোচিত করে।

বৈশিষ্ট্য প্রকৌশল	স্থল সত্য
অফলাইন অনুমান	অনলাইন অনুমান
পূর্বাভাস পক্ষপাত	পরীক্ষার সেট