উৎপাদন ML-এ, লক্ষ্য একটি একক মডেল তৈরি করা এবং এটি স্থাপন করা নয়। লক্ষ্য হল সময়ের সাথে মডেলগুলি বিকাশ, পরীক্ষা এবং স্থাপনের জন্য স্বয়ংক্রিয় পাইপলাইন তৈরি করা। কেন? বিশ্ব পরিবর্তিত হওয়ার সাথে সাথে ডেটা স্থানান্তরের প্রবণতা, যার ফলে উত্পাদনের মডেলগুলি বাসি হয়ে যায়। দীর্ঘ মেয়াদে উচ্চ-মানের ভবিষ্যদ্বাণী পরিবেশন করা চালিয়ে যেতে মডেলদের সাধারণত আপ-টু-ডেট ডেটার সাথে পুনরায় প্রশিক্ষণের প্রয়োজন হয়। অন্য কথায়, আপনি বাসি মডেলগুলিকে তাজা দিয়ে প্রতিস্থাপন করার একটি উপায় চাইবেন।
পাইপলাইন ছাড়া, একটি বাসি মডেল প্রতিস্থাপন একটি ত্রুটি-প্রবণ প্রক্রিয়া। উদাহরণস্বরূপ, একবার একটি মডেল খারাপ ভবিষ্যদ্বাণী পরিবেশন করা শুরু করলে, কাউকে ম্যানুয়ালি নতুন ডেটা সংগ্রহ এবং প্রক্রিয়া করতে হবে, একটি নতুন মডেলকে প্রশিক্ষণ দিতে হবে, এর গুণমান যাচাই করতে হবে এবং অবশেষে এটি স্থাপন করতে হবে। এমএল পাইপলাইনগুলি এই পুনরাবৃত্তিমূলক প্রক্রিয়াগুলির অনেকগুলিকে স্বয়ংক্রিয় করে, মডেলগুলির পরিচালনা এবং রক্ষণাবেক্ষণকে আরও দক্ষ এবং নির্ভরযোগ্য করে তোলে।
পাইপলাইন নির্মাণ
এমএল পাইপলাইনগুলি সু-সংজ্ঞায়িত কাজগুলিতে মডেলগুলি তৈরি এবং স্থাপনের পদক্ষেপগুলি সংগঠিত করে৷ পাইপলাইনগুলির দুটি ফাংশনের মধ্যে একটি রয়েছে: ভবিষ্যদ্বাণী প্রদান করা বা মডেল আপডেট করা।
ভবিষ্যদ্বাণী প্রদান
পরিবেশনকারী পাইপলাইন পূর্বাভাস প্রদান করে। এটি আপনার মডেলটিকে বাস্তব জগতে প্রকাশ করে, এটি আপনার ব্যবহারকারীদের কাছে অ্যাক্সেসযোগ্য করে তোলে। উদাহরণস্বরূপ, যখন কোনও ব্যবহারকারী একটি ভবিষ্যদ্বাণী চায়—আগামীকাল আবহাওয়া কেমন হবে, বা বিমানবন্দরে যেতে কত মিনিট সময় লাগবে, বা প্রস্তাবিত ভিডিওগুলির একটি তালিকা — পরিবেশনকারী পাইপলাইন ব্যবহারকারীর ডেটা গ্রহণ করে এবং প্রক্রিয়া করে। একটি ভবিষ্যদ্বাণী, এবং তারপর এটি ব্যবহারকারীর কাছে বিতরণ করে।
মডেল আপডেট করা হচ্ছে
মডেলগুলি উত্পাদনে যাওয়ার প্রায় সাথে সাথেই বাসি হয়ে যায়। সংক্ষেপে, তারা পুরানো তথ্য ব্যবহার করে ভবিষ্যদ্বাণী করছে। তাদের প্রশিক্ষণ ডেটাসেটগুলি একদিন আগে বা কিছু ক্ষেত্রে, এক ঘন্টা আগে বিশ্বের অবস্থা ক্যাপচার করেছে। অনিবার্যভাবে বিশ্ব পরিবর্তিত হয়েছে: একজন ব্যবহারকারী আরও ভিডিও দেখেছেন এবং সুপারিশের একটি নতুন তালিকা প্রয়োজন; বৃষ্টির কারণে ট্রাফিক ধীর হয়ে গেছে এবং ব্যবহারকারীদের তাদের আগমনের সময়ের জন্য আপডেট করা অনুমান প্রয়োজন; একটি জনপ্রিয় প্রবণতা খুচরা বিক্রেতাদের নির্দিষ্ট আইটেমগুলির জন্য আপডেট করা ইনভেন্টরি পূর্বাভাসের জন্য অনুরোধ করে।
সাধারণত, প্রোডাকশন মডেল বাসি হয়ে যাওয়ার আগে দলগুলি নতুন মডেলগুলিকে ভালভাবে প্রশিক্ষণ দেয়। কিছু ক্ষেত্রে, দলগুলি একটি ক্রমাগত প্রশিক্ষণ এবং স্থাপনার চক্রে প্রতিদিন নতুন মডেলগুলিকে প্রশিক্ষণ দেয় এবং স্থাপন করে। আদর্শভাবে, প্রোডাকশন মডেল বাসি হয়ে যাওয়ার আগে একটি নতুন মডেলকে প্রশিক্ষণ দেওয়া উচিত।
নিম্নলিখিত পাইপলাইনগুলি একটি নতুন মডেলকে প্রশিক্ষণের জন্য একসাথে কাজ করে:
- ডেটা পাইপলাইন । ডেটা পাইপলাইন প্রশিক্ষণ এবং পরীক্ষার ডেটাসেট তৈরি করতে ব্যবহারকারীর ডেটা প্রক্রিয়া করে।
- প্রশিক্ষণ পাইপলাইন । প্রশিক্ষণ পাইপলাইন ডেটা পাইপলাইন থেকে নতুন প্রশিক্ষণ ডেটাসেটগুলি ব্যবহার করে মডেলগুলিকে প্রশিক্ষণ দেয়।
- বৈধতা পাইপলাইন । বৈধতা পাইপলাইন ডেটা পাইপলাইন দ্বারা উত্পন্ন পরীক্ষার ডেটাসেটগুলি ব্যবহার করে উত্পাদন মডেলের সাথে তুলনা করে প্রশিক্ষিত মডেলটিকে বৈধ করে।
চিত্র 4 প্রতিটি ML পাইপলাইনের ইনপুট এবং আউটপুটগুলিকে চিত্রিত করে৷
এমএল পাইপলাইন
চিত্র 4 । এমএল পাইপলাইনগুলি মডেলগুলি বিকাশ এবং রক্ষণাবেক্ষণের জন্য অনেকগুলি প্রক্রিয়া স্বয়ংক্রিয় করে। প্রতিটি পাইপলাইন তার ইনপুট এবং আউটপুট দেখায়।
খুব সাধারণ স্তরে, পাইপলাইনগুলি কীভাবে উত্পাদনে একটি নতুন মডেল রাখে:
প্রথমত, একটি মডেল উৎপাদনে যায় এবং পরিবেশনকারী পাইপলাইন ভবিষ্যদ্বাণী প্রদান করা শুরু করে।
ডেটা পাইপলাইন অবিলম্বে নতুন প্রশিক্ষণ এবং পরীক্ষার ডেটাসেট তৈরি করতে ডেটা সংগ্রহ করা শুরু করে।
একটি সময়সূচী বা একটি ট্রিগারের উপর ভিত্তি করে, প্রশিক্ষণ এবং বৈধতা পাইপলাইনগুলি ডেটা পাইপলাইন দ্বারা উত্পন্ন ডেটাসেটগুলি ব্যবহার করে একটি নতুন মডেলকে প্রশিক্ষণ দেয় এবং যাচাই করে৷
যখন বৈধতা পাইপলাইন নিশ্চিত করে যে নতুন মডেলটি উৎপাদন মডেলের চেয়ে খারাপ নয়, তখন নতুন মডেলটি স্থাপন করা হয়।
এই প্রক্রিয়া ক্রমাগত পুনরাবৃত্তি হয়।
মডেল অচলতা এবং প্রশিক্ষণ ফ্রিকোয়েন্সি
প্রায় সব মডেলই বাসি হয়ে গেছে। কিছু মডেল অন্যদের তুলনায় দ্রুত বাসি হয়ে যায়। উদাহরণস্বরূপ, যে মডেলগুলি পোশাকের সুপারিশ করে তারা সাধারণত দ্রুত বাসি হয়ে যায় কারণ ভোক্তার পছন্দগুলি ঘন ঘন পরিবর্তন করার জন্য কুখ্যাত। অন্যদিকে, যে মডেলগুলি ফুল সনাক্ত করে সেগুলি কখনই বাসি হতে পারে না। একটি ফুলের সনাক্তকরণ বৈশিষ্ট্য স্থিতিশীল থাকে।
বেশির ভাগ মডেল উৎপাদনে আসার পরপরই বাসি হতে শুরু করে। আপনি একটি প্রশিক্ষণ ফ্রিকোয়েন্সি স্থাপন করতে চাইবেন যা আপনার ডেটার প্রকৃতিকে প্রতিফলিত করে। ডেটা গতিশীল হলে, প্রায়ই ট্রেন করুন। যদি এটি কম গতিশীল হয় তবে আপনাকে প্রায়শই প্রশিক্ষণের প্রয়োজন হবে না।
ট্রেনের মডেলগুলি বাসি হওয়ার আগে। প্রারম্ভিক প্রশিক্ষণ সম্ভাব্য সমস্যাগুলি সমাধান করার জন্য একটি বাফার প্রদান করে, উদাহরণস্বরূপ, যদি ডেটা বা প্রশিক্ষণ পাইপলাইন ব্যর্থ হয়, বা মডেলের মান খারাপ হয়।
একটি প্রস্তাবিত সর্বোত্তম অনুশীলন হল প্রতিদিনের ভিত্তিতে নতুন মডেলগুলিকে প্রশিক্ষণ দেওয়া এবং স্থাপন করা। নিয়মিত সফ্টওয়্যার প্রকল্পগুলির মতো যেগুলির একটি দৈনিক নির্মাণ এবং প্রকাশের প্রক্রিয়া রয়েছে, প্রশিক্ষণ এবং বৈধতার জন্য এমএল পাইপলাইনগুলি যখন প্রতিদিন চালানো হয় তখন প্রায়শই সেরা হয়৷
পাইপলাইন পরিবেশন
পরিবেশনকারী পাইপলাইন দুটি উপায়ের একটিতে ভবিষ্যদ্বাণী তৈরি করে এবং সরবরাহ করে: অনলাইন বা অফলাইন।
অনলাইন ভবিষ্যদ্বাণী । অনলাইন ভবিষ্যদ্বাণীগুলি রিয়েল টাইমে ঘটে, সাধারণত একটি অনলাইন সার্ভারে একটি অনুরোধ পাঠিয়ে এবং একটি ভবিষ্যদ্বাণী ফেরত দিয়ে৷ উদাহরণস্বরূপ, যখন একজন ব্যবহারকারী একটি ভবিষ্যদ্বাণী চায়, ব্যবহারকারীর ডেটা মডেলটিতে পাঠানো হয় এবং মডেলটি পূর্বাভাস প্রদান করে। উদাহরণস্বরূপ, Gmail অনলাইন ভবিষ্যদ্বাণী ব্যবহার করে রিয়েল টাইমে আগত বার্তাগুলিকে শ্রেণিবদ্ধ করে ৷
অফলাইন ভবিষ্যদ্বাণী । অফলাইন ভবিষ্যদ্বাণীগুলি পূর্বনির্ধারিত এবং ক্যাশে করা হয়৷ একটি ভবিষ্যদ্বাণী পরিবেশন করতে, অ্যাপটি ডাটাবেসে ক্যাশে করা ভবিষ্যদ্বাণী খুঁজে পায় এবং এটি ফেরত দেয়। উদাহরণস্বরূপ, একটি সাবস্ক্রিপশন-ভিত্তিক পরিষেবা তার গ্রাহকদের জন্য মন্থন হারের পূর্বাভাস দিতে পারে। মডেলটি প্রতিটি গ্রাহকের জন্য মন্থনের সম্ভাবনার ভবিষ্যদ্বাণী করে এবং এটি ক্যাশে করে। যখন অ্যাপটির ভবিষ্যদ্বাণীর প্রয়োজন হয়-উদাহরণস্বরূপ, মন্থন করতে চলেছে এমন ব্যবহারকারীদের উদ্দীপনা দেওয়ার জন্য-এটি কেবল পূর্বনির্ধারিত ভবিষ্যদ্বাণীটি দেখায়।
চিত্র 5 দেখায় কিভাবে অনলাইন এবং অফলাইন ভবিষ্যদ্বাণী তৈরি এবং বিতরণ করা হয়।
অনলাইন এবং অফলাইন ভবিষ্যদ্বাণী
চিত্র 5 । অনলাইন ভবিষ্যদ্বাণী বাস্তব সময়ে ভবিষ্যদ্বাণী প্রদান করে। অফলাইন ভবিষ্যদ্বাণীগুলি ক্যাশে করা হয় এবং পরিবেশন করার সময় দেখা হয়৷
ভবিষ্যদ্বাণী পোস্ট-প্রসেসিং
সাধারণত, ভবিষ্যদ্বাণীগুলি বিতরণ করার আগে পোস্ট-প্রসেস করা হয়। উদাহরণস্বরূপ, ভবিষ্যদ্বাণীগুলি বিষাক্ত বা পক্ষপাতদুষ্ট বিষয়বস্তু সরাতে পোস্ট-প্রসেস করা হতে পারে। শ্রেণীবিভাগের ফলাফলগুলি মডেলের কাঁচা আউটপুট দেখানোর পরিবর্তে ফলাফলগুলিকে পুনঃক্রম করতে ট্যুইডলিং ব্যবহার করতে পারে, উদাহরণস্বরূপ, আরও বেশি প্রামাণিক বিষয়বস্তুকে উত্সাহিত করতে, ফলাফলের বৈচিত্র্য উপস্থাপন করতে, নির্দিষ্ট ফলাফলগুলিকে হ্রাস করতে (যেমন ক্লিকবেট) বা আইনি কারণে ফলাফলগুলি সরাতে পারে৷
চিত্র 6 একটি পরিবেশন পাইপলাইন এবং পূর্বাভাস প্রদানের সাথে জড়িত সাধারণ কাজগুলি দেখায়।
পোস্ট-প্রসেসিং পূর্বাভাস
চিত্র 6 । ভবিষ্যদ্বাণী প্রদানের জন্য জড়িত সাধারণ কাজগুলিকে চিত্রিত করে পরিবেশন করা পাইপলাইন৷
উল্লেখ্য যে ফিচার ইঞ্জিনিয়ারিং ধাপটি সাধারণত মডেলের মধ্যে তৈরি করা হয় এবং একটি পৃথক, একক প্রক্রিয়া নয়। সার্ভিং পাইপলাইনে থাকা ডেটা প্রসেসিং কোড প্রায়ই ডেটা প্রসেসিং কোডের সাথে প্রায় একই রকম হয় যা ডেটা পাইপলাইন প্রশিক্ষণ এবং ডেটাসেট তৈরি করতে ব্যবহার করে।
সম্পদ এবং মেটাডেটা স্টোরেজ
পরিবেশনকারী পাইপলাইনে মডেল ভবিষ্যদ্বাণী এবং যদি সম্ভব হয়, গ্রাউন্ড ট্রুথ লগ করার জন্য একটি সংগ্রহস্থল অন্তর্ভুক্ত করা উচিত।
লগিং মডেল ভবিষ্যদ্বাণী আপনাকে আপনার মডেলের গুণমান নিরীক্ষণ করতে দেয়৷ ভবিষ্যদ্বাণীগুলি একত্রিত করে, আপনি আপনার মডেলের সাধারণ গুণমান নিরীক্ষণ করতে পারেন এবং এটি মান হারাতে শুরু করেছে কিনা তা নির্ধারণ করতে পারেন৷ সাধারণত, প্রশিক্ষণের ডেটাসেটের লেবেলগুলির মতো উত্পাদন মডেলের ভবিষ্যদ্বাণীগুলির গড় হওয়া উচিত৷ আরও তথ্যের জন্য, ভবিষ্যদ্বাণী পক্ষপাত দেখুন।
স্থল সত্য ক্যাপচার
কিছু কিছু ক্ষেত্রে, স্থল সত্য অনেক পরে পাওয়া যায়। উদাহরণস্বরূপ, যদি একটি আবহাওয়া অ্যাপ ভবিষ্যতে ছয় সপ্তাহের মধ্যে আবহাওয়ার পূর্বাভাস দেয়, তাহলে স্থল সত্য (আসলে আবহাওয়া কী) ছয় সপ্তাহের জন্য উপলব্ধ হবে না।
যখন সম্ভব, অ্যাপে প্রতিক্রিয়া প্রক্রিয়া যোগ করে ব্যবহারকারীদের গ্রাউন্ড ট্রুথ রিপোর্ট করতে বলুন। যখন ব্যবহারকারীরা তাদের ইনবক্স থেকে তাদের স্প্যাম ফোল্ডারে মেল স্থানান্তর করে তখন Gmail নিহিতভাবে ব্যবহারকারীর প্রতিক্রিয়া ক্যাপচার করে। যাইহোক, এটি তখনই কাজ করে যখন ব্যবহারকারী সঠিকভাবে তাদের মেল শ্রেণীবদ্ধ করে। যখন ব্যবহারকারীরা তাদের ইনবক্সে স্প্যাম ছেড়ে যায় (কারণ তারা জানে যে এটি স্প্যাম এবং এটি কখনই খুলবে না), প্রশিক্ষণের ডেটা ভুল হয়ে যায়। মেইলের সেই নির্দিষ্ট অংশটিকে "স্প্যাম নয়" লেবেল করা হবে যখন এটি "স্প্যাম" হওয়া উচিত। অন্য কথায়, সর্বদা গ্রাউন্ড ট্রুথ ক্যাপচার এবং রেকর্ড করার উপায় খুঁজে বের করার চেষ্টা করুন , কিন্তু ফিডব্যাক মেকানিজমের মধ্যে থাকতে পারে এমন ত্রুটিগুলি সম্পর্কে সচেতন থাকুন।
চিত্র 7 দেখায় ভবিষ্যদ্বাণীগুলি একজন ব্যবহারকারীকে বিতরণ করা হচ্ছে এবং একটি সংগ্রহস্থলে লগ করা হয়েছে৷
লগিং পূর্বাভাস
চিত্র 7 । মডেলের গুণমান নিরীক্ষণের জন্য পূর্বাভাস লগ করুন।
ডেটা পাইপলাইন
ডেটা পাইপলাইনগুলি অ্যাপ্লিকেশন ডেটা থেকে প্রশিক্ষণ এবং পরীক্ষা ডেটাসেট তৈরি করে। প্রশিক্ষণ এবং বৈধতা পাইপলাইন তারপর নতুন মডেল প্রশিক্ষণ এবং বৈধতা ডেটাসেট ব্যবহার করে.
ডেটা পাইপলাইন একই বৈশিষ্ট্যগুলির সাথে প্রশিক্ষণ এবং পরীক্ষা ডেটাসেট তৈরি করে এবং মডেলটিকে প্রশিক্ষণের জন্য মূলত ব্যবহৃত লেবেল, কিন্তু নতুন তথ্য সহ। উদাহরণস্বরূপ, একটি মানচিত্র অ্যাপ আবহাওয়ার মতো অন্যান্য প্রাসঙ্গিক ডেটা সহ লক্ষ লক্ষ ব্যবহারকারীর জন্য পয়েন্টের মধ্যে সাম্প্রতিক ভ্রমণের সময় থেকে প্রশিক্ষণ এবং পরীক্ষা ডেটাসেট তৈরি করবে।
একটি ভিডিও সুপারিশ অ্যাপ প্রশিক্ষণ এবং পরীক্ষার ডেটাসেট তৈরি করবে যাতে প্রস্তাবিত তালিকা থেকে ব্যবহারকারীর ক্লিক করা ভিডিওগুলি অন্তর্ভুক্ত থাকে (যেগুলিতে ক্লিক করা হয়নি), সেইসাথে দেখার ইতিহাসের মতো অন্যান্য প্রাসঙ্গিক ডেটা।
চিত্র 8 প্রশিক্ষণ এবং পরীক্ষার ডেটাসেট তৈরি করতে অ্যাপ্লিকেশন ডেটা ব্যবহার করে ডেটা পাইপলাইনকে চিত্রিত করে।
ডেটা পাইপলাইন
চিত্র 8 . ডেটা পাইপলাইন প্রশিক্ষণ এবং বৈধতা পাইপলাইনের জন্য ডেটাসেট তৈরি করতে অ্যাপ্লিকেশন ডেটা প্রক্রিয়া করে।
তথ্য সংগ্রহ এবং প্রক্রিয়াকরণ
ডেটা পাইপলাইনগুলিতে ডেটা সংগ্রহ এবং প্রক্রিয়াকরণের কাজগুলি সম্ভবত পরীক্ষামূলক পর্যায়ের থেকে আলাদা হবে (যেখানে আপনি নির্ধারণ করেছেন যে আপনার সমাধানটি সম্ভব ছিল):
তথ্য সংগ্রহ . পরীক্ষার সময়, ডেটা সংগ্রহের জন্য সাধারণত সংরক্ষিত ডেটা অ্যাক্সেস করা প্রয়োজন। ডেটা পাইপলাইনগুলির জন্য, ডেটা সংগ্রহের জন্য স্ট্রিমিং লগ ডেটা অ্যাক্সেস করার জন্য আবিষ্কার এবং অনুমোদনের প্রয়োজন হতে পারে।
আপনার যদি মানব-লেবেলযুক্ত ডেটার প্রয়োজন হয় (যেমন চিকিৎসা চিত্র), আপনার এটি সংগ্রহ এবং আপডেট করার জন্যও একটি প্রক্রিয়ার প্রয়োজন হবে। আপনার যদি মানব-লেবেলযুক্ত ডেটার প্রয়োজন হয়, CrowdCompute পৃষ্ঠাটি দেখুন।
তথ্য প্রক্রিয়াজাতকরণ . পরীক্ষার সময়, সঠিক বৈশিষ্ট্যগুলি স্ক্র্যাপিং, যোগদান এবং পরীক্ষার ডেটাসেটগুলির নমুনা থেকে এসেছে৷ ডেটা পাইপলাইনগুলির জন্য, একই বৈশিষ্ট্যগুলি তৈরি করার জন্য সম্পূর্ণ ভিন্ন প্রক্রিয়ার প্রয়োজন হতে পারে। যাইহোক, বৈশিষ্ট্য এবং লেবেলগুলিতে একই গাণিতিক ক্রিয়াকলাপ প্রয়োগ করে পরীক্ষা-নিরীক্ষার পর্যায় থেকে ডেটা রূপান্তরগুলি নকল করতে ভুলবেন না।
সম্পদ এবং মেটাডেটা স্টোরেজ
আপনার প্রশিক্ষণ এবং পরীক্ষার ডেটাসেটগুলি সংরক্ষণ, সংস্করণ এবং পরিচালনার জন্য আপনার একটি প্রক্রিয়ার প্রয়োজন হবে৷ সংস্করণ নিয়ন্ত্রিত সংগ্রহস্থল নিম্নলিখিত সুবিধা প্রদান করে:
প্রজননযোগ্যতা । মডেল প্রশিক্ষণ পরিবেশ পুনরায় তৈরি এবং মানসম্মত করুন এবং বিভিন্ন মডেলের মধ্যে পূর্বাভাসের গুণমানের তুলনা করুন।
সম্মতি নিরীক্ষাযোগ্যতা এবং স্বচ্ছতার জন্য নিয়ন্ত্রক সম্মতির প্রয়োজনীয়তাগুলি মেনে চলুন।
ধরে রাখা । কতক্ষণ ডেটা সংরক্ষণ করতে হবে তার জন্য ডেটা ধরে রাখার মান সেট করুন।
অ্যাক্সেস ব্যবস্থাপনা । সূক্ষ্ম অনুমতির মাধ্যমে কারা আপনার ডেটা অ্যাক্সেস করতে পারে তা পরিচালনা করুন।
তথ্য অখণ্ডতা . আপনার ডেটা বা আপনার মডেলের সমস্যাগুলি নির্ণয় করা সহজ করে, সময়ের সাথে সাথে ডেটাসেটের পরিবর্তনগুলি ট্র্যাক করুন এবং বোঝুন।
আবিষ্কারযোগ্যতা । অন্যদের জন্য আপনার ডেটাসেট এবং বৈশিষ্ট্যগুলি খুঁজে পাওয়া সহজ করুন৷ অন্যান্য দলগুলি তখন নির্ধারণ করতে পারে যে তারা তাদের উদ্দেশ্যে উপযোগী হবে কিনা।
আপনার তথ্য নথিভুক্ত করা
ভাল ডকুমেন্টেশন অন্যদেরকে আপনার ডেটা সম্পর্কে মূল তথ্য বুঝতে সাহায্য করে, যেমন এর ধরন, উৎস, আকার এবং অন্যান্য প্রয়োজনীয় মেটাডেটা। বেশিরভাগ ক্ষেত্রে, একটি ডিজাইন ডক বা g3doc-এ আপনার ডেটা নথিভুক্ত করা যথেষ্ট। আপনি যদি আপনার ডেটা ভাগ করে নেওয়া বা প্রকাশ করার পরিকল্পনা করেন, তথ্য গঠন করতে ডেটা কার্ড ব্যবহার করুন। ডেটা কার্ডগুলি অন্যদের জন্য আপনার ডেটাসেটগুলি আবিষ্কার এবং বোঝা সহজ করে তোলে৷
প্রশিক্ষণ এবং বৈধতা পাইপলাইন
প্রশিক্ষণ এবং বৈধতা পাইপলাইনগুলি বাসি হওয়ার আগে উত্পাদন মডেলগুলি প্রতিস্থাপন করতে নতুন মডেল তৈরি করে। ক্রমাগত প্রশিক্ষণ এবং নতুন মডেলের বৈধতা নিশ্চিত করে যে সর্বোত্তম মডেলটি সর্বদা উৎপাদনে থাকে।
প্রশিক্ষণ পাইপলাইন প্রশিক্ষণ ডেটাসেটগুলি থেকে একটি নতুন মডেল তৈরি করে, এবং যাচাইকরণ পাইপলাইন পরীক্ষা ডেটাসেট ব্যবহার করে উৎপাদনে থাকা মডেলের সাথে নতুন মডেলের গুণমানের তুলনা করে।
চিত্র 9 একটি নতুন মডেল প্রশিক্ষণের জন্য একটি প্রশিক্ষণ ডেটাসেট ব্যবহার করে প্রশিক্ষণ পাইপলাইনকে চিত্রিত করে।
প্রশিক্ষণ পাইপলাইন
চিত্র 9 । প্রশিক্ষণ পাইপলাইন সাম্প্রতিকতম প্রশিক্ষণ ডেটাসেট ব্যবহার করে নতুন মডেলগুলিকে প্রশিক্ষণ দেয়।
মডেলটি প্রশিক্ষিত হওয়ার পরে, বৈধতা পাইপলাইন প্রশিক্ষিত মডেলের সাথে উত্পাদন মডেলের গুণমানের তুলনা করার জন্য পরীক্ষার ডেটাসেট ব্যবহার করে।
সাধারণভাবে, প্রশিক্ষিত মডেলটি উৎপাদন মডেলের চেয়ে অর্থপূর্ণভাবে খারাপ না হলে, প্রশিক্ষিত মডেলটি উৎপাদনে যায়। প্রশিক্ষিত মডেল খারাপ হলে, পর্যবেক্ষণ পরিকাঠামো একটি সতর্কতা তৈরি করা উচিত. খারাপ ভবিষ্যদ্বাণী গুণমান সহ প্রশিক্ষিত মডেলগুলি ডেটা বা বৈধতা পাইপলাইনগুলির সাথে সম্ভাব্য সমস্যাগুলি নির্দেশ করতে পারে। এই পদ্ধতিটি সর্বোত্তম মডেলটি নিশ্চিত করার জন্য কাজ করে, যা সর্বদা নতুন তথ্যের উপর প্রশিক্ষিত হয়।
সম্পদ এবং মেটাডেটা স্টোরেজ
মডেল এবং তাদের মেটাডেটা মডেল স্থাপনাগুলি সংগঠিত এবং ট্র্যাক করতে সংস্করণযুক্ত সংগ্রহস্থলে সংরক্ষণ করা উচিত। মডেল সংগ্রহস্থল নিম্নলিখিত সুবিধা প্রদান করে:
ট্র্যাকিং এবং মূল্যায়ন । উৎপাদনে মডেল ট্র্যাক করুন এবং তাদের মূল্যায়ন এবং ভবিষ্যদ্বাণী মানের মেট্রিক্স বোঝুন।
মডেল রিলিজ প্রক্রিয়া । সহজেই পর্যালোচনা করুন, অনুমোদন করুন, প্রকাশ করুন বা মডেলগুলি ফিরিয়ে দিন।
প্রজননযোগ্যতা এবং ডিবাগিং । মডেল ফলাফলগুলি পুনরুত্পাদন করুন এবং একটি মডেলের ডেটাসেট এবং ডিপ্লয়মেন্ট জুড়ে নির্ভরতা ট্রেস করে আরও কার্যকরভাবে সমস্যাগুলি ডিবাগ করুন৷
আবিষ্কারযোগ্যতা । অন্যদের জন্য আপনার মডেল খুঁজে পেতে এটা সহজ করুন. অন্যান্য দলগুলি তখন নির্ধারণ করতে পারে যে আপনার মডেল (বা এর কিছু অংশ) তাদের উদ্দেশ্যে ব্যবহার করা যেতে পারে কিনা।
চিত্র 10 একটি মডেল সংগ্রহস্থলে সংরক্ষিত একটি বৈধ মডেলকে চিত্রিত করে।
মডেল স্টোরেজ
চিত্র 10 । বৈধ মডেল ট্র্যাকিং এবং আবিষ্কারযোগ্যতার জন্য একটি মডেল সংগ্রহস্থলে সংরক্ষণ করা হয়।
আপনার মডেলের উদ্দেশ্য, আর্কিটেকচার, হার্ডওয়্যার প্রয়োজনীয়তা, মূল্যায়ন মেট্রিক্স ইত্যাদির মতো মূল তথ্য নথিভুক্ত করতে এবং শেয়ার করতে মডেল কার্ড ব্যবহার করুন।
পাইপলাইন নির্মাণের চ্যালেঞ্জ
পাইপলাইন তৈরি করার সময়, আপনি নিম্নলিখিত চ্যালেঞ্জগুলির সম্মুখীন হতে পারেন:
আপনার প্রয়োজনীয় ডেটা অ্যাক্সেস পাচ্ছেন । আপনার কেন এটি প্রয়োজন তা সমর্থন করার জন্য ডেটা অ্যাক্সেসের প্রয়োজন হতে পারে। উদাহরণস্বরূপ, আপনাকে ব্যাখ্যা করতে হতে পারে যে ডেটা কীভাবে ব্যবহার করা হবে এবং কীভাবে PII সমস্যাগুলি সমাধান করা হবে তা ব্যাখ্যা করতে হবে। আপনার মডেল নির্দিষ্ট ধরণের ডেটা অ্যাক্সেসের সাথে কীভাবে আরও ভাল ভবিষ্যদ্বাণী করে তা প্রদর্শন করে একটি প্রমাণ-অফ-ধারণা প্রদর্শন করতে প্রস্তুত থাকুন৷
সঠিক বৈশিষ্ট্য পাওয়া . কিছু ক্ষেত্রে, পরীক্ষামূলক পর্যায়ে ব্যবহৃত বৈশিষ্ট্যগুলি রিয়েল-টাইম ডেটা থেকে উপলব্ধ হবে না। অতএব, পরীক্ষা করার সময়, আপনি উত্পাদনে একই বৈশিষ্ট্যগুলি পেতে সক্ষম হবেন তা নিশ্চিত করার চেষ্টা করুন।
কীভাবে ডেটা সংগ্রহ করা হয় এবং উপস্থাপন করা হয় তা বোঝা । ডেটা কীভাবে সংগ্রহ করা হয়েছিল, কে এটি সংগ্রহ করেছিল এবং কীভাবে এটি সংগ্রহ করা হয়েছিল (অন্যান্য সমস্যাগুলির সাথে) তা শিখতে সময় এবং প্রচেষ্টা নিতে পারে। তথ্যটি পুঙ্খানুপুঙ্খভাবে বোঝা গুরুত্বপূর্ণ। উত্পাদনে যেতে পারে এমন একটি মডেলকে প্রশিক্ষণ দেওয়ার জন্য আপনি যে ডেটাতে আত্মবিশ্বাসী নন এমন ডেটা ব্যবহার করবেন না।
প্রচেষ্টা, খরচ এবং মডেলের মানের মধ্যে ট্রেডঅফ বোঝা । একটি ডেটা পাইপলাইনে একটি নতুন বৈশিষ্ট্য অন্তর্ভুক্ত করার জন্য অনেক প্রচেষ্টার প্রয়োজন হতে পারে। যাইহোক, অতিরিক্ত বৈশিষ্ট্যটি শুধুমাত্র মডেলের গুণমানকে কিছুটা উন্নত করতে পারে। অন্য ক্ষেত্রে, একটি নতুন বৈশিষ্ট্য যোগ করা সহজ হতে পারে। যাইহোক, বৈশিষ্ট্যটি পেতে এবং সংরক্ষণ করার সংস্থানগুলি নিষেধজনকভাবে ব্যয়বহুল হতে পারে।
গণনা করা হচ্ছে । পুনঃপ্রশিক্ষণের জন্য আপনার যদি TPU-এর প্রয়োজন হয়, তাহলে প্রয়োজনীয় কোটা পাওয়া কঠিন হতে পারে। এছাড়াও, টিপিইউ পরিচালনা করা জটিল। উদাহরণস্বরূপ, আপনার মডেল বা ডেটার কিছু অংশ বিশেষভাবে TPU-এর জন্য একাধিক TPU চিপগুলিতে বিভক্ত করে ডিজাইন করার প্রয়োজন হতে পারে।
সঠিক গোল্ডেন ডেটাসেট খোঁজা হচ্ছে । যদি ডেটা ঘন ঘন পরিবর্তিত হয়, সামঞ্জস্যপূর্ণ এবং সঠিক লেবেল সহ সোনালী ডেটাসেটগুলি পাওয়া চ্যালেঞ্জিং হতে পারে।
পরীক্ষার সময় এই ধরনের সমস্যা ধরা সময় বাঁচায়. উদাহরণস্বরূপ, আপনি সেরা বৈশিষ্ট্য এবং মডেলগুলি বিকাশ করতে চান না শুধুমাত্র শিখতে যে তারা উত্পাদনে কার্যকর নয়৷ অতএব, যত তাড়াতাড়ি সম্ভব নিশ্চিত করার চেষ্টা করুন যে আপনার সমাধানটি উত্পাদন পরিবেশের সীমাবদ্ধতার মধ্যে কাজ করবে। পরীক্ষা-নিরীক্ষার পর্যায়ে ফিরে আসার চেয়ে সমাধান কাজ করে তা যাচাই করার জন্য সময় ব্যয় করা ভাল কারণ পাইপলাইন ফেজ অনতিক্রম্য সমস্যাগুলি উন্মোচিত করে।