উত্পাদন এমএল সিস্টেম: কখন ডেটা রূপান্তর করতে হবে?
সেভ করা পৃষ্ঠা গুছিয়ে রাখতে 'সংগ্রহ' ব্যবহার করুন
আপনার পছন্দ অনুযায়ী কন্টেন্ট সেভ করুন ও সঠিক বিভাগে রাখুন।
কাঁচা ডেটা ফিচার ইঞ্জিনিয়ারড (রূপান্তরিত) হতে হবে। কখন আপনার ডেটা রূপান্তর করা উচিত? বিস্তৃতভাবে বলতে গেলে, আপনি নিম্নলিখিত দুটি সময়ের মধ্যে যে কোনো একটিতে ফিচার ইঞ্জিনিয়ারিং করতে পারেন:
- মডেল প্রশিক্ষণ আগে .
- মডেল প্রশিক্ষণের সময় ।
এই পদ্ধতিতে, আপনি দুটি পদক্ষেপ অনুসরণ করুন:
- কোড লিখুন বা বিশেষ সরঞ্জাম ব্যবহার করুনকাঁচা তথ্য রূপান্তর করতে.
- রূপান্তরিত ডেটা এমন জায়গায় সংরক্ষণ করুন যা মডেলটি গ্রহণ করতে পারে, যেমন ডিস্কে।
সুবিধা
- সিস্টেম শুধুমাত্র একবার কাঁচা তথ্য রূপান্তরিত.
- সর্বোত্তম রূপান্তর কৌশল নির্ধারণ করতে সিস্টেম সমগ্র ডেটাসেট বিশ্লেষণ করতে পারে।
অসুবিধা
যখন আপনার সিস্টেম গতিশীল (অনলাইন) অনুমান সম্পাদন করে তখন ট্রেনিং-সার্ভিং স্কু আরও বিপজ্জনক। গতিশীল অনুমান ব্যবহার করে এমন একটি সিস্টেমে, যে সফ্টওয়্যারটি কাঁচা ডেটাসেটকে রূপান্তরিত করে তা সাধারণত ভবিষ্যদ্বাণী পরিবেশনকারী সফ্টওয়্যার থেকে আলাদা হয়, যা প্রশিক্ষণ-সার্ভিং তির্যক হতে পারে। বিপরীতে, স্ট্যাটিক (অফলাইন) অনুমান ব্যবহার করে এমন সিস্টেমগুলি কখনও কখনও একই সফ্টওয়্যার ব্যবহার করতে পারে।
এই পদ্ধতিতে, রূপান্তরটি মডেল কোডের অংশ। মডেলটি কাঁচা ডেটা গ্রহণ করে এবং এটি রূপান্তরিত করে।
সুবিধা
- আপনি যদি রূপান্তর পরিবর্তন করেন তবে আপনি এখনও একই কাঁচা ডেটা ফাইল ব্যবহার করতে পারেন।
- আপনি প্রশিক্ষণ এবং ভবিষ্যদ্বাণীর সময়ে একই রূপান্তর নিশ্চিত করেছেন।
অসুবিধা
- জটিল রূপান্তর মডেল লেটেন্সি বাড়াতে পারে।
- প্রতিটি ব্যাচের জন্য রূপান্তর ঘটে।
প্রতি ব্যাচের ডেটা রূপান্তর করা কঠিন হতে পারে। উদাহরণস্বরূপ, ধরুন আপনি কাঁচা সংখ্যাসূচক ডেটা রূপান্তর করতে Z-স্কোর স্বাভাবিককরণ ব্যবহার করতে চান। Z-স্কোর স্বাভাবিককরণের জন্য বৈশিষ্ট্যটির গড় এবং মানক বিচ্যুতি প্রয়োজন। যাইহোক, প্রতি ব্যাচের রূপান্তর মানে আপনার কাছে শুধুমাত্র এক ব্যাচের ডেটাতে অ্যাক্সেস থাকবে, সম্পূর্ণ ডেটাসেটে নয়। সুতরাং, যদি ব্যাচগুলি উচ্চ বৈকল্পিক হয়, তাহলে বলুন, একটি ব্যাচে -2.5-এর একটি Z-স্কোর অন্য ব্যাচের -2.5-এর মতো একই অর্থ থাকবে না। একটি সমাধান হিসাবে, আপনার সিস্টেম সমগ্র ডেটাসেট জুড়ে গড় এবং মানক বিচ্যুতি প্রাক গণনা করতে পারে এবং তারপরে মডেলে ধ্রুবক হিসাবে ব্যবহার করতে পারে।
অন্য কিছু উল্লেখ না করা থাকলে, এই পৃষ্ঠার কন্টেন্ট Creative Commons Attribution 4.0 License-এর অধীনে এবং কোডের নমুনাগুলি Apache 2.0 License-এর অধীনে লাইসেন্স প্রাপ্ত। আরও জানতে, Google Developers সাইট নীতি দেখুন। Java হল Oracle এবং/অথবা তার অ্যাফিলিয়েট সংস্থার রেজিস্টার্ড ট্রেডমার্ক।
2025-07-29 UTC-তে শেষবার আপডেট করা হয়েছে।
[null,null,["2025-07-29 UTC-তে শেষবার আপডেট করা হয়েছে।"],[[["\u003cp\u003eFeature engineering can be performed before or during model training, each with its own advantages and disadvantages.\u003c/p\u003e\n"],["\u003cp\u003eTransforming data before training allows for a one-time transformation of the entire dataset but requires careful recreation of transformations during prediction to avoid training-serving skew.\u003c/p\u003e\n"],["\u003cp\u003eTransforming data during training ensures consistency between training and prediction but can increase model latency and complicate batch processing.\u003c/p\u003e\n"],["\u003cp\u003eWhen transforming data during training, considerations such as Z-score normalization across batches with varying distributions need to be addressed.\u003c/p\u003e\n"]]],[],null,["# Production ML systems: When to transform data?\n\nRaw data must be feature engineered (transformed). When should you transform\ndata? Broadly speaking, you can perform feature engineering during either of\nthe following two periods:\n\n- *Before* training the model.\n- *While* training the model.\n\nTransforming data before training\n---------------------------------\n\nIn this approach, you follow two steps:\n\n1. Write code or use specialized tools to transform the raw data.\n2. Store the transformed data somewhere that the model can ingest, such as on disk.\n\nAdvantages\n\n- The system transforms raw data only once.\n- The system can analyze the entire dataset to determine the best transformation strategy.\n\nDisadvantages\n\n- You must recreate the transformations at prediction time. Beware of [**training-serving skew**](/machine-learning/glossary#training-serving-skew)!\n\nTraining-serving skew is more dangerous when your system performs dynamic\n(online) inference.\nOn a system that uses dynamic inference, the software that transforms\nthe raw dataset usually differs from the software that serves predictions,\nwhich can cause training-serving skew.\nIn contrast, systems that use static (offline) inference can sometimes\nuse the same software.\n\nTransforming data while training\n--------------------------------\n\nIn this approach, the transformation is part of the model code. The model\ningests raw data and transforms it.\n\nAdvantages\n\n- You can still use the same raw data files if you change the transformations.\n- You're ensured the same transformations at training and prediction time.\n\nDisadvantages\n\n- Complicated transforms can increase model latency.\n- Transformations occur for each and every batch.\n\nTransforming the data per batch can be tricky. For example, suppose you want to\nuse [**Z-score normalization**](/machine-learning/glossary#z-score-normalization)\nto transform raw numerical data. Z-score normalization requires the mean and\nstandard deviation of the feature.\nHowever, transformations per batch mean you'll only have access to\n*one batch of data*, not the full dataset. So, if the batches are highly\nvariant, a Z-score of, say, -2.5 in one batch won't have the same meaning\nas -2.5 in another batch.\nAs a workaround, your system can precompute the mean and standard deviation\nacross the entire dataset and then use them as constants in the model.\n| **Key terms:**\n|\n| - [Training-serving skew](/machine-learning/glossary#training-serving-skew)\n- [Z-score normalization](/machine-learning/glossary#z-score-normalization) \n[Help Center](https://support.google.com/machinelearningeducation)"]]