আপনার ডেটাসেট নির্মাণের ভূমিকা

আপনার ডেটাসেট নির্মাণের পদক্ষেপ

আপনার ডেটাসেট তৈরি করতে (এবং ডেটা রূপান্তর করার আগে), আপনার উচিত:

  1. কাঁচা তথ্য সংগ্রহ করুন।
  2. বৈশিষ্ট্য এবং লেবেল উত্স সনাক্ত করুন.
  3. একটি নমুনা কৌশল নির্বাচন করুন.
  4. ডেটা বিভক্ত করুন।

এই পদক্ষেপগুলি আপনি কীভাবে আপনার এমএল সমস্যা তৈরি করেছেন তার উপর অনেকটাই নির্ভর করে। সমস্যা ফ্রেমিং সম্পর্কে আপনার মেমরি রিফ্রেশ করতে এবং ডেটা সংগ্রহ সম্পর্কে আপনার অনুমানগুলি পরীক্ষা করতে নীচের স্ব-চেকটি ব্যবহার করুন৷

সমস্যা ফ্রেমিং এবং ডেটা সংগ্রহের ধারণার স্ব-পরীক্ষা

নিম্নলিখিত প্রশ্নের জন্য, আপনার উত্তর চেক করতে পছন্দসই তীরটিতে ক্লিক করুন:

আপনি একেবারে নতুন মেশিন লার্নিং প্রকল্পে আছেন, আপনার প্রথম বৈশিষ্ট্যগুলি নির্বাচন করতে চলেছেন৷ আপনি কত বৈশিষ্ট্য বাছাই করা উচিত?
শক্তিশালী ভবিষ্যদ্বাণী করার ক্ষমতা আছে বলে মনে হয় এমন 1-3টি বৈশিষ্ট্য বেছে নিন।
শুধুমাত্র একটি বা দুটি বৈশিষ্ট্য দিয়ে শুরু করা আপনার ডেটা সংগ্রহের পাইপলাইনের জন্য সেরা। এটি আপনাকে নিশ্চিত করতে সাহায্য করবে যে এমএল মডেলটি উদ্দেশ্য অনুযায়ী কাজ করে। এছাড়াও, আপনি যখন কয়েকটি বৈশিষ্ট্য থেকে একটি বেসলাইন তৈরি করেন, তখন আপনার মনে হবে আপনি উন্নতি করছেন!
শক্তিশালী ভবিষ্যদ্বাণী করার ক্ষমতা আছে বলে মনে হয় এমন 4-6টি বৈশিষ্ট্য বেছে নিন।
আপনি শেষ পর্যন্ত এই অনেকগুলি বৈশিষ্ট্য ব্যবহার করতে পারেন, তবে আরও কম দিয়ে শুরু করা আরও ভাল। কম বৈশিষ্ট্য সাধারণত কম অপ্রয়োজনীয় জটিলতা বোঝায়।
আপনি যতটা সম্ভব বৈশিষ্ট্যগুলি বেছে নিন, যাতে আপনি কোন বৈশিষ্ট্যগুলির সবচেয়ে শক্তিশালী ভবিষ্যদ্বাণী করার ক্ষমতা রয়েছে তা পর্যবেক্ষণ করা শুরু করতে পারেন৷
ছোট করে শুরু করুন। প্রতিটি নতুন বৈশিষ্ট্য আপনার প্রশিক্ষণ ডেটা সেটে একটি নতুন মাত্রা যোগ করে। যখন মাত্রিকতা বৃদ্ধি পায়, তখন স্থানের আয়তন এত দ্রুত বৃদ্ধি পায় যে উপলব্ধ প্রশিক্ষণের ডেটা বিরল হয়ে যায়। আপনার ডেটা যত স্পার হবে, একটি মডেলের জন্য প্রকৃতপক্ষে গুরুত্বপূর্ণ বৈশিষ্ট্য এবং লেবেলের মধ্যে সম্পর্ক শিখতে তত কঠিন। এই ঘটনাটিকে "মাত্রিকতার অভিশাপ" বলা হয়।
আপনার বন্ধু স্যাম তার পরিসংখ্যানগত বিশ্লেষণের প্রাথমিক ফলাফল সম্পর্কে উত্তেজিত। তিনি বলেছেন যে ডেটা অ্যাপ ডাউনলোডের সংখ্যা এবং অ্যাপ পর্যালোচনা ইম্প্রেশনের সংখ্যার মধ্যে একটি ইতিবাচক সম্পর্ক দেখায়। কিন্তু তিনি নিশ্চিত নন যে তারা পর্যালোচনাটি না দেখে এটি ডাউনলোড করতেন কিনা। কি প্রতিক্রিয়া স্যাম সবচেয়ে সহায়ক হবে?
যে ব্যবহারকারীরা পর্যালোচনাটি দেখেননি তাদের আচরণের তুলনা করতে আপনি একটি পরীক্ষা চালাতে পারেন যারা একই ব্যবহারকারীদের সাথে পর্যালোচনাটি দেখেননি।
সঠিক! স্যাম যদি দেখেন যে যে ব্যবহারকারীরা ইতিবাচক পর্যালোচনা দেখেছেন তাদের অ্যাপটি ডাউনলোড করার সম্ভাবনা বেশি ছিল যারা করেননি, তাহলে তার কাছে যুক্তিসঙ্গত প্রমাণ রয়েছে যে ইতিবাচক পর্যালোচনাটি লোকেদের অ্যাপটি পেতে উত্সাহিত করছে।
ডেটা বিশ্বাস করুন। এটা স্পষ্ট যে দুর্দান্ত পর্যালোচনার কারণেই ব্যবহারকারীরা অ্যাপটি ডাউনলোড করছেন।
ত্রুটিপূর্ণ. এই প্রতিক্রিয়া স্যামকে সঠিক পথে নিয়ে যাবে না। আপনি শুধুমাত্র পর্যবেক্ষণ তথ্য থেকে কারণ নির্ধারণ করতে পারবেন না. স্যাম একটি পারস্পরিক সম্পর্ক (অর্থাৎ, সংখ্যার মধ্যে একটি পরিসংখ্যান নির্ভরতা) দেখছেন যা কার্যকারণ নির্দেশ করতে পারে বা নাও করতে পারে। আপনার বিশ্লেষণগুলিকে ভুয়া পারস্পরিক সম্পর্কের তালিকায় যোগ দিতে দেবেন না।