ডেটাসেট: ডেটা বৈশিষ্ট্য

একটি ডেটাসেট উদাহরণের একটি সংগ্রহ।

অনেক ডেটাসেট টেবিলে (গ্রিড) ডেটা সঞ্চয় করে, উদাহরণস্বরূপ, কমা-সেপারেটেড ভ্যালু (CSV) হিসাবে বা সরাসরি স্প্রেডশীট বা ডাটাবেস টেবিল থেকে। টেবিলগুলি হল মেশিন লার্নিং মডেলগুলির জন্য একটি স্বজ্ঞাত ইনপুট বিন্যাস৷ আপনি টেবিলের প্রতিটি সারিকে একটি উদাহরণ হিসেবে কল্পনা করতে পারেন এবং প্রতিটি কলামকে একটি সম্ভাব্য বৈশিষ্ট্য বা লেবেল হিসেবে কল্পনা করতে পারেন। যে বলে, ডেটাসেটগুলি লগ ফাইল এবং প্রোটোকল বাফার সহ অন্যান্য বিন্যাস থেকেও প্রাপ্ত হতে পারে।

বিন্যাস নির্বিশেষে, আপনার ML মডেলটি যে ডেটাতে প্রশিক্ষণ দেয় তার মতোই ভাল। এই বিভাগটি মূল ডেটা বৈশিষ্ট্যগুলি পরীক্ষা করে।

তথ্যের প্রকারভেদ

একটি ডেটাসেটে অনেক ধরণের ডেটাটাইপ থাকতে পারে, যার মধ্যে রয়েছে তবে অবশ্যই সীমাবদ্ধ নয়:

  • সংখ্যাসূচক তথ্য, যা একটি পৃথক ইউনিটে আচ্ছাদিত
  • শ্রেণীবদ্ধ তথ্য, যা একটি পৃথক ইউনিটে আচ্ছাদিত
  • মানব ভাষা, স্বতন্ত্র শব্দ এবং বাক্য সহ, সম্পূর্ণ পাঠ্য নথি পর্যন্ত
  • মাল্টিমিডিয়া (যেমন ছবি, ভিডিও এবং অডিও ফাইল)
  • অন্যান্য ML সিস্টেম থেকে আউটপুট
  • এমবেডিং ভেক্টর , যা পরবর্তী ইউনিটে আচ্ছাদিত

পূর্ববর্তী ডেটাটাইপগুলি আরও অনেক বেশি উপবিভক্ত করা যেতে পারে। এই কোর্সের পরবর্তী মডিউলগুলি—উদাহরণস্বরূপ, ক্যাটেগরিক্যাল ডেটা মডিউল—এই ডেটাটাইপগুলিকে বিশদ এবং উপশ্রেণীভুক্ত করুন।

তথ্যের পরিমাণ

একটি রুক্ষ নিয়ম হিসাবে, আপনার মডেলকে প্রশিক্ষণযোগ্য পরামিতিগুলির চেয়ে কমপক্ষে একটি ক্রম (বা দুটি) বেশি উদাহরণে প্রশিক্ষণ দেওয়া উচিত। যাইহোক, ভাল মডেলগুলি সাধারণত এর চেয়ে উল্লেখযোগ্যভাবে বেশি উদাহরণের উপর প্রশিক্ষণ দেয়।

কয়েকটি বৈশিষ্ট্য সহ বড় ডেটাসেটে প্রশিক্ষিত মডেলগুলি সাধারণত অনেকগুলি বৈশিষ্ট্য সহ ছোট ডেটাসেটে প্রশিক্ষিত মডেলগুলিকে ছাড়িয়ে যায়৷ Google ঐতিহাসিকভাবে বৃহৎ ডেটাসেটে সহজ মডেলের প্রশিক্ষণে দারুণ সাফল্য পেয়েছে।

বিভিন্ন মেশিন লার্নিং প্রোগ্রামের জন্য বিভিন্ন ডেটাসেটের জন্য একটি দরকারী মডেল তৈরি করার জন্য বিভিন্ন রকমের উদাহরণের প্রয়োজন হতে পারে। কিছু অপেক্ষাকৃত সহজ সমস্যার জন্য, কয়েক ডজন উদাহরণ যথেষ্ট হতে পারে। অন্যান্য সমস্যার জন্য, একটি ট্রিলিয়ন উদাহরণ অপর্যাপ্ত হতে পারে।

একটি ছোট ডেটাসেট থেকে ভাল ফলাফল পাওয়া সম্ভব যদি আপনি একই স্কিমা থেকে প্রচুর পরিমাণে ডেটার উপর ইতিমধ্যে প্রশিক্ষিত একটি বিদ্যমান মডেলকে অভিযোজিত করেন।

ডেটার গুণমান এবং নির্ভরযোগ্যতা

সবাই নিম্ন মানের থেকে উচ্চ মানের পছন্দ করে, কিন্তু গুণমান এমন একটি অস্পষ্ট ধারণা যে এটি বিভিন্ন উপায়ে সংজ্ঞায়িত করা যেতে পারে। এই কোর্সটি ব্যবহারিকভাবে গুণমানকে সংজ্ঞায়িত করে:

একটি উচ্চ মানের ডেটাসেট আপনার মডেলকে তার লক্ষ্য অর্জনে সহায়তা করে। একটি নিম্ন মানের ডেটাসেট আপনার মডেলকে তার লক্ষ্য অর্জনে বাধা দেয়।

একটি উচ্চ মানের ডেটাসেট সাধারণত নির্ভরযোগ্য। নির্ভরযোগ্যতা সেই ডিগ্রিকে বোঝায় যেখানে আপনি আপনার ডেটা বিশ্বাস করতে পারেন। একটি নির্ভরযোগ্য ডেটাসেটে প্রশিক্ষিত একটি মডেল অনির্ভরযোগ্য ডেটাতে প্রশিক্ষিত একটি মডেলের তুলনায় দরকারী ভবিষ্যদ্বাণী প্রদানের সম্ভাবনা বেশি।

নির্ভরযোগ্যতা পরিমাপের ক্ষেত্রে, আপনাকে অবশ্যই নির্ধারণ করতে হবে:

  • লেবেল ত্রুটি কতটা সাধারণ? উদাহরণস্বরূপ, যদি আপনার ডেটা মানুষের দ্বারা লেবেল করা হয়, তাহলে আপনার মানব রেটাররা কতবার ভুল করেছে?
  • আপনার বৈশিষ্ট্য গোলমাল ? অর্থাৎ, আপনার বৈশিষ্ট্যের মানগুলিতে কি ত্রুটি রয়েছে? বাস্তববাদী হোন—আপনি আপনার ডেটাসেটকে সমস্ত গোলমাল থেকে পরিষ্কার করতে পারবেন না। কিছু গোলমাল স্বাভাবিক; উদাহরণস্বরূপ, যেকোনো অবস্থানের জিপিএস পরিমাপ সবসময় সপ্তাহ থেকে সপ্তাহে সামান্য ওঠানামা করে।
  • আপনার সমস্যার জন্য ডেটা কি সঠিকভাবে ফিল্টার করা হয়েছে? উদাহরণস্বরূপ, আপনার ডেটাসেটে কি বট থেকে অনুসন্ধানের প্রশ্নগুলি অন্তর্ভুক্ত করা উচিত? আপনি যদি একটি স্প্যাম-সনাক্তকরণ সিস্টেম তৈরি করছেন, তাহলে সম্ভবত উত্তরটি হ্যাঁ। যাইহোক, আপনি যদি মানুষের জন্য অনুসন্ধান ফলাফল উন্নত করার চেষ্টা করছেন, তাহলে না।

ডেটাসেটে অবিশ্বস্ত ডেটার সাধারণ কারণগুলি নিম্নরূপ:

  • বাদ দেওয়া মান। উদাহরণস্বরূপ, একজন ব্যক্তি বাড়ির বয়সের জন্য একটি মান লিখতে ভুলে গেছেন।
  • নকল উদাহরণ. উদাহরণস্বরূপ, একটি সার্ভার ভুলবশত একই লগ এন্ট্রি দুবার আপলোড করেছে।
  • খারাপ বৈশিষ্ট্য মান. উদাহরণস্বরূপ, কেউ একটি অতিরিক্ত অঙ্ক টাইপ করেছে, বা একটি থার্মোমিটার রোদে ফেলে রাখা হয়েছে।
  • খারাপ লেবেল। উদাহরণস্বরূপ, একজন ব্যক্তি ভুলভাবে একটি ওক গাছের ছবিকে ম্যাপেল গাছ হিসাবে লেবেল করেছেন।
  • ডেটার খারাপ বিভাগ। উদাহরণস্বরূপ, একটি নির্দিষ্ট বৈশিষ্ট্য খুব নির্ভরযোগ্য, সেই দিনটি ছাড়া যখন নেটওয়ার্ক ক্র্যাশ হতে থাকে।

আমরা অবিশ্বস্ত ডেটা ফ্ল্যাগ করতে অটোমেশন ব্যবহার করার পরামর্শ দিই। উদাহরণস্বরূপ, একক পরীক্ষা যা একটি বহিরাগত আনুষ্ঠানিক ডেটা স্কিমাকে সংজ্ঞায়িত করে বা তার উপর নির্ভর করে সেগুলি একটি সংজ্ঞায়িত সীমার বাইরে পড়ে থাকা মানগুলিকে পতাকাঙ্কিত করতে পারে।

সম্পূর্ণ বনাম অসম্পূর্ণ উদাহরণ

একটি নিখুঁত বিশ্বে, প্রতিটি উদাহরণ সম্পূর্ণ ; অর্থাৎ, প্রতিটি উদাহরণে প্রতিটি বৈশিষ্ট্যের জন্য একটি মান রয়েছে।

চিত্র 1. এর পাঁচটি বৈশিষ্ট্যের জন্য মান ধারণকারী একটি উদাহরণ।
চিত্র 1. একটি সম্পূর্ণ উদাহরণ।

দুর্ভাগ্যবশত, বাস্তব-বিশ্বের উদাহরণ প্রায়ই অসম্পূর্ণ থাকে, যার মানে অন্তত একটি বৈশিষ্ট্যের মান অনুপস্থিত।

চিত্র 2. এর পাঁচটি বৈশিষ্ট্যের মধ্যে চারটির জন্য মান ধারণকারী একটি উদাহরণ। একটি বৈশিষ্ট্য অনুপস্থিত চিহ্নিত করা হয়েছে.
চিত্র 2. একটি অসম্পূর্ণ উদাহরণ।

অসম্পূর্ণ উদাহরণের উপর একটি মডেল প্রশিক্ষণ না. পরিবর্তে, নিম্নলিখিতগুলির মধ্যে একটি করে অসম্পূর্ণ উদাহরণগুলি ঠিক করুন বা মুছে ফেলুন:

  • অসম্পূর্ণ উদাহরণ মুছুন।
  • অনুপস্থিত মান অভিযুক্ত করা ; অর্থাৎ, অনুপস্থিত মানগুলির জন্য যথাযথ যুক্তিযুক্ত অনুমান প্রদান করে অসম্পূর্ণ উদাহরণটিকে একটি সম্পূর্ণ উদাহরণে রূপান্তর করুন।
চিত্র 3. তিনটি উদাহরণ সম্বলিত একটি ডেটাসেট, যার মধ্যে দুটি অসম্পূর্ণ উদাহরণ। কেউ ডেটাসেট থেকে এই দুটি অসম্পূর্ণ উদাহরণকে আঘাত করেছে।
চিত্র 3. ডেটাসেট থেকে অসম্পূর্ণ উদাহরণ মুছে ফেলা হচ্ছে।

চিত্র 4. তিনটি উদাহরণ সম্বলিত একটি ডেটাসেট, যার মধ্যে দুটি অনুপস্থিত ডেটা ধারণকারী অসম্পূর্ণ উদাহরণ। কিছু সত্তা (মানুষ বা ইম্প্যুটেশন সফ্টওয়্যার) অনুপস্থিত মানগুলিকে প্রতিস্থাপন করেছে।
চিত্র 4. অসম্পূর্ণ উদাহরণের জন্য অনুপস্থিত মান ইম্পুটিং।

যদি ডেটাসেটে একটি দরকারী মডেলকে প্রশিক্ষণ দেওয়ার জন্য যথেষ্ট সম্পূর্ণ উদাহরণ থাকে, তাহলে অসম্পূর্ণ উদাহরণগুলি মুছে ফেলার কথা বিবেচনা করুন। একইভাবে, যদি শুধুমাত্র একটি বৈশিষ্ট্য উল্লেখযোগ্য পরিমাণে ডেটা অনুপস্থিত থাকে এবং সেই একটি বৈশিষ্ট্য সম্ভবত মডেলটিকে খুব বেশি সাহায্য করতে পারে না, তাহলে মডেল ইনপুটগুলি থেকে সেই বৈশিষ্ট্যটি মুছে ফেলার কথা বিবেচনা করুন এবং এটি অপসারণের মাধ্যমে কতটা গুণমান নষ্ট হয়েছে তা দেখুন৷ যদি মডেলটি এটি ছাড়াই বা প্রায় একইভাবে কাজ করে তবে এটি দুর্দান্ত। বিপরীতভাবে, যদি আপনার কাছে একটি দরকারী মডেলকে প্রশিক্ষিত করার জন্য পর্যাপ্ত সম্পূর্ণ উদাহরণ না থাকে, তাহলে আপনি অনুপস্থিত মানগুলি বিবেচনা করতে পারেন।

অকেজো বা অপ্রয়োজনীয় উদাহরণ মুছে ফেলা ভাল, কিন্তু গুরুত্বপূর্ণ উদাহরণ মুছে ফেলা খারাপ। দুর্ভাগ্যবশত, অকেজো এবং দরকারী উদাহরণগুলির মধ্যে পার্থক্য করা কঠিন হতে পারে। আপনি যদি মুছে ফেলবেন বা অভিযুক্ত করবেন কিনা তা সিদ্ধান্ত নিতে না পারেন, দুটি ডেটাসেট তৈরি করার কথা বিবেচনা করুন: একটি অসম্পূর্ণ উদাহরণ মুছে ফেলার মাধ্যমে এবং অন্যটি অভিযুক্ত করে। তারপরে, কোন ডেটাসেটটি ভাল মডেলকে প্রশিক্ষণ দেয় তা নির্ধারণ করুন।


একটি সাধারণ অ্যালগরিদম হল অভিযুক্ত মান হিসাবে গড় বা মধ্যক ব্যবহার করা। ফলস্বরূপ, আপনি যখন Z-স্কোর সহ একটি সংখ্যাসূচক বৈশিষ্ট্য উপস্থাপন করেন, তখন অভিযুক্ত মানটি সাধারণত 0 হয় (কারণ 0 সাধারণত জেড-স্কোর হয়)।

অনুশীলন: আপনার বোঝার পরীক্ষা করুন

এখানে Timestamp দ্বারা সাজানো একটি ডেটাসেটের দুটি কলাম রয়েছে।

টাইমস্ট্যাম্প তাপমাত্রা
জুন 8, 2023 09:00 12
জুন 8, 2023 10:00 18
জুন 8, 2023 11:00 অনুপস্থিত
জুন 8, 2023 12:00 24
জুন 8, 2023 13:00 38

নিচের কোনটি তাপমাত্রার অনুপস্থিত মানের জন্য দায়ী করা যুক্তিসঙ্গত মান হবে?

23
সম্ভবত। 23 হল সন্নিহিত মানগুলির গড় (12, 18, 24, এবং 38)। যাইহোক, আমরা বাকি ডেটাসেট দেখছি না, তাই এটা সম্ভব যে 23 অন্যান্য দিনে 11:00 এর জন্য একটি আউটলাইয়ার হবে।
31
অসম্ভাব্য। ডেটাসেটের সীমিত অংশ যা আমরা দেখতে পাচ্ছি তা নির্দেশ করে যে 11:00 তাপমাত্রার জন্য 31 অনেক বেশি। যাইহোক, আমরা আরও বেশি সংখ্যক উদাহরণের উপর ভিত্তি না করে নিশ্চিত হতে পারি না।
51
খুব অসম্ভাব্য। 51 প্রদর্শিত মানগুলির থেকে অনেক বেশি (এবং, তাই, গড় থেকে অনেক বেশি)।