একটি ডেটাসেট উদাহরণের একটি সংগ্রহ।
অনেক ডেটাসেট টেবিলে (গ্রিড) ডেটা সঞ্চয় করে, উদাহরণস্বরূপ, কমা-সেপারেটেড ভ্যালু (CSV) হিসাবে বা সরাসরি স্প্রেডশীট বা ডাটাবেস টেবিল থেকে। টেবিলগুলি হল মেশিন লার্নিং মডেলগুলির জন্য একটি স্বজ্ঞাত ইনপুট বিন্যাস৷ আপনি টেবিলের প্রতিটি সারিকে একটি উদাহরণ হিসেবে কল্পনা করতে পারেন এবং প্রতিটি কলামকে একটি সম্ভাব্য বৈশিষ্ট্য বা লেবেল হিসেবে কল্পনা করতে পারেন। যে বলে, ডেটাসেটগুলি লগ ফাইল এবং প্রোটোকল বাফার সহ অন্যান্য বিন্যাস থেকেও প্রাপ্ত হতে পারে।
বিন্যাস নির্বিশেষে, আপনার ML মডেলটি যে ডেটাতে প্রশিক্ষণ দেয় তার মতোই ভাল। এই বিভাগটি মূল ডেটা বৈশিষ্ট্যগুলি পরীক্ষা করে।
তথ্যের প্রকারভেদ
একটি ডেটাসেটে অনেক ধরণের ডেটাটাইপ থাকতে পারে, যার মধ্যে রয়েছে তবে অবশ্যই সীমাবদ্ধ নয়:
- সংখ্যাসূচক তথ্য, যা একটি পৃথক ইউনিটে আচ্ছাদিত
- শ্রেণীবদ্ধ তথ্য, যা একটি পৃথক ইউনিটে আচ্ছাদিত
- মানব ভাষা, স্বতন্ত্র শব্দ এবং বাক্য সহ, সম্পূর্ণ পাঠ্য নথি পর্যন্ত
- মাল্টিমিডিয়া (যেমন ছবি, ভিডিও এবং অডিও ফাইল)
- অন্যান্য ML সিস্টেম থেকে আউটপুট
- এমবেডিং ভেক্টর , যা পরবর্তী ইউনিটে আচ্ছাদিত
তথ্যের পরিমাণ
একটি রুক্ষ নিয়ম হিসাবে, আপনার মডেলকে প্রশিক্ষণযোগ্য পরামিতিগুলির চেয়ে কমপক্ষে একটি ক্রম (বা দুটি) বেশি উদাহরণে প্রশিক্ষণ দেওয়া উচিত। যাইহোক, ভাল মডেলগুলি সাধারণত এর চেয়ে উল্লেখযোগ্যভাবে বেশি উদাহরণের উপর প্রশিক্ষণ দেয়।
কয়েকটি বৈশিষ্ট্য সহ বড় ডেটাসেটে প্রশিক্ষিত মডেলগুলি সাধারণত অনেকগুলি বৈশিষ্ট্য সহ ছোট ডেটাসেটে প্রশিক্ষিত মডেলগুলিকে ছাড়িয়ে যায়৷ Google ঐতিহাসিকভাবে বৃহৎ ডেটাসেটে সহজ মডেলের প্রশিক্ষণে দারুণ সাফল্য পেয়েছে।
বিভিন্ন মেশিন লার্নিং প্রোগ্রামের জন্য বিভিন্ন ডেটাসেটের জন্য একটি দরকারী মডেল তৈরি করার জন্য বিভিন্ন রকমের উদাহরণের প্রয়োজন হতে পারে। কিছু অপেক্ষাকৃত সহজ সমস্যার জন্য, কয়েক ডজন উদাহরণ যথেষ্ট হতে পারে। অন্যান্য সমস্যার জন্য, একটি ট্রিলিয়ন উদাহরণ অপর্যাপ্ত হতে পারে।
একটি ছোট ডেটাসেট থেকে ভাল ফলাফল পাওয়া সম্ভব যদি আপনি একই স্কিমা থেকে প্রচুর পরিমাণে ডেটার উপর ইতিমধ্যে প্রশিক্ষিত একটি বিদ্যমান মডেলকে অভিযোজিত করেন।
ডেটার গুণমান এবং নির্ভরযোগ্যতা
সবাই নিম্ন মানের থেকে উচ্চ মানের পছন্দ করে, কিন্তু গুণমান এমন একটি অস্পষ্ট ধারণা যে এটি বিভিন্ন উপায়ে সংজ্ঞায়িত করা যেতে পারে। এই কোর্সটি ব্যবহারিকভাবে গুণমানকে সংজ্ঞায়িত করে:
একটি উচ্চ-মানের ডেটাসেট আপনার মডেলকে তার লক্ষ্য অর্জনে সহায়তা করে। একটি নিম্ন মানের ডেটাসেট আপনার মডেলকে তার লক্ষ্য অর্জনে বাধা দেয়।
একটি উচ্চ-মানের ডেটাসেট সাধারণত নির্ভরযোগ্য। নির্ভরযোগ্যতা সেই ডিগ্রিকে বোঝায় যেখানে আপনি আপনার ডেটা বিশ্বাস করতে পারেন। একটি নির্ভরযোগ্য ডেটাসেটে প্রশিক্ষিত একটি মডেল অনির্ভরযোগ্য ডেটাতে প্রশিক্ষিত একটি মডেলের তুলনায় দরকারী ভবিষ্যদ্বাণী প্রদানের সম্ভাবনা বেশি।
নির্ভরযোগ্যতা পরিমাপের ক্ষেত্রে, আপনাকে অবশ্যই নির্ধারণ করতে হবে:
- লেবেল ত্রুটি কতটা সাধারণ? উদাহরণস্বরূপ, যদি আপনার ডেটা মানুষের দ্বারা লেবেল করা হয়, তাহলে আপনার মানব রেটাররা কতবার ভুল করেছে?
- আপনার বৈশিষ্ট্য গোলমাল ? অর্থাৎ, আপনার বৈশিষ্ট্যের মানগুলিতে কি ত্রুটি রয়েছে? বাস্তববাদী হোন—আপনি আপনার ডেটাসেটকে সমস্ত গোলমাল থেকে পরিষ্কার করতে পারবেন না। কিছু গোলমাল স্বাভাবিক; উদাহরণস্বরূপ, যেকোনো অবস্থানের জিপিএস পরিমাপ সবসময় সপ্তাহ থেকে সপ্তাহে সামান্য ওঠানামা করে।
- আপনার সমস্যার জন্য ডেটা কি সঠিকভাবে ফিল্টার করা হয়েছে? উদাহরণস্বরূপ, আপনার ডেটাসেটে কি বট থেকে অনুসন্ধানের প্রশ্নগুলি অন্তর্ভুক্ত করা উচিত? আপনি যদি একটি স্প্যাম-সনাক্তকরণ সিস্টেম তৈরি করছেন, তাহলে সম্ভবত উত্তরটি হ্যাঁ। যাইহোক, আপনি যদি মানুষের জন্য অনুসন্ধান ফলাফল উন্নত করার চেষ্টা করছেন, তাহলে না।
ডেটাসেটে অবিশ্বস্ত ডেটার সাধারণ কারণগুলি নিম্নরূপ:
- বাদ দেওয়া মান। উদাহরণস্বরূপ, একজন ব্যক্তি বাড়ির বয়সের জন্য একটি মান লিখতে ভুলে গেছেন।
- নকল উদাহরণ. উদাহরণস্বরূপ, একটি সার্ভার ভুলবশত একই লগ এন্ট্রি দুবার আপলোড করেছে।
- খারাপ বৈশিষ্ট্য মান. উদাহরণস্বরূপ, কেউ একটি অতিরিক্ত অঙ্ক টাইপ করেছে, বা একটি থার্মোমিটার রোদে ফেলে রাখা হয়েছে।
- খারাপ লেবেল। উদাহরণস্বরূপ, একজন ব্যক্তি ভুলভাবে একটি ওক গাছের ছবিকে ম্যাপেল গাছ হিসাবে লেবেল করেছেন।
- ডেটার খারাপ বিভাগ। উদাহরণস্বরূপ, একটি নির্দিষ্ট বৈশিষ্ট্য খুব নির্ভরযোগ্য, সেই দিনটি ছাড়া যখন নেটওয়ার্ক ক্র্যাশ হতে থাকে।
আমরা অবিশ্বস্ত ডেটা ফ্ল্যাগ করতে অটোমেশন ব্যবহার করার পরামর্শ দিই। উদাহরণস্বরূপ, একক পরীক্ষা যা একটি বহিরাগত আনুষ্ঠানিক ডেটা স্কিমাকে সংজ্ঞায়িত করে বা তার উপর নির্ভর করে সেগুলি একটি সংজ্ঞায়িত সীমার বাইরে পড়ে থাকা মানগুলিকে পতাকাঙ্কিত করতে পারে।
সম্পূর্ণ বনাম অসম্পূর্ণ উদাহরণ
একটি নিখুঁত বিশ্বে, প্রতিটি উদাহরণ সম্পূর্ণ ; অর্থাৎ, প্রতিটি উদাহরণে প্রতিটি বৈশিষ্ট্যের জন্য একটি মান রয়েছে।
দুর্ভাগ্যবশত, বাস্তব-বিশ্বের উদাহরণ প্রায়ই অসম্পূর্ণ থাকে, যার মানে অন্তত একটি বৈশিষ্ট্যের মান অনুপস্থিত।
অসম্পূর্ণ উদাহরণের উপর একটি মডেল প্রশিক্ষণ না. পরিবর্তে, নিম্নলিখিতগুলির মধ্যে একটি করে অসম্পূর্ণ উদাহরণগুলি ঠিক করুন বা মুছে ফেলুন:
- অসম্পূর্ণ উদাহরণ মুছুন।
- অনুপস্থিত মান অভিযুক্ত করা ; অর্থাৎ, অনুপস্থিত মানগুলির জন্য যথাযথ যুক্তিযুক্ত অনুমান প্রদান করে অসম্পূর্ণ উদাহরণটিকে একটি সম্পূর্ণ উদাহরণে রূপান্তর করুন।
যদি ডেটাসেটে একটি দরকারী মডেলকে প্রশিক্ষণ দেওয়ার জন্য যথেষ্ট সম্পূর্ণ উদাহরণ থাকে, তাহলে অসম্পূর্ণ উদাহরণগুলি মুছে ফেলার কথা বিবেচনা করুন। একইভাবে, যদি শুধুমাত্র একটি বৈশিষ্ট্য উল্লেখযোগ্য পরিমাণে ডেটা অনুপস্থিত থাকে এবং সেই একটি বৈশিষ্ট্য সম্ভবত মডেলটিকে খুব বেশি সাহায্য করতে পারে না, তাহলে মডেল ইনপুটগুলি থেকে সেই বৈশিষ্ট্যটি মুছে ফেলার কথা বিবেচনা করুন এবং এটি অপসারণের মাধ্যমে কতটা গুণমান নষ্ট হয়েছে তা দেখুন৷ যদি মডেলটি এটি ছাড়াই বা প্রায় একইভাবে কাজ করে তবে এটি দুর্দান্ত। বিপরীতভাবে, যদি আপনার কাছে একটি দরকারী মডেলকে প্রশিক্ষিত করার জন্য পর্যাপ্ত সম্পূর্ণ উদাহরণ না থাকে, তাহলে আপনি অনুপস্থিত মানগুলি বিবেচনা করতে পারেন।
অকেজো বা অপ্রয়োজনীয় উদাহরণ মুছে ফেলা ভাল, কিন্তু গুরুত্বপূর্ণ উদাহরণ মুছে ফেলা খারাপ। দুর্ভাগ্যবশত, অকেজো এবং দরকারী উদাহরণগুলির মধ্যে পার্থক্য করা কঠিন হতে পারে। আপনি যদি মুছে ফেলবেন বা অভিযুক্ত করবেন কিনা তা সিদ্ধান্ত নিতে না পারেন, দুটি ডেটাসেট তৈরি করার কথা বিবেচনা করুন: একটি অসম্পূর্ণ উদাহরণ মুছে ফেলার মাধ্যমে এবং অন্যটি অভিযুক্ত করে। তারপরে, কোন ডেটাসেটটি ভাল মডেলকে প্রশিক্ষণ দেয় তা নির্ধারণ করুন।
একটি সাধারণ অ্যালগরিদম হল অভিযুক্ত মান হিসাবে গড় বা মধ্যক ব্যবহার করা। ফলস্বরূপ, আপনি যখন Z-স্কোর সহ একটি সংখ্যাসূচক বৈশিষ্ট্য উপস্থাপন করেন, তখন অভিযুক্ত মানটি সাধারণত 0 হয় (কারণ 0 সাধারণত জেড-স্কোর হয়)।
অনুশীলন: আপনার বোঝার পরীক্ষা করুন
এখানে Timestamp
দ্বারা সাজানো একটি ডেটাসেটের দুটি কলাম রয়েছে।
টাইমস্ট্যাম্প | তাপমাত্রা |
---|---|
জুন 8, 2023 09:00 | 12 |
জুন 8, 2023 10:00 | 18 |
জুন 8, 2023 11:00 | অনুপস্থিত |
জুন 8, 2023 12:00 | 24 |
জুন 8, 2023 13:00 | 38 |
নিচের কোনটি তাপমাত্রার অনুপস্থিত মানের জন্য দায়ী করা যুক্তিসঙ্গত মান হবে?