এমএল-এ ডেটা প্রিপারেশন এবং ফিচার ইঞ্জিনিয়ারিং

মেশিন লার্নিং আমাদের ডেটাতে প্যাটার্ন খুঁজে পেতে সাহায্য করে—প্যাটার্ন যা আমরা নতুন ডেটা পয়েন্ট সম্পর্কে ভবিষ্যদ্বাণী করতে ব্যবহার করি। এই ভবিষ্যদ্বাণীগুলি সঠিকভাবে পেতে, আমাদের অবশ্যই ডেটা সেট তৈরি করতে হবে এবং ডেটাকে সঠিকভাবে রূপান্তর করতে হবে । এই কোর্সটি এই দুটি মূল ধাপ কভার করে। আমরা আরও দেখব কিভাবে প্রশিক্ষণ/পরিষেবা বিবেচনাগুলি এই ধাপগুলিতে কাজ করে৷

একটি মেশিন লার্নিং প্রকল্প পাঁচটি পর্যায়ে সংগঠিত। 1. একটি ML সমস্যা সংজ্ঞায়িত করুন এবং একটি সমাধান প্রস্তাব করুন। 2. আপনার ডেটা সেট তৈরি করুন। 3. ডেটা ট্রান্সফর্ম করুন। 4. একটি মডেল প্রশিক্ষণ. 5. ভবিষ্যদ্বাণী করতে মডেল ব্যবহার করুন. এই কোর্সটি একটি ডেটা সেট তৈরি এবং ডেটা রূপান্তর কভার করে।

পূর্বশর্ত

এই কোর্সটি অনুমান করে আপনার আছে:

কেন ডেটা প্রিপারেশন এবং ফিচার ইঞ্জিনিয়ারিং সম্পর্কে জানবেন?

আপনি ফিচার ইঞ্জিনিয়ারিংকে মডেলটিকে ডেটা সেট বুঝতে সাহায্য করার মতো ভাবতে পারেন। শিক্ষার্থীরা প্রায়শই মডেল বিল্ডিংয়ের উপর দৃষ্টি নিবদ্ধ একটি মেশিন লার্নিং কোর্সে আসে, তবে ডেটার উপর ফোকাস করার জন্য অনেক বেশি সময় ব্যয় করে।

নিম্নলিখিত প্রশ্নের জন্য, আপনার উত্তর চেক করতে পছন্দসই তীরটিতে ক্লিক করুন:

আপনার মেশিন লার্নিং প্রজেক্টে নিচের কোনো একটি ক্ষেত্রকে উন্নত করার জন্য আপনাকে অগ্রাধিকার দিতে হলে, কোনটি সবচেয়ে বেশি প্রভাব ফেলবে?
আপনার ডেটার গুণমান এবং আকার
তথ্য সব tramps. এটা সত্য যে আপনার লার্নিং অ্যালগরিদম বা মডেল আর্কিটেকচার আপডেট করলে আপনি বিভিন্ন ধরনের প্যাটার্ন শিখতে পারবেন, কিন্তু আপনার ডেটা যদি খারাপ হয়, তাহলে আপনি এমন ফাংশন তৈরি করতে পারবেন যা ভুল জিনিসের সাথে খাপ খায়। আপনি কোন চকচকে অ্যালগরিদম ব্যবহার করেন তার চেয়ে ডেটা সেটের গুণমান এবং আকার অনেক বেশি গুরুত্বপূর্ণ৷
সর্বশেষ অপ্টিমাইজেশান অ্যালগরিদম ব্যবহার করে৷
অপ্টিমাইজার পুশ করার ক্ষেত্রে আপনি অবশ্যই কিছু লাভ দেখতে পারেন, কিন্তু এই তালিকার অন্য একটি আইটেমের মতো আপনার মডেলে এটির তেমন উল্লেখযোগ্য প্রভাব পড়বে না।
আরও গভীর নেটওয়ার্ক
একটি গভীর নেটওয়ার্ক আপনার মডেল উন্নত করতে পারে, প্রভাব এই তালিকার অন্য আইটেম হিসাবে উল্লেখযোগ্য হবে না.
একটি আরো চতুর ক্ষতি ফাংশন
বন্ধ ! একটি ভাল ক্ষতি ফাংশন আপনাকে একটি বড় জয় দিতে পারে, কিন্তু এটি এখনও এই তালিকার অন্য আইটেম থেকে দ্বিতীয়।

কেন একটি ভাল ডেটা সেট সংগ্রহ করা গুরুত্বপূর্ণ?

গুগল অনুবাদ

"...নিউরাল মেশিন ট্রান্সলেশনের পর থেকে আমাদের সবচেয়ে প্রভাবশালী মানের অগ্রগতিগুলির মধ্যে একটি হল ব্যবহার করার জন্য আমাদের প্রশিক্ষণ ডেটার সেরা উপসেট চিহ্নিত করা"

- সফটওয়্যার ইঞ্জিনিয়ার, Google Translate

Google অনুবাদ টিমের কাছে তাদের ব্যবহার করার চেয়ে বেশি প্রশিক্ষণ ডেটা রয়েছে৷ তাদের মডেল টিউন করার পরিবর্তে, দলটি তাদের ডেটাতে সেরা বৈশিষ্ট্যগুলি ব্যবহার করে বড় জয় অর্জন করেছে।

"...বেশিরভাগ সময় যখন আমি ম্যানুয়ালি ইন্টারেস্টিং-সুদর্শন ত্রুটিগুলি ডিবাগ করার চেষ্টা করি তখন সেগুলি প্রশিক্ষণের ডেটার সমস্যাগুলির জন্য ফিরে পাওয়া যেতে পারে।"- সফটওয়্যার ইঞ্জিনিয়ার, Google Translate

"আকর্ষণীয়-সুদর্শন" ত্রুটিগুলি সাধারণত ডেটা দ্বারা সৃষ্ট হয়৷ ত্রুটিপূর্ণ ডেটার কারণে আপনার মডেল ভুল প্যাটার্ন শিখতে পারে, আপনি কোন মডেলিং কৌশল চেষ্টা করুন না কেন।

মস্তিষ্কের ডায়াবেটিক রেটিনোপ্যাথি প্রকল্প

গুগল ব্রেইনের ডায়াবেটিক রেটিনোপ্যাথি প্রকল্প একটি নিউরাল নেটওয়ার্ক আর্কিটেকচার নিযুক্ত করেছে, যা ইনসেপশন নামে পরিচিত, চিত্রগুলিকে শ্রেণিবদ্ধ করে রোগ সনাক্ত করতে। দলটি মডেলদের পরিবর্তন করেনি। পরিবর্তে, তারা চক্ষু বিশেষজ্ঞদের দ্বারা লেবেলযুক্ত 120,000 উদাহরণের একটি ডেটা সেট তৈরি করে সফল হয়েছে। ( https://research.google.com/pubs/pub43022.html এ আরও জানুন।)