এই পৃষ্ঠায় Google অ্যাসিস্ট্যান্ট API-কে স্পিচ ডেটা কীভাবে প্রদান করা যায় সে সম্পর্কে সুপারিশ রয়েছে। এই নির্দেশিকাগুলি আরও বেশি দক্ষতা এবং নির্ভুলতার পাশাপাশি পরিষেবা থেকে যুক্তিসঙ্গত প্রতিক্রিয়ার জন্য ডিজাইন করা হয়েছে৷
অডিও প্রাক প্রক্রিয়াকরণ
একটি ভাল মানের এবং ভাল অবস্থানে থাকা মাইক্রোফোন ব্যবহার করে যতটা সম্ভব পরিষ্কার অডিও প্রদান করা ভাল। যাইহোক, পরিষেবাতে পাঠানোর আগে অডিওতে শব্দ-হ্রাস সংকেত প্রক্রিয়াকরণ প্রয়োগ করা সাধারণত স্বীকৃতির যথার্থতা হ্রাস করে। পরিষেবাটি গোলমাল অডিও পরিচালনা করার জন্য ডিজাইন করা হয়েছে।
সেরা ফলাফলের জন্য:
- মাইক্রোফোনটিকে যতটা সম্ভব ব্যবহারকারীর কাছাকাছি রাখুন, বিশেষ করে যখন পটভূমিতে আওয়াজ থাকে।
- অডিও ক্লিপিং এড়িয়ে চলুন।
- স্বয়ংক্রিয় লাভ নিয়ন্ত্রণ (AGC) ব্যবহার করবেন না।
- সমস্ত শব্দ হ্রাস প্রক্রিয়াকরণ নিষ্ক্রিয় করা উচিত.
আদর্শভাবে:
- অডিও লেভেল ক্যালিব্রেট করা উচিত যাতে ইনপুট সিগন্যাল ক্লিপ না হয় এবং পিক স্পিচ অডিও লেভেল প্রায় -20 থেকে -10 dBFS এ পৌঁছায়।
- ডিভাইসটি প্রায় "ফ্ল্যাট" প্রশস্ততা বনাম ফ্রিকোয়েন্সি বৈশিষ্ট্য (+- 3 dB 100 Hz থেকে 8000 Hz) প্রদর্শন করা উচিত।
- মোট হারমোনিক বিকৃতি 90 dB SPL ইনপুট স্তরে 100 Hz থেকে 8000 Hz পর্যন্ত 1% এর কম হওয়া উচিত।
নমুনা রেট
যদি সম্ভব হয়, অডিও উৎসের স্যাম্পলিং রেট 16000 Hz এ সেট করুন। অন্যথায়, অডিও উৎসের নেটিভ নমুনা হারের সাথে মেলে (পুনরায় নমুনা নেওয়ার পরিবর্তে) sample_rate_hertz
সেট করুন।
ফ্রেমের আকার
গুগল অ্যাসিস্ট্যান্ট লাইভ অডিও শনাক্ত করে কারণ এটি একটি মাইক্রোফোন থেকে ক্যাপচার করা হয়। অডিও স্ট্রীমকে অবশ্যই ফ্রেমে বিভক্ত করতে হবে এবং পরপর AssistRequest
মেসেজ পাঠাতে হবে। কোন ফ্রেম আকার গ্রহণযোগ্য. বৃহত্তর ফ্রেমগুলি আরও দক্ষ, তবে বিলম্ব যোগ করুন। একটি 100-মিলিসেকেন্ড ফ্রেমের আকার লেটেন্সি এবং দক্ষতার মধ্যে একটি ভাল ট্রেডঅফ হিসাবে সুপারিশ করা হয়৷