با تشخیص جوهر دیجیتال کیت ML، میتوانید متن دستنویس روی سطح دیجیتال را به صدها زبان تشخیص دهید، و همچنین طرحها را طبقهبندی کنید.
آن را امتحان کنید
- با برنامه نمونه بازی کنید تا نمونه استفاده از این API را ببینید.
قبل از شروع
- در فایل
build.gradle
در سطح پروژه خود، مطمئن شوید که مخزن Maven Google را در هر دو بخشbuildscript
وallprojects
خود قرار دهید. - وابستگی های کتابخانه های اندروید ML Kit را به فایل Gradle سطح برنامه ماژول خود اضافه کنید، که معمولا
app/build.gradle
است:
dependencies {
// ...
implementation 'com.google.mlkit:digital-ink-recognition:18.1.0'
}
اکنون برای شروع به تشخیص متن در اشیاء Ink
آماده هستید.
یک شی Ink
بسازید
راه اصلی برای ساخت یک شی Ink
این است که آن را روی صفحه لمسی بکشید. در اندروید می توانید از Canvas برای این منظور استفاده کنید. کنترلکنندههای رویداد لمسی شما باید متد addNewTouchEvent()
را که قطعه کد زیر نشان داده شده است فراخوانی کنند تا نقاط در strokesهایی که کاربر در شیء Ink
میکشد ذخیره کنند.
این الگوی کلی در قطعه کد زیر نشان داده شده است. برای مثال کاملتر به نمونه راه اندازی سریع ML Kit مراجعه کنید.
var inkBuilder = Ink.builder() lateinit var strokeBuilder: Ink.Stroke.Builder // Call this each time there is a new event. fun addNewTouchEvent(event: MotionEvent) { val action = event.actionMasked val x = event.x val y = event.y var t = System.currentTimeMillis() // If your setup does not provide timing information, you can omit the // third paramater (t) in the calls to Ink.Point.create when (action) { MotionEvent.ACTION_DOWN -> { strokeBuilder = Ink.Stroke.builder() strokeBuilder.addPoint(Ink.Point.create(x, y, t)) } MotionEvent.ACTION_MOVE -> strokeBuilder!!.addPoint(Ink.Point.create(x, y, t)) MotionEvent.ACTION_UP -> { strokeBuilder.addPoint(Ink.Point.create(x, y, t)) inkBuilder.addStroke(strokeBuilder.build()) } else -> { // Action not relevant for ink construction } } } ... // This is what to send to the recognizer. val ink = inkBuilder.build()
Ink.Builder inkBuilder = Ink.builder(); Ink.Stroke.Builder strokeBuilder; // Call this each time there is a new event. public void addNewTouchEvent(MotionEvent event) { float x = event.getX(); float y = event.getY(); long t = System.currentTimeMillis(); // If your setup does not provide timing information, you can omit the // third paramater (t) in the calls to Ink.Point.create int action = event.getActionMasked(); switch (action) { case MotionEvent.ACTION_DOWN: strokeBuilder = Ink.Stroke.builder(); strokeBuilder.addPoint(Ink.Point.create(x, y, t)); break; case MotionEvent.ACTION_MOVE: strokeBuilder.addPoint(Ink.Point.create(x, y, t)); break; case MotionEvent.ACTION_UP: strokeBuilder.addPoint(Ink.Point.create(x, y, t)); inkBuilder.addStroke(strokeBuilder.build()); strokeBuilder = null; break; } } ... // This is what to send to the recognizer. Ink ink = inkBuilder.build();
یک نمونه از DigitalInkRecognizer را دریافت کنید
برای انجام شناسایی، نمونه Ink
را به یک شی DigitalInkRecognizer
ارسال کنید. کد زیر نشان می دهد که چگونه می توان چنین شناسایی کننده ای را از یک برچسب BCP-47 نمونه برداری کرد.
// Specify the recognition model for a language var modelIdentifier: DigitalInkRecognitionModelIdentifier try { modelIdentifier = DigitalInkRecognitionModelIdentifier.fromLanguageTag("en-US") } catch (e: MlKitException) { // language tag failed to parse, handle error. } if (modelIdentifier == null) { // no model was found, handle error. } var model: DigitalInkRecognitionModel = DigitalInkRecognitionModel.builder(modelIdentifier).build() // Get a recognizer for the language var recognizer: DigitalInkRecognizer = DigitalInkRecognition.getClient( DigitalInkRecognizerOptions.builder(model).build())
// Specify the recognition model for a language DigitalInkRecognitionModelIdentifier modelIdentifier; try { modelIdentifier = DigitalInkRecognitionModelIdentifier.fromLanguageTag("en-US"); } catch (MlKitException e) { // language tag failed to parse, handle error. } if (modelIdentifier == null) { // no model was found, handle error. } DigitalInkRecognitionModel model = DigitalInkRecognitionModel.builder(modelIdentifier).build(); // Get a recognizer for the language DigitalInkRecognizer recognizer = DigitalInkRecognition.getClient( DigitalInkRecognizerOptions.builder(model).build());
یک شی Ink
را پردازش کنید
recognizer.recognize(ink) .addOnSuccessListener { result: RecognitionResult -> // `result` contains the recognizer's answers as a RecognitionResult. // Logs the text from the top candidate. Log.i(TAG, result.candidates[0].text) } .addOnFailureListener { e: Exception -> Log.e(TAG, "Error during recognition: $e") }
recognizer.recognize(ink) .addOnSuccessListener( // `result` contains the recognizer's answers as a RecognitionResult. // Logs the text from the top candidate. result -> Log.i(TAG, result.getCandidates().get(0).getText())) .addOnFailureListener( e -> Log.e(TAG, "Error during recognition: " + e));
کد نمونه بالا فرض می کند که مدل شناسایی قبلاً دانلود شده است، همانطور که در بخش بعدی توضیح داده شد.
مدیریت دانلودهای مدل
در حالی که API تشخیص جوهر دیجیتال از صدها زبان پشتیبانی می کند، هر زبانی نیاز دارد تا قبل از هر گونه شناسایی، مقداری داده دانلود شود. حدود 20 مگابایت فضای ذخیره سازی برای هر زبان مورد نیاز است. این توسط شی RemoteModelManager
مدیریت می شود.
دانلود مدل جدید
import com.google.mlkit.common.model.DownloadConditions import com.google.mlkit.common.model.RemoteModelManager var model: DigitalInkRecognitionModel = ... val remoteModelManager = RemoteModelManager.getInstance() remoteModelManager.download(model, DownloadConditions.Builder().build()) .addOnSuccessListener { Log.i(TAG, "Model downloaded") } .addOnFailureListener { e: Exception -> Log.e(TAG, "Error while downloading a model: $e") }
import com.google.mlkit.common.model.DownloadConditions; import com.google.mlkit.common.model.RemoteModelManager; DigitalInkRecognitionModel model = ...; RemoteModelManager remoteModelManager = RemoteModelManager.getInstance(); remoteModelManager .download(model, new DownloadConditions.Builder().build()) .addOnSuccessListener(aVoid -> Log.i(TAG, "Model downloaded")) .addOnFailureListener( e -> Log.e(TAG, "Error while downloading a model: " + e));
بررسی کنید که آیا یک مدل قبلا دانلود شده است یا خیر
var model: DigitalInkRecognitionModel = ... remoteModelManager.isModelDownloaded(model)
DigitalInkRecognitionModel model = ...; remoteModelManager.isModelDownloaded(model);
یک مدل دانلود شده را حذف کنید
با حذف یک مدل از حافظه دستگاه، فضا آزاد می شود.
var model: DigitalInkRecognitionModel = ... remoteModelManager.deleteDownloadedModel(model) .addOnSuccessListener { Log.i(TAG, "Model successfully deleted") } .addOnFailureListener { e: Exception -> Log.e(TAG, "Error while deleting a model: $e") }
DigitalInkRecognitionModel model = ...;
remoteModelManager.deleteDownloadedModel(model)
.addOnSuccessListener(
aVoid -> Log.i(TAG, "Model successfully deleted"))
.addOnFailureListener(
e -> Log.e(TAG, "Error while deleting a model: " + e));
نکاتی برای بهبود دقت تشخیص متن
دقت تشخیص متن می تواند در زبان های مختلف متفاوت باشد. دقت به سبک نوشتن نیز بستگی دارد. در حالی که تشخیص جوهر دیجیتال برای مدیریت انواع سبک های نوشتاری آموزش دیده است، نتایج می تواند از کاربری به کاربر دیگر متفاوت باشد.
در اینجا چند راه برای بهبود دقت تشخیص دهنده متن آورده شده است. توجه داشته باشید که این تکنیکها در طبقهبندیکنندههای نقاشی برای ایموجیها، ترسیم خودکار و اشکال کاربرد ندارند.
منطقه نوشتن
بسیاری از برنامهها دارای یک ناحیه نوشتاری مشخص برای ورودی کاربر هستند. معنای یک نماد تا حدی با اندازه آن نسبت به اندازه ناحیه نوشتاری که حاوی آن است تعیین می شود. به عنوان مثال، تفاوت بین حرف کوچک یا بزرگ "o" یا "c" و کاما در مقابل اسلش رو به جلو.
گفتن عرض و ارتفاع ناحیه نوشتن به شناساگر می تواند دقت را بهبود بخشد. با این حال، تشخیص دهنده فرض می کند که ناحیه نوشتن فقط شامل یک خط متن است. اگر ناحیه نوشتاری فیزیکی به اندازه کافی بزرگ باشد که به کاربر امکان نوشتن دو یا چند خط را بدهد، ممکن است با عبور از یک WritingArea با ارتفاعی که بهترین برآورد شما از ارتفاع یک خط متن است، نتایج بهتری به دست آورید. شی WritingArea که به شناساگر ارسال میکنید لازم نیست دقیقاً با ناحیه فیزیکی نوشتن روی صفحه مطابقت داشته باشد. تغییر ارتفاع WritingArea به این روش در برخی از زبان ها بهتر از سایرین کار می کند.
هنگامی که ناحیه نوشتن را مشخص می کنید، عرض و ارتفاع آن را با همان واحدهای مختصات استروک مشخص کنید. آرگومانهای مختصات x، y نیازی به واحد ندارند - API همه واحدها را عادی میکند، بنابراین تنها چیزی که مهم است اندازه و موقعیت نسبی ضربهها است. شما آزاد هستید که مختصات را در هر مقیاسی که برای سیستم شما منطقی است پاس کنید.
پیش زمینه
پیش زمینه متنی است که بلافاصله قبل از ضربه های موجود در Ink
است که می خواهید تشخیص دهید. می توانید با گفتن پیش زمینه به تشخیص دهنده کمک کنید.
به عنوان مثال، حروف شکسته "n" و "u" اغلب با یکدیگر اشتباه گرفته می شوند. اگر کاربر قبلاً کلمه جزئی "arg" را وارد کرده باشد، ممکن است با سکته هایی که می توانند به عنوان "ument" یا "nment" تشخیص داده شوند، ادامه دهند. مشخص کردن پیش زمینه "arg" ابهام را برطرف می کند، زیرا احتمال کلمه "argument" بیشتر از "argnment" است.
پیش زمینه همچنین میتواند به تشخیصدهنده کمک کند تا شکستن کلمه، فاصله بین کلمات را شناسایی کند. شما می توانید یک کاراکتر فاصله تایپ کنید اما نمی توانید یکی را ترسیم کنید، بنابراین چگونه یک شناساگر می تواند تعیین کند که یک کلمه چه زمانی تمام می شود و کلمه بعدی شروع می شود؟ اگر کاربر قبلاً "hello" نوشته باشد و با کلمه نوشته شده "world" ادامه دهد، بدون پیش زمینه، شناساگر رشته "world" را برمی گرداند. با این حال، اگر پیش زمینه "hello" را مشخص کنید، مدل رشته "جهان" را با یک فاصله پیشرو برمی گرداند، زیرا "Hello world" بیشتر از "Helloword" معنی دارد.
شما باید طولانی ترین رشته پیش زمینه ممکن را، تا 20 کاراکتر، از جمله فاصله، ارائه دهید. اگر رشته طولانی تر باشد، شناساگر فقط از 20 کاراکتر آخر استفاده می کند.
نمونه کد زیر نحوه تعریف ناحیه نوشتن و استفاده از یک شی RecognitionContext
برای تعیین پیش زمینه را نشان می دهد.
var preContext : String = ...; var width : Float = ...; var height : Float = ...; val recognitionContext : RecognitionContext = RecognitionContext.builder() .setPreContext(preContext) .setWritingArea(WritingArea(width, height)) .build() recognizer.recognize(ink, recognitionContext)
String preContext = ...; float width = ...; float height = ...; RecognitionContext recognitionContext = RecognitionContext.builder() .setPreContext(preContext) .setWritingArea(new WritingArea(width, height)) .build(); recognizer.recognize(ink, recognitionContext);
سفارش سکته مغزی
دقت تشخیص به ترتیب ضربات حساس است. تشخیص دهندگان انتظار دارند سکته مغزی به ترتیبی که مردم به طور طبیعی بنویسند رخ دهد. برای مثال از چپ به راست برای انگلیسی. هر موردی که از این الگو خارج شود، مانند نوشتن یک جمله انگلیسی که با کلمه آخر شروع می شود، نتایج دقیق تری به دست می دهد.
مثال دیگر زمانی است که کلمه ای در وسط یک Ink
حذف می شود و با کلمه دیگری جایگزین می شود. بازبینی احتمالاً در وسط جمله است، اما سکتههای مربوط به تجدیدنظر در انتهای دنباله سکته مغزی قرار دارند. در این مورد توصیه می کنیم کلمه جدید نوشته شده را به طور جداگانه به API ارسال کنید و با استفاده از منطق خود نتیجه را با شناسایی های قبلی ادغام کنید.
برخورد با اشکال مبهم
مواردی وجود دارد که معنای شکل ارائه شده به تشخیص دهنده مبهم است. برای مثال، یک مستطیل با لبه های بسیار گرد می تواند به صورت مستطیل یا بیضی دیده شود.
این موارد نامشخص را می توان با استفاده از نمرات تشخیص زمانی که در دسترس هستند، رسیدگی کرد. فقط طبقهبندیکنندههای شکل امتیاز ارائه میکنند. اگر مدل بسیار مطمئن باشد، امتیاز نتیجه برتر بسیار بهتر از دومین بهترین خواهد بود. در صورت عدم قطعیت، امتیازات دو نتیجه برتر نزدیک به هم خواهد بود. همچنین، به خاطر داشته باشید که طبقهبندیکنندههای شکل، کل Ink
به صورت یک شکل تفسیر میکنند. به عنوان مثال، اگر Ink
حاوی یک مستطیل و یک بیضی در کنار یکدیگر باشد، شناسایی کننده ممکن است یکی یا دیگری (یا چیزی کاملاً متفاوت) را در نتیجه برگرداند، زیرا یک نامزد تشخیص واحد نمی تواند دو شکل را نشان دهد.