在 Android 应用中利用机器学习套件识别数字手写内容

借助 ML Kit 的数字墨水识别功能，您可以识别数字平面上数百种语言的手写文本，还可以对草图进行分类。

试试看

您可以试用示例应用，了解此 API 的使用示例。

准备工作

此 API 需要 Android API 级别 23 或更高级别。确保您应用的 build 文件使用的 minSdkVersion 值不低于 23。

请务必在您的项目级 build.gradle 文件中的 buildscript 和 allprojects 部分添加 Google 的 Maven 制品库。
将 Android 版机器学习套件库的依赖项添加到模块的应用级 Gradle 文件（通常为 app/build.gradle）：

dependencies {
  // ...
  implementation 'com.google.mlkit:digital-ink-recognition:19.0.0'
}

现在，您可以开始识别 Ink 对象中的文本了。

构建 `Ink` 对象

构建 Ink 对象的主要方法是在触摸屏上绘制。在 Android 上，您可以使用 Canvas 来实现此目的。您的触摸事件处理程序应调用以下代码段中所示的 addNewTouchEvent() 方法，以将用户绘制的笔画中的点存储到 Ink 对象中。

以下代码段演示了这种一般模式。如需查看更完整的示例，请参阅机器学习套件快速入门示例。

Kotlin

var inkBuilder = Ink.builder()
lateinit var strokeBuilder: Ink.Stroke.Builder

// Call this each time there is a new event.
fun addNewTouchEvent(event: MotionEvent) {
  val action = event.actionMasked
  val x = event.x
  val y = event.y
  var t = System.currentTimeMillis()

  // If your setup does not provide timing information, you can omit the
  // third paramater (t) in the calls to Ink.Point.create
  when (action) {
    MotionEvent.ACTION_DOWN -> {
      strokeBuilder = Ink.Stroke.builder()
      strokeBuilder.addPoint(Ink.Point.create(x, y, t))
    }
    MotionEvent.ACTION_MOVE -> strokeBuilder!!.addPoint(Ink.Point.create(x, y, t))
    MotionEvent.ACTION_UP -> {
      strokeBuilder.addPoint(Ink.Point.create(x, y, t))
      inkBuilder.addStroke(strokeBuilder.build())
    }
    else -> {
      // Action not relevant for ink construction
    }
  }
}

...

// This is what to send to the recognizer.
val ink = inkBuilder.build()

Java

Ink.Builder inkBuilder = Ink.builder();
Ink.Stroke.Builder strokeBuilder;

// Call this each time there is a new event.
public void addNewTouchEvent(MotionEvent event) {
  float x = event.getX();
  float y = event.getY();
  long t = System.currentTimeMillis();

  // If your setup does not provide timing information, you can omit the
  // third paramater (t) in the calls to Ink.Point.create
  int action = event.getActionMasked();
  switch (action) {
    case MotionEvent.ACTION_DOWN:
      strokeBuilder = Ink.Stroke.builder();
      strokeBuilder.addPoint(Ink.Point.create(x, y, t));
      break;
    case MotionEvent.ACTION_MOVE:
      strokeBuilder.addPoint(Ink.Point.create(x, y, t));
      break;
    case MotionEvent.ACTION_UP:
      strokeBuilder.addPoint(Ink.Point.create(x, y, t));
      inkBuilder.addStroke(strokeBuilder.build());
      strokeBuilder = null;
      break;
  }
}

...

// This is what to send to the recognizer.
Ink ink = inkBuilder.build();

获取 DigitalInkRecognizer 的实例

如需执行识别，请将 Ink 实例发送到 DigitalInkRecognizer 对象。以下代码展示了如何通过 BCP-47 标记实例化此类识别器。

Kotlin

// Specify the recognition model for a language
var modelIdentifier: DigitalInkRecognitionModelIdentifier
try {
  modelIdentifier = DigitalInkRecognitionModelIdentifier.fromLanguageTag("en-US")
} catch (e: MlKitException) {
  // language tag failed to parse, handle error.
}
if (modelIdentifier == null) {
  // no model was found, handle error.
}
var model: DigitalInkRecognitionModel =
    DigitalInkRecognitionModel.builder(modelIdentifier).build()


// Get a recognizer for the language
var recognizer: DigitalInkRecognizer =
    DigitalInkRecognition.getClient(
        DigitalInkRecognizerOptions.builder(model).build())

Java

// Specify the recognition model for a language
DigitalInkRecognitionModelIdentifier modelIdentifier;
try {
  modelIdentifier =
    DigitalInkRecognitionModelIdentifier.fromLanguageTag("en-US");
} catch (MlKitException e) {
  // language tag failed to parse, handle error.
}
if (modelIdentifier == null) {
  // no model was found, handle error.
}

DigitalInkRecognitionModel model =
    DigitalInkRecognitionModel.builder(modelIdentifier).build();

// Get a recognizer for the language
DigitalInkRecognizer recognizer =
    DigitalInkRecognition.getClient(
        DigitalInkRecognizerOptions.builder(model).build());

处理 `Ink` 对象

Kotlin

recognizer.recognize(ink)
    .addOnSuccessListener { result: RecognitionResult ->
      // `result` contains the recognizer's answers as a RecognitionResult.
      // Logs the text from the top candidate.
      Log.i(TAG, result.candidates[0].text)
    }
    .addOnFailureListener { e: Exception ->
      Log.e(TAG, "Error during recognition: $e")
    }

Java

recognizer.recognize(ink)
    .addOnSuccessListener(
        // `result` contains the recognizer's answers as a RecognitionResult.
        // Logs the text from the top candidate.
        result -> Log.i(TAG, result.getCandidates().get(0).getText()))
    .addOnFailureListener(
        e -> Log.e(TAG, "Error during recognition: " + e));

上述示例代码假定识别模型已下载，如下一部分中所述。

管理模型下载

虽然数字墨水识别 API 支持数百种语言，但每种语言都需要先下载一些数据，然后才能进行识别。每种语言大约需要 20MB 的存储空间。这由 RemoteModelManager 对象处理。

下载新模型

Kotlin

import com.google.mlkit.common.model.DownloadConditions
import com.google.mlkit.common.model.RemoteModelManager

var model: DigitalInkRecognitionModel =  ...
val remoteModelManager = RemoteModelManager.getInstance()

remoteModelManager.download(model, DownloadConditions.Builder().build())
    .addOnSuccessListener {
      Log.i(TAG, "Model downloaded")
    }
    .addOnFailureListener { e: Exception ->
      Log.e(TAG, "Error while downloading a model: $e")
    }

Java

import com.google.mlkit.common.model.DownloadConditions;
import com.google.mlkit.common.model.RemoteModelManager;

DigitalInkRecognitionModel model = ...;
RemoteModelManager remoteModelManager = RemoteModelManager.getInstance();

remoteModelManager
    .download(model, new DownloadConditions.Builder().build())
    .addOnSuccessListener(aVoid -> Log.i(TAG, "Model downloaded"))
    .addOnFailureListener(
        e -> Log.e(TAG, "Error while downloading a model: " + e));

检查模型是否已下载

Kotlin

var model: DigitalInkRecognitionModel =  ...
remoteModelManager.isModelDownloaded(model)

Java

DigitalInkRecognitionModel model = ...;
remoteModelManager.isModelDownloaded(model);

删除下载的模型

从设备存储空间中移除模型可释放空间。

Kotlin

var model: DigitalInkRecognitionModel =  ...
remoteModelManager.deleteDownloadedModel(model)
    .addOnSuccessListener {
      Log.i(TAG, "Model successfully deleted")
    }
    .addOnFailureListener { e: Exception ->
      Log.e(TAG, "Error while deleting a model: $e")
    }

Java

DigitalInkRecognitionModel model = ...;
remoteModelManager.deleteDownloadedModel(model)
                  .addOnSuccessListener(
                      aVoid -> Log.i(TAG, "Model successfully deleted"))
                  .addOnFailureListener(
                      e -> Log.e(TAG, "Error while deleting a model: " + e));

提高文字识别准确度的技巧

文本识别的准确性可能因语言而异。准确性还取决于写作风格。虽然数字墨水识别功能经过训练，可以处理多种书写风格，但识别结果可能会因用户而异。

以下是一些可提高文本识别器准确率的方法。请注意，这些技巧不适用于表情符号、自动绘图和形状的绘图分类器。

书写区域

许多应用都有明确定义的用户输入书写区域。符号的含义部分取决于其相对于包含它的书写区域的大小。例如，小写字母“o”或“c”与大写字母“O”或“C”之间的区别，以及逗号与正斜杠之间的区别。

告知识别器书写区域的宽度和高度可以提高准确性。不过，识别器会假设书写区域仅包含一行文本。如果实际书写区域足够大，可供用户书写两行或更多行，那么您可以传入一个高度为单行文字高度的最佳估计值的 WritingArea，这样可能会获得更好的结果。您传递给识别器的 WritingArea 对象不必与屏幕上的实际书写区域完全对应。以这种方式更改 WritingArea 高度在某些语言中比在其他语言中效果更好。

指定书写区域时，请以与笔画坐标相同的单位指定其宽度和高度。x、y 坐标实参没有单位要求 - API 会对所有单位进行归一化处理，因此唯一重要的是笔画的相对大小和位置。您可以根据系统的实际情况，自由传入任意比例的坐标。

前置上下文

前置上下文是指您尝试识别的 Ink 中紧邻笔画之前的文本。您可以告知识别器预上下文，从而帮助识别器。

例如，草书字母“n”和“u”经常会被混淆。如果用户已输入部分字词“arg”，则可以继续输入可识别为“ument”或“nment”的笔画。指定前上下文“arg”可消除歧义，因为“argument”一词比“argnment”更常见。

预上下文还可以帮助识别器识别字词分隔符（字词之间的空格）。您可以输入空格字符，但无法绘制空格字符，那么识别器如何确定一个字词何时结束，下一个字词何时开始？如果用户已经写了“hello”，然后继续写“world”，在没有预先提供上下文的情况下，识别器会返回字符串“world”。不过，如果您指定前置上下文“hello”，模型将返回字符串“ world”（带有前导空格），因为“hello world”比“helloword”更有意义。

您应提供尽可能长的预上下文字符串，最多 20 个字符（包括空格）。如果字符串更长，识别器只会使用最后 20 个字符。

以下代码示例展示了如何定义书写区域并使用 RecognitionContext 对象指定预上下文。

Kotlin

var preContext : String = ...;
var width : Float = ...;
var height : Float = ...;
val recognitionContext : RecognitionContext =
    RecognitionContext.builder()
        .setPreContext(preContext)
        .setWritingArea(WritingArea(width, height))
        .build()

recognizer.recognize(ink, recognitionContext)

Java

String preContext = ...;
float width = ...;
float height = ...;
RecognitionContext recognitionContext =
    RecognitionContext.builder()
                      .setPreContext(preContext)
                      .setWritingArea(new WritingArea(width, height))
                      .build();

recognizer.recognize(ink, recognitionContext);

笔画顺序

识别准确度对笔画顺序非常敏感。识别器希望笔画按人们自然书写的顺序进行，例如英语是从左到右书写。任何偏离此模式的情况（例如，以最后一个字开头写一个英语句子）都会导致结果不太准确。

另一个示例是，当 Ink 中间的某个字词被移除并替换为另一个字词时。修订可能位于句子的中间，但修订的笔画位于笔画序列的末尾。在这种情况下，我们建议您将新写入的字词单独发送到 API，并使用您自己的逻辑将结果与之前的识别结果合并。

处理不明确的形状

在某些情况下，提供给识别器的形状的含义并不明确。例如，边角非常圆润的矩形可以被视为矩形或椭圆。

如果存在这些不明确的情况，可以使用识别得分（如果可用）来处理。只有形状分类器提供得分。如果模型非常有把握，那么最佳结果的分数会远高于次佳结果。如果存在不确定性，前两项结果的分数将非常接近。另请注意，形状分类器会将整个 Ink 视为单个形状。例如，如果 Ink 包含一个矩形和一个相邻的椭圆，识别器可能会返回其中一个（或完全不同的内容）作为结果，因为单个识别候选对象无法表示两种形状。

在 Android 应用中利用机器学习套件识别数字手写内容 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。

试试看

准备工作

构建 Ink 对象

Kotlin

Java

获取 DigitalInkRecognizer 的实例

Kotlin

Java

处理 Ink 对象

Kotlin

Java

管理模型下载

下载新模型

Kotlin

Java

检查模型是否已下载

Kotlin

Java

删除下载的模型

Kotlin

Java

提高文字识别准确度的技巧

书写区域

前置上下文

Kotlin

Java

笔画顺序

处理不明确的形状

在 Android 应用中利用机器学习套件识别数字手写内容

构建 `Ink` 对象

处理 `Ink` 对象