了解问题

如需了解问题所在,请执行以下任务:

  • 说明您正在开发或重构的产品的目标。
  • 使用预测性机器学习、 生成式 AI 或非机器学习解决方案。
  • 如果您使用 预测性机器学习方法。

陈述目标

首先,用非机器学习术语陈述您的目标。我们的目标是 “我想要实现什么目标?”

下表明确说明了假设的应用的目标:

应用 目标
天气应用 以六小时为增量计算某个地理区域的降水量。
时尚应用 生成各种衬衫设计。
视频应用 推荐实用视频。
“邮件”应用 检测垃圾邮件。
金融应用 总结多个新闻媒体的财经信息。
地图应用 计算行程时间。
银行应用 识别欺诈性交易。
餐饮应用 根据餐厅菜单识别菜肴。
电子商务应用 以有用的答案来回复评价。

机器学习应用场景清晰

有些人将机器学习视为一种适用于所有问题的通用工具。在 机器学习是一种专门针对特定问题的专用工具。您 不想实现复杂的机器学习解决方案,但需要一个更简单的非机器学习解决方案 有效。

机器学习系统可以分为两大类: 预测性机器学习生成式 AI。以下 表列出了它们各自的定义特征:

输入 输出 训练方法
预测机器学习 文本
图片
音频
视频
数值
进行预测,例如对 将电子邮件当作垃圾邮件或非垃圾邮件、猜测明天的雨水,或 预测股票价格。 通常可以根据现实验证输出结果。 通常使用大量数据来训练监督式模型, 非监督式学习或强化学习模型来执行 特定任务。
生成式 AI 文本
图片
音频
视频
数值
根据用户的意图生成输出,例如 总结文章、制作音频片段或短视频。 通常使用大量无标签数据来训练大型语言模型 或图片生成器来填充缺失的数据。然后可以使用 这类任务可以是填空式任务,也可以是 并针对某些特定任务基于带标签的数据进行训练, 分类。

如需确认机器学习是正确的方法,请先验证您当前的非机器学习 解决方案。如果您没有实现非机器学习解决方案,请尝试 使用 启发式

非机器学习解决方案是确定机器学习是否属于 适合用来解决问题比较时请考虑以下问题 进行机器学习的非机器学习方法:

  • 画质。您认为机器学习解决方案有多好?如果您 认为机器学习解决方案可能只不过是微小的进步,这可能表明 目前的解决方案是最好的。

  • 费用和维护。在两个行业中,机器学习解决方案 短期和长期?在某些情况下,它的 所需的计算资源和时间来实现机器学习。请考虑以下问题:

    • 机器学习解决方案能否证明费用增加的合理性?请注意, 大型系统的改进,就能轻松证明成本的合理性, 实施机器学习解决方案所需的维护和维护工作。
    • 该解决方案需要多少维护?在很多情况下,机器学习 需要专门的长期维护。
    • 你的产品是否有支持培训或招聘的资源 拥有机器学习专业知识的人?

检查您的理解情况

为什么说有必要之前实施非机器学习解决方案或启发法 机器学习解决方案?
非机器学习解决方案是衡量机器学习解决方案的基准。
非机器学习解决方案可帮助您确定机器学习解决方案的费用。

预测性机器学习和数据

数据是预测式机器学习的驱动力。为了弥补 预测,您需要数据 包含具有预测性特征的特征 电源。您的数据应具有以下特征:

  • 大量。您的 dataset, 您的模型会是什么样子。

  • 一致且可靠。拥有一致且可靠的数据 将产生更好的模型。例如,基于机器学习的天气信息 模型将受益于 instruments。

  • 受信任。了解数据的来源。数据 来自您控制的可信来源(例如来自您的产品的日志) 例如来自您不太了解的来源,例如其他来源的 机器学习系统?

  • 可用。确保预测时所有输入都可用, 格式正确。如果难以从数据集内获取某些特征值, 请从数据集中省略这些特征。

  • 正确。在大型数据集中, 标签中的值将不正确, 但如果有一小部分标签不正确,模型 会导致预测效果不佳。

  • 代表性。数据集应该能够代表真实的 世界。换言之,数据集应准确反映 事件、用户行为和/或现实世界中 根据模型估算转化。使用非代表性数据集进行训练可能会导致性能不佳 发出调用请求。

如果您无法以所需格式获取所需数据,您的模型将 预测不佳。

预测能力

要使模型做出良好预测,数据集中的特征应该 预测能力。特征与标签的相关程度越高,就越有可能 进行预测了。

某些功能的预测能力将高于其他功能。例如,在 天气数据集,如 cloud_coveragetemperaturedew_pointmoon_phaseday_of_week。对于视频应用示例,您可以假设 video_descriptionlengthviews 等数据可能是 用户想看哪些视频

请注意,特征的预测能力可能会因上下文或 网域更改。例如,在视频应用中,upload_date 之类的功能 与标签的关联性较低。不过,在 是游戏视频的子网域,upload_date 可能与 标签。

确定哪些特征具有预测能力可能非常耗时 过程。您可以手动探索某个特征的预测能力,方法是移除和 在训练模型时添加它。您可以自动查找地图项的 预测能力。 皮尔逊相关法调整相互信息 (AMI)、 和 Shapley 值、 它提供了数字评估,用于分析 feature.

检查您的理解情况

分析数据集时,您应该具备哪三个关键属性 要找些什么?
代表现实世界。
包含正确的值。
特征对标签具有预测能力。
足够小,可以加载到本地计算机上。
收集自各种无法预测的来源。

如需有关分析和准备数据集的更多指导,请参阅 机器学习的数据准备和特征工程

预测与操作

如果无法将预测结果转化为 一项可帮助用户的操作也就是说,您的产品应从 输出结果。

例如,用于预测用户是否会认为视频有用的模型 应该馈送到推荐实用视频的应用中。一个可预测 是否将下雨输入天气应用。

检查您的理解情况

根据以下场景,确定使用机器学习是否为最佳选择 解决问题的方法。

大型组织中的一个工程团队负责管理 来电。

目标:告知来电者,他们将等待多长时间 当前通话音量。

他们还没有任何解决方案,但认为启发法 将当前 按接电话的员工数量得出的、等待通话的客户数量; 然后乘以 10 分钟不过, 他们知道有些客户的问题在两分钟内就解决了 而另一些则最多可能需要 45 分钟或更长时间。

他们的启发法可能无法获得足够精确的数字。他们 可以创建包含以下列的数据集: number_of_callcenter_phonesuser_issuetime_to_resolvecall_timetime_on_hold

使用机器学习。工程团队有明确的目标。他们的 启发法不足以适合他们的应用场景。此时会显示数据集 为标签 time_on_hold 提供预测特征。
不使用机器学习。虽然他们有明确的目标, 应首先实施和优化非机器学习解决方案。此外,他们的 数据集似乎没有包含足够的具有预测能力的特征。