了解问题

如需了解问题所在,请执行以下任务:

  • 说明您要开发或重构的产品的目标。
  • 确定是使用预测性机器学习、生成式 AI 还是非机器学习解决方案最能有效地实现目标。
  • 如果您使用的是预测性机器学习方法,请验证您是否拥有训练模型所需的数据。

陈述目标

首先,用非机器学习术语陈述您的目标。目标是回答“我要达成什么目标?”这个问题。

下表清楚地说明了假设应用的目标:

应用 目标
天气应用 计算地理区域的降水量(以 6 小时为增量)。
时尚应用 生成各种衬衫设计。
视频应用 推荐实用视频。
“邮件”应用 检测垃圾邮件。
金融应用 总结来自多个新闻来源的财经信息。
地图应用 计算行程时间。
银行应用 识别欺诈性交易。
餐饮应用 根据餐厅的菜单识别菜系。
电子商务应用 以有用的答案来回复评价。

明确机器学习的用例

有些人将机器学习视为一种适用于所有问题的通用工具。在 机器学习是一种专门针对特定问题的专用工具。您 不想实现复杂的机器学习解决方案,而需要更简单的非机器学习解决方案 有效。

机器学习系统可以分为两大类: 预测性机器学习生成式 AI。下表列出了它们的定义特征:

输入 输出 训练方法
预测性机器学习 文本
图片
音频
视频
数值
进行预测,例如对 将电子邮件当作垃圾邮件或非垃圾邮件、猜测明天的雨水,或 预测股票价格。 通常可以根据现实验证输出结果。 通常使用大量数据训练监督式、非监督式或强化学习模型,以执行特定任务。
生成式 AI 文本
图片
音频
视频
数值
根据用户的意图生成输出,例如,总结文章或制作音频剪辑或短视频。 通常使用大量无标签数据来训练大型语言模型 或图片生成器来填充缺失的数据。然后可以使用 这类任务可以是填空式任务,也可以是 并针对某些特定任务基于带标签的数据进行训练, 分类。

如需确认机器学习是正确的方法,请先验证您当前的非机器学习 解决方案。如果您没有实现非机器学习解决方案,请尝试 使用 启发式

非机器学习解决方案是您用来确定机器学习是否适合解决您的问题的基准。比较时请考虑以下问题 进行机器学习的非机器学习方法:

  • 质量。您认为机器学习解决方案能带来多大的改进?如果您 认为机器学习解决方案可能只不过是微小的进步,这可能表明 目前的解决方案是最好的。

  • 费用和维护。在两个行业中,机器学习解决方案 短期和长期?在某些情况下,实现机器学习所需的计算资源和时间会显著增加。请考虑以下问题:

    • 机器学习解决方案能否证明费用增加的合理性?请注意, 大型系统的改进,就能轻松证明成本的合理性, 实施机器学习解决方案所需的维护和维护工作。
    • 该解决方案需要多少维护?在许多情况下,机器学习实现需要专门的长期维护。
    • 您的产品是否有资源来支持培训或聘用具有机器学习专业知识的人员?

检查您的理解情况

为什么在分析机器学习解决方案之前,先确定非机器学习解决方案或启用启发词语很重要?
非机器学习解决方案是衡量机器学习解决方案的基准。
非机器学习解决方案有助于您确定机器学习解决方案的费用。

预测性机器学习和数据

数据是预测性机器学习的推动力。为了弥补 预测,您需要数据 包含具有预测性特征的特征 电源。您的数据应具有以下特征:

  • 大量数据集中的相关示例越多、越实用,模型就越好。

  • 一致且可靠。拥有一致且可靠的数据 将产生更好的模型。例如,基于机器学习的天气信息 模型将受益于 instruments。

  • 受信任。了解数据的来源。数据是来自您控制的可信来源(例如产品日志),还是来自您不太了解的来源(例如其他机器学习系统的输出)?

  • 可用。确保预测时所有输入都可用, 格式正确。如果难以从数据集内获取某些特征值, 请从数据集中省略这些特征。

  • 正确。在大型数据集中,部分标签值不正确是不可避免的,但如果有超过一小部分标签不正确,模型的预测结果就会不准确。

  • 代表性。数据集应该能够代表真实的 世界。换言之,数据集应准确反映 事件、用户行为和/或现实世界中 根据模型估算转化。使用非代表性数据集进行训练可能会导致性能不佳 发出调用请求。

如果您无法以所需格式获取所需数据,模型的预测结果将不准确。

预测能力

为了让模型做出准确的预测,数据集中的特征应具有预测能力。特征与标签之间的相关性越高,预测标签的可能性就越大。

有些特征的预测能力会比其他特征更强。例如,在 天气数据集,如 cloud_coveragetemperaturedew_pointmoon_phaseday_of_week。对于视频应用示例,您可以假设 video_descriptionlengthviews 等数据可能是 用户想看哪些视频

请注意,特征的预测能力可能会因情境或领域而异。例如,在视频应用中,upload_date 之类的功能 与标签的关联性较低。不过,在 是游戏视频的子网域,upload_date 可能与 标签。

确定哪些特征具有预测能力可能非常耗时 过程。您可以手动探索某个特征的预测能力,方法是移除和 在训练模型时添加它。您可以使用 Pearson 相关系数调整互信息 (AMI)Shapley 值等算法自动查找特征的预测能力,这些算法可提供用于分析特征预测能力的数值评估。

检查您的理解情况

分析数据集时,您应该具备哪三个关键属性 要找些什么?
代表现实世界。
包含正确的值。
特征对标签具有预测能力。
足够小,可以加载到本地计算机上。
收集自各种无法预测的来源。

如需有关分析和准备数据集的更多指导,请参阅机器学习的数据准备和特征工程

预测与操作

如果无法将预测结果转化为 一项可帮助用户的操作也就是说,您的产品应从 输出结果。

例如,一个用于预测用户是否会认为视频有用的模型 应该馈送到推荐实用视频的应用中。一个可预测 是否将下雨输入天气应用。

检查您的理解情况

根据以下场景,确定使用机器学习是否是解决问题的最佳方法。

某大型组织的工程团队负责管理来电。

目标:告知来电者,他们将等待多长时间 当前通话音量。

他们还没有任何解决方案,但认为启发法 将当前 持通话的客户数量按接电话的员工数量计算; 然后乘以 10 分钟不过, 他们知道有些客户的问题在两分钟内就解决了 而另一些则最多可能需要 45 分钟或更长时间。

他们的启发法可能无法获得足够精确的数字。他们 可以创建包含以下列的数据集: number_of_callcenter_phonesuser_issuetime_to_resolvecall_timetime_on_hold

使用机器学习。工程团队有明确的目标。他们的 启发法不足以适合他们的应用场景。此时会显示数据集 为标签 time_on_hold 提供预测特征。
请勿使用机器学习。虽然他们有明确的目标, 应首先实施和优化非机器学习解决方案。此外,他们的 数据集似乎没有包含足够的具有预测能力的特征。