如需了解问题所在,请执行以下任务:
- 说明您正在开发或重构的产品的目标。
- 确定使用预测性机器学习能否最好地实现目标, 生成式 AI 或非机器学习解决方案。
- 如果您使用 预测性机器学习方法。
陈述目标
首先,用非机器学习术语陈述您的目标。我们的目标是 “我想要实现什么目标?”
下表明确说明了假设的应用的目标:
应用 | 目标 |
---|---|
天气应用 | 以六小时为增量计算某个地理区域的降水量。 |
时尚应用 | 生成各种衬衫设计。 |
视频应用 | 推荐实用视频。 |
“邮件”应用 | 检测垃圾邮件。 |
金融应用 | 总结多个新闻媒体的财经信息。 |
地图应用 | 计算行程时间。 |
银行应用 | 识别欺诈性交易。 |
餐饮应用 | 根据餐厅菜单识别菜肴。 |
电子商务应用 | 以有用的答案来回复评价。 |
机器学习应用场景清晰
有些人将机器学习视为一种适用于所有问题的通用工具。在 机器学习是一种专门针对特定问题的专用工具。您 不想实现复杂的机器学习解决方案,但需要一个更简单的非机器学习解决方案 有效。
机器学习系统可以分为两大类: 预测性机器学习和 生成式 AI。以下 表列出了它们各自的定义特征:
输入 | 输出 | 训练方法 | |
---|---|---|---|
预测机器学习 |
文本 图片 音频 视频 数值 |
进行预测,例如对 将电子邮件当作垃圾邮件或非垃圾邮件、猜测明天的雨水,或 预测股票价格。 通常可以根据现实验证输出结果。 | 通常使用大量数据来训练监督式模型, 非监督式学习或强化学习模型来执行 特定任务。 |
生成式 AI |
文本 图片 音频 视频 数值 |
根据用户的意图生成输出,例如 总结文章、制作音频片段或短视频。 | 通常使用大量无标签数据来训练大型语言模型 或图片生成器来填充缺失的数据。然后,该模型 这类任务可以是填空式任务,也可以是 并针对某些特定任务基于带标签的数据进行训练, 分类。 |
如需确认机器学习是正确的方法,请先验证您当前的非机器学习 解决方案。如果您没有实现非机器学习解决方案,请尝试 使用 启发式。
非机器学习解决方案是确定机器学习是否属于 适合用来解决问题比较时请考虑以下问题 进行机器学习的非机器学习方法:
画质。您认为机器学习解决方案有多好?如果您 认为机器学习解决方案可能只不过是微小的进步,这可能表明 目前的解决方案是最好的。
费用和维护。在两个行业中,机器学习解决方案 短期和长期?在某些情况下,它的 所需的计算资源和时间来实现机器学习。请考虑以下问题:
- 机器学习解决方案能否证明费用增加的合理性?请注意, 大型系统的改进,就能轻松证明成本的合理性, 实施机器学习解决方案所需的维护和维护工作。
- 该解决方案需要多少维护?在很多情况下,机器学习 需要专门的长期维护。
- 你的产品是否有支持培训或招聘的资源 拥有机器学习专业知识的人?
检查您的理解情况
预测性机器学习和数据
数据是预测式机器学习的驱动力。为了弥补 预测,您需要数据 包含具有预测性特征的特征 电源。您的数据应具有以下特征:
大量。您的 dataset, 您的模型会是什么样子。
一致且可靠。拥有一致且可靠的数据 将产生更好的模型。例如,基于机器学习的天气信息 模型将受益于 instruments。
受信任。了解数据的来源。数据 来自您控制的可信来源(例如来自您的产品的日志) 例如来自您不太了解的来源,例如其他来源的 机器学习系统?
可用。确保预测时所有输入都可用, 格式正确。如果难以从数据集内获取某些特征值, 请从数据集中省略这些特征。
正确。在大型数据集中, 标签中的值将不正确, 但如果有一小部分标签不正确,模型 会导致预测效果不佳。
代表性。数据集应该能够代表真实的 世界。换言之,数据集应准确反映 事件、用户行为和/或现实世界中 根据模型估算转化。使用非代表性数据集进行训练可能会导致性能不佳 发出调用请求。
如果您无法以所需格式获取所需数据,您的模型将 预测不佳。
预测能力
要使模型做出良好预测,数据集中的特征应该 预测能力。特征与标签的相关程度越高,就越有可能 进行预测了。
某些功能的预测能力将高于其他功能。例如,在
天气数据集,如 cloud_coverage
、temperature
和
dew_point
比moon_phase
或
day_of_week
。对于视频应用示例,您可以假设
video_description
、length
和 views
等数据可能是
用户想看哪些视频
请注意,特征的预测能力可能会因上下文或
网域更改。例如,在视频应用中,upload_date
之类的功能
与标签的关联性较低。不过,在
是游戏视频的子网域,upload_date
可能与
标签。
确定哪些特征具有预测能力可能非常耗时 过程。您可以手动探索某个特征的预测能力,方法是移除和 在训练模型时添加它。您可以自动查找地图项的 预测能力。 皮尔逊相关法, 调整相互信息 (AMI)、 和 Shapley 值、 它提供了数字评估,用于分析 feature.
检查您的理解情况
如需有关分析和准备数据集的更多指导,请参阅 机器学习的数据准备和特征工程。
预测与操作
如果无法将预测结果转化为 一项可帮助用户的操作也就是说,您的产品应从 输出结果。
例如,用于预测用户是否会认为视频有用的模型 应该馈送到推荐实用视频的应用中。一个可预测 是否将下雨输入天气应用。
检查您的理解情况
根据以下场景,确定使用机器学习是否为最佳选择 解决问题的方法。
大型组织中的一个工程团队负责管理 来电。
目标:告知来电者,他们将等待多长时间 当前通话音量。
他们还没有任何解决方案,但认为启发法 将当前 按接电话的员工数量得出的、等待通话的客户数量; 然后乘以 10 分钟不过, 他们知道有些客户的问题在两分钟内就解决了 而另一些则最多可能需要 45 分钟或更长时间。
他们的启发法可能无法获得足够精确的数字。他们
可以创建包含以下列的数据集:
number_of_callcenter_phones
、user_issue
、
time_to_resolve
、call_time
、
time_on_hold
。
time_on_hold
提供预测特征。