数据标注的9个常用步骤

时间:2023-01-06 12:07:44

作者:极悦注册科技

浏览: 次

人工智能 (AI)、机器学习 (ML)、计算机视觉 (CV) 和深度神经网络 (DNN):这四个常见的流行词代表着现代企业的数十亿美元。机器学习使计算机系统能够解决从垃圾邮件过滤器等日常任务到早期癌症检测等复杂任务的问题。机器学习可能看起来令人生畏,听起来像是《黑客帝国》电影中描绘的科幻小说,但实际上,它只是数据、算法和训练迭代。在这篇博客中,我们将为有兴趣加入技术对话的人分解机器学习的九个常见步骤 。


机器学习分为三大类:监督学习、无监督学习和强化学习。在这里,由于其性能和受欢迎程度,我们将特别关注 监督学习。 简单地说,监督学习是算法或模型学习映射函数 f, 从输入变量 X  (分类数据、图像或文本)到输出变量 Y (所需结果或基本事实)。

Y= f(X)

目的是迭代训练模型以很好地估计映射函数,以便当您有新的输入 x 时,您可以使用模型准确预测相应的输出 y。之所以称为监督学习,是因为人类监督模型的预测,并在训练过程中使用地面实况提供适当的反馈。


工业解决方案中监督学习的常见示例包括自动驾驶汽车、银行服务中的欺诈检测和聊天机器人。这些解决方案需要监督学习模型来执行复杂的任务,例如对象检测、复杂模式识别和自然语言处理。要完成这些任务,我们需要对问题有清晰的认识、明确的策略和结构化的算法流水线。只有这样,我们才能训练出模仿甚至超越人类能力的模型。这些模型成功的关键是具有代表性、干净和结构化的数据集。监督学习听起来可能令人生畏,但标准过程从开始到结束总是遵循九个步骤。为了帮助您理解这个过程,请考虑自动驾驶汽车在停车标志前适当停车的问题。为了让汽车及时停车,它们首先需要“看到”和“识别”停车标志,因此我们需要训练一个监督学习模型,该模型可以将场景图像作为输入并近乎实时地确定, 现场是否包含停车标志。然后可以使用该预测来引导自动驾驶汽车在停车标志处停车。接下来,我们将探讨九个步骤中的每一个 监督学习过程。


第 1 步:数据收集

在大多数情况下,机器学习就像教蹒跚学步的孩子一样。它需要爱、耐心和大量数据!拥有大量高质量数据对于有效的监督学习至关重要。 描述场景或事件的数据通常是从多个来源和传感器流中收集的。在我们的示例中,多辆装有摄像头的汽车在城市中行驶了数天,以收集现实生活中的交通视频。这些原始视频或非结构化数据文件随后会落入 ML 专家的手中。

第 2 步:数据清理和分析

大量的非结构化数据可能是纯粹的混乱。为了使数据有意义,需要对其进行清理、结构化和整理。首先,ML 专家将来自多个来源的数据导入适当的存储库,标准化数据格式,并根据相关规则进行聚合。其次,机器学习专家检查损坏、重复或丢失的数据点,并丢弃可能影响数据集整体质量的不需要的数据。例如,一旦收集到多个交通视频,ML 专家将查找并删除损坏或冗余的文件(如果存在)。最后,机器学习专家使用标签对在不同条件下捕获的视频进行分类,例如白天、夜晚、晴天、下雨等。此步骤提供了对将用于训练、验证、


第 3 步:数据标注

现在,需要对清洗后的结构化数据进行标注。 标注 是将编码值分配给原始数据的过程。编码值包括但不限于分配类标签、绘制边界框和标记对象边界。需要高质量的标注来教授监督学习模型对象是什么以及测量训练模型的性能。目前,标注数据集占用了机器学习解决方案设计生命周期中的大部分时间和资源。大多数人估计,仅此过程就占用了机器学习专家 80% 的时间,例如,仅用于停车标志识别就需要对数小时的视频片段进行标注。如果没有这些标注,ML 专家将无法教导模型应该在场景中寻找什么。


第 4 步:数据可视化

一旦数据标注的艰巨任务结束,机器学习专家就会设计算法管道来训练模型。为了有效的算法设计并避免过程中的陷阱,我们首先尝试通过可视化代表性样本来理解数据,如果不是整个数据集本身。


第 5 步:数据丰富

充分了解数据分布及其潜在影响后,机器学习科学家可以根据需要丰富数据集。 数据丰富 是用于增强、扩充和细化数据点的过程,使数据集更健壮,因此更有价值。此步骤可能包括收集更多相关数据点、生成合成或增强数据点或转换现有数据点。在我们的示例中,如果我们发现在雨天条件下收集的停车标志仅占整个数据集的一小部分,我们可以扩充数据集以包含更多此类示例,以便模型学习这些特定条件。这种增强可以降低模型过度拟合特定条件的风险。


第 6 步:特征工程

完美的训练数据集并不是方程式中的唯一变量。ML 专家通常需要应用 领域知识来选择算法或技术 训练有效的预测模型。传统的 ML 过程需要将原始数据转换为表示或描述潜在问题的特征。通常需要专业知识和领域知识来手工制作一组丰富的功能并创建有影响力的解决方案。如果没有正确的特征组合,即使是足够的训练数据集也会导致模型性能不佳。在我们的示例中,我们可以提取多个描述停止标志的相关特征,例如颜色、形状等。这一步本质上是将图像转换为描述停止标志模式的数字矩阵。我们的模型将学习找到这些相同的模式,然后将这些模式输入到算法中,例如随机森林或支持向量机,它们通过解释识别出的特征来执行复杂的任务。然而,手动特征提取通常是一项繁琐的任务,需要进行大量的反复试验,这可能会注入人为偏见。为了消除这种错误来源,神经网络通常通过使用卷积运算来自动化特征提取过程。


第 7 步:培训和验证

将正确的数据集或特征拆分为不重叠的子集进行训练、验证和测试后, 模型的 迭代训练过程就开始了。ML 专家使用不同的指标密切监控训练,根据需要执行超参数调整,然后等待……等待……等待。在迭代训练过程结束时,我们将拥有一个检测停车标志的模型!我们做到了!但是对于现实世界的解决方案,我们必须牢记以下两个步骤。


第 8 步:部署

行业和组织对理想绩效有不同的门槛。一旦模型的性能超过该阈值,组织就可以开始部署他们的解决方案,以更快更好地解决现实世界中的问题。在我们的示例中,一旦算法通过了性能阈值,它将被用于实际的自动驾驶汽车以识别停车标志。


第 9 步:改进

继续改进他们的模型并根据新的业务需求调整它们符合 ML 专家的最大利益。因此,当这样的机会出现时,ML 专家会从机器学习过程的开始着手,以提高模型性能。

机器学习是一项令人兴奋的新兴技术,它正在迅速改变我们看待和解决人工智能领域复杂问题的方式,事实上,我们正在看到人类历史的分水岭,以及充满潜力的未来。随着研究界和行业将大量资源用于开发实用的 AI 解决方案,机器学习领域每天都在取得惊人的进步。尽管对于该领域的新手来说可能看起来很复杂且令人生畏,但用于开发高效 ML 解决方案的基本过程相当简单,并且需要大量高质量数据。数据仍然是机器学习中最重要的元素——正如他们所说,如果你很好地询问数据,它会承认。在“大数据”充斥着传感器、数据馈送和智能设备的时代,


做AI行业客户的数据参谋