本章目标
- 掌握机器学习的五大基本流程步骤
- 理解每一步的作用与意义
- 熟悉机器学习的基本流程的相关概念
流程概览
机器学习不是写个模型就完事了,它是一个完整的工程流程。通常包括以下五个阶段:
我们可以把它想象成做一道菜的过程:

一、数据收集
官方定义: 这是整个流程的第一步,目的是获取用于训练模型的原始数据。
说人话版本: ;就像你要做饭,得先去超市买菜,机器学习也是一样,要先找到足够多的数据,比如图片、文本、表格等。
举个例子: 你想做一共能识别猫狗的程序,那你就得先收集很多张猫和狗的照片,每张照片还要标明是“猫”还是“狗”。
二、特征工程
官方定义: 将原始数据转换为模型可以理解的形式,提取出对预测有帮助的关键信息。
说人话版本: 你买了菜回来,不能之间扔锅里炒吧?得先洗一洗、切一切、腌一腌,让菜更容易被吸收味道。特征工程就是这个过程————把数据“处理好”,让模型更容易理解。
举个例子: 你想判断一个人会不会买你的产品。原始数据可能包括年龄、性别、浏览记录、历史订单等。你可以把这些数据转换成数值形式(比如男=0,女=1),或者计算平均购买金额、最近一次访问时间等更有意义的“特征”。

三、模型训练
官方定义: 使用处理好的数据来训练一个模型,让它学会输入和输出之间的映射关系。
说人话版本: 现在你终于开始炒菜了!你把处理好的食材放进锅里,加点调料,翻炒几下。在这个过程中,锅(模型)学会了“怎么把菜做得好吃”。
举个例子: 你喂给模型一堆“用户特征”和“是否购买商品”的数据,模型通过不断调整参数,慢慢学会了:“哦,原来年龄在30岁左右、经常浏览母婴产品的用户,更容易下单。”

四、模型评估
官方定义: 使用测试数据集评估模型的表现,看它是否准确、稳定、泛化能力强。
说人话版本: 菜做好了,你总得尝一口吧?如果太咸、太淡、或者没熟,就得重新调整火候。模型评估就是告诉你是“成功了”还是“还得练练”。
举个例子: 你训练了一个垃圾邮件分类器,然后拿一些新的邮件测试一下,发现它准确率很高,但误判了一些正常邮件为垃圾邮件。这时候你就知道模型还有优化空间。
五、模型部署
官方定义: 将训练好的模型集成到实际系统中,对外提供服务。
说人话版本: 菜炒好了,也尝过了,现在该端上桌让人吃了。模型部署就是把这个“聪明”的模型放到网站、App 或者服务器上,让别人也能用。
举个例子:
你训练了一个图像识别模型,现在想做成一个网页上传图片就能自动识别内容的功能。于是你用 Flask 或 FastAPI 把模型包装成 API,供前端调用。

六、总结

回复