机器学习的分类
按"训练数据有没有标注"以及"学习目标是什么",机器学习可以分成几大类。搞清分类,选算法就不会懵。
一、监督学习(Supervised Learning)
特征:训练数据有标签(知道正确答案)。
比喻:老师给你一堆"题目 + 标准答案",让你学会做题。
典型任务:
- 分类(输出是离散的类别)
- 回归(输出是连续的数值)
3 个例子:
- 垃圾邮件分类(输入邮件文本,输出"垃圾/正常"二选一)
- 房价预测(输入面积/位置/楼层,输出具体价格)
- 图像识别(输入图片像素,输出"猫/狗/鸟"标签)
常用算法:线性回归、逻辑回归、决策树、SVM、随机森林、XGBoost、神经网络
二、无监督学习(Unsupervised Learning)
特征:训练数据没有标签(只有输入,没有标准答案)。
比喻:老师给你一堆题,没答案,让你自己找规律。
典型任务:
- 聚类:把相似的数据归成几堆
- 降维:把高维数据压成 2D/3D 方便可视化
- 异常检测:找出"长得不一样"的数据点
3 个例子:
- 用户分群(电商把用户分成"高频/低频/价格敏感"等)
- 新闻主题归类(没有预定义主题,自动发现)
- 信用卡异常交易检测(找"长得奇怪"的交易)
常用算法:K-Means、层次聚类、DBSCAN、PCA、t-SNE、自编码器
三、半监督学习(Semi-supervised Learning)
特征:少量有标签 + 大量无标签。
现实里给数据打标签很贵(要请人标注),无标签的数据却很便宜(直接爬)。半监督学习就是用一点点带标签的数据"撬动"大量无标签数据。
例子:医学影像——医院有 100 张标注好的 CT 片(医生花了几周),但有 10 万张未标注的。
四、强化学习(Reinforcement Learning)
特征:没有"输入-输出"对,而是智能体在环境里试错,做对了给奖励,做错了给惩罚。
比喻:训练小狗做动作,做对了给零食,做错了没奖励。
3 个例子:
- AlphaGo 下棋(每步棋的"对错"没有立即反馈,要到终局才知道输赢)
- 自动驾驶(撞墙了就是负奖励,安全行驶就是正奖励)
- 游戏 AI(《王者荣耀》《Dota 2》顶级 AI 都是强化学习训练的)
核心思想:智能体在状态 s 选择动作 a,环境返回新状态 s' 和奖励 r,智能体通过最大化长期累计奖励来学习策略。
四象限速查表
| 类型 | 数据 | 目标 | 代表算法 |
|---|---|---|---|
| 监督学习 | 有标签 | 预测 | 线性回归、SVM、神经网络 |
| 无监督学习 | 无标签 | 发现结构 | K-Means、PCA |
| 半监督学习 | 部分有标签 | 预测 | 自训练、协同训练 |
| 强化学习 | 无静态数据 | 最大化奖励 | Q-Learning、PPO |
小结
- 监督学习 = 有标准答案,无监督学习 = 没标准答案
- 强化学习是"和环境互动拿奖励"的范式,跟前两类完全不同
- 实际项目里,监督学习占了 80% 以上的工业落地场景
练习思考
- 给"预测明天北京的最高气温"分个类——它属于哪种学习?为什么?
- 为什么强化学习不能简单地归到监督/无监督?
- 在你熟悉的领域(教育、金融、医疗...),各想一个监督、无监督、强化的例子。
章末小测验
检验你对《机器学习的分类》的掌握程度。
1
把「识别手写数字」归类为哪种学习?
2
下列哪个问题最适合用强化学习?
3
准确率(Accuracy)在什么情况下会骗人?
学完这章, 你可能想看
讨论区(0)
加载评论中...