第一章1.3节提出了一个概念“版本空间”,搞明白之后其实是蛮简单的一个东西,按书上说的西瓜问题的假设空间如下(Ø表示不存在好瓜坏瓜之分):
编号 | 色泽 | 根蒂 | 敲声 |
---|---|---|---|
1 | * | * | * |
2 | 青绿 | * | * |
3 | 乌黑 | * | * |
4 | * | 蜷缩 | * |
5 | * | 硬挺 | * |
6 | * | 稍蜷 | * |
7 | * | * | 浊响 |
8 | * | * | 清脆 |
9 | * | * | 沉闷 |
10 | 青绿 | 蜷缩 | * |
11 | 青绿 | 硬挺 | * |
12 | 青绿 | 稍蜷 | * |
13 | 乌黑 | 蜷缩 | * |
14 | 乌黑 | 硬挺 | * |
15 | 乌黑 | 稍蜷 | * |
16 | 青绿 | * | 浊响 |
17 | 青绿 | * | 清脆 |
18 | 青绿 | * | 沉闷 |
19 | 乌黑 | * | 浊响 |
20 | 乌黑 | * | 清脆 |
21 | 乌黑 | * | 沉闷 |
22 | * | 蜷缩 | 浊响 |
23 | * | 蜷缩 | 清脆 |
24 | * | 蜷缩 | 沉闷 |
25 | * | 硬挺 | 浊响 |
26 | * | 硬挺 | 清脆 |
27 | * | 硬挺 | 沉闷 |
28 | * | 稍蜷 | 浊响 |
29 | * | 稍蜷 | 清脆 |
30 | * | 稍蜷 | 沉闷 |
31 | 青绿 | 蜷缩 | 浊响 |
32 | 青绿 | 蜷缩 | 清脆 |
33 | 青绿 | 蜷缩 | 沉闷 |
34 | 青绿 | 硬挺 | 浊响 |
35 | 青绿 | 硬挺 | 清脆 |
36 | 青绿 | 硬挺 | 沉闷 |
37 | 青绿 | 稍蜷 | 浊响 |
38 | 青绿 | 稍蜷 | 清脆 |
39 | 青绿 | 稍蜷 | 沉闷 |
40 | 乌黑 | 蜷缩 | 浊响 |
41 | 乌黑 | 蜷缩 | 清脆 |
42 | 乌黑 | 蜷缩 | 沉闷 |
43 | 乌黑 | 硬挺 | 浊响 |
44 | 乌黑 | 硬挺 | 清脆 |
45 | 乌黑 | 硬挺 | 沉闷 |
46 | 乌黑 | 稍蜷 | 浊响 |
47 | 乌黑 | 稍蜷 | 清脆 |
48 | 乌黑 | 稍蜷 | 沉闷 |
49 | Ø |
西瓜数据集如下:
编号 | 色泽 | 根蒂 | 敲声 | 好瓜 |
---|---|---|---|---|
1 | 青绿 | 蜷缩 | 浊响 | 是 |
2 | 乌黑 | 蜷缩 | 浊响 | 是 |
3 | 青绿 | 硬挺 | 清脆 | 否 |
4 | 乌黑 | 稍蜷 | 沉闷 | 否 |
书上说:
搜索过程可以不断删除与正例不一致的假设、和(或)与反例一致的假设。最终将会获得与训练集一致(即对所有训练样本能够进行正确性判断)的假设,这就是我们学得的结果。
假设1与数据1,2一致,但是也与数据3,4一致,删除
假设2与数据1一致,但是也与数据3一致,删除
假设3与数据2一致,但是也与数据4一致,删除
假设4与仅数据1,2一致,不删
假设10虽然与数据1一致,但是与数据2不一致,删除
最终得到的西瓜问题的版本空间是:
编号 | 色泽 | 根蒂 | 敲声 |
---|---|---|---|
4 | * | 蜷缩 | * |
7 | * | * | 浊响 |
22 | * | 蜷缩 | 浊响 |
版本空间内每一个假设都可以判断上面数据集中的每一条数据,是好瓜还是不是好瓜,但是用不同的假设判断一条新数据可能会得出不一样的结果,这属于“归纳偏好”问题。