决策树(二):连续值和缺失处理

连续值

离散化

连续值属性离散化二分法
对于连续属性a,有n个样本,考察包含n-1个区间的中点作为候选的划分点:

信息增益

选取能够获得信息增益最大的点t进行二分
注意

注意

连续值属性多次作为划分节点(划分值不同),每次划分出两个分支;但离散值属性只可划分一次,分出多个分支。

缺失值

有些样本缺失某些属性值,如图:

如果只要样本有缺失的值就舍弃,会浪费大量数据。

问题

  1. 如何在缺失值的数据集上进行属性划分。也就是对于某一个或几个属性,样本有缺失的值,我们如何计算信息增益等指标进行划分属性的选取
  2. 给定划分属性,若样本在该属性上缺失值,如何划分。也就是选好了划分属性,对于缺失该的样本,如何将其归类

解决方案


总结

这里总结一下,针对问题1如何选取分类属性,我们就分别针对每一个属性,计算该属性值没有缺失样本的信息增益,选择最大的作为分类属性。
确定好分类属性后,对于在该属性值缺失的样本,将其归入所有的分支节点,同时按可能的概率更改权重