主菜单 上一节  |  下一节

使用 Microsoft 决策树创建关系数据挖掘模型

数据挖掘模型是一种包含运行特定数据挖掘任务所需的全部设置的模型。

 

为什么?

数据挖掘对于发现和描述关系表中的隐藏模式非常有用。因为数据库中的数据增长很快,手动查找信息会变得非常困难。数据挖掘提供的算法允许自动模式查找。数据挖掘通常用于定义邮件列表或客户在 Web 站点上的下一移动。管理员现在可以在 Analysis Services 中设置将要训练数据的数据挖掘模型。然后,用户可以使用 ISV 客户端工具对受训数据运行高级分析。

方案:

市场部现在已渐渐熟悉数据挖掘的技术。他们认识到数据仓库中包含大量多维数据集所没有的信息。他们想分析这些详细的信息,以便找出这些信息是否能揭示关于客户购买行为的有意义的事实。  

在本节,将使用“Microsoft 决策树”算法创建一个关系挖掘模型,以便调查数据仓库中的数据。

如何创建揭示客户模式的数据挖掘模型

  1. 在 Analysis Manager 树窗格中右击“挖掘模型”文件夹,然后单击“新建挖掘模型”命令。
  2. 打开挖掘模型向导。在“欢迎使用挖掘模型向导”步骤中,单击“下一步”按钮。
  3. 在“选择源类型”步骤中,单击“关系数据”。单击“下一步”按钮。

    86.gif

  4. 在“选择事例表”步骤中,单击“单个表包含数据”。在“可用的表”框中选择“Customer”。单击“下一步”按钮。

    87.gif

  5. 在“选择数据挖掘技术”步骤中,在“技术”框中选择“Microsoft 决策树”。单击“下一步”按钮。

    62.gif

  6. 在“选择键列”步骤中,在“事例键列”框中单击“customer_id”。然后单击“下一步”按钮。

    88.gif

  7. 在“选择输入与可预测列”步骤中,选择以下列,然后用“>”按钮依次移动到“可预测列”框中:“marital_status”、“yearly_income”、“num_children_at_home”、“total_children”、“education”、“member_card”、“occupation”、“houseowner”和“num_cars_owned”。

    89.gif

  8. 这些列还将用作输入列。选择同样的列并通过“输入列”列表旁边的“>”按钮将其移动到“输入列”框中。单击“下一步”按钮。

    90.gif

  9. 在最后的步骤中,在“模型名称”框中输入“Advanced customer patterns discovery”。确保选择了“保存并立即处理”。单击“完成”按钮。

    91.gif

    注意: 处理数据挖掘模型可能会花费一些时间。
  10. 出现“处理”窗口,显示正在处理的模型。处理完成之后出现一则消息,说明“已成功完成处理”,单击“关闭”按钮。

 

如何读取客户决策树

  1. 现在已在关系挖掘模型编辑器中。可以使用此编辑器编辑模型的属性或浏览其结果。最大化关系挖掘模型编辑器。
  2. 单击右窗格底部的“内容”选项卡。
  3. 出现 Education 特征决策树。在数据挖掘向导中,从关系表中选择几个列作为挖掘模型的输入与可预测列。这意味着这些列用于培训模型并且也是模型决定可能预测的目标。 因此,关系挖掘模型为每个可预测的列生成一个决策树。每个决策树都是由节点定义,而节点又由其它列所决定。在 Education 决策树示例中可以看出,预见客户具有一定教育程度可能性的两个最重要的因素是:他或她的年收入(由决策树的第一层定义)及其职业(由决策树的第二层定义)。

    108.gif

  4. 现在有两种主要方法可以进一步调查和浏览决策树:可以双击决策树的一个节点,或者使用“内容选择区”窗格。可以看到决策树展开并超出了编辑器的右边界。若要访问这些不可见的节点,可以使所调查的分支中的某一节点成为当前决策树视图的新根。若要执行此操作,请双击所选节点。在此示例中,请双击“Yearly Income = $30K - $50K”。决策树使该节点成为当前视图的根并创建更多的空间以显示其所有的子代。

    109.gif  

  5. 在“内容选择区”窗格可以看到当前显示在“内容详情”窗格中的那部分树是放大的。现在,将鼠标移动到“内容选择区”窗格上,然后单击不同的位置。可以看到决策树根据鼠标的位置放大了显示在“内容详情”窗格中的部分。若要返回到最初的树窗格中,请在“内容选择区”窗格中将鼠标移动到树的根,然后单击此根以刷新“内容详情”窗格。

    110.gif

  6. 若要调查其它树,请从“预测树”框中选择“Yearly Income”。出现其决策树。可以看出该树比前一个树更深、更大。可以使用前一步骤中描述的两种浏览方法浏览此树。

    111.gif

  7. 以与此相似的方法,在“预测树”框中选择其它特征并调查各种特征模式。
  8. 完成对所有树的调查之后,就会更好地理解如何根据其它特征预测一个特定客户的特征。您可能要问:在所有的客户特征中,哪些特征最可能影响到其它特征?这个问题可以重新解释为:无论特定的决策树如何,客户特征中最强的相关是什么?浏览“相关性网络”可获得此信息。若要执行此操作,请继续前进到下一节
  9. 关闭关系挖掘模型编辑器。

 

 
主菜单 上一节  |  下一节