使用 Microsoft 决策树创建 OLAP 数据挖掘模型

数据挖掘模型是一种包含运行特定数据挖掘任务所需的全部设置的模型。

为什么？

数据挖掘对查找和描述特定多维数据集中的隐藏模式非常有用。因为多维数据集中的数据增长很快，所以手动查找信息可能非常困难。数据挖掘提供的算法允许自动模式查找及交互式分析。管理员可以在 Analysis Services 中设置将要训练数据的数据挖掘模型。然后，用户可以使用 ISV 客户端工具对受训数据运行高级分析。

方案：

市场部想提高客户满意度和客户保有率。于是实行了两个创造性的方法以达到这些目标。对会员卡方案重新进行定义，以便更好地为客户提供服务并且使所提供的服务能够更加密切地满足客户的期望。创办《每周赠券》杂志，将杂志送给客户群，以鼓励他们访问 FoodMart 商店。

为了重新定义会员卡方案，市场部想分析当前销售事务并找出客户人口统计信息（婚姻状况、年收入、在家子女数等等）和所申请卡之间的模式。然后根据这些信息和申请会员卡的客户的特征重新定义会员卡。

本节将创建一个数据挖掘模型以训练销售数据，并使用“Microsoft 决策树”算法在客户群中找出会员卡选择模式。请将要挖掘的维度（事例维度）设置为客户，再将 Member_Card 成员的属性设置为数据挖掘算法识别模式时要使用的信息。然后选择人口统计特征列表，算法将从中确定模式：婚姻状况、年收入、在家子女数和教育程度。下一步需要训练模型，以便能够浏览树视图并从中读取模式。市场部将根据这些模式设计新的会员卡，使其适应申请各类会员卡的客户类型。

如何创建揭示客户模式的数据挖掘模型

在 Analysis Manager 树视图中，展开“多维数据集”文件夹，右击“Sales”多维数据集，然后选择“新建挖掘模型”命令。
打开挖掘模型向导。在“选择数据挖掘技术”步骤中的“技术”框中选择“Microsoft 决策树”。单击“下一步”按钮。
在“选择事例”步骤中，在“维度”框中选择“Customer”。在“级别”框中，确保选择了“Lname”。单击“下一步”按钮。
在“选择被预测实体”步骤中，选择“事例级别的成员属性”。然后在“成员属性”框中选择“Member Card”。
单击“下一步”按钮。
在“选择训练数据”步骤中，滚动到“Customer”维度，清除“Country”、“State Province”和“City”框（因为不需要在聚集级别上而只需要在单独的客户级别上确定客户模式）。单击“下一步”按钮。
在“创建维度和虚拟多维数据集（可选）”步骤中，在“维度名称”框中输入“Customer Patterns”。然后在“虚拟多维数据集名称”框中输入“Trained Cube”。单击“下一步”按钮。
在最后的步骤中，在“模型名称”字段中键入“Customer patterns discovery”。确保选择了“保存并开始处理”。单击“完成”按钮。

注意：处理数据挖掘模型可能会花费一些时间。
出现一个窗口，显示模型正在处理之中。处理完成之后，出现一则消息，说明“已成功完成处理”，然后单击“关闭”按钮。

如何读取客户决策树

现在已在 OLAP 挖掘模型编辑器中。可以使用编辑器编辑模型属性或者浏览其结果。最大化 OLAP 挖掘模型编辑器。
决策树显示于右窗格中。其中包括四个窗格。中间的“内容详情”窗格 (1) 显示焦点所在的决策树的部分。“内容选择区”窗格 (2) 显示树的完整视图。该窗格使您可以将焦点设置到树的其它部分。其它的两个窗格分别是“特性”窗格 (3)（特性信息可以用“合计”选项卡以数值方式查看或者用“直方图”选项卡以图形方式查看）和与焦点所在节点相关联的“节点路径”区域 (4)。
在“内容详情”窗格的决策树区域中，颜色代表“事例”的密度（在本事例中为：客户的密度）。颜色越深则节点中包含的事例就越多。单击“全部”节点。该节点为黑色，因为它代表 (7632) 事例的 100%。7632 代表 1998 年活动的客户数目（即 Sales 多维数据集中有事务记录的客户）。这个数字也说明在 1998 年并非所有的客户都是活动的，因为我们从“Customer”维度的“Lname”级别中所包含的 9991 个客户中只得到 7632 个事例。
特性窗格显示“全部”节点中，所有事例的 55.83%（或者说 4263 个示例）可能选择铜卡 (Bronze)；11.50% 可能选择金卡 (Golden)；23.32% 可能选择普通卡 (Normal)；9.34% 可能选择银卡 (Silver)。如果没有显示百分比，则可以调整“特性”窗格中“合计”面板的“可能性”列的大小。
如果选择了树的不同节点，此百分比将会更改。让我们调查一下哪些客户可能选择金卡。若要执行此操作，则需要重新画出树以便勾画出金卡的高密度区。在右下角的“树颜色基于”字段中选择“Golden”。该树显示另一种颜色模式。可以看出“Customer.Lname.Yearly Income = $150K+”节点的密度高于其它任何节点。
树的第一个级别由“yearly income”属性决定。树的组织由算法决定，其基础是该属性在输出中的重要性。这意味着“yearly income”属性是最重要的因素，它将决定客户可能选择的会员卡的类型。选择“Customer.Lname.Yearly Income = $150K+”节点。该特性窗格显示收入较多的客户中，45.09% 的客户可能会选择金卡。这个百分比要比“全部”节点中的 (11.50%) 高得多。当继续在树中做进一步调查时，让我们调查一下这些百分比是如何演化的。
双击“Customer.Lname.Yearly Income = $150K+”节点。该树现在只显示“Customer.Lname.Yearly Income = $150K+”节点下的子树。选择“Customer.Lname.Marital Status = M”节点。在“节点路径”窗格中，可以看到包含于该节点的客户的完整的特征定义：收入高于 150000 美元且已婚的客户。该“特性”窗格现在显示：与上一级别 (45.09%) 相比，较高百分比 (81.05%) 的客户可能会选择金卡。
我们再返回到顶层，进行一种与此不同的调查，即调查可能选择普通卡的客户。若要返回顶层节点，可以单击从“Customer.Lname.Yearly Income = $150K+”节点左面伸出来的线（方法 1）或者使用“内容选择区”回到树的顶部（方法 2）。
在“树颜色基于”字段中选择“Normal”。树刷新节点的颜色之后，可以看到“Customer.Lname.Yearly Income = $150K+”节点的颜色非常浅；这意味着这些客户选择普通卡的可能性非常小。另一方面，可以看到“Customer.Lname.Yearly Income = $10K $30K”节点的颜色非常深。这意味着这些客户选择普通卡的可能性非常高。“特性”窗格显示在此年收入范围内的客户中，91.92% 的客户可能会选择普通卡。树还显示已无法对此节点进行进一步调查。这意味着在树的这个分支中，年收入是决定客户选择普通卡的可能性的唯一因素。
可以查看树的其它分支并调查客户选择一种卡而不选择另一种卡的可能性。市场部可以使用此信息来确定最可能选择某种类型卡的客户的特征。根据这些特征（收入、子女数、婚姻状况等等），可以重新定义会员卡服务和方案以便更好地适应其客户。
完成对决策树的分析之后，请关闭 OLAP 挖掘模型编辑器。