加强运行分析 提高管理水平
作者:网络转载 发布时间:[ 2011/10/31 16:31:55 ] 推荐标签:
数据挖掘并不是一项全新的技术,它的出现与发展有着其自身的必然性。用户不仅需要一般的查询和报表工具,更需要从多种相关联的数据中提取高质量的信息。一个数据挖掘处理系统不是多项技术的简单组合,而是一个完整的整体。
数据挖掘模型工作涉及了非常广阔的技术领域,当系统对应采用的技术有了明确的方向,系统的数据结构和内容也有了充分的适应性,采用合适的技术手段如数理统计方法、人工神经元网络、决策树等,能很好的解决问题。数理统计方法是数据挖掘工作中常用的主流技术手段,它可进行各种不同类型模型、不同特点数据的分析,并能产生各种有用的统计量和诊断信息。在多变量统计分析方面,它能提供主成分分析、典型相关分析、判别分析和因子分析等。数理统计工具不仅能揭示已有数据间的新关系、隐藏着的规律性,而且能反过来预测它的发展趋势,或是在一定条件下将会出现什么结果。数据挖掘工具应用于缺陷管理中,必须根据实际情况采用合适的算法:
关联分析:关联分析用于挖掘出数据间的相互关系,找出它们间的相关度。
序列分析:序列模式分析用于挖掘出同一类数据间的相互关系。
分类分析:分类分析根据数据库中的不同类别的记录,按照一个特征,将其归为新的一类。
聚类分析:聚类分析法是将数据库的数据集,按某一特征放在相应的类型中。同分类分析法不同的是聚类分析并不知道预先的缺陷分类。聚类分析还可以采用不同的算法,可以对相同的记录集产生不同的划分,找出具有满足该条件但尚未发生故障的配电设备,以辅助设备的预检修处理。
3.3模型研发
这一步是数据挖掘工作的核心环节。虽然数据挖掘模型化工作涉及了非常广阔的技术领域,但若系统对应采用的技术有了明确的方向,系统的数据结构和内容也有了充分的适应性。采用合适的技术手段如数理统计方法、人工神经元网络、决策树等,能很好的解决问题。
数理统计方法进行数据挖掘可进行各种不同类型模型、不同特点数据的分析,并能产生各种有用的统计量和诊断信息。人工神经元网络方法可用于相关性不强的多变量系统中。在系统的数据挖掘中使用哪一种方法,这主要取决于系统的数据集的特征和系统要实现的目标。
从上述过程中将会得出一系列的分析结果和模型,若能得出一个直接的结论当然很好,但更多的时候会得出对目标问题多侧面的描述。这时要能很好的综合它们的影响规律性提供合理的决策支持信息。所谓合理,实际上往往是要系统在所付出的代价和达到预期目标的可靠性的平衡上作出选择。假如在系统的数据挖掘过程中,预见到后要进行这样的选择的话,那末系统好把这些平衡的指标尽可能的量化,以利系统综合抉择。
系统提供的决策支持信息适用性如何,这显然是十分重要的问题。评价的办法之一是直接使用系统原来建立模型的数据来进行检验。说明系统确实从这批数据样本中挖掘出了符合实际的规律性。另一种办法是另外找一批数据,已知这些数据是反映客观实际的规律性的;这次的检验效果可能会比前一种差,若是差到系统所不能容忍程度,那要考虑第一次构建的样本数据是否具有充分的代表性;或是模型本身不够完善,这时候可能要对前面的工作进行反思了;若这一步也得到了肯定的结果时,那系统的数据挖掘应得到很好的评价了。再一种办法是在实际运行的环境中取出实时数据进行检验。以上叙述的是数据挖掘的基本流程,这一过程可能是要反复进行的,在反复过程中,不断的趋近事物的本质,不断的优化系统问题的解决方案。
模型在使用以后,还必须严格考查模型的工作情况。值得一提的是,决定成败的并不是模型本身,而是根据模型所采取的行动,只有通过监测终结果,才能正确地评价数据挖掘计划。
即使模型工作良好,也要坚持不断地监测模型的运行情况。随着时间的推移,所涉及的因素会有不同程度的发展和变化,这需要经常重新测试、再训练、甚至可能是彻底重构模型。绘出预测值与观察值的差别图是监控模型结果的一个好方法,这样可使图表更加容易使用和理解,而且还可以建造到软件当中,实现系统的自监控。

sales@spasvo.com