【正题名】:棉纺质量数据挖掘技术的研究 【作者】:王蕊 【出版年】:2008 【页码】:p.1-66 【总页数】:66p 【授予学位】:硕士 【授予学位单位】:浙江大学计算机科学与技术学院 【导师姓名】:林兰芬 【研究专业】:计算机应用技术 【馆藏号】:Y1248835 【分类号】:TP311.13 【关键词】:棉纺质量; 数据挖掘技术; 中国棉纺织业; 浙江春江棉纺企业 【正文语种】:CHI 【文摘】:随着数据库技术的迅速发展,以及数据库管理系统的广泛应用,各个应用领域积累的数据越来越多,激增的数据背后隐藏着许多重要的信息,用户希望能够对其进行更高层次的分析,以便更好的利用这些数据。虽然目前的数据库系统可以高效实现数据的录入、查询、统计等功能,但无法发现数据之间的关联以及蕴含的信息,无法根据现有的数据预测未来的发展趋势,缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏”的现象。中国棉纺织业是纺织工业中基础最好的传统产业,在国民经济中占有重要地位。信息技术的发展,使得棉纺业在生产管理和生产过程中积累了大量的业务数据。如何充分利用这些数据为企业创造效益,是纺织企业目前期待解决的重要问题,数据挖掘技术的诞生,为解决这类问题提供了一条有效的途径。本文以浙江春江棉纺企业的质量数据为基础,对棉纺企业成纱等级分类问题的技术难点进行分析,介绍了常用的分类方法如决策树分类、神经网络分类、支持向量机分类、遗传算法分类和朴素贝叶斯分类,给出了决策树分类算法和朴素贝叶斯分类算法在成纱等级分类问题上的具体实现。在决策树分类算法中通过计算训练集中各个属性的信息增益判断决策树中各个属性节点的顺序,以哈夫曼编码建立决策树,提出了决策树裁剪算法,提炼出成纱等级分类中用到的规则。朴素贝叶斯算法是在假设训练集各个属性之间相互独立的前提下进行的,首先计算各个训练属性与成纱等级之间的条件概率,通过贝叶斯理论计算出测试数据在每个成纱等级下的条件概率,将测试数据归入某个成纱等级。在本论文中,通过决策树和贝叶斯分类算法的实验数据的对比,分析了两种分类算法的优异。并在实验数据的基础上提出了改进的贝叶斯分类算法。 |