在大数据时代,如何利用大数据进行有效分析已经成为各行各业关注的焦点。由于大数据的来源、数量、结构形式的不同、实时性等多样化的特点使其涵盖的价值很高,但其价值密度却很低。大数据集中存在的数据噪声和数据冗余会对数据分析产生不可估量的负面影响。此外,大数据集中还涵盖了多个变量之间的函数关系,可能会对数据分析结果产生一定的偏差。因此,在利用大数据进行分析研究之前首先要对大数据进行数据预处理,剔除冗余和无效数据。然而传统的大数据预处理方法并没有考虑变量之间的函数关系。数据包络分析(Data Envelopment Analysis,DEA)可以有效处理由变量之间函数关系引发的偏差问题。在利用DEA进行数据预处理的过程中,无需预知输入输出变量之间的函数关系、无需事先设定权重,通过求得的效率值筛选得到最有效的数据,剔除异常值和冗余值,在不改变数据质量的前提下缩减数据的数量,是一种可以应用于机器学习的数据预处理的有效方式。此外,常用的大数据建模工具不能有效地对包含复杂非线性关系的大数据进行建模。目前关于大数据建模比较好的方法有径向基函数(Radial-Basis Function,RBF)和支持向量机(Support Vector Machines,SVM)。RBF可以任意精度逼近任意非线性变量关系,更好的处理变量之间的复杂规律,为预测模型的发展提供了一个新的思路和办法,且预测精度较好,都取得了让人满意的效果。SVM能有效克服样本分布、冗余特征以及过度拟合等因素的不利影响,并在小样本、非线性预测方面具有较大优势,较好地解决了高维数和局部极小点等实际问题,具有很强的泛化能力。因此,本文选择RBF和SVM作为预测研究的主要模型。基于DEA数据预处理的有效性以及RBF和SVM预测精度较高的优点,本文提出了融合DEA和RBF、SVM的两种预测方法(DEA-RBF和DEA-SVM)。利用DEA进行数据预处理,筛选出最有效的数据集,减少RBF和SVM的训练时间。此外,在保持大数据普遍性的前提下消除了异常值,防止将具有负面影响的数据应用到RBF和SVM中,继而使得模型的预测精度更高。本文将DEA-RBF和DEA-SVM这两种改进的模型与单纯的RBF和SVM模型进行了对比研究。从时间成本和预测精度两个方面来看,与单纯的RBF和SVM模型相比,DEA-RBF和DEA-SVM两个模型均在训练时间减少的情况下提高了预测精度,预测效果较好,模型的有效性得以验证。RBF模型与SVM模型各有千秋,目前尚无成熟的理论能够指导在什么情况下选择哪种模型,更多的是依赖管理者或工程师的经验和数据集的特点。本文提出了两种改进的建模方法旨在为管理者或工程师提供更广阔的选择空间。最后,本文将DEA-SVM模型应用于葡萄酒质量评估,为葡萄酒行业的发展与企业的管理提供了决策支持。
基本信息
题目 | 面向大数据基于DEA和RBF/SVM的预测方法研究 |
文献类型 | 硕士论文 |
作者 | 陈烯烯 |
作者单位 | 南京邮电大学 |
导师 | 周晓剑 |
文献来源 | 南京邮电大学 |
发表年份 | 2020 |
学科分类 | 工程科技Ⅰ辑,信息科技 |
专业分类 | 轻工业手工业,计算机软件及计算机应用 |
基金 | 江苏省研究生科研与实践创新计划项目 |
分类号 | TP311.13;TS262.6 |
关键词 | 大数据,数据包络分析,径向基函数,支持向量机,葡萄酒质量评估 |
总页数: | 58 |
文件大小: | 1165k |
论文目录
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景 |
1.2 研究目标与意义 |
1.3 总体研究框架 |
1.3.1 研究框架 |
1.3.2 研究内容 |
1.3.3 技术路线图 |
第二章 基本理论及其研究现状 |
2.1 大数据预处理方法的研究现状 |
2.2 数据包络分析的基本理论和研究现状 |
2.2.1 数据包络分析的基本理论 |
2.2.2 基于DEA数据预处理方法的优势 |
2.2.3 DEA数据预处理的研究现状 |
2.3 径向基函数的基本理论和研究现状 |
2.3.1 径向基函数的基本理论 |
2.3.2 径向基函数的研究现状 |
2.4 支持向量机的基本理论和研究现状 |
2.4.1 支持向量机的基本理论 |
2.4.2 支持向量机的研究现状 |
2.5 基于抽样方法和建模方法结合的研究现状 |
2.6 本章小结 |
第三章 DEA-RBF和 DEA-SVM模型的构建 |
3.1 基于DEA的数据预处理 |
3.2 DEA-RBF模型的构建 |
3.2.1 RBF算法 |
3.2.2 DEA-RBF方法 |
3.3 DEA-SVM模型的构建 |
3.3.1 SVM算法 |
3.3.2 DEA-SVM方法 |
3.4 本章小结 |
第四章 DEA-RBF和 DEA-SVM的仿真研究 |
4.1 数据集的选取与变量的选择 |
4.2 DEA筛选过程 |
4.3 DEA-RBF的仿真实验 |
4.3.1 DEA-RBF实验设计 |
4.3.2 DEA-RBF实验结果分析 |
4.4 DEA-SVM模型的仿真实验 |
4.4.1 DEA-SVM实验设计 |
4.4.2 DEA-SVM实验结果分析 |
4.5 DEA-RBF、DEA-SVM和 DEANN的比较 |
4.6 本章小结 |
第五章 基于DEA和 SVM的葡萄酒质量预测研究 |
5.1 葡萄酒质量预测的研究背景和意义 |
5.2 葡萄酒质量评估实验测试与分析 |
5.2.1 实验设计 |
5.2.2 实验结果与分析 |
5.3 本章小结 |
第六章 总结与展望 |
6.1 全文总结 |
6.2 不足与展望 |
参考文献 |
附录1 攻读硕士学位期间撰写的论文 |
附录2 攻读硕士学位期间主持及参加的科研项目 |
致谢 |
参考文献
[1] 基于三阶段DEA模型的海洋渔业生态效率研究——以青岛、烟台、威海三个城市为例[J]. 渔业研究 2020(06) |
[2] 基于三阶段DEA模型的科技企业孵化器运行效率测度[J]. 统计与决策 2020(24) |
[3] 基于改进DEA方法的中欧班列开行方案评价[J]. 交通运输工程与信息学报 2020(04) |
[4] 基于DEA模型对生物医药产业融资效率的研究[J]. 河北企业 2021(01) |
[5] 基于DEA的西藏地区卫生资源配置效率纵向分析[J]. 卫生软科学 2021(02) |
[6] 基于DEA模型的我国社区养老服务效率评价[J]. 卫生软科学 2021(03) |
[7] 土地流转背景下基于DEA模型的农业生产效率的研究[J]. 农业科技通讯 2019(12) |
[8] 基于DEA模型的全国中医医院卫生资源配置效率研究[J]. 中国医药导报 2019(36) |
[9] 我国邮政业运营效率的DEA测评及优化[J]. 区域治理 2019(42) |
[10] 基于DEA的住房公积金运行效率实证研究[J]. 产业与科技论坛 2019(24) |
[11] 基于DEA方法的京津冀地区建筑类上市公司技术效率实证分析[J]. 辽宁工业大学学报(自然科学版) 2020(01) |
[12] 基于超效率DEA模型的长江经济带物流效率实证分析[J]. 物流工程与管理 2020(02) |
[13] 河南省区域创新效率研究——基于DEA模型的实证分析[J]. 洛阳理工学院学报(社会科学版) 2020(01) |
[14] 基于DEA方法的江苏省农业生产效率评价[J]. 中国农业会计 2019(12) |
[15] 基于网络DEA模型的天津市社区卫生服务中心公共卫生服务效率分析与评价[J]. 中国慢性病预防与控制 2020(03) |
[16] 基于DEA模型的我国高等教育资源配置效率研究[J]. 吕梁教育学院学报 2019(04) |
[17] 基于DEA模型的高校体育教学评价改革的思考[J]. 体育科技文献通报 2020(05) |
[18] 基于DEA混合模型窗口分析的地区环境效率动态评价[J]. 经济研究导刊 2020(14) |
[19] 基于DEA方法的住房公积金运行效率研究[J]. 长春理工大学学报(社会科学版) 2020(03) |
[20] 基于DEA模型的某省58个集中连片贫困县(区)卫生资源配置效率的研究[J]. 中国医药指南 2020(15) |
[21] 公共管理类研究生教育的DEA方法评价[J]. 教育教学论坛 2020(22) |
[22] 基于DEA视窗分析的旅游扶贫效率研究——以秦巴山区陕甘川毗邻区4市为例[J]. 安康学院学报 2020(03) |
[23] 基于DEA模型的房地产上市企业资金使用效率研究[J]. 营销界 2020(09) |
[24] 我国财务公司资金使用效率分析——基于DEA方法的实证分析[J]. 现代营销(信息版) 2020(06) |
[25] 我国农业保险扶贫效率研究——基于三阶段DEA模型的分析[J]. 价格理论与实践 2020(04) |
[26] 基于两阶段DEA模型的高校科技创新对区域创新绩效影响[J]. 经济地理 2020(08) |
[27] “一带一路”沿线省区高技术产业创新效率研究——基于修正广义DEA模型[J]. 内蒙古大学学报(自然科学版) 2020(05) |
[28] 基于三阶段DEA模型的长江干线主要港口效率评价[J]. 上海海事大学学报 2020(03) |
[29] 基于DEA的煤矿职业健康管理效率评价研究[J]. 煤矿安全 2020(09) |
[30] 基于DEA模型的海南省农场医院与非农场医院服务效率对比研究[J]. 江苏卫生事业管理 2020(09) |
相似文献
[1]基于DEA的我国省域软件产业效率研究[D]. 白文.江西财经大学2015 |
[2]基于模糊DEA的林业上市公司高管绩效评价研究[D]. 王国军.东北林业大学2011 |
[3]数据预处理机制的研究与系统构建[D]. 崇卫之.南京邮电大学2018 |
[4]基于SSD的验证码识别研究[D]. 罗建江.重庆大学2018 |
[5]手机产品特征与情感关联关系研究与系统实现[D]. 高威.北京邮电大学2018 |
[6]面向非结构化文本大数据预处理中间件系统的设计与实现[D]. 印聪.武汉理工大学2015 |
[7]基于DEA的我国软件产业横向与纵向效率评估[D]. 姜熙.北京邮电大学2011 |
[8]基于DEA模型的农村信用社效率评价系统的研究与设计[D]. 谢燕飞.湖南大学2014 |
[9]基于粗糙集理论的数据预处理研究[D]. 李阳锋.哈尔滨理工大学2008 |
[10]数据质量控制:数据预处理研究、设计与实现[D]. 栾江.四川大学2004 |
基于DEA和RBF / SVM的大数据预测方法研究
下载Doc文档