商品详情
大数据对回归模型提出以下几个方面的要求: (1)稀疏性,“高维”数据的特征选择问题,选取重要特征,舍弃“冗余”或者信息含量少的特征,是回归算法面临的新挑战;(2)鲁棒性,对于含有异常点的回归问题,决策函数对异常点具有鲁棒性;(3)在线性,对于数据流问题,决策函数的回归系数应具有在线性,能够反映在线数据流的实时变化效应;(4) 异质性,高维数据具有后尾分布的异质性,如何使稀疏技术选择的特征能反映数据的整体分布特征,提取数据的异质信息。针对大数据的这些特征,本书在已有支持向量回归模型的研究基础上,将从以下几个方面展开研究:(1)融入L1模或Lp模稀疏正则项,构建稀疏支持向量回归模型,其能够从高维数据中选取相关的主要特征,舍弃无关的冗余特征,完成信息价值“提纯”;(2)设计具有鲁棒性的损失函数,使其决策函数不易受异常点的影响,即决策函数不受异常点的干扰,具有一定的稳健性; (3)采用增量算法,使其决策函数的回归系数具有动态性,反应数据流的实时性,克服非在线算法决策函数回归系数的固定不变性;(4)引入统计学的分位数回归思想,利用分位数精确地描述自变量对于因变量条件分布的整体影响,全面反映数据的分布特征。面对大数据,指数构建面临前所未有的挑战:(1) 如何排除噪声和异常点现象带来的干扰,是指数构建面临的一大挑战;(2)如何舍弃信息价值低的冗余指标,保留信息价值高的代表性指标,降低数据维度,是指数构建面临的第二大挑战;(3)如何满足在线数据的高频性,构建实时动态指数凸显在线信息,是指数构建面临的第三大挑战。针对指数构建面临的这些挑战,本书构建的各种支持向量回归模型恰能解决这些问题:首先处理数据的缺失等现象,排除噪声和异常点带来的干扰,采用稀疏支持向量回归模型,解决大数据背景下指标的选择问题,为指数构造提供高质量的“原材料”;其次针对数据高频在线的特点,采用在线支持向量回归模型,确定代表性指标的动态权重,凸显数据的实时动态效应。相信本书能为动态指数的构建提供新方法和新思路,开拓数学、统计学与机器学习的交叉研究,为大数据统计建模的发展贡献微薄之力。
- 经济科学出版社微商城
- 扫描二维码,访问我们的微信店铺