大数据金融分析实训教程（普通高等教育经管类专业精品教材）

￥57.80

运费：	¥ 0.00-22.00

立即购买

支付：: 微信支付银行卡支付宝

商品详情

书名：大数据金融分析实训教程（普通高等教育经管类专业精品教材）
定价：68.0
ISBN：9787518452446
作者：黄侃梅
版次：1
出版时间：2025-12

内容提要：
《金融大数据分析实训》是专为职业本科教育金融大数据分析课程设计的专业技能核心教材，总学时为64学时，同时该教材也能用于大数据金融实训课程。该教材融入了1+X金融大数据处理证书的最新技能要求，教材开发遵循职业教育人才培养与职业本科教育教学规律，在对课程所对应的金融数据分析师、金融数据产品经理岗位能力精准分析的基础上进行开发。内容涵盖如下主要项目,依次为：金融大数据基础认知、Python与金融数据处理入门、金融数据的采集与预处理、金融数据库的设计与应用、金融大数据统计与可视化、时间序列分析与预测模型、机器学习与金融数据应用、量化投资与回测、等等。所有的项目案例都取自深圳希施玛数据科技有限公司的真实项目，并且对应金融大数据分析的五大岗位流程，即数据采集、数据处理、数据存储、数据分析与挖掘、数据可视化与报告呈现。

作者简介：

黄侃梅，高校教师，副教授,高级理财规划师，高级金融科技师。长期从事证券实务专业、金融科技应用专业专业建设与研究，具有丰富的金融证券期货实战经历。主持或参与省市级课题项目10多项，在国内外知名期刊发表包括核心期刊的学术论文30余篇。拥有专利著作权2项，主编或参编各类教材7本，其中1本教材《投资与理财》荣获全国及上海市十四五规划教材奖。多次主持《证券投资理论与实务》、《期货交易实务》、《投资与理财》、《高等数学》、《统计学》的课程建设与研究，并荣获上海市精品在线课程荣誉2次，上海市教学资源库荣誉1次，教育部拓金课程荣誉1次等多项教研荣誉。

项目一金融大数据基础认知
任务一认识金融数据与大数据
任务实施
金融大数据认知训练
任务二认知金融大数据思维
任务实施
大数据思维训练
任务三了解数据相关法律法规
任务实施
数据法律法规认知训练

项目二 Python与金融数据处理入门
任务一初识Python
任务实施
Python环境的下载与安装
任务二认识Python数据分析的常用模块
任务实施
一、Python模块的安装和导入
二、人民币和美元的兑换

项目三金融数据的采集与处理
任务一金融数据Excel采集技术
任务实施
一、宏观数据采集
二、行业数据采集
三、上市公司数据采集
任务二金融数据Python采集技术
任务实施
一、了解Python自动化采集
二、利用Python进行接口数据采集
任务三金融数据Excel处理
任务实施
一、数据预处理
二、数据质检与清洗
任务四金融数据Python处理
任务实施
Python数据预处理

项目四金融数据库的设计与应用
任务一金融数据存储技术
任务实施
一、使用SQL语言创建股票信息表
二、使用SQL计算MACD指标
三、SQL语句处理数据缺失问题
任务二金融数据库设计与规范
任务实施
一、分析业务需求
二、构建ER图
三、优化设计
任务三金融数据查询与分析
任务实施
一、SQL数据查询
二、Python数据查询

项目五金融大数据统计与可视化
任务一描述性统计
任务实施
一、上证50指数收益率数据描述性统计分析
任务二数据可视化操作
二、Python作图分析

项目六时间序列分析与预测模型
任务一时间序列分析基础
任务实施
一、描述性统计与离散程度分析
二、自相关性、季节性、趋势与波动性分析
任务二时间序列变动趋势分析与预测
任务实施
一、序列差分分析
二、季节性波动和白噪声分析
任务三掌握时间序列预测模型（如ARIMA, GARCH）
任务实施
时间序列分析

项目七机器学习与金融数据应用
任务一机器学习基础与算法介绍
任务实施
用Python和scikit-learn库实现机器学习模型
任务二信用评分模型与操作
任务实施
基于逻辑回归建立个人贷款信用评分模型
任务三欺诈检测模型与操作
任务实施
构建信用卡欺诈检测模型
任务四股票价格预测模型与操作
任务实施
利用线性回归模型预测未来股票价格

项目八金融大数据在量化投资中的应用
任务一熟悉量化投资策略
任务实施
海龟交易策略
任务二 Python在量化策略开发中的应用
任务实施
同花顺（300033SZ）量化投资分析
任务三策略回测与性能评估
任务实施
股票回测与性能评估

项目九金融大数据在商业银行中的应用
任务一客户关系管理与数据分析
任务实施
构建RFM模型分析和评估客户价值
任务二信贷风险评估与模型构建
任务实施
测算对私客户违约风险
任务三信贷策略的优化与实践
任务实施
小微企业信贷风险评估

项目十金融大数据在保险行业的应用
任务一保险业定价策略与数据分析
任务实施
基于Python sklearn库构建差异化定价模型
任务二保险业精准营销与数据分析
任务实施
机器学习算法驱动保险精准营销模型实操

参考文献

在线试读：
二、数据格式规范（一）数据格式查看首先查看表3-4-1中各列的数据类型，如不符合预期则进行类型转换。代码如下： print(frame.dtypes) 运行结果如下：指标 object 地区 object 2016年 object 2017年 object 2018年 object 2019年 object 2020年 object dtype: object 2016年至2020年CPI数据均为object字符类型，需要将其转换成数值浮点型。（二）数据格式转换将2016年的数据转化为数值浮点型数据，程序如下，发现运行报错。 frame = frame.astype({‘2016年’:‘float64’}) ValueError: could not convert string to float: ’103%’ 检查运行错误原因，显示不能把字符串103%转换成float类型。观察表1.3.1，发现“河北省”的CPI数值后有‘%’，需要先去除‘%’，然后再转换成float类型。代码如下： #字符串的末尾（$）是%的，替换为空字符 frame=frame.replace(r’%$’,’’,regex=True) #将2016到2020年的列数据用字典方式转换为数值浮点型 frame = frame.astype({’2016年’:’float64’,’2017年’:’float64’,’2018年’:’float64’,’2019年’:’float64’,’2020年’:’float64’}) #查看转换后的数据类型是否是浮点型 print(frame.loc[:,[”2016年”, ”2017年”,”2018年”,”2019年”,”2020年”]].dtypes) 运行结果如下。 2016年 float64 2017年 float64 2018年 float64 2019年 float64 2020年 float64 dtype: object （三）空字符及特殊字符处理从表3-4-1的读取结果可以看到，“地区”列有一些空字符及特殊字符存在，这些符号不利于后续的数据存储及分析，需要进行清除。代码如下： #将1至多个任意空白字符替换成空字符 frame = frame.replace(r’\s+’,’’,regex=True) #将“地区”列数据中的特殊字符*和-去掉 frame[’地区’]=frame[’地区’].replace(r’\*’,’’,regex=True).replace(r’-’,’’,regex=True) 此外，从表3-4-1中可以发现各年的CPI数据小数位数并不统一，小数点后保留有1位，有的保留3位，有的是整数，应该要进行小数位数统一处理。但是后续在进行数据异常值检测、空值填充时可能要进行数据计算，并将计算结果填充或替换进frame数据中。通常计算出的数值是多位小数，这些多位小数被填充进frame中后，Python会自动将该位置所在列的全部数据变成统一小数位置，导致需要再次统一小数位数。因此暂时不进行小数位数统一，待全部计算完毕后再处理。三、异常值处理观察表3-4-1中数据，发现有个别CPI数据为空，在进行缺失值填充之前，先进行异常值检测，以免使用均值或邻近值填充缺失值的时候受到异常值的影响。通过查看各数据列的简单统计描述信息，找出明显异常的数据，代码如下。 print(frame.describe()) #查看数值类型列的统计描述信息运行结果如下： 2016年 2017年 2018年 2019年 2020年 count 32.000000 32.000000 31.000000 32.000000 31.000000 mean 104.131250 98.728750 101.749548 136.453750 107.826129 std 1.079626 1.099621 0.903570 167.074647 1.649638 min 101.560000 96.840000 100.224000 103.300000 104.800000 25% 103.275000 97.975000 101.066000 106.050000 106.715000 50% 104.300000 98.725000 101.739000 107.100000 107.900000 75% 104.747500 99.340000 102.350500 107.955000 108.950000 max 106.100000 101.100000 103.378000 1052.000000 111.600000 从统计结果可以发现，2019年列的最大值为1052，该数值明显和其他数值出入较大。经过原数据的比对，发现为数据录入时出现错误，将105.2误输入成1052，对表格数据进行更正。 print(frame[’2019年’].values) #输出替换前该列数据的值 frame[’2019年’].replace (1052,105.2, inplace=True) #inplace=True更正后结果覆盖原数据 print(frame[’2019年’].values) #输出替换后该列数据的值运行结果： [ 106.1 106.3 105.4 1052 104.6 …………] [106.1 106.3 105.4 105.2 104.6 105.9 ………] 四、重复值删除分析表3-4-1中数据，近五年CPI的值是允许出现重复的，无需进行判断和处理。只有“地区”列，不应该出现重复，因此只需分析该列是否存在重复数据。（一）重复值检测重复值的判断有多种方法，第一种是用duplicated()方法对每一行是否重复进行判断；第二种方法是利用describe()方法输出中的唯一值来进行重复值判断。第一种方法，使用duplicated()函数，代码如下。 print(frame.duplicated(’地区’)) 运行结果如下，发现22行出现重复值。 ………… 18 False 19 False 20 False 21 False 22 True 23 False 第二种方法，使用describe()函数，代码如下。 print(frame.describe(include=’object’)) 运行结果如下，发现“地区”列的“重庆市”重复了2次。指标地区 count 29 31 unique 1 30 top 食品重庆市 freq 29 2 结合两种方法的结果，可以得知22行、“地区”列重复了，重复值为“重庆市”。（二）重复值删除对比重复的两行数据，发现数据完全一致，因此需要将重复记录进行删除，代码如下： frame = frame.drop_duplicates(’地区’,keep=’last’) #将地区名出现重复的记录删除，保留最后出现的数据五、缺失值处理（一）空值检测从结果中明显发现一个空行，需要删除。除空行外，可以发现数据中还存在不少空值，用isnull()函数检测空值情况。代码如下： print(frame.isnull().all(axis=1)) #查看是否有全为空的行，axis=1表示按行查看 frame=frame.dropna(how=‘all’) #删除全部为空的行 print(frame.isnull().any()) #查看是否有存在任意一个空值的列运行结果如下：指标 True 地区 True 2016年 False 2017年 False 2018年 True 2019年 False 2020年 True dtype: bool 从运行结果可以看出，“指标”、“地区”、“2018年”、“2020年”4列都存在缺失值，但是无法得知空值的个数，需要再次去查询各列数据。当数据量较大时，通过人工观测缺失数据容易出现偏差，因此用info()函数查看每列数据的类型及非空值个数，对缺失值数量和位置进一步了解。代码如下： print(frame.info()) #查看数据从运行结果如下所示。可以看出一共有32行，“指标”列有29个非空值，也就是说有3个空值；“地区”、“2018年”、“2020年”三列均有31个非空值，1个空值。

Int64Index: 32 entries, 0 to 32 Data columns (total 7 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 指标 28 non-null object 1 地区 30 non-null object 2 2016年 31 non-null float64 3 2017年 31 non-null float64 4 2018年 30 non-null float64 5 2019年 31 non-null float64 6 2020年 30 non-null float64 dtypes: float64(5), object(2) memory usage: 1.9+ KB None