Python调用Tushare抓取上证指数并作初步分析示例-阿里云开发者社区

Python调用Tushare抓取上证指数并作初步分析示例

2018-10-12 3154

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

1.关于Tusahre

Tushare是一个免费、开源的python财经数据接口包。主要实现对股票等金融数据从数据采集、清洗加工到数据存储的过程，能够为金融分析人员提供快速、整洁、和多样的便于分析的数据。其网址为：http://tushare.org/，打开之后的界面如下：

a637804ba54b8d904428c2624f910d27f0602c81

在界面左侧，可以看到能够抓取很多数据。

2.Tushare的安装与使用

在Tushare界面有对其安装与使用的介绍：

4ce490f029c8e0f2d1e819859362d21611d3b7e9

初步的调用方法为：

import tushare as ts

ts.get_hist_data('600848') #一次性获取全部日k线数据

得到结果：

b7ef1547deca424997be76952176ffe0f1caa524

第一列是日期，后边的是各类价格，包括开盘价、最高价、收盘价等等，具体在Tushare里边都有详细介绍。

3.调用Tushare抓取上证指数并作可视化

上证指数的代码为00001，在这里抓取2017-01-01到2018-03-31期间的数据，并对其涨跌幅，也就是收益率进行初步可视化。代码如下：

import tushare as ts

import pandas as pd

import matplotlib.pyplot as plt

import numpy as np

df = ts.get_hist_data('000001',start='2017-01-01',end='2018-03-31')

df.head(10)

8fb37d967bb2b0b371d8034c45bc291ad55755b7

可以看到转去了上证指数的各类价格数据以及最后turnover的换手率。但是有一个问题就是数据的date的降序的，即日起从2018年3月往2017年1月排列的，需要排序。

sz=df.sort_index(axis=0, ascending=True) #对index进行升序排列

sz_return=sz[['p_change']] #选取涨跌幅数据

test=sz_return[255:] #测试集

train=sz_return[0:255] #划分训练集 #对训练集与测试集分别做趋势图

plt.legend(loc='best')

plt.figure(figsize=(10,5)) train['p_change'].plot() plt.show()

plt.legend(loc='best')

plt.figure(figsize=(10,5)) test['p_change'].plot(c='r')

plt.show()

e3726827c24e582056eaf6617919fe6153ab345f

蓝色为训练集序列波动图，红色为测试集序列波动图。

4.对上证指数收益率做初步时间序列分析

（1）直接用最后一个值作为测试集的预测值

757cc364c01089e071c08c6d841e7c831a7c37f6

蓝色为训练集序列，绿色为测试集序列，红色为预测值序列，得到RMSE为2.7924。

（2）直接用训练集平均值作为测试集的预测值

#Simple Average

y_hat_avg = test.copy() #copy test列表

y_hat_avg['avg_forecast'] = train['p_change'].mean() #求平均值

plt.figure(figsize=(12,8))

plt.plot(test['p_change'], label='Test')

plt.plot(train['p_change'], label='Train')

plt.legend(loc='best')

plt.plot(y_hat_avg['avg_forecast'], label='Average Forecast') plt.show()

print(rms)

rms = sqrt(mean_squared_error(test.p_change, y_hat_avg.avg_forecast))

9b8c759d8cc8be2acda7a50862e2577410726131

得到RMSE为2.4192。

（3）直接用移动平均法最后一个值作为测试集的预测值

#Moving Average

y_hat_avg = test.copy()

y_hat_avg['moving_avg_forecast'] = train['p_change'].rolling(30).mean().iloc[-1]

#30期的移动平均，最后一个数作为test的预测值 plt.figure(figsize=(12,8))

plt.plot(test['p_change'], label='Test')

plt.plot(train['p_change'], label='Train')

plt.legend(loc='best')

plt.plot(y_hat_avg['moving_avg_forecast'], label='Moving Average Forecast') plt.show()

print(rms)

rms = sqrt(mean_squared_error(test.p_change, y_hat_avg.moving_avg_forecast))

d7c949247060e69b2c751028d6526b2f0c06e1e0

得到RMSE为2.3849。

可以看到，最后移动平均法的均方误差最低，预测效果最好。

原文发布时间为：2018-10-11

本文作者：博观厚积

本文来自云栖社区合作伙伴“Python爱好者社区”，了解相关信息可以关注“Python爱好者社区”。

Python调用Tushare抓取上证指数并作初步分析示例

Python爱好者

热门文章

最新文章

相关课程

相关电子书

相关实验场景