极客时间-轻松学习，高效学习-极客邦

Geek_2a6093

2019-03-18

老师能不能讲一下LSTM

作者回复: LSTM也是不错的方式，不过LSTM就像是炼金术，需要的计算量（时间）有些大了



 11
钟朗🐾

2019-04-20

老师，为什么这个没有对数据进行单位根检验和白噪声检验，这样会不会粗暴了点尼

 1

 5
王彬成

2019-03-18

# -*- coding:utf-8 -*-
# 编码使用 ARMA 模型对沪市指数未来 10 个月（截止到 2019 年 12 月 31 日）的变化进行预测
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from statsmodels.tsa.arima_model import ARMA
import warnings
from itertools import product
from datetime import datetime
warnings.filterwarnings('ignore')

# 数据加载
df=pd.read_csv('./bitcoin-master/shanghai_1990-12-19_to_2019-2-28.csv')
# 将时间作为 df 的索引
df.Timestamp=pd.to_datetime(df.Timestamp)
df.index=df.Timestamp

# 数据探索
print(df.head())

# 按照月来统计
df_month=df.resample('M').mean()

# 按照月来显示沪市指数的走势
fig=plt.figure(figsize=[15,7])
plt.rcParams['font.sans-serif']=['SimHei']
plt.suptitle('沪市指数',fontsize=20)

plt.plot(df_month.Price,'-',label='按月')
plt.legend()
plt.show()

# 设置参数范围
ps=range(0,3)
qs=range(0,3)
parameters=product(ps,qs)
parameters_list=list(parameters)

# 寻找最优 ARMA 模型参数，即 best_aic 最小
results=[]
best_aic=float('inf')# 正无穷
for param in parameters_list:
    try:
        model=ARMA(df_month.Price,order=(param[0],param[1])).fit()
    except ValueError:
        print('参数错误:',param)
        continue
    aic=model.aic
    if aic<best_aic:
        best_model=model
        best_aic=aic
        best_param=param
    results.append([param,model.aic])
# 输出最优模型
result_table=pd.DataFrame(results)
result_table.columns=['parameters','aic']
print('最优模型:',best_model.summary())

# 沪市指数预测
df_month2=df_month[['Price']]
date_list= [datetime(2019, 3, 31), datetime(2019, 4, 30), datetime(2019, 5, 31), datetime(2019, 6, 30), datetime(2019, 7, 31),
             datetime(2019, 8, 31), datetime(2019, 9, 30), datetime(2019, 10, 31),datetime(2019, 11, 30),datetime(2019, 12, 31)]
future=pd.DataFrame(index=date_list,columns=df_month.columns)
df_month2=pd.concat([df_month2,future])
df_month2['forecast']=best_model.predict(start=0,end=348)
# 沪市指数预测结果显示
plt.figure(figsize=(20,7))
df_month2.Price.plot(label='实际指数')
df_month2.forecast.plot(color='r',ls='--',label='预测指数')
plt.legend()
plt.title('沪市指数（月）')
plt.xlabel('时间')
plt.ylabel('指数')
plt.show()

展开

作者回复: Good Job



 5
王彬成

2019-03-18

运行沪市指数数据结果为：
参数错误: (0, 2)
最优模型: ARMA Model Results
预测数据：
2019-03-31        2841.753594
2019-04-30        2862.532373
2019-05-31        2816.252354
2019-06-30        2801.829572
2019-07-31        2773.588278
2019-08-31        2752.587602
2019-09-30        2729.086661
2019-10-31        2707.560415
2019-11-30        2685.923215
2019-12-31        2665.117874
-----------
df_month2['forecast']=best_model.predict(start=0,end=348)理解
start=0表示从第0课数据开始计算
end=348是指需要计算348个数据，即从1990-12-19到2019-12-31一共有348个月，所以有348个数据

展开

作者回复: 对的



 4
张丽斌

2019-04-01

这是刚好撞对了吧，比特币、股市什么的预测受各种因素影响太大了。更多是考虑动态因素

作者回复: 对很多因素



 3
叁

2019-09-19

我觉得确实有些问题，在是同arma模型之前没有对数据平稳性检验，毕竟模型是基于平稳性的。

作者回复: 可以使用ARIMA模型



 2
滢

2019-04-26

想问下老师，（1）对于类似于彩票这种类型的数据该用什么算法分析？（2）对于ARMA的最优只能人为赋值，循环检测最大值吗？若数据多的情况怎么办？

作者回复: 1）彩票这种用什么没有用，因为是完全随机性，找不到规律的，或者用规律解决不了问题
2）ARMA 可以赋值个范围，让它在范围内自己来寻找适合的参数，一般超参数优化都是这样操作
加油滢



 2
骑行的掌柜J

2019-09-26

我用ARIMA模型对老师一开始的那组时间序列进行了分析预测，因为字数限制：省略一开始的数据加载和最后的预测步骤，但是加入对差分次数d的查找、找ARIMA模型的p、q值和模型检验三个步骤，希望对大家有用，谢谢
# -*- coding: utf-8 -*-
# 用 ARIMA 进行时间序列预测
import numpy as np
from statsmodels.graphics.tsaplots import acf,pacf,plot_acf,plot_pacf
#2.下面我们先对非平稳时间序列进行时间序列的差分，找出适合的差分次数
#fig = plt.figure(figsize=(12, 8))
#ax1 = fig.add_subplot(111)
#diff1 = data.diff(1)
#diff1.plot(ax=ax1)
#这里是做了1阶差分，可以看出时间序列的均值和方差基本平稳，
#这里我们使用一阶差分的时间序列，把上面代码注释掉
#3.接下来我们要找到ARIMA模型中合适的p和q值：
data = data.diff(1)
data.dropna(inplace=True)
#第一步：先检查平稳序列的自相关图和偏自相关图
fig = plt.figure(figsize=(12, 8))
ax1 = fig.add_subplot(211)
fig = sm.graphics.tsa.plot_acf(data,lags=40,ax=ax1)
#lags 表示滞后的阶数，下面分别得到acf 图和pacf 图
ax2 = fig.add_subplot(212)
fig = sm.graphics.tsa.plot_pacf(data, lags=40,ax=ax2)
#由下图我们可以分别用ARMA(0,1)模型、ARMA(7,0)模型、ARMA(7,1)模型等来拟合找出最佳模型：
#第三步:找出最佳模型ARMA
arma_mod1 = sm.tsa.ARMA(data,(7,0)).fit()
print(arma_mod1.aic, arma_mod1.bic, arma_mod1.hqic)
arma_mod2 = sm.tsa.ARMA(data,(0,1)).fit()
print(arma_mod2.aic, arma_mod2.bic, arma_mod2.hqic)
arma_mod3 = sm.tsa.ARMA(data,(7,1)).fit()
print(arma_mod3.aic, arma_mod3.bic, arma_mod3.hqic)
arma_mod4 = sm.tsa.ARMA(data,(8,0)).fit()
print(arma_mod4.aic, arma_mod4.bic, arma_mod4.hqic)
#由上面可以看出ARMA(7,0)模型最佳
#第四步：进行模型检验，首先对ARMA(7,0)模型所产生的残差做自相关图
resid = arma_mod1.resid
#一定要加上这个变量赋值语句，不然会报错resid is not defined
fig = plt.figure(figsize=(12, 8))
ax1 = fig.add_subplot(211)
fig = sm.graphics.tsa.plot_acf(resid.values.squeeze(),lags=40,ax=ax1)
ax2 = fig.add_subplot(212)
fig = sm.graphics.tsa.plot_pacf(resid, lags=40,ax=ax2)
#接着做德宾-沃森（D-W）检验
print(sm.stats.durbin_watson(arma_mod1.resid.values))
#得出来结果是不存在自相关性的
#再观察是否符合正态分布,这里用qq图
fig = plt.figure(figsize=(12,8))
ax = fig.add_subplot(111)
fig = qqplot(resid, line='q',ax=ax, fit=True)
#最后用Ljung-Box检验:检验的结果就是看最后一列前十二行的检验概率（一般观察滞后1~12阶）
r,q,p = sm.tsa.acf(resid.values.squeeze(),qstat=True)
data1 = np.c_[range(1,41), r[1:], q, p]
table= pd.DataFrame(data1, columns=[ 'lag','AC','Q','Prob(>Q)'])
print(table.set_index('lag'))

展开

作者回复: Good Job，使用差分之后，再进行的ARMA模型

 2

 1
堂吉诃德

2019-03-18

1. parameters = product(ps, qs)
parameters为可迭代对象, 直接使用
for param in parameters:
不用再转为列表吧?

2. 回答一下 @Grandia_Z
时间序列操作
date_list = pd.date_range('2019-03-31', '2019-12-31', periods=None, freq='D')
希望你能看到

展开



 1
跳跳

2019-03-18

一、AR、MA、ARMA、ARIMA的区别
AR的核心思想是过去若干点的线性组合，再加上白噪声预测未来时刻点的值。
MA的核心思想是通过历史白噪声线性组合来影响当前的时刻点。
ARMA：结合AR、MA的思想，综合考虑历史白噪声和当前白噪声，预测未来时刻点。
ARIMA：较ARMA多了差分过程，对不平衡数据进行了差分平稳。
二、沪市指数预测结果如下：
参数错误: (0, 2)
最优模型: ARMA Model Results
==============================================================================
Dep. Variable: Price No. Observations: 339
Model: ARMA(2, 2) Log Likelihood -2208.110
Method: css-mle S.D. of innovations 162.159
Date: Mon, 18 Mar 2019 AIC 4428.219
Time: 10:59:23 BIC 4451.175
Sample: 12-31-1990 HQIC 4437.367
- 02-28-2019

展开

作者回复: 很好的总结，同时赞下完成作业的同学



 1
小狮子(*¯︶¯*)

2020-02-09

不做平稳性检测就能直接用ARMA模型？




Ronnyz

2019-12-02

AR
随机变量的取值是前p期的多元线性回归，认为主要受过去p期的序列值影响。误差项是当前的随机干扰，为零均值白噪声序列
MA
在t时刻的随机变量的取值是前q期的随机扰动的多元线性函数。误差项是当期的随机干扰,为零均值白噪声序列，是序列的均值。认为主要受过去q期的误差项影响。
ARMA
随机变量的取值不仅与以前p期的序列值有关还与前q期的随机扰动有关。
ARIMA
将ARMA和差分法结合，得到ARIMA(p,d,q)，其中d是需要对数据进行差分的阶数。

#设置参数调整范围
p_scope=range(0,3)
q_scope=range(0,3)
最优模型：
Model: ARMA(2, 2)
AIC 4428.219

展开

作者回复: Ronnyz同学整理的不错




滢

2019-04-26

A股预测，语言Python3.6 ，最佳模型ARMA(5, 4)，设置的范围稍大，得到的结果还蛮接近，可以设置的再大一些，不过数据优点多跑起来时间较长。
#数据加载
path = '/Users/apple/Desktop/GitHubProject/Read mark/数据分析/geekTime/data/'
df = pd.read_csv(path + 'shanghai_1990-12-19_to_2019-2-28.csv')
#将时间作为df的索引
df.Timestamp = pd.to_datetime(df.Timestamp)
df.index = df.Timestamp
#数据探索
print(df.head())
df_month = df.resample('M').mean()
print(df_month.head())

#按照天、月、季度、年显示A股走势
fig = plt.figure(figsize=[15,7])
plt.rcParams['font.sans-serif']=['SimHei']
plt.suptitle('A股指数',fontsize = 18.0)
plt.plot(df_month.Price, '-', label ='按月')
plt.legend()
plt.show()

#设置参数范围
ps = range(0,7)
qs = range(0,7)
parameters = product(ps,qs)
parameters_list = list(parameters)
#寻找最优ARMA模型参数，aic最小
results = []
best_aic = float("inf")
for param in parameters_list:
    try:
        model = ARMA(df_month.Price,order=(param[0],param[1])).fit()
    except ValueError:
        print('参数错误:',param)
        continue
    aic = model.aic
    if aic < best_aic:
        best_model = model
        best_aic=aic
        best_param = param
    results.append([param,model.aic])

#输出最优模型
result_table = pd.DataFrame(results)
result_table.columns = ['parameters','aic']
print('最佳模型:',best_model.summary())
#A股预测
df_month_value = df_month[['Price']]
date_list = [datetime(2019,3,31),datetime(2019,4,30),datetime(2019,5,31),
             datetime(2019,6,30),datetime(2019,7,31),datetime(2019,8,31),
             datetime(2019,9,30),datetime(2019,10,31),datetime(2019,11,30),
             datetime(2019,12,31)]
future = pd.DataFrame(index=date_list,columns=df_month.columns)
df_month_value = pd.concat([df_month_value,future])
df_month_value['forecast']=best_model.predict(start=0, end=348)
#A股预测结果展示
plt.figure(figsize=(20,7))
df_month_value.Price.plot(label='实际金额')
df_month_value.forecast.plot(color='r', ls='--', label='预测金额')
plt.legend()
plt.title('A股金额（月）')
plt.xlabel('时间')
plt.ylabel('指数')
plt.show()

展开

作者回复: Good Job




Geek_dancer

2019-03-26

老师，ARMA是完全根据过去时序中的数据走势规律来进行预测的吗？但是大部分预测还是会受其他特征属性的影响，从而影响其走势还有波动。我用ARMA做了电力系统的负荷预测，对比了之前用SVM做的预测，感觉ARMA的预测测精度相当低，预测曲线基本就是一个一次线性曲线，有一个大概的趋势，负荷的周期波动性完全没有体现。请问这是ARMA的局限性决定的，还是我没有训练好啊。

作者回复: 对你可以先看下是否是平稳序列，如果不是的话，就需要先做差分，也可以直接使用ARIMA




Destroy、

2019-03-25

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from statsmodels.tsa.arima_model import ARMA
import warnings
from itertools import product
from datetime import datetime
warnings.filterwarnings('ignore')
df = pd.read_csv('shanghai_1990-12-19_to_2019-2-28.csv')
df.index = pd.to_datetime(df.Timestamp)
df_month = df.resample('M').mean()
# 设置参数范围
ps = range(0, 3)
qs = range(0, 3)
parameters = product(ps, qs)
parameters_list = list(parameters)
# 寻找最优ARMA模型参数，即best_aic最小
results = []
best_aic = float('inf') # 正无穷
for param in parameters_list:
    try:
        model = ARMA(df_month.Price, order=(param[0], param[1])).fit()
    except ValueError:
        print('参数错误：', param)
        continue
    aic = model.aic
    if aic < best_aic:
        best_model = model
        best_aic = aic
        best_param = param
    results.append([param, model.aic])
# 输出最优模型
result_table = pd.DataFrame(results)
result_table.columns = ['parameters', 'aic']
print('最优模型：', best_model.summary())
# 股市预测
date_list = [datetime(2019, 3, 31), datetime(2019, 4, 30), datetime(2019, 5, 31), datetime(2019, 6, 30),
             datetime(2019, 7, 31), datetime(2019, 8, 31), datetime(2019, 9, 30), datetime(2019, 10, 31),
             datetime(2019, 11, 30), datetime(2019, 12, 31)]
future = pd.DataFrame(index=date_list, columns=df_month.columns)
df_month = pd.concat([df_month, future])
df_month['forecast'] = best_model.predict(start=0, end=348)
# 预测结果显示
plt.figure(figsize=(20, 7))
df_month.Price.plot(label='实际指数')
df_month.forecast.plot(color='r', ls='--', label='预测指数')
plt.legend()
plt.title('金额（月）')
plt.xlabel('TIME')
plt.ylabel('RMB')
plt.show()

展开

作者回复: Godo Job！




third

2019-03-21

最优模型，ARMA(2, 2)




szm

2019-03-21

我看老师在挑选最有参数时用的是轮询办法，39章信用卡违约率分析中讲的GridSearch可以在这里使用吗？还是GridSearch只能用于sklearn库中的分类算法？

作者回复: GridSearchCV 用于sklearn库中的模型




白夜

2019-03-19

2019-03-31 2808.787904
2019-04-30 2881.416121
2019-05-31 2875.788248
2019-06-30 2885.653128
2019-07-31 2959.346386
2019-08-31 3003.165403
2019-09-30 2991.057003
2019-10-31 2995.312025
2019-11-30 3016.652431
2019-12-31 2997.065752
这是看涨啊

展开

作者回复: 有涨有跌此时此刻是2019年12月29日，当前沪市指数为3005.04点，你说准不准




Grandia_Z

2019-03-18

提问:对未来十个月的变化进行统计,如果按日统计的话:
date_list= [datetime(2019, 3, 31), datetime(2019, 4, 30), datetime(2019, 5, 31), datetime(2019, 6, 30), datetime(2019, 7, 31),
datetime(2019, 8, 31), datetime(2019, 9, 30), datetime(2019, 10, 31),datetime(2019, 11, 30),datetime(2019, 12, 31)]
上面这段怎么写能包含从(2019.3.1-2019.12.31)的数据呢,不会把每一天都写进去吧

展开

作者回复: 你可以写个程序来作为data_list的输入




王彬成

2019-03-18

AR、MA、ARMA和ARIMA模型区别

1、AR （Auto Regressive），中文叫自回归模型，它认为过去若干时刻的点通过线性组合，再加上白噪声就可以预测未来某个时刻的点。AR 模型还存在一个阶数，称为 AR（p）模型，也叫作 p 阶自回归模型。它指的是通过这个时刻点的前 p 个点，通过线性组合再加上白噪声来预测当前时刻点的值。

2、MA （ Moving Average），中文叫做滑动平均模型。MA 模型存在一个阶数，称为 MA(q) 模型，也叫作 q 阶移动平均模型。MA 模型是通过将一段时间序列中白噪声序列进行加权和。

3、ARMA （ Auto Regressive Moving Average），中文叫做自回归滑动平均模型， ARMA 模型存在 p 和 q 两个阶数，称为 ARMA(p,q) 模型。

4、ARIMA（ Auto Regressive Integrated Moving Average ），中文叫差分自回归滑动平均模型，也叫求合自回归滑动平均模型。相比于 ARMA，ARIMA 多了一个差分的过程，作用是对不平稳数据进行差分平稳，在差分平稳后再进行建模。ARIMA 是一个三元组的阶数 (p,d,q)，称为 ARIMA(p,d,q) 模型。其中 d 是差分阶数。

展开

作者回复: 很好的总结！



