Page 25 - 《武汉大学学报(信息科学版)》2025年第10期
P. 25
1960 武 汉 大 学 学 报 (信 息 科 学 版) 2025 年 10 月
观测数据具有相关性时,例如时间序列,若继续 先,采用顾及设计矩阵误差的解法对 AR 模型参
̂
̂
应用原始自助法,可能会导致统计推断失效。 数进行初步估计,得到 AR 系数估值(β 1,β 2, ⋯,
2.2 Sieve 块自助法 β p ),通过 AR 过程得到残差序列:
̂
考虑到时间序列 AR(p)模型中的数据之间 p
̂
i
存在时间维度上的相依性结构,原始自助法不适 v ̂ = y i - ∑ β j y i - j,p + 1 ≤ i ≤ m (5)
j = 1
用,本文引入块自助法。
式 中 , v ̂ 为 y i 的 残 差 值 ; j 表 示 序 号 ,其 中
i
块自助法的基本思想可以概述为:首先将从
1 ≤ j ≤ p。
总 体 中 抽 取 得 到 的 时 间 序 列 样 本 集
在获取残差序列 { v ̂ } 后,对残差进行中心化
i
( y 1,y 2,⋯,y m )视为总体,总体的分布函数表示为
处理,得到中心化残差:
F ( X,β ),其中 X 为重采样过程中的随机项, β 为 m
v ˉ =( m - p ) -1 ∑ v ̂ i (6)
未知统计量;其次,对随机项向量进行分块处理, j = p + 1
通过分块处理使得每个数据块之间近乎独立,而 { γ i = v ̂ - v ˉ| p + 1 ≤ i ≤ m } (7)
i
单个数据块能够捕捉到原始时间序列中的相依 式 中 , v ˉ 为 残 差 序 列 平 均 值 ; { γ i } 为 中 心 化 残 差
性结构;然后,将这些数据块视为重采样单元,并 序列。
实施有放回随机抽样,构建用于解算 AR 系数的 然 后 ,采 用 块 自 助 法 对 该 序 列 进 行 分 块 处
伪原始序列,称之为块自助样本;将生成块自助 理,并且对得到的中心化残差序列子集进行有放
*
样本到解算未知系数的整个过程重复 M 次,得到 回随机抽样,获取中心化残差自助样本 { γ i } (p +
M 组系数估值 ( β 1,β 2,⋯,β M );最后根据 M 组估 1 ≤ i)。最后,通过 AR 过程得到块自助样本:
̂ *
̂ *
̂ *
p
̂
计值的频率分布构建未知统计量抽样分布的自 y i = ∑ β j y i - j + γ i,p + 1 ≤ i (8)
*
*
*
j = 1
助估计,并通过抽样分布经验估计输出未知量的
式中, { y i } ( p + 1 ≤ i ) 为用于解算 AR 系数的块
*
统计信息。
自 助 样 本 。 对 于 i ≤ p,采 用 序 列 的 均 值 进 行 替
在构建块自助样本的过程中,数据块之间的
代,即 { y i = y ˉ m },i ≤ p,其中 y ˉ m 为 { y t }的均值。
*
首尾相连将导致每个数据块的边界处无法保留
Sieve 块自助采样方法将重采样过程中的 X
原 始 时 间 序 列 的 相 关 性 结 构 ,进 而 产 生 边 界 效
由原始时间序列观测数据转换为中心化残差序
应 [32] ,有损统计推断结果的精度。对于 MBB 法,
列,能够保证每个观测值出现在数据块中的权重
由 于 该 方 法 将 原 始 时 间 序 列 数 据 { y t } 划 分 为
相 等 ,并 且 不 会 造 成 数 据 未 使 用 到 的 问 题 。 此
m - l + 1 个数据块 N 1~N m - l + 1 (其中 l 为数据块 外,该方法在构建块自助样本过程中并不会产生
的长度),因此,对于观测数据 y j (l ≤ j ≤ m - l), 边界效应问题,能够较好地保留原始时间序列中
其出现在 N 1~N m - l + 1 中刚好是 l 次;但对于观测 的自相关依赖结构,因此理论上更具有严密性。
数 据 y j 和 y m - j - 1(1 ≤ j ≤ l - 1),其 在 N 1~ 通过循环反复构建 M 个块自助样本后,得到
N m - l + 1 中仅出现 j 次。当 l ≠ j 时,使得 { y t } 中的 M 个块自助样本并分别解算,获取 M 组 AR 系数
等精度观测数据在 m - l + 1 个数据块中出现的 估 值 ( β 1,β 2,⋯,β M ),根 据 估 计 值 的 概 率 分 布 构
̂ *
̂ *
̂ *
次数却不一致,进而导致 { y t } 中的观测数据被采 建未知统计量抽样分布的自助估计,并输出未知
样到块自助样本的概率不等,因此存在理论上的 量的统计信息。均值作为抽样分布中最重要的
不完备性。此外,对于 NBB 法,该方法将 { y t } 分
参数之一,通常情况下需要将其用于计算未知统
û
ë û
ë
为 m/l 个 数 据 子 集( ( ) 表 示 小 于 ( ) 的 最 大 整 计量的精度信息,均值计算公式为 [20,26,35] :
数),当 m 不是块长度 l 的倍数时,靠近时间序列 M
*
E ( β )= ∑ β i /M (9)
数据尾部的观测数据 y j (m - r + 1 ≤ j ≤ m)将不
i = 1
会被划分到数据子集中,即导致该 r 个观测数据 式中, E ( β )为 AR 系数的自助估计值。
的出现概率为 0。因此,为解决以上两个问题,本 由于顾及设计矩阵误差的解法得到的 AR 系
文引入 Sieve 自助法思想。 数估值不再具有无偏性,而通过大量的有放回随
Sieve 自助法的基本思想是将研究时间序列 机采样过程能够在一定程度上减弱迭代计算产
{ y t } 的分布问题转化为研究 AR 系数的分布。首 生的偏差,因此本文将式(9)的结果作为块自助

