Page 25 - 《武汉大学学报(信息科学版)》2025年第10期
P. 25

1960                            武 汉 大 学 学 报  (信 息 科 学 版)                       2025 年 10 月

                观测数据具有相关性时,例如时间序列,若继续                            先,采用顾及设计矩阵误差的解法对 AR 模型参
                                                                                                       ̂
                                                                                                     ̂
                应用原始自助法,可能会导致统计推断失效。                             数进行初步估计,得到 AR 系数估值(β 1,β 2, ⋯,
                2.2 Sieve 块自助法                                   β p ),通过 AR 过程得到残差序列:
                                                                  ̂
                     考虑到时间序列 AR(p)模型中的数据之间                                       p
                                                                                    ̂
                                                                         i
                存在时间维度上的相依性结构,原始自助法不适                                   v ̂ = y i - ∑ β j y i - j,p + 1 ≤ i ≤ m  (5)
                                                                                j = 1
                用,本文引入块自助法。
                                                                 式 中 , v ̂ 为 y i 的 残 差 值 ; j 表 示 序 号 ,其 中
                                                                         i
                     块自助法的基本思想可以概述为:首先将从
                                                                 1 ≤ j ≤ p。
                总 体 中 抽 取 得 到 的 时 间 序 列 样 本 集
                                                                     在获取残差序列 { v ̂ } 后,对残差进行中心化
                                                                                       i
                ( y 1,y 2,⋯,y m )视为总体,总体的分布函数表示为
                                                                 处理,得到中心化残差:
                F ( X,β ),其中 X 为重采样过程中的随机项, β 为                                             m
                                                                             v ˉ =( m - p ) -1  ∑  v ̂  i  (6)
                未知统计量;其次,对随机项向量进行分块处理,                                                    j = p + 1
                通过分块处理使得每个数据块之间近乎独立,而                                     { γ i = v ̂ - v ˉ| p + 1 ≤ i ≤ m }  (7)
                                                                                i
                单个数据块能够捕捉到原始时间序列中的相依                             式 中 , v ˉ 为 残 差 序 列 平 均 值 ; { γ i } 为 中 心 化 残 差
                性结构;然后,将这些数据块视为重采样单元,并                           序列。
                实施有放回随机抽样,构建用于解算 AR 系数的                              然 后 ,采 用 块 自 助 法 对 该 序 列 进 行 分 块 处
                伪原始序列,称之为块自助样本;将生成块自助                            理,并且对得到的中心化残差序列子集进行有放
                                                                                                      *
                样本到解算未知系数的整个过程重复 M 次,得到                          回随机抽样,获取中心化残差自助样本 { γ i } (p +
                M 组系数估值 ( β 1,β 2,⋯,β M );最后根据 M 组估              1 ≤ i)。最后,通过 AR 过程得到块自助样本:
                                   ̂ *
                                         ̂ *
                                ̂ *
                                                                               p
                                                                                  ̂
                计值的频率分布构建未知统计量抽样分布的自                                      y i = ∑ β j y i - j + γ i,p + 1 ≤ i  (8)
                                                                           *
                                                                                    *
                                                                                          *
                                                                              j = 1
                助估计,并通过抽样分布经验估计输出未知量的
                                                                 式中, { y i } ( p + 1 ≤ i ) 为用于解算 AR 系数的块
                                                                         *
                统计信息。
                                                                 自 助 样 本 。 对 于 i ≤ p,采 用 序 列 的 均 值 进 行 替
                     在构建块自助样本的过程中,数据块之间的
                                                                 代,即 { y i = y ˉ m },i ≤ p,其中 y ˉ m 为 { y t }的均值。
                                                                         *
                首尾相连将导致每个数据块的边界处无法保留
                                                                     Sieve 块自助采样方法将重采样过程中的 X
                原 始 时 间 序 列 的 相 关 性 结 构 ,进 而 产 生 边 界 效
                                                                 由原始时间序列观测数据转换为中心化残差序
                应 [32] ,有损统计推断结果的精度。对于 MBB 法,
                                                                 列,能够保证每个观测值出现在数据块中的权重
                由 于 该 方 法 将 原 始 时 间 序 列 数 据 { y t } 划 分 为
                                                                 相 等 ,并 且 不 会 造 成 数 据 未 使 用 到 的 问 题 。 此
                m - l + 1 个数据块 N 1~N m - l + 1 (其中 l 为数据块        外,该方法在构建块自助样本过程中并不会产生
                的长度),因此,对于观测数据 y j (l ≤ j ≤ m - l),              边界效应问题,能够较好地保留原始时间序列中
                其出现在 N 1~N m - l + 1 中刚好是 l 次;但对于观测              的自相关依赖结构,因此理论上更具有严密性。
                数 据 y j 和 y m - j - 1(1 ≤ j ≤ l - 1),其 在 N 1~        通过循环反复构建 M 个块自助样本后,得到
                N m - l + 1 中仅出现 j 次。当 l ≠ j 时,使得 { y t } 中的     M 个块自助样本并分别解算,获取 M 组 AR 系数
                等精度观测数据在 m - l + 1 个数据块中出现的                      估 值 ( β 1,β 2,⋯,β M ),根 据 估 计 值 的 概 率 分 布 构
                                                                           ̂ *
                                                                                 ̂ *
                                                                        ̂ *
                次数却不一致,进而导致 { y t } 中的观测数据被采                     建未知统计量抽样分布的自助估计,并输出未知
                样到块自助样本的概率不等,因此存在理论上的                            量的统计信息。均值作为抽样分布中最重要的
                不完备性。此外,对于 NBB 法,该方法将 { y t } 分
                                                                 参数之一,通常情况下需要将其用于计算未知统
                       û
                                     ë û
                   ë
                为 m/l 个 数 据 子 集( ( ) 表 示 小 于 ( ) 的 最 大 整         计量的精度信息,均值计算公式为               [20,26,35] :
                数),当 m 不是块长度 l 的倍数时,靠近时间序列                                             M
                                                                                           *
                                                                               E ( β )= ∑ β i /M         (9)
                数据尾部的观测数据 y j (m - r + 1 ≤ j ≤ m)将不
                                                                                       i = 1
                会被划分到数据子集中,即导致该 r 个观测数据                          式中, E ( β )为 AR 系数的自助估计值。
                的出现概率为 0。因此,为解决以上两个问题,本                              由于顾及设计矩阵误差的解法得到的 AR 系
                文引入 Sieve 自助法思想。                                 数估值不再具有无偏性,而通过大量的有放回随
                     Sieve 自助法的基本思想是将研究时间序列                      机采样过程能够在一定程度上减弱迭代计算产
                { y t } 的分布问题转化为研究 AR 系数的分布。首                    生的偏差,因此本文将式(9)的结果作为块自助
   20   21   22   23   24   25   26   27   28   29   30