贝叶斯α

1. 前言

在投资中,经常有一些有用但不会反映在数据集中的投资信息,例如定性研究报告或是口头交流。在之前的处理中,我们会主观地将这些非数据信息转为定量数据,叠加到已有模型中。

在这种背景下,贝叶斯理论(Bayesian theory)为我们了一种整合不同类别信息集的严格方法,它可以将额外的定性信息与因子模型的定量估计进行最优整合,而不是随意地为定性想法赋予数值。

我们在本章会在回顾贝叶斯理论的基础上,介绍如何将贝叶斯理论应用于投资组合中。

2. 贝叶斯法则

2.1 核心思想

贝叶斯法则(Bayes' Rule)的核心思想是: 我们用数据修正而非代替观点,从而在模型估计和主观判断之间找到一个最优的加权机制。

2.2 公式及含义

贝叶斯法则的基本公式为:

p(θx)p(xθ)p(θ)p(\theta|x) \propto p(x|\theta) p(\theta)

该公式由先验估计 p(θ)p(\theta) 、似然函数 p(xθ)p(x|\theta) 、后验估计 p(θx)p(\theta|x) 三部分组成,我们下面依次来说明其含义:

2.2.1 先验估计

先验估计(Prior, p(θ)p(\theta))指我们在观察到当前数据 xx 之前,对参数 θ\theta 的概率分布的认知。例如研究员观点(这只股票会涨)、长期经验(某因子平均收益为正)和宏观判断(经济周期)。

先验估计代表了我们在得到具体数据之前的判断。

2.2.2 似然函数

似然函数(Likelihood, p(xθ)p(x|\theta))指在给定参数 θ\theta 的条件下,观测到数据 xx 的概率密度。它描述了观测数据从特定参数组中抽取的可能性。例如历史收益率、因子回归结果、波动率、协方差等。

似然函数代表了如果如果我们对参数的判断是正确的,那么实际结果出现的概率有多大。

2.2.3 后验估计

后验估计(Posterior, p(θx)p(\theta|x))是综合了先验信息和新观测到的数据信息(似然)后,给出了对参数的最优估计,也就是我们在看完数据之后,应该相信什么

正是因为我们最后的估计结果,综合考虑了主观判断与实际数据,因此我们说贝叶斯“可以将额外的定性信息与因子模型的定量估计进行最优整合,而不是随意地为定性想法赋予数值”。

2.3 示例

我们这里以一个正态分布概率作为演示示例。

假设我们现在要决定一只股票未来一个月是否值得超配。

我们基于研究发现这家公司的管理层非常靠谱,于是形成了一个定量化的主观判断:预期 α\alpha = 5%。但因为有一定的不确定性,所以我们同时给出估计的方差。假设先验 α 服从正态分布,则我们先验 α\alpha 的概率分布:

θN(5%,σprior2)\theta \sim N(5\%, \sigma^2_{\text{prior}})

同时,我们用因子模型回归得到 α\alpha = 2%,但回归噪声很大(比如样本少),假设同样为正态分布,那么有 α\alpha 的似然概率分布:

xθN(θ,σdata2)x|\theta \sim N(\theta, \sigma^2_{\text{data}})

由于我们假设先验 α\alpha 和似然 α\alpha 均为正态分布,所以两者乘积后验 α\alpha 也为正态分布(正态-正态共轭),后验 α\alpha 为先验 α\alpha 和似然 α\alpha 的加权平均:

θposterior=w12%+w25%\theta_{\text{posterior}} = w_1 \cdot 2\% + w_2 \cdot 5\%

两者权重由各自精度(方差倒数)决定。

3. 贝叶斯α

3.1 含义

回顾因子模型中因子模型的一般格式:

ri=αi+βi1λi1++βikλik+ϵir_i = \alpha_i + \beta_{i1}\lambda_{i1} + \dots + \beta_{ik}\lambda_{ik} + \epsilon_i

其中 αi\alpha_i 为股票收益率中无法被模型解释的部分。

这里我们所要做的,就是不仅仅使用模型估计得到的 α^\hat{\alpha} 作为模型中 α{\alpha} 的估计值,而是先加入阿尔法的先验估计 p(α)p(\alpha) ,再用贝叶斯将 α^\hat{\alpha}p(α)p(\alpha) 进行融合,得到最终 α{\alpha} 的估计值,我们将这一最佳估计称为贝叶斯 α\alpha(Bayesian α\alpha

需要注意的是,在使用贝叶斯的过程中,模型的贝塔也会随之变化,具体原因见 4 贝叶斯的注意事项。

3.2 数量化非数据信息

贝叶斯分析的第一步是将非数据信息转化为先验估计,这里我们介绍几种常见的计算先验估计的情形。

需要注意的是,这里给出的计算方法都经过了简化,重点为介绍量化非数据信息的思路,具体处理中会涉及到更为复杂的数据处理方法。

3.2.1 无排序的股票推荐列表量化

假设我们有许多组分析师推荐股票的列表(列表内的股票无先后顺序),每个列表都是一位分析师按某种流程筛选出来的。

在这种情况下,如果我们想要获得股票A的 α\alpha 大于股票B的 α\alpha 的先验概率,可以使用以下公式进行近似计算(同时出现或同时不出现不提供信息):

P(αA>αB)=只有股票A出现的列表数只有股票A出现的列表数+只有股票B出现的列表数P(\alpha_A > \alpha_B) = \frac{\text{只有股票A出现的列表数}}{\text{只有股票A出现的列表数+只有股票B出现的列表数}}

3.2.2 有排序的股票推荐列表量化

假设分析师提供的推荐列表存在先后顺序,则公式可以修改为:

P(αA>αB)=将股票 A 排在股票 B 前面的分析师数量分析师总数量P(\alpha_A > \alpha_B) = \frac{\text{将股票 A 排在股票 B 前面的分析师数量}}{\text{分析师总数量}}

3.2.3 买卖建议量化

定性信息常常会被以分析师以买入或卖出建议的形式出现,例如“强烈买入”、“买入”、“中性”、“卖出”和“强烈卖出”。

对于这类买入卖出信息,我们可以通过建议占比来计算先验概率:

P(αA>αB)=股票 A 的买入占比股票 B 的买入占比P(\alpha_A > \alpha_B) = \text{股票 A 的买入占比} - \text{股票 B 的买入占比}

其中占比可以使用差值法或比例来计算。

3.3 后验估计的计算

3.3.1 后验估计的核心思想

贝叶斯后验计算的核心思想是精度加权平均 (Precision-Weighted Average),即后验均值并不是简单地把先验均值和数据测算均值进行简单平均,而是进行一场“拔河比赛”——哪边的精度高(信心足),后验结果就更偏向哪边

所谓精度(Precision),指的是是方差(Variance)的倒数。如果方差越大,说明不确定性越高,精度越低;方差越小,说明越有把握,精度越高。

3.3.2 后验均值计算公式

我们已经得出了 α\alpha 的先验分布:αiN(μa,σa2)\alpha_i \sim N(\mu_a, \sigma_a^2) ,并且利用历史数据通过最小二乘法(OLS)计算出了数据层面的估计值 α^i\hat{\alpha}_i

那么后验均值 μi\mu_i^* 可以表示为先验均值 μa\mu_a 和 OLS 均值 α^i\hat{\alpha}_i 的加权平均:

μi=(1σa2+1σi2ιTM1ι)11σa2μa+(1σa2+1σi2ιTM1ι)1(1σi2ιTM1ι)α^i\mu_i^* = \left( \frac{1}{\sigma_a^2} + \frac{1}{\sigma_i^2} \mathbf{\iota}^T \mathbf{M}_1 \mathbf{\iota} \right)^{-1} \frac{1}{\sigma_a^2} \mu_a + \left( \frac{1}{\sigma_a^2} + \frac{1}{\sigma_i^2} \mathbf{\iota}^T \mathbf{M}_1 \mathbf{\iota} \right)^{-1} \left( \frac{1}{\sigma_i^2} \mathbf{\iota}^T \mathbf{M}_1 \mathbf{\iota} \right) \hat{\alpha}_i

为了方便理解,我们可以把它简化为文字逻辑:

后验均值=先验精度总精度×先验均值+数据精度总精度×数据均值\text{后验均值} = \frac{\text{先验精度}}{\text{总精度}} \times \text{先验均值} + \frac{\text{数据精度}}{\text{总精度}} \times \text{数据均值}

公式中的 1σa2\frac{1}{\sigma_a^2} 是先验精度;1σi2ιTM1ι\frac{1}{\sigma_i^2} \mathbf{\iota}^T \mathbf{M}_1 \mathbf{\iota} 是 OLS 估计的数据精度(其中 ι\mathbf{\iota} 是全 1 向量,M1\mathbf{M}_1 涉及残差矩阵)。

3.3.3 后验方差计算公式

后验方差 (σi)2(\sigma_i^*)^2 等于先验精度与数据精度之和的倒数:

(σi)2=(1σa2+1σi2ιTM1ι)1(\sigma_i^*)^2 = \left( \frac{1}{\sigma_a^2} + \frac{1}{\sigma_i^2} \mathbf{\iota}^T \mathbf{M}_1 \mathbf{\iota} \right)^{-1}

这里我们得到了一个非常重要的结论:后验的精度总是高于(或等于)先验精度和数据精度。 这是因为结合了额外信息之后,我们对 α\alpha 的估计变得更加确信了。

3.3.4 极端情况的直觉验证

通过以上公式,我们可以很好地解释我们判断中的两种极端心态:

  • 极度自信(先验精度极高):如果我们对自己的非数据信息非常有信心(σa20\sigma_a^2 \to 0),那么先验精度趋于无穷大。此时,公式中先验的权重趋近于 1,后验估计几乎完全等于投资经理的主观先验,市场数据被忽略。
  • 极度不自信(先验精度极低):如果经理对额外信息把握不大(σa2\sigma_a^2 \to \infty),先验精度趋近于 0。此时先验的权重趋近于 0,后验估计将完全退化为传统的最小二乘法估计结果,即只听从市场数据。

3.3.5 涟漪效应

在多因子模型 ri=αi+βi1f1++βikfk+ϵir_i = \alpha_i + \beta_{i1} f_1 + \dots + \beta_{ik} f_k + \epsilon_i 中,即使我们只对 α\alpha 提供了先验估计(没有对 β\beta 提供先验),但由于在统计估计中 α\alphaβ\beta 之间存在相关性,当我们利用贝叶斯方法更新了 α\alpha 的后验分布时,所有的因子暴露的估计值也会连带着被修正

例如,对于一只股票,过去一年的数据显示,该股票毫无超额收益(α^=0%\hat{\alpha} = 0\%),但它的弹性很高,大盘涨 1%,它涨 1.5%(β^=1.5\hat{\beta} = 1.5)。同时,通过调研发现,该公司下个月要发布一款颠覆性产品。因此,我们非常笃定这只股票自带强大的超额收益,于是设定先验 μα=5%\mu_\alpha = 5\%

如果我们简单粗暴地把模型里的 α\alpha 改成 5%,保留 β\beta 依然是 1.5。这会导致模型预测极其激进——既享受了极高的基本面溢价,又保留了极高的市场弹性,这在逻辑上是割裂的。而如果将数据代入贝叶斯模型,模型会由于涟漪效应把后验弹性 β\beta^* 从 1.5 下调,保证数据的合理性。

这就解释了为什么不能简单粗暴地直接修改模型里的常数项 α\alpha ,而是必须通过严谨的贝叶斯框架,确保所有参数的一致性。

4. 贝叶斯的注意事项

在使用贝叶斯的时候,一个十分常见的错误是:没有将先验估计所使用的数据与估计模型所用的数据进行隔离

例如,我们可能会基于分析师建议生成先验估计,然后在估计因子模型时,再次使用基于同样信息的分析师因子。

可能出错的情况无法一一列举,但思想是一致的:同一信息不应该被使用两次。正如我们在量化股票投资的基本原则中所说:量化分析以有效的方式结合所有可得的信息,而重复使用信息并非是有效的,因为这会诱使贝叶斯做出错误的极度自信的结论。