贝叶斯α - 靳安和

1. 前言

在投资中，经常有一些有用但不会反映在数据集中的投资信息，例如定性研究报告或是口头交流。在之前的处理中，我们会主观地将这些非数据信息转为定量数据，叠加到已有模型中。

在这种背景下，贝叶斯理论（Bayesian theory）为我们了一种整合不同类别信息集的严格方法，它可以将额外的定性信息与因子模型的定量估计进行最优整合，而不是随意地为定性想法赋予数值。

我们在本章会在回顾贝叶斯理论的基础上，介绍如何将贝叶斯理论应用于投资组合中。

2. 贝叶斯法则

2.1 核心思想

贝叶斯法则（Bayes' Rule）的核心思想是：我们用数据修正而非代替观点，从而在模型估计和主观判断之间找到一个最优的加权机制。

2.2 公式及含义

贝叶斯法则的基本公式为：

p(\theta|x) \propto p(x|\theta) p(\theta)

该公式由先验估计 $p(\theta)$ 、似然函数 $p(x|\theta)$ 、后验估计 $p(\theta|x)$ 三部分组成，我们下面依次来说明其含义：

2.2.1 先验估计

先验估计（Prior, $p(\theta)$ ）指我们在观察到当前数据 $x$ 之前，对参数 $\theta$ 的概率分布的认知。例如研究员观点（这只股票会涨）、长期经验（某因子平均收益为正）和宏观判断（经济周期）。

先验估计代表了我们在得到具体数据之前的判断。

2.2.2 似然函数

似然函数（Likelihood, $p(x|\theta)$ ）指在给定参数 $\theta$ 的条件下，观测到数据 $x$ 的概率密度。它描述了观测数据从特定参数组中抽取的可能性。例如历史收益率、因子回归结果、波动率、协方差等。

似然函数代表了如果如果我们对参数的判断是正确的，那么实际结果出现的概率有多大。

2.2.3 后验估计

后验估计（Posterior, $p(\theta|x)$ ）是综合了先验信息和新观测到的数据信息（似然）后，给出了对参数的最优估计，也就是我们在看完数据之后，应该相信什么。

正是因为我们最后的估计结果，综合考虑了主观判断与实际数据，因此我们说贝叶斯“可以将额外的定性信息与因子模型的定量估计进行最优整合，而不是随意地为定性想法赋予数值”。

2.3 示例

我们这里以一个正态分布概率作为演示示例。

假设我们现在要决定一只股票未来一个月是否值得超配。

我们基于研究发现这家公司的管理层非常靠谱，于是形成了一个定量化的主观判断：预期 $\alpha$ = 5%。但因为有一定的不确定性，所以我们同时给出估计的方差。假设先验 α 服从正态分布，则我们先验 $\alpha$ 的概率分布：

\theta \sim N(5\%, \sigma^2_{\text{prior}})

同时，我们用因子模型回归得到 $\alpha$ = 2%，但回归噪声很大（比如样本少），假设同样为正态分布，那么有 $\alpha$ 的似然概率分布：

x|\theta \sim N(\theta, \sigma^2_{\text{data}})

由于我们假设先验 $\alpha$ 和似然 $\alpha$ 均为正态分布，所以两者乘积后验 $\alpha$ 也为正态分布（正态-正态共轭），后验 $\alpha$ 为先验 $\alpha$ 和似然 $\alpha$ 的加权平均：

\theta_{\text{posterior}} = w_1 \cdot 2\% + w_2 \cdot 5\%

两者权重由各自精度（方差倒数）决定。

3. 贝叶斯α

3.1 含义

回顾因子模型中因子模型的一般格式：

r_i = \alpha_i + \beta_{i1}\lambda_{i1} + \dots + \beta_{ik}\lambda_{ik} + \epsilon_i

其中 $\alpha_i$ 为股票收益率中无法被模型解释的部分。

这里我们所要做的，就是不仅仅使用模型估计得到的 $\hat{\alpha}$ 作为模型中 ${\alpha}$ 的估计值，而是先加入阿尔法的先验估计 $p(\alpha)$ ，再用贝叶斯将 $\hat{\alpha}$ 与 $p(\alpha)$ 进行融合，得到最终 ${\alpha}$ 的估计值，我们将这一最佳估计称为贝叶斯 $\alpha$ （Bayesian $\alpha$ ）。

需要注意的是，在使用贝叶斯的过程中，模型的贝塔也会随之变化，具体原因见 4 贝叶斯的注意事项。

3.2 数量化非数据信息

贝叶斯分析的第一步是将非数据信息转化为先验估计，这里我们介绍几种常见的计算先验估计的情形。

需要注意的是，这里给出的计算方法都经过了简化，重点为介绍量化非数据信息的思路，具体处理中会涉及到更为复杂的数据处理方法。

3.2.1 无排序的股票推荐列表量化

假设我们有许多组分析师推荐股票的列表（列表内的股票无先后顺序），每个列表都是一位分析师按某种流程筛选出来的。

在这种情况下，如果我们想要获得股票A的 $\alpha$ 大于股票B的 $\alpha$ 的先验概率，可以使用以下公式进行近似计算（同时出现或同时不出现不提供信息）：

P(\alpha_A > \alpha_B) = \frac{\text{只有股票A出现的列表数}}{\text{只有股票A出现的列表数+只有股票B出现的列表数}}

3.2.2 有排序的股票推荐列表量化

假设分析师提供的推荐列表存在先后顺序，则公式可以修改为：

P(\alpha_A > \alpha_B) = \frac{\text{将股票 A 排在股票 B 前面的分析师数量}}{\text{分析师总数量}}

3.2.3 买卖建议量化

定性信息常常会被以分析师以买入或卖出建议的形式出现，例如“强烈买入”、“买入”、“中性”、“卖出”和“强烈卖出”。

对于这类买入卖出信息，我们可以通过建议占比来计算先验概率：

P(\alpha_A > \alpha_B) = \text{股票 A 的买入占比} - \text{股票 B 的买入占比}

其中占比可以使用差值法或比例来计算。

3.3 后验估计的计算

3.3.1 后验估计的核心思想

贝叶斯后验计算的核心思想是精度加权平均 (Precision-Weighted Average)，即后验均值并不是简单地把先验均值和数据测算均值进行简单平均，而是进行一场“拔河比赛”——哪边的精度高（信心足），后验结果就更偏向哪边。

所谓精度（Precision），指的是是方差（Variance）的倒数。如果方差越大，说明不确定性越高，精度越低；方差越小，说明越有把握，精度越高。

3.3.2 后验均值计算公式

我们已经得出了 $\alpha$ 的先验分布： $\alpha_i \sim N(\mu_a, \sigma_a^2)$ ，并且利用历史数据通过最小二乘法（OLS）计算出了数据层面的估计值 $\hat{\alpha}_i$ 。

那么后验均值 $\mu_i^*$ 可以表示为先验均值 $\mu_a$ 和 OLS 均值 $\hat{\alpha}_i$ 的加权平均：

\mu_i^* = \left( \frac{1}{\sigma_a^2} + \frac{1}{\sigma_i^2} \mathbf{\iota}^T \mathbf{M}_1 \mathbf{\iota} \right)^{-1} \frac{1}{\sigma_a^2} \mu_a + \left( \frac{1}{\sigma_a^2} + \frac{1}{\sigma_i^2} \mathbf{\iota}^T \mathbf{M}_1 \mathbf{\iota} \right)^{-1} \left( \frac{1}{\sigma_i^2} \mathbf{\iota}^T \mathbf{M}_1 \mathbf{\iota} \right) \hat{\alpha}_i

为了方便理解，我们可以把它简化为文字逻辑：

\text{后验均值} = \frac{\text{先验精度}}{\text{总精度}} \times \text{先验均值} + \frac{\text{数据精度}}{\text{总精度}} \times \text{数据均值}

公式中的 $\frac{1}{\sigma_a^2}$ 是先验精度； $\frac{1}{\sigma_i^2} \mathbf{\iota}^T \mathbf{M}_1 \mathbf{\iota}$ 是 OLS 估计的数据精度（其中 $\mathbf{\iota}$ 是全 1 向量， $\mathbf{M}_1$ 涉及残差矩阵）。

3.3.3 后验方差计算公式

后验方差 $(\sigma_i^*)^2$ 等于先验精度与数据精度之和的倒数：

(\sigma_i^*)^2 = \left( \frac{1}{\sigma_a^2} + \frac{1}{\sigma_i^2} \mathbf{\iota}^T \mathbf{M}_1 \mathbf{\iota} \right)^{-1}

这里我们得到了一个非常重要的结论：后验的精度总是高于（或等于）先验精度和数据精度。这是因为结合了额外信息之后，我们对 $\alpha$ 的估计变得更加确信了。

3.3.4 极端情况的直觉验证

通过以上公式，我们可以很好地解释我们判断中的两种极端心态：

极度自信（先验精度极高）：如果我们对自己的非数据信息非常有信心（ $\sigma_a^2 \to 0$ ），那么先验精度趋于无穷大。此时，公式中先验的权重趋近于 1，后验估计几乎完全等于投资经理的主观先验，市场数据被忽略。
极度不自信（先验精度极低）：如果经理对额外信息把握不大（ $\sigma_a^2 \to \infty$ ），先验精度趋近于 0。此时先验的权重趋近于 0，后验估计将完全退化为传统的最小二乘法估计结果，即只听从市场数据。

3.3.5 涟漪效应

在多因子模型 $r_i = \alpha_i + \beta_{i1} f_1 + \dots + \beta_{ik} f_k + \epsilon_i$ 中，即使我们只对 $\alpha$ 提供了先验估计（没有对 $\beta$ 提供先验），但由于在统计估计中 $\alpha$ 和 $\beta$ 之间存在相关性，当我们利用贝叶斯方法更新了 $\alpha$ 的后验分布时，所有的因子暴露的估计值也会连带着被修正。

例如，对于一只股票，过去一年的数据显示，该股票毫无超额收益（ $\hat{\alpha} = 0\%$ ），但它的弹性很高，大盘涨 1%，它涨 1.5%（ $\hat{\beta} = 1.5$ ）。同时，通过调研发现，该公司下个月要发布一款颠覆性产品。因此，我们非常笃定这只股票自带强大的超额收益，于是设定先验 $\mu_\alpha = 5\%$ 。

如果我们简单粗暴地把模型里的 $\alpha$ 改成 5%，保留 $\beta$ 依然是 1.5。这会导致模型预测极其激进——既享受了极高的基本面溢价，又保留了极高的市场弹性，这在逻辑上是割裂的。而如果将数据代入贝叶斯模型，模型会由于涟漪效应把后验弹性 $\beta^*$ 从 1.5 下调，保证数据的合理性。

这就解释了为什么不能简单粗暴地直接修改模型里的常数项 $\alpha$ ，而是必须通过严谨的贝叶斯框架，确保所有参数的一致性。

4. 贝叶斯的注意事项

在使用贝叶斯的时候，一个十分常见的错误是：没有将先验估计所使用的数据与估计模型所用的数据进行隔离。

例如，我们可能会基于分析师建议生成先验估计，然后在估计因子模型时，再次使用基于同样信息的分析师因子。

可能出错的情况无法一一列举，但思想是一致的：同一信息不应该被使用两次。正如我们在量化股票投资的基本原则中所说：量化分析以有效的方式结合所有可得的信息，而重复使用信息并非是有效的，因为这会诱使贝叶斯做出错误的极度自信的结论。