光大证券-光大证券多因子系列报告之三:多因子组合“光大Alpha+1.0”.pdf
敬请参阅最后一页特别声明 -1- 证券研究报告 2017 年 5 月 1 日 金融工程 多因子组合“光大 Alpha 1.0” 多因子系列报告之 三 金融工程 深度 光大金工因子测试框架:多指标全面测试 通过分期截面 RLM 回归计算因子收益,计算因子暴露 与 下期收益率的相关度 IC 值,同时结合分层回测法检验因子单调性,构建较为综合全面的因子测试体系。 因子测试中使用了包括因子收益序列 t 值,因子累计收益率,因子测试t 值, IC, IR,多空组合收益率、最大回撤、换手率等等指标 更 为 全面的 因子库 : 涵盖了 估值因子 , 规模因子 , 成长因子 , 质量因子 , 杠杆因子 , 动量因子 , 波动因子 , 技术因子 , 流动性因子 , 分析师因子 等共 10 大类 100 多个细分因子。 多重指标 筛选因子 : 针对五大指标给因子表现打分,筛选出预测能力强,显著性高,单调性好,稳定性强的优质因子。筛选时使用的指标包括: 因子收益( Factor_Ret) 、 因子收益显著性检验的 t 值( Factor_Ret_tvalue) 、 信息系数( IC) 、 信息比( IR) 、 单调性( Monotony) 动态最优化 IR 基于因子 IC: 在 Edward Qian Quantitative Equity Portfolio Management里提到的最优化单期 IR 的基础上,构建了动态调整的 基于因子 IC 序列的最优化IR 组合。经参数敏感性测试,滚动 36 个月、持仓数量 150 只的等权加权组合 表现最优, 信息比 为 3.67,年化收益 31%。 经验证,动态调整模型信息比显著高于静态因子赋权模型,且等权模型表现优于复合因子得分加权模型。该篇报告是因子合成模型的初步探讨,未来我们将进一步深入挖掘能提供超额 alpha 的有效因子,优化多因子模型。 分析师 刘均伟 (执业证书编号: S0930517040001) 021-22169151 liujunweiebscn 联系人 周萧潇 021-22167060 zhouxiaoxiaoebscn 相关研报 多因子系列报告之一:因子测试框架 2017-04-10 因子测试全集 多因子系列报告之 二 2017-04-28 万得资讯2017-05-01 金融工程 敬请参阅最后一页特别声明 -2- 证券研究报告 目 录 1、 因子测试框架回顾 . 4 1.1、 样本筛选 . 4 1.2、 数据清洗 . 4 1.3、 因子标准化 . 4 1.4、 因子测试模型 . 5 1.5、 因子有效性检验 . 5 2、 因子的初步筛选 . 6 3、 因子权重的优化 基于因子 IC . 10 3.1、 因子权重优化方法简述 . 10 3.2、 动态最优化组合 IR基于因子 IC . 11 3.2.1、 动态最优化的时间窗口选择 . 11 3.2.2、 持仓数量对组合表现的影响 . 13 3.2.3、 动态调整权重 v.s.静态因子加权 . 14 3.2.4、 组合内等权 v.s.复合因子得分加权 . 15 3.3、 光大多因子组合 “光大 Alpha 1.0” . 16 万得资讯2017-05-01 金融工程 敬请参阅最后一页特别声明 -3- 证券研究报告 图 目录 图 1:动态最优化因子权重组合在不同参数 N 下的净值表现 . 12 图 2:动态最优化因子权重组合在不同参数 N 下的相对中证 500 表现 . 13 图 3:动态最优化因子权重组合在不同参数 M 下的净值走势 . 14 图 4:动态 v.s.静态因子赋权法净值走势对比 . 15 图 5:“光大 Alpha 1.0” . 17 表 目录 表 1:因子筛选标准明细表 . 6 表 2:综合打分初步筛选因子名单 . 7 表 3:波动因子历史 IC 值相关性检验 . 8 表 4:筛选后的因子名单及历史表现 . 9 表 5:入选因子的 IC 值相关性矩阵 . 9 表 6:动态最优化因子权重组合在不同参数 N 下的表现 . 11 表 7:动态最优化因子权重组合在不同参数 N 下的表现(分年度) . 12 表 8:动态最优化因子权重组合在不同参数 M 下的表现 . 13 表 9:动态最优化因子权重组合在不同参数 M 下的表现(分年度) . 13 表 10:动态 v.s.静态因子赋权法对比(分年度) . 14 表 11:动态 v.s.静态因子赋权法对比 . 15 表 12:动态最优化因子权重组合在不同赋权方式下的表现 . 16 表 13:动态最优化因子权重组合在不同赋权方式下的表现(分年度) . 16 表 14:光大 Alpha 1.0 组合名单更新( 2017-05-01) . 17 万得资讯2017-05-01 金融工程 敬请参阅最后一页特别声明 -4- 证券研究报告 在多因子系列报告的 前二 篇报告中,我们构造了一个全面的基于 RLM 稳健回归的截面回归单因子测试框架,并整理了包括 估值因子 , 规模因子 , 成长因子 , 质量因子 , 杠杆因子 , 动量因子 , 波动因子 , 技术因子 , 流动性因子 ,分析师因子 等 11 各大类 100 多个细分因子 的因子收益、 IC 值、单调性等等表现 。 这篇报告中我们将首先按给定的标准基于前 2 篇报告的结论初步筛选因子,并且进一步构建一个基于因子 IC 的动态最优化 IR 多因子组合。 1、 因子测试框架回顾 首先我们简单的回顾一下上一篇报告中的因子测试框架的主要内容,我们的多因子模型的构建流程包括以下几个方面: 1.1、 样本筛选 测试样本范围:全体 A 股 测试样本期: 2006-01-01 至 2017-04-01 为了使测试结果更符合投资逻辑, 我们设定了三条 样本 筛选规则: ( 1) 剔除选股日的 ST/PT 股票; ( 2) 剔除上市不满一年的股票; ( 3) 剔除选股日由于停牌等原因而无法买入的股票。 1.2、 数据清洗 我们采用稳健的 MAD( Median Absolute Deviation 绝对中位数法) 首先计算因子值的中位数 ,并定义绝对中位值为: = (| |) 采取与 3法等价的方法,我们将大于 + 3 1.4826 的值或小于 3 1.4826 的值定义为异常值。 类似的, 对缺失值的处理方式要依据缺失值的来源和逻辑解释,选取不同的操作,包括剔除或者 以行业中位数 替代。 在单因子测试时,我们对缺失率小于 20%的因子数据用中信一级行业的中位数代替,当缺失率大于 20%时则做剔除处理。 1.3、 因子标准化 常见的因子标准化方法包括: Z 值标准化 ( Z-Score) , Rank 标准化,风格标准化等等。 由于 Rank 标准化后的数据会丢失原始样本的一些重要信息,这里我们仍然选择 Z 值标准化来处理因子数据。 万得资讯2017-05-01 金融工程 敬请参阅最后一页特别声明 -5- 证券研究报告 1.4、 因子测试 模型 我们采取 截面回归 测试的方法, 每期 针对全体样本做一次回归,回归时因子暴露为已知变量,回归得到每期的一个因子收益值 . 进行截面回归判断每个单因子的收益情况和显著性时,需要特别关 注 A 股市场中一些显著影响个股收益率的因素,例如 行业因素和市值因素 。市值因子在过去的很长一段时间内都是 A股市场上影响股票收益显著性极高的一个因子,为了能够在单因子测试时得到因子真正收益情况,我们在回归测试时对市值因子也做了剔除。 加入行业因子和市值因子后,单因子测试的回归方程如下所示: = 1111 1 1 + 其中: 代表股票 i 在所测试因子上的因子暴露; 代表股票 i 的行业因子暴露( 为 哑变量( Dummy variable),即股票属于某个行业则该股票在该行业的因子暴露等于 1,在其他行业的因子暴露等于 0)。此处我们将选用中信一级行业分类作为行业分类标准。 代表股票 i 的市值因子暴露。 Robust Regression 稳健回归常见于单因子回归测试, RLM 通过迭代的赋权回归可以有效的减小 OLS 最小二乘法中异常值( outliers)对参数估计结果有效性和稳定性的影响。详细的 RLM 回归方法的介绍请参考我们的多因子系列报告之一:因子测试框架。 1.5、 因子有效性检验 采用多期截面 RLM 回归后我们可以得到因子收益序列 ,以及每一期回归 假设检验 t 检验的 t 值序列,针对这两个序列我们将通过以下几个指标来判断该因子的有效性以及稳定性: ( 1) 因子收益序列 的假设检验 t 值 ( 2) 因子收益序列 大于 0 的概率 ( 3) t 值绝对值的均值 ( 4) t 值绝对值大于等于 2 的概率 IC 值(信息系数)是指个股第 t 期在因子 i 上的因子暴露(剔除行业与市值后)与 t + 1 期的收益率的相关系数。通过计算 IC 值可以有效的观察到某个因子收益率预测的稳定性和动量特征,以便在优化组合时用作筛选的指标。万得资讯2017-05-01 金融工程 敬请参阅最后一页特别声明 -6- 证券研究报告 我们采用 Spearman的秩相关系数方法计算因子暴露与下期收益率的相关性IC 值。类似回归法的因子测试流程,我们在计算 IC 时同样做了行业和市值中性的处理。 类似的,我们关注以下几个与 IC 值相关的指标来判断因子的有效性和预测能力: ( 1) IC 值的均值 ( 2) IC 值的标准差 ( 3) IC 大于 0 的比例 ( 4) IC 绝对值大于 0.02 的比例 ( 5) IR ( IR = IC 均值 /IC 标准差) 为了同时能够展示所检验因子的单调性以及多 空组合的收益情况,我们通过分层打分回溯的方法作为补充。 进行分层回溯时,我们在各期期末将全市场A 股按照因子值大小 排序 分成 5 等分,在分组时同样 做行业中性处理,即在中信一级行业内做 5 等分组,组内市值加权 。 2、 因子的初步筛选 在 因子测试全集 多因子系列报告之二 中,我们对每一个大类因子内的细分因子都做了详尽的分析,具体测试了包括因子收益,因子收益显著性,因子 IC、 IR,分层回溯收益、多空收益,历史 IC 序列相关性等等指标。具体的测试结果和指标数值请参考该篇报告。 首先,根据前期的测试结果,我们从 11 个大类因子中 分别筛选出了收益率较显著,高 IC、 IR 并且单调性得分较高的 44 个因子。具体的筛选标准如下表所示: 表 1:因子筛选标准明细表 筛选指标 指标说明 打分标准(绝对值) Factor_Ret 最近 60 个月因子收益率均值 0.002 Factor_Ret_tvalue 最近 60 个月因子收益率 t 值 2 IC 信息系数 0.02 IR 信息比(基于 IC) 0.2 Monotony 单调性得分 2 资料来源:光大证券研究所,注:以上数据均为绝对值 其中,我们对单调性指标的得分计算标准做了如下的规定: Monotony Score = R5 R1R4 R2其中, Ri代表因子分层回溯法得到的第 i 组分组的年化收益率。 万得资讯2017-05-01 金融工程 敬请参阅最后一页特别声明 -7- 证券研究报告 针对上表中 5 项打分标准中的每一项,满足以上打分标准则该因子在该项得分为 1,不满足则得分为 0。通过计算, 5 项得分总分大于等于 3 的因子共计 44 个,具体的名单如下表所示: 表 2:综合打分初步筛选因子名单 Factor Mean Return Factor Return tstat IC mean IR Total _Score BP_LR 0.49% 4.32 5.1% 0.48 5 B2P_TTM 0.51% 4.43 5.0% 0.46 5 FC -0.39% -2.36 -5.3% -0.33 5 HighLow_1M -0.48% -4.15 -3.9% -0.34 5 Ln_FC -0.45% -2.64 -5.8% -0.36 5 Ln_MC -0.52% -2.94 -6.8% -0.40 5 MC -0.44% -2.63 -6.4% -0.39 5 Momentum_1M -0.92% -8.26 -7.9% -0.75 5 Momentum_24M -0.59% -4.44 -5.6% -0.50 5 Residual_Risk -0.47% -4.22 -3.6% -0.27 5 RSI -0.56% -5.02 -5.5% -0.49 5 STD_1M -0.59% -5.23 -5.5% -0.47 5 STD_3M -0.56% -4.74 -5.2% -0.41 5 TargetReturn 0.34% 6.39 3.6% 0.63 5 TURNOVER_1M -0.78% -5.90 -6.6% -0.49 5 TURNOVER_3M -0.56% -4.42 -4.6% -0.34 5 VA_FC_1M -0.79% -6.12 -6.7% -0.51 5 VSTD_1M -0.64% -6.52 -6.5% -0.82 5 VSTD_3M -0.48% -5.27 -5.0% -0.60 5 DP_TTM 0.26% 4.14 2.1% 0.31 4 EEP 0.39% 3.73 3.6% 0.37 4 EV2EBITDA -0.35% -4.44 -3.2% -0.33 4 Momentum_12M -0.60% -4.82 -5.2% -0.44 4 Momentum_1M_Max -0.58% -7.50 -6.6% -0.81 4 Momentum_3M -0.88% -6.72 -7.6% -0.62 4 Momentum_6M -0.76% -6.04 -6.4% -0.55 4 SOBV -0.26% -2.40 -2.7% -0.24 4 SP_LYR 0.23% 3.03 2.7% 0.31 4 STD_6M -0.46% -4.09 -4.6% -0.35 4 TURNOVER_6M -0.43% -3.54 -3.3% -0.25 4 VA_FC_3M -0.61% -4.64 -5.0% -0.38 4 VA_FC_6M -0.48% -3.78 -3.9% -0.29 4 VSTD_6M -0.38% -4.50 -4.0% -0.49 4 BP_TTM 0.27% 2.58 3.0% 0.30 3 EEChange_3M 0.11% 3.62 1.5% 0.24 3 EEPSChange_3M 0.11% 3.40 1.5% 0.26 3 EOPChange_1M 0.07% 2.47 1.4% 0.40 3 EOPChange_3M 0.10% 2.87 1.6% 0.31 3 EP_LYR 0.15% 1.93 2.0% 0.24 3 FORE_Earning 0.03% 1.01 3.5% 0.35 3 万得资讯2017-05-01 金融工程 敬请参阅最后一页特别声明 -8- 证券研究报告 KDJ -0.22% -2.21 -2.4% -0.22 3 OPG_TTM 0.16% 1.70 1.6% 0.21 3 RatingChange_3M 0.09% 3.46 0.8% 0.25 3 OCFP_TTM 0.10% 3.10 1.5% 0.33 3 资料来源: Wind,朝阳永续,光大证券研究所 通过以上标准筛选后我们得到细分因子共 44 个,但是由于技术面的动量和波动性这类因子历史收益和 IC 值均显著高于基本面的因子,而这个因子相互之间又具有很高的共线性,因此在处理这类因子时需要提高筛选标准,且有所取舍。 在 因子测试全集 多因子系列报告之二 中,我们对每一个大类因子内的细分因子都做了详尽的分析,具体测试了包括因子收益,因子收益显著性,因子 IC、 IR,分层回溯收益、多空收益,历史 IC 序列相关性等等指标。 根据这篇报告中 给出的各个大类因子间的 IC 相关系数矩阵,可以进一步的在上述有效因子内筛选出显著性高且相互之间的共线性较低的因子。 例如在选择波动性因子时,我们发现表 2 中的波动因子占比很高,共有 7 各因子最终得分超过 3 分。因此我们可以通过表中的波动因子 IC 相关系数矩阵来作为判断的依据 做筛选 : 表 3:波动因子历史 IC 值相关性检验 HighLow_ 1M HighLow_ 3M HighLow_ 6M STD_1M STD_3M STD_6M VSTD_1M VSTD_3M VSTD_6M Residual_Risk HighLow_1M 1.00 0.87 0.79 0.82 0.79 0.74 0.35 0.34 0.29 0.68 HighLow_3M 0.87 1.00 0.92 0.85 0.85 0.78 0.37 0.38 0.33 0.71 HighLow_6M 0.79 0.92 1.00 0.82 0.84 0.81 0.35 0.35 0.32 0.72 STD_1M 0.82 0.85 0.82 1.00 0.94 0.87 0.43 0.40 0.33 0.79 STD_3M 0.79 0.85 0.84 0.94 1.00 0.95 0.41 0.39 0.33 0.85 STD_6M 0.74 0.78 0.81 0.87 0.95 1.00 0.36 0.36 0.32 0.87 VSTD_1M 0.35 0.37 0.35 0.43 0.41 0.36 1.00 0.95 0.89 0.20 VSTD_3M 0.34 0.38 0.35 0.40 0.39 0.36 0.95 1.00 0.97 0.17 VSTD_6M 0.29 0.33 0.32 0.33 0.33 0.32 0.89 0.97 1.00 0.12 Residual_Risk 0.68 0.71 0.72 0.79 0.85 0.87 0.20 0.17 0.12 1.00 资料来源: Wind,光大证券研究所 波动因子中主要可以分为两个大类:价格波动和成交量波动,因此这两个类别的波动因子之间共线性较弱,筛选时即可从两类波动因子中各自选择显著性较高的因子,或者分别将两类因子中挑选出的因子合成一个综合因子。 由于 VSTD_1M, VSTD_3M, STD_1M, STD_3M 和 Residual Risk 都具有较强的预测能力和较好的单调性,均入选了我们的初步筛选名单。这里我们首先通过简单而且直观的方式,分别从价格波动和成交量波动这两个类型中分别选取一个因子,分别选取 STD_1M、 VSTD_1M。 通过类似的方法进行进一步的筛选,我们得到以下收益率较高,预测能力较 万得资讯2017-05-01 金融工程 敬请参阅最后一页特别声明 -9- 证券研究报告 强的因子 : 表 4: 筛选后的因子名单及历史表现 Factor Mean Return Factor Return tstat IC mean IR Total _Score BP_LR 0.49% 4.32 5.10% 0.48 5 Ln_MC -0.52% -2.94 -6.80% -0.4 5 Momentum_1M -0.92% -8.26 -7.90% -0.75 5 RSI -0.56% -5.02 -5.50% -0.49 5 STD_1M -0.59% -5.23 -5.50% -0.47 5 TargetReturn 0.34% 6.39 3.60% 0.63 5 VA_FC_1M -0.79% -6.12 -6.70% -0.51 5 VSTD_1M -0.64% -6.52 -6.50% -0.82 5 DP_TTM 0.26% 4.14 2.10% 0.31 4 SOBV -0.26% -2.4 -2.70% -0.24 4 EEChange_3M 0.11% 3.62 1.50% 0.24 3 OCFP_TTM 0.10% 3.1 1.50% 0.33 3 资料来源: 光大证券研究所 上述入选的 12 个因子中, BP_LR, Ln_MC, Target_Return, DP_TTM, EEChange_3M, OCFP_TTM 均可以看作为基本面类的因子,而Momentum_1M, RSI, STD_1M, VA_FC_1M, VSTD_1M 和 SOBV 为技术面类的因子。更细分的类别来看, BP_LR 和 OCFP_TTM 为估值类因子,DP_TTM 为质量因子, TargetReturn 和 EEChange_3M 是一致预期的成长类因子, Ln_MC 则是常见的规模因子。 由于在最优化 IR 的模型中,因子 IC 值时间序列之间的协方差越低, IR 的表现越好,所以 检验入选因子的 时 通过计算这些因子 IC 值相关性矩阵我们可以发现它们之间的相关性和共线性都保持在可以接受 的范围内: 表 5: 入选 因子的 IC 值相关性矩阵 BP_LR Ln_MC Momen1M RSI STD_1M TargetRet VA_FC _1M VSTD_1M DP_TTM SOBV EEG3M OCFP_TTM BP_LR 1.00 0.00 -0.07 -0.36 -0.41 -0.04 -0.15 0.31 -0.14 0.41 -0.40 0.45 Ln_MC 0.00 1.00 0.20 0.28 -0.27 0.20 -0.59 -0.06 0.53 0.49 0.41 0.42 Momen1M -0.07 0.20 1.00 0.60 -0.11 -0.50 -0.07 -0.19 0.12 0.03 0.31 0.06 RSI -0.36 0.28 0.60 1.00 0.09 -0.35 -0.03 -0.14 0.16 0.08 0.46 0.01 STD_1M -0.41 -0.27 -0.11 0.09 1.00 -0.09 0.57 0.44 -0.31 -0.25 -0.02 -0.51 TargetRet -0.04 0.20 -0.50 -0.35 -0.09 1.00 -0.32 -0.13 0.18 0.12 -0.13 0.20 VA_FC_1M -0.15 -0.59 -0.07 -0.03 0.57 -0.32 1.00 0.56 -0.46 -0.32 -0.25 -0.57 VSTD_1M 0.31 -0.06 -0.19 -0.14 0.44 -0.13 0.56 1.00 -0.29 0.28 -0.20 -0.06 DP_TTM -0.14 0.53 0.12 0.16 -0.31 0.18 -0.46 -0.29 1.00 -0.09 0.36 0.39 SOBV 0.41 0.49 0.03 0.08 -0.25 0.12 -0.32 0.28 -0.09 1.00 -0.08 0.49 EEG3M -0.40 0.41 0.31 0.46 -0.02 -0.13 -0.25 -0.20 0.36 -0.08 1.00 0.09 OCFP_TTM 0.45 0.42 0.06 0.01 -0.51 0.20 -0.57 -0.06 0.39 0.49 0.09 1.00 资料来源: 光大证券研究所 万得资讯2017-05-01 金融工程 敬请参阅最后一页特别声明 -10- 证券研究报告 3、 因子权重的优化 基于因子 IC 这一部分中,我们将重点介绍基于 Qian 的 Quantitative Equity Portfolio Management 1一书中所提出的基于因子 IC 序列以及 IC 协方差矩阵构造的最优化 IR 多因子模型。 3.1、 因子权重 优化方法简述 我们 首先 考 虑 单期 的 静态 多因子模型, 即 M 个因子 : ( 1,2 .,)因子 的线性 组合, 假设入选 的 各 因子权重为 = (1,2,)。权重 向量 一旦确定,将 不随时间变化, 保持 不变。 而实际应用中我们更倾向 于 使用 动态的 最 优化IR 方法 : 为了将 模型表现和 实际 组合应用结合, 我们 假设所有的因子已经通过 之前 两篇系列报告中 介绍的 因子测试 框架 做了中性处理 。 所以 , 复合 因子是 M 个因子的 一个 线形 组合: = =1因子的 IR 值为因子 IC 的均值与因子 IC 的标准差的比值。因子 IR 值越高,代表因子综合考虑区分度和稳定性后效果越好 。 我们的优化目标便是使复合因子的 信息比 IR 取到最大值。 首先,我们假设 IC 均值 向量 为 =(1,2,),IC 的协方差 矩阵 是 = (,),=1 。此时, 复合 IC 的均值和标准差为: = 1 i=1 = 1 () = 1 ,=1=1= 1 此时 IR 可以表示为 : = i=1 ,=1