您正在浏览的是香港网站,香港证监会BJA907号,投资有风险,交易需谨慎
如何利用市场主要矛盾辅助大势研判?

本文来自格隆汇专栏:中金研究,作者:宋唯实、郑文才等

摘要

本篇报吿尝试对不同时期股市在宏观层面(增长、流动性、通胀)的主要矛盾进行定量的捕捉与刻画,从敏感型行业、分析师研报摘要、财经新闻、政策会议四个不同角度,探讨了市场宏观维度主要矛盾的判断方法。本文进而将主要矛盾的判断应用于市场择时中,从结果看,本文对于市场主要矛盾的判断能够提升宏观信息对于A股与美股市场的择时效果。

主要矛盾判断方法一:敏感型行业

根据行业近期表现,反推市场主要矛盾。我们分别找到了对经济增长、流动性和通胀较为敏感的行业,然后判断当前哪类行业的近期的波动相对更高。如果近期经济增长(流动性、通胀)敏感型行业的波动相对更高,则我们认为经济增长(流动性、通胀)是当前股市的主要矛盾。

我们得到的经济增长敏感型行业为:家电、煤炭、商贸零售;流动性敏感型行业为:钢铁、国防军工、机械、计算机、电力设备及新能源;通胀敏感型行业为:房地产、传媒、电子。值得注意的是,最终保留下来的敏感型行业并非对各宏观维度最为敏感的行业,而是只对单一宏观维度较为敏感的行业。

主要矛盾判断方法二:研报、新闻与会议

使用NLP模型分析研报、新闻与政策会议,判断当前市场关心的主要矛盾。我们选取了分析师研究报吿摘要、财经类新闻和政策会议三大类文本,使用NLP模型量化计算出其中通胀、经济增长与流动性话题的相对市场讨论度,进而判断当前驱动市场的核心主要矛盾。

多数情况下三大主题得分基本处于均衡状态,而在一些特殊时点如2018、2022年的市场异常波动与2020的疫情扩散时,市场关心的主题则会出现明显分化,这些分化也基本符合我们的主观判断。我们认为以上特点表明本文得到的主要矛盾话题指数在一定程度上可以有效反映国内外市场的讨论热点,并能够有效指导后续宏观择时策略。

主要矛盾在市场择时中的应用

“由分至总”两步走思路。首先,我们分别从经济增长、流动性、通胀的角度,得到对未来市场走势的观点方向;然后,我们判断当前市场的主要矛盾,如果当前股市的主要矛盾在于经济增长(流动性、通胀),则我们以经济增长(流动性、通胀)维度所给出的观点,作为未来市场走势的方向判断。

各方法判断出的主要矛盾均有助于提升宏观信息对股市的择时效果。从择时效果的提升程度来看,研报角度主要矛盾>敏感型行业角度主要矛盾>新闻角度主要矛盾>会议角度主要矛盾,A股市场>美股市场。具体来说:

1)敏感型行业角度的主要矛盾对A股择时效果有一定提升,且在2015年至今有更高应用价值。

2)研报角度的主要矛盾对A股择时效果有较明显提升,提升量在所有角度中最高,且同样在2015年至今有更高应用价值;对美股择时效果有一定提升。

3)新闻角度的主要矛盾对A股择时效果有一定提升;对美股择时效果略有提升。

4)会议角度的主要矛盾对A股择时效果有一定提升,提升量在所有角度中最低。

风险提示:模型基于历史数据构建,未来存在失效风险。

正文

市场主要矛盾存在动态变化

股票市场是多维度信息共同影响的复杂系统。宏观经济、微观结构、地缘政治、包括黑天鹅事件,都会在特定情景下成为影响当时股票市场走势的主要矛盾。

举例来说,下图绘制了沪深300指数走势与沪深300指数EPS(TTM)从2015年至今的历史变化情况。可以看到,指数走势和EPS变化能够整体保持较高的同方向性,即盈利情况在多数时期是影响大盘走势的因素。然而在部分时期,市场涨跌不再与EPS变化呈相同方向,如2015年股市大跌前后,2018年中美贸易摩擦时期,以及2020年全球疫情扩散时期,当时市场主要矛盾分别为微观结构、地缘政治以及疫情对全球产业链的次生影响,EPS不再是当时的主要矛盾。

图表1:EPS在部分时期并非市场主要矛盾

资料来源:Wind,中金公司研究部

主要矛盾的动态变化给投资者的择时带来了更大挑战。其最直接的影响在于,我们很难从单一的信息维度,构建出能够解释股市历次涨跌变化的指标。上图的EPS是一个典型的例子,即使投资者能够准确判断EPS未来的变化方向,也难以在2015年、2018年以及2020年疫情期间做出正确择时。

为简单直观的说明,我们不妨将除EPS之外对股市的影响因素均归结为“估值”因素,则我们可以将股市的主要矛盾分为盈利和估值两方面。从图表2可以看出,股市在盈利和估值维度的主要矛盾在2015年至今具有阶段性的变化,且其切换频率不会过高,短约6个月,长可至近2年。也就是说,我们有可能会在1~2年的时间段内,即使准确的判断了盈利(估值)的变化,但由于错判或漏判了市场主要矛盾,造成整体做出错误的择时方向。

图表2:市场主要矛盾存在动态变化

资料来源:Wind,中金公司研究部

因此,我们认为对于主要矛盾的判断,是市场择时体系中的重要一环。承接上述案例,假设我们能准确判断未来盈利(估值)变化,并在图表2各阶段内,准确识别市场当时的主要矛盾,在主要矛盾看好市场时,做多沪深300指数,在主要矛盾看空市场时,做空沪深300指数。从2015年至今,通过该方法我们可以获得3.61的累计净值,而若我们不进行主要矛盾的判断,单从盈利和估值的维度来进行择时,则2015年至今的累计净值分别为1.50和1.37,弱于加入主要矛盾判断的择时效果。从此可以看出,准确判断市场主要矛盾,可以较为显著的提升市场择时效果。

图表3:准确判断市场主要矛盾,可以较为显著的提升择时效果

资料来源:Wind,中金公司研究部

出于以上考虑,我们将在未来一系列报吿中,尝试对不同时期股市的主要矛盾进行定量的捕捉与刻画。主要矛盾的维度较多,本篇报吿将专注于宏观维度的主要矛盾(增长、流动性、通胀),从敏感型行业、分析师研报摘要、财经新闻、政策会议四个不同角度,探讨市场宏观维度主要矛盾的判断方法,并展示主要矛盾对市场涨跌判断的增强效果。从结果看,本文对于市场主要矛盾的判断能够提升宏观信息对于A股与美股市场的择时效果。

主要矛盾判断方法一:敏感型行业

我们在之前报吿《量化配置系列(6)‍股市宏观驱动力轮动:经济增长or流动性?》中,从行业表现的角度,介绍了一种判断股市主要宏观矛盾在于经济增长还是流动性的方法。这种方法的逻辑可以概括为“由果推因”,我们认为经济增长和流动性不仅会影响股市整体的涨跌走势,同时也会带来不同行业与风格表现的分化。举例来说,经济加速上涨时,顺周期行业以及营运效率较高的行业会有相对较好的表现;而流动性收紧时,对利率变化更为敏感的成长风格往往回撤更大。因此我们可以通过观测不同敏感型行业的近期表现情况,来反推当前市场额主要矛盾。

在之前报吿中,我们对于宏观主要矛盾的判断仅限于经济增长与流动性。本篇报吿我们进一步加入了对于通胀的考量,从不同敏感型行业的表现差异入手,反推当前股市在宏观维度的主要矛盾。具体而言,我们分别找到了对经济增长、流动性和通胀较为敏感的行业,然后判断当前哪类行业的近期的波动相对更高。如果近期经济增长(流动性、通胀)敏感型行业的波动相对更高,则我们认为经济增长(流动性、通胀)是当前股市的主要矛盾。

图表4:根据行业近期表现,反推市场主要矛盾

资料来源:中金公司研究部

确定敏感型行业

我们第一步需要确定经济增长、流动性、通胀敏感型行业。一个直观的解决方案为,如果某行业走势与经济增长(流动性、通胀)变化的相关性相比其他行业显著更高,则我们将该行业作为经济增长(流动性、通胀)敏感型行业。为此,我们首先明确经济增长、流动性和通胀变化的代理指标。

以工业增加值同比增速作为经济增长的代理指标。对于经济增长来说,相对最为合适的代理指标是GDP,但GDP为季频公布指标,更新频率相对较低,用于统计分析时的有效性较差,出于此考虑,我们选择月频更新的工业增加值作为经济增长的代理指标,并以工业增加值的同比增速来刻画经济增长的变化。

以剩余流动性同比增速作为流动性的代理指标。对于流动性来说,一个较为直接的思路是用反映广义货币供应量的M2同比作为流动性变化的代理指标,然而该种做法有一个潜在问题:M2同比变化(同比变化即为同比的差分,下同)与工业增加值同比变化具有较高的正相关性1,高相关性使我们难以进一步通过统计分析来区分经济增长与流动性敏感型行业。因此,本文使用反映剩余流动性的“M2同比-社融存量同比”作为流动性的代理指标,M2与社融均体现了宏观流动性的状态,分别对应了金融机构的负债端与资产端,而从差异性看,M2反映流动性总供给,社融反映实体部门流动性总需求,两者之差一定程度反映了金融市场流动性需求,即“剩余流动性”,我们定义“剩余流动性同比增速”为M2同比增速减去社融存量同比增速。一方面,剩余流动性同比与股市涨跌的正相关性更高2,在流动性维度的驱动逻辑更强;另一方面,剩余流动性同比变化与工业增加值同比变化之间的相关性较低3,在区分经济增长与流动性敏感型行业时效果较好。从这两方面看,剩余流动性同比增速更适合作为流动性的代理指标。

以PPI和CPI同比增速的平均值,作为通胀的代理指标。反映通胀的常用指标为PPI与CPI。PPI与工业、材料以及能源板块的关联性更强,而CPI与日常消费板块的结合更为紧密。考虑两者均有通胀反映效果且具互补性,我们以PPI和CPI同比增速的平均值作为通胀的代理指标。

图表5:剩余流动性同比与股市涨跌的正相关性更强

资料来源:Wind,中金公司研究部

图表6:剩余流动性同比变化与工业增加值同比变化的相关性更低

资料来源:Wind,中金公司研究部

通过回归分析识别各宏观维度敏感型行业。确定了反映经济增长、流动性与通胀变化的代理指标后,我们通过回归分析的方式来识别各类敏感型行业。具体来说:

对于每个一级行业,我们以工业增加值同比变化、剩余流动性同比变化、PPI同比变化作为自变量,该一级行业月涨跌幅作为因变量,进行三元线性回归,以回归系数绝对值作为该行业对经济增长、流动性与通胀变化的敏感程度。

得到各行业对经济增长、流动性与通胀变化的敏感程度后,分别选取对各宏观维度敏感程度最高的15个行业,作为对应宏观维度敏感型行业。

如果某行业同时属于两个或两个以上宏观维度的敏感型行业,则将该行业剔除

图表7:各宏观维度敏感型行业识别方法

资料来源:中金公司研究部

通过以上方法,我们得到的经济增长敏感型行业为:家电、煤炭、商贸零售;流动性敏感型行业为:钢铁、国防军工、机械、计算机、电力设备及新能源;通胀敏感型行业为:房地产、传媒、电子。部分行业因同时属于两个或两个以上宏观维度的敏感型行业,最终被剔除掉。

值得注意的是,最终保留下来的敏感型行业并非对各宏观维度最为敏感的行业,而是只对单一宏观维度较为敏感的行业举例来说,从模型结果来看,基础化工行业对经济增长的敏感性在所有行业中排名第1,对通胀的敏感性在所有行业中排名第2,理应作为这两个维度的敏感型行业,但当我们观测到基础化工行业近期波动较大时,我们无法识别究竟是经济增长驱动带来,还是通胀影响所致,从而使其对当前主要矛盾的判断效果较差。因此我们最终保留下来的行业是能够对当前主要矛盾进行一对一映射的行业

图表8:各宏观维度敏感型行业一览

资料来源:Wind,中金公司研究部

反推市场主要矛盾

得到经济增长、流动性与通胀敏感型行业后,我们便可以根据三类行业近期表现,识别当前市场在宏观维度的主要矛盾。一个直观的逻辑在于:如果当前经济增长是股市的主要矛盾,则经济增长敏感型行业所受影响会相对更大,对应其近期波动率会相对更高。遵循这种思路,我们通过以下方法来动态确定股市核心驱动因素:

第一,计算各行业近期波动率。每月末,我们计算各行业以近三个月以日涨跌幅所计算出的波动率。行业收益使用中信一级行业指数。

第二,近期波动率截面标准化行业波动率除了受宏观驱动因素影响外,还受众多市场共性因素所影响。举例来说,2015年6月,受大涨之后的大幅回撤影响,所有行业在当月的波动率均高于2014年6月的水平。因此,为尽可能消除时间截面上市场共性因素的影响,我们将各行业近期波动率除以所有行业近期波动率的平均值,为下一步观测波动率的时序变化做准备。

第三,计算行业近期波动率的滚动时序分位数。为观测波动率变化情况,每月末,我们计算各行业经过截面标准化后的近期波动率在过去3年所处的分位数水平。分位数越高,代表当前波动水平越高。

第四,分位数平滑处理为避免第三步计算出的分位数出现大幅跳跃所带来的主要矛盾频繁变化的问题,我们将各行业近期波动率的滚动时序分位数进行DEA处理1。

第五,判断当前市场在宏观维度的主要矛盾。每月末,我们分别计算当前经济增长(流动性、通胀)敏感型行业在第四步所计算出分位数的平均值,以平均值最高的维度作为当前市场在宏观维度的主要矛盾。

图表9:反推市场主要矛盾的流程

资料来源:Wind,中金公司研究部

通过以上流程,我们可以反推出市场在不同时间的主要宏观矛盾。根据模型结果,从2022年3月初至今,市场在宏观维度的主要矛盾在于经济增长。

图表10:主要矛盾阶段划分

资料来源:Wind,中金公司研究部

主要矛盾判断方法二:研报、新闻与会议

我们在《量化投资新趋势(3):驶向另类数据的信息蓝海》中提到,随着量化策略对市面上常用的价量数据与财务数据等传统金融数据的深入挖掘,尚未被利用的信息逐渐减少,发掘出增量信息的成本则越来越高。而另类数据则给量化模型提供了一片充盈的信息蓝海,另类数据以其来源的多样性、较大体量以及与传统金融数据的低相关性特点正在成为量化策略和投资管理人所青睐的新型工具,本文要使用的文本数据则是另类数据中非结构化程度较低,相对易于处理且仍有大量信息尚未被充分发掘利用的重要类型。

我们认为要判断市场正在交易的核心矛盾,一种较为直观的方法是从市场中的各类参与者的发言中找到他们所集中关心的热点问题。因此本文选取了专业性较高但数量有限的分析师研究报吿摘要、专业性相对较低但数量更大的财经类新闻和可能释放重大信号的政策会议新闻稿三大类文本数据,对其中涉及到的关键话题进行NLP处理:通过量化模型计算出通货膨胀、经济增长与流动性话题的相对市场讨论度,进而判断当前市场最关心的核心矛盾话题。

数据方面我们使用朝阳永续提供的2010年至今的分析师研究报吿摘要文本,主要包含策略、宏观主题等超过20万条总量团队报吿摘要文本;新闻数据我们使用ChinaScope提供的2015年至今的超过1500万条财经新闻数据,主要包含从东方财富网、每日经济新闻、金融界等数百家金融信息网站获取的文本数据;政策会议文本我们使用人民网提供的中央政治局会议新闻稿文本,中央政治局会议一般一个月召开一次,相关新闻稿会由人民网次日发出,本文使用10年间累计共120条会议新闻稿文本。以上文本数据的主要特点有:

体量大:文本数据体量巨大,一般难以通过人工全面地获取其中的所有信息,因此其未被利用的信息占比相对较高;

来源广:本文使用的分析师数据来源超过百家专业金融机构,新闻来源则超过两百家,数据来源较广意味着其中包含的信息稳定性较高;

专业性强:不管是分析师研究报吿还是财经新闻的产生都需要一定的经济或金融学基础,因此数据来源也具较高的专业性,人民网新闻稿文本更具有相当的权威性;

差异化:即便都与金融经济相关,三类文本的受众、创作目的和形式等均有较大差异:政策会议文本最权威,平均字数最长,在1500~2500字不等;新闻文本来源最丰富,单篇字数较短,一般在300字左右;分析师研报摘要文本最稳定,平均在900字左右,但可以观察到逐年稳定上升的趋势。

图表11:分年度文本数据总量

资料来源:朝阳永续,ChinaScope,中金公司研究部。数据截至 2022 年 7 月底

图表12:三类文本平均字数对比

资料来源:朝阳永续,ChinaScope,中金公司研究部。数据截至 2022 年 7 月底

不同类型文本数据特征

本文主要使用分析师研究报吿、新闻、政策会议文本来获取当前市场关心的综合热点。我们将研究报吿和新闻文本数据进一步按被讨论地区分成两大类别:国内主题和海外主题文本。国内主题数据是只以国内事务为文章核心的数据,海外主题数据是只以国际经济形式、海外国家为文章核心的数据,由于政策会议主要涉及国内议题,因此无需按照地区区分。

我们的筛选方法为使用NLP的主体识别来筛选出和国家有关的关键词:国内主题关键词包括“中国”、“国内”等提及中国市场以及中国经济情况的词语;国外主题文本关键词包括“欧美”、“海外”等系列有明确指向海外地区或海外市场的词语。由于文本数据来源均为国内,因此海外主题的文本样本数量会远低于对于国内的讨论。

由于分析师研究报吿摘要数据较为专业,新闻数据专业词汇相对较低,并含有大量和当前市场关心核心热点无关的话题,如个股发布业绩预吿之类的财经新闻,因此本文对以上两类文本数据筛选标准略有不同:对于较为专业的分析师数据,我们使用全部文本样本作为国内文本样本,使用仅包含国外主题文本关键词文本作为国外文本样本;对于新闻数据,我们筛选和流动性、通货膨胀、和经济增长有关宏观经济的话题并仅使用含有国内主题关键词的文本作为国内文本样本,使用仅包含国外主题文本关键词作为国外文本样本来进行信息提取,经过分地区筛选之后新闻数据量降至和分析师研究报吿摘要数据量持平。由于中央政治局会议新闻稿数据较为稀疏且本身信息密度较高,因此本文不进行筛选或分地区处理。

图表13:新闻数据分地区筛选数量

资料来源:朝阳永续,ChinaScope,中金公司研究部数据截至 2022 年 7 月底

图表14:分析师研究报吿摘要分地区筛选数量

资料来源:朝阳永续,ChinaScope,中金公司研究部数据截至 2022 年 7 月底

分析师研究报吿摘要数据特点

我们获取了宏观、策略、固收以及大类资产的全市场分析师报吿的摘要部分,通过统计分析师研究报吿的摘要中对于不同主题的关心程度来判断当前市场关心的热点问题,进而从中发掘市场当前的主要矛盾。

我们分析了从2010年至2022年上半年的分析师研究报吿摘要数据。分年度看,年均文本数据量在2万条左右,且近些年呈现平稳缓慢增长的特点。分研报主题看,共有四类报吿主题,分别是固定收益、宏观经济、策略研究与大类资产。在四大类数据中,固定收益、宏观经济、策略研究类别下的年度数量差异较小,且均呈现缓慢增长的趋势。大类资产类别下的数据从2019年开始出现,近几年增速相对较快。

图表15:分析师摘要文本示例

资料来源:朝阳永续,中金公司研究部

图表16:不同主题总量研究报吿摘要数量分布

资料来源:朝阳永续,中金公司研究部数据截至 2022 年 7 月底

从以上分析师研究报吿摘要中发现文本数据主要有以下特点:

专业性强:观察报吿摘要信息,由于其来源均为专业机构分析师,因此文本数据用词专业性更强,核心词更为突出。

结构稳定:研究报吿通常具有一定格式要求,文本结构较为稳定。同时分析师摘要平均段落长度每段平均包含800字以上,内容更为丰富,后续文本处理较为便利。

用词规范:分析师研究报吿摘要文本规范性较强,用词精准清晰,主题明确规范,易于进行文本解析。但同时由于存在不少的专有名词,导致后期直接使用jieba默认词库分词带来了数据信息的过度切割并且破坏了专有名词的完整性,因此我们在jieba分词中加载自己的词库进入分词系统,帮助其自动检索存在的专有名词,提高词语解析效率与准确性。

新闻数据特点

本文使用的新闻数据文本中主要由新闻id,新闻标题,发布时间,新闻链接,新闻摘要及其他舆情量化指标信息组成。本文主要使用发布时间(newsTs)和新闻摘要(newsSummary)两列信息。文本信息预览如下图所示:

图表17:新闻文本示例

资料来源:ChinaScope,中金公司研究部

我们发现新闻数据样本主要有以下特点:

信息量大:本文使用了2011年至2022年共8年的数据信息,共得到了超1500万条文本信息,平均每年近200万条,我们认为其大致能够涵盖市场中和金融经济有关的全部文本数据信息。

持续上升:以2020年为节点,在2015至2019年5年间,文本信息数据量都保持在200万以下,而进入2020年后数据量上升至400万条,文本数据量发生了快速的扩张。虽然数据量变化趋势明显,但由于我们主要关注同一时间点不同主题数据文本的横向对比,所以时间序列上各时间点数据量的上升不会对数据信息分布造成显著的偏差,因此不在时间序列角度做标准化处理。

形式多样:由于新闻数据来源较多,其中涉及的关键词汇会更繁杂多样,给后期核心主题识别造成了一定难度。

政治会议文本特点

中央政治局会议由中国共产党中央委员会总书记召集,一般每月定期召开,遇有重要情况可以随时召开,主要讨论讨论和决定关系党和国家事业发展全局的重大问题和事项,因此用词严谨准确,会议讨论的问题重要且时效性强。

本文使用的政策会议新闻主要为中央政治局会议的人民网新闻稿,主要包括会议时间、主要内容、发布时间和新闻全文。本文主要使用发布时间和会议新闻稿全文信息。文本信息样本如下图所示:

图表18:中央政治局会议新闻稿文本示例

资料来源:人民网,中金公司研究部

我们发现中央政治局会议新闻稿文本主要有以下特点:

数据量小:本文使用了2012年至2022年共约10年的会议信息,由于中央政治局会议一般一个月召开一次,因此可以获得一共120条会议新闻稿全文,相对分析师研究报吿和新闻来说数据量较低,样本稀疏,单篇权重也相对更高。

用词精准:对于中央政治局会议这种级别会议的新闻稿,对词语的使用要求相对更加严格精准,因此文本处理噪音较低,信息的有效率更高。但由于用词的准确性和专业度上升,对于文本分词能力同时要求更高,否则容易将专业词汇错误切割引起歧义。

信息权威:中央政治局会议一般会讨论当前国内重点话题如经济形势和社会发展问题等等,而且最终会议新闻稿由人民网发布,其信息来源权威性较高,因此几乎不用对文本进行任何筛选即可得到较稳定信息。

文本信息提取过程

在充分分析各类文本信息特点后,我们使用相应的NLP模型处理解析上述文本材料,主要分成三大步骤:1)文本数据预处理;2)word2vec解析词向量;3)查找相似词向量组成主题词组,并通过寻找主题词组在文本中出现的频率计算文本是否与该主题相关。

图表19:文本信息处理流程图

资料来源:中金公司研究部

文本数据预处理

由于获取的文本数据有诸如格式解析、字符乱码等问题,对文本结构化解析带来了一定困难,同时中文文本天然具有缺乏空格分隔词语的特性,因此对于文本段落进行预处理以及分词处理才能适应后续模型,构造初步静态的词向量解析数据。文本数据预处理主要包括以下三大步骤:

特征数据筛选:我们关心八大主题,分别是:流动性、经济增长、通胀、情绪、估值、资金、疫情和地缘冲突。将八大主题分成三个维度,分别是包括宏观维度的流动性、经济增长、通胀,中观维度的情绪、估值和资金,以及特殊事件维度的疫情与地缘冲突。我们将八大主题作为关键词,进入文本数据中进行检索,保留下文本中出现了此八大关键词的文本数据作为后期处理的输入数据。本文只使用宏观维度三大主题:流动性、经济增长、通货膨胀。

无效字符过滤:由于文本在解析前包含许多解析错误字符以及无效符号、乱码,因此尝试使用正则表达式过滤文本,由于后期使用静态词向量解析模型,即词的含义无法随语境的变化而变化。根据此特点,我们认为数字和标点没有实义,解析数字和标点无助于识别主题,因此设计只保留包括大小写的关键英文词汇和中文词语,得到解析后的文本。

文本分词:借助python中的中文分词组件jieba库中的lcut分词功能(详细函数解析见附录),对过滤后的文本进行分词。jieba库中主要有三种分词模式,本文主要选择精简模型进行分词。分词后去除分词结果中的停用词。停用词是指在文章中出现频率很高的无实义词,例如“了”,“是”,“等等”等词,通常认为其存在无助于实义解析,因此在分词后删除。将过滤完的结果存为txt文本格式,txt中一行来自于一个文本样本,每个词以空格分隔。

图表20:数据预处理示例

资料来源:中金公司研究部

Word2vec文本向量化

Word2vec是Word Embedding 的方法之一,其主要功能是将词转化为向量,将未标记的原始语料库转换为标记数据(通过目标词映射上下文或者通过上下文映射目标词),而词与词之间的关系则由向量的相互映射关系记录进词向量。本文对于过滤分词后的文本进行Word2vec词向量解析,主要分为以下三个步骤:

模型输入:承接在文本数据预处理板块得到的文本结构数据结构,使用gensim.models中的LineSentence函数按行读入文本数据,其中一行对应于一段文本,文本以空格分隔,每两个空格之间即为一个分词后的词语。值得注意的是,各文本经分词后得到的词语个数不用强制保持一致。

模型设计:模型基于gensim.models中的Word2Vec函数进行设计(详细模型参数及含义见附录)。在参数选择上,设计参数为:window(窗口长度)为10,min_count(最小词频)为5,vector_size(词向量维度)为300,sg为0(使用默认的CBOW模型,即使用窗中涵盖的周边词去预测中心词,得到Word2Vec模型下对词向量解析的结果)。模型实例如下所示,在window等于5的参数条件下,即用周边的词预测中心词来实现词义和词间关系的保留。

模型输出:由于之前设计的vector_size(词向量维度)为300,则得到每个词解析下的结果即为长度为300的向量。文本词向量可以包含词间的语义信息,而词语之间的关系可由词向量的相互映射关系来记录。CBOW(window=5)模型对于“联合国专家表示中国带动了全球贸易与经济复苏”的解析示意图如下:例如对于“带动”的预测,输入为“表示”,“中国”,“全球”,“贸易”的词向量,输出为“带动”的词向量,预测通过基础神经网络模型实现。

图表21:CBOW模型预测示意图

资料来源:中金公司研究部

主题词表构建

基于上个步骤得到的词与其词向量解析结果,由于词向量蕴含词之间的相互联系,因此可以尝试根据词向量相似度来构建主题词与其附属的词组。具体步骤如下,本文主要利用了Word2Vec模型下的函数来计算相似度得到词表:

应用Word2Vec模型使用model.wv.similar_by_word函数(详细函数解析见附录)计算在分析师研究报吿摘要样本下与主题词相似度最高的前200个词作为预测词表,得到8大主题下各主题200个词作为识别主题的特征词。

关注地区为海外的文本数量相对讨论国内文本显著更低,因此对于国内研究报吿主题热度相关性计算我们保留全部前200位相关词汇,对于海外文本数据我们仅保留前100位主题相关词。同理由于政策会议文本数量更加有限,因此我们仅保留前20位主题词表进行计算。

图表22:分析师研究报吿摘要主题词表预览(前20位)

资料来源:朝阳永续,中金公司研究部

图表23:新闻主题词表预览(前20位)

资料来源:Chinascope,中金公司研究部

图表24:政治局会议新闻稿主题词表预览(前20位)

资料来源:人民网,中金公司研究部

相关主题总体热度计算

得到以上词表之后,我们可以通过在文本中检索每个主题下词汇是否在文本中出现以及词出现的频率来判断文章核心的讨论主题。首先是按照文本讨论的核心地区进行二分类:国内主题、国际主题。国内主题是指文本的主体讨论对象为中国,文本信息归属为国内主题信息;国际主题是指文本的主体讨论对象为除中国外的其他国家及国际组织。在分类文章讨论主体和计算得到文章主题倾向后,我们尝试通过一天中各主题出现频次来得出当天的主要矛盾点。因此主要分为三大步骤:文章主题得分判断、每天的主题得分计算、主题热度指标计算。具体步骤如下所示:

文章主题得分计算:首先对每天每一篇文章通过关键词查找进行地点区分,主要分为纯国内主题信息、纯国外主题信息和综合地区文本信息。通过遍历词表各地区主题下的每一个词是否出现在文本中来进行0/1判断:即如果某一主题下的词出现在文本中,就认为此文本有关于此主题,则该文本在此主题下得分记为1,反之如果此本文没有出现此主题下任何一个特征词,则该文本在此主题下得分记为0。

日度主题得分计算:在得到每篇文章的主题得分之后,按照日期以天为单位做聚合,即加总某一天中某一主题下的1的个数作为这一天的主题得分,之后再进行归一化操作,使得每一天各主题得分求和等于1。

主题热度指标计算:计算宏观、中观与特殊话题三个维度下各细分板块的得分最高的主题和八大主题下得分最高的板块作为最后的热点话题结果。本文仅使用宏观话题得分最高主题作为市场主要矛盾。

图表25:国内分析师研究报吿摘要主题热度得分

资料来源:朝阳永续,ChinaScope,中金公司研究部

图表26:国内新闻数据主题热度得分

资料来源:朝阳永续,ChinaScope,中金公司研究部

图表27:海外分析师研究报吿摘要主题热度得分

资料来源:朝阳永续,ChinaScope,中金公司研究部

图表28:海外新闻数据主题热度得分

资料来源:朝阳永续,ChinaScope,中金公司研究部

图表29:国内分析师数据主要矛盾时期划分示例

资料来源:朝阳永续,人民网,中金公司研究部

图表30:政治局会议新闻文本主要矛盾时期划分示例

资料来源:朝阳永续,人民网,中金公司研究部

从上图中我们可以看出对于国内来说分析师研究报吿摘要文本在宏观三大主题上的得分基本处于均衡状态,而在一些特殊时期如2018年市场大幅波动与2021年的疫情期间,市场关心的主题则会出现相应明显分化,如2018年市场中对于流动性的讨论相对其他主题热度更高,而2020年疫情出现流动性的讨论也一度占据主流,接着关于国内经济增长的讨论就占据了市场。这种特点我们在政治局会议新闻文本主要矛盾划分示例图中也能找到相应划分规律,我们认为以上文本的划分区间基本符合市场共识,以上特点表明我们筛选出的分析师摘要数据一定程度上可以有效反映出国内市场的讨论热点。

对于海外数据来说,通货膨胀和流动性则一直是分析师讨论的热点问题,而新闻近期则相对更热衷于讨论通货膨胀和经济增长相关的话题。值得注意的是尽管上述数据都经过了10日或20日移动平均,但数据的短期波动仍然较大,导致某些时期市场主要矛盾主题切换过快,尤其对于新闻数据来说更为明显。这一部分来自于数据本身的噪音,市场对于相关主题的注意力通常较短,另一方面也和我们计算日度词频得分的方法有关。后续可以从关键词相似度算法,NLP模型选择或加入滤波器过滤噪音等方向进行探索。

主要矛盾在市场择时中的应用

在上文中,我们分别从敏感型行业和文本分析的角度,介绍了4种股市主要矛盾的判断方法。判断市场主要矛盾的意义在于指导未来投资决策,因此我们尝试借助对于市场主要矛盾的判断结果,来提升未来市场走势研判的准确性。

我们采用“由分至总”的两步走思路:首先,我们分别从经济增长、流动性、通胀的角度,得到对未来市场走势的观点方向;然后,我们判断当前市场的主要矛盾,如果当前股市的主要矛盾在于经济增长(流动性、通胀),则我们以经济增长(流动性、通胀)维度所给出的观点,作为未来市场走势的方向判断。

各宏观维度对市场走势的判断

根据“由分至总”的两步走思路,我们首先分别从经济增长、流动性、通胀的角度,得到对未来市场走势的观点方向。

从经济学逻辑出发,我们认为,如果最新公布的经济增长指标超预期,则利好未来股市运行;如果最新公布的流动性指标超预期,同样利好未来股市运行;而若最新公布的通胀指标超预期,则会利空未来股市运行。

图表31:增长与流动性超预期利好股市,通胀超预期利空股市

资料来源:中金公司研究部

明确了各经济维度对股市的影响方向后,我们便可以分别选取经济增长、流动性、通胀的代理指标,并利用这三个指标的超预期情况,作为各宏观维度对市场未来走势的判断依据。

鉴于数据可得性的差异,下文中,我们将分别介绍中国与美国市场中经济增长、流动性、通胀代理指标的选取方法。

中国市场

对于中国市场而言,Wind会提供国内18个重要经济指标的预期数据。因此我们可以从这18个指标中,选择择时效果相对更好的指标,作为经济增长、流动性、通胀维度的代理指标。

首先我们按照指标的经济学含义,将其归到经济增长、流动性、通胀三个大类中:

经济增长指标:包括GDP、工业增加值、固定资产投资、社会消费品零售总额、出口金额、进口金额的同比数据,以及PMI、社会融资规模、贸易差额的当月值。

流动性指标:包括M2、各项贷款余额的同比数据,以及新增人民币贷款、1年期存款利率、1年期贷款利率的当月值。

通胀指标:包括CPI、PPI的同比数据,以及美元对人民币的月末值。

图表32:经济预期数据一览

资料来源:Wind,中金公司研究部

在应用宏观预期数据时,我们需要确定每个宏观数据的发布时点。由于历史上宏观数据的发布日期具有不确定性,我们确定宏观数据发布时点的原则为:在保证回测过程不引入未来数据的前提下,尽可能使确定的时点接近真实时点。

下面按照日历的顺序,展示了我们所确定的各宏观数据的发布时点。特别说明的是,如果确定的日期在某月是非交易日,则将其向后顺延至第一个交易日

每月最后1日:中采PMI、人民币兑美元。PMI是月度经济数据中最早公布的一个,会在每月最后一个自然日公布当月值。人民币兑美元是每日公布的数据,因此可以在每月最后一日获得当月月末值。

下月11日:CPI、PPI、M2、社融、新增人民币贷款。从历史经验看,CPI、PPI、M2、社融、新增人民币贷款会在下月8~11日之间公布(如遇周末顺延至下周一),因此,我们把这些数据的发布时点确定为下月11日。特别地,受春节、劳动节、国庆节的假期影响,1月、4月、9月的数据公布时间会有所延迟,我们将这几个指标1月、4月、9月数据的公布时点确定为2月16日、5月12日、10月16日

下月14日:进出口数据。从历史经验看,海关总署会在每月6~14日之间公布上个月的出口金额、进口金额、贸易差额等进出口数据,因此,我们把进出口数据的发布时点确定为下月14日。

下月16日:工业增加值、固定资产投资、社零。从历史经验看,工业增加值、固定资产投资、社会消费品零售总额会在下月13~16日之间公布。特别地,受春节、劳动节、国庆节的假期影响,1月、4月、9月的数据公布时间会有所延迟,我们将这三个指标1月、4月、9月数据公布时点确定为2月21日、5月17日、10月21日

下季第一月20日:GDP。从历史经验看,每个季度的GDP会在下季度第一个月的15~20日之间公布,因此,我们把GDP的发布时点确定为下季度第一个月的20日。

图表33:确定实际数据的发布时点

资料来源:Wind,中金公司研究部

我们通过经济指标超预期情况与市场未来走势的相关性,来选取各经济维度内最好的择时指标。具体来说:

每周末,对于每个指标,判断其最新公布数据的超预期情况。

对于经济增长和流动性维度的指标,若其超预期,则观点状态记为1;不及预期,则观点状态记为0。对于通胀维度的指标,若其超预期,则观点状态记为0;不及预期,则观点状态记为1。

对于每个指标,计算其每周观点状态与沪深300下周涨跌幅之间的相关性。

分别选取经济增长、流动性、通胀各维度下,相关性最高的一个指标。

下表展示了各指标每周观点状态与沪深300下周涨跌幅之间的相关性。经济增长维度相关性最高的指标为PMI,但PMI从2013年5月份开始才有预期数据,因此在2013年5月之前,我们使用经济增长维度相关性第二高的指标——GDP累计同比,作为经济增长维度的代理指标,在2013年5月及以后,使用PMI作为经济增长维度的代理指标。流动性和通胀维度相关性最高的指标分别为PPI当月同比和人民币贷款同比,我们以其作为流动性和通胀维度的代理指标。

图表34:各宏观维度代理指标

资料来源:Wind,中金公司研究部

通胀对国内股市的择时效果最好,经济增长和流动性基本无择时效果我们分别测试了各宏观维度代理指标对沪深300的择时效果,方法为:每周末判断指标观点方向,当指标看多时,下周做多沪深300;当指标看空时,下周做空沪深300。从结果看,2010年至今,经济增长、流动性、通胀代理指标的择时净值分别为0.97、1.39、7.37,同期沪深300指数累计净值为1.24。可以看出,在宏观预期的信息维度,通胀对国内股市有显著较好的择时效果,而经济增长和流动性基本没有择时能力。

图表35:各经济维度对国内股市择时效果

资料来源:Wind,中金公司研究部

美国市场

对于美国市场而言,预期数据相对难以获取。Bloomberg会以季度频率公布GDP同比、十年期国债利率、CPI同比的预期数据,我们分别将其作为美国经济增长、流动性、通胀的代理指标。由于GDP同比只有2014年4季度之后的预期数据,我们对美国市场的后续建模从2015年开始。

各经济维度对美股的择时效果均不理想。使用与国内市场类似的方法,我们可以在每周末,得到对标普500指数下周涨跌的观点,并构建周频多空择时策略。从结果看,2010年至今,经济增长、流动性、通胀代理指标的择时净值分别为0.88、1.02、1.07,同期标普500指数累计净值为1.98。可以看出,在宏观预期的信息维度,各经济维度对美股的择时效果均不理想。

图表36:各经济维度对美股择时效果均不理想

资料来源:Bloomberg,Wind,中金公司研究部

由分至总,以主要矛盾判断市场未来走势

在得到各宏观维度对市场走势的判断方向后,我们进一步纳入前文对于宏观主要矛盾的判断。具体来说:

每周末,根据模型判断当前股市的主要矛盾在于经济增长、流动性还是通胀。

如果主要矛盾在于经济增长(流动性、通胀),则以经济增长(流动性、通胀)维度所给出的择时观点,作为下周市场走势的最终判断。

敏感型行业角度的主要矛盾

敏感型行业角度的主要矛盾对A股择时效果有一定提升。我们首先测试从敏感型行业角度得到的主要矛盾,对A股的择时效果。图表37展示了历史回测的净值曲线。2010年至今,纳入主要矛盾的择时策略可以取得8.14的累计净值,略优于通胀维度择时7.37的累计净值,显著强于经济增长、流动性维度的择时净值以及沪深300的同期表现。从结果看,纳入敏感型行业角度的主要矛盾后,模型对未来A股走势的判断效果有一定提升。

图表37:敏感型行业角度的主要矛盾对A股择时效果有一定提升

资料来源:Wind,中金公司研究部

从净值曲线的变化可以看到,主要矛盾择时在2015年之前无法跑赢通胀择时,而在2015年之后可以有相对明显的收益提升。一方面原因可能在于有效性较强的PMI从2013年5月份之后才有预期数据,另一方面原因可能在于早期A股以散户为主的特征使得市场主要受情绪面主导,而随着机构投资者数量的增加,宏观预期在近些年对股市的定价程度有所上升,使得宏观主要矛盾的择时准确率在2015年之后得到提高。

敏感型行业角度的主要矛盾2015年至今有更高应用价值。承接以上分析,我们进一步测试了敏感型行业角度的到的主要矛盾,在2015年之后对A股的择时效果。2015年至今,纳入主要矛盾的择时策略可以取得5.15的累计净值,显著优于经济增长、流动性、通胀维度的择时净值以及沪深300的同期表现。我们认为宏观预期对股市影响逐渐增强的环境下,判断宏观主要矛盾的必要性和有效性也随之提升。

图表38:2015年至今,敏感型行业角度主要矛盾的择时效果有所增强

资料来源:Wind,中金公司研究部

研报角度的主要矛盾

研报角度的主要矛盾对A股择时效果有较明显提升。我们继续测试从研报角度得到的主要矛盾,对A股的择时效果。图表39展示了A股历史回测的净值曲线。2010年至今,纳入主要矛盾的择时策略可以取得11.96的累计净值,优于通胀维度择时7.37的累计净值,显著强于经济增长、流动性维度的择时净值以及沪深300的同期表现。从结果看,纳入研报角度的主要矛盾后,模型对未来A股走势的判断效果有较为显著的提升。

图表39:研报角度的主要矛盾对A股择时效果有较明显提升

资料来源:Wind,中金公司研究部

研报角度的主要矛盾同样在2015年至今有更高应用价值。从择时净值曲线可以看出,与敏感型行业角度的主要矛盾类似,研报角度的主要矛盾在2015年之前无法跑赢通胀择时,而在2015年之后有更为明显的收益提升。因此我们进一步测试了其在2015年之后对A股的择时效果。2015年至今,纳入研报角度主要矛盾的择时策略可以取得5.34的累计净值,显著优于经济增长、流动性、通胀维度的择时净值以及沪深300的同期表现。

图表40:研报角度的主要矛盾同样在2015年至今有更高应用价值

资料来源:Wind,中金公司研究部

研报角度的主要矛盾对美股择时效果有一定提升。对于美国股市而言,2015年至今,纳入主要矛盾的择时策略可以取得2.78的累计净值,优于经济增长、流动性、通胀维度的择时净值以及标普500的同期表现。不过相对而言,研报角度主要矛盾对美股择时效果的提升要弱于A股,这可能是因为相对美股而言,国内研报对A股的分析要更为详细,从而A股研报的信息含量和数量丰富度要高于美股,使得研报角度主要矛盾在A股的应用效果要相对更好。

图表41:研报角度的主要矛盾对美股择时效果有一定提升

资料来源:Wind,中金公司研究部

新闻角度的主要矛盾

新闻角度的主要矛盾对A股择时效果有一定提升。我们进一步测试从新闻角度得到的主要矛盾,对A股的择时效果。图表42展示了A股历史回测的净值曲线。2015年至今,纳入主要矛盾的择时策略可以取得4.19的累计净值,优于经济增长、流动性、通胀维度的择时净值以及沪深300的同期表现。不过相对而言,新闻角度主要矛盾对于择时效果的提升,要弱于敏感型行业和研报角度的主要矛盾,这可能是因为新闻包含了更多的噪音与非理性观点,从而一定程度影响了其实际应用效果。

图表42:新闻角度的主要矛盾对A股择时效果有一定提升

资料来源:Wind,中金公司研究部

新闻角度的主要矛盾对美股择时效果略有提升。对于美国股市而言,2015年至今,纳入主要矛盾的择时策略可以取得2.22的累计净值,优于经济增长、流动性、通胀维度的择时净值,小幅战胜标普500的同期表现。从效果看,新闻角度的主要矛盾对美股择时效果的提升,在所有测试中处于最小值,一方面新闻包含较多的噪音,另一方面国内媒体对于海外的跟踪程度弱于国内,造成了结果的相对不佳。

图表43:新闻角度的主要矛盾对美股择时效果略有提升

资料来源:Wind,中金公司研究部

会议角度的主要矛盾

会议角度的主要矛盾对A股择时效果有一定提升。我们最后测试从会议角度得到的主要矛盾,对A股的择时效果。图表44展示了A股历史回测的净值曲线。2015年至今,纳入主要矛盾的择时策略可以取得3.78的累计净值,优于经济增长、流动性、通胀维度的择时净值以及沪深300的同期表现。不过相对而言,会议角度主要矛盾对于择时效果的提升,要弱于前述三个角度的主要矛盾,可能的原因一方面是政治局会议每月举办一次,数据频率较低;另一方面是会议语言相对概括,需要辅助一定的主观理解来领悟其中战略方针,这两方面原因使得我们通过量化方式得到的会议角度主要矛盾在实际应用中效果相对有限。

图表44:会议角度的主要矛盾对A股择时效果有一定提升

资料来源:Wind,中金公司研究部

小结

根据以上实证分析,我们从敏感型行业、研报、新闻和会议角度所得到的对于市场主要矛盾的判断,均能够能够提升宏观信息对于A股与美股市场的择时效果。从提升程度来看,效果最好的为研报角度的主要矛盾,其次为敏感型行业角度的主要矛盾,接着为新闻角度的主要矛盾,最后为会议角度的主要矛盾。分市场来看,主要矛盾对A股市场的择时提升效果要强于美国市场。

以上结果也比较符合我们的直观认知:研报信息来源于分析师的专业判断,且具有一定的左侧性,理应有相对更高的信息含量。敏感型行业的逻辑在于“由果推因”,根据不同敏感型行业近期表现差异来反推当前主要矛盾,具有一定的右侧滞后性,因此实际应用效果可能略逊于研报角度的主要矛盾,但优点在于逻辑清晰,模型简洁。新闻来源于媒体,专业程度低,噪音相对较多,因此实际应用效果相对偏弱,但优点在于数据量较大,频率较高。政策会议每月召开一次,数据频率较低,同时会议语言相对概括,需要辅助一定的主观理解来领悟其中战略方针,因此实际应用效果相对最差。对比A股与美股,国内研报和媒体整体对A股的跟踪更为紧密,因此主要矛盾对于A股择时收益的提升程度更强。

图表45:主要矛盾对股市择时的提升效果汇总

资料来源:Wind,中金公司研究部

总结与展望

本篇报吿尝试对不同时期股市在宏观层面(增长、流动性、通胀)的主要矛盾进行定量的捕捉与刻画,从敏感型行业、分析师研报摘要、财经新闻、政策会议四个不同角度,探讨了市场宏观维度主要矛盾的判断方法。

进一步地,我们将主要矛盾的判断应用于市场择时中,实证结果证明,我们对于市场主要矛盾的判断能够提升宏观信息对于A股与美股市场的择时效果。从择时效果的提升程度来看,研报角度主要矛盾>敏感型行业角度主要矛盾>新闻角度主要矛盾>会议角度主要矛盾,A股市场>美股市场。

股票市场是多维度信息共同影响的复杂系统,除了宏观因素以外,市场微观结构、投资者情绪、资金流向、包括黑天鹅事件,也可能在特定情景下成为影响股票市场走势的主要矛盾。在未来的研究中,我们将进一步分析市场在微观结构等方面的主要矛盾,以期对股市涨跌有更为清晰的认知与判断。

关注uSMART
FacebookTwitterInstagramYouTube 追踪我们,查看更多实时财经市场信息。想和全球志同道合的人交流和发现投资的乐趣?加入 uSMART投资群 并分享您的独特观点!立刻扫描下载uSMART APP!
重要提示及免责声明
盈立证券有限公司(「盈立」)在撰写这篇文章时是基于盈立的内部研究和公开第三方信息来源。尽管盈立在准备这篇文章时已经尽力确保内容为准确,但盈立不保证文章信息的准确性、及时性或完整性,并对本文中的任何观点不承担责任。观点、预测和估计反映了盈立在文章发布日期的评估,并可能发生变化。盈立无义务通知您或任何人有关任何此类变化。您必须对本文中涉及的任何事项做出独立分析及判断。盈立及盈立的董事、高级人员、雇员或代理人将不对任何人因依赖本文中的任何陈述或文章内容中的任何遗漏而遭受的任何损失或损害承担责任。文章内容只供参考,并不构成任何证券、虚拟资产、金融产品或工具的要约、招揽、建议、意见或保证。监管机构可能会限制与虚拟资产相关的交易所买卖基金仅限符合特定资格要求的投资者进行交易。文章内容当中任何计算部分/图片仅作举例说明用途。
投资涉及风险,证券的价值和收益可能会上升或下降。往绩数字并非预测未来表现的指标。请审慎考虑个人风险承受能力,如有需要请咨询独立专业意见。
uSMART
轻松入门 投资财富增值
开户