基于LLM投资组合管理的自适应可解释保证金交易,投资回报翻三倍,夏普比率翻二倍

Adaptive and Explainable Margin Trading via Large Language Models on Portfolio Management


投资组合管理需监控市场动态,调整资金在多资产间分配,以实现盈利和稳定性。现有投资组合管理策略缺乏灵活性,无法在交易期间调整多空头寸,限制了风险管理和机会把握。


本文提出一种自适应和可解释的框架,将大型语言模型(LLMs)与强化学习(RL)结合,实现动态资金转移以应对市场变化。框架灵活适应多种外部数据源,包括微观和宏观经济数据、时间序列和新闻文本。实验结果显示,该框架的回报是基准的三倍,夏普比率翻倍。



【 扫描文末二维码加入星球获取论文,源码 


摘要


现有投资组合管理策略缺乏灵活性,无法在交易期间调整多空头寸,限制了风险管理和机会把握。本文提出一种自适应和可解释的框架,结合大型语言模型(LLMs)与强化学习(RL),实现动态多空头寸调整。

框架分为两个阶段:市场预测/推理管道和头寸重新分配阶段。市场预测管道利用LLMs从多种外部数据源学习市场趋势,并提供清晰的调整比例推理。头寸重新分配阶段与预训练的RL模型交互,增强决策透明度。框架灵活适应多种外部数据源,包括微观和宏观经济数据、时间序列和新闻文本。实验结果显示,该框架的回报是基准的三倍,夏普比率翻倍。


简介


投资组合管理需监控市场动态,调整资金在多资产间分配,以实现盈利和稳定性。长仓和短仓的动态调整对利润和风险管理至关重要,尤其在波动市场中。现有策略多假设短仓与长仓的比例固定,缺乏灵活性,难以适应快速变化的市场环境。


大型语言模型(如GPT-4和Claude-3)提升了金融领域的数据分析能力,能处理非结构化数据,增强透明度和信任。LLMs通过零-shot学习适应新任务,推动数据驱动的金融策略发展。


本文提出一种自适应和可解释的框架,将大型语言模型(LLMs)与强化学习(RL)结合,实现动态资金转移以应对市场变化。框架包括两个阶段:市场预测/推理管道和头寸重新分配,定期调整投资组合。利用微观经济公司新闻和宏观经济指标时间序列进行市场趋势预测,提供透明的推理路径。在2020年5月至2024年4月的道琼斯工业平均指数(DJIA)上进行测试,结果显示LLM的介入显著提升了收益和风险平衡。


相关工作


投资组合管理


强化学习在投资组合管理中的应用逐渐增多,早期研究主要集中于多头头寸。Jiang等人提出的深度强化学习框架旨在最大化利润,考虑市场流动性和交易成本。后续模型(如Alpha Stock、HRPM、Smart Trader)解决了滑点和资产间关系等问题,并设计了特定模型结构。

FinRL作为开放库,提供多种市场环境和强化学习算法,但忽视了短头寸的风险对冲。最近的研究开始将短头寸纳入交易策略,但存在设置不足或假设多空头寸平等的问题。Margin Trader框架引入了现实约束以管理风险和支持杠杆交易,初始多空头寸比例由交易者设定并固定。研究动机在于提升灵活性,通过调整多空头寸比例以适应市场变化。

LLM在金融领域的应用

LLM在金融领域的应用包括自动化报告生成、市场趋势预测、命名实体识别、情感分析和提供财务建议。相较于传统机器学习模型,LLM在推理、互动性和集成能力上具有显著优势,能提供透明的预测解释。LLM的互动性增强了用户参与,支持动态查询和响应,且可与多种工具和数据源无缝集成。部署LLM面临挑战,包括高计算需求、环境影响、训练数据偏见、黑箱特性导致的信任问题,以及小参数LLM在新任务上的泛化能力不足。目前LLM适合简单任务,复杂任务如投资组合管理的应用有限,需要改进模型能力和调优技术。

预备知识


保证金交易


保证金交易允许交易者借款进行金融资产交易,利用杠杆放大收益。

  • 长仓:预期资产价格上涨,价格上涨时获利。

  • 短仓:预期资产价格下跌,价格下跌时获利。


盈利时,交易者的购买力增加;亏损时,购买力减少。长短仓均伴随高风险,损失可能超过初始投资。经纪商要求维持最低保证金水平(通常为持仓市值的40%),低于该水平会发出追加保证金通知。


RL环境与多空比

边际交易可建模为强化学习中的马尔可夫决策过程(MDP)。代理在每个时间段观察当前状态,包括股权条件、收盘价、持股数量和技术指标。代理根据策略选择动作,动作为每只股票的买卖数量,正值表示买入,负值表示卖出。环境根据转移概率更新状态,代理获得反映即时收益的奖励。奖励设计考虑收益和风险,通常使用夏普比率作为风险调整回报指标。强化学习代理的目标是学习最优策略,以最大化期望累积奖励。


基于现有的RL模型Margin Trader,提出了一种新的投资组合管理方法。初始化时,代理以资本??开始,设置比例??决定长仓和短仓的资金分配。长仓资金为????=????,短仓资金为????=??(1???)。交易期间,长短仓的比例????会随市场波动而变化,但资金分配在长短仓之间保持固定。头寸权益包括股票和现金,未投资资金可能存在。在牛市中,调整长短仓比例而非持有未投资现金更具盈利潜力。根据市场条件和个股价格波动,调整长短仓比例和管理未投资现金对优化投资组合表现至关重要。


方法


本文开发灵活框架,动态调整多空比以应对市场变化,提升交易策略。利用先进的LLMs在强化学习的决策过程中进行市场预测和分析。每隔??步,市场预测管道使用LLMs分析外部数据,预测资产趋势并确定最优仓位调整。在仓位重新配置阶段,调整投资组合的多空头寸以实现更新的比例。RL代理在更新后的投资组合下继续交易,LLMs仅在部署阶段介入,提高效率。



数据集


使用两种数据集分析美国经济与股市的关系:宏观经济数据集和微观经济公司新闻数据集。宏观经济数据集包含21个主要经济指标的月度时间序列,如CPI、利率、政府债务、汇率、货币供应和零售销售,帮助理解经济趋势及其对股市的影响。微观经济数据集聚焦于个别公司相关的每日新闻,包括业绩、财报、战略举措和并购等,提供对公司表现的深入洞察。目标是评估哪种视角更有效于预测市场变化和优化交易策略。

可解释的市场预测/推理

设计了一个可解释的市场推理管道,通过大型语言模型(LLM)处理两种不同的数据集,生成相关洞察。针对每种数据集,定制了不同的提示管道,利用LLM分析、总结和解释金融市场数据。LLM预测未来六个月的市场趋势,分为七个细分类别(从强烈看涨到强烈看跌),以便后续的强化学习算法调整。



宏观经济指标时间序列的提示管道。以道琼斯指数(DJIA)为例,描述了LLM管道如何处理数据集。宏观经济指标时间序列的提示包括:指标定义、历史数据和LLM输出要求,确保全面覆盖经济状况。LLM分析关键指标,识别影响经济趋势的特征,预测COVID-19期间的市场趋势为强烈看跌,符合宏观经济数据。



微观经济企业特定新闻的即时管道。每月收集和汇总每家公司的相关新闻,确保全面覆盖其活动和发展。将每家公司每月的新闻摘要至50字,重点关注财务结果、产品发布、管理变动、监管新闻和市场情绪,以平衡不同公司新闻覆盖的影响。利用公司新闻摘要预测市场趋势,调整LLM的市场展望,从强烈看跌转为略微看跌,反映公司在疫情后的韧性和增长潜力。




LLM响应映射到市场趋势评分。将情感水平转化为量化的市场趋势评分,正值表示看涨,负值表示看跌,零表示平稳。调整比例通过缩放因子控制,精确调整基于市场趋势预测的头寸变化。


位置重新分配

LLM在RL过程中每??步介入,接收前一奖励?????1和当前状态????,计算当前长仓比例????。目标比例????′通过调整长仓比例实现,避免市场暴露的剧烈变化,设定目标比例范围[10%, 90%]以降低风险。正的??增加长仓,负的??则转移资金至短仓,调整后需评估可用现金和信用额度,必要时关闭低价值资产以满足资金需求。调整后更新状态?????,新的状态将继续输入RL框架,迭代优化交易策略。

实验


数据源

研究使用道琼斯工业平均指数(DJIA)作为投资组合池,测试期为2020年5月至2024年2月,涵盖复杂经济波动。数据来源于Yahoo Finance,包含公司价格数据。


外部数据源包括:

  • 宏观经济指标时间序列数据,涵盖21个关键美国经济指标,数据来自美国通胀计算器和圣路易斯联邦储备银行,已调整为月频。

  • 微观经济公司特定新闻数据,涵盖DJIA 30家公司,数据来源于Stock News API,包含公司公告、财报等,来源包括CNBC、路透社等。


基线

为了公平比较投资组合表现,采用两个基准:DJIA指数和无LLM干预的Margin Trader模型。集成了两种金融NLP模型和多种先进LLM以评估框架:

  • FinBERT:基于BERT的金融情感分析模型。

  • FinGPT v3.3:基于LLaMA2-13B,专注于金融情感数据集。

  • GPT-4o:擅长多语言理解、问答、数学、代码评估等。

  • Claude-3.5 Sonnet:在多项评估中超越前代和竞争模型。

  • DeepSeek-V2:高效的Mixture-of-Experts模型,经济训练和推理。

  • Mixtral 8x22B:使用稀疏Mixture-of-Experts架构,降低计算成本。

  • LLaMA-3 70B:最新LLaMA系列,增强复杂NLP任务的理解和效率。

  • Qwen-2 72B:Qwen系列顶尖模型,处理复杂应用。

  • Yi 34B:在英中基准上表现优异,采用Grouped-Query Attention架构。

  • Phi-3 Medium:通过监督微调和偏好优化对齐人类偏好和安全性。


评估指标


评估投资组合管理的主要指标有两种:利润指标和风险调整指标。


利润指标:累计回报(AR)衡量投资组合在特定时期的绝对表现。


风险调整指标:

  • 夏普比率(SR)评估每单位风险的超额回报,值越高表示回报越好。

  • 卡尔玛比率(CR)比较回报与最大回撤,值越高表示在减少重大损失的同时能产生更高回报。


实现细节


使用贪婪解码生成最多1024个新令牌,开源模型在1到4个A100 GPU上部署,使用Hugging Face库,专有模型通过API访问。为减少情感标签偏见,随机打乱标签顺序并进行五次实验,最终通过多数投票确定预测结果。对于512令牌限制的模型(如FinBERT和FinGPT),将文本分段并进行多数投票。情感输出映射为Bullish(积极)、Flat/Fluctuating(中性)和Bearish(消极)。强化学习中选择A2C算法,初始资金为$100,000,DJIA仅进行多头交易,其他策略同时进行多头和空头交易,初始分配一半资金。RL与LLM的交互频率为每季度一次。

结果

LLM集成框架在季度基础上表现优于DJIA和Margin Trader,显示出其有效的市场趋势检测和仓位比率确定能力。GPT-4o、Claude-3.5 Sonnet和Qwen2 72B的回报率超过两到三倍,Sharpe比率高出25%,Calmar比率也显著提升,表现突出;而FinBERT和FinGPT表现不佳,后者输出混乱,缺乏泛化能力。



将缩放因子从10%提高到20%通常提升模型表现,但也增加风险和波动性,可能导致在意外市场条件下的重大损失。模型在宏观指标上的表现普遍优于公司新闻,因宏观指标提供更广泛的经济信息;GPT-4o在公司新闻解读上表现突出。框架允许交易者选择数据源进行比率调整,确保在某些数据源不可用时仍能做出明智决策。图5展示了GPT-4o的市场趋势预测与DJIA实际走势的对比,预测与市场趋势高度一致。



研究调整长短仓比例频率对投资组合的影响,设置季度、半年和年度三种频率。季度调整导致更高波动和较低回报,因频繁调整使投资组合不稳定。年度调整表现较差,错失市场机会,导致次优表现。半年调整在波动与机会之间取得最佳平衡,表现最佳,尤其在宏观指标和公司新闻方面。


总结


本文提出了一种新框架,通过LLMs与RL的互动动态调整投资组合的多空头比例。框架能及时适应市场变化,提供透明度和基于市场推理的决策支持。支持整合多种外部数据源和不同的LLMs,增强交易灵活性。实证评估显示,LLMs的介入显著提升了交易策略的盈利能力和风险管理。研究结果强调了LLMs和RL在投资组合管理中的变革潜力,推动更适应性、稳健和有效的金融策略。



▌关于我们

我们致力于人工智能、量化交易领域前沿研究,分享前沿论文、模型代码、策略实现。如有相关需求,请私信与我们联系。

▌商务合作

请加微信“LingDuTech163”,或公众号后台私信“联系方式”。


关注【灵度智能】公众号,获取更多AI资讯。