針對金融市場數(shù)據(jù)量有限性,在投資實(shí)踐中,目前一些比較成熟的技術(shù)已經(jīng)可以在大多數(shù)情況下很有效地避免“過度擬合”問題。
人工智能(AI)技術(shù)在過去一兩年間飛速發(fā)展,已成為了許多產(chǎn)業(yè)不可或缺的部分。尤其是新年以來嚴(yán)峻的新冠疫情中,從社區(qū)管理、病征篩查、快速檢測,到病毒傳播模型的估算,新型藥物的開發(fā)……許多人突然發(fā)現(xiàn),處處都能見到人工智能的身影。
盡管技術(shù)已經(jīng)越來越普及,但大部分普通民眾對人工智能的感覺依然神秘。比如不少人認(rèn)為人工智能就是機(jī)器學(xué)習(xí),這是個不準(zhǔn)確的印象。人工智能解決的問題是機(jī)器如何可以像人類一樣適應(yīng)變化、學(xué)習(xí)、理解和推理的全方位領(lǐng)域,而作為人工智能的一個類別,機(jī)器學(xué)習(xí)主要聚焦在人工智能這一系列目標(biāo)中“學(xué)習(xí)能力”方面的研究。
在全球金融投資領(lǐng)域,各種算法模型經(jīng)過多年來業(yè)界積極的研究、試驗(yàn),也已逐漸開始成為行業(yè)領(lǐng)先的投資機(jī)構(gòu)中量化投資業(yè)務(wù)的新引擎,而“機(jī)器學(xué)習(xí)”則由于其特殊的算法優(yōu)勢,成為投資領(lǐng)域最具潛力的新星。
人腦和傳統(tǒng)量化模型的陷阱
雖說是“學(xué)習(xí)如何像人一樣學(xué)習(xí)”,其實(shí)機(jī)器學(xué)習(xí)的能力和長處其實(shí)與人類大腦非常不同,與人類通過數(shù)據(jù)統(tǒng)計(jì)來尋找規(guī)律的傳統(tǒng)方法也有很大差異。
人類大腦的一大優(yōu)勢在于抽象概念,但同時人腦對于概念的理解和判斷往往是模糊的,難以準(zhǔn)確量化。這就導(dǎo)致了實(shí)際投資中,投資者會陷入“人腦的陷阱”。例如,目前人工智能在投資中用途最常見的是在股票的量化投資中挖掘“因子”。譬如所有投資者都耳熟能詳?shù)摹皟r值股”,大多數(shù)基金經(jīng)理乃至較資深的投資者,都能夠說到股價與市盈率(P/E)、市凈率(P/B)以及股息(dividend)之間存在一定關(guān)系。然而如果要進(jìn)一步精確描述這些“關(guān)系”是如何動態(tài)結(jié)合,其權(quán)重分配如何量化,如何作為一個具有統(tǒng)計(jì)學(xué)意義的投資依據(jù)來用,人腦就很難做到了。
更加困難的是,如果要做到“精確描述”,就要加上時間變量,因?yàn)樵诓煌氖袌鰻顩r下,“價值股”的描述很可能截然不同,如此多維度的準(zhǔn)確描述人腦就更加難以勝任了。然而這卻正正是機(jī)器學(xué)習(xí)的長處,機(jī)器學(xué)習(xí)的算法不但能夠十分精確和細(xì)致地描述這一抽象概念,更可以不斷隨著市場的時間性變化去實(shí)時調(diào)整其定義中不同變量的權(quán)重,以更加精確的標(biāo)準(zhǔn)來篩選“價值股”。
基于統(tǒng)計(jì)學(xué)的傳統(tǒng)量化投資模型,能夠通過統(tǒng)計(jì)、檢驗(yàn)大量數(shù)據(jù)來解決配比權(quán)重的問題,但同時又容易陷入另一個陷阱,我們稱之為“線性模型陷阱”。這里指的是傳統(tǒng)模型基于簡單的線性關(guān)系的假設(shè)往往是不準(zhǔn)確的。例如當(dāng)投資者考慮是否買入一只股票時,“負(fù)債率”往往是區(qū)分好壞公司的重要考慮因素。然而,“負(fù)債率”并不是一個簡單的線性關(guān)系——公司的負(fù)債率過高,顯然有更大的破產(chǎn)風(fēng)險;但是公司如果盈利能力正常的情況下,負(fù)債率過低則可能沒有充分利用資金的杠桿作用,對公司發(fā)展也是不利的。
在這種情況下,公司的盈利能力不錯,債務(wù)率適中,顯然才是最優(yōu)選。這樣的例子在股票投資中不勝枚舉。如果使用統(tǒng)計(jì)學(xué)的線性模型,我們就會陷入建模不準(zhǔn)確的境地,而機(jī)器學(xué)習(xí)的模型則大多是非線性的,就可以避免這個陷阱,更加準(zhǔn)確地描述投資中的變量和收益之間的數(shù)學(xué)關(guān)系,找出最優(yōu)秀的股票標(biāo)的。
金融投資領(lǐng)域的機(jī)器學(xué)習(xí)
當(dāng)然,機(jī)器學(xué)習(xí)在股票投資中的應(yīng)用剛開始不久,離理想境界還非常遙遠(yuǎn),同樣也有自身的陷阱,比如被提及最多的“過度擬合(Overfitting)陷阱”。在過度擬合情況下,機(jī)器學(xué)習(xí)模型并不能對整個數(shù)據(jù)的分布情況達(dá)到正確的估計(jì),導(dǎo)致機(jī)器學(xué)習(xí)得出虛假的“投資規(guī)律”,一旦用于樣本以外數(shù)據(jù),或是真實(shí)的市場場景中就失效了。
機(jī)器學(xué)習(xí)中的不同類型,對于數(shù)據(jù)量的要求是不一樣的。比如由于谷歌的“阿爾法狗”(Alpha Go)戰(zhàn)勝世界圍棋冠軍而成名的“強(qiáng)化學(xué)習(xí)”,盡管創(chuàng)下了人工智能“戰(zhàn)勝人類”最高的成績,但我們在研究中已發(fā)現(xiàn),強(qiáng)化學(xué)習(xí)需要龐大接近無限量的數(shù)據(jù),如果用于金融投資領(lǐng)域則非常容易陷入“過度擬合陷阱”,應(yīng)該盡量避免使用。這是因?yàn)椤皬?qiáng)化學(xué)習(xí)”要求的數(shù)據(jù)量非常龐大,然而金融市場數(shù)據(jù)看似很多,事實(shí)上以時間點(diǎn)標(biāo)記的數(shù)量卻非常有限,基本上每一個市場都只有一組時間標(biāo)注的數(shù)據(jù)。在如此有限的數(shù)據(jù)量中,許多機(jī)構(gòu)選擇強(qiáng)化學(xué)習(xí)模型的嘗試就難以成功。
“過度擬合”是目前機(jī)器學(xué)習(xí)領(lǐng)域不斷在解決和完善的問題,其中也已經(jīng)形成了不少有效的方法,包括在深度學(xué)習(xí)中使用“正則化”(regularization)方法,如調(diào)整模型的大小和系數(shù),或是將樣本分成多個部分來“交叉驗(yàn)證”(cross validation)等方式。在投資實(shí)踐中,目前這些比較成熟的技術(shù)已經(jīng)可以在大多數(shù)情況下很有效地避免過度擬合。針對金融市場數(shù)據(jù)量的有限性,也可以通過多市場數(shù)據(jù)回測的方式去解決這一問題。
全球量化投資界在過去幾年間大力擁抱機(jī)器學(xué)習(xí)技術(shù),目前全球部分頂尖的對沖基金已經(jīng)在大比重運(yùn)用機(jī)器學(xué)習(xí)篩選投資標(biāo)的。我們認(rèn)為,并不僅僅是一次產(chǎn)品或模型的更新?lián)Q代,而將是一場席卷并徹底改變金融業(yè)的深刻革命。
能夠在這場科技革命中脫穎而出的,將是與今天多數(shù)業(yè)界機(jī)構(gòu)截然不同的,更像一家科技公司的金融機(jī)構(gòu),能夠聚集大量的科技精英人才,深刻貫徹科研文化,并在投資決策、運(yùn)營、風(fēng)控、合規(guī)、客戶等領(lǐng)域,全方位運(yùn)用人工智能技術(shù)來運(yùn)作和管理的新一代金融機(jī)構(gòu)。就在今天,我們已經(jīng)迎來這個行業(yè)的一場最深刻而嚴(yán)峻的時代考驗(yàn)。
-
人工智能
+關(guān)注
關(guān)注
1816文章
50062瀏覽量
264940
發(fā)布評論請先 登錄
Dante數(shù)字化會議系統(tǒng)、分布式視頻系統(tǒng)、“AI”人工智能在會議運(yùn)維中的應(yīng)用
中軟國際攜手昇騰推動人工智能在金融業(yè)務(wù)中的規(guī)?;涞?/a>
挖到寶了!人工智能綜合實(shí)驗(yàn)箱,高校新工科的寶藏神器
挖到寶了!比鄰星人工智能綜合實(shí)驗(yàn)箱,高校新工科的寶藏神器!
潤和軟件智慧金融解決方案亮相WAIC 2025
人工智能在汽車行業(yè)中的應(yīng)用
迅為RK3588開發(fā)板Linux安卓麒麟瑞芯微國產(chǎn)工業(yè)AI人工智能
最新人工智能硬件培訓(xùn)AI 基礎(chǔ)入門學(xué)習(xí)課程參考2025版(大模型篇)
【新品發(fā)布】嵌入式人工智能實(shí)驗(yàn)箱EDU-AIoT ELF 2正式發(fā)布
是德科技如何破解人工智能的基礎(chǔ)設(shè)施困局
開售RK3576 高性能人工智能主板
YOGO ROBOT人工智能在民生服務(wù)領(lǐng)域的創(chuàng)新應(yīng)用
人工智能視覺識別技術(shù)的應(yīng)用領(lǐng)域及場景
AI人工智能隱私保護(hù)怎么樣
人工智能在金融投資領(lǐng)域的應(yīng)用
評論