|
原創(chuàng)文章第623篇,專注“AI量化投資、世界運(yùn)行的規(guī)律、個(gè)人成長與財(cái)富自由"最新代碼已經(jīng)發(fā)布: quantlab5.6代碼發(fā)布,重構(gòu)deap期貨截面多因子挖掘(附python代碼+全量期貨日線數(shù)據(jù)) 福特“流水線“式的因子工廠——可能的方向: 1、因子流水線:因子評價(jià)與篩選體系。 2、因子組合與機(jī)器學(xué)習(xí)。 3、遺傳算法及深度學(xué)習(xí)、大模型端對端挖因子。 4、止損與交易系統(tǒng)與實(shí)盤。 核心還是因子,因子本質(zhì)上是一個(gè)符號(hào)表達(dá)式,比如 ts_corr(open,log(volume)),表達(dá)“開盤價(jià)”與“對數(shù)成交額”之間的背離關(guān)系。 這個(gè)表達(dá)式是需要符合語法的,否則就沒辦法正常解析和計(jì)算。 生成表達(dá)式有幾種方式: 最常見的遺傳算法,它內(nèi)核有一棵語法樹,確保字段,參數(shù),函數(shù)集都在預(yù)設(shè)的范圍內(nèi)。 其次是強(qiáng)化學(xué)習(xí)——一次生成一個(gè)token,token添加的時(shí)候,也會(huì)校驗(yàn)是否符合語法規(guī)則,如果規(guī)則不合適,reward就是-1,讓強(qiáng)化學(xué)習(xí)學(xué)習(xí)到規(guī)則。 def step(self, action: Token) -> Tuple[List[Token], float, bool, bool, dict]: 再次是大模型,通過prompts提示模型,在相應(yīng)的符號(hào)和函數(shù)集里,按相應(yīng)的語法去生成。 大模型其實(shí)反而更簡單,寫prompt就好了,最多加上few shots就好。 因此我們需要一棵語法樹。 Deap里叫"PrimitiveTree",gplearn里也是類似的代碼,其實(shí)本質(zhì)上是使用list實(shí)現(xiàn)的“二叉樹”。 這棵語法樹實(shí)現(xiàn),自己從零開始代碼量也不大。而后就是“交叉”,“復(fù)制”,“變異”等遺傳算法的操作生成新的因子表達(dá)式。 通過持續(xù)篩選獲得fitness最優(yōu)的因子集合。 吾日三省吾身 創(chuàng)造有價(jià)值的東西,是財(cái)富創(chuàng)造的起點(diǎn)。 有價(jià)值,意味著解決一部分人的痛點(diǎn)和剛需。 更低成本或者更高的效率。 說著容易,但現(xiàn)實(shí)中不好判斷。 需要持續(xù)迭代,獲得正反饋。 股票市場用戶最多,數(shù)據(jù)獲得最容易。 數(shù)據(jù)維度也比較多。 這些將是下周星球的開發(fā)重點(diǎn)。 AI量化實(shí)驗(yàn)室——2024量化投資的星辰大海 歷史文章: quantlab5.6代碼發(fā)布,重構(gòu)deap期貨截面多因子挖掘(附python代碼+全量期貨日線數(shù)據(jù)) |
|
|