因子挖掘是量化交易的基礎(chǔ)。隨著歷史交易數(shù)據(jù)日益增多,交易市場量化競賽的不斷升級和進(jìn)化,量化投研團(tuán)隊開始面對數(shù)據(jù)頻率高、因子數(shù)量多的場景,以10分鐘線10000個因子5000個股票為例,一年的因子數(shù)據(jù)約為2.3T左右,1分鐘線的數(shù)據(jù)量達(dá)到23T,3秒線的數(shù)據(jù)量將達(dá)到460T。如此量級的數(shù)據(jù)就對因子存儲方案提出了很高的要求。
那么,我們要如何解決中高頻多因子數(shù)據(jù)的存儲問題呢?目前行業(yè)有哪些核心挑戰(zhàn)?
因子庫存儲有哪些挑戰(zhàn)?
龐大的數(shù)據(jù)量
因子計算通常有3個維度,股票、因子和時間。我們做一個簡單的計算,國內(nèi)股票總個數(shù)按5000來算;因子個數(shù)一般機(jī)構(gòu)大約為1000起,多的甚至有10000;時間頻率高的是每3秒生成一次數(shù)據(jù),頻率低的也有10分鐘一次——也就是說,一只股票一個因子一天會生成24到4800個tick。面對如此龐大的數(shù)據(jù)量,如何保證高效的數(shù)據(jù)寫入是因子庫存儲的一大挑戰(zhàn)。
動態(tài)變化的因子庫
因子庫經(jīng)常會發(fā)生變化,往往需要新增因子、修改因子定義,或加入新的股票等。面對T級的因子數(shù)據(jù),單個因子的新增、修改、刪除耗時應(yīng)該保證在秒級才能確保整體量化投研的效率。
最適合金融計算的輸出方式
量化金融的多因子建模通常需要以面板數(shù)據(jù)進(jìn)行截面因子分析。用戶需要從海量的因子數(shù)據(jù)中盡可能高速并精準(zhǔn)的讀取數(shù)據(jù),對齊多個因子后以面板的方式輸出。這對數(shù)據(jù)庫的性能提出了極大的挑戰(zhàn)。
直播預(yù)告
2022年12月1日晚7點(diǎn)半,DolphinDB 創(chuàng)始人周小華博士,和 DolphinDB 數(shù)據(jù)分析負(fù)責(zé)人毛忻玥,將與大家共聚直播間,圍繞「高頻多因子存儲的最佳實(shí)踐」與大家展開探討。點(diǎn)擊海報并長按,掃描二維碼報名吧!
免責(zé)聲明:市場有風(fēng)險,選擇需謹(jǐn)慎!此文僅供參考,不作買賣依據(jù)。
關(guān)鍵詞: