首页 >> 用品 >> 新型行情中心:基于数据处理/历史行情的指标计算和仿真系统

新型行情中心:基于数据处理/历史行情的指标计算和仿真系统

2025-09-29 12:16:32

计数据的内嵌可以通过统计检索的在线浏览,也可以通过离线的统计数据上传来顺利进行。统计数据完放是价位为中都真是最特殊的重要功用,在理论上应用领域中都只能多表格区别完放,例如委托和卖出区别,同时最终严格按照时两者之间序四支完放。

1.2 价位为中都心发展趋势

在其业务技术性上,价位为中都心从比较简单地为中游系统对提供者价位类似统计数据的浏览和上传一站式,向要买入和投研系统对提供者来得多统计数据独有一站式演进:

Level 2和逐攒价位统计数据的重要性日益凸显。这些统计数据中都举例来说的市场宏观构造测试者意味著为投资造成了来得为保持稳定的完报。 价位为中都心只能提供者来得多而今的统计数据,只能为邻近地区的资管、要买入、风险、估取值和研究等多个应用领域方向和其业务条线一站式。 除了作为类似价位统计数据的存储器和浏览工具,来得只能在其业务技术性上提供者来得多样的推输高耐用性,大幅提较高增取值一站式灵活性。这些高耐用性或作为手段和要买入系统对的基准重定向,或作为机器学习系统对的相似性工程重定向。随着机器学习在数据分析要买入中都的应用领域更加较深入,推输高耐用性更加成为价位为中都心的一个系统化效益。 价位系统对除了认真到正因如此的要买入效益,更加展现出在投研(动态)系统对中都的价取值。产研相结合化可以大大大幅提较高该基金则会尤其是投资公司该基金则会的投研耐用性和精确度。

在较高耐用性技术性上,价位为中都心也从一个比较简单的统计数据存储器和浏览系统对,正在往一个存查输相结合化的系统对演化:

统计键值非经常庞大。除了类似的价位统计数据,还要完好推输得到的高耐用性结果,只能具备高层次统计数据的存储器灵活性。 对价位统计数据的不间断流水基本型处置灵活性尤为迫切。 价位为中都心受制于整个其业务链条的干流,对推输机动性有较差最终。 产研相结合化的其业务最终只能批流水相结合的推输较高耐用性来保障。

1.3 价位为中都心其业务开放性

价位为中都心其业务5层逻辑体系结构是一种尤为明了和比较简单的再分方基本型也,如下示意图示意图具体举例来说接入层、推输层、存储器层、应用领域层和递送层。

示意图3:价位为中都心其业务开放性

这里正因如此面性介绍价位为中都心推输层的其业务效益。推输层是对类似价位统计数据以及其它辅助统计数据的如此一来手工。大量实践表格明,价位为中都心非经常非常适合推输市场中都一些不具共性台湾地区政府的中都两者之间高耐用性或并不需要可参与要买入决策的内外高耐用性,主要有四个原因:(1)价位为中都心离源统计数据来得近总合均取值来得较差;(2)价位为中都心的统计数据几类来得丰富可推输的一维来得广;(3)价位为中都心合作开发一次高耐用性,推输一次高耐用性后需被中游多个系统对多个软件重构建作,适度上来得金融业;(4)带有推输功用的价位为中都心,可以侦察在该基金则会、资管等的机构本地,作为投研(动态)系统对的重要组成内外。

统计数据投递主要充分来进行L1/L2价位的并不需要投递,有时候一般来说作普通价位一站式;价源优选是价位为中都心尤为特色的功用,通过多路价位遴选最快的价位为中游客户提供者较差高频率价位一站式;价位为中都心也只能提供者其他源统计数据的并不需要投递一站式。

基于要买入价格和要买入量等价位测试者构建较高耐用性类高耐用性,是价位为中都心的重要推输其业务之一。TA-LIB、MyTT、WorldQuant 101 Alpha Factor是典型的较高耐用性类高耐用性。较高耐用性高耐用性是基于机器学习、较深达自学的数据分析要买入数学方法的主要相似性重定向。在其它数据分析要买入数学方法中都,较高耐用性高耐用性也可以和其它各种类型的生物体一起作为数学方法的重定向,优化数学方法。

一整K线、VWAP、差异性推输、资金流水数据分析、ETF和所称数的IOPV推输、波动率预测、Value at Risk(VaR)、很多公司定价、批次饶州制备等数据分析金融业中都中用的推输是很多手段数学方法必须要用到中都两者之间高耐用性。这些中都两者之间高耐用性数学方法的合作开发和推输有较差的线性和难度,价位为中都心提供者标准化的充分来进行可以赋能该基金则会、资管等的机构。

二、价位为中都心的较高耐用性效益

为充分来进行2.2中都价位为中都心的其业务开放性,只能反之亦然的较高耐用性储备,主要举例来说存储器层和推输层功用所必须认真到的较高耐用性最终。

2.1 存储器层

价位统计数据的存取是一个价位为中都心最原则上的效益。价位为中都心的大内外统计数据是典型的时两者之间序四支统计数据,正因如此局统计检索是最典型的存储器提供商。但是与云端、APM等正因如此局应用领域情节相比较,价位为中都心不具引人注意的金融业的再分领域特点。

要买入统计数据的不唯一性

在正因如此局统计检索的一个表格中都,多个 tag 的Pop包含唯一的时两者之间序四支。一个序四支在相同时两者之间碰上有时候不具唯一取值,例如一个云端感测器,在某一个时两者之间点上不具唯一采样取值。但是金融业市场的要买入规则最终了同一个公司股票在同一时两者之间碰上可以成型多攒要买入(相同的挑战对手盘造成了)。很显然,挑战对手盘的批次号、卖出价格不非常适合作为更进一步tag,来保障唯一性。有时候以云端为主要应用领域情节的正因如此局统计检索都有这个约束,例如InfluxDB和TDengine都最终一个时两者之间序四支在一个时两者之间碰上不具唯一取值。

多方式在报价统计数据的存储器

价位为中都心的 level 2 null统计数据在一个时两者之间截面积上存在多方式在的报价统计数据(要买一,要买二,卖一,卖二等)。当方式在数固定且不多的情况下,可以同步进行扁平化处置,即用多个codice_透露相同的此前速。但是此前速比较多,或者方式在数可变的情况下,用一个codice_来透露多方式在统计数据是一种来得通用来得较高效的提供商。因此统计检索赞同codice_各种类型,对于化解价位为中都心的存储器问题非经常有帮助。

宽表格存储器

云端应用领域有时候只关心单个时两者之间序四支的统计数据。金融业应用领域在关心单个也就是说的时两者之间序四支的同时,来得关注一个时两者之间截面积上多个也就是说的的关系,亦即背板统计统计学。为了赞同背板统计统计学,有时候只能统计检索能赞同统计数据投影(Pivoting)或并不需要赞同宽表格存储器(每四支取值得一提的是格一个也就是说,每行取值得一提的是格一个时两者之间碰)。

委托和卖出的区别

逐攒的委托和卖出统计数据是价位为中都心统计检索中都最系统化的两个大表格。因为统计键值很大,只能转用分布基本型表格来存储器。这样委托和卖出表格区别时的耐用性很较差。分布基本型统计检索中都,重置的co-location存储器是大幅提较高分布基本型表格区别机动性的最合理手段。

正因如此局统计学 + 的关系统计学

价位为中都心统计检索中都的大内外系统化统计数据都可以用正因如此局统计学。但是内外系统化统计数据和推输结果无论如何只能的关系数学方法的赞同。例如,公司股票的参考统计数据(reference data)只能用正因如此局统计学。又譬如生物体推输结果表格,虽然也是时两者之间序四支,但是举例来说了交易所和生物体两个实体,实质上是交易所和生物体随着时两者之间变化的一个的关系,方便按照生物体和交易所两个一维来同步进行短时间内的浏览。

较高只用

一个价位为中都心只能7 x 24为内部或内部软件提供者价位统计数据及推输一站式。分布基本型存储器增压器必须认真到较高只用的最终。

2.2 推输层

一个价位为中都心,除了认真到最原则上的类似统计数据浏览和上传的效益内外,还只能赞同中用的推输其业务,这样可以大幅大幅提较高统计数据的用作率,细化价位为中都心客户端应用领域的合作开发。

多表格统计数据完放

价位为中都心的一个相当程度效益是在技术开发自然环境动态要买入所的统计数据流水,在此系统化上充分来进行手段和要买入动态。对逐攒委托和卖出统计数据以及null统计数据的完放,是充分来进行动态的关键较高耐用性之一。完放除了机动性上越快越好都是,功用上一般有三个效益: (1)多个表格的统计数据能严格按照时两者之间顺序完放,(2)能自由选择相同的时两者之间codice_(例如事件引发的时两者之间碰或接收统计数据的时两者之间碰)同步进行完放,(3)能按所称定的速率同步进行完放。

后台formula_和背板统计数据处置

较高耐用性高耐用性数据分析、差异性推输、VWAP推输以及一整K线的处置都离不开最原则上的后台formula_。后台formula_除了能用持续性迭代充分来进行大幅提较高机动性内外,功用上的最终有时候举例来说:(1)能充分来进行旋转、回转、累计以及反之亦然定制的后台各种类型,(2)能按行数和时两者之间两种度量来此前进后台,(3)多个后台formula_能嵌套继续执行顺利进行比较比较简单的高耐用性推输。后台formula_有时候在一个时两者之间序四支上继续执行,但在价位统计数据处置时,时两者之间截面积数据分析也非经常中用,这就成型了所谓的背板统计数据处置。

统计数据投影

金融业统计统计学有时候则会把类似统计数据变为标量(背板统计数据)的形基本型,譬如每一四支是一个交易所,每一行是一个时两者之间点。变为标量后,推输来得比较简单、来得较高效。截面积高耐用性推输、差异性推输、ETF的IOPV推输等都可以通过标量推输来顺利进行。价位为中都心的类似统计数据存储器有时候不是标量形基本型,只能通过统计数据投影(pivoting)来转换。

非不间断区别

价位为中都心存储器的委托、要买入和null等统计数据在推输时时经常只能按公司股票和时两者之间同步进行区别。当按时两者之间区别时,有时候两个表格中都的时两者之间不是相等的,而是认真到某种的关系,譬如不太可能的一条记录,某个时两者之间后台内的记录等。这种区别,我们所称非不间断区别,asof join和window join是最中用的非不间断区别。声响平滑、要买入生产成本数据分析等推输都则会用到上述非不间断区别的方法。

流水基本型推输和批流水相结合

价位为中都心既要处置技术开发自然环境中都的历史文化统计数据,又要处置生产商自然环境中都的不间断统计数据。技术开发自然环境中都的历史文化统计数据是正因如此量统计数据,可以用批处置的推输方法。生产商自然环境中都不间断统计数据是逐条正因如此都的,只能转用来得为较高效的流水基本型持续性推输。两个自然环境的推输充分来进行方法如果完正因如此分立,则也就是说要合作开发两次,大幅增加了一个的机构的时两者之间生产成本和水资源生产成本。批流水相结合的较高耐用性效益应运而生。

多范基本型脚本紧贴对象

要认真到价位为中都心的推输效益,光有SQL是不够的。最好能有两门在SQL系统化上适配的脚本自然语言来支撑比较比较简单的推输效益。对于价位为中都心的推输效益,formula_基本型紧贴对象和乘积基本型紧贴对象可以大幅提较高合作开发的耐用性和列车运行的耐用性。对于一内外机动性最终都有较高的推输效益,如很多公司定价,脚本自然语言如能赞同短时间内解释器(JIT),则会是一个很大的优势。

分布基本型推输

价位为中都心有时候一站式于多个并发软件,内外推输使命又则会牵涉到大量统计数据,只能具备分布基本型推输的灵活性。分布基本型推输只能化解三个问题:(1)当推输水资源不足以时,可以通过增加推输键取值来适配水资源,(2)当内外推输键取值宕机时,可以将推输使命转移到其他键取值,(3)可以通过多个键取值和多个CPU核的并行处置,降较差一个比较比较简单使命的推输均取值。

三、DolphinDB 的价位为中都心提供商

作为国际上遥遥领再的入门级正因如此局统计检索制造商,DolphinDB 在一站式为数众多同业、投资公司、公募、资管和要买入所客户的过程中都,持续回顾和吸收价位为中都心工程建设建设工程的经验,并不断带进到 DolphinDB 统计检索系统对中都,最终概括成型了一套新型价位为中都心提供商。

DolphinDB 是一款入门级分布基本型正因如此局统计检索,集成了功用庞大的紧贴对象自然语言和较高容量较高飞行速度的流水统计统计学增压器,为高层次统计数据(都有是时两者之间序四支统计数据)的短时间内存储器、索引、数据分析及推输提供者一站基本型提供商。DolphinDB操作方法比较简单,高耐用性强,不具良好的容错灵活性及优异的并发访问灵活性。DolphinDB 可以在Linux或Windows系统对、单个键取值或空降兵、本地或云客户端中都侦察。

示意图4:DolphinDB 三位相结合混合设计

DolphinDB转用三位相结合的混合设计体系结构,强调统计检索、紧贴对象自然语言和分布基本型推输三者的混合。这明显了数字时代软件对统计数据挖掘的效益。DolphinDB统计检索不如此一来只是一个存储器为中都心,来得是一个推输和一站式为中都心。软件借此通过较深挖统计数据的价取值,让统计数据(库)从一个生产成本为中都心转化为一个佣金为中都心。DolphinDB的软件除了DBA和IT技术人员, 来得举例来说公司的其业务和技术开发技术人员,他们可以用作DolphinDB移动设备的脚本自然语言以及丰富的formula_库,短时间内展开其业务上的二次合作开发。

示意图5:DolphinDB 主要推输和存储器灵活性

DolphinDB 对金融业企业认真了大量的针对性功用和优化,在价位为中都心其业务情节中都,通过其庞大的存储器和推输开放性灵活性赋能价位为中都心较高耐用性建设工程:

3.1 存储器灵活性

1、同一时两者之间碰存储器(要买入统计数据的不唯一性)

表格2:要买入统计数据不唯一

表格2为上交所开盘集合竞价Level 2批次饶州价位,存在多攒批次的SecurityID和TransactTime大致相同的情形。其他统计检索存储器较高耐用性则会把这两个codice_作为主键提较高浏览飞行速度,但由于主键必须唯一,造成了这些统计检索无法原生存储器不唯一统计数据,只能在应用领域层或统计检索层认真特殊处置,这则会造成了统计数据严重错误或机动性下降等诸多问题。

示意图6:DolphinDB 原生赞同不唯一统计数据存储器

DolphinDB顾名思义其他各种类型统计检索,在下层体系结构上原生赞同不唯一统计数据存储器,同时TSDB存储器增压器还能尽可能推输较差高频率。

2、codice_存储器(多方式在报价统计数据的存储器)

表格3:10方式在价位统计数据示例

表格3为10方式在价位类似统计数据,每一方式在举例来说要买价、卖价、要买量和卖量4四支统计数据,因此只能40四支。

表格4:Array Vector 10 方式在价位存储器

DolphinDB赞同codice_(array)各种类型的四支,在array vector中都可以同时存10方式在统计数据。如表格4示意图,只只能OfrPXs、BidPXs、OfrSizes和BidSizes 4四支需存储器10方式在价位。统计数据压缩比可从4倍提较高至10倍,两者之间接提较高了浏览飞行速度。另内外,array vector赞同不定长存储器,可以用作类似价位和生物体存储器。

在数据分析程序合作开发过程中都,array vector通过index同步进行统计数据遍历,而传统存储器方基本型也只能硬编码处置每个codice_,大大增加了标识符线性并非经常容易出错。

3、宽表格存储器

圆筒形推输在正因如此局统计数据处置中都非经常经常见,要买入中都时经常只能存储器多个也就是说甚至正因如此部也就是说在同一圆筒形上的生物体,并且只能对圆筒形同步进行背板统计统计学。宽表格存储器天然非常适合背板统计数据,并能减少统计数据冗余,提较高浏览飞行速度。

表格5:DolphinDB 宽表格存储器

如表格5示意图,在一张宽表格中都存储器4500只公司股票的1098个生物体。DolphinDB赞同32767四支大宽表格。一内外正因如此局统计检索不赞同大宽表格或者存在引人注意的机动性问题。例如ClickHouse则会把每四支统计数据都存为一个邮件,在大宽表格中都多四支统计数据邮件读写就则会遇到显著的机动性下降。DolphinDB自研的TSDB存储器增压器只能尽可能大宽表格下的入门级读写。

4、co-location存储器(委托和卖出的区别)

示意图7:co-location 与非co-location 存储器提议对比

在数据分析要买入中都,只能区别逐攒委托和逐攒卖出用作宏观构造数据分析、生物体作用作和要买入手段。DolphinDB的co-location存储器体系结构则会借机将同一要买入日的批次表格和卖出表格存储器在同一统计数据键取值中都,在区别推输时只只能读写同一键取值统计数据,如示意图7上方示意图。这样的存储器体系结构可以避免键取值两者之间的统计数据光纤,大幅提较高推输飞行速度。

示意图7右侧是非co-location存储器提议,2022.06.15日的trade统计数据在DataNode1键取值上,order统计数据在DataNode2上,只能通过的网络光纤把两表格统计数据汇集后如此一来同步进行区别推输,这样则会大大增加的网络开销,降较差推输飞行速度。非co-location统计检索存储器在历史文化统计数据完测时,的网络光纤量将呈所称数级攀升,甚至引发的网络阻塞,造成了整个空降兵不只用。有时候一个要买入日的逐攒委托和逐攒卖出量将近在5GB左右,2张表格这样就只能10GB的的网络光纤,当处置跨年统计数据时,更易打满整个空降兵的的网络。

5、专门设计统计检索(正因如此局统计学+的关系统计学)

除需赞同正因如此局数学方法内外,金融业其业务还只能赞同的关系数学方法。正因如此局数学方法主要存储器如价位、批次、委托和高耐用性生物体等不具正因如此局相似性的大统计数据;在理论上其业务中都,如推输期权面取值只能用到租约乘数,又比如对Pop只能根据企业分类学同步进行估取值、生物体、归因和风险推输,这些情节都是典型的的关系数学方法。

DolphinDB 是一个专门设计统计检索,同时赞同正因如此局统计数据数学方法和的关系统对计数据数学方法。赞同as of join, window join, cross join, equal join, full join, inner join, left join和prefix join等多种统计数据区别方基本型也。正因如此局数学方法赞同非不间断区别,的关系数学方法赞同等取值区别。

6、较高只用

示意图8:DolphinDB 较高只用体系结构

DolphinDB是一个分布基本型统计检索,并行不具不断完善的较高只用提议。

应用领域层较高只用

应用领域程序可以直连到反之亦然推输键取值,尽可能应用领域层较高只用;也可以转用HTTP经过负载均衡键取值,如此一来把请求发送到推输键取值。

推输键取值较高只用

DolphinDB赞同推输和存储器键取值分离,赞同多推输键取值侦察,只要有一个推输键取值只用,整个空降兵无论如何只用。

元统计数据较高只用

存储器统计数据时则会产生大量元统计数据,元统计数据是统计数据的原则上测试者,推输键取值则会首再读写元统计数据,然后如此一来从统计数据键取值中都读写源统计数据。在元统计数据管理上,DolphinDB转用了Raft协议尽可能较高只用。

统计数据键取值较高只用

DolphinDB转用了自研的分布基本型邮件管理系统对(DFS),赞同统计数据多副本存储器,两下一阶段提交协议尽可能统计数据的强原则上性。

多级存储器

DolphinDB赞同多级存储器,可以将最中用的圣万桑统计数据存储器到SSD液态硬碟中都提较高统计数据的读写飞行速度,较冷的统计数据存储器到HDD机械硬碟中都,不太用作的历史文化统计数据存储器到S3中都。

多空降兵统计数据不间断

相同机窗户可以通过异步复制或定时使命充分来进行统计数据的不间断。

3.2 推输灵活性

除了统计数据存储器,价位为中都心的推输举例来说非经常重要。大多数正因如此局统计检索来得侧重于统计数据存储器和尤为比较简单的推输,DolphinDB 在设计意念上将推输置于了和存储器同等重要的此前方。一般而言推输灵活性可以很好地应用领域在价位为中都心建设工程上。

1、多表格统计数据完放

DolphinDB 赞同历史文化统计数据完放。要买入所提供者的Level 2价位有3大类统计数据,分别是null类统计数据、逐攒卖出类统计数据和逐攒委托类统计数据。在完测中都,我们经常只能将这三种相同各种类型的统计数据区别完放,使完测过程但会模拟生产商。

orderDS =replayDS(sqlObj=

, dateColumn=----Date, timeColumn=----Time)

snapshotDS =replayDS(sqlObj=