bluesky时序数据库领域到底涉及哪些问题和哪些解决
这些领域问题的技术呢?个就是存储数据结构的设计,利用xL***-Tree的架构解决写入高吞吐问题。第二个在高性能查询上面,各个产品都有自己的索引定制和查询优化器的引入。第三个在存储成本上面,各个时序数据库产品以列式存储和具体类型的针对性压缩算法选取解决存储成本问题。当然在云上存储成本上面我,们还可以在边缘端做更多的优化处理,在云上有冷热数据的处理,这也是分布式云的技术战略趋势所导向的。第四个也是非常重要的领域问题,就是乱序的解决,利用写前保序和写后重排多种手段在存储层面解决乱序问题。进而在后续的计算分析部分发挥价值。那么大家想想除了上面的四个方面还有其他关键问题和技术需要关注吗?当然还有,那就是在分布式云的架构下,边缘端的部署也是需要高可靠的,各个时序数据库产品都需要提供多副本的集群版支持。还有一个,如果让时序数据库产生大价值,边缘端的实时计算也是的,那么,时序数据库对实时计算的支持也有很大的技术挑战。
BlueSky时间序列化数据库如何联合索引查询?
所以给定查询过滤条件 age=18 的过程就是先从 term index 找到 18 在 term dictionary 的大概位置,然后再从 term dictionary 里地找到 18 这个 term,然后得到一个 ting list 或者一个指向 ting list 位置的指针。然后再查询 gender= 女 的过程也是类似的。得出 age=18 AND gender= 女 就是把两个 ting list 做一个“与”的合并。
这个理论上的“与”合并的操作可不容易。对于 mysql 来说,如果你给 age 和 gender 两个字段都建立了索引,查询的时候只会选择其中 selective 的来用,然后另外一个条件是在遍历行的过程中在内存中计算之后过滤掉。那么要如何才能联合使用两个索引呢?有两种办法:使用 skip list 数据结构。同时遍历 gender 和 age 的 ting list,互相 skip;使用 bitset 数据结构,对 gender 和 age 两个 filter 分别求出 bitset,对两个 bitset 做 AN 操作。
BlueSky高性能时序数据库的场景
虚拟机/容器/应用监控数据:系统通常会收集不同服务器、容器或应用的度量值,比如 CPU 利用率,可用内存,可用磁盘,网络传输字节总量,每秒请求数等等,每个指标都关联相关的时间戳,服务器 ID,和一组描述所收集内容的属性;
传感器数据:每个设备可以在每个时间段报告多个传感器读数;例如对于空气和环境质量检测,可能包含,温度、湿度、气压、***物质、颗粒物等等的测量值;每组数据都与时间戳、设备ID相关联,并且可能有其他元数据。证券行情数据:用时间戳的信息流表示,包含证券代码,当前价格,价格变化等等车队/***:数据包含车辆/资产ID,时间戳,GPS 坐标,及可能的元数据
版权所有©2025 产品网