陕西高性能时序数据库分析报告品牌企业「美信科技」

作者：美信时代2021/11/18 19:11:48

企业视频展播，请点击播放

视频作者：北京美信时代科技有限公司

时序数据库的秘密 —— 快速检索

码洞是通过 Lucene 的倒排索引技术实现比关系型数据库更快的过滤。特别是它对多条件的过滤支持非常好，比如年龄在 18 和 30 之间，性别为女性这样的组合查询。倒排索引很多地方都有介绍，但是其比关系型数据库的 b-tree 索引快在哪里？到底为什么快呢？

笼统的来说，b-tree 索引是为写入优化的索引结构。当我们不需要支持快速的更新的时候，可以用预先排序等方式换取更小的存储空间，更快的检索速度等好处，其代价就是更新慢。要进一步深入的化，还是要看一下 Lucene 的倒排索引是怎么构成的

BlueSky高性能时序数据库的场景

虚拟机/容器/应用监控数据：系统通常会收集不同服务器、容器或应用的度量值，比如 CPU 利用率，可用内存，可用磁盘，网络传输字节总量，每秒请求数等等，每个指标都关联相关的时间戳，服务器 ID，和一组描述所收集内容的属性；

传感器数据：每个设备可以在每个时间段报告多个传感器读数；例如对于空气和环境质量检测，可能包含，温度、湿度、气压、***物质、颗粒物等等的测量值；每组数据都与时间戳、设备ID相关联，并且可能有其他元数据。证券行情数据：用时间戳的信息流表示，包含证券代码，当前价格，价格变化等等车队/***：数据包含车辆/资产ID，时间戳，GPS 坐标，及可能的元数据

BlueSky高性能时序数据库趋势2

第三，AI会和数据库做融合，“AI for DB，DB for AI”。DB for AI是指以后数据库上面支撑的场景应用约60%-70%都将跟AI相关，数据库需要对AI的训练、推理、数据快速迭代和响应做更好的支持。AI for DB是指当数据量特别大、数据类型也特别复杂时，需要AI帮助人工做数据库管理的强化学习，以确定型的学习结构、确定型的学习关系，帮助DBA更好地存储数据、应用数据。

时间序列数据库

根据数值取模一般采用hash取模mod的切分方式，例如：将 Customer 表根据 cusno 字段切分到4个库中，余数为0的放到个库，余数为1的放到第二个库，以此类推。这样同一个用户的数据会分散到同一个库中，如果查询条件带有cusno字段，则可明确***到相应库去查询。

优点：数据分片相对比较均匀，不容易出现热点和并发访问的瓶颈缺点：后期分片集群扩容时，需要迁移旧的数据（使用一致性hash算法能较好的避免这个问题）容易面临跨分片查询的复杂问题。比如上例中，如果频繁用到的查询条件中不带cusno时，将会导致无法***数据库，从而需要同时向4个库发起查询，再在内存中合并数据，取小集返回给应用，分库反而成为拖累。

分享到 QQ空间新浪微博腾讯微博