大规模并行查询引擎 BlinkDB-白红宇

大规模并行查询引擎 BlinkDB

阅读量：5894 次

发布时间：2019-06-19

本文共 401 字，大约阅读时间需要 1 分钟。

BlinkDB 是一个用于在海量数据上运行交互式 SQL 查询的大规模并行查询引擎。它允许用户通过权衡数据精度来提升查询响应时间，其数据的精度被控制在允许的误差范围内。为了达到这个目标，BlinkDB 使用两个核心思想:

一个自适应优化框架，从原始数据随着时间的推移建立并维护一组多维样本；

一个动态样本选择策略，选择一个适当大小的示例基于查询的准确性和（或）响应时间需求。

我们已经使用了 TPC-H 基准测试来评估 BlinkDB 的性能，实际分析工作负载来自 Conviva Inc. 和在 Facebook Inc 的部署。在中，BlinkDB 演示了在 Amazon EC2 集群部署了 100 个节点，大约 17TB 的数据中查询不到 2 秒钟，比 Hive 快 200 倍，错误率在 2-10%。

转载于:https://my.oschina.net/766/blog/211080

你可能感兴趣的文章

《Effective Java》读书笔记09--谨慎地覆盖clone方法