QingStor™ 对象存储最佳实践之初探云端数据仓库



  • QingStor™ 对象存储最佳实践之初探云端数据仓库

    随着移动互联网、物联网的高速发展,我们获取的数据比以往任何时候都要多,大数据在社会、政治和商业等各个领域逐渐显示出威力,没有任何一个个人和企业能够逃过这个数据时代,因此数据的存储、分析、处理、对企业的决策支持变得格外重要。

    QingStor™ 对象存储作为海量数据存储池,将会与 QingCloud 平台上的计算资源紧密整合,从而实现高性能、低成本的数据分析与挖掘,提升企业数据价值。

    本文分享了 QingStor™ 对象存储如何与 HDW 进行集成的实践案例。在这个案例中,我们将把数据从 QingStor™ 对象存储中导入到数据仓库,并将最终的查询结果回导至 QingStor™ 对象存储。

    注:HDW 是一个高性能、完全托管的 PB 级 MPP 数据仓库。源于 PostgreSQL 和 Greenplum Database,HDW 让你能够利用标准 SQL 客户端和 BI 工具轻松分析海量数据。这个服务还包括动态伸缩、监控和警告等功能,帮助您更好地管理数据仓库集群。HDW 由北京酷克数据科技有限公司提供技术支持。

    创建 Bucket (存储空间)

    创建一个 Bucket,名为"hdw-hashdata-cn",并在其下创建两个目录"input"和"output"。

    创建 API 访问 QingStor™ 对象存储

    创建输入文件

    在本地创建文件"persons.txt"和"orders.txt",并将其上传至前面创建的 Bucket "hdw-hashdata-cn"的"input"目录里。

    “persons.txt” 内容:

    1,Adams,John,Oxford Street,London
    2,Bush,George,Fifth Avenue,New York
    3,Carter,Thomas,Changan Street,Beijing

    "orders.txt" 内容

    1,77895,3
    2,44678,3
    3,22456,1
    4,24562,1
    5,34674,65

    创建数据表

    连接 HDW 数据仓库进入 Postgres 数据库,执行如下图所示命令创建相应的数据表(请将里面的 accesskeyid 和 secretaccesskey 换成你的 API 密钥)。

    外部表 epersons 对应前面上传的 persons.txt 文件,eorders 对应 orders.txt 文件,eresult 对应 Bucket hdw-hashdata-cn 的 output 目录。

    数据迁移

    执行如下命令将数据从外部表(对应QingStor™ 对象存储的 input 目录)导入到数据仓库中:

    执行如下命令将查询结果导出到外部表(对应QingStor™ 对象存储的 output 目录)

    此时,可以看到 output 目录下多了两个文件(这是因为演示系统中用了两个 workers ,每个 worker 往外写一个文件对象):gpqsext.0.0 和 gpqsext.1.0 。

    下载 gpqsext.0.0 和 gpqsext.1.0 ,查看内容:

    写在最后

    在这个案例中,我们演示了如何将数据从 QingStor™ 对象存储里导入到 HDW 数据仓库中,并将查询结果回导至 QingStor™ 对象存储里。

    基于这两个基本功能,我们可以构建更复杂的数据仓库管理功能,如在数据仓库空闲的时候,将元数据和用户数据备份到对象存储中,释放计算资源和存储资源,节省成本。当下次需要的时候,利用备份到对象存储中的数据恢复数据仓库,继续正常使用。

    PS:目前 QingStor™ 对象存储为用户提供了 12 个月的免费套餐,点击原文链接,创建你的第一个 QingStor™ Bucket 吧。

    • FIN-


登录后回复
 

与 青云QingCloud 社区 的连接断开,我们正在尝试重连,请耐心等待