让大数据分析更轻松 青云QingCloud新增 Hive 服务



  • 为了进一步完善大数据平台,青云QingCloud 日前宣布新增基于 Hadoop 的数据仓库工具 Hive,这是继月初推出 Elasticsearch 全文搜索引擎服务后 QingCloud 的又一重要更新。

    随着数据在企业商业决策和产品功能中起到的作用越来越重要,大数据技术正在越来越多的企业中发挥出更大价值。QingCloud 正在不断完善大数据平台,帮助用户降低大数据平台的技术门槛。

    目前, Hive 服务已经在 QingCloud 映像市场上线。

    Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的类 SQL(称为HQL)查询功能,可以将 HQL 语句转换为 MapReduce 任务进行运行。 其优点是学习成本低,可以通过 HQL 语句快速实现简单的 MapReduce 统计,不必开发专门的 MapReduce 应用,十分适合数据仓库的统计分析。

    如上图所示,QingCloud 提供的 Hive 映像包含了 Hive Client 和 Hive Server 的所有功能。用户在 Hive Client 端发起 HQL 任务,通过 Hive Server 实现 HQL 到 MapReduce 任务的转换,然后调用 Hadoop 集群执行。

    使用映像创建 Hive

    大数据平台包括 Hive 的运维是非常繁琐的,而在青云上,您可以在 2 到 3 分钟创建一个 Hive 服务,并完成与其他大数据集群连接的配置。Hive 服务支持纵向在线伸缩, 还提供了监控告警等功能,使得服务管理非常方便。

    第一步:创建 Hadoop 集群

    在使用映像创建 Hive 之前,您需要创建一个 Hadoop 集群。(点击查看如何在青云上创建 Hadoop 集群

    第二步:创建 Hive 主机

    首先,您需要使用映像市场的 Apache Hive 映像创建一个主机,如下图所示。同时,将该主机加入 Hadoop 集群同一私有网络。该主机已经安装了 Hadoop、JRE、Hive 等软件。

    PS:目前,映像市场仅支持北京 2 区、北京 3 区-A、广东 1 区,后续我们将开放更多的分区,敬请期待。

    第三步:配置 Hadoop 环境

    首先,您需要根据您所使用的 Hadoop 集群配置,来修改 Hive 所在主机的相关配置,将 Hive 主机配置为 Hadoop 集群的 Client。
    接着,您需要修改 HDFS 的 /tmp 目录权限。Hive 在使用过程中需要使用 HDFS 的 /tmp 目录,因此需要修改 HDFS 的 /tmp 目录的权限,执行:

    第四步:配置 Hive 环境

    该映像已默认配置 Hive 的 Metastore 服务为 Local 模式,并使用本地已安装配置的 MySQL 作为 Metastore Database。其中,Metastore 使用的 MySQL 用户名为 Ubuntu,Database 名为 Hive。如果您想使用“默认配置” ,可以跳过此第四步。

    在“默认配置” 下,Hive 服务的各个组件都运行在同一台机器中,包括 Hive Server2、Hive Metastore、Hive Metastore Database。

    默认配置只能适用于小规模数据仓库,单一客户端访问的情形。在实际的生产环境中,您需要根据规模将这些组件分离,还可以根据需求横向扩展组件的数量,以达到性能需求。关于Hive组件的推荐配置,详见下表:

    PS:本地 MySQL 数据库的 Root 密码与本映像 Linux 的 Ubuntu 用户密码相同。本地 MySQL 数据库的 Ubuntu 用户密码可在 hive-site.xml 中查询。实际使用中请修改密码!上表是通常情况下的配置建议。实际过程将受到表列的数量、分区数量、复杂 join 数量等因素的影响。


    【预告】7 月 28 日,QingCloud Insight 2016 将邀请 50 多位行业专家分享云计算、大数据、机器学习、容器、DevOps、安全等领域的前沿话题,打造一场业界交流、开发者学习、创业创新项目展示的顶级云计算盛会。

    名额有限,报名请扫码下方二维码。


登录后回复
 

与 青云QingCloud 社区 的连接断开,我们正在尝试重连,请耐心等待