分类: 大数据

7 篇文章

浅谈SparkSql的执行流程
前言 最近对SparkSql的执行流程有更全面的了解,故写下本文以备后用。 首先一图流: 资料转载自: https://www.iteblog.com/archives/2561.html https://www.iteblog.com/archives/2562.html https://www.iteblog.com/archives/2563…
关于hive使用union后切换引擎查询不到数据的问题
背景 最近在做hive数仓清洗时候,遇到一个问题。当hive在走tez框架下,如果在最外层sql使用union all做的hive表,切换其他引擎会查询不到数据,如切换presto、spark、starRocks等。 原因 原因也很简单。由于Hive在执行含有union all的语句时,是拆分并行执行,然后分别将结果存放在数据表目录下的HIVE_U…
记一次常规的集群优化
一、问题描述 国庆假回来,集群告警了。告警问题如下: HOST_AGENT_PARCEL_DIRECTORY_FREE_SPACE 的运行状况测试结果存在隐患: Cloudera Manager Agent 的 Parcel 目录位于可用空间小于 10.0 吉字节 的文件系统上。 /opt/cloudera/parcels(可用:10.0 吉字节 …
Linux服务器部署Tomcat
前言 本教程是在linux服务器上进行的,系统centos7.9,部署tomcat前要先安装jdk1.8。 一、下载 官网下载路径:https://tomcat.apache.org/download-90.cgi 找linux的版本,即后缀是tar.gz的文件。 下载后通过xshell 的ftp上传到服务器中。 二、解压安装 假设解压到/opt/…
关于数据仓库的一些个人思考
一、为什么要用数据仓库?mysql不好吗?mysql和hive的区别 1、mysql、hadoop和hive mysql是关系型数据库,与之对应的是其实应该是HDFS,数据仓库。 hadoop是分布式计算的开源框架,包含HDFS,hive,Hbase。 hive是基于hadoop的一个数据仓库工具,本质是工具。提供SQL查询功能,HiveSQL会转…
Hive3.1.2搭建及简单使用
前言 在安装Hive3.1.2之前,请首先安装Hadoop3.1.3。 hadoop3的搭建可以参考本站这一篇文章 https://www.linbaixiang.com/hadoop3/ 一、安装Hive3.1.2 1. 下载并解压Hive安装包 首先需要下载Hive安装包文件, Hive官网下载地址 http://archive.apache.…
hadoop3手动搭建保姆级教程
一、前言 本篇文章是hadoop3的搭建教程,从零开始的全手动搭建,包括其中遇到过的所有坑及解决方案,面向全新小白。本文当时操作部署是用的hadoop3.3.3,一般实际的项目推荐是用hadoop3.1.3,这是由于各种的兼容性问题,但部署上是基本没有区别的。 二、服务器准备 1、阿里云ECS购买 阿里云服务器4台,2核4G,centos7系统。2…