大数据沉默的羊

浅谈SparkSql的执行流程

2024-8-17 20:00

|

1,737

|

0

|

大数据

942 字

|

6 分钟

前言最近对SparkSql的执行流程有更全面的了解，故写下本文以备后用。首先一图流：资料转载自： https://www.iteblog.com/archives/2561.html https://www.iteblog.com/archives/2562.html https://www.iteblog.com/archives/2563…

Spark 大数据

关于hive使用union后切换引擎查询不到数据的问题

2024-2-26 20:00

|

4,230

|

0

|

大数据

352 字

|

2 分钟

背景最近在做hive数仓清洗时候，遇到一个问题。当hive在走tez框架下，如果在最外层sql使用union all做的hive表，切换其他引擎会查询不到数据，如切换presto、spark、starRocks等。原因原因也很简单。由于Hive在执行含有union all的语句时，是拆分并行执行，然后分别将结果存放在数据表目录下的HIVE_U…

Hive

记一次常规的集群优化

2023-10-07 12:00

|

2,530

|

0

|

大数据

339 字

|

3 分钟

一、问题描述国庆假回来，集群告警了。告警问题如下： HOST_AGENT_PARCEL_DIRECTORY_FREE_SPACE 的运行状况测试结果存在隐患： Cloudera Manager Agent 的 Parcel 目录位于可用空间小于 10.0 吉字节的文件系统上。 /opt/cloudera/parcels（可用：10.0 吉字节 …

CDH Linux

Linux服务器部署Tomcat

2023-2-27 15:26

|

1,930

|

0

|

大数据

382 字

|

2 分钟

前言本教程是在linux服务器上进行的，系统centos7.9，部署tomcat前要先安装jdk1.8。一、下载官网下载路径：https://tomcat.apache.org/download-90.cgi 找linux的版本，即后缀是tar.gz的文件。下载后通过xshell 的ftp上传到服务器中。二、解压安装假设解压到/opt/…

Linux Tomcat

关于数据仓库的一些个人思考

2023-2-12 11:06

|

3,251

|

0

|

大数据

1365 字

|

6 分钟

一、为什么要用数据仓库？mysql不好吗？mysql和hive的区别 1、mysql、hadoop和hive mysql是关系型数据库，与之对应的是其实应该是HDFS，数据仓库。 hadoop是分布式计算的开源框架，包含HDFS，hive，Hbase。 hive是基于hadoop的一个数据仓库工具，本质是工具。提供SQL查询功能，HiveSQL会转…

大数据

Hive3.1.2搭建及简单使用

2023-2-12 11:05

|

4,222

|

0

|

大数据

3763 字

|

28 分钟

前言在安装Hive3.1.2之前，请首先安装Hadoop3.1.3。 hadoop3的搭建可以参考本站这一篇文章 https://www.linbaixiang.com/hadoop3/ 一、安装Hive3.1.2 1. 下载并解压Hive安装包首先需要下载Hive安装包文件， Hive官网下载地址 http://archive.apache.…

Dbeaver Hadoop Hive Mysql

hadoop3手动搭建保姆级教程

2022-12-29 17:00

|

5,772

|

0

|

大数据

4081 字

|

28 分钟

一、前言本篇文章是hadoop3的搭建教程，从零开始的全手动搭建，包括其中遇到过的所有坑及解决方案，面向全新小白。本文当时操作部署是用的hadoop3.3.3,一般实际的项目推荐是用hadoop3.1.3，这是由于各种的兼容性问题，但部署上是基本没有区别的。二、服务器准备 1、阿里云ECS购买阿里云服务器4台，2核4G，centos7系统。2…

Hadoop3 Java Linux

分类： 大数据

分类：大数据