news 2026/3/14 8:44:16

Mysql入湖Iceberg

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Mysql入湖Iceberg

Mysql入湖Iceberg

使用Scala实现Spark高可用集群读取Mysql数据写入Iceberg数据湖,数据存储于Hadoop高可用集群

  • Spark 3.3.3
  • Hadoop 3.3.6
  • Iceberg 1.3.0

代码

packagecom.czl.datalake.template.iceberg.mysqlimportorg.apache.spark.sql.SparkSessionobjectTest{defmain(args:Array[String]):Unit={//windows环境测试需要配置// System.setProperty("hadoop.home.dir", "D://hadoop3.3.0")// System.setProperty("HADOOP_USER_NAME", "czl")valspark=SparkSession.builder().appName("mysqlToIceberg").config("spark.sql.catalog.czlCatalog","org.apache.iceberg.spark.SparkCatalog").config("spark.sql.catalog.czlCatalog.type","hadoop")//hadoop文件系统路径.config("spark.sql.catalog.czlCatalog.warehouse","/data").getOrCreate()try{// 1. 读取MySQL数据valmysqlDF=spark.read.format("jdbc").option("url","jdbc:mysql://10.10.10.10:6033").option("driver","com.mysql.cj.jdbc.Driver").option("user","root").option("password","root")//库名.表名.option("dbtable","testDb.testTable").load()//写入Iceberg表mysqlDF.write.format("iceberg")//存储在hadoop上的,库名.表名.save("czlCatalog.testDb.testTable")}catch{casee:Exception=>e.printStackTrace()}finally{spark.stop()}}}

依赖参考

<?xml version="1.0" encoding="UTF-8"?><projectxmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"><parent><artifactId>dataLake-template-iceberg</artifactId><groupId>com.czl</groupId><version>1.0</version></parent><modelVersion>4.0.0</modelVersion><artifactId>dataLake-template-iceberg-spark-mysql</artifactId><properties><maven.compiler.source>8</maven.compiler.source><maven.compiler.target>8</maven.compiler.target></properties><dependencies><dependency><groupId>mysql</groupId><artifactId>mysql-connector-java</artifactId><version>8.0.24</version></dependency><dependency><groupId>org.apache.spark</groupId><artifactId>spark-sql_2.12</artifactId><version>3.3.3</version></dependency><dependency><groupId>org.apache.iceberg</groupId><artifactId>iceberg-spark-runtime-3.3_2.12</artifactId><version>1.3.0</version></dependency></dependencies><build><plugins><plugin><groupId>org.scala-tools</groupId><artifactId>maven-scala-plugin</artifactId><version>2.15.2</version><executions><execution><goals><!--编译源码--><goal>compile</goal><!--编译测试源码--><goal>testCompile</goal></goals></execution></executions></plugin></plugins></build></project>

提示

  • core-site.xml,hdfs-site.xml文件放置在resources文件夹下,以便于识别到Hadoop集群
  • Spark高可用集群,每个节点上传mysql-connector-java-8.0.33.jariceberg-spark-runtime-3.3_2.12-1.3.0.jar这两个必须使用的依赖。

本地模式提交

./spark-submit --master local[*]--class com.czl.datalake.template.iceberg.mysql.Test /opt/dataLake-template-iceberg-spark-mysql-1.0.jar

集群模式提交,jar在本地

./spark-submit --master spark://node1:7077 --deploy-mode cluster --class com.czl.datalake.template.iceberg.mysql.Test /opt/dataLake-template-iceberg-spark-mysql-1.0.jar

集群模式提交,jar在Hadoop

./spark-submit --master spark://node1:7077 --deploy-mode cluster --class com.czl.datalake.template.iceberg.mysql.Test hdfs://ling//workspace/project/dataLake-template-iceberg-spark-mysql-1.0.jar

Yarn模式提交,jar在Hadoop

./spark-submit --masteryarn--deploy-mode cluster --class com.czl.datalake.template.iceberg.mysql.Test hdfs://ling//workspace/project/dataLake-template-iceberg-spark-mysql-1.0.jar
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/5 6:04:33

WSLg-Ubuntu-Desktop

文章目录极简说明详细说明极简说明 模式&#xff1a;Wslg gnome-shell wayland 该方式采用gnome-shell来嵌入式显示桌面内容&#xff0c;gnome-shell又将通过WSLg&#xff08;Windows扩展的显示组件&#xff09;&#xff0c;在Windows系统内弹出一个窗口来操作gnome-shell。 …

作者头像 李华
网站建设 2026/3/13 9:43:48

鸿蒙开发-如何将C++侧接收的PixelMap转换成cv::mat格式

目录1. 解决措施2. 示例代码3. 将arraybuffer转换成cv::mat4. 使用OH_PixelMap_AccessPixels获取PixelMap的内存地址&#xff0c;将这个内存地址中的数据转换为cv::mat的1. 解决措施 将PixelMap转换成cv::mat有两种方法&#xff1a; 将PixelMap的arraybuffer转换成cv::mat。使…

作者头像 李华
网站建设 2026/3/11 16:33:55

四天学会一本书的厦门服务机构是哪家

四天学会一本书&#xff1a;厦门诺辰教育如何助力高效学习在快节奏的现代生活中&#xff0c;高效学习已成为许多人追求的目标。尤其是在知识更新迅速的时代&#xff0c;如何在短时间内掌握一本书的核心内容变得尤为重要。厦门诺辰教育作为一家专注于高效学习方法培训的服务机构…

作者头像 李华
网站建设 2026/3/13 17:01:07

AI在HR数字化中的应用:简历筛选与人才匹配的技术实现

摘要&#xff1a;在HR数字化转型进程中&#xff0c;简历筛选与人才匹配是招聘全流程的核心痛点。传统人工筛选模式效率低下、主观性强&#xff0c;难以适应大规模招聘需求。AI技术的融入为该场景提供了高效解决方案&#xff0c;通过OCR识别、自然语言处理&#xff08;NLP&#…

作者头像 李华
网站建设 2026/3/10 19:07:34

anything-llm Docker本地部署与源码问答指南

anything-llm Docker本地部署与源码问答指南 在现代软件开发中&#xff0c;面对动辄数百万行的代码库&#xff0c;如何快速理解系统架构、定位关键逻辑、掌握模块交互&#xff0c;已成为开发者日常效率的核心瓶颈。尤其像 Android AOSP、Linux 内核这类大型项目&#xff0c;仅…

作者头像 李华
网站建设 2026/3/8 23:13:45

LobeChat Docker镜像使用技巧:环境变量配置大全

LobeChat Docker镜像使用技巧&#xff1a;环境变量配置大全 在构建现代 AI 聊天应用的实践中&#xff0c;一个常见痛点是&#xff1a;如何快速、安全地将前端界面与后端大模型服务对接&#xff0c;同时兼顾部署灵活性和访问控制&#xff1f;开源项目 LobeChat 正是为解决这一问…

作者头像 李华