网站首页 > 技术文章 正文
大家使用spark比较熟的,都了解到spark可以通过jdbc这个API 可以访问 oracle的数据。
而且也可以在
def jdbc(
url: String,
table: String,
predicates: Array[String],//这里就是传入进去的sql,可以是多个sql,这样就能并发向oracle查询数据了
connectionProperties: Properties): DataFrame = {
assertNoSpecifiedSchema("jdbc")
// connectionProperties should override settings in extraOptions.
val params = extraOptions.toMap ++ connectionProperties.asScala.toMap
val options = new JDBCOptions(url, table, params)
val parts: Array[Partition] = predicates.zipWithIndex.map { case (part, i) =>
JDBCPartition(part, i) : Partition
}
val relation = JDBCRelation(parts, options)(sparkSession)
sparkSession.baseRelationToDataFrame(relation)
}
只是,这样有问题:
问题一:并发的个数不能控制,如果
predicates的长度是9
exectors的个数是3
cpu的core是3,那么运行这个任务的时候,就会启动 9个task,那问题来了,这么高的并发向oracle发起查询,对oracle的压力大。
可以通过 coalesce 来避免。
其次,这9个task运行的时间差 可能有的task 运行的时间点早,有的晚。
这样触发的是导数据任务,根据update_time进行导入,那么导入的数据在区间A中的一条恰好更新了,更新后应该进入 区间B 中,而这个时候,区间B的任务已经跑完了,因为运行的早。
那么这条记录就会丢失,这算是严重的问题了。
一:需要设置oracle的 isolationLevel,改成 REPEATABLE_READ
二:针对 9句sql,前面8句 可以并发操作,最后一条sql ,等前面8个任务执行完成后,才执行。
这样就可以了。因为 虽然数据会发生变化,变化的时候 updated_time肯定是系统最新的时间,那么这个时间肯定会落入 最后一句sql中,而且 因为 最后一个任务是最后执行,所以就没有问题了。(这里有个注意点:最后一句的sql区间 必须要确定 更新的时间点 一定要落在区间中才行)
猜你喜欢
- 2024-11-01 Oracle优化Hints功能并行parallel(二)
- 2024-11-01 PostgreSQL开发与实战(7.3)多版本并发控制3
- 2024-11-01 GitHub大神手打笔记:MySQL的多版本并发控制
- 2024-11-01 并发类的覆盖驱动测试代码生成 植被覆盖类型代码1112指的是
- 2024-11-01 MySQL的多版本并发控制(MVCC) mysql多版本多实例部署
- 2024-11-01 多版本并发控制(MVCC)与一致性读(二)
- 2024-11-01 SQLite学习笔记(二) sql学习笔记
- 2024-11-01 Oracle数据库:揭秘大数据管理神器
- 2024-11-01 java并发编程-学习方法、进程和线程的区别
- 2024-11-01 Java高并发编程详解:深入理解并发核心库,文字可复制,高清PDF
你 发表评论:
欢迎- 632℃几个Oracle空值处理函数 oracle处理null值的函数
- 625℃Oracle分析函数之Lag和Lead()使用
- 614℃0497-如何将Kerberos的CDH6.1从Oracle JDK 1.8迁移至OpenJDK 1.8
- 608℃Oracle数据库的单、多行函数 oracle执行多个sql语句
- 606℃Oracle 12c PDB迁移(一) oracle迁移到oceanbase
- 598℃【数据统计分析】详解Oracle分组函数之CUBE
- 588℃最佳实践 | 提效 47 倍,制造业生产 Oracle 迁移替换
- 572℃Oracle有哪些常见的函数? oracle中常用的函数
- 最近发表
-
- oracle 19cOCM认证有哪些内容(oracle认证ocm月薪)
- Oracle新出AI课程认证,转型要持续学习
- oracle 表的查询join顺序,可能会影响查询效率
- Oracle DatabaseAmazon Web Services正式可用,Oracle数据库上云更容易了
- Oracle 19.28 RU 升级最佳实践指南
- 汉得信息:发布EBS系统安装启用JWS的高效解决方案
- 如何主导设计一个亿级高并发系统架构-数据存储架构(三)
- Java 后端开发必看!工厂设计模式轻松拿捏
- ORA-00600 「25027」 「x」报错(抱错孩子电视剧 爸爸是武术 另一个爸爸是画家)
- 新项目终于用上了jdk24(jdk新建项目)
- 标签列表
-
- 前端设计模式 (75)
- 前端性能优化 (51)
- 前端模板 (66)
- 前端跨域 (52)
- 前端缓存 (63)
- 前端aes加密 (58)
- 前端脚手架 (56)
- 前端md5加密 (54)
- 前端路由 (61)
- 前端数组 (73)
- 前端js面试题 (50)
- 前端定时器 (59)
- 前端获取当前时间 (50)
- Oracle RAC (76)
- oracle恢复 (77)
- oracle 删除表 (52)
- oracle 用户名 (80)
- oracle 工具 (55)
- oracle 内存 (55)
- oracle 导出表 (62)
- oracle约束 (54)
- oracle 中文 (51)
- oracle链接 (54)
- oracle的函数 (58)
- 前端调试 (52)
本文暂时没有评论,来添加一个吧(●'◡'●)