大数据 QuarkXPress vim复制 海思 json linq magento dynamic service loam算法测试 directory phpmyadmin 建造师报考条件 八大员 后台ui模板 后台界面模板 list获取最后一个元素 oracle查询所有数据库 bootstrap中文api文档 android逆向工程师 kafka学习 如何升级python kubernetes实战 python或运算 python运算符优先级 java中的数据类型 java什么是多态 java中泛型 如何安装java环境 java字符串匹配 电子书之家 一键刷入recovery win7loader unix操作系统下载 不寻常的指南针 在线pr序列设置 手机照片恢复免费软件 cfqq网吧任务 netreflector 管理文件
当前位置: 首页 > 学习教程  > 编程语言

saprk randomSplit方法

2021/2/13 20:11:21 文章标签: 测试文章如有侵权请发送至邮箱809451989@qq.com投诉后文章立即删除

目的 将rdd或者dataframe按照一定的比例进行拆分,拆分后的结果还是RDD或者dataframe类型. 拆分RDD def main(args: Array[String]): Unit {val spark: SparkSession SparkSession.builder().master("local").getOrCreate()val rdd: RDD[Int] spark.sparkContex…

目的

将rdd或者dataframe按照一定的比例进行拆分,拆分后的结果还是RDD或者dataframe类型.

拆分RDD

def main(args: Array[String]): Unit = {
    val spark: SparkSession = SparkSession.builder().master("local").getOrCreate()
    val rdd: RDD[Int] = spark.sparkContext.parallelize(Array(1, 2, 3, 4, 5, 6, 7, 8, 9, 10))
    //依据如下比例拆分RDD
    val Array(training, test) = rdd.randomSplit(Array(0.8, 0.2))
    //1
    //2
    //3
    //5
    //6
    //8
    //9
    training.foreach(println)
    //4
    //7
    //10
    test.foreach(println)
  }

拆分DdataFrame

def main(args: Array[String]): Unit = {
    val spark: SparkSession = SparkSession.builder().master("local").getOrCreate()
    val rdd: RDD[Int] = spark.sparkContext.parallelize(Array(1, 2, 3, 4, 5, 6, 7, 8, 9, 10))
    import spark.implicits._
    val df: DataFrame = rdd.toDF()
    //参数为Array类型,两个参数加起来最好为1,就是二八拆分
    val Array(training, test) = df.randomSplit(Array(0.8, 0.2))
    //training的类型依然是dataframe
    //+-----+
    //|value|
    //+-----+
    //|    1|
    //|    2|
    //|    4|
    //|    5|
    //|    6|
    //|    7|
    //|   10|
    //+-----+
    training.show()
    //test的类型依然是dataframe
    //+-----+
    //|value|
    //+-----+
    //|    3|
    //|    8|
    //|    9|
    //+-----+
    test.show()
  }

总结

  • randomSplit方法可以完成对RDD或者DataFrame安装一定比例的拆分

参考

spark RDD基础装换操作–randomSplit操作_钟兴宇的博客-CSDN博客


本文链接: http://www.dtmao.cc/news_show_700411.shtml

附件下载

相关教程

    暂无相关的数据...

共有条评论 网友评论

验证码: 看不清楚?