大数据分析与应用实验任务十

本文介绍: 通过实验掌握 spark SQL的基本编程方法；熟悉RDD到Da t aFram e的转化方法；通过实验熟悉spark SQL管理不同数据源的方法。

进入 pyspark实验环境，在桌面环境打开 jupyter notebook，或者打开命令行窗口，输入 pyspark，完成下列任务：

在编写独立应用程序时，可以通过如下语句创建一个 SparkSes s ion 对象：

from pyspark import SparkContext,SparkConf 
from pyspark.sql import SparkSession 
sparklzy = SparkSession.builder.config(conf = SparkConf()).getOrCreate()

读取在“/usr/local/s park/examples/src/main/resources/”目录下的样例数据 pe ople.json

dfluozhongye = spark.read.json("file:///usr/local/spark/examples/src/main/resources/people.json")
dfluozhongye.show()

peopleDFlzy = spark.read.format("json").load("file:///usr/local/spark/examples/src/main/resources/people.json") 

peopleDFlzy.select("name", "age").write.format("json").save("file:///root/Desktop/luozhongye/newpeople.json")

peopleDFlzy.select("name").write.format("text").save("file:///root/Desktop/luozhongye/newpeople.txt")

如果要再次读取 new people.json 中的数据生成 DataFrame，可以直接使用 new people.json 目录名称，而不需要使用 part-00000-3db90180-ec7c-4291-ad05-df8e45c77f4d.json 文件（当然，使用这个文件也可以），代码如下：

peopleDFlzy = spark.read.format("json").load("file:///root/Desktop/luozhongye/newpeople.json") 
peopleDFlzy.show()

dflzy=spark.read.json("file:///usr/local/spark/examples/src/main/resources/people.json")

dflzy.printSchema()

# select()操作选取了 name和 age 这两个列，并且把 age 这个列的值增加 1。
dflzy.select(dflzy['name'],dflzy['age']+1,).show()

# 用于查询所有 age 字段的值大于 20 的记录。
dflzy.filter(dflzy["age"]>20)

# 根据 age 字段进行分组，并对每个分组中包含的记录数量进行统计
dflzy.groupBy("age").count().show()

# 表示根据 age 字段进行降序排序；
dflzy.sort(dflzy["age"].desc()).show()
# 表示根据 age 字段进行降序排序，当 age 字段的值相同时，再根据 name 字段的值进行升序排序
dflzy.sort(dflzy["age"].desc(),dflzy["name"].asc()).show()

from pyspark.sql import Row

people = spark.sparkContext.textFile("file:///usr/local/spark/examples/src/main/resources/people.txt").map(lambda line: line.split(",")).map(lambda p: Row(name=p[0], age=int(p[1])))
schemaPeople = spark.createDataFrame(people)
# 必须注册为临时表才能供下面的查询使用
schemaPeople.createOrReplaceTempView("people")
personsDF = spark.sql("select name,age from people where age > 20")
# DataFrame 中的每个元素都是一行记录，包含 name 和 age 两个字段，分别用 p.name 和 p.age 来获取值
personsRDD = personsDF.rdd.map(lambda p: "Name: " + p.name + "," + "Age: " + str(p.age))
personsRDD.foreach(print)

from pyspark.sql.types import *
from pyspark.sql import Row

# 下面生成“表头”
schemaString = "name age"
fields = [StructField(field_name, StringType(), True) for field_name in
          schemaString.split(" ")]
schema = StructType(fields)
# 下面生成“表中的记录
lines = spark.sparkContext.textFile("file:///usr/local/spark/examples/src/main/resources/people.txt")
parts = lines.map(lambda x: x.split(","))
people = parts.map(lambda p: Row(p[0], p[1].strip()))
# 下面把“表头”和“表中的记录”拼装在一起
schemaPeople = spark.createDataFrame(people, schema)
# 注册一个临时表供后面的查询使用
schemaPeople.createOrReplaceTempView("people")
results = spark.sql("SELECT name,age FROM people")
results.show()

{ "id":1 , "name":" Ella" , "age":36 } 
{ "id":2, "name":"Bob","age":29 } 
{ "id":3 , "name":"Jack","age":29 } 
{ "id":4 , "name":"Jim","age":28 } 
{ "id":4 , "name":"Jim","age":28 } 
{ "id":5 , "name":"Damon" } 
{ "id":5 , "name":"Damon" }
{ "id":6 , "name":"罗忠烨" }

from pyspark.sql import SparkSession

# 创建 SparkSession
spark = SparkSession.builder.appName("SparkSQLBasicOperations").getOrCreate()

# 读取 JSON 文件并创建 DataFrame
employee_dflzy = spark.read.json("/root/Desktop/luozhongye/employee.json")

employee_dflzy.show()

employee_dflzy.dropDuplicates().show()

employee_dflzy.select("name", "age").show()

employee_dflzy.filter(employee_dflzy["age"] > 30).show()

employee_dflzy.groupBy("age").count().show()

employee_dflzy.orderBy("name").show()

employee_dflzy.limit(3).show()

employee_dflzy.select("name").withColumnRenamed("name", "username").show()

employee_dflzy.agg({"age": "avg"}).show()

employee_dflzy.agg({"age": "min"}).show()

spark.stop()

1,Ella,36 
2,Bob,29 
3,Jack,29

from pyspark.sql import SparkSession
from pyspark.sql.types import StructType, StructField, StringType, IntegerType

# 创建 SparkSession
spark = SparkSession.builder.appName("RDDtoDataFrame").getOrCreate()

# 读取文本文件并创建 RDD
rdd = spark.sparkContext.textFile("/root/Desktop/luozhongye/employee.txt")

# 定义数据模式
schema = StructType([
    StructField("id", IntegerType(), True),
    StructField("name", StringType(), True),
    StructField("age", IntegerType(), True)
])

# 将 RDD 转换为 DataFrame
employee_df = rdd.map(lambda line: line.split(",")).map(lambda x: (int(x[0]), x[1], int(x[2]))).toDF(schema=schema)

# 打印 DataFrame 的所有数据
employee_df.show(truncate=False)

# 停止 SparkSession
spark.stop()

id	name	gender	age
1	Ali ce	F	22
2	John	M	25

-- 创建数据库
CREATE DATABASE IF NOT EXISTS sparktest;

-- 切换到 sparktest 数据库
USE sparktest;

-- 创建 employee 表
CREATE TABLE IF NOT EXISTS employee (
    id INT PRIMARY KEY,
    name VARCHAR(255),
    gender CHAR(1),
    age INT
);

-- 插入数据
INSERT INTO employee VALUES (1, 'Alice', 'F', 22), (2, 'John', 'M', 25);

id	name	gender	age
3	Mary	F	26
4	Tom	M	23

from pyspark.sql import SparkSession
from pyspark.sql import DataFrame

# 创建 SparkSession
#"/path/to/mysql-connector-java-x.x.xx.jar"：实际的 MySQL Connector/J JAR 文件路径。
spark = SparkSession.builder.appName("MySQLDataFrame").config(
	"spark.jars", "/path/to/mysql-connector-java-x.x.xx.jar" 
).getOrCreate()

# 读取数据到 DataFrame
employee_data = [(3, 'Mary', 'F', 26), (4, 'Tom', 'M', 23)]
columns = ["id", "name", "gender", "age"]
new_data_df = spark.createDataFrame(employee_data, columns)

# 配置 MySQL 连接信息
mysql_url = "jdbc:mysql://localhost:3306/sparktest"
mysql_properties = {
	"user": "your_username",# 实际的 MySQL 用户名
	"password": "your_password",# 实际的 MySQL 密码
	"driver": "com.mysql.cj.jdbc.Driver"
}

# 将数据写入 MySQL 表
new_data_df.write.jdbc(url=mysql_url, table="employee", mode="append", properties=mysql_properties)

# 从 MySQL 中读取数据到 DataFrame
employee_df = spark.read.jdbc(url=mysql_url, table="employee", properties=mysql_properties)

# 打印 DataFrame 的所有数据
employee_df.show()

# 打印 age 的最大值和总和
employee_df.agg({"age": "max", "age": "sum"}).show()

# 停止 SparkSession
spark.stop()

显示所有内容

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

大数据分析与应用 实验 任务十

实验目的：

实验任务：

实验一、参考教材5.3-5.6节各个 例程 编写 代码，逐行 理解并运行。

1. Da t aFram e 的创建

2. DataFrame 的保存

3. DataFrame 的常用 操作

(1) printSc h ema()

(2) select()

(3) filter()

(4) groupBy()

(5) sort()

4. 从 RDD 转换得到 DataFrame

(1) 利用 反射 机制 推断 RDD 模式

(2）使用编程方式 定义 RDD 模式

实验二、完成p113页实验内容第1题（spark SQL基本操作），另注意自行修改 题目中的数据。

1. Spark SQL 基本操作

2. 编程实现将 RDD 转换为 DataFrame

3. 编程实现利用 DataFrame 读写 MySQL 的数据

（1）在 MySQL 数据库中新建 数据库 sparktest，再创建表 employee, 包含下表所示的两行数据。

（2）配置 Spark 通过 JDBC 连接数据库 MySQL，编程实现利用 DataFrame 插入表 5-3 所示的两行数据到 MySQL 中，最后 打印出 age 的最大值和 age 的总和。

发表回复取消回复

大数据分析与应用实验任务十

实验目的：

实验任务：

实验一、参考教材5.3-5.6节各个例程编写代码，逐行理解并运行。

1. DataFrame 的创建

2. DataFrame 的保存

3. DataFrame 的常用操作

(1) printSchema()

(2) select()

(3) filter()

(4) groupBy()

(5) sort()

4. 从 RDD 转换得到 DataFrame

(1) 利用反射机制推断 RDD 模式

(2）使用编程方式定义 RDD 模式

实验二、完成p113页实验内容第1题（spark SQL基本操作），另注意自行修改题目中的数据。

1. Spark SQL 基本操作

2. 编程实现将 RDD 转换为 DataFrame

3. 编程实现利用 DataFrame 读写 MySQL 的数据

（1）在 MySQL 数据库中新建数据库 sparktest，再创建表 employee, 包含下表 所示的两行数据。

（2）配置 Spark 通过 JDBC 连接数据库 MySQL，编程实现利用 DataFrame 插入表 5-3 所示的两行数据到 MySQL 中，最后打印出 age 的最大值和 age 的总和。

相关文章

发表回复 取消回复

1. Da t aFram e 的创建

(1) printSc h ema()

（1）在 MySQL 数据库中新建数据库 sparktest，再创建表 employee, 包含下表所示的两行数据。

发表回复取消回复