统计学-R语言-4.2_代码007(未授权)

本文介绍: 本篇介绍下数据的描述性分析。

本篇介绍下数据的描述性分析。

统计学上把取值范围是有限个值或是一个数列构成的变量称为离散型变量，其中表示分类情况的离散型变量又称为分类变量。
对于分类数据，可以用频数表来分析，也可以用条形图和饼图来描述。

频数表(frequency table)或频数分布表(frequency distribution table)可以描述分类变量的分布概况。
频数表是遵循既不重叠又不遗漏的原则，按变量 (数据特征)的取值归类分组，把总体的所有数据按组归并排列，由各个组别所包含的数据频数构成的汇总表格。
R中的函数table()可以生成频数表。如果x是分类数据，只要用table(x)就可以生成分类频数表。

频数表的特殊情况：
频数表用来描述分类变量的分布概况。
但是，对于一些数值型数据，可以将数值型数据进行，诸如像：“划分区间”、“分类”等一些处理，将数值型数据转化为分类型数据进行分析。此时可以使用频数表来描述数据的分布情况。

例题1：
下表是某蓝球运动员2008-2009赛季常规赛的每场得分数据，下面我们一起来分析这组数据。

load("C:/Users/125/Desktop/example/ch2/example2_1.RData")
example2_1

summary(example2_1)

count1<-table(example2_1$社区);count1#生成被调查者所在社区的频数分布表
prop.table(count1)*100#将频数分布表转化成百分比

count2<-table(example2_1$性别);count2
prop.table(count2)*100

count3<-table(example2_1$态度);count3
prop.table(count3)*100

load("C:/example/ch2/example2_1.RData")
mytable1<-table(example2_1$态度,example2_1$社区)#制作出态度和社区的频数分布表
bar1<-barplot(mytable1,xlab="社区",ylab="频数",ylim=c(0,16),col=c("red","green"),legend=rownames(mytable1),args.legend=list(x=12),beside=TRUE,main="(a)社区并列条形图")#ylim=c()设定坐标轴取值范围，legend设置图例，args.legend设置图例的位置参数
bar2<-barplot(mytable1,xlab="社区",ylab="频数",ylim=c(0,30),col=c("red","green"),legend=rownames(mytable1),args.legend=list(x=4.8),main="(b)社区堆叠条形图")

x=c(3,4,1,1,3,4,3,3,1,3,2,1,2,1,2,3,2,3,1,1,1,1,4,3,4)
par(mfrow=c(1,2))
d=table(x)
pie(d)

names(d)=c ("东部","中部","西部","东北部") #用文字标识籍贯的分类
pie(d)

pie(d,col=c("purple","green","cyan","white")

    如果位置是整数，四分位数就是该位置对应的数值；如果是在整数加0.5的位置上，则取该位置两侧数值的平均数；如果是在整数加0.25或0.75的位置上，则四分位数等于该位置前面的数值加上按比例分摊的位置两侧数值的差值。

salary=c(2000,2100,2200,2350,2500,2900,3500,3800,2600,3300,3200,4000,4100,3100,4200)

mean(salary) #求均值

median(salary) #求中位数

mode(salary) #求众数

quantile(salary, probs=c(0,25,50,75,100)/100,type=6)  #求分位数数,probs为分位数向量

summary(salary)

salarym=c(salary,20000)
mean(salarym)

median(salarym)

mean(salarym,trim=0.2)

mean(salarym,trim=0.5)

IQR(salarym,type=6)

salary=c(2000,2100,2200,2350,2500,2900,3500,3800,2600,3300,3200,4000,4100,3100,4200)
install.packages("moments")
library(moments)

skewness(salary) [1] 0.117456
kurtosis(salary) [1] 1.683055
该工资数据呈右偏态分布，轻微偏斜；并且数据的分布形态比正态分布的高峰陡峭。
在这里插入图片描述

load("C:ch2/exercise/exercise2_1.RData")
summary(exercise2_1)
d1<-table(exercise2_1$行业)
d1
d2<-table(exercise2_1$性别)
d2
d3<-table(exercise2_1$满意度)
d3

barplot(d1,xlab="行业",ylab="频数",main="(a)垂直条形图")
barplot(d2,xlab="性别",ylab="频数",main="(a)垂直条形图")
barplot(d3,xlab="满意度",ylab="频数",main="(a)垂直条形图")
d4<-table(exercise2_1$满意度,exercise2_1$行业)
d4
bar1<-barplot(d4,xlab="行业",ylab="频数",ylim=c(0,30),col=c("red","green"),legend=rownames(d4),args.legend=list(x=12),beside=TRUE,main="(a)行业并列条形图")

count1<-table(exercise2_1$行业)
name<-names(count1)
name
percent<-prop.table(count1)*100
label1<-paste(name," ",percent,"%",sep=" ")
pie(count1,labels=label1)

count2<-table(exercise2_1$行业)
count2

library(plotrix)
name<-names(count2)
percent<-count2/sum(count2)*100
labs<-paste(name," ",percent,"%",sep="")
fan.plot(count2,labels=labs)

load("C:/example/ch2/exercise/exercise3_1.RData")
mean(exercise3_1$网购金额)

sd(exercise3_1$网购金额)

R<-diff(range(exercise3_1$网购金额));R

quantile(exercise3_1$网购金额,probs=c(0.25,0.5,0.75),type=6)

25%     50%     75%

quantile(exercise3_1$网购金额,probs=c(0.1,0.25,0.5,0.75,0.9),type=6)

10%     25%     50%     75%     90%

install.packages("agricolae")
library(agricolae)
skewness(exercise3_1$网购金额)#偏度系数

kurtosis(exercise3_1$网购金额)#峰度系数，尖峰分布

显示所有内容

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

数据离散频数

文章目录

前言

单变量数据的描述分析

分类型数据

频数表

条形图

饼图

数值型数据

数值型数据

数据的集中趋势–均值

数据的集中趋势–众数

离散程度

离散程度–极差

离散程度–四分位数极差

离散程度–方差

离散程度–加权方差

离散程度–标准差

离散程度–变异系数

数据的形状

数据的形状–偏度

数据的形状–峰度

练习

发表回复取消回复

文章目录

前言

单变量数据的描述分析

分类型数据

频数表

条形图

饼图

数值型数据

数值型数据

数据的集中趋势–均值

数据的集中趋势–众数

离散程度

离散程度–极差

离散程度–四分位数极差

离散程度–方差

离散程度–加权方差

离散程度–标准差

离散程度–变异系数

数据的形状

数据的形状–偏度

数据的形状–峰度

练习

相关文章

发表回复 取消回复

发表回复取消回复