年輕人消費時較為衝動,可能造成鉅額卡債,透過不同年齡層的卡費比較,可以看出資料中年輕族群是否花費較高。
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
data <- read.csv("customer.csv", header=T, sep=",")
mutate(data,cardspent+card2spent)
## region gender age edcat jobcat employ income jobsat marital pets_cats
## 1 1 1 20 3 1 0 31 1 0 0
## 2 5 0 22 4 2 0 15 1 0 0
## 3 3 1 67 2 2 16 35 4 1 2
## 4 4 0 23 3 2 0 20 2 1 0
## 5 2 0 26 3 2 1 23 1 1 0
## 6 4 0 64 4 3 22 107 2 0 1
## 7 2 1 52 2 1 10 77 2 0 0
## 8 3 1 44 3 1 11 97 5 1 0
## 9 2 1 66 2 1 15 16 2 0 1
## 10 2 0 47 1 6 19 84 4 0 1
## 11 4 1 59 4 1 8 47 3 0 3
## 12 2 1 33 1 2 4 19 4 1 0
## 13 5 0 44 1 1 12 73 5 0 0
## 14 3 0 58 4 1 3 63 3 0 0
## 15 2 1 72 5 4 27 17 4 1 0
## 16 3 1 66 2 6 31 23 5 1 3
## 17 1 1 57 4 4 24 171 5 1 0
## 18 5 0 63 2 6 29 424 4 1 0
## 19 5 1 28 1 1 4 23 1 1 1
## 20 1 1 78 3 1 10 22 3 0 0
## 21 3 0 61 3 1 4 35 3 1 0
## 22 2 0 70 4 2 2 28 1 1 0
## 23 4 0 61 2 6 18 12 5 0 0
## 24 3 0 37 1 1 2 29 3 0 0
## 25 1 0 39 2 1 5 130 5 1 0
## 26 4 1 73 2 3 28 69 3 1 0
## 27 5 1 26 3 2 0 24 2 1 0
## 28 2 1 24 4 6 1 29 1 0 0
## 29 3 1 77 3 1 26 11 5 0 0
## 30 5 0 36 4 1 3 30 4 0 0
## 31 3 0 55 2 3 23 80 5 0 2
## 32 2 1 60 4 1 13 51 5 1 2
## 33 1 1 59 1 2 4 30 5 1 0
## 34 1 0 28 1 2 1 17 2 1 1
## 35 3 0 53 5 2 11 141 5 1 0
## 36 4 0 36 2 2 5 45 4 0 0
## 37 3 0 47 5 5 17 137 4 1 2
## 38 5 0 75 1 2 2 10 2 0 1
## 39 2 1 49 5 1 3 73 3 1 2
## 40 1 1 59 2 1 15 63 3 0 0
## 41 1 1 55 2 3 10 50 2 1 0
## 42 5 0 25 2 1 1 50 2 0 0
## 43 5 0 78 1 3 30 28 5 1 0
## 44 1 1 48 1 2 2 23 2 0 0
## 45 5 0 47 4 2 1 75 4 1 0
## 46 5 0 75 1 2 11 28 2 1 0
## 47 3 1 43 4 2 4 33 1 1 0
## 48 5 0 45 1 6 15 44 2 1 1
## 49 5 0 21 3 3 0 31 1 0 1
## 50 2 0 53 5 3 19 284 2 0 0
## 51 3 1 30 2 6 8 49 4 0 2
## 52 2 1 58 4 6 18 15 5 0 0
## 53 2 0 35 1 1 5 17 2 1 0
## 54 3 1 48 2 1 14 83 3 1 0
## 55 3 1 57 3 1 8 82 5 0 0
## 56 4 1 61 5 3 11 62 4 1 0
## 57 5 1 56 4 1 6 138 4 1 0
## 58 2 1 29 4 2 1 35 4 1 0
## 59 4 1 68 1 4 36 35 3 1 0
## 60 5 0 22 3 6 0 20 1 1 3
## 61 2 1 46 1 1 5 25 4 0 0
## 62 4 0 24 4 1 0 33 1 1 1
## 63 3 1 78 3 2 18 32 5 1 0
## 64 2 0 73 1 1 31 16 4 1 0
## 65 4 1 26 5 1 0 64 4 0 1
## 66 2 1 44 3 3 7 31 4 0 0
## 67 5 0 30 2 2 1 18 2 1 0
## 68 1 0 44 1 2 9 41 3 0 0
## 69 3 1 21 2 3 1 22 1 1 0
## 70 3 1 62 1 5 31 14 1 1 0
## 71 4 0 33 2 2 4 82 4 1 0
## 72 2 0 65 4 2 7 91 3 0 0
## 73 3 0 38 3 6 10 74 2 1 0
## 74 4 1 34 3 2 3 46 4 0 2
## 75 2 0 78 5 1 13 14 3 1 0
## 76 5 1 47 1 3 17 68 5 0 0
## 77 3 1 60 4 6 22 101 4 1 0
## 78 3 1 61 4 1 7 121 3 1 0
## 79 4 1 77 1 3 23 19 2 0 0
## 80 5 1 21 3 5 0 30 1 1 0
## 81 3 1 31 4 1 1 43 5 0 0
## 82 1 0 74 1 1 26 18 5 0 0
## 83 4 1 27 5 2 0 42 1 1 0
## 84 1 0 64 1 6 36 327 5 1 0
## 85 5 0 72 4 1 9 30 4 1 0
## 86 4 0 66 3 1 21 96 5 1 0
## 87 3 0 55 3 5 29 143 3 0 0
## 88 5 1 20 3 2 0 25 2 0 0
## 89 3 0 59 4 2 7 68 4 0 0
## 90 3 1 69 1 1 16 78 5 1 1
## 91 4 1 48 4 3 9 70 1 1 0
## 92 1 0 60 2 6 23 101 4 0 0
## 93 2 1 42 4 2 2 36 2 1 0
## 94 5 1 35 4 2 2 65 1 1 0
## 95 3 0 24 1 2 1 20 1 0 1
## 96 1 1 25 4 6 0 40 1 1 0
## 97 3 0 79 3 6 42 58 3 0 0
## 98 1 1 20 3 2 0 27 3 1 0
## 99 5 1 27 4 6 2 48 1 1 0
## 100 1 0 53 2 1 13 99 2 0 0
## pets_dogs pets_birds pets_small pets_saltfish pets_freshfish homeown
## 1 0 0 0 0 0 0
## 2 0 0 0 0 6 1
## 3 1 0 0 0 0 1
## 4 0 0 0 0 0 1
## 5 0 0 0 0 0 0
## 6 1 0 2 0 7 1
## 7 2 0 0 0 0 0
## 8 2 0 0 0 8 1
## 9 0 0 0 0 0 1
## 10 0 0 0 0 0 1
## 11 0 0 0 0 4 0
## 12 0 0 0 0 6 0
## 13 1 0 0 0 0 1
## 14 0 0 0 0 0 1
## 15 0 0 0 0 0 1
## 16 0 0 0 0 6 0
## 17 1 0 0 0 0 1
## 18 0 0 0 0 0 1
## 19 0 0 0 0 9 1
## 20 0 0 0 0 0 0
## 21 0 0 0 0 0 0
## 22 0 1 0 0 8 0
## 23 0 0 0 0 0 1
## 24 0 0 0 0 0 0
## 25 0 0 0 0 5 1
## 26 0 0 0 0 0 0
## 27 1 0 0 0 0 0
## 28 1 0 0 0 11 1
## 29 2 0 0 0 0 1
## 30 0 0 0 0 7 1
## 31 0 0 0 0 7 1
## 32 0 0 0 0 0 0
## 33 1 0 0 0 0 0
## 34 0 0 0 0 0 0
## 35 1 0 0 0 0 1
## 36 0 3 0 0 0 0
## 37 0 0 0 0 0 1
## 38 0 0 0 0 0 0
## 39 0 0 0 0 11 1
## 40 0 0 0 0 0 0
## 41 0 0 0 0 0 1
## 42 1 0 0 0 0 0
## 43 0 0 0 0 9 0
## 44 0 0 0 0 7 1
## 45 0 0 0 0 6 0
## 46 0 0 0 0 0 1
## 47 0 0 0 0 5 1
## 48 0 0 0 0 0 1
## 49 0 0 0 0 3 0
## 50 0 2 0 0 0 1
## 51 0 0 0 0 0 1
## 52 0 0 0 0 4 0
## 53 0 0 0 0 4 1
## 54 1 0 0 0 6 1
## 55 0 0 0 0 0 1
## 56 2 0 0 0 0 1
## 57 0 0 0 0 0 0
## 58 0 0 0 0 0 0
## 59 0 0 0 0 0 0
## 60 0 0 0 0 0 0
## 61 0 0 0 0 6 0
## 62 0 0 0 0 0 1
## 63 0 0 0 0 9 0
## 64 0 0 5 0 0 0
## 65 1 0 0 0 0 0
## 66 0 0 0 0 12 0
## 67 0 0 0 0 0 0
## 68 0 0 0 0 0 0
## 69 0 0 0 0 0 1
## 70 1 0 2 0 0 1
## 71 0 0 0 0 5 1
## 72 0 0 0 0 0 1
## 73 0 0 0 0 0 1
## 74 0 0 0 0 0 1
## 75 0 0 0 0 4 1
## 76 0 0 0 0 0 1
## 77 1 1 0 0 0 0
## 78 2 3 0 0 0 1
## 79 0 0 0 0 8 0
## 80 0 0 0 0 0 1
## 81 0 0 0 0 4 0
## 82 0 0 0 0 7 0
## 83 2 0 0 0 0 0
## 84 0 0 0 0 0 0
## 85 0 0 3 0 0 1
## 86 0 0 0 0 0 1
## 87 0 0 0 0 0 1
## 88 0 0 0 0 0 0
## 89 0 0 0 0 0 0
## 90 1 0 0 0 0 0
## 91 0 3 0 0 8 1
## 92 0 0 0 0 6 1
## 93 0 0 0 0 0 0
## 94 2 0 0 0 0 1
## 95 0 0 0 0 0 0
## 96 0 0 0 0 0 0
## 97 1 0 0 0 8 1
## 98 0 0 0 0 3 1
## 99 0 0 0 0 0 1
## 100 0 1 0 0 0 0
## cardspent card2spent cardspent + card2spent
## 1 81.66 67.80 149.46
## 2 42.60 34.94 77.54
## 3 184.22 175.75 359.97
## 4 340.99 18.42 359.41
## 5 255.10 252.73 507.83
## 6 228.27 0.00 228.27
## 7 822.32 130.14 952.46
## 8 592.70 712.10 1304.80
## 9 326.59 141.24 467.83
## 10 199.64 111.17 310.81
## 11 488.97 322.07 811.04
## 12 338.26 55.17 393.43
## 13 534.36 198.39 732.75
## 14 593.50 384.94 978.44
## 15 233.17 39.93 273.10
## 16 297.47 98.65 396.12
## 17 305.94 96.23 402.17
## 18 495.75 798.31 1294.06
## 19 442.09 144.69 586.78
## 20 8.11 0.00 8.11
## 21 271.98 240.38 512.36
## 22 267.71 79.54 347.25
## 23 245.03 63.63 308.66
## 24 556.61 187.47 744.08
## 25 453.74 245.14 698.88
## 26 212.67 80.44 293.11
## 27 447.67 101.00 548.67
## 28 279.95 24.55 304.50
## 29 194.95 107.06 302.01
## 30 300.97 178.90 479.87
## 31 394.02 71.41 465.43
## 32 112.47 44.52 156.99
## 33 342.17 101.97 444.14
## 34 381.14 73.22 454.36
## 35 445.90 198.77 644.67
## 36 461.15 305.70 766.85
## 37 416.12 558.23 974.35
## 38 197.27 65.47 262.74
## 39 78.22 21.39 99.61
## 40 283.59 155.47 439.06
## 41 501.11 63.31 564.42
## 42 391.97 166.43 558.40
## 43 163.72 227.41 391.13
## 44 268.09 83.11 351.20
## 45 333.68 136.67 470.35
## 46 453.52 163.55 617.07
## 47 272.44 253.58 526.02
## 48 283.72 54.74 338.46
## 49 196.56 89.20 285.76
## 50 1010.34 285.59 1295.93
## 51 221.56 133.45 355.01
## 52 65.08 57.70 122.78
## 53 192.19 153.43 345.62
## 54 220.46 73.36 293.82
## 55 371.81 100.91 472.72
## 56 415.80 378.38 794.18
## 57 693.80 325.96 1019.76
## 58 363.00 344.38 707.38
## 59 145.59 313.28 458.87
## 60 482.30 110.53 592.83
## 61 138.95 108.01 246.96
## 62 188.52 96.12 284.64
## 63 176.20 120.60 296.80
## 64 303.73 67.22 370.95
## 65 410.78 109.96 520.74
## 66 420.48 364.58 785.06
## 67 263.55 105.02 368.57
## 68 321.19 110.03 431.22
## 69 461.03 174.36 635.39
## 70 79.75 15.58 95.33
## 71 328.19 145.98 474.17
## 72 451.73 90.42 542.15
## 73 748.95 164.71 913.66
## 74 141.63 83.39 225.02
## 75 242.81 171.27 414.08
## 76 528.81 306.53 835.34
## 77 1260.83 400.61 1661.44
## 78 296.33 78.97 375.30
## 79 91.40 17.05 108.45
## 80 545.92 211.87 757.79
## 81 308.96 69.09 378.05
## 82 241.67 157.61 399.28
## 83 388.44 61.86 450.30
## 84 784.81 121.16 905.97
## 85 88.78 14.97 103.75
## 86 420.63 183.13 603.76
## 87 995.50 636.02 1631.52
## 88 99.34 109.84 209.18
## 89 602.67 236.47 839.14
## 90 364.94 138.22 503.16
## 91 154.14 0.00 154.14
## 92 1053.82 658.42 1712.24
## 93 138.21 168.15 306.36
## 94 413.81 175.65 589.46
## 95 214.75 138.39 353.14
## 96 588.16 301.63 889.79
## 97 308.65 231.70 540.35
## 98 358.42 24.92 383.34
## 99 433.24 74.66 507.90
## 100 727.75 244.32 972.07
data <-data%>%
mutate(spendtotal = cardspent+card2spent)
以每400元做為花費的區間,每10歲一個區間
data$spendtotal<- cut(data$spendtotal, seq(0,2000,400))
require(ggplot2)
## Loading required package: ggplot2
qplot(x=age,data=data,geom = "histogram",main = "histogram of spendtotal",xlab="age(years-old)",binwidth=10,fill=spendtotal
)
分析結果: 從圖表中可以看出比較高的消費金額在5060歲之間,2030歲和70~80歲所花費的金額較少,可見與預測的結果不符,年輕人的消費金額沒有較其他年齡層多。
通常教育程度高,薪資也相對較高,透過圖表,可以以看出是否資料與此情況相符。
data3<-select(data,edcat,income)
boxplot(formula=income~edcat,data=data3,
xlab="edcat",
ylab="income",
color="lightblue")
分析結果: 以盒狀圖來看,教育程度為5的整體收入分布較高,而教育程度為1的整體收入較低,除了教育程度為2的收入表現較突出,其餘的大致上隨著教育程度升高,有更高的收入。
3.年紀和地區的關係
每個地區年齡分布不同,想藉由圖表看出是否有高齡化問題及各地區年齡層分布。
data4<-data%>%select(region,age)
data4$region<-as.factor(data4$region)
require(ggplot2)
canvas<-ggplot(data=data4)
canvas+geom_histogram(aes(x=age,fill=region))+facet_grid(.~region)+theme_bw()
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
分析結果: 除了3號地區,各地區高齡化的現象都不明顯,而又以5號地區的人口分佈最為年輕,有好的生產力助於產業發展,1、2、4號地區在未來可能也會有高齡化的現象產生。