Hw2

#install.packages('dplyr')
#install.packages('ggplot2')
library(dplyr)

## 
## Attaching package: 'dplyr'

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

library(ggplot2)

#read data
data1 <- read.csv('C:/Users/admin/Downloads/titanic.csv', header=T)

#categorize
cus <- data1[data1$class %in% c(1,2,3),]
cre <- data1[!data1$class %in% c(1,2,3),]

#orgnize data
cus <- cus[!cus$fare == 9999,]
cus <- cus[!cus$age == 9999,]
cre <- cre[!cre$age == 9999,]

#dplyr #藉由這個找出四種分區存活率最高的職業
e1 <- filter(cre,cre$class == 'Deck',survival == 1)
e2 <- filter(cre,cre$class == 'Engine',survival == 1)
e3 <- filter(cre,cre$class == 'A la Carte',survival == 1)
e4 <- filter(cre,cre$class == 'Victualling',survival == 1)

#ggplot #發現年齡與票價並沒有關係
ggplot(cus, aes(age,fare)) + geom_point()