台灣旅遊分析

套件安裝

library(NLP)
library(tm)
library(tmcn)
## # tmcn Version: 0.1-4
Sys.setenv(JAVA_HOME="C:/Program Files/Java/jdk-9.0.1/")
library(rJava)
library(SnowballC)
library(slam)
library(Matrix)
library(jiebaRD)
library(jiebaR)
library(plotly)
## Loading required package: ggplot2
## 
## Attaching package: 'ggplot2'
## The following object is masked from 'package:NLP':
## 
##     annotate
## 
## Attaching package: 'plotly'
## The following object is masked from 'package:ggplot2':
## 
##     last_plot
## The following object is masked from 'package:stats':
## 
##     filter
## The following object is masked from 'package:graphics':
## 
##     layout
library(stats)
library(scales)
library(grid)
library(ggplot2)
library(ggbiplot)
## Loading required package: plyr
## 
## Attaching package: 'plyr'
## The following objects are masked from 'package:plotly':
## 
##     arrange, mutate, rename, summarise
library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:plyr':
## 
##     arrange, count, desc, failwith, id, mutate, rename, summarise,
##     summarize
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

讀取文本

setwd("C:/Users/angel/Desktop/github/HW4")
filenames <- list.files(getwd(), pattern="*a.txt")
files <- lapply(filenames, readLines)
docs <- Corpus(VectorSource(files))

文本清理與斷字

toSpace <- content_transformer(function(x, pattern) {
  return (gsub(pattern, " ", x))
}
)
docs <- tm_map(docs, removePunctuation)
docs <- tm_map(docs, removeNumbers)
docs <- tm_map(docs, stripWhitespace)
mixseg = worker()
jieba_tokenizer=function(d){
  unlist(segment(d[[1]],mixseg))
}
seg = lapply(docs, jieba_tokenizer)
d.corpus <- Corpus(VectorSource(seg))

計算tf-idf

tdm <- TermDocumentMatrix(d.corpus, 
                          control = list(wordLengths = c(2, Inf)))
N = tdm$ncol
tf <- apply(tdm, 2, sum)
idfCal <- function(word_doc)
{ 
  log2( N / nnzero(word_doc) ) 
}
idf <- apply(tdm, 1, idfCal)


doc.tfidf <- as.matrix(tdm)
for(x in 1:nrow(tdm))
{
  for(y in 1:ncol(tdm))
  {
    doc.tfidf[x,y] <- (doc.tfidf[x,y] / tf[y]) * idf[x]
  }
}

找出基隆的特色

ass = findAssocs(tdm, "基隆", 0.93)
ass
## $基隆
##     九份   金瓜石     代購     纜車  animate chatroom  checkin     dntd 
##     0.98     0.97     0.94     0.94     0.94     0.94     0.94     0.94 
## facebook     fake   handle     imax    latte    local     mode     nice 
##     0.94     0.94     0.94     0.94     0.94     0.94     0.94     0.94 
##  nonstop      ntd     post    print      set     uber       uc     七張 
##     0.94     0.94     0.94     0.94     0.94     0.94     0.94     0.94 
##     七幫   二二八   二高圖   人生路     人買     人龍     人講     入場 
##     0.94     0.94     0.94     0.94     0.94     0.94     0.94     0.94 
##     十份 十多分鐘 十多\xa6     十數 十餘分鐘   三\xa5     三張   下著雨 
##     0.94     0.94     0.94     0.94     0.94     0.94     0.94     0.94 
##   下意識     上並     上機     上貓   上貓空     上變 千與千尋     口語 
##     0.94     0.94     0.94     0.94     0.94     0.94     0.94     0.94 
##   大三巴   大本營   大\xac     大個   小七要 小七拿博   小七買   小\xa5 
##     0.94     0.94     0.94     0.94     0.94     0.94     0.94     0.94 
##     已買   不小心     不早   不足以     不得     不提   不\xb6 不進則退 
##     0.94     0.94     0.94     0.94     0.94     0.94     0.94     0.94 
##     不慎     不闊     中上   中千算     中學   之餘還     井底     五條 
##     0.94     0.94     0.94     0.94     0.94     0.94     0.94     0.94 
##     仍能       今   內的貓     六獎     公休     公佈     分來   切順利 
##     0.94     0.94     0.94     0.94     0.94     0.94     0.94     0.94 
##     升學     升讀     反光     天內   天未入     天雨   天雨路     天暗 
##     0.94     0.94     0.94     0.94     0.94     0.94     0.94     0.94 
##     太空     太短     太遠   太\xbf     少人   少之餘     少去     少到 
##     0.94     0.94     0.94     0.94     0.94     0.94     0.94     0.94 
##     少量       巴     心動     心機     文字     文說   日喀則   欠\xa9 
##     0.94     0.94     0.94     0.94     0.94     0.94     0.94     0.94 
##     止蝕   毛毛雨     毛毯     主角   以\xa6     以貓     充值     出站 
##     0.94     0.94     0.94     0.94     0.94     0.94     0.94     0.94 
##     出售     半暗     可控     可賣     右算   台版輕     左算     市街 
##     0.94     0.94     0.94     0.94     0.94     0.94     0.94     0.94 
##     平面     平淡 打道\xa6     打爆   正\xa6 正合我意       甘     生疏 
##     0.94     0.94     0.94     0.94     0.94     0.94     0.94     0.94 
##     生鏽     用處     用腦     由此     矛盾     立得     交大   交\xa6 
##     0.94     0.94     0.94     0.94     0.94     0.94     0.94     0.94 
##     亦然       休     先坐     再下     再出   再貴個     再過     再漫 
##     0.94     0.94     0.94     0.94     0.94     0.94     0.94     0.94 
##     危機 各有特色   向前走   吃不完     吃個     地去     地為     地域 
##     0.94     0.94     0.94     0.94     0.94     0.94     0.94     0.94 
##   地細味     地買     地幫     在博     多人     多前   好後先 如出\xa4 
##     0.94     0.94     0.94     0.94     0.94     0.94     0.94     0.94 
##   如既往   尖沙咀 忙中有錯     收尾     收攤 有所不同     有限     次要 
##     0.94     0.94     0.94     0.94     0.94     0.94     0.94     0.94 
##       江   老\xa5     老是   自\xa7 自我感覺     自受 自然而然     自買 
##     0.94     0.94     0.94     0.94     0.94     0.94     0.94     0.94 
##     自傳   行李袋     行裝     但本     坐上     坐過     完片   完台東 
##     0.94     0.94     0.94     0.94     0.94     0.94     0.94     0.94 
##   完後對   志\xc4     快步   我在博     我帶     扶手     批鬥   更\xa4 
##     0.94     0.94     0.94     0.94     0.94     0.94     0.94     0.94 
##   沉甸甸 沒有勇氣     見鬼   豆漿店     走動     走樣   身分證   車\xa4 
##     0.94     0.94     0.94     0.94     0.94     0.94     0.94     0.94 
##     車時     車票     那張     那間     事是     事省     享住     來亂 
##     0.94     0.94     0.94     0.94     0.94     0.94     0.94     0.94 
##   兩碼子       刷     到過     取貨     周家     屆時     店主   店主人 
##     0.94     0.94     0.94     0.94     0.94     0.94     0.94     0.94 
##     店裏       府     底子 往誠\xab 或多或少   房間內     拍卡   拍\xa6 
##     0.94     0.94     0.94     0.94     0.94     0.94     0.94     0.94 
##     抱住     抱持     拘束     拖行     拖拉     拖掉     拆橋     放得 
##     0.94     0.94     0.94     0.94     0.94     0.94     0.94     0.94 
##     放過   放\xba     昂坪     東東   板樟堂 河小七買     波浪   爬下去 
##     0.94     0.94     0.94     0.94     0.94     0.94     0.94     0.94 
##     的並     的頭     直播     知有   空間感       肯   花太多       邸 
##     0.94     0.94     0.94     0.94     0.94     0.94     0.94     0.94 
##   門\xa5     阿毛     雨勢     雨照   非典型     信仰     便條       威 
##     0.94     0.94     0.94     0.94     0.94     0.94     0.94     0.94 
##     巷道     很亂     後坐     急促     括號   挑\xb0 政治立場 星期\xa4 
##     0.94     0.94     0.94     0.94     0.94     0.94     0.94     0.94 
##     流失   為雨港     省卻     相近   看不見     看板   看得懂     科目 
##     0.94     0.94     0.94     0.94     0.94     0.94     0.94     0.94 
##     科普 科普知識   突\xaf 紀念\xc0     若然   要不然     要命     要說 
##     0.94     0.94     0.94     0.94     0.94     0.94     0.94     0.94 
##     要轉     重到     食堂     個手     剛買       唔 哪些方面   差\xa4 
##     0.94     0.94     0.94     0.94     0.94     0.94     0.94     0.94 
##     恥力   悄悄話       挨   旅行團   旅\xa9     旅得   時大時   時\xa6 
##     0.94     0.94     0.94     0.94     0.94     0.94     0.94     0.94 
##   時間段       晃   書面語 根本就是     栗子     格局     桃捷     桃機 
##     0.94     0.94     0.94     0.94     0.94     0.94     0.94     0.94 
##     留到   真有夠       窄   納木錯   般而言     草草     茶味     記錯 
##     0.94     0.94     0.94     0.94     0.94     0.94     0.94     0.94 
##     退步     逃票   馬賽克     停止   做\xa7   側重點     偷拍     偏偏 
##     0.94     0.94     0.94     0.94     0.94     0.94     0.94     0.94 
##     匿名     區吧     商場     啡店     問有     問完     問過       寄 
##     0.94     0.94     0.94     0.94     0.94     0.94     0.94     0.94 
## 專家學者     帶去   帶\xac     強行     強調     得出     從而   從來不 
##     0.94     0.94     0.94     0.94     0.94     0.94     0.94     0.94 
## 悠哉悠哉     掩面     推銷   排\xa5     教材     晚飯     望海     梯級 
##     0.94     0.94     0.94     0.94     0.94     0.94     0.94     0.94 
##     清爽   票卡痴   粗略地     絆到     細緻   累乾衣     袋裝     規模 
##     0.94     0.94     0.94     0.94     0.94     0.94     0.94     0.94 
##     訪問     這坐     通宵     連機   都還沒     釣到   陰陰的   雪\xbf 
##     0.94     0.94     0.94     0.94     0.94     0.94     0.94     0.94 
##     備審     最少     最狂     最爽     最短       勞       單   單\xb5 
##     0.94     0.94     0.94     0.94     0.94     0.94     0.94     0.94 
##     報銷     就位     就當     幾人   幾本書     悲慘     揣測     揮春 
##     0.94     0.94     0.94     0.94     0.94     0.94     0.94     0.94 
##     換位   敦南店     斯人   普通話   朝九晚     欺騙     港澳 無可避免 
##     0.94     0.94     0.94     0.94     0.94     0.94     0.94     0.94 
## 無所事事     無雨   無\xb8   無論是 登高望遠     登機       睏     窗台 
##     0.94     0.94     0.94     0.94     0.94     0.94     0.94     0.94 
##     結論     絕少     菁桐     華人     菲籍   街買咀     視為     象山 
##     0.94     0.94     0.94     0.94     0.94     0.94     0.94     0.94 
##     買票     買買     週末     進站     集齊     傳單     僅分     僅站 
##     0.94     0.94     0.94     0.94     0.94     0.94     0.94     0.94 
##   催\xa5     填飽     微雨     意力     意見     意境   想\xa4     想盡 
##     0.94     0.94     0.94     0.94     0.94     0.94     0.94     0.94 
##   搭車到   新台幣   新\xa6     極低   概不理   概而論     照樣     煞車 
##     0.94     0.94     0.94     0.94     0.94     0.94     0.94     0.94 
##   當事人     萬算     腦內     補完     裝滿     解讀     該講     試運 
##     0.94     0.94     0.94     0.94     0.94     0.94     0.94     0.94 
## 話雖如此     跟上     跟團     跨欄     跳脫     運費     遊人     遊不 
##     0.94     0.94     0.94     0.94     0.94     0.94     0.94     0.94 
##     遊個     過關 預先安排     預知     團坐     實地     對立     對此 
##     0.94     0.94     0.94     0.94     0.94     0.94     0.94     0.94 
## 截然不同     漫行   漫畫店     漫遊     盡力     端點     管束   算\xba 
##     0.94     0.94     0.94     0.94     0.94     0.94     0.94     0.94 
##     綜合     語音   說不上   說白了     趕到     趕得 輕輕鬆鬆     遞交 
##     0.94     0.94     0.94     0.94     0.94     0.94     0.94     0.94 
##     需時   增\xb6     寫給     彈性       撩     暴衝   標\xba     磅重 
##     0.94     0.94     0.94     0.94     0.94     0.94     0.94     0.94 
##     膠囊     衝出     請求     課題     賭場     質量       輛     遮眼 
##     0.94     0.94     0.94     0.94     0.94     0.94     0.94     0.94 
##     鋒利       養     墨水     學到     整條 整理行裝     機到     機就 
##     0.94     0.94     0.94     0.94     0.94     0.94     0.94     0.94 
##   歷史課   澳門幣     燙傷 獨立自主     衡量 親身經歷       貓     貓使 
##     0.94     0.94     0.94     0.94     0.94     0.94     0.94     0.94 
##     貓空     貓纜     輸蝕     錯車     鴨舌       擠       檔     繁體 
##     0.94     0.94     0.94     0.94     0.94     0.94     0.94     0.94 
## 聯招\xb7     豁達     還能     邂逅     隱性     簡體     舊道     離場 
##     0.94     0.94     0.94     0.94     0.94     0.94     0.94     0.94 
##     離題     瀟灑     爆死     勸說     議事       譯     飄雨     攝手 
##     0.94     0.94     0.94     0.94     0.94     0.94     0.94     0.94 
## 露宿街頭       顧     攤分     權利   聽著歌     聽聞   驚\xc0     攬客 
##     0.94     0.94     0.94     0.94     0.94     0.94     0.94     0.94 
##       咭       蹓 
##     0.94     0.94

相關係數最高的是九份和金瓜石,兩者皆是基隆附近熱門的旅遊景點

計算文章相似度

nonzero = (doc.tfidf != rep(0,10))
nonzeroid = which(row_sums(nonzero) != 0)
q <- rownames(doc.tfidf[nonzeroid,])
all.term <- rownames(doc.tfidf)
loc <- which(all.term %in% q)
s.tdm <- doc.tfidf[loc,]
cos.sim <- function(x, y)
{ 
  (as.vector(x) %*% as.vector(y)) / (norm(as.matrix(x)) * norm(y)) 
}
doc.cos <- cos.sim(x=as.matrix(s.tdm[,1]), 
                   y=as.matrix(s.tdm[,2]))
doc.cos <- apply(s.tdm[,2:60], 2, cos.sim,
                 y=as.matrix(s.tdm[,1]))
orderDoc <- doc.cos[order(doc.cos, decreasing = TRUE)]
plot_ly(data = as.data.frame(orderDoc),
        x = rownames(as.data.frame(orderDoc)),
        y = orderDoc, 
        type = "bar")

實際查閱與第一篇文章相似度較高的幾篇文章,發現皆為與鐵路旅遊相關的文章

將文章按月份分類

df = data.frame(text = content(docs),
                filenames = filenames)
df = df%>% mutate(month=substr(filenames,5,6))
organize = function(x){
  write.table(df%>%filter(month==x),paste0(x,"m.txt"))
}
lapply(paste0("0",1:9),organize)
lapply(10:12,organize)
filenames <- list.files(getwd(), pattern="*m.txt")
files <- lapply(filenames, readLines)
docs <- Corpus(VectorSource(files))
toSpace <- content_transformer(function(x, pattern) {
  return (gsub(pattern, " ", x))
}
)
docs <- tm_map(docs, removePunctuation)
docs <- tm_map(docs, removeNumbers)
docs <- tm_map(docs, stripWhitespace)
mixseg = worker()
jieba_tokenizer=function(d){
  unlist(segment(d[[1]],mixseg))
}
seg = lapply(docs, jieba_tokenizer)
d.corpus <- Corpus(VectorSource(seg))
tdm <- TermDocumentMatrix(d.corpus, 
                          control = list(wordLengths = c(2, Inf)))
N = tdm$ncol
tf <- apply(tdm, 2, sum)
idfCal <- function(word_doc)
{ 
  log2( N / nnzero(word_doc) ) 
}
idf <- apply(tdm, 1, idfCal)


doc.tfidf2 <- as.matrix(tdm)
for(x in 1:nrow(tdm))
{
  for(y in 1:ncol(tdm))
  {
    doc.tfidf2[x,y] <- (doc.tfidf2[x,y] / tf[y]) * idf[x]
  }
}

找出出現頻率較高的詞

result = findFreqTerms(tdm, 20)
result
##   [1] "atxt"                                       
##   [2] "cx"                                         
##   [3] "httpswwwbackpackerscomtwforumshowthreadphpt"
##   [4] "tttt"                                       
##   [5] "ufb"                                        
##   [6] "了"                                         
##   [7] "人"                                         
##   [8] "人生"                                       
##   [9] "又"                                         
##  [10] "下"                                         
##  [11] "下午"                                       
##  [12] "下車"                                       
##  [13] "上"                                         
##  [14] "大"                                         
##  [15] "大家"                                       
##  [16] "大概"                                       
##  [17] "小"                                         
##  [18] "小時"                                       
##  [19] "山"                                         
##  [20] "已"                                         
##  [21] "已經"                                       
##  [22] "不"                                         
##  [23] "不同"                                       
##  [24] "不到"                                       
##  [25] "不是"                                       
##  [26] "不要"                                       
##  [27] "不能"                                       
##  [28] "不\xb7"                                     
##  [29] "不過"                                       
##  [30] "不管"                                       
##  [31] "不錯"                                       
##  [32] "中"                                         
##  [33] "之"                                         
##  [34] "之\xa5"                                     
##  [35] "之前"                                       
##  [36] "之後"                                       
##  [37] "之旅"                                       
##  [38] "什麼"                                       
##  [39] "仍"                                         
##  [40] "介紹"                                       
##  [41] "內"                                         
##  [42] "分享"                                       
##  [43] "切"                                         
##  [44] "天"                                         
##  [45] "太"                                         
##  [46] "太平洋"                                     
##  [47] "方式"                                       
##  [48] "日"                                         
##  [49] "日出"                                       
##  [50] "日本"                                       
##  [51] "月"                                         
##  [52] "比"                                         
##  [53] "比較"                                       
##  [54] "火車"                                       
##  [55] "主人"                                       
##  [56] "以"                                         
##  [57] "以前"                                       
##  [58] "他"                                         
##  [59] "他們"                                       
##  [60] "出"                                         
##  [61] "出去"                                       
##  [62] "出來"                                       
##  [63] "出發"                                       
##  [64] "去"                                         
##  [65] "可"                                         
##  [66] "可以"                                       
##  [67] "可是"                                       
##  [68] "可能"                                       
##  [69] "另\xa5"                                     
##  [70] "只"                                         
##  [71] "只是"                                       
##  [72] "只能"                                       
##  [73] "台"                                         
##  [74] "台\xa5"                                     
##  [75] "台東"                                       
##  [76] "台南"                                       
##  [77] "台灣"                                       
##  [78] "它"                                         
##  [79] "打算"                                       
##  [80] "本來"                                       
##  [81] "生活"                                       
##  [82] "用"                                         
##  [83] "任何"                                       
##  [84] "光"                                         
##  [85] "再"                                         
##  [86] "列車"                                       
##  [87] "同時"                                       
##  [88] "向"                                         
##  [89] "吃"                                         
##  [90] "地"                                         
##  [91] "地方"                                       
##  [92] "在"                                         
##  [93] "多"                                         
##  [94] "好"                                         
##  [95] "好文"                                       
##  [96] "好好"                                       
##  [97] "好像"                                       
##  [98] "她"                                         
##  [99] "如此"                                       
## [100] "如果"                                       
## [101] "早"                                         
## [102] "早上"                                       
## [103] "有"                                         
## [104] "有人"                                       
## [105] "有些"                                       
## [106] "有點"                                       
## [107] "次"                                         
## [108] "此"                                         
## [109] "而"                                         
## [110] "而且"                                       
## [111] "而言"                                       
## [112] "自己"                                       
## [113] "自助"                                       
## [114] "自然"                                       
## [115] "至少"                                       
## [116] "住"                                         
## [117] "住宿"                                       
## [118] "但"                                         
## [119] "但是"                                       
## [120] "你"                                         
## [121] "吧"                                         
## [122] "呀"                                         
## [123] "坐"                                         
## [124] "完"                                         
## [125] "完全"                                       
## [126] "我"                                         
## [127] "我們"                                       
## [128] "把"                                         
## [129] "找"                                         
## [130] "更"                                         
## [131] "步"                                         
## [132] "步道"                                       
## [133] "每"                                         
## [134] "每個"                                       
## [135] "決定"                                       
## [136] "沒"                                         
## [137] "沒有"                                       
## [138] "走"                                         
## [139] "車"                                         
## [140] "車站"                                       
## [141] "那"                                         
## [142] "那個"                                       
## [143] "那麼"                                       
## [144] "那邊"                                       
## [145] "事"                                         
## [146] "些"                                         
## [147] "享受"                                       
## [148] "來"                                         
## [149] "來到"                                       
## [150] "來說"                                       
## [151] "兩個"                                       
## [152] "其他"                                       
## [153] "其實"                                       
## [154] "到"                                         
## [155] "到底"                                       
## [156] "到達"                                       
## [157] "和"                                         
## [158] "呢"                                         
## [159] "始"                                         
## [160] "定"                                         
## [161] "往"                                         
## [162] "或"                                         
## [163] "或是"                                       
## [164] "所"                                         
## [165] "所以"                                       
## [166] "所有"                                       
## [167] "拍"                                         
## [168] "拍照"                                       
## [169] "抵達"                                       
## [170] "於"                                         
## [171] "於是"                                       
## [172] "朋友"                                       
## [173] "枋寮"                                       
## [174] "東引"                                       
## [175] "東西"                                       
## [176] "欣賞"                                       
## [177] "玩"                                         
## [178] "的"                                         
## [179] "的話"                                       
## [180] "直"                                         
## [181] "知道"                                       
## [182] "空間"                                       
## [183] "阿里山"                                     
## [184] "附近"                                       
## [185] "非\xb1"                                     
## [186] "前"                                         
## [187] "南迴鐵路"                                   
## [188] "卻"                                         
## [189] "客棧"                                       
## [190] "度"                                         
## [191] "建議"                                       
## [192] "很"                                         
## [193] "很多"                                       
## [194] "後"                                         
## [195] "後來"                                       
## [196] "故事"                                       
## [197] "是"                                         
## [198] "段"                                         
## [199] "為"                                         
## [200] "甚至"                                       
## [201] "看"                                         
## [202] "看見"                                       
## [203] "看到"                                       
## [204] "看看"                                       
## [205] "突然"                                       
## [206] "美"                                         
## [207] "美好"                                       
## [208] "美景"                                       
## [209] "美麗"                                       
## [210] "背\xa5"                                     
## [211] "若"                                         
## [212] "要"                                         
## [213] "風景"                                       
## [214] "個"                                         
## [215] "原文"                                       
## [216] "原來"                                       
## [217] "家"                                         
## [218] "座"                                         
## [219] "旁"                                         
## [220] "旅行"                                       
## [221] "旅遊"                                       
## [222] "時"                                         
## [223] "時候"                                       
## [224] "時間"                                       
## [225] "海洋"                                       
## [226] "海邊"                                       
## [227] "特別"                                       
## [228] "真的"                                       
## [229] "真是"                                       
## [230] "站"                                         
## [231] "能"                                         
## [232] "般"                                         
## [233] "記得"                                       
## [234] "除了"                                       
## [235] "做"                                         
## [236] "啊"                                         
## [237] "基隆"                                       
## [238] "帶"                                         
## [239] "得"                                         
## [240] "從"                                         
## [241] "晚"                                         
## [242] "晚上"                                       
## [243] "第\xa4"                                     
## [244] "終於"                                       
## [245] "處"                                         
## [246] "被"                                         
## [247] "規劃"                                       
## [248] "這"                                         
## [249] "這次"                                       
## [250] "這些"                                       
## [251] "這是"                                       
## [252] "這個"                                       
## [253] "這裡"                                       
## [254] "這種"                                       
## [255] "這麼"                                       
## [256] "這樣"                                       
## [257] "部落"                                       
## [258] "都"                                         
## [259] "最"                                         
## [260] "最後"                                       
## [261] "博物\xc0"                                   
## [262] "喜歡"                                       
## [263] "就"                                         
## [264] "就是"                                       
## [265] "幾乎"                                       
## [266] "提供"                                       
## [267] "曾經"                                       
## [268] "棧"                                         
## [269] "湖"                                         
## [270] "無"                                         
## [271] "然而"                                       
## [272] "然後"                                       
## [273] "發\xb2"                                     
## [274] "等"                                         
## [275] "等等"                                       
## [276] "結果"                                       
## [277] "著"                                         
## [278] "間"                                         
## [279] "嗎"                                         
## [280] "意"                                         
## [281] "感受"                                       
## [282] "感覺"                                       
## [283] "想"                                         
## [284] "想到"                                       
## [285] "想要"                                       
## [286] "想\xb0"                                     
## [287] "搭"                                         
## [288] "搭乘"                                       
## [289] "溫泉"                                       
## [290] "準備"                                       
## [291] "照片"                                       
## [292] "當然"                                       
## [293] "經過"                                       
## [294] "裡"                                         
## [295] "該"                                         
## [296] "資訊"                                       
## [297] "跟"                                         
## [298] "路"                                         
## [299] "路上"                                       
## [300] "載於"                                       
## [301] "道"                                         
## [302] "遇到"                                       
## [303] "過"                                         
## [304] "像"                                         
## [305] "嘉義"                                       
## [306] "實在"                                       
## [307] "對"                                         
## [308] "對於"                                       
## [309] "慢慢"                                       
## [310] "睡"                                         
## [311] "種"                                         
## [312] "算"                                         
## [313] "與"                                         
## [314] "說"                                         
## [315] "需要"                                       
## [316] "寫"                                         
## [317] "樣"                                         
## [318] "篇文章"                                     
## [319] "編輯"                                       
## [320] "請"                                         
## [321] "論壇"                                       
## [322] "墾丁"                                       
## [323] "整個"                                       
## [324] "機車"                                       
## [325] "機\xb7"                                     
## [326] "選擇"                                       
## [327] "隧道"                                       
## [328] "應該"                                       
## [329] "營\xb7"                                     
## [330] "環島"                                       
## [331] "環境"                                       
## [332] "還"                                         
## [333] "還有"                                       
## [334] "還是"                                       
## [335] "還要"                                       
## [336] "雖然"                                       
## [337] "點"                                         
## [338] "簡單"                                       
## [339] "離\xb6"                                     
## [340] "識"                                         
## [341] "邊"                                         
## [342] "覺"                                         
## [343] "覺得"                                       
## [344] "櫻花"                                       
## [345] "鐵路"                                       
## [346] "鐵道"                                       
## [347] "聽"                                         
## [348] "讀"                                         
## [349] "體驗"                                       
## [350] "讓"                                         
## [351] "八斗子"                                     
## [352] "下次"                                       
## [353] "子"                                         
## [354] "小\xaf"                                     
## [355] "工\xa7"                                     
## [356] "不用"                                       
## [357] "不\xc2"                                     
## [358] "今天"                                       
## [359] "元"                                         
## [360] "及"                                         
## [361] "反正"                                       
## [362] "天氣"                                       
## [363] "心"                                         
## [364] "以及"                                       
## [365] "出\xb2"                                     
## [366] "只有"                                       
## [367] "左右"                                       
## [368] "市"                                         
## [369] "民宿"                                       
## [370] "先"                                         
## [371] "地\xa7"                                     
## [372] "安排"                                       
## [373] "成"                                         
## [374] "早\xc0"                                     
## [375] "老"                                         
## [376] "老街"                                       
## [377] "而已"                                       
## [378] "行\xb5"                                     
## [379] "位"                                         
## [380] "即使"                                       
## [381] "那些"                                       
## [382] "宜蘭"                                       
## [383] "或者"                                       
## [384] "東港"                                       
## [385] "直接"                                       
## [386] "社區"                                       
## [387] "者"                                         
## [388] "花蓮"                                       
## [389] "前往"                                       
## [390] "南庄"                                       
## [391] "怎樣"                                       
## [392] "恆春"                                       
## [393] "流浪"                                       
## [394] "甚麼"                                       
## [395] "界"                                         
## [396] "面"                                         
## [397] "們"                                         
## [398] "剛好"                                       
## [399] "旅"                                         
## [400] "旅\xb5"                                     
## [401] "根本"                                       
## [402] "留下"                                       
## [403] "真正"                                       
## [404] "高雄"                                       
## [405] "區"                                         
## [406] "問題"                                       
## [407] "基本上"                                     
## [408] "球"                                         
## [409] "這裏"                                       
## [410] "場"                                         
## [411] "景"                                         
## [412] "景點"                                       
## [413] "森林"                                       
## [414] "買"                                         
## [415] "進入"                                       
## [416] "感到"                                       
## [417] "新"                                         
## [418] "當地"                                       
## [419] "號"                                         
## [420] "遊客"                                       
## [421] "電話"                                       
## [422] "澳"                                         
## [423] "澳門"                                       
## [424] "隨便"                                       
## [425] "鯨豚"                                       
## [426] "麵"                                         
## [427] "廳"                                         
## [428] "支線"                                       
## [429] "車宿"                                       
## [430] "金門"                                       
## [431] "二水"                                       
## [432] "颱風"

分析基隆、台東、高雄在不同月份的旅遊情況

topID = lapply(as.data.frame(result)$result, function(x) 
  which(rownames(tdm) == x))
topID = unlist(topID)
plot_ly(data = as.data.frame(doc.tfidf2),
        x = as.numeric(colnames(doc.tfidf2)),
        y = doc.tfidf2[topID[75],], 
        name = rownames(doc.tfidf2)[topID[75]],
        type = "scatter", mode= "box") %>%
  add_trace(y = doc.tfidf2[topID[404],],
            name = rownames(doc.tfidf2)[topID[404]])%>%
  add_trace(y = doc.tfidf2[topID[237],],
            name = rownames(doc.tfidf2)[topID[237]])

由圖可見,高雄在10月時出現高峰,基隆則是在3月出現高峰,台東的情況較平均

再加入離島金門與台灣本島比較

plot_ly(data = as.data.frame(doc.tfidf2),
        x = as.numeric(colnames(doc.tfidf2)),
        y = doc.tfidf2[topID[75],], 
        name = rownames(doc.tfidf2)[topID[75]],
        type = "scatter", mode= "box") %>%
  add_trace(y = doc.tfidf2[topID[404],],
            name = rownames(doc.tfidf2)[topID[404]])%>%
  add_trace(y = doc.tfidf2[topID[237],],
            name = rownames(doc.tfidf2)[topID[237]])%>%
  add_trace(y = doc.tfidf2[topID[430],],
            name = rownames(doc.tfidf2)[topID[430]])

金門的旅遊情況高度集中在7月暑假的時候

用kmeans分群,並利用pca作圖

testTfidf = doc.tfidf
kmeansOut <- kmeans(testTfidf, 5, nstart = 20)
tfidf.pca <- prcomp(testTfidf)
tfidf.kmeans <- as.factor(kmeansOut$cluster)

g <- ggbiplot(tfidf.pca, obs.scale = 1, var.scale = 1, 
              groups = tfidf.kmeans, ellipse = TRUE, 
              circle = TRUE, labels = rownames(testTfidf))
g <- g + scale_color_discrete(name = '')
g <- g + theme(legend.direction = 'horizontal', 
               legend.position = 'top')
print(g)

從圖中可明顯看出美景、照片、攝影等詞彙的平面,其他分群較不明顯