library(NLP)
library(tm)
library(tmcn)
## # tmcn Version: 0.1-4
Sys.setenv(JAVA_HOME="C:/Program Files/Java/jdk-9.0.1/")
library(rJava)
library(SnowballC)
library(slam)
library(Matrix)
library(jiebaRD)
library(jiebaR)
library(plotly)
## Loading required package: ggplot2
##
## Attaching package: 'ggplot2'
## The following object is masked from 'package:NLP':
##
## annotate
##
## Attaching package: 'plotly'
## The following object is masked from 'package:ggplot2':
##
## last_plot
## The following object is masked from 'package:stats':
##
## filter
## The following object is masked from 'package:graphics':
##
## layout
library(stats)
library(scales)
library(grid)
library(ggplot2)
library(ggbiplot)
## Loading required package: plyr
##
## Attaching package: 'plyr'
## The following objects are masked from 'package:plotly':
##
## arrange, mutate, rename, summarise
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:plyr':
##
## arrange, count, desc, failwith, id, mutate, rename, summarise,
## summarize
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
setwd("C:/Users/angel/Desktop/github/HW4")
filenames <- list.files(getwd(), pattern="*a.txt")
files <- lapply(filenames, readLines)
docs <- Corpus(VectorSource(files))
toSpace <- content_transformer(function(x, pattern) {
return (gsub(pattern, " ", x))
}
)
docs <- tm_map(docs, removePunctuation)
docs <- tm_map(docs, removeNumbers)
docs <- tm_map(docs, stripWhitespace)
mixseg = worker()
jieba_tokenizer=function(d){
unlist(segment(d[[1]],mixseg))
}
seg = lapply(docs, jieba_tokenizer)
d.corpus <- Corpus(VectorSource(seg))
tdm <- TermDocumentMatrix(d.corpus,
control = list(wordLengths = c(2, Inf)))
N = tdm$ncol
tf <- apply(tdm, 2, sum)
idfCal <- function(word_doc)
{
log2( N / nnzero(word_doc) )
}
idf <- apply(tdm, 1, idfCal)
doc.tfidf <- as.matrix(tdm)
for(x in 1:nrow(tdm))
{
for(y in 1:ncol(tdm))
{
doc.tfidf[x,y] <- (doc.tfidf[x,y] / tf[y]) * idf[x]
}
}
ass = findAssocs(tdm, "基隆", 0.93)
ass
## $基隆
## 九份 金瓜石 代購 纜車 animate chatroom checkin dntd
## 0.98 0.97 0.94 0.94 0.94 0.94 0.94 0.94
## facebook fake handle imax latte local mode nice
## 0.94 0.94 0.94 0.94 0.94 0.94 0.94 0.94
## nonstop ntd post print set uber uc 七張
## 0.94 0.94 0.94 0.94 0.94 0.94 0.94 0.94
## 七幫 二二八 二高圖 人生路 人買 人龍 人講 入場
## 0.94 0.94 0.94 0.94 0.94 0.94 0.94 0.94
## 十份 十多分鐘 十多\xa6 十數 十餘分鐘 三\xa5 三張 下著雨
## 0.94 0.94 0.94 0.94 0.94 0.94 0.94 0.94
## 下意識 上並 上機 上貓 上貓空 上變 千與千尋 口語
## 0.94 0.94 0.94 0.94 0.94 0.94 0.94 0.94
## 大三巴 大本營 大\xac 大個 小七要 小七拿博 小七買 小\xa5
## 0.94 0.94 0.94 0.94 0.94 0.94 0.94 0.94
## 已買 不小心 不早 不足以 不得 不提 不\xb6 不進則退
## 0.94 0.94 0.94 0.94 0.94 0.94 0.94 0.94
## 不慎 不闊 中上 中千算 中學 之餘還 井底 五條
## 0.94 0.94 0.94 0.94 0.94 0.94 0.94 0.94
## 仍能 今 內的貓 六獎 公休 公佈 分來 切順利
## 0.94 0.94 0.94 0.94 0.94 0.94 0.94 0.94
## 升學 升讀 反光 天內 天未入 天雨 天雨路 天暗
## 0.94 0.94 0.94 0.94 0.94 0.94 0.94 0.94
## 太空 太短 太遠 太\xbf 少人 少之餘 少去 少到
## 0.94 0.94 0.94 0.94 0.94 0.94 0.94 0.94
## 少量 巴 心動 心機 文字 文說 日喀則 欠\xa9
## 0.94 0.94 0.94 0.94 0.94 0.94 0.94 0.94
## 止蝕 毛毛雨 毛毯 主角 以\xa6 以貓 充值 出站
## 0.94 0.94 0.94 0.94 0.94 0.94 0.94 0.94
## 出售 半暗 可控 可賣 右算 台版輕 左算 市街
## 0.94 0.94 0.94 0.94 0.94 0.94 0.94 0.94
## 平面 平淡 打道\xa6 打爆 正\xa6 正合我意 甘 生疏
## 0.94 0.94 0.94 0.94 0.94 0.94 0.94 0.94
## 生鏽 用處 用腦 由此 矛盾 立得 交大 交\xa6
## 0.94 0.94 0.94 0.94 0.94 0.94 0.94 0.94
## 亦然 休 先坐 再下 再出 再貴個 再過 再漫
## 0.94 0.94 0.94 0.94 0.94 0.94 0.94 0.94
## 危機 各有特色 向前走 吃不完 吃個 地去 地為 地域
## 0.94 0.94 0.94 0.94 0.94 0.94 0.94 0.94
## 地細味 地買 地幫 在博 多人 多前 好後先 如出\xa4
## 0.94 0.94 0.94 0.94 0.94 0.94 0.94 0.94
## 如既往 尖沙咀 忙中有錯 收尾 收攤 有所不同 有限 次要
## 0.94 0.94 0.94 0.94 0.94 0.94 0.94 0.94
## 江 老\xa5 老是 自\xa7 自我感覺 自受 自然而然 自買
## 0.94 0.94 0.94 0.94 0.94 0.94 0.94 0.94
## 自傳 行李袋 行裝 但本 坐上 坐過 完片 完台東
## 0.94 0.94 0.94 0.94 0.94 0.94 0.94 0.94
## 完後對 志\xc4 快步 我在博 我帶 扶手 批鬥 更\xa4
## 0.94 0.94 0.94 0.94 0.94 0.94 0.94 0.94
## 沉甸甸 沒有勇氣 見鬼 豆漿店 走動 走樣 身分證 車\xa4
## 0.94 0.94 0.94 0.94 0.94 0.94 0.94 0.94
## 車時 車票 那張 那間 事是 事省 享住 來亂
## 0.94 0.94 0.94 0.94 0.94 0.94 0.94 0.94
## 兩碼子 刷 到過 取貨 周家 屆時 店主 店主人
## 0.94 0.94 0.94 0.94 0.94 0.94 0.94 0.94
## 店裏 府 底子 往誠\xab 或多或少 房間內 拍卡 拍\xa6
## 0.94 0.94 0.94 0.94 0.94 0.94 0.94 0.94
## 抱住 抱持 拘束 拖行 拖拉 拖掉 拆橋 放得
## 0.94 0.94 0.94 0.94 0.94 0.94 0.94 0.94
## 放過 放\xba 昂坪 東東 板樟堂 河小七買 波浪 爬下去
## 0.94 0.94 0.94 0.94 0.94 0.94 0.94 0.94
## 的並 的頭 直播 知有 空間感 肯 花太多 邸
## 0.94 0.94 0.94 0.94 0.94 0.94 0.94 0.94
## 門\xa5 阿毛 雨勢 雨照 非典型 信仰 便條 威
## 0.94 0.94 0.94 0.94 0.94 0.94 0.94 0.94
## 巷道 很亂 後坐 急促 括號 挑\xb0 政治立場 星期\xa4
## 0.94 0.94 0.94 0.94 0.94 0.94 0.94 0.94
## 流失 為雨港 省卻 相近 看不見 看板 看得懂 科目
## 0.94 0.94 0.94 0.94 0.94 0.94 0.94 0.94
## 科普 科普知識 突\xaf 紀念\xc0 若然 要不然 要命 要說
## 0.94 0.94 0.94 0.94 0.94 0.94 0.94 0.94
## 要轉 重到 食堂 個手 剛買 唔 哪些方面 差\xa4
## 0.94 0.94 0.94 0.94 0.94 0.94 0.94 0.94
## 恥力 悄悄話 挨 旅行團 旅\xa9 旅得 時大時 時\xa6
## 0.94 0.94 0.94 0.94 0.94 0.94 0.94 0.94
## 時間段 晃 書面語 根本就是 栗子 格局 桃捷 桃機
## 0.94 0.94 0.94 0.94 0.94 0.94 0.94 0.94
## 留到 真有夠 窄 納木錯 般而言 草草 茶味 記錯
## 0.94 0.94 0.94 0.94 0.94 0.94 0.94 0.94
## 退步 逃票 馬賽克 停止 做\xa7 側重點 偷拍 偏偏
## 0.94 0.94 0.94 0.94 0.94 0.94 0.94 0.94
## 匿名 區吧 商場 啡店 問有 問完 問過 寄
## 0.94 0.94 0.94 0.94 0.94 0.94 0.94 0.94
## 專家學者 帶去 帶\xac 強行 強調 得出 從而 從來不
## 0.94 0.94 0.94 0.94 0.94 0.94 0.94 0.94
## 悠哉悠哉 掩面 推銷 排\xa5 教材 晚飯 望海 梯級
## 0.94 0.94 0.94 0.94 0.94 0.94 0.94 0.94
## 清爽 票卡痴 粗略地 絆到 細緻 累乾衣 袋裝 規模
## 0.94 0.94 0.94 0.94 0.94 0.94 0.94 0.94
## 訪問 這坐 通宵 連機 都還沒 釣到 陰陰的 雪\xbf
## 0.94 0.94 0.94 0.94 0.94 0.94 0.94 0.94
## 備審 最少 最狂 最爽 最短 勞 單 單\xb5
## 0.94 0.94 0.94 0.94 0.94 0.94 0.94 0.94
## 報銷 就位 就當 幾人 幾本書 悲慘 揣測 揮春
## 0.94 0.94 0.94 0.94 0.94 0.94 0.94 0.94
## 換位 敦南店 斯人 普通話 朝九晚 欺騙 港澳 無可避免
## 0.94 0.94 0.94 0.94 0.94 0.94 0.94 0.94
## 無所事事 無雨 無\xb8 無論是 登高望遠 登機 睏 窗台
## 0.94 0.94 0.94 0.94 0.94 0.94 0.94 0.94
## 結論 絕少 菁桐 華人 菲籍 街買咀 視為 象山
## 0.94 0.94 0.94 0.94 0.94 0.94 0.94 0.94
## 買票 買買 週末 進站 集齊 傳單 僅分 僅站
## 0.94 0.94 0.94 0.94 0.94 0.94 0.94 0.94
## 催\xa5 填飽 微雨 意力 意見 意境 想\xa4 想盡
## 0.94 0.94 0.94 0.94 0.94 0.94 0.94 0.94
## 搭車到 新台幣 新\xa6 極低 概不理 概而論 照樣 煞車
## 0.94 0.94 0.94 0.94 0.94 0.94 0.94 0.94
## 當事人 萬算 腦內 補完 裝滿 解讀 該講 試運
## 0.94 0.94 0.94 0.94 0.94 0.94 0.94 0.94
## 話雖如此 跟上 跟團 跨欄 跳脫 運費 遊人 遊不
## 0.94 0.94 0.94 0.94 0.94 0.94 0.94 0.94
## 遊個 過關 預先安排 預知 團坐 實地 對立 對此
## 0.94 0.94 0.94 0.94 0.94 0.94 0.94 0.94
## 截然不同 漫行 漫畫店 漫遊 盡力 端點 管束 算\xba
## 0.94 0.94 0.94 0.94 0.94 0.94 0.94 0.94
## 綜合 語音 說不上 說白了 趕到 趕得 輕輕鬆鬆 遞交
## 0.94 0.94 0.94 0.94 0.94 0.94 0.94 0.94
## 需時 增\xb6 寫給 彈性 撩 暴衝 標\xba 磅重
## 0.94 0.94 0.94 0.94 0.94 0.94 0.94 0.94
## 膠囊 衝出 請求 課題 賭場 質量 輛 遮眼
## 0.94 0.94 0.94 0.94 0.94 0.94 0.94 0.94
## 鋒利 養 墨水 學到 整條 整理行裝 機到 機就
## 0.94 0.94 0.94 0.94 0.94 0.94 0.94 0.94
## 歷史課 澳門幣 燙傷 獨立自主 衡量 親身經歷 貓 貓使
## 0.94 0.94 0.94 0.94 0.94 0.94 0.94 0.94
## 貓空 貓纜 輸蝕 錯車 鴨舌 擠 檔 繁體
## 0.94 0.94 0.94 0.94 0.94 0.94 0.94 0.94
## 聯招\xb7 豁達 還能 邂逅 隱性 簡體 舊道 離場
## 0.94 0.94 0.94 0.94 0.94 0.94 0.94 0.94
## 離題 瀟灑 爆死 勸說 議事 譯 飄雨 攝手
## 0.94 0.94 0.94 0.94 0.94 0.94 0.94 0.94
## 露宿街頭 顧 攤分 權利 聽著歌 聽聞 驚\xc0 攬客
## 0.94 0.94 0.94 0.94 0.94 0.94 0.94 0.94
## 咭 蹓
## 0.94 0.94
nonzero = (doc.tfidf != rep(0,10))
nonzeroid = which(row_sums(nonzero) != 0)
q <- rownames(doc.tfidf[nonzeroid,])
all.term <- rownames(doc.tfidf)
loc <- which(all.term %in% q)
s.tdm <- doc.tfidf[loc,]
cos.sim <- function(x, y)
{
(as.vector(x) %*% as.vector(y)) / (norm(as.matrix(x)) * norm(y))
}
doc.cos <- cos.sim(x=as.matrix(s.tdm[,1]),
y=as.matrix(s.tdm[,2]))
doc.cos <- apply(s.tdm[,2:60], 2, cos.sim,
y=as.matrix(s.tdm[,1]))
orderDoc <- doc.cos[order(doc.cos, decreasing = TRUE)]
plot_ly(data = as.data.frame(orderDoc),
x = rownames(as.data.frame(orderDoc)),
y = orderDoc,
type = "bar")
df = data.frame(text = content(docs),
filenames = filenames)
df = df%>% mutate(month=substr(filenames,5,6))
organize = function(x){
write.table(df%>%filter(month==x),paste0(x,"m.txt"))
}
lapply(paste0("0",1:9),organize)
lapply(10:12,organize)
filenames <- list.files(getwd(), pattern="*m.txt")
files <- lapply(filenames, readLines)
docs <- Corpus(VectorSource(files))
toSpace <- content_transformer(function(x, pattern) {
return (gsub(pattern, " ", x))
}
)
docs <- tm_map(docs, removePunctuation)
docs <- tm_map(docs, removeNumbers)
docs <- tm_map(docs, stripWhitespace)
mixseg = worker()
jieba_tokenizer=function(d){
unlist(segment(d[[1]],mixseg))
}
seg = lapply(docs, jieba_tokenizer)
d.corpus <- Corpus(VectorSource(seg))
tdm <- TermDocumentMatrix(d.corpus,
control = list(wordLengths = c(2, Inf)))
N = tdm$ncol
tf <- apply(tdm, 2, sum)
idfCal <- function(word_doc)
{
log2( N / nnzero(word_doc) )
}
idf <- apply(tdm, 1, idfCal)
doc.tfidf2 <- as.matrix(tdm)
for(x in 1:nrow(tdm))
{
for(y in 1:ncol(tdm))
{
doc.tfidf2[x,y] <- (doc.tfidf2[x,y] / tf[y]) * idf[x]
}
}
result = findFreqTerms(tdm, 20)
result
## [1] "atxt"
## [2] "cx"
## [3] "httpswwwbackpackerscomtwforumshowthreadphpt"
## [4] "tttt"
## [5] "ufb"
## [6] "了"
## [7] "人"
## [8] "人生"
## [9] "又"
## [10] "下"
## [11] "下午"
## [12] "下車"
## [13] "上"
## [14] "大"
## [15] "大家"
## [16] "大概"
## [17] "小"
## [18] "小時"
## [19] "山"
## [20] "已"
## [21] "已經"
## [22] "不"
## [23] "不同"
## [24] "不到"
## [25] "不是"
## [26] "不要"
## [27] "不能"
## [28] "不\xb7"
## [29] "不過"
## [30] "不管"
## [31] "不錯"
## [32] "中"
## [33] "之"
## [34] "之\xa5"
## [35] "之前"
## [36] "之後"
## [37] "之旅"
## [38] "什麼"
## [39] "仍"
## [40] "介紹"
## [41] "內"
## [42] "分享"
## [43] "切"
## [44] "天"
## [45] "太"
## [46] "太平洋"
## [47] "方式"
## [48] "日"
## [49] "日出"
## [50] "日本"
## [51] "月"
## [52] "比"
## [53] "比較"
## [54] "火車"
## [55] "主人"
## [56] "以"
## [57] "以前"
## [58] "他"
## [59] "他們"
## [60] "出"
## [61] "出去"
## [62] "出來"
## [63] "出發"
## [64] "去"
## [65] "可"
## [66] "可以"
## [67] "可是"
## [68] "可能"
## [69] "另\xa5"
## [70] "只"
## [71] "只是"
## [72] "只能"
## [73] "台"
## [74] "台\xa5"
## [75] "台東"
## [76] "台南"
## [77] "台灣"
## [78] "它"
## [79] "打算"
## [80] "本來"
## [81] "生活"
## [82] "用"
## [83] "任何"
## [84] "光"
## [85] "再"
## [86] "列車"
## [87] "同時"
## [88] "向"
## [89] "吃"
## [90] "地"
## [91] "地方"
## [92] "在"
## [93] "多"
## [94] "好"
## [95] "好文"
## [96] "好好"
## [97] "好像"
## [98] "她"
## [99] "如此"
## [100] "如果"
## [101] "早"
## [102] "早上"
## [103] "有"
## [104] "有人"
## [105] "有些"
## [106] "有點"
## [107] "次"
## [108] "此"
## [109] "而"
## [110] "而且"
## [111] "而言"
## [112] "自己"
## [113] "自助"
## [114] "自然"
## [115] "至少"
## [116] "住"
## [117] "住宿"
## [118] "但"
## [119] "但是"
## [120] "你"
## [121] "吧"
## [122] "呀"
## [123] "坐"
## [124] "完"
## [125] "完全"
## [126] "我"
## [127] "我們"
## [128] "把"
## [129] "找"
## [130] "更"
## [131] "步"
## [132] "步道"
## [133] "每"
## [134] "每個"
## [135] "決定"
## [136] "沒"
## [137] "沒有"
## [138] "走"
## [139] "車"
## [140] "車站"
## [141] "那"
## [142] "那個"
## [143] "那麼"
## [144] "那邊"
## [145] "事"
## [146] "些"
## [147] "享受"
## [148] "來"
## [149] "來到"
## [150] "來說"
## [151] "兩個"
## [152] "其他"
## [153] "其實"
## [154] "到"
## [155] "到底"
## [156] "到達"
## [157] "和"
## [158] "呢"
## [159] "始"
## [160] "定"
## [161] "往"
## [162] "或"
## [163] "或是"
## [164] "所"
## [165] "所以"
## [166] "所有"
## [167] "拍"
## [168] "拍照"
## [169] "抵達"
## [170] "於"
## [171] "於是"
## [172] "朋友"
## [173] "枋寮"
## [174] "東引"
## [175] "東西"
## [176] "欣賞"
## [177] "玩"
## [178] "的"
## [179] "的話"
## [180] "直"
## [181] "知道"
## [182] "空間"
## [183] "阿里山"
## [184] "附近"
## [185] "非\xb1"
## [186] "前"
## [187] "南迴鐵路"
## [188] "卻"
## [189] "客棧"
## [190] "度"
## [191] "建議"
## [192] "很"
## [193] "很多"
## [194] "後"
## [195] "後來"
## [196] "故事"
## [197] "是"
## [198] "段"
## [199] "為"
## [200] "甚至"
## [201] "看"
## [202] "看見"
## [203] "看到"
## [204] "看看"
## [205] "突然"
## [206] "美"
## [207] "美好"
## [208] "美景"
## [209] "美麗"
## [210] "背\xa5"
## [211] "若"
## [212] "要"
## [213] "風景"
## [214] "個"
## [215] "原文"
## [216] "原來"
## [217] "家"
## [218] "座"
## [219] "旁"
## [220] "旅行"
## [221] "旅遊"
## [222] "時"
## [223] "時候"
## [224] "時間"
## [225] "海洋"
## [226] "海邊"
## [227] "特別"
## [228] "真的"
## [229] "真是"
## [230] "站"
## [231] "能"
## [232] "般"
## [233] "記得"
## [234] "除了"
## [235] "做"
## [236] "啊"
## [237] "基隆"
## [238] "帶"
## [239] "得"
## [240] "從"
## [241] "晚"
## [242] "晚上"
## [243] "第\xa4"
## [244] "終於"
## [245] "處"
## [246] "被"
## [247] "規劃"
## [248] "這"
## [249] "這次"
## [250] "這些"
## [251] "這是"
## [252] "這個"
## [253] "這裡"
## [254] "這種"
## [255] "這麼"
## [256] "這樣"
## [257] "部落"
## [258] "都"
## [259] "最"
## [260] "最後"
## [261] "博物\xc0"
## [262] "喜歡"
## [263] "就"
## [264] "就是"
## [265] "幾乎"
## [266] "提供"
## [267] "曾經"
## [268] "棧"
## [269] "湖"
## [270] "無"
## [271] "然而"
## [272] "然後"
## [273] "發\xb2"
## [274] "等"
## [275] "等等"
## [276] "結果"
## [277] "著"
## [278] "間"
## [279] "嗎"
## [280] "意"
## [281] "感受"
## [282] "感覺"
## [283] "想"
## [284] "想到"
## [285] "想要"
## [286] "想\xb0"
## [287] "搭"
## [288] "搭乘"
## [289] "溫泉"
## [290] "準備"
## [291] "照片"
## [292] "當然"
## [293] "經過"
## [294] "裡"
## [295] "該"
## [296] "資訊"
## [297] "跟"
## [298] "路"
## [299] "路上"
## [300] "載於"
## [301] "道"
## [302] "遇到"
## [303] "過"
## [304] "像"
## [305] "嘉義"
## [306] "實在"
## [307] "對"
## [308] "對於"
## [309] "慢慢"
## [310] "睡"
## [311] "種"
## [312] "算"
## [313] "與"
## [314] "說"
## [315] "需要"
## [316] "寫"
## [317] "樣"
## [318] "篇文章"
## [319] "編輯"
## [320] "請"
## [321] "論壇"
## [322] "墾丁"
## [323] "整個"
## [324] "機車"
## [325] "機\xb7"
## [326] "選擇"
## [327] "隧道"
## [328] "應該"
## [329] "營\xb7"
## [330] "環島"
## [331] "環境"
## [332] "還"
## [333] "還有"
## [334] "還是"
## [335] "還要"
## [336] "雖然"
## [337] "點"
## [338] "簡單"
## [339] "離\xb6"
## [340] "識"
## [341] "邊"
## [342] "覺"
## [343] "覺得"
## [344] "櫻花"
## [345] "鐵路"
## [346] "鐵道"
## [347] "聽"
## [348] "讀"
## [349] "體驗"
## [350] "讓"
## [351] "八斗子"
## [352] "下次"
## [353] "子"
## [354] "小\xaf"
## [355] "工\xa7"
## [356] "不用"
## [357] "不\xc2"
## [358] "今天"
## [359] "元"
## [360] "及"
## [361] "反正"
## [362] "天氣"
## [363] "心"
## [364] "以及"
## [365] "出\xb2"
## [366] "只有"
## [367] "左右"
## [368] "市"
## [369] "民宿"
## [370] "先"
## [371] "地\xa7"
## [372] "安排"
## [373] "成"
## [374] "早\xc0"
## [375] "老"
## [376] "老街"
## [377] "而已"
## [378] "行\xb5"
## [379] "位"
## [380] "即使"
## [381] "那些"
## [382] "宜蘭"
## [383] "或者"
## [384] "東港"
## [385] "直接"
## [386] "社區"
## [387] "者"
## [388] "花蓮"
## [389] "前往"
## [390] "南庄"
## [391] "怎樣"
## [392] "恆春"
## [393] "流浪"
## [394] "甚麼"
## [395] "界"
## [396] "面"
## [397] "們"
## [398] "剛好"
## [399] "旅"
## [400] "旅\xb5"
## [401] "根本"
## [402] "留下"
## [403] "真正"
## [404] "高雄"
## [405] "區"
## [406] "問題"
## [407] "基本上"
## [408] "球"
## [409] "這裏"
## [410] "場"
## [411] "景"
## [412] "景點"
## [413] "森林"
## [414] "買"
## [415] "進入"
## [416] "感到"
## [417] "新"
## [418] "當地"
## [419] "號"
## [420] "遊客"
## [421] "電話"
## [422] "澳"
## [423] "澳門"
## [424] "隨便"
## [425] "鯨豚"
## [426] "麵"
## [427] "廳"
## [428] "支線"
## [429] "車宿"
## [430] "金門"
## [431] "二水"
## [432] "颱風"
topID = lapply(as.data.frame(result)$result, function(x)
which(rownames(tdm) == x))
topID = unlist(topID)
plot_ly(data = as.data.frame(doc.tfidf2),
x = as.numeric(colnames(doc.tfidf2)),
y = doc.tfidf2[topID[75],],
name = rownames(doc.tfidf2)[topID[75]],
type = "scatter", mode= "box") %>%
add_trace(y = doc.tfidf2[topID[404],],
name = rownames(doc.tfidf2)[topID[404]])%>%
add_trace(y = doc.tfidf2[topID[237],],
name = rownames(doc.tfidf2)[topID[237]])
plot_ly(data = as.data.frame(doc.tfidf2),
x = as.numeric(colnames(doc.tfidf2)),
y = doc.tfidf2[topID[75],],
name = rownames(doc.tfidf2)[topID[75]],
type = "scatter", mode= "box") %>%
add_trace(y = doc.tfidf2[topID[404],],
name = rownames(doc.tfidf2)[topID[404]])%>%
add_trace(y = doc.tfidf2[topID[237],],
name = rownames(doc.tfidf2)[topID[237]])%>%
add_trace(y = doc.tfidf2[topID[430],],
name = rownames(doc.tfidf2)[topID[430]])
testTfidf = doc.tfidf
kmeansOut <- kmeans(testTfidf, 5, nstart = 20)
tfidf.pca <- prcomp(testTfidf)
tfidf.kmeans <- as.factor(kmeansOut$cluster)
g <- ggbiplot(tfidf.pca, obs.scale = 1, var.scale = 1,
groups = tfidf.kmeans, ellipse = TRUE,
circle = TRUE, labels = rownames(testTfidf))
g <- g + scale_color_discrete(name = '')
g <- g + theme(legend.direction = 'horizontal',
legend.position = 'top')
print(g)