這篇大數(shù)據(jù)分析R語言7種數(shù)據(jù)可視化方式文章介紹了7種基本數(shù)據(jù)可視化的方式,以及如何結(jié)合使用基本R函數(shù)和一些常見軟件包來重新創(chuàng)建它們。
數(shù)據(jù)可視化是一個創(chuàng)新而令人興奮的領(lǐng)域。盡管它需要很長時間才能在計算機屏幕后進行操作,并且需要掌握數(shù)字,但它是一項非常有價值的職業(yè),它處于早期階段,并且每天都在增長。
盡管幾乎沒有專門的程序用于可視化數(shù)據(jù),但是許多數(shù)據(jù)科學家使用一種稱為R的編程語言,并且該程序及其許多可用的包為幾乎可以想象到的每種情況提供了許多不同形式的可視化。
以下是7種基本數(shù)據(jù)可視化的方式,以及如何結(jié)合使用基本R函數(shù)和一些常用軟件包來重新創(chuàng)建它們。所有示例均使用默認R base安裝中包含的數(shù)據(jù)集。
一、數(shù)據(jù)可視化方式:條形圖
您可能已經(jīng)熟悉小學,中學和大學的基本條形圖。R中的條形圖的概念與過去的方案相同,以顯示兩個或多個變量之間的分類比較。但是,有幾種不同類型的條形圖需要了解和理解。
水平和垂直條形圖已經(jīng)很常見并且很熟悉-它們是大多數(shù)學術(shù)或?qū)I(yè)演講中的標準格式。但是R提供了一個堆積的條形圖,可讓您為每個類別引入不同的變量。
數(shù)字<-表格(mtcars $ cyl,mtcars $ gear)
barplot(Numbers,main = '按汽缸數(shù)量分組的汽車汽缸編號',
col = c('red','orange','steelblue'),legend =行名(數(shù)字),xlab = '齒輪數(shù)',
ylab = 'count')
二、數(shù)據(jù)可視化方式:直方圖
直方圖在某些學術(shù)領(lǐng)域是標準的,但通常保留給最高級別的學生。這些圖表最適合R中具有高度精確或準確的數(shù)字。
它最終提供了變量的概率估計,例如,在項目完成之前的時間段。R也為此提供了一個簡單的功能。
#``空氣質(zhì)量''數(shù)據(jù)集中的臭氧值頻率直方圖
hist(空氣質(zhì)量$ Temp,col = 'steelblue',main = '最高每日溫度',
xlab = '溫度(華氏度)')
三、數(shù)據(jù)可視化方式:熱圖
熱圖是R中 最創(chuàng)新的數(shù)據(jù)可視化之一,它強調(diào)顏色強度以可視化多個變量之間的關(guān)系。
結(jié)果是易于解釋的有吸引力的2D圖像。作為一個基本示例,熱圖通過根據(jù)競爭產(chǎn)品的原始投放市場日期對其進行排名來突出顯示競爭產(chǎn)品的受歡迎程度。它通過提供一段時間內(nèi)的銷售統(tǒng)計數(shù)據(jù)和數(shù)字來進一步細分。
#模擬10個點的數(shù)據(jù)集
x < -rnorm(10,平均值= rep(1 :5,每個= 2),sd = 0.7)
ÿ < - RNORM(10,平均值=代表(C(1,9),每個= 5),SD = 0.1)
dataFrame < -data.frame(x = x,y = y)
set.seed(143)
DATAMATRIX < - as.matrix(數(shù)據(jù)幀)的樣品(1 :10),] #轉(zhuǎn)換到類“矩陣”,然后洗牌矩陣的行
熱圖(數(shù)據(jù)矩陣)通過熱圖#形象化分級聚類
四、數(shù)據(jù)可視化方式:散點圖
繪圖是圖表或圖形的一種流行替代方法。它提供了涉及各種點的獨特可視化效果。最標準的迭代-散點圖-在一段時間內(nèi)跟蹤兩個連續(xù)變量。散點圖的基本應用涉及跟蹤多年來兒童的身高和體重。
當試圖避免可視化中的錯誤信息時,散點圖很有用。僅當您確定受眾熟悉該類型的圖表并且始終謹慎使用時,才使用圖表。如有疑問,請選擇其他選項之一。
#僅繪制九月月份的臭氧和溫度測量圖,
其中(subset(airquality,Month == 9),plot(Wind,Ozone,col = 'steelblue',pch = 20,cex = 1.5))
標題(“ 1973年9月紐約市的風和溫度”)
五、數(shù)據(jù)可視化方式:箱形圖
該箱線圖類似于在許多方面的柱狀圖。箱形圖不再關(guān)注分類數(shù)據(jù),而是提供分類數(shù)據(jù)和連續(xù)變量數(shù)據(jù)的可視化。
在現(xiàn)實世界中,箱形圖提供了有關(guān)天氣模式及其隨時間變化的詳細信息。
mtcars < -變換(mtcars,CYL =因子(CYL)) #轉(zhuǎn)換'CYL'從類'數(shù)字'類'因子'列
類(mtcars $ CYL) #'CYL'現(xiàn)在是一個分類變量
箱線圖(MPG ? CYL ,mtcars,xlab = '氣缸數(shù)',ylab = '每加侖英里',
main = “汽車中不同氣缸的每加侖英里數(shù)”,cex.main = 1.2)
library(dplyr)#數(shù)據(jù)處理
library(ggplot2)#數(shù)據(jù)可視化
庫(Corrplot)#相關(guān)圖
六、數(shù)據(jù)可視化方式:相關(guān)圖
相關(guān)數(shù)據(jù)最好通過corrplot可視化。2D格式類似于熱圖,但突出顯示直接相關(guān)的統(tǒng)計信息。
大多數(shù)相關(guān)圖會突出顯示各個時間點的數(shù)據(jù)集之間的相關(guān)程度。比較不同月份或年份之間的銷售數(shù)據(jù)是一個基本示例。
#data(“ mtcars”)
corr_matrix < -cor(mtcars)
#帶圓圈
corrplot(corr_matrix)
#帶數(shù)字及以下
corrplot(corr_matrix,
方法= '數(shù)字',
type = “ lower”)
七、數(shù)據(jù)可視化方式:面積圖
區(qū)域圖表示不同變量或數(shù)據(jù)集之間的連續(xù)性。它類似于您從小學就知道的傳統(tǒng)折線圖,并且以類似的方式使用。
大多數(shù)面積圖會突出顯示趨勢及其隨時間的演變,從而在試圖揭示潛在趨勢(無論是正面還是負面)時非常有效。
#data(“ airquality”)#使用的數(shù)據(jù)集
空氣質(zhì)量%>%
group_by(Day)%>%
摘要(mean_wind =平均值(風))%>%
ggplot()+
geom_area(aes(x = Day,y = mean_wind))+
labs(title = “平均面積圖每天風”,
副標題= “使用空氣質(zhì)量數(shù)據(jù)”,
y = “平均風”)
數(shù)據(jù)可視化正在進入主流
研究表明,與單調(diào)的電子表格和過時的報告相比,圖表,圖形和其他可視化提供了一種輕松記住數(shù)據(jù)的方式。
不僅在專業(yè)領(lǐng)域如此,而且許多學術(shù)機構(gòu)也在學生論文,演示文稿和論文中采用了下一代數(shù)據(jù)可視化。
數(shù)據(jù)可視化似乎幾乎沒有觸及的領(lǐng)域,而且該領(lǐng)域仍處于起步階段。
填寫下面表單即可預約申請免費試聽!怕錢不夠?可先就業(yè)掙錢后再付學費! 怕學不會?助教全程陪讀,隨時解惑!擔心就業(yè)?一地學習,可推薦就業(yè)!
?2007-2022/ m.5wd995.cn 北京漫動者數(shù)字科技有限公司 備案號: 京ICP備12034770號 監(jiān)督電話:010-53672995 郵箱:bjaaa@aaaedu.cc