- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2022-05-21來源:擾亂浮塵瀏覽數:415次
數據可視化是指用圖形或表格的方式來呈現數據。圖表能夠清楚地呈現數據性質, 以及數據間或屬性間的關系,可以輕易地讓人看圖釋義。用戶通過探索圖(Exploratory Graph)可以了解數據的特性、尋找數據的趨勢、降低數據的理解門檻。
利用可視化探索圖表
一、數據可視化與探索圖 數據可視化是指用圖形或表格的方式來呈現數據。圖表能夠清楚地呈現數據性質, 以及數據間或屬性間的關系,可以輕易地讓人看圖釋義。用戶通過探索圖(Exploratory Graph)可以了解數據的特性、尋找數據的趨勢、降低數據的理解門檻。
二、常見的圖表實例 本章主要采用 Pandas 的方式來畫圖,而不是使用 Matplotlib 模塊。其實 Pandas 已經把 Matplotlib 的畫圖方法整合到 DataFrame 中,因此在實際應用中,用戶不需要直接引用 Matplotlib 也可以完成畫圖的工作。
1.折線圖 折線圖(line chart)是最基本的圖表,可以用來呈現不同欄位連續數據之間的關系。繪制折線圖使用的是 plot.line() 的方法,可以設置顏色、形狀等參數。在使用上,拆線圖繪制方法完全繼承了 Matplotlib 的用法,所以程序最后也必須調用 plt.show() 產生圖,如圖8.4 所示。df_iris[['sepal?length?(cm)']].plot.line()?plt.show()ax?=?df[['sepal?length?(cm)']].plot.line(color='green',title="Demo",style='--')?ax.set(xlabel="index",?ylabel="length")plt.show()




數據探索實戰分享
本節利用兩個真實的數據集實際展示數據探索的幾種手法。
一、2013年美國社區調查 在美國社區調查(American Community Survey)中,每年約有 350 萬個家庭被問到關于他們是誰及他們如何生活的詳細問題。調查的內容涵蓋了許多主題,包括祖先、教育、工作、交通、互聯網使用和居住。? ? ??數據來源:https://www.kaggle.com/census/2013-american-community-survey。? ? ??? 數據名稱:2013 American Community Survey。? ? ???先觀察數據的樣子與特性,以及每個欄位代表的意義、種類和范圍。#?讀取數據df?=?pd.read_csv("./ss13husa.csv")#?欄位種類數量df.shape#?(756065,231)#?欄位數值范圍df.describe()? ? ? 先將兩個 ss13pusa.csv 串連起來,這份數據總共包含 30 萬筆數據,3 個欄位:SCHL ( 學歷,School Level)、 PINCP ( 收入,Income) 和 ESR ( 工作狀態,Work Status)。pusa?=?pd.read_csv("ss13pusa.csv")?pusb?=?pd.read_csv("ss13pusb.csv")#?串接兩份數據col?=?['SCHL','PINCP','ESR']df['ac_survey']?=?pd.concat([pusa[col],pusb[col],axis=)? ? ? 依據學歷對數據進行分群,觀察不同學歷的數量比例,接著計算他們的平均收入。group?=?df['ac_survey'].groupby(by=['SCHL'])?print('學歷分布:'?+?group.size())group?=?ac_survey.groupby(by=['SCHL'])?print('平均收入:'?+group.mean())二、波士頓房屋數據集 波士頓房屋數據集(Boston House Price Dataset)包含有關波士頓地區的房屋信息, 包 506 個數據樣本和 13 個特征維度。? ? ?數據來源:https://archive.ics.uci.edu/ml/machine-learning-databases/housing/。? ? ???數據名稱:Boston House Price Dataset。? ? ?先觀察數據的樣子與特性,以及每個欄位代表的意義、種類和范圍。? ? ?可以用直方圖的方式畫出房價(MEDV)的分布,如圖 8.8 所示。df?=?pd.read_csv("./housing.data")#?欄位種類數量df.shape#?(506,?14)#欄位數值范圍df.describe()import?matplotlib.pyplot?as?plt?df[['MEDV']].plot.hist()?plt.show()



—END—