《利用Python進行數(shù)據(jù)分析·第2版》第1章 準備工作

1.1 本書的內(nèi)容
本書講的是利用Python進行數(shù)據(jù)控制、處理、整理、分析等方面的具體細節(jié)和基本要點。我的目標是介紹Python編程和用于數(shù)據(jù)處理的庫和工具環(huán)境,掌握這些,可以讓你成為一個數(shù)據(jù)分析專家。雖然本書的標題是“數(shù)據(jù)分析”,重點確實Python編程、庫,以及用于數(shù)據(jù)分析的工具。這就是數(shù)據(jù)分析要用到的Python編程。
什么樣的數(shù)據(jù)?
當書中出現(xiàn)“數(shù)據(jù)”時,究竟指的是什么呢?主要指的是結(jié)構化數(shù)據(jù)(structured data),這個故意含糊其辭的術語代指了所有通用格式的數(shù)據(jù),例如:
表格型數(shù)據(jù),其中各列可能是不同的類型(字符串、數(shù)值、日期等)。比如保存在關系型數(shù)據(jù)庫中或以制表符/逗號為分隔符的文本文件中的那些數(shù)據(jù)。
多維數(shù)組(矩陣)。
通過關鍵列(對于SQL用戶而言,就是主鍵和外鍵)相互聯(lián)系的多個表。
間隔平均或不平均的時間序列。
這絕不是一個完整的列表。大部分數(shù)據(jù)集都能被轉(zhuǎn)化為更加適合分析和建模的結(jié)構化形式,雖然有時這并不是很明顯。如果不行的話,也可以將數(shù)據(jù)集的特征提取為某種結(jié)構化形式。例如,一組新聞文章可以被處理為一張詞頻表,而這張詞頻表就可以用于情感分析。
大部分電子表格軟件(比如Microsoft Excel,它可能是世界上使用最廣泛的數(shù)據(jù)分析工具了)的用戶不會對此類數(shù)據(jù)感到陌生。
閱讀全文:http://t.cn/Rn9Ojao