一、培訓背景
「CDA 數(shù)據(jù)分析師人才行業(yè)標準」是面向全行業(yè)數(shù)據(jù)分析及大數(shù)據(jù)相關(guān)崗位的一套科學化、專業(yè)化、正規(guī)化、系統(tǒng)化的人才技能準則。CDA數(shù)據(jù)分析師認證考試是評判「標準化人才」的唯一考核路徑。CDA考試大綱規(guī)定并明確了數(shù)據(jù)分析師認證考試的具體范圍、內(nèi)容和知識點,考生可按照大綱要求進行相關(guān)知識的學習,獲取技能,成為專業(yè)人 才。
二、知識要求
針對不同知識,掌握程度的要求分為【領(lǐng)會】、【熟知】、【應用】三個級別,考生應按照不同知識要求進行學習。
1.領(lǐng)會:考生能夠領(lǐng)會了解規(guī)定的知識點,并能夠了解規(guī)定知識點的內(nèi)涵與外延,了解其內(nèi)容要點和它們之間的區(qū)別與聯(lián)系,并能做出正確的闡述、解釋和說明。
2.熟知:考生須掌握知識的要點,并能夠正確理解和記憶相關(guān)理論方法,能夠根據(jù)不同要求,做出邏輯嚴密的解釋、說明和闡述。此部分為考試的重點部分。
3.應用:考生須學會將知識點落地實踐,并能夠結(jié)合相關(guān)工具進行商業(yè)應用,能夠根據(jù)具體要求,給出問題的具體實施流程和策略。
三、考試范圍
PART 1 數(shù)據(jù)分析概念與統(tǒng)計學基礎 (占比 30%)
a. 數(shù)據(jù)分析概念、方法論、流程(占比 5%)
b. 描述性統(tǒng)計分析(占比 12%)
c. 推斷性統(tǒng)計分析(占比 8%)
d. 方差分析(占比 2%)
e. 一元線性回歸分析(占比 3%)
PART 2 SQL 數(shù)據(jù)庫基礎 (占比 15%)
a. SQL 及關(guān)系型數(shù)據(jù)庫基本概念(占比 1%)
b. SQL 數(shù)據(jù)類型、運算符、函數(shù)(占比 3%)
c. SQL 查詢語句(占比 5%)
d. SQL 連接語句(占比 5%)
e. SQL 其它語句(占比 1%)
PART 3 數(shù)據(jù)采集與處理 (占比 15%)
a. 數(shù)據(jù)采集方法(占比 5%)
b. 市場調(diào)研(占比 2%)
c. 數(shù)據(jù)預處理方法(占比 8%)
PART 4 數(shù)據(jù)建模分析 (占比 40%)
a. 主成分分析法(占比 4%)、因子分析法(占比 2%)
b. 系統(tǒng)聚類法(占比 2%)、K-Means 聚類法(占比 3%)
c. 對應分析(占比 2%)、多維尺度分析(占比 2%)
d. 多元回歸分析法
多元線性回歸(占比10%)
邏輯回歸(占比10%)
e. 時間序列(占比 5%).
四、考試形式與試卷結(jié)構(gòu)
考試方式:VUE線上考試,隨約隨考
考試題型:客觀題(單選+多選)
考試時間:120 分鐘
考試條件:無要求,皆可報考
考試成績:分為A、B、C、D 四個層次,A、B、C 為通過考試,D 為不通過.
注:考試未通過者可進行一次補考,補考費用為六折優(yōu)惠。每個等級科目補考各限一次。
五、課程大綱
章節(jié) | 模塊 | 培訓內(nèi)容 |
PART1 數(shù)據(jù)分析概念與統(tǒng)計學基礎 |
1、數(shù)據(jù)分析概述 | 【領(lǐng)會】 數(shù)據(jù)分析和數(shù)據(jù)挖掘的概念 強調(diào)商業(yè)數(shù)據(jù)分析中對業(yè)務的理解 商業(yè)數(shù)據(jù)分析和預測的本質(zhì) 數(shù)據(jù)分析的8個層次 大數(shù)據(jù)對傳統(tǒng)小數(shù)據(jù)分析的拓展 【熟知】 明確數(shù)據(jù)分析目標及意義 數(shù)據(jù)分析的過程 數(shù)據(jù)分析與數(shù)據(jù)挖掘的常用方法 CRISP-DM、SEMMA 方法論 數(shù)據(jù)分析中不同人員的角色與職責 |
2、描述性統(tǒng)計分析 | 【領(lǐng)會】 數(shù)據(jù)的計量尺度 數(shù)據(jù)的集中趨勢、離中趨勢和數(shù)據(jù)分布的概念 統(tǒng)計圖的概念 各種統(tǒng)計圖的含義和畫法 【熟知】 衡量數(shù)據(jù)集中趨勢、離中趨勢和數(shù)據(jù)分布的常用指標及計算方法統(tǒng)計圖形的繪制、圖形元素的調(diào)整、可視化效果,主要涉及條形圖、線圖、直方圖、盒須圖、散點圖、氣泡圖、馬賽克圖、玫瑰圖及其多種圖形整合。明確統(tǒng)計圖形對統(tǒng)計指標表達上的對應關(guān)系 【應用】 根據(jù)不同數(shù)據(jù)類型選用不同的統(tǒng)計指標來進行數(shù)據(jù)的集中趨勢、離中趨勢和數(shù)據(jù)分布的衡量,不同統(tǒng)計圖的使用場景。會寫數(shù)據(jù)分析報告和結(jié)合業(yè)務需求對報告進行合理解釋,對業(yè)務?出建設性意見建議。 |
|
3、抽樣估計 | 【領(lǐng)會】 隨機試驗、隨機事件、隨機變量的概念 總體與樣本的概念 抽樣估計的理論基礎 正態(tài)分布及三大分布的函數(shù)形式和圖像形式 抽樣的多種組織形式 確定必要樣本容量的原因 【熟知】 隨機事件的概率 抽樣平均誤差的概念與數(shù)學性質(zhì) 點估計與區(qū)間估計方法的特點與優(yōu)缺點 全體總體與樣本總體 參數(shù)和統(tǒng)計量 重復抽樣與不重復抽樣 抽樣誤差的概念對總體平均數(shù)和總體成數(shù)的區(qū)間估計方法 必要樣本容量的影響因素 中心極限定理的意義與應用 【應用】 隨機變量及其概率分布 全部可能的樣本單位數(shù)目的概念及其在不同抽樣方法下的確定 抽樣平均誤差在實際數(shù)據(jù)分析中的計算方法 |
|
4、假設檢驗 | 【領(lǐng)會】 假設檢驗的基本概念 其基本思想在數(shù)據(jù)分析中的作用 假設檢驗的基本步驟 假設檢驗與區(qū)間估計的聯(lián)系 假設檢驗中的兩類錯誤 【熟知】 P值的含義及計算 如何利用P值進行檢驗 z檢驗統(tǒng)計量 t檢驗統(tǒng)計量 F檢驗統(tǒng)計量 c2檢驗統(tǒng)計量的函數(shù)形式和檢驗步驟 【應用】 實現(xiàn)單樣本t檢驗 兩獨立樣本t檢驗的步驟和檢驗中使用的統(tǒng)計量與原假設 兩種檢驗應用的數(shù)據(jù)分析場景。 |
|
5、方差分析 | 【領(lǐng)會】 方差分析的相關(guān)概念 單因素方差分析的原理 統(tǒng)計量構(gòu)造過程 【熟知】 單因素方差分析的基本步驟 總離差平方和(SST)的含義及計算 組間離差平方和(SSA)的含義及計算 組內(nèi)離差平方和(SSE)的含義及計算 單因素方差分析的原假設 【應用】 實現(xiàn)單因素方差分析的步驟 對方差分析表的分析以及多重比較表的分析 |
|
6、簡單線性回歸分析 | 【領(lǐng)會】 相關(guān)圖的繪制與作用 相關(guān)表的編制與作用 相關(guān)系數(shù)定義公式的字母含義 估計標準誤差與相關(guān)系數(shù)的關(guān)系 【熟知】 相關(guān)關(guān)系的概念與特點 相關(guān)關(guān)系與函數(shù)關(guān)系的區(qū)別與聯(lián)系 相關(guān)關(guān)系的種類 相關(guān)系數(shù)的意義以及利用相關(guān)系數(shù)的具體數(shù)值對現(xiàn)象相關(guān)等級的劃分 回歸分析的概念 回歸分析的主要內(nèi)容和特點 建立一元線性回歸方程的條件 應用回歸分析應注意的問題 估計標準誤差的意義及計算 【應用】 運用簡捷法公式計算相關(guān)系數(shù) 相關(guān)分析分析中應注意的問題 回歸分析與相關(guān)分析的區(qū)別與聯(lián)系 |
|
PART 2 SQL數(shù)據(jù)庫基礎 |
1、SQL 基礎概念 | 【領(lǐng)會】 關(guān)系型數(shù)據(jù)庫基本概念、屬性 主鍵 外鍵 E-R 圖 ANSI-SQL 以及不同的數(shù)據(jù)庫實現(xiàn)的關(guān)系 【熟知】 邏輯運算符 比較運算符 算術(shù)運算符 通配符 |
2、SQL 查詢語句 | 【應用】 select 語句 包括查詢單列 多列,去重,前N 列 from 語句、where 語句、group by 語句、having 語句、order by 語句、子查詢 SQL 聚合函數(shù),包括 count、sum、avg、max、min 等 |
|
3、SQL 連接語句 | 【領(lǐng)會】 表的連接類型,包括內(nèi)連接(等值、不等值)、外連接(左、右、全)、交叉連接(笛卡 爾連接) 查詢的集合操作,只包括并集操作 【應用】 inner join 的用法 left/right/full join 的用法 cross join 的用法 union 的用法 |
|
4、其它 SQL 語句 | 【領(lǐng)會】 表的創(chuàng)建 視圖及索引的概念及創(chuàng)建 數(shù)據(jù)插入、更新、刪除 【領(lǐng)會】 高級函數(shù),如Oracle 或 Hive 中的 row number over partition by、正則匹配等 |
|
PART 3 數(shù)據(jù)采集與處理 |
1、數(shù)據(jù)采集方法 | 【領(lǐng)會】 一手數(shù)據(jù)與二手數(shù)據(jù)來源渠道 優(yōu)劣勢分析 使用注意事項 【熟知】 一手數(shù)據(jù)采集中的概率抽樣與非概率抽樣的區(qū)別與優(yōu)缺點 【運用】 概率抽樣方法,包括簡單隨機抽樣、分層抽樣、系統(tǒng)抽樣、分段抽樣 明確每種抽樣的優(yōu)缺點 根據(jù)給定條件選擇最可行的抽樣方式 計算簡單隨機抽樣所需的樣本量 Ø 市場調(diào)研 【熟知】 市場調(diào)研的基本步驟(?出問題、調(diào)查收集材料、分析預測問題) 單選題及多項選擇題的設置 數(shù)據(jù)編碼及錄入 Ø 數(shù)據(jù)預處理方法 【熟知】 數(shù)據(jù)預處理的基本步驟,包括數(shù)據(jù)集成(不同數(shù)據(jù)源的整合)、數(shù)據(jù)探索、數(shù)據(jù)變換(標 準化)、數(shù)據(jù)歸約(維度歸約技術(shù)、數(shù)值歸約技術(shù)),這部分內(nèi)容不需要涉及計算,只需要根 據(jù)需求明確可選的處理技術(shù)即可。 【應用】 數(shù)據(jù)清洗,包括填補遺漏的數(shù)據(jù)值(根據(jù)業(yè)務場景使用常數(shù)、中位數(shù)、眾數(shù)等方法,不 涉及多重查補的方法)、平滑有噪聲數(shù)據(jù)(移動平均)、識別或除去異常值(單變量根據(jù)中心 標準化值,多變量使用快速聚類),以及解決不一致問題(熟知概念即可),查重(只考核 SQL 的語句,不涉及 R、SAS 等其它語言)。 |
PART 4 數(shù)據(jù)建模分析 總體要求 領(lǐng)會模型基本原理,數(shù)值模型操作流程,懂得模型應用場景,能夠完成數(shù)據(jù)建模分析報告。 |
1、描述性數(shù)據(jù)分析/挖掘方法——主成分分析 | 【領(lǐng)會】 主成分分析的計算步驟 主成分分析中對變量自身分布和多變量之間關(guān)系的假設以及模型設置 【熟知】 適用于主成分分析的變量度量類型。通過分析結(jié)果,選取合適的保留主成分的個數(shù),注意區(qū)分兩種不同的分析目的(盡量壓縮變量、避免共線性情況下保留更多信息)保留主成分 個數(shù)的評判標準的差異。 【應用】 在深入理解主成分的意義的基礎之上,在遇到業(yè)務問題時,有能力決定是否使用主成分分析方法;有能力決定何時采用相關(guān)系數(shù)計算方法和協(xié)方差矩陣計算方法;有能力解釋主成分得分的結(jié)果;根據(jù)變量分布情況進行函數(shù)轉(zhuǎn)換。 |
2、描述性數(shù)據(jù)分析/挖掘方法——因子分析 | 【領(lǐng)會】 了解因子分析模型設置,只需要關(guān)注主成分法的計算步驟 【熟知】 適用于因子分析的變量度量類型。通過分析結(jié)果,選取合適的因子個數(shù); 知道最常用的因子旋轉(zhuǎn)的方法。 【應用】 在遇到業(yè)務問題時,有能力決定是否使用因子分析,還是使用主成分分析方法就可以了;有能力根據(jù)原始變量在各因子上的權(quán)重明確每個因子的意義;有能力對大量變量進行維度分析,分維度打分,并比較與專家打分(德爾菲法)的區(qū)別;在聚類前對數(shù)據(jù)進行描述,發(fā)現(xiàn)理想的聚類方式和數(shù)量。 |
|
3、描述性數(shù)據(jù)分析/挖掘方法——聚類分析 | 【領(lǐng)會】 多種聚類算法的特點 【熟知】 聚類方法的基本邏輯 系統(tǒng)聚類和K-Means 聚類的基本算法和優(yōu)缺點 系統(tǒng)聚類的計算步驟,包括兩點距離、兩類合并的計算方法 系統(tǒng)聚類法中選擇最優(yōu)聚類數(shù)量的方法 K-Means 聚類的基本算法 聚類分析變量標準化的原因和計算方法 變量需要進行主成分分析的原因 變量進行函數(shù)轉(zhuǎn)化的原因和計算方法 【應用】 結(jié)合客戶畫像、客戶細分、商品聚類、離群值檢驗(欺詐、反洗錢)等業(yè)務運用場景,選取合適的聚類方法與步驟 聚類事后分析,根據(jù)聚類后變量分布情況獲取每類的特征 |
|
4、描述性數(shù)據(jù)分析/挖掘方法——對應分析 | 【領(lǐng)會】 對應分析的算法 【熟知】 適用于對應分析的變量度量類型 對應分析與列聯(lián)表分析、主成分分析的關(guān)系 這種方法優(yōu)缺點及如何與其它模型結(jié)合使用 【應用】 對應分析使用的指標如何量化及其常見的量化方式 在客戶滿意度分析、市場績效及產(chǎn)品細分等場景下的運用 雙標圖的可視化、解釋與意義擴展 |
|
5、描述性數(shù)據(jù)分析/挖掘方法——多維尺度分析 | 【領(lǐng)會】 多維尺度分析的算法。 【熟知】 適用于多維尺度分析的變量度量類型 該分析方法和主成分分析、因子分析、對應分析的異同點,尤其是和因子分析的區(qū)別 【應用】 多維尺度分析在客戶產(chǎn)品感知圖等方面的運用 |
|
6、預測性數(shù)據(jù)分析方法——線性回歸與模型診斷及優(yōu)化 | 【領(lǐng)會】 線性回歸系數(shù)的計算公式 【熟知】 明確線性回歸的6 個經(jīng)典假設(線性模型、不存在共線性、殘差期望為 0、同方差、正態(tài)性、隨機抽樣 明確違反前5 個假設后出現(xiàn)的問題 模型是否違反前5 個經(jīng)典假設的檢驗方法與模型糾正的方法 變量篩選方法 離群值、指標計算方法 明晰橫截面和時間序列數(shù)據(jù)在回歸建模上的差異 【應用】 結(jié)合業(yè)務構(gòu)建回歸模型并且解釋回歸系數(shù) 根據(jù)業(yè)務場景與變量分布情況進行函數(shù)轉(zhuǎn)換 解釋變量為分類變量時的處理方法 區(qū)分預測性建模與解釋性建模的關(guān)系 使用結(jié)果進行新樣本預測 進行客戶價值分析的基本步驟與注意事項 |
|
7、預測性數(shù)據(jù)分析方法——構(gòu)造對二分類變量的預測模型 | 【領(lǐng)會】 卡方檢驗計算公式 二分類邏輯回歸的計算公式 【熟知】 分類變量是否存在相關(guān)關(guān)系的描述方法和檢驗方法,涉及列聯(lián)表分析、卡方檢驗 似然比與Logit 轉(zhuǎn)換 二分類邏輯回歸模型構(gòu)建與變量篩選 模型評估的方法,涉及混淆矩陣、ROC 曲線 【應用】 結(jié)合業(yè)務構(gòu)建回歸模型并且解釋回歸系數(shù) 根據(jù)業(yè)務場景與變量分布情況進行函數(shù)轉(zhuǎn)換 使用結(jié)果進行新樣本預測 進行客戶流失預測、信用評級、精準營銷等模型的基本步驟與注意事項 |
|
8、時間序列 | 【領(lǐng)會】 明確趨勢分解法、ARIMA 方法、時間序列回歸方法的差異和適用場景 明確每種方法的計算方法 【熟知】 趨勢分解法,涉及乘法模型、加法模型 ARIMA 方法的具體步驟;時間序列回歸的方法 【應用】 結(jié)合業(yè)務(業(yè)績預測、預警),選取合適的分析方法 進行業(yè)務時間序列預測等模型的基本步驟與注意事項 |
|
推薦學習書目 | 說明:推薦學習書目中,部分書籍結(jié)合軟件,但考試不會考軟件,考生可根據(jù)自身需求 選擇性學習。參考書目不需全部學完,根據(jù)考綱知識點進行針對性學習即可。 |
[1] 賈俊平,何曉群,金勇進. 統(tǒng)計學(第 7 版)[M]. 中國人民大學出版社,2018.(必讀) [2] 斯蒂芬森,晉勞,瓊斯. SQL 入門經(jīng)典(第 5 版)[M]. 人民郵電出版社,2011.(必讀) [3] 黃縉華.MySQL 入門很簡單[M].清華大學出版社,2011.(選讀) [4] 何曉群. 多元統(tǒng)計分析(第 4 版)[M]. 中國人民大學出版社, 2015. (必讀) [5] 盛驟,試式千,潘承毅. 概率論與數(shù)理統(tǒng)計(第 4 版), 高等教育出版社,2008.(選讀) [6] 王斌會 . 多元統(tǒng)計分析及 R 語言建模(第 4 版)[M]. 暨南大學出版社, 2016. (選讀) [7] 李靜萍. 多元統(tǒng)計分析:原理與基于 SPSS 的應用(第二版) , 中國人民大學出版社, 2015. (選讀) [8] Wes McKinney. 利用 Python 進行數(shù)據(jù)分析[M]. 機械工業(yè)出版社,2014. (選讀) [9] 王燕. 應用時間序列分析(第四版),中國人民大學出版社, 2015. ( 9 和 10 二選一) [10] 王燕. 時間序列分析:基于 R, 中國人民大學出版社, 2015. ( 9 和 10 二選一) [11] Daniel T. Larose,Chantal D. Larose. 數(shù)據(jù)挖掘與預測分析(第 2 版)[M]. 清華大學出 版社,2017. (選讀) [12] 經(jīng)管之家,曹正鳳. 從零進階!數(shù)據(jù)分析的統(tǒng)計基礎[M]. 電子工業(yè)出版社,2016. (選讀) [13] 經(jīng)管之家,常國珍. 胸有成竹!數(shù)據(jù)分析的 SPSS 和 SAS EG 進階[M]. 電子工業(yè)出版社, 2016. (選讀) [14] 經(jīng)管之家,徐筱剛. 如虎添翼:數(shù)據(jù)處理的 SPSS 和 SAS EG 實現(xiàn)[M]. 電子工業(yè)出版社, 2016. (選讀) |
總結(jié)交流與答疑 |
六、授課專家
劉老師 十幾年軟件研發(fā)經(jīng)驗,十年企業(yè)培訓經(jīng)驗,對Java、Python、區(qū)塊鏈等技術(shù)領(lǐng)域有獨特的研究,精通J2EE企業(yè)級開發(fā)技術(shù),Java方向:設計模式、Spring MVC、MyBatis、Spring、StringBoot、WebService、CXF并且對Java源碼有深入研究,Python方向:Python核心編程、Python數(shù)據(jù)分析、Python OOP、Mongodb、Django、Scrapy爬蟲技術(shù)、基于Scikit-Learn機器學習框,Tensorflow深度學習框架、人臉識別技術(shù)。
常老師 北京大學會計學博士,ThoughtWorks中國首席金融數(shù)據(jù)科學家。具有18年數(shù)據(jù)規(guī)劃、數(shù)據(jù)治理、智能算法在金融和電信行業(yè)的落地經(jīng)驗。協(xié)助企業(yè)逐步積累數(shù)據(jù)資產(chǎn),運用數(shù)據(jù)智能工具優(yōu)化業(yè)務流程,取得數(shù)字化競爭優(yōu)勢。代表客戶有人民銀行、國家開發(fā)銀行、中國建設銀行、中國移動、中國銀行、中國民生銀行。 在加入ThoughtWorks之前,曾在畢馬威大數(shù)據(jù)部任總監(jiān)、在中銀消費金融數(shù)據(jù)部任高級經(jīng)理、在百度大數(shù)據(jù)任數(shù)據(jù)產(chǎn)品經(jīng)理。兼任北京語言大學金融碩校外導師,同時擔任的社會角色和榮譽有中國大數(shù)據(jù)產(chǎn)業(yè)生態(tài)聯(lián)盟專家委員會委員,CDA數(shù)據(jù)分析研究院名譽院長,騰訊云最有價值專家(TVP),建設銀行反洗錢和數(shù)據(jù)資產(chǎn)管理資深外部專家。著有《金融數(shù)據(jù)科學手冊》系列叢書、《Python數(shù)據(jù)科學:技術(shù)詳解與商業(yè)實踐》、《用商業(yè)案例學R語言數(shù)據(jù)挖掘》、《胸有成竹:數(shù)據(jù)分析的SASEG進階》等多本著作。
王老師 現(xiàn)任某上市公司軟件產(chǎn)品部副總兼大數(shù)據(jù)產(chǎn)品線總經(jīng)理,國際信息和數(shù)據(jù)質(zhì)量協(xié)會(IAIDQ)會員,ITSS數(shù)據(jù)治理標準工作組成員。曾獲得數(shù)據(jù)管理專業(yè)認證(CDMP)、數(shù)據(jù)治理專業(yè)認證(DGP)、信息質(zhì)量專業(yè)認證(IQCP)三項國際認證。2010年加入普元,全面主持普元大數(shù)據(jù)產(chǎn)品的研發(fā)、拓展及團隊管理工作。十年大型企業(yè)信息化架構(gòu)設計與建設經(jīng)驗,曾任中國人民銀行核心平臺架構(gòu)師。主持參與了國家開發(fā)銀行大數(shù)據(jù)治理項目、中國人民銀行軟件開發(fā)平臺、國家電網(wǎng)云計算平臺等大型項目建設。對大數(shù)據(jù)行業(yè)有著深入的研究和洞察,并對企業(yè)信息化平臺建設,企業(yè)云計算及大數(shù)據(jù)平臺建設有著豐富經(jīng)驗。