有限混合模型(FMM):STaTa分析(以EM algorithm做潛在分類再迴歸分析) | 如何做好生意 - 2024年11月
有限混合模型(FMM):STaTa分析(以EM algorithm做潛在分類再迴歸分析)
本書特色
•本書架構循序漸進,有步驟地說明有限混合模型(FMM)的原理和應用實例分析。
•STaTa提供十七種有限混合模型(FFM)的估計法,功能十分龐大,您不能不知!
•本書內容融合理論、方法及統計,每章節均輔以實例示範,學習效率提升。
•適用於教育學、心理學、社會科學、生產管理、經濟、風險管理、人資管理、航運管理、財務金融、會計、公共衛生、工業工程等學術領域。
•隨書附贈資料檔光碟。
有限混合模型(FMM)為一種混合分布的機率模型,其假定原始實測資料係自眾多但有限的未知分布得來,而FMM模型的EM演算法可自行分類,以減少模型因存在不同異質體而導致偏誤的結果。其框架提供了一個方便且靈活的方法來模擬複雜的異質資料庫。坊間常見的四十一種軟體,例如:SAS、R和SPSS等大型資料庫之檔案格式,都可轉至STaTa進行分析,STaTa亦提供十七種有限混合模型(FFM)的估計法,功能十分龐大、實用。有限混合模型(FMM) 早期應用在天文學、生物學、經濟學、工程學、市場行銷、醫學,現已流行於教育學、心理學、社會科學、人資管理、生產管理、航運管理、財務金融、會計等專業領域。
本書章節內容包含線性迴歸、次序迴歸、Logistic迴歸、多項Logistic迴歸、count迴歸、零膨脹迴歸、參數型存活迴歸、2SLS線性迴歸、order迴歸、Beta迴歸…等理論與實證研究,隨書附贈光碟資料檔,讓研究者在詳閱本書後,在進行此類研究方法的分析實作時,能得心應手並獲得最佳的研究成果。
作者簡介
張紹勳
學歷:國立政治大學資訊管理博士
現任:國立彰化師大專任教授
經歷:致理技術專任副教授
自序
Chapter01 地表最強的統計軟體STaTa
1-1 STaTa 如何讀入各種資料格式
1-1-1 SPSS 資料檔(*.sav) 轉成STaTa 格式
1-1-2 SAS 格式轉成STaTa
1-1-3 R 軟體之格式轉成STaTa
1-2 STaTa 是地表最強大的統計軟體
1-2-1 有限混合模型(finite mixtures models, FMM): EM algorithm指令
1-2-2 單層次:連續vs. 類別依變數迴歸之種類
1-2-3 STaTa 多層次混合模型的迴歸種類
1-2-4 STaTa panel-data 迴歸的種類
1-2-5 STaTa 流行病(epidemiologists) 之選擇表對應的指令
1-2-6 STaTa 存活分析的選擇表之對應指令
1-2-7 STaTa 縱貫面—時間序列之選擇表
1-2-8 依變數binary outcome 之STaTa 選擇表
1-3 評比敵對模型,適配指標有八種
Chapter02 有限混合模型(finite mixtures models, FMM配搭十七種指令)
2-1 有限混合模型(finite mixtures models, FMM)
2-1-1 高斯混合模型(Gaussian mixture model,簡稱GMM)
2-1-2 單一高斯機率密度函數的參數估測法
2-1-3 有限混合模型之對應指令
2-1-4a 有限混合模型之應用領域
2-1-4b 有限混合模型之研究議題
2-2 Gaussian 混合模型(GMM) 使用expectation maximization(EM) 技術
2-2-1 高斯混合模型與最大期望(EM) 演算法
2-2-2 EM algorithm 範例解說
2-3 高斯(Gaussian) 混合模型應用在圖形辨識
2-3-1 K-Means 分類(classifier) 法,如何演變成EM algorithm 呢?
2-3-2 EM-GMM 建立的流程
2-3-3 期望值最大演算法(expectation maximization, EM) 之解說
2-3-4 EM algorithm 如何找出高斯混合模型(GMM) 潛在類別之解說?
2-3-5 混合模型、潛在類別(class) 和EM 演算法(mixture model,latent class and EM algorithm)
2-4 最大概似(ML)vs. 期望值最大(EM) 演算法
2-4-1a 最大概似(ML) ≠概似比(LR)
2-4-1b EM 與ML 的關係解說
2-4-2a EM 演算法是使訓練數據的對數概似函數最大化( 重點解說)
2-4-2b 聚類(clustering) EM algorithm:簡單版
2-4-2c EM 演算法的推導(derivation of EM algorithm)
2-5 EM 演算法的工科論文
2-5-1 EM 演算法的範例:圖形模式分類(pattern classification)
2-5-2 EM 演算法的論文:圖像分割(image segmentation)
Chapter03 高斯混合模型(fmm: regression 指令)、異質線性迴歸
3-1 機率密度函數(probability density function) 常見有十種
3-2 單一常態( 高斯) 分布之迴歸分析
3-3 單一分布之線性迴歸概念
3-3-1a 單層次固定效果:最小平方法OLS 重點整理(regress 指令)
3-3-1b 單層次固定效果:最小平方法(OLS) 七個假定的診斷及補救法
3-3-2 最小平方法(OLS) vs. 概似法
3-3-3 單一分布之各類型迴歸
3-3-4 Type I 誤差α、Type II 誤差β、檢定力:ROC 圖的切斷點
3-4 雙高斯混合模型之解說
3-4-1 EM 演算法如何求解高斯混合模型?
3-4-2 混合模型有十七種:STaTa 指令語法
3-4-3a 雙高斯混合模型:重點回顧
3-4-3b EM 演算法是使訓練數據的對數概似函數最大化:簡單版
3-4-3c 雙高斯混合模型(fmm 2: regress指令):婦女全薪wagefull
3-4-4 參高斯混合模型(fmm 3: regress 指令):Ln(醫療花費)
Chapter04 有限混合模型:線性迴歸(fmm:開頭指令)
4-1 內生共變數之線性迴歸(2SLS)(ivregression) 指令
4-2 工具變數及兩階段最小平方法(2SLS) (ivregression) 指令
4-2-1 進行OLS 統計分析時應注意之事項
4-2-2 工具變數(IV) 之重點整理
4-2-3 隨機解釋變數X(random regressor) 與工具變數Z(instrumental variable)
4-2-4a 單一工具變數及單一內生變數:內生性檢定
4-2-4b 兩階段最小平方法迴歸:Wu-Hausman 內生性檢定(estatendogenous指令)
4-2-5 為何需要多個工具變數?
4-2-6 工具變數(instrumental variables) 在教育應用 .
4-2-7 兩階段迴歸vs. 最小平方法迴歸之練習題
4-3 橫斷面/panel:如何偵測需要工具變數呢?
4-3-1 為何「教育水準」需要多個工具變數Z 呢?
4-3-2 橫斷面Hausman 檢定:OLS vs. 2SLS 誰優?(hausman 指令)
4-3-3 Panel-data Hausman-Taylor 法:需工具變數嗎?(xthtaylor)
4-4 內生共變數之混合模型(2SLS)(fmm : ivregression) 指令)
4-4-1 2SLS 混合模型
4-4-2 內生共變數之線性迴歸混合模型(2SLS)(fmm: ivregression) 指令:房租之影響因素
Chapter05 有限混合模型:logistic 迴歸(fmm:開頭指令)
5-1 logistic 迴歸之概念
5-1-1 logistic 迴歸假定、迴歸式解說
5-1-2 STaTa 之單一binary regression 選擇表之對應指令
5-2 單一邏輯斯迴歸的入門
5-2-1a 單模型之logistic 迴歸分析:年齡與罹患冠心病(CHD)關係
5-2-1b 單一logistic 迴歸之再練習:年齡與罹患冠心病(CHD)關係
5-3 對數常態(log-normal) 分布、對數logistic (log-log) 分布
5-3-1 對數常態(log-normal) 分布:偏態分布
5-3-2 對數邏輯斯分布(log-logistic):偏態分布
5-4 雙邏輯斯混合模型(fmm 2 : logit指令):電子支付之因素
5-5 雙機率混合模型(fmm 2: probit指令):電子支付之因素
5-5-1 線性機率迴歸模型(probit regression) vs. logistic 模型
5-5-2 雙機率迴歸分析:電子支付影響因素
5-6 雙complementary log-logistic 模型(fmm 2: cloglog 指令):電子支付之因素
5-6-1 對數- 邏輯斯模型(complementary log-logistic model)
5-6-2 雙「對數- 邏輯斯」模型(complementary log-log model):電子支付
Chapter06 有限混合模型:多項Logit 迴歸(「fmm:」開頭mlogit 等指令)
6-1 離散選擇模型(asmprobit、mlogit、fmlogit、bayes: mlogit、mprobit、clogit、asclogit、ologit、logit、xtologit、zip 等指令)
6-1-1 離散選擇模型(DCM) 概念
6-1-2 離散選擇模型(DCM) 之數學式:以住宅選擇為例
6-2 單分布之多項邏輯斯模型(multinominal logit model, MNL)
6-3 Multinomial logit 迴歸分析:職業選擇種類(mlogit 指令)
6-4 多項邏輯斯迴歸分析:乳房攝影(mammo-graph) 選擇的因素(mlogit 指令)
6-5 多項機率迴歸分析(multinomial probit regression):三種保險的選擇(mprobit 指令)
6-6 多項式邏輯斯迴歸
6-6-1 個人化的行為預測和市場區隔的行為預測何者較有效度?
6-6-2 品牌選擇行為模型:隨機效用模型vs. 混合分群之多項式邏輯斯迴歸模型
6-7 雙多項Logit 迴歸(fmm: mlogit指令):汽車品牌選擇
6-7-1 雙多項邏輯斯混合模型(fmm: mlogit指令):三種汽車品牌選擇
Chapter07 有限混合模型:Ordinal outcomes 迴歸(fmm:開頭ologit、oprobit 指令)
7-1 離散選擇模型(asmprobit、mlogit、fmlogit、bayes: mlogit、mprobit、clogit、asclogit、ologit、logit、xtologit、zip 等指令)
7-2 Ordered Logit 及Ordered Probit 模型之概念
7-3 Ordered Logit 及Ordered Probit 迴歸分析:影響親子親密關係的因素(reg、listcoef、prgen、ologit、logit)
7-4 Ordered Logit 迴歸分析:Copenhagen 的住房條件(ologit、lrtest、graph bar、oprobit 指令)
7-5 雙Ordered logistic 混合迴歸(fmm: ologit 指令):健康等級之因素
7-6 雙Ordered probit 混合模型(fmm : oprobit 指令):健康等級之因素
7-6-1 Ordered probit regression 混合模型之指令 .
7-6-2 Ordered probit regression 混合模型:健康等級之因素
Chapter08 有限混合模型:計次(count) 迴歸(fmm:開頭指令)
8-1 單分布Count 依變數:零膨脹Poisson 迴歸 vs. negative binomial迴歸
8-1-1 Poisson 分布
8-1-2 負二項(negative binomial) 分布
8-1-3 零膨脹(Zero-inflated)Poisson 分布
8-2 單分布Count 依變數:零膨脹Poisson 迴歸 vs. 負二項迴歸(zip、nbreg、prgen 指令)
8-3 單Zero-inflated ordered probit regression 練習:釣魚(zip 指令)
8-4 單零膨脹Ordered probit 迴歸分析:抽菸嚴重度(zioprobit 指令)
8-5 雙負二項混合模型(fmm: nbreg 指令):精神科患者隨訪次數
8-6 雙Poisson 混合模型分析(fmm: poisson 指令):醫生問診次數
8-7 雙零膨脹Poisson 之混合模型(fmm :pointmass指令):釣魚數量
Chapter09 設限(censored) 混合模型、截斷(truncated)混合模型(fmm: tobit、fmm: tpoisson、fmm:intreg 指令)
9-1 單區間設限(interval-censoring) 迴歸(tobit 指令):學習成就的因素
9-2 雙tobit regression 模型(fmm: tobit 指令):大學生GPA 分數
9-3 雙區間(interval) 迴歸模型(fmm: intreg 指令):婦女工資類別的上下限
9-4 單截斷(truncated) 迴歸分析(truncreg 指令):學習成就的因素
9-5 雙truncated 線性迴歸模型(fmm: truncreg 指令):妻子工作時數
9-6 雙Truncated Poisson 迴歸(fmm: tpoisson 指令):買步鞋數量
Chapter10 Cox 存活分析vs. 雙存活迴歸模型(fmm:streg 指令)
10-1 Cox 存活分析:臨床研究最重要統計法
10-2 存活分析(survival analysis) 介紹
10-2-1 存活分析之定義
10-2-2 為何存活分析是臨床研究最重要的統計法?
10-2-3 存活分析之三種研究目標
10-2-4 存活分析之研究議題
10-2-5 設限資料(censored data)
10-2-6 存活時間T 之機率函數
10-2-7 Cox 存活分析vs. Logit 模型/Probit 模型的差異
10-3 存活分析範例:除草有助幼苗存活率嗎?
10-3-1 生命表(life table)
10-3-2 存活分析範例[ 依序(estat phtest、sts graph、ltable 或sts list、stci、stmh、stcox 指令)]
10-4 Cox 比例危險模型(proportional hazards model)(stcox 指令)
10-4-1 f(t) 機率密度函數、S(t) 存活函數、h(t) 危險函數、H(t) 累積危險函數
10-4-2 Cox 比例危險模型之迴歸式解說
10-4-3 危險函數的估計(hazard function)
10-4-4 Cox 比例危險模型之適配度檢定
10-4-5 Cox 模型之相對風險(relative risk, RR)
10-5 Logit 模型、Cox 迴歸、Probit 模型的概念比較
10-6 存活分析之有限混合模型(fmm: streg 指令):手術傷口治癒模型
Chapter11 有限混合模型:Beta 迴歸(fmm: betareg等指令)
11-1 Beta 分布(Beta distribution)
11-1-1 Beta 分布之概念
11-1-2 Beta 分布的特性
11-2 雙Beta 迴歸分析(fmm: betareg 指令):就讀學校合格率之因素
Chapter12 有限混合模型:GLM 迴歸(fmm: glm等指令)
12-1 廣義線型模型(generalized linear regression models)
12-1-1 廣義線性迴歸之概念
12-1-2 指數分布族、廣義線性模型之建模
12-2 參對數常態混合模型[fmm 3: regress、fmm 3:glm, family(lognormal)指令]:郵票厚度為例
參考文獻
序
混合模型(mixture model) 旨在密度估計、聚類資料(clustered data)、區別(discriminant) 分析,後來演變成「潛在類(unobserved classes) 迴歸預測」的工具。
混合模型框架提供了一個方便且靈活的方法來模擬複雜的異質(heterogeneous) 資料庫( 如生物學研究中通常會出現的資料集),例如:細胞計數數據和微陣列數據的分析、大型生物醫學資料集之減少維度、非對稱和非常態集群。有限混合模型(FMM) 早期應用在天文學(astronomy)、生物學(biology)、經濟學(economics)、工程學(engineering)、遺傳學(genetics)、市場行銷(marketing)、醫學(medicine)、精神病學(psychiatry),現已流行於教育學、心理學、社會科學、人管、生產管理、經濟系、風險管理系、航運管理、財務金融、會計、公共衛生、工業工程、土木⋯⋯。
本書有限混合模型(FMM),包括線性迴歸、次序迴歸、logistic 迴歸、多項logistic 迴歸、count 迴歸、零膨脹迴歸、參數型存活迴歸、2SLS 線性迴歸、order迴歸、Beta 迴歸等理論與實證研究。
本書第一章先介紹SAS、R 和SPSS 如何轉成STaTa,坊間常見的四十一種軟體及大型資料庫之檔案格式,都可轉至STaTa 來分析。STaTa 也是大數據分析很好的工具。
FMM 旨在「先求潛在分類(unobserved classes),再各類分別求其迴歸式」。
STaTa 提供十七種有限混合模型(FMM),僅logistic 迴歸的應用領域,就有下列十三種:
(1) 公共衛生領域:某傳染病的死亡因素。
(2) 生物醫學領域:癌症患者放射線治療對產生副作用、腎虛症與骨質疏鬆症關聯性、憂鬱症狀之影響因子等Logistic 分析⋯⋯。
(3) 工程類中的建物地震損害程度評估模型、絕緣礙子火花偵測系統。
(4) 商業領域:客戶關係管理、公司企業的存活;市場研究之消費者對特定商品購買時間、客戶忠誠度;或者商業上客戶資料管理、行銷、企業倒閉、員工離職。
(5) 財務金融領域:個人消費性貸款、法人金融預警分析等。
(6) 保險統計學及人口統計學中的投保與否。
(7) 社會學中的事件歷史分析,研究女性婚姻抉擇因素、高齡人口選擇未來養老居住方式⋯⋯。
(8) 法學研究:犯罪的因素等。
(9) 工業領域:可靠度分析、工業製成、產品cycle。
(10) 經濟研究:失業的因素,從就業時間到失業時間,到再就業時間等。
(11) 教育領域:老師離職、學生休退學/ 吸毒的因素等。
(12) 財管領域:財務危機與轉投資活動關係、貸款授信違約風險評估、銀行放款信用評等、應收帳款呆帳預測等。
(13) 行銷/ 企管類:旅客參與觀光旅遊線之消費型態、汽車保險續保、. 投資型保險商品購買預測等。
有鑑於STaTa 是地表最強統計軟體,故作者將撰寫一系列STaTa 的書籍,包括:
一、《STaTa 與高等統計分析的應用》一書,該書內容包括描述性統計、樣本數的評估、變異數分析、相關、迴歸建模及診斷、重複測量⋯⋯。
二、《STaTa 在結構方程模型及試題反應理論》一書,該書內容包括路徑分析、結構方程模型、測量工具的信效度分析、因素分析⋯⋯。
三、《STaTa 在生物醫學統計分析》一書,該書內容包括類別資料分析( 無母數統計)、logistic 迴歸、存活分析、流行病學、配對與非配對病例對照研究資料、盛行率、發生率、相對危險率比、勝算比(odds ratio) 的計算、篩檢工具與ROC 曲線、工具變數(2SLS)⋯⋯Cox 比例危險模型、Kaplan-Meier 存活模型、脆弱性之Cox 模型、參數存活分析有六種模型、加速失敗時間模型、panel-data 存活模型、多層次存活模型⋯⋯
四、《Meta 統計分析實作:使用Excel 與CMA 程式》一書,該書內容包括統合分析(meta-analysis)、勝算比(odds ratio)、風險比、四種有名效果量(ES) 公式之單位變換等。
五、《Panel-data 迴歸模型:STaTa 在廣義時間序列的應用》一書,該書內容包括多層次模型、GEE、工具變數(2SLS)、動態模型⋯⋯。
六、《STaTa 在總體經濟與財務金融分析的應用》一書,該書內容包括誤差
異質性、動態模型、序列相關、時間序列分析、VAR、共整合等。
七、《多層次模型(HLM) 及重複測量:使用STaTaa》一書,該書內容包括線性多層次模型vs. 離散型多層次模型、計數型多層次模型、存活分析之多層次模型、非線性多層次模型⋯⋯。
八、《模糊多準評估法及統計》一書,該書內容包括AHP、ANP、TOPSIS、Fuzzy 理論、Fuzzy AHP 等理論與實作。
九、《邏輯斯迴歸及離散選擇模型:應用STaTa 統計》一書,該書內容包括邏輯斯迴歸 vs. 多元邏輯斯迴歸、配對資料的條件logistic 迴歸分析、multinomial logistic regression、特定方案Rank-ordered logistic 迴歸、零膨脹ordered probit regression迴歸、配對資料的條件邏輯斯迴歸、特定方案conditional logit model、離散選擇模型、多層次邏輯斯迴歸⋯⋯。
十、《有限混合模型(FMM):STaTa 分析( 以EM algorithm 做潛在分類再迴歸分析)》一書,該書內容包括FMM:線性迴歸、FMM:次序迴歸、FMM:Logit 迴歸、FMM:多項Logit 迴歸、FMM:零膨脹迴歸、FMM:參數型存活迴歸等理論與實作。
十一、《多變量統計:應用STaTa 分析》一書,該書內容包括MANOVA、囷素分析、典型相關、區別分析、MDS⋯⋯。
此外,研究者如何選擇正確的統計方法,包括適當的估計與檢定方法、與統計概念等,都是實證研究中很重要的內涵,這也是本書撰寫的目的之一。本書內容結合「理論、方法、統計」,讓研究者能正確且精準使用STaTa,期望對產學界有拋磚引玉的效果。
最後,特別感謝全傑科技公司(www.softhome.com.tw) 提供STaTa 軟體,晚學才有機會撰寫STaTa 一系列的書籍,以嘉惠學習者。
張紹勳 敬上
二、有限混合模型(finite mixture model,fmm)簡介有限混合模型(finite mixture model,fmm)為一種混合分布的機率模型,其假定原始實測資料(field observation)係自眾多但有限的未知分布而來,而FMM模型的EM演算法可自行分類(class/component),以減少模型因存在不同異質體(heterogeneity subpopulations)而導致偏誤的估計結果。FMM模型假設在未知的K個體下,彼此間關係式為:其中, 為混合機率密度(mixture density)的機率函數,經由k個加權比例 ,與其組內機率 所得的機率加權總合。此種機率函數因存在「有限個」加權機率,所以又稱有限混合機率分布(finite mixture)函數。其中, 為各組的加權比例(weight),它被限制(約束)為正值且總和為1( )。公式中 通常包括:常態分布、Logit分布、Poisson分布…等。假設你指定樣本符合Gumbel分布,則其模型可化身為選擇模型(作者另一本書),包括:多項logit回歸(mlogit指令、及asmprobit、fmlogit、bayes: mlogit、mprobit、clogit、asclogit、ologit、logit、xtologit、zip等指令)。其中,多項logit模型隱含可觀測的選擇行為,在不同群有不同的分布比例,若依據比例大小來分類,同群內視為同質(homegeneous),而不同群之間為異質(heterogeneous)。由於選擇機率的發生係受回歸係數β所影響,此使得任一影響屬性會因屬於不同群,而在不同群產生不同的邊際影響係數。在應用方面,行銷、運輸、社會科學等領域,迄今已有眾多研究以FMM模型或潛在類別模型「latent class model, LCM;類別資料+因素分析的合體)」來進行市場區隔(各子群體)的討論。在傳統LCM方法中,係同時模化群內與群間機率,而兩者事先之機率分布你可就資料特性檢自行指定:(1)群內機率旨在說明同群內對產生或某服務服具有相同特質。例如價格與品牌,由於各族群對變數的感受不一、或某特定族群的比例過低,而導致回歸係數的不顯著或不穩定,乃至不具參考價值,此時修正法可考慮固定(constant)、捨棄、或跨群一併校估的處理方式。(2)各群間機率旨在分析影響各次群組的因素,例如改採用FMM的潛在分類(當依變數)、社會經濟、群組層次人口統計等當解釋變數。至於分群數目的多寡可由模型適配指標「AIC、BIC」來決定(值愈小模型愈佳)。倘若BIC仍難以解釋此困境,則你可依據先驗知識/文獻探討來決定分群數目。