應用結構方程模式之問題和謬誤

来源:百度文库 编辑:神马文学网 时间:2024/06/30 19:00:35
江哲光
燕京書院
侯傑泰
香港中文大學教育學院
教育學報.1997夏.第25卷.第1期
摘要
本文討論應用結構方程模式一些較重要問題和常見謬誤,包括:(一)數據與模式擬合的意義、(二)等同模式問題、(三)擬合優指數、(四)模式修訂及交互效度、(五)相關與因果關係、(六)潛伏變項之名實相符問題、和(七)用SEM分析相關矩陣問題。本文綜合並重申學者指出運用SEM常見之謬誤,亦嘗試提出解決辦法,供研究者參考。
結構方程模式(structural equation modeling, SEM)在教育及心理研究之應用日趨重要和普遍。然而,初學者使用時頗容易產生疑問,例如先驗(apriori)模式並不擬合數據時應如何修正?擬合優指數眾多而且有時又很不一致,應以哪個為依據?SEM是否驗證潛伏變項的因果關係?諸如此類的問題甚多,本文嘗試從用家的角度,綜合近年各有關文獻,分析及探討應用SEM的一些問題和誤解。
模式與數據擬合是否表示模式正確?
不少研究應用SEM檢視數據與理論模式的擬合度,若擬合度高,則說數據證明理論模式正確。此種說法,其實不夠嚴謹-嚴格而言屬於謬誤。這可從擬合的數學和統計意義解釋。
在SEM分析中,研究者搜集N個樣本對P個外顯變項(observable variable)的反應,所得結果以一個(p×p)協方差矩陣(covariance matrix)表示。此矩陣包含了樣本外顯變項間的相互關係,稱為樣本協方差矩陣(sample covariance matrix),簡寫S。
為揭示外顯變項相互關係所隱含潛伏因子(latent factors)之特性及關係,研究者建立模式界定潛伏因子與外顯變項之關係,稱為測量模式(measurement model)。同時,亦可界定潛伏因子與潛伏因子間之特殊關係,稱為結構模式(structural model)。
試以一個研究社經地位,學業自我觀與學業成就的例子說明(圖一)。圖中社經地位,學業自我觀和學業成就為三個潛伏因子。社經地位由六個外顯變項(父母教育,職業及收入)測量。學業自我觀由學生回答五個問題的反應推論。而學業成就則以中、英、數三科成績為指標。模式之結構部分假定學生的社經地位和學業自我觀有相關(用雙向箭咀表示)。學生的社經地位及其學業自我觀對學業成就有直接影響(用單箭咀表示)(見圖一)。
圖一   社經地位、學業自我觀與學業成就之關係模式

要表達變項間之關係,模式需計算q個估量參數(estimated parameters)。利用結構方程方法,不單只能夠計算估量參數之數值,同時能夠利用估量參數數值逆轉運算在q個參數條件限制下,該p個外顯變項應有之估量協方差矩陣(estimated covariance matrix),簡稱為E。
當計算所得的協方差矩陣E和數據原來的協方差矩陣S相差甚大時,表示研究者所設定的模式不符合數據所顯示變項間原有的關係,亦即數據資料否定研究者所規劃的模式。反之當E和S差異甚小時,表示研究者所設定的模式並不牴觸數據所揭示的關係,亦即數據資料不排斥模式,因此,一如所有的推論性統計分析,數據與模式擬合只說明數據並不排斥模式,而不是說數據可以確認模式,更不能說證明某一理論。SEM模式驗證其實只是辨別那些模式是錯誤(與數據相斥)而需摒棄或修訂。至於那些與數據擬合的模式,只能算是可供考慮的模式,是至目前為止仍未被否定的模式(見Cliff, 1983; Joreskog, 1993)。研究者不能因為使用SEM便說可以證明模式正確,這其實與應用其他統計分析的結論類同-都不能證明模式正確,只證明模式還未遭否定-這才是較嚴謹的研究態度。
為甚麼要考慮等同模式?
上述討論指出與數據相容的模式只能看待為可供考慮的模式。然而,在實際分析時,還要考慮等同模式問題。原來以相同數目之參數(q),用不同組合形式是可以產生許多不同模式,而當中也有不少模式所衍生的協方差矩陣是完全相同的。換言之,同一數目參數(q)是能夠衍生多個與數據擬合度相同但結構不同的模式。學者稱此等參數相同擬合度相同但結構不同的模式為等同模式。就以上述圖一含三個潛伏變項的模式為例,則至少已有十五個等同模式(Breckler, 1990)。
等同模式中各個不同模式可能含有截然不同的學理意義。例如將圖一由學業自我觀指向學業成就的箭咀反過來由學業成就指向學業自我觀,所得的模式等同圖一。但兩模式的含義就大異其趣。圖一代表學業成就受社經地位及學業自我觀影響。另一等同模式則表示學業成就影響學業自我觀。該兩模式的擬合度完全相同,惟兩模式部分參數值可能不同。
此處也再一次說明因為存在等同模式,單憑檢視數據和模式的擬合度,許多時是不能指出哪一個學理更切合數據的。必須透過其他研究設計,如實驗法等,加以控制和識別有關變項,才有進一步的了解(詳見Lin & Hau, 1995)。頗多應用SEM研究,只檢查單一模式,並以此為根據討論結果,完全忽略數據其實可從其他角度去闡釋,而絕不影響數據與模式之擬合度。此漠視等同模式問題的現象極為普遍而且產生不少謬誤(Breckler, 1990; Lin & Hau, 1995; MacCallum et al., 1993)。故此,SEM用家宜特別謹慎。應留意等同模式之存在,並參照一些學者提出的法則檢視其他等同模式(Lee & Hershberger, 1990; Stelzl, 1986)。在甄選模式時,需審視各模式所表達的意義,依據學理選取適切的模式,對於揚棄不用的等同模式,亦應加以解釋說明,這是較嚴謹的分析策略。
其實除了等同模式外,仍有許多其他頗切合數據的不同模式,研究者宜根據學理基礎,列舉多個競爭模式(competitive models),採用模式比較法(e.g., Anderson & Gerbing, 1988; Lin & Hau, 1995)選取最佳者。
哪些擬合優指數較具參考價值?
要審查模式是否與數據擬合,需要比較估量協方差矩陣和樣本協方差矩陣之差異(E - S)。兩矩陣的整體差異可用一個數字表示,在模式為真的情況下,此數字的統計分配呈卡方分配(chi-square distribution),所以此數字亦稱卡方(chi-square)。在統計學而言,卡方測試其實檢視在已知自由度(df: degree of freedom)情況下,E 和S出現差別的機率。如卡方值小於某一顯著水平之臨界值(critical value),表示E與S之差異未達顯著水平,亦即模式接近數據。反之若E與S之差異達顯著水平, 則表示模式與數據有明顯差異。簡言之,自由度相同下,卡方值愈小表示模式與數據相斥的機會較低。
然而直接應用卡方測試以鑑定某一特定模式是否與數據擬合實際上有頗大困難。因卡方的大小與樣本人數(N)有關(準確來說,卡方只適用於較大樣本上)。在N很小時,卡方測試的辨別度不高,即若人數不多,所有與理論模式相距甚遠的錯誤模式,也得一極小的卡方值。而當N極大時,卡方測試又過分敏感,排斥所有與理論模式相差極微的模式。例如研究社經地位與學業成就的關係,若樣本只有數十人,則任何建議的模式均好像與數據擬合。但若樣本有數千人時,則絕大部分假設模式在卡方檢視下,均與數據不擬合。
為解決上述困難,學者先後提出不下二、三十種擬合優指數,冀能幫助研究者選取合理模式。不過大部分擬合優指數,都以卡方為根據,只是加上各式各樣不同方法的修正。原則上理想的擬合優指數不單只不受樣本數目影響(見Marsh, Balla & Hall, 1996),同時亦要根據模式參數多寡而作調整,懲罰多參數之模式。按擬合優指數所反映的特性,學者將擬合優指數分為幾類。
絕對擬合優指數(absolute fit indices)
絕對擬合優指數是將理論模式(Mt)和飽和模式(Ms)比較。飽和模式是指各變項間均容許相關,為最複雜之模式,其自由度為零,但能百分百反映數據的關係。這類指數,常用者有卡方測試,GFI (goodness-of-fit index) 及 AGFI (adjusted goodness-of-fit index) (Joreskog & Sorbom, 1989)。此類指數常被批評受N影響,且在不同情況下,有各種程度的誤差出現(Hu & Bentler, 1995)。
增值擬合優指數(incremental fit indices)
增值擬合優指數將理論模式(Mt)和基準模式(Mb)比較。常用的基準模式為虛模式(Mn),即變項間全無相關,為限制最大和最不擬合的模式。將理論模式與之比較,看看擬合情況改進多少。常用之增值擬合優指數有NFI(normed fit index, Bentler & Bonett, 1980), TLI(Tucker Lewis index, Tucker & Lewis, 1973;亦稱NNFI, non- normed fit index , Bentler & Bonett, 1980)。
省儉擬合優指數(parsimony fit indices)
有些學者提出要在擬合優指數中引入省儉原則,懲罰參數多的模式(Bentler & Mooijaart, 1989; McDonald & Marsh, 1990; Mulaik et al., 1989)。學者建議將一些增值擬合優指數乘以省儉比(dft/dfn, parsimony ratio)。產生另一類省儉擬合優指數。省儉比中dft,dfn 分別為理論模式及虛模式之自由度。在虛模式Mn自由參數最少,故dfn最大。若理論模式Mt簡單接近Mn,則dft與dfn相約,故省儉指數只是略低於原增值擬合優指數。若Mt複雜接近飽和模式Ms,則dft大減,而省儉指數大大低於原增值擬合優指數,這正反映以省儉指數懲罰複雜模式之原則,模式愈簡單愈不作懲罰,模式愈複雜,則指數愈被調低。
離中擬合優指數(noncentrality fit indices)
有些學者亦建議用離中參數d(noncentrality parameter)以估量母群(population)中理論模式與實際數據之差距函數(discrepancy function)(e.g., Bentler, 1990; McDonald & Marsh, 1990)。計算公式如下:
d = (χ2t - dft)/(N - 1)
統計學者更利用離中參數(d)界定一些離中擬合優指數(noncentrality fit indices)。例如CFI(comparative fit index, Bentler, 1990)及極相類似的RNI(relative fit index, McDonald & Marsh, 1990)。
近年來有研究利用模擬數據及真實數據檢定樣本數目對各類型擬合優指數的影響(例如:Marsh, Balla & Hau, 1996; Marsh & Hau, 1996; Marsh, Hau & Balla, in press)。Marsh等人的研究結果顯示大部分聲稱不受N影響的擬合優指數,其實在一定程度上都隨N改變,這些指數包括IFI, GFI, AGFI, RFI及NFI等,只有TLI(即NNFI),RNI及CFI等幾個指數有較穩定之表現(見Marsh, Balla & Hau, 1996; Marsh, Balla & McDonald, 1988)。在模式比較和驗證時,學者認為需要參考多個不同類型而且性質穩定的指數(Bentler, 1990; Bentler & Bonett, 1980; Bollen, 1989; Joreskog, 1993)。Marsh, Balla & Hau(1996)推薦TLI(即NNFI),RNI和卡方測試等幾個擬合優指數。尤其是對於一些非常態分佈的數據,研究者亦應考慮採用調整卡(scaled chi-square)方法(Hu & Bentler, 1995)。
此外,也有學者批評卡方測試和其他一些擬合優指標其實檢視模式是否與數據百分百擬合,假定出現不擬合情況純由抽樣誤差構成,這無疑是一項過分要求,因為理論模式通常為一簡化之近似版本,若能夠反映數據所呈現之主要關係,已經是優良模式。故此學者提出應該檢視模式是否在可接受範圍內與數據近似擬合,而不是審視模式與數據完全擬合。Browne and Cudeck(1993)建議參考RMSEA(root-mean-square error of approximation),並從實證試驗指出若RMSEA少於0.05,則為頗佳之模式。更有學者主張利用RMSEA計算置信區間(confidence interval)及作功率測驗(power test)(e.g., MacCallum, Browne & Sugawara(1996)。基本原理是透過估量母群在某一置信水平RMSEA之區間值,若模式之RMSEA在估量區間內,則不排斥有關模式(詳見MacCallum et al., 1996)。
怎樣修改模式及進行交互效度檢定(cross-validation)?
SEM除可用作驗證模式和比較不同模式外,不少研究者亦用作評估模式及修正模式。研究者從一雛形模式開始,將此模式與數據相印證。若發現雛形模式偏離數據所揭示的情況,則將原來模式修正然後再測試,不斷重覆此過程,直至獲得一個與數據擬合而同時各個估量參數亦有合理解釋之模式為止。進行此種模式測試及修正,研究者尤應審視下列各點。(一)SEM的解答是否適當的(proper; and well defined):包括重複漸進估計法能匯集(iterated estimate converges),各參數是否在合理範圍內(例如相關係數在+1與-1之內,誤差值合理)。(二)參數與實際預設模式(substantive a priori model)之關係是合理的。當然數據分析可能出現一些預期以外的結果,但各參數絕不應出現一些互相矛盾,與先置的假設有嚴重衝突的現象。(三)參閱多個不同類型的整體擬合優指數,如 TLI、RNI、RMSEA 和卡方等 (Hau, Cheng & Chung, 1996; MacCallum et al., 1996; Marsh, Balla & Hau, 1996)。
若要修改模式,可參考SEM輸出之殘差分析(residual analysis)和修改指數(modification index)。所謂殘差是指實際變異量(或共變量)和估量變異量(或共變量)之差。若殘差為正值,表示模式低估兩變項之變異量。相反,負殘差代表模式高估兩變項之變異量。若兩變項之殘差為正,研究員需審視應否增加路徑(paths)使更能反映兩變項之真正關係(應較高)。在殘差為負時,研究員可考慮刪除一些途徑減低兩變項估量共變量過高的情況。
研究者亦可參考SEM輸出修改指數修改模式。所謂修改指數是指模式某個受限制之參數,若容許自由估值,則模式會因放鬆此參數而改良,整個模式卡方減少之數值,稱為此參數之修改指數。同時亦會輸出參數期望值(expected parameter change),使研究者了解若容許自由估值,此參數估量值之大小和方向。實際應用時亦應考慮放鬆此參數是否有學理根據。此時合理解說至為重要,研究者萬不能隨便修改模式,這樣只會變成數據導引(data driven)。最後所得的模式可能只是隨機遇而生(capitalization on chance)。學者一般認為潛伏變項間的相關,在有合理解釋下可以容許自由估值。但對於指標變項誤差間的相關,除有特殊理由外(e.g., Marsh & Hau, 1996),其他多不能容許自由(Joreskog, 1993)。對數值最大修改指數,若沒有放鬆之合理解釋時,研究者只得跳過此參數,改為考慮第二大數值的修改指數,再審視放鬆限制之合理性,餘此類推。也許最後會得到一個合理而又頗切合這個特定樣本的模式。當然更嚴謹的做法是不考慮修改指數,只比較數個可能模式(competitive models)的擬合優指數。
上述探索性分析所得的最終模式,基本上是透過不斷調節模式與特定樣本數據擬合度之產品。然而此模式能否普遍適用其他樣本,就必須進行交互效度檢定(cross-validation)。基本原理是再抽取另一樣本對該模式進行擬合度檢定。若果原來樣本數目足夠大,亦可將原來樣本隨機分為相等兩半。一半進行探索性模式修正,另一半留作驗證性分析。研究者萬萬不能將同一樣本先作探索性分析,然後又用原來樣本進行驗證性分析,這樣只是犯上確認分析結果的毛病,是完全沒有半點驗證模式的成分在內的。Cudeck and Browne(1983)不單只詳細介紹交互效度驗證辦法,還建議採用交互效度擬合優指數(cross-validation fit indices),檢定模式交互效度,推論至其他樣本及母群 (population) 的適切性 (Browne & Cudeck, 1989; Cudeck & Browne, 1983)。
SEM是否驗證變項間的因果關係?
在圖一假設分析結果得出模式與數據不排斥且潛伏變項間之參數不等如零,顯示社經地位,學業自我觀與學業成就有相關。但不能單從模式與數據擬合就說社經地位,學業自我觀與學業成就存在因果關係。除非此研究經過特別設計(詳見下述)能夠明確指出變項間的因果效應。嚴格來說,一個非經設計用以探討變項間因果效應的研究,無論應用何種統計方法-包括SEM,都不能指明變項間是否真正存在因果關係。因為單從等同模式考慮,已經可以舉出許多擬合度相同但變項間效應相反的例子。
其實要證明變項間的因果關係,最好是利用實驗設計,控制其他變項之影響,探討主要變項的因果效應。在一些非實驗研究,有些研究者以為只要變項間存有時間上之先後次序,且兩變項有相關,則可以解釋為因果關係。如以圖一之例子說明,假設研究者測量學生小學時的學業自我觀,而在初中測量學生的學業成就,研究者發現兩者有相關,認為學生自我觀對學業成就有因果效應,因為學生小學時的學業自我觀影響初中的學業成就。這種說法也是錯誤的。雖然存在學生自我觀為因,學業成就為果的可能性,但也不能排除變項間含相反因果關係的情況。
現舉一個極端例子說明,假設研究者在T1測量學生在初小時的學業成就,然後在T1時(T2較T1為晚)測量學生父親的收入,發現兩者有相關(顯示父親收入較佳的學生其學業較好),但我們似乎不會輕易贊同子女在初小讀書較好會增加父親收入的因果說法!故此,時序上的先後,絕非一充分條件。雖則嚴格來說SEM方法不能證明因果關係,但它能大大協助我們尋找變項間最可能的因果關係,在一典型分析中,研究者依據各種學理設定了多個可能模式以反映變項間之不同因果關係。如在模式甲中,因素A透過B對C起作用,而在模式乙中,因素A則透過C對B起作用。我們可利用SEM以決定模式甲或乙更接近數據,從而獲知哪種因果關係更為合理。
要達到利用非實驗設計探討變項之因果關係,Marsh(1990) 也提出幾點參考意見:(一)採用縱貫研究數據,每個變項至少要有兩次測量(即在T1及T2)(二段設計),當然每個變項最好有多次測量(多段設計)。(二)使用多個外顯指標以推算潛伏變項,非迫不得已使用單指標變項時,要估計測量變項之信度,推算變項測量誤差。(三)樣本數目要夠大和具代表性,使SEM之推論具有意義和普遍性。(四)考慮不同模式和考慮測量變項誤差項相關之意義。
怎樣避免潛伏變項名實不符的問題?
要研究一些理論概念(theoretical constructs)的關係,許多時研究者會將有關的概念命名,然而這並不表示研究者已充份了解和能夠準確測量此概念的特質。例如欲探討創造力和抽象思維能力的關係,某研究者利用檢視學生聯想作文中意念多寡表示創造力,利用數學推理測驗和空間推理測驗代表抽象思維能力,然後從這些作文及推理測驗所得的結果討論創造力和抽象思維能力的關係,這種情況可能犯了「名實不符」的謬誤(nominalistic fallacy),因為研究者所採用的指標變項也許未能充分地反映有關潛伏變項的內涵,甚或只是測量了其他變項的特質(如作文能力,數學能力)。然而,錯誤標籤令研究者以為自己在探索創造力和抽象思維能力的關係。
要準確反映潛伏變項,對於外顯指標的選取和潛伏變項的命名都需要仔細考慮思量。在測量學而言,其實涉及測量工具的信度和效度問題。應用SEM亦可協助檢視測量工具的信度和效度。
傳統方法應用Cronbach alpha(Cronbach, 1951)計算測量工具的信度係數。若所得信度係數高表示各指標變項內部一致性 (internal consistence)高。這常被認為是信度可靠的測量工具。然Hau(1995)指出利用alpha表示信度有不少局限,其中最大問題是高信度並不表示單度向(unidimensionality)。Hau(1995)以模擬數據方式顯示一些看來信度甚高的情況(高alpha值),其實並非單一度向。換言之,一測量工具有高信度係數,並不一定單是量度一個潛伏變項。為此研究者不能倚靠信度係數而了解測量工具之度向性。面對此問題研究者可應用SEM驗證性因素分析,透過探討指標變項之因子結構等,了解所測量的潛伏變項的度向數目。例如採用模式比較法,將各指標變項從屬於單因子,雙因或多因子等各個不同模式比較各模式與數據的擬合度。如果模式比較結果發現單因子結構與數據最為擬合,加上各指標變項又有高因子負重和高複相關;則顯示指標變項所反映的內涵趨近單度向性,亦即表達單一潛伏變項之特質。
然而究竟指標變項所反映的特質是甚麼?應該怎樣命名,則是測量效度問題。就意義來說,效度是指指標變項所測量的特質是否真正能夠反映研究者意欲測量的潛伏變項。例如,要測量學生自我觀,所選用的量標是否真正能夠反映學生對自己的觀感和評價?要評估效度一般從測量工具的內容(內容效度,content validity) 與效標變項的關係(評準效度,criterion validity)和與其他同類測量工具的關連(並存效度,concurrent validity)等幾方面手。這方面SEM亦提供了簡易便捷之驗證分析,使研究者容易進行多種特質-多種測量法以檢驗測量工具之評準效度和並存效度。仔細分析辦法詳見有關文獻(e.g., Campbell & Fiske, 1959; Marsh, 1988; Wothke, 1996)。
可否應用SEM分析相關矩陣?
SEM之數學及統計學基礎完全建立在方差和協方差分析上,但有研究者將SEM應用在相關矩陣(correlation matrices)。這種做法,在某些情況下並不正確。研究者最初亦不察覺將SEM應用在相關矩陣分析,對某些模式而言,可能出現下列錯誤,包括(a)產生錯誤參數估值,(b)產生錯誤擬合度(如卡方),(c)產生錯誤標準差。然而文獻顯示不少誤用的情況,其中不乏著名的SEM用家如Bentler, Lee, Joreskog, Sorbom, Marsh, McDonald等(見Cudeck,1989)。
要應用SEM分析相關矩陣而不產生錯誤結果,需要符合兩個條件:(一)模式為「不隨量標轉變」模式(scale-invariant model)(二)模式中之所有參數為「量標自由」參數(scale-free parameters)。簡單來說,「不隨量標轉變」模式是指模式之協方差矩陣經過量標重整(rescaling﹝即數學轉換﹞,transfomation)所得的新協方差矩陣仍滿足原來之模式。在「不隨量標轉變」模式中之參數若經過量標重整,某參數仍保持不變者,稱為量標自由參數,若經過量標重整,參數改變者稱為量標依變參數 (scale-dependent parameters)。
假如模式滿足上述(一)(二)兩項條件,則三種錯誤( a )( b )( c )都不會產生。如果只符合條件(一),則錯誤( a )( b )不出現。若(一)不成立,三類錯誤都會出現。有關之數學推導過程可參看Cudeck( 1989 )。例如下列因子結構模式都是不符合條件(一)之例子( Cudeck, 1989 ): 模式中限制各潛伏因子之變異量為 1,而同時又限制某指標變項之因子負重為不等於零之固定值。 模式中限制同一因子之兩個或以上指標變項之因子負重都不等於零之固定值。 模式中限制同一因子之兩個或以上指標變項之因子負重相同。 模式中限制不同因子之兩個或以上指標變項之因子負重相同。 模式中限制兩個或以上依變潛伏因子之誤差相等。
總言之,應用SEM時,有時相關及協方差矩陣結果相同,但當兩者有別時,則以協方差矩陣分析者方是正確解答。
結語
SEM集合了多種傳統分析方法之優點,匯粹成為一種威力強大而適用面廣泛之分析方法。加上建立模式時極富性,容許研究者探索多種不同的理論模式;為此日漸受研究者重視和採用。
應用時,研究者要留意下列各項。(一)要了解數據和模式擬合的意義。當數據和模式擬合時,只表示數據並不否定研究者所建立之理論模式,但不能說模式是正確的。(二)適合數據的模式非常多,故此研究者分析時應著重比較不同模式和注意等同模式。(三)在檢視模式整體擬合度時,需參閱多個不同類型而表現穩定的擬合優指數,如 TLI、RNI、 RMSEA 和卡方。同時亦要考慮個別參數之擬合度和合理性。(四)從一樣本數據經探索性分析而獲得之模式,必須經過另一樣本數據之驗證分析,才能確立此模式之適用性。(五)非經設計用作檢驗變項間因果效應之研究,不應因為採用SEM而錯誤解釋為因果關係。(六)對於潛伏變項之信度和效度,必須仔細檢定,不可輕率隨意命名,以致「名實不乎」,失卻研究意義。(七)SEM建基在方差和協方差分析,除在特殊條件成立時,不應用在相關矩陣分析上。
如能妥善運用,SEM是協助研究者檢視理論模式的優良工具。
參考文獻
(1) Anderson, J. C., & Gerbing, D. W. (1988). Structural equation modeling in practice: A review and recommended two-step approach. Psychological Bulletin, 103, 411-423.
(2) Bentler, P M. (1990). Comparative fit indexes in structural models. Psychological Bulletin, 107(2), 238-246.
(3) Bentler, P. M., & Bonett, D. G. (1980). Significant tests and goodness of fit in the analysis of covariance structures. Psychological Bulletin, 88(3), 588-606.
(4) Bentler, P. M., & Mooijaart, A. (1989). Choice of structural model via parsimony: A rationale based on precision. Psychological Bulletin, 106(2), 315-317.
(5) Bollen, K. A. (1989). Structural equations with latent variables. New York: Wiley.
(6) Breckler, S. J. (1990). Applications of covariance structure modeling in psychology: Cause for concern? Psychological Bulletin, 107(2), 260-273.
(7) Browne, M. W., & Cudeck, R. (1989). Single sample cross-validation indices for covariance structures. Multivariate Behavioral Research, 24(4), 445- 455.
(8) Browne, M. W., & Cudeck, R. (1993). Alternative ways of assessing model fit. In K. A. Bollen & J. S. Long (Eds.), Testing structural equation models (pp. 136-162). Newsbury Park, CA: Sage.
(9) Campbell, D. T., & Fiske, D. W. (1959). Convergent and discriminant validation by the multitrait-multimethod matrix. Psychological Bulletin, 56, 81- 105.
(10)   Cliff, N. (1983). Some cautions concerning the application of causal modeling methods. Multivariate Behavioral Research, 18, 115-126.
(11) Cronbach, L. J. (1951). Coefficient alpha and the internal structure of tests. Psychometrika, 16, 297-334.
(12) Cudeck, R. (1989). Analysis of correlation matrices using covariance structure model. Psychological Bulletin, 105(2), 317-327.
(13) Cudeck, R., & Browne, M. W. (1983). Cross-validation of covariance structures. Multivariate Behavioral Research, 18(4), 147-167.
(14) Hau, K. T. (1995). Reliability and dimensionality: Scales with high alpha coefficients are not necessarily unidimensional (in Chinese). Education Journal, 23(1), 135-146.
(15) Hau, K. T., Cheng, Z. J., & Chung, C. M. (1996). Issues in fitting and a comparison of common indexes in structural equation modeling. Educational Research Journal, 11, 73-81.
(16) Hu, L.-T., & Bentler, P. M. (1995). Evaluating model fit. In R. H. Hoyle (Ed.), Structural equation modeling: Concepts, issues, and applications (pp. 76-99). Thousand Oaks, CA: Sage.
(17) Joreskog, K. G. (1993). Testing structural equation models. In K. A. Bollen & J. S. Long (Eds.), Testing structural equation models (pp. 294-316). Newbury, CA: Sage.
(18) Joreskog, K. G., & Sorbom, D. (1989). LISREL 7: A guide to the program and applications (2nd ed.). Chicago: SPSS.
(19) Lee, S., & Hershberger, S. (1990). A simple rule for generating equivalent models in covariance structure modeling. Multivariate Behavioral Research, 25(3), 313-314.
(20) Lin, W. Y., & Hau, K. T. (1995). Structural equation modeling: Model equivalency and respecification (in Chinese). Education Journal, 23(1), 147- 162.
(21) MacCallum, R. C., Browne, M. W., & Sugawara, H. W. (1996). Power analysis and determination of sample size for covariance structure modeling. Psychological Methods, 1, 130-149.
(22) MacCallum, R. C., Wegener, D. T., Uchino, B. N., & Fabrigar, L. R. (1993). The problem of equivalent models in applications of covariance structure analysis. Psychological Bulletin, 114(1), 185-199.
(23) Marsh, H. W. (1988). Multitrait-multimethod analyses. In J. P. Keeves (Ed.), Educational research methodology, measurement and evaluation: An international handbook. Oxford: Pergamon Press.
(24) Marsh, H. W. (1989). Confirmatory factor analyses of multitrait-multimethod data: Many problems and a few solutions. Applied Psychological Measurement, 13, 335-361.
(25) Marsh, H. W. (1990). Causal ordering of academic self-concept and academic achievement: A multiwave, longitudinal panel analysis. Journal of Educational Psychology, 82, 646-656.
(26) Marsh, H. W., Balla, J. R., & Hau, K. T. (1996). An evaluation of incremental indexes: A clarification of mathematical and empirical properties. In G. A. Marcoulides & R. E. Schumacker (Eds.), Advanced structural equation modeling techniques (pp. 315-353). Mahwah: Lawrence Erlbaum.
(27) Marsh, H. W., Balla, J. R., & McDonald, R. P. (1988). Goodness-of-fit indexes in confirmatory factor analysis: The effect of sample size. Psychological Bulletin, 103(3), 391-410.
(28) Marsh, H. W., & Hau, K. T. (1996). Assessing goodness of fit: When parsimony is undesirable. Journal of Experimental Education, 64, 364-390.
(29) Marsh, H. W., Hau, K. T., & Balla, J. R. (in press). Is more ever too much: The number of indicators per factor in confirmatory factor analysis. Multivariate Behavioral Research.
(30) McDonald, R. P., & Marsh, H. W. (1990). Choosing a multivariate model: Noncentrality and goodness of fit. Psychological Bulletin, 107(2), 247- 255.
(31) Mulaik, S. A., James, L. R., Alstine, J. V., Bennett, N., Lind, S., & Stilwell, C. D. (1989). Evaluation of goodness-of-fit indices for structural equation models. Psychological Bulletin, 105(3), 430-445.
(32) Stelzl, I. (1986). Changing a causal hypothesis without changing the fit: Some rules for generating equivalent path models. Multivariate Behavioral Research, 21, 309-331.
(33) Tucker, L. R., & Lewis, C. (1973). The reliability coefficient for maximum likelihood factor analysis. Psychometrika, 38, 1-10.
(34) Wothke, W. (1996). Models for multitrait-multimethod matrix analysis. In G. A. Marcoulides & R. E. Schumacker (Eds.), Advanced structural equation modeling techniques (pp. 7-56). Mahwah: Lawrence Erlbaum.