|
由于書(shū)稿初稿已完成(名字還在考慮中,多謝各位朋友提供的很多有建設(shè)性的名字),后續(xù)文章打算將書(shū)中的部分內(nèi)容陸續(xù)放在公眾號(hào)中,直至?xí)某霭?。目的主要是讓大家先看看?nèi)容如何,是否值得購(gòu)買(mǎi)。我想,書(shū)好不好,不是光看目錄,也不是道聽(tīng)途說(shuō),自己覺(jué)得適合的,才是最好的。當(dāng)然,如果有朋友發(fā)現(xiàn)其中有問(wèn)題,歡迎及時(shí)指正,趁在出版前修正。 由于這里暫時(shí)介紹到了線(xiàn)性回歸的內(nèi)容,因此就把線(xiàn)性回歸中的一些內(nèi)容介紹一下。大多數(shù)內(nèi)容都是書(shū)中直接拿過(guò)來(lái),但有時(shí)會(huì)做部分改動(dòng),如圖表等,基本內(nèi)容都是差不多的,都是從書(shū)稿中直接摘抄的部分。 上一篇文章介紹了Box-Cox變換,主要是針對(duì)因變量y的變換,但是當(dāng)你做多因素分析的時(shí)候,不大可能對(duì)因變量進(jìn)行變量變換,因?yàn)橐蜃兞繉?duì)應(yīng)多個(gè)自變量,如果你因?yàn)閤1與y是對(duì)數(shù)關(guān)系而把y進(jìn)行變換,那么如果x2與y是指數(shù)關(guān)系,那y的變換就無(wú)法同時(shí)兼顧了。因此,實(shí)際中如果多因素分析,而且有多個(gè)因素與y的關(guān)系都不呈線(xiàn)性,通常是對(duì)自變量x進(jìn)行變換。如何變換呢,這里也介紹一種跟Box-Cox變換類(lèi)似的方法,即Box-Tidwell變換。 下面以一個(gè)自變量為例,簡(jiǎn)要說(shuō)明Box-Tidwell變換的思路: (1)擬合因變量對(duì)自變量的回歸模型,y=a+bx,回歸系數(shù)估計(jì)值為b; (2)擬合因變量對(duì)自變量及其對(duì)數(shù)的回歸模型,y=a+bx+γlnx,此時(shí)得到另一個(gè)關(guān)于x的回歸系數(shù)b',以及關(guān)于xlnx的回歸系數(shù)γ。 (3)計(jì)算α1=1+γ/b,作為自變量x的變換依據(jù)。 (4)根據(jù)第(3)步得到的變換方式,將x進(jìn)行變量變換,并重復(fù)步驟(1)-(3),得到新的α估計(jì)值。當(dāng)α估計(jì)值較為穩(wěn)定時(shí),將其作為x的變換形式。 盡管聽(tīng)起來(lái)似乎有點(diǎn)繁瑣,但實(shí)際上這一過(guò)程可以非??斓厥諗浚鄶?shù)情況下,第一階段所得到的就是令人滿(mǎn)意的結(jié)果。 例:為研究某藥物的濃度與吸光度的關(guān)系,測(cè)量了不同濃度對(duì)應(yīng)的吸光度值,試擬合二者的關(guān)系。 從圖中不難看出,吸光度與濃度的關(guān)系并非簡(jiǎn)單的直線(xiàn)上升關(guān)系,而是有一定的彎曲,擬合直線(xiàn)回歸效果并不是很好,因此需要考慮進(jìn)行變量變換。 這種關(guān)系其實(shí)并不罕見(jiàn),但如果你看了后腦子依然一片空白,那可以直接考慮用Box-Tidwell變換。本例Box-Tidwell變換結(jié)果如下圖所示。 該結(jié)果經(jīng)過(guò)5次迭代,最終確定α估計(jì)值為-0.78。但考慮該值實(shí)際意義不明確,因此通常取其最接近0.5倍數(shù)的值,這里考慮取-1,即對(duì)濃度進(jìn)行倒數(shù)變換。濃度的倒數(shù)變換擬合效果如下圖所示。 可以看出,將濃度進(jìn)行倒數(shù)變換,其擬合效果比直線(xiàn)要好了很多,而且從右圖不難發(fā)現(xiàn),倒數(shù)變換后,二者基本呈直線(xiàn)關(guān)系了。 由于本書(shū)在每個(gè)方法或思路后都附了軟件實(shí)現(xiàn)的介紹,因此這里也列出來(lái)。但主要是給出如何實(shí)現(xiàn),感興趣的自行查閱更詳細(xì)的內(nèi)容。 SAS軟件沒(méi)有專(zhuān)門(mén)實(shí)現(xiàn)Box-Tidwell變換的過(guò)程,但可通過(guò)已有的SAS宏程序來(lái)實(shí)現(xiàn)(http://www./sasmac/boxtid.html) |
|
|
來(lái)自: 思想年代 > 《統(tǒng)計(jì)》