开心六月综合激情婷婷|欧美精品成人动漫二区|国产中文字幕综合色|亚洲人在线成视频

    1. 
      
        <b id="zqfy3"><legend id="zqfy3"><fieldset id="zqfy3"></fieldset></legend></b>
          <ul id="zqfy3"></ul>
          <blockquote id="zqfy3"><strong id="zqfy3"><dfn id="zqfy3"></dfn></strong></blockquote>
          <blockquote id="zqfy3"><legend id="zqfy3"></legend></blockquote>
          打開APP
          userphoto
          未登錄

          開通VIP,暢享免費電子書等14項超值服

          開通VIP
          數(shù)據(jù)不夠正態(tài),Box-Cox 來轉換

          正態(tài)性是許多統(tǒng)計方法和機器學習模型的關鍵假設。當數(shù)據(jù)不滿足正態(tài)分布的時,可能會導致模型估計不準確(如線性回歸,都假設數(shù)據(jù)是正態(tài)分布的。如果這一假設被違反,那么參數(shù)估計可能會有偏),預測誤差增加,甚至導致某些統(tǒng)計檢驗的結論失效。為了解決這個問題,研究人員和統(tǒng)計學家們引入了多種數(shù)據(jù)轉換技術,其中最著名的之一就是 Box-Cox 轉換。

          為什么引入Box-Cox 轉換?

          數(shù)據(jù)的正態(tài)性對于許多統(tǒng)計方法至關重要。例如,在假設檢驗、回歸分析、ANOVA 和很多其他方法中,數(shù)據(jù)的正態(tài)分布是關鍵假設之一。數(shù)據(jù)的非正態(tài)性可能會導致估計的偏誤、增加類型I和類型II錯誤的風險,以及降低模型的預測精度。因此,為了滿足正態(tài)性假設,研究者們經(jīng)常需要對數(shù)據(jù)進行某種形式的轉換。

          Box-Cox 轉換是這樣的一種方法,它的目的是使偏斜的數(shù)據(jù)更接近正態(tài)分布。這種轉換方法是 George Box 和 David Cox 于 1964 年首次提出的,現(xiàn)已成為統(tǒng)計領域中的標準技術。

          數(shù)學模型是什么?

          Box-Cox 轉換的數(shù)學模型定義如下:

          其中, 是要被轉換的數(shù)據(jù),而 是轉換參數(shù)。選擇最佳的 值通常是通過最大化數(shù)據(jù)的對數(shù)似然來實現(xiàn)的。

          為什么Box-Cox 能夠使數(shù)據(jù)正態(tài)?

          Box-Cox 轉換的工作原理有幾個方面:

          1. 對偏度的矯正:通過調(diào)整數(shù)據(jù)的冪,Box-Cox 轉換可以有效地橋正數(shù)據(jù)的偏斜性。對于正偏 斜的數(shù)據(jù),選擇 值小于 1 可以使數(shù)據(jù)向左移動,從而減少偏斜性。對于負偏斜的數(shù)據(jù),選 擇 值大于 1 可以進行橋正。
          2. 方差穩(wěn)定化:Box-Cox 轉換也可以矯正數(shù)據(jù)的異方差性,使其變得更加穩(wěn)定。
          3. 數(shù)學理論: Box-Cox 轉換的形式基于數(shù)學和統(tǒng)計理論,指出當選擇適當?shù)? 值時,可以使數(shù)據(jù)的對數(shù)似然最大化,從而使數(shù)據(jù)更接近正態(tài)分布。

          Box-Cox 轉換的實際應用

          考慮一個例子,其中我們有一個數(shù)據(jù)集,該數(shù)據(jù)集記錄了不同城市的人口和相關的犯罪率。犯罪率的數(shù)據(jù)可能會受到極端值的影響,并且可能不是正態(tài)分布的。在這種情況下,我們可以使用 Box-Cox 轉換來矯正犯罪率的分布。

          來看這份虛擬的數(shù)據(jù)。假設我們有一個包含20個城市的數(shù)據(jù)集。每個城市都有其人口數(shù)量和年犯罪率(表示為每10,000人中發(fā)生的犯罪事件數(shù))。

          城市1城市2城市3城市4城市5城市6城市7城市8城市9城市10城市11城市12城市13城市14城市15城市16城市17城市18城市19城市20
          231516646883101466211758912101018372817

          先直觀的看一下數(shù)據(jù)的頻率分布:

          import matplotlib.pyplot as plt
          import seaborn as sns
          from scipy.stats import shapiro

          # 數(shù)據(jù)
          crime_rates = [231516646883101466211758912101018372817]

          # 繪制頻率分布直方圖和概率密度曲線
          plt.figure(figsize=(10,6))
          sns.histplot(crime_rates, kde=True, bins=10)
          plt.title('Frequency Distribution of Crime Rates')
          plt.xlabel('Crime Rate (per 10,000)')
          plt.ylabel('Frequency')
          plt.grid(True, which='both', linestyle='--', linewidth=0.5)
          plt.show()

          從上圖中,我們可以清晰地觀察到犯罪率數(shù)據(jù)的分布。這些數(shù)據(jù)似乎并不完全遵循正態(tài)分布。

          我們可以使用統(tǒng)計方法(如 Shapiro-Wilk 測試)來檢驗數(shù)據(jù)的正態(tài)性。

          # Shapiro-Wilk 測試
          shapiro_test = shapiro(crime_rates)
          shapiro_test

          測試統(tǒng)計量 (W值) = 0.8087,p值 = 0.0012,由于p值(0.0012)小于0.05,我們拒絕原假設,即數(shù)據(jù)是正態(tài)分布的。因此,我們可以確定這些犯罪率數(shù)據(jù)并不是正態(tài)分布的。

          此時我們可以應用 Box-Cox 轉換并選擇最佳的 λ 值來最大化對數(shù)似然。

          from scipy.stats import boxcox

          # 應用Box-Cox轉換
          transformed_data, best_lambda = boxcox(crime_rates)

          best_lambda, transformed_data

          通過Box-Cox轉換,我們得到了最佳的 λ 值為 0.1701。這意味著當 λ 取此值時,轉換后的數(shù)據(jù)最大化了對數(shù)似然,從而更接近正態(tài)分布。

          下面,我們將重新繪制轉換后的數(shù)據(jù)的頻率分布直方圖和概率密度曲線,并再次進行Shapiro-Wilk 測試,以確認數(shù)據(jù)的正態(tài)性。

          # 繪制轉換后的數(shù)據(jù)的直方圖和概率密度曲線
          sns.histplot(transformed_data, kde=True, bins=8)
          plt.title('Transformed Crime Rates Distribution')
          plt.xlabel('Transformed Crime Rates')
          plt.ylabel('Frequency')
          plt.show()

          # 再次進行Shapiro-Wilk 測試
          shapiro_transformed = shapiro(transformed_data)
          shapiro_transformed

          從上圖可以看出,經(jīng)過Box-Cox轉換后的犯罪率數(shù)據(jù)更接近正態(tài)分布。此外,新的Shapiro-Wilk測試結果顯示統(tǒng)計量為0.9826,p值為0.9628。由于此p值大于0.05,我們無法拒絕數(shù)據(jù)是正態(tài)分布的原假設。

          這意味著經(jīng)過Box-Cox轉換后的數(shù)據(jù)滿足正態(tài)性假設。因此,我們可以放心地使用需要正態(tài)分布假設的統(tǒng)計方法進行進一步分析。

          完美!

          結語

          Box-Cox 轉換是統(tǒng)計和數(shù)據(jù)分析中的一個強大工具,它可以幫助我們矯正數(shù)據(jù)的非正態(tài)性。通過理解其背后的原理和知道如何在實際問題中應用它,我們可以更好地利用統(tǒng)計方法,從而得到更準確和有洞察力的結果。

          本站僅提供存儲服務,所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權內(nèi)容,請點擊舉報
          打開APP,閱讀全文并永久保存 查看更多類似文章
          猜你喜歡
          類似文章
          Box-Cox變換:非正態(tài)數(shù)據(jù)的處理
          一種簡單實用且超級牛掰的數(shù)據(jù)變換方法:BOX-COX變換
          數(shù)據(jù)變換的萬能鑰匙:Box
          【視頻】逆變換抽樣將數(shù)據(jù)標準化和R語言結構化轉換:BOX-COX、凸規(guī)則變換方法
          過程能力分析02—Box-Cox變換:非正態(tài)數(shù)據(jù)能力分析的處理辦法
          用shapiro.test()與ggqqplot()做正態(tài)分布檢驗
          更多類似文章 >>
          生活服務
          分享 收藏 導長圖 關注 下載文章
          綁定賬號成功
          后續(xù)可登錄賬號暢享VIP特權!
          如果VIP功能使用有故障,
          可點擊這里聯(lián)系客服!

          聯(lián)系客服