R -- ロバストな回帰直線のパラメータ

ロバストな回帰直線のパラメータ　　　　　Last modified: Oct 14, 2018
目的

観察値と予測値の差の絶対値の p 乗の和を最小にするという方法による回帰直線のパラメータを推定する。
p が 2 のときは，普通の最小二乗法である。
p が 1 のときは，絶対値の和を最小とするものである。

使用法

least.sum.abs(x, y, n=1, p=1, control=list())

# print メソッド
print.least.sum.abs(obj, digits=5, sig=0.95)

# plot メソッド
plot.least.sum.abs(obj, posx="topleft", posy=NULL, xlab=obj$names.xy[1], ylab=obj$names.xy[2],	hist=FALSE, ...)

引数

x             独立変数ベクトル
y             従属変数ベクトル
n             ブートストラップ法で信頼区間を求めるときの回数
              デフォルトは 1。この場合には信頼区間を求めない
p             デフォルトは 1。2 のときは，普通の最小二乗法
obj           "least.sum.abs" オブジェクト
digits        表示桁数
sig           ブートストラップ法による信頼区間を求めるときの信頼度（デフォルトで 95% 信頼限界）
posx, posy    legend 関数のための位置引数（"topleft", "bottomright" なども可）
xlab, ylab    軸の名前
hist          ブートストラップ法による結果をヒストグラム表示するかどうか
...           plot 関数に渡されるその他の引数

ソース

インストールは，以下の 1 行をコピーし，R コンソールにペーストする
source("http://aoki2.si.gunma-u.ac.jp/R/src/least.sum.abs.R", encoding="euc-jp")

# 観察値と予測値の差の絶対値の p 乗の和を最小にするという方法による回帰直線のパラメータ推定
least.sum.abs <- function(   x,                                      # 独立変数ベクトル
                                y,                                      # 従属変数ベクトル
                                n=1,                                    # ブートストラップ法で信頼区間を求めるときの回数
                                p=1,                                    # 1 のとき絶対値の和を最小にする。2 のときは普通の最小二乗法
                                control=list())                         # optim 関数への引数
{
        least.sum.abs0 <- function(x, y)                             # 1 組のデータについて，切片と傾きの推定値を計算する
        {
                evaluate.error <- function(par)
                {
                        return(sum(abs(y-par[2]*x-par[1])^p))
                }
                if (p < 1) {
                        warning("p は 1 以上の値でなければなりません。p=1 として実行します。")
                        p <- 1
                }
                ans <- optim(c(0, 0), evaluate.error, control=control)
                return(c(Intercept=ans$par[1], Slope=ans$par[2]))
        }
        Driver <- function(x, y)                                     # ブートストラップ法のためのドライバー
        {
                n <- length(x)
                suffix <- sample(n, n, replace=TRUE)                 # リサンプリング
                return(least.sum.abs0(x[suffix], y[suffix]))            # リサンプリングしたデータについてパラメータを推定
        }
        names.xy <- c(deparse(substitute(x)), deparse(substitute(y)))        # 変数名を控えておく
        OK <- complete.cases(x, y)                                   # 欠損値を持つケースを除く
        x <- x[OK]
        y <- y[OK]
        ans <- list(coefficients=least.sum.abs0(x, y),                       # 引数に対してパラメータを推定する
                    names.xy=names.xy, x=x, y=y)
        if (n > 1) {
                ans2 <- replicate(n, Driver(x, y))                   # ブートストラップを n 回実行
                ans <- append(ans, list(intercepts=ans2[1,], slopes=ans2[2,]))
        }
        class(ans) <- "least.sum.abs"                                        # print, plot メソッドのためにクラス名をつけておく
        return(ans)
}
# print メソッド
print.least.sum.abs <- function(obj,                                 # "least.sum.abs" オブジェクト
                                digits=5,                               # 表示桁数
                                sig=0.95)                               # 信頼度
{
        if (length(obj) == 4) {
                cat("Intercept:", round(obj$coefficients[1], digits),
                    "    Slope:", round(obj$coefficients[2], digits), "\n")
        }
        else {
                alpha <- (1-sig)/2
                LCL <- c(quantile(obj$intercepts, alpha), quantile(obj$slopes, alpha))
                UCL <- c(quantile(obj$intercepts, 1-alpha), quantile(obj$slopes, 1-alpha))
                ans <- data.frame(obj$coefficients, LCL, UCL)
                dimnames(ans) <- list(c("Intercept:", "Slope:"),
                                      c("Estimate", paste(c(alpha, 1-alpha), "%", sep="")))
                print(round(ans, digits=digits))
        }
}
# plot メソッド
plot.least.sum.abs <- function(obj,                                  # "least.sum.abs" オブジェクト
                        posx="topleft", posy=NULL,                      # legend 関数のための位置引数
                        xlab=obj$names.xy[1], ylab=obj$names.xy[2],     # 軸の名前
                        hist=FALSE,                                     # ヒストグラムを描くとき TRUE にする
                        ...)                                            # その他の任意の plot 関数の引数
{
        if (hist && length(obj) == 6) {                                   # ブートストラップの結果を，hist=TRUE のときに，ヒストグラムで表示する
                layout(matrix(1:2, 2))
                hist(obj$intercepts, xlab="Intercept", main="", right=FALSE)
                hist(obj$slopes, xlab="Slope", main="", right=FALSE)
                layout(1)
        }
        else {                                                          # 散布図と least.sum.abs 法の回帰直線と直線回帰式を表示する
                plot(obj$x, obj$y, xlab=xlab, ylab=ylab, ...)
                abline(obj$coefficients)
                abline(lm(obj$y~obj$x), lty=2, col=2)
                legend(posx, posy, legend=c("least sum abs", "linear regression"), lty=1:2, col=1:2)
        }
}


使用例

> set.seed(123)

> d <- gendat2(100, 0.7)*15+50

> (a <- least.sum.abs(d[,1], d[,2])) # 点推定値のみを求める

Intercept: 16.07177     Slope: 0.66218 

> plot(a, xlab="x", ylab="y", pch=19, xlim=c(0,100),ylim=c(0,100)) # 散布図と回帰直線



> (b <- least.sum.abs(d[,1], d[,2], n=1000)) # 点推定値と信頼区間を求める

           Estimate  0.025%   0.975%
Intercept: 16.07177 6.14666 29.87396
Slope:      0.66218 0.41653  0.91720

> plot(b, hist=TRUE) # ブートストラップパラメータの分布図
直前のページへ戻る　　
E-mail to Shigenobu AOKI