社会ノマド

備忘録と書きもの練習帳。とくに何らかのハンドリング系と、雑多な話題に関する読書録になるかなと思います。

Rの邪魔者<NA>

Rでcsvから取り込んだ際,NAではなくて <NA>が入っている時がある。ナニコレ?!結論から言って factor型の空白(="") のよう。is.na()とかis.nan()にも引っかからないし悪戦苦闘…。

そんなときはcsvで読み込む際に以下のようなオプションを付けることが吉。汚いデータを扱うとこういうところで泣かされる…。

data <- read.csv("hogehoge.csv",header=F,
                    na.strings=c("", "NULL"))

na.stringsオプションはどれを欠損にするかの指定。ここで空白セルも欠損指定しておけばfactorの空白が残ることなく、読み込む段階で普通の欠損値(NA)に変換してくれる。