R 中读取 CSV 文件并处理缺失值

在 R 中读取 CSV 文件并处理缺失值是数据清洗的重要步骤。以下是具体方法和代码示例:

  1. 读取 CSV 文件并识别缺失值
    使用 read.csv() 函数读取文件时,可以通过 na.strings 参数指定哪些值应被识别为缺失值(NA)。

示例:读取 CSV 文件并将 “NULL” 和 “?” 识别为缺失值

data <- read.csv(“data.csv”, na.strings = c(“NULL”, “?”))

  1. 检查缺失值
    可以使用以下方法检查数据中的缺失值:

检查每列的缺失值数量

colSums(is.na(data))

检查数据框中是否存在缺失值

anyNA(data)

  1. 处理缺失值
    根据需求,可以选择删除或填充缺失值。
    (1) 删除缺失值
    删除包含缺失值的行:
    data_cleaned <- na.omit(data)
    删除特定列的缺失值:
    data_cleaned <- data[!is.na(data$column_name), ]
    (2) 填充缺失值
    用均值填充:
    2025/10/12 19:3
    Bing Writer • Generated with AI 2/2
    data$column_name[is.na(data$column_name)] <- mean(data$column_name, na.rm = TRUE)
    用中位数填充:
    data$column_name[is.na(data$column_name)] <- median(data$column_name, na.rm = TRUE)
    用特定值填充:
    data$column_name[is.na(data$column_name)] <- 0 # 或其他值
  2. 替换特定值为 NA
    如果数据中某些值(如 999)表示缺失值,可以将其替换为 NA:
    data[data == 999] <- NA
  3. 保存清洗后的数据
    将处理后的数据保存为新的 CSV 文件:
    write.csv(data_cleaned, “cleaned_data.csv”, row.names = FALSE)
    通过这些方法,你可以灵活地处理 CSV 文件中的缺失值,确保数据质量适合后续分析