如何利用 Python 和 Pandas 进行数据清洗?
数据清洗步骤:
- 导入库
- 读取数据
- 数据预处理
- 数据清洗
- 保存结果
代码示例:
import pandas as pd
# 导入库
data = pd.read_csv("data.csv")
# 读取数据
print(data.head())
# 数据预处理
data["age"] = data["age"].fillna(25)
data["salary"] = data["salary"].fillna(10000)
# 数据清洗
data.dropna(inplace=True)
# 保存结果
data.to_csv("cleaned_data.csv", index=False)
其他方法:
- **筛选:**使用
loc
和iloc
索引选择数据。 - **分组:**使用
groupby
函数对数据进行分组。 - **合并:**使用
merge
函数将数据合并到一起。 - **标准化:**使用
normalize
函数对数据进行标准化。
其他资源:
- Pandas 文档:pandas.pydata.org
- 数据清洗指南:kaggle.com/learn/data-cleaning-with-pandas
- 数据清洗示例:github.com/pandas-pydata/pandas/blob/master/pandas/examples/data_cleaning.py
注意:
- 数据清洗是一个迭代过程,需要逐步进行。
- 确保数据格式正确,以便数据清洗工具正常处理。
- 可以使用其他库,例如 NumPy 和 Matplotlib,进行数据分析和可视化。