如何在 Python 中进行数据分析?
步骤:
- 导入必要的库
- 读取数据
- 处理数据
- 分析数据
- 可视化数据
导入必要的库:
import pandas as pd
import matplotlib.pyplot as plt
读取数据:
# 使用 pandas 读取 CSV 文件
data = pd.read_csv("your_file.csv")
# 使用 openpyxl 读取 XLSX 文件
workbook = openpyxl.load_workbook("your_file.xlsx")
sheet = workbook.active
data = pd.read_excel(sheet, sheet_name="sheet_name")
处理数据:
# 过滤数据
data_filtered = data[data["column_name"] > 10]
# 统计数据
data_stats = data.describe()
# 对数据进行转换
data["new_column"] = data["column_name"].str.upper()
分析数据:
# 统计数据
print(data_stats)
# 探索数据
print(data.head())
# 构建图表
plt.scatter(data["x_variable"], data["y_variable"])
plt.xlabel("X")
plt.ylabel("Y")
plt.title("Scatter Plot")
plt.show()
可视化数据:
# 使用 matplotlib 可视化数据
plt.scatter(data["x_variable"], data["y_variable"])
plt.xlabel("X")
plt.ylabel("Y")
plt.title("Scatter Plot")
plt.show()
其他资源:
- pandas 文档:pandas.py
- matplotlib 文档:matplotlib.pyplot
- 数据分析教程:kaggle、Coursera、DataCamp