如何使用 Python 的 Scikitlearn 库进行数据分析?
步骤:
- 导入库
import sklearn
- 加载数据
# 加载 CSV 文件
data = sklearn.datasets.load_csv('your_data.csv')
# 加载 numpy 数组
X = data.data
y = data.target
- 预处理数据
# 标准化数据
X_scaled = sklearn.preprocessing.StandardScaler().fit_transform(X)
# 划分训练集和测试集
X_train, X_test, y_train, y_test = sklearn.train_test_split(X_scaled, y, test_size=0.2)
- 训练模型
# 创建线性回归模型
model = sklearn.linear_model.LinearRegression()
# 训练模型
model.fit(X_train, y_train)
- 评估模型
# 计算模型性能
score = model.score(X_test, y_test)
print('模型性能:', score)
- 保存模型
# 保存线性回归模型
model.save('your_model.pkl')
示例代码:
import sklearn
# 加载数据
data = sklearn.datasets.load_csv('iris.csv')
X = data.data
y = data.target
# 标准化数据
X_scaled = sklearn.preprocessing.StandardScaler().fit_transform(X)
# 划分训练集和测试集
X_train, X_test, y_train, y_test = sklearn.train_test_split(X_scaled, y, test_size=0.2)
# 创建线性回归模型
model = sklearn.linear_model.LinearRegression()
# 训练模型
model.fit(X_train, y_train)
# 评估模型
score = model.score(X_test, y_test)
print('模型性能:', score)
# 保存模型
model.save('iris_model.pkl')
注意:
- 您可以根据自己的需求调整数据预处理步骤。
- 您可以使用不同的模型进行数据分析。
- 您可以使用 scikit-learn 的其他方法来进行数据分析。