为什么需要数据集?
在 Python 编程中,无论是进行数据分析、机器学习建模,还是教学演示,高质量的数据集都是不可或缺的基础。 本页面汇总了多个领域中常用且易于获取的公开数据集,并提供快速上手的示例代码。
经典内置数据集(无需下载)
- 鸢尾花数据集 (Iris):用于分类任务的经典小数据集。
来源:sklearn.datasets.load_iris() - 波士顿房价 (Boston Housing):回归任务常用(注意:因伦理问题已弃用,但仍有教学价值)。
替代推荐:California Housing - 手写数字数据集 (Digits):图像识别入门数据。
来源:sklearn.datasets.load_digits()
示例:加载 Iris 数据集
from sklearn.datasets import load_iris
import pandas as pd
data = load_iris()
df = pd.DataFrame(data.data, columns=data.feature_names)
df['target'] = data.target
print(df.head())
热门公开数据集平台
- Kaggle Datasets:全球最大数据科学竞赛平台,含数万个真实世界数据集。
- UCI Machine Learning Repository:学术界广泛引用的经典数据集库。
- TensorFlow Datasets (TFDS):一键加载数百个 ML 数据集。
- Hugging Face Datasets:NLP 和多模态数据首选。
- OpenML:开放的机器学习数据与实验平台。
实用建议
- 使用
pandas.read_csv()快速加载 CSV 文件。 - 处理大型数据集时,可考虑使用
dask或polars提升性能。 - 始终检查数据许可证,确保合规使用(尤其是商业用途)。
- 在 Jupyter Notebook 中使用
df.info()和df.describe()快速探索数据。