机器学习丨数据获取

Posted on 2024-01-20

数据集

MNIST：手写数字

ImageNet：百万级别的图片，主要来自google等图片搜索引擎（先用关键字搜索图片，再人工标注去除噪音）

AudioSet：来自YouTube的声音切片

Kinetics：来自YouTube的视频切片

KITTI：无人驾驶数据集

Amazon Review：Amazon产品评论

SQuAD：Wikipedia收集的知识点做成问答对

LibriSpeech：有声读物数据集（语音-文字）

paperswithcodes：整理了大量论文常见的数据集，并能看到在数据集上的榜单。学术数据集更加干净，但数量较少且往往规模较小，很难找到实际需要的。

kaggle：竞赛数据集及用户提交的数据集。竞赛数据集更加贴近实际应用，但数量较少且主要集中在热点领域。

tensorflow：带有数百个数据集

huggingface：大量文本数据集

AWS：超大规模原始数据。原始数据集十分灵活，但需要大量的工作去做预处理。

把不同来源的数据融合成一个数据集（table join）。

按keys融合数据时，可能出现两张表keys不完全一致的的情况。

当数据不够时，可以使用各种方法生成样本，例如：