机器学习丨数据获取

数据集

常见数据集

MNIST:手写数字

ImageNet:百万级别的图片,主要来自google等图片搜索引擎(先用关键字搜索图片,再人工标注去除噪音)

AudioSet:来自YouTube的声音切片

Kinetics:来自YouTube的视频切片

KITTI:无人驾驶数据集

Amazon Review:Amazon产品评论

SQuAD:Wikipedia收集的知识点做成问答对

LibriSpeech:有声读物数据集(语音-文字)

数据集搜集渠道

paperswithcodes:整理了大量论文常见的数据集,并能看到在数据集上的榜单。学术数据集更加干净,但数量较少且往往规模较小,很难找到实际需要的。

kaggle:竞赛数据集及用户提交的数据集。竞赛数据集更加贴近实际应用,但数量较少且主要集中在热点领域。

tensorflow:带有数百个数据集

huggingface:大量文本数据集

AWS:超大规模原始数据。原始数据集十分灵活,但需要大量的工作去做预处理。

数据融合

把不同来源的数据融合成一个数据集(table join)。

按keys融合数据时,可能出现两张表keys不完全一致的的情况。

  • inner join:选择两张表都有的keys

  • left join:保留第一张表的所有keys,第二张表没有的keys对应项设为空值

数据生成

当数据不够时,可以使用各种方法生成样本,例如:

  • 使用GANS生成图片
  • 数据增强:对原始图片做处理(例如拉伸、旋转等)形成新样本
  • 对文本进行back translation(中-英-中)