机器学习丨数据获取
数据集
常见数据集
MNIST:手写数字
ImageNet:百万级别的图片,主要来自google等图片搜索引擎(先用关键字搜索图片,再人工标注去除噪音)
AudioSet:来自YouTube的声音切片
Kinetics:来自YouTube的视频切片
KITTI:无人驾驶数据集
Amazon Review:Amazon产品评论
SQuAD:Wikipedia收集的知识点做成问答对
LibriSpeech:有声读物数据集(语音-文字)
数据集搜集渠道
paperswithcodes:整理了大量论文常见的数据集,并能看到在数据集上的榜单。学术数据集更加干净,但数量较少且往往规模较小,很难找到实际需要的。
kaggle:竞赛数据集及用户提交的数据集。竞赛数据集更加贴近实际应用,但数量较少且主要集中在热点领域。
tensorflow:带有数百个数据集
huggingface:大量文本数据集
AWS:超大规模原始数据。原始数据集十分灵活,但需要大量的工作去做预处理。
数据融合
把不同来源的数据融合成一个数据集(table join)。
按keys融合数据时,可能出现两张表keys不完全一致的的情况。
inner join:选择两张表都有的keys
left join:保留第一张表的所有keys,第二张表没有的keys对应项设为空值
数据生成
当数据不够时,可以使用各种方法生成样本,例如:
- 使用GANS生成图片
- 数据增强:对原始图片做处理(例如拉伸、旋转等)形成新样本
- 对文本进行back translation(中-英-中)