机器学习丨特征工程
将数据转化为特定长度的向量,以便SVM处理。机器学习中,抽取特征的方式由人工定义。
表格数据
- int/float:①直接使用②转化为n个数,分别代表分布在n个区间的数字个数(类似直方图)
- 类别:独热编码,稀有的类别可以统一分为unknown
- 时间:可以抽取出一系列特征,例如:[year, month, day, day_of_year, week_of_year, day_of_week]
- 特征组合:一个m分类和一个n分类可以组合成一个m*n分类
文本数据
- Bag of words (BoW) model:将每个词元转化为独特编码,并将所有独特编码相加
- Word Embeddings(如Word2vec)
- 预训练语言模型(如BERT)
图片/视频数据
- 传统方法:手动抽取特征,如SIFT
- 使用预训练的深度神经网络
总结
目前文本、图片、视频等数据一般可以使用预训练的深度学习模型来抽取特征,但表格数据仍需使用较为传统的方法。