机器学习丨特征工程

将数据转化为特定长度的向量,以便SVM处理。机器学习中,抽取特征的方式由人工定义。

表格数据

  • int/float:①直接使用②转化为n个数,分别代表分布在n个区间的数字个数(类似直方图)
  • 类别:独热编码,稀有的类别可以统一分为unknown
  • 时间:可以抽取出一系列特征,例如:[year, month, day, day_of_year, week_of_year, day_of_week]
  • 特征组合:一个m分类和一个n分类可以组合成一个m*n分类

文本数据

  • Bag of words (BoW) model:将每个词元转化为独特编码,并将所有独特编码相加
  • Word Embeddings(如Word2vec)
  • 预训练语言模型(如BERT)

图片/视频数据

  • 传统方法:手动抽取特征,如SIFT
  • 使用预训练的深度神经网络

总结

目前文本、图片、视频等数据一般可以使用预训练的深度学习模型来抽取特征,但表格数据仍需使用较为传统的方法。