机器学习丨特征工程

Posted on 2024-01-17

将数据转化为特定长度的向量，以便SVM处理。机器学习中，抽取特征的方式由人工定义。

表格数据

int/float：①直接使用②转化为n个数，分别代表分布在n个区间的数字个数（类似直方图）
类别：独热编码，稀有的类别可以统一分为unknown
时间：可以抽取出一系列特征，例如：[year, month, day, day_of_year, week_of_year, day_of_week]
特征组合：一个m分类和一个n分类可以组合成一个m*n分类

文本数据

Bag of words (BoW) model：将每个词元转化为独特编码，并将所有独特编码相加
Word Embeddings（如Word2vec）
预训练语言模型（如BERT）

图片/视频数据

传统方法：手动抽取特征，如SIFT
使用预训练的深度神经网络

总结

目前文本、图片、视频等数据一般可以使用预训练的深度学习模型来抽取特征，但表格数据仍需使用较为传统的方法。

0%