关注我,持续分享逻辑思维&管理思维&面试题; 可提供大厂面试辅导、及定制化求职/在职/管理/架构辅导;

推荐专栏10天学会使用asp.net编程AI大模型,目前已完成所有内容。一顿烧烤不到的费用,让人能紧跟时代的浪潮。从普通网站,到公众号、小程序,再到AI大模型网站。干货满满。学成后可接项目赚外快,绝对划算。不仅学会如何编程,还将学会如何将AI技术应用到实际问题中,为您的职业生涯增添一笔宝贵的财富。

-------------------------------------正文----------------------------------------

在特征工程中,创建新特征(也称为特征构造或特征生成)是提高模型性能的关键步骤。以下是一些常用的方法:

  1. 特征组合

    • 结合两个或多个特征来创建新特征,例如,从日期特征中提取出年、月、日、星期几等。
  2. 多项式特征

    • 通过特征的多项式扩展来增加特征的非线性能力,例如,创建特征的平方、立方或特征对。
  3. 交互项

    • 创建特征之间的交互项,以捕捉特征之间的相互作用,例如,产品价格和用户评分的交互项。
  4. 分箱和分桶

    • 将连续特征分割成离散的区间或桶,以揭示数据的分布模式。
  5. 标准化和归一化

    • 对特征进行标准化(Z-score)或归一化(Min-Max Scaling),使其在同一尺度上。
  6. 对数变换和幂变换

    • 对特征进行对数变换或其他幂变换,以减少异常值的影响并改善模型的拟合。
  7. 时间序列特征

    • 对时间戳特征进行处理,提取出小时、分钟、是否周末、是否节假日等信息。
  8. 独热编码

    • 将分类特征转换为独热编码(One-Hot Encoding),以表示不存在的类别。
  9. 标签编码

    • 将分类特征转换为数值标签,通常用于有序分类特征。
  10. 嵌入

    • 使用模型(如Word2Vec)将高维稀疏特征转换为低维密集特征。
  11. 聚合特征

    • 对于分组数据,计算统计量(如均值、中位数、最大值、最小值、标准差)作为新特征。
  12. 滚动窗口特征

    • 对于时间序列数据,使用滚动窗口来创建滞后特征或移动平均特征。
  13. 差分特征

    • 对连续时间点的数据进行差分,以消除趋势和季节性。
  14. 交互多项式特征

    • 使用 PolynomialFeatures 类从特征的交互和多项式组合中生成新特征。
  15. 文本特征提取

    • 从文本数据中提取词频、TF-IDF、Word2Vec等特征。
  16. 图像特征提取

    • 使用预训练的深度学习模型(如VGG、ResNet)提取图像特征。
  17. 音频特征提取

    • 从音频信号中提取梅尔频率倒谱系数(MFCC)等特征。
  18. 特征哈希

    • 使用哈希技术将特征映射到固定长度的向量。
  19. 目标编码

    • 对于分类特征,使用目标变量的统计数据来替换原始类别。
  20. 自定义特征

    • 根据业务知识和数据理解,创建自定义特征。

创建新特征时,应该考虑特征对模型性能的影响,以及特征的可解释性。通常,需要通过实验来验证新特征的有效性,并确保不会引入过多的噪声。。

感兴趣的同学辛苦 关注/点赞 ,持续分享逻辑、算法、管理、技术、人工智能相关的文章。

有意找工作的同学,请参考博主的原创:《面试官心得--面试前应该如何准备》,《面试官心得--面试时如何进行自我介绍》, 《做好面试准备,迎接2024金三银四》。
或关注博主免费专栏【程序员宝典--常用代码分享】里面有大量面试涉及的算法或数据结构编程题。

博主其它经典原创:《管理心得--如何高效进行跨部门合作》,《技术心得--如何成为优秀的架构师》、《管理心得--如何成为优秀的架构师》、《管理心理--程序员如何选择职业赛道》,及
C#实例:SQL如何添加数据》,《C#实战分享--爬虫的基础原理及实现》欢迎大家阅读。

Logo

GitCode 天启AI是一款由 GitCode 团队打造的智能助手,基于先进的LLM(大语言模型)与多智能体 Agent 技术构建,致力于为用户提供高效、智能、多模态的创作与开发支持。它不仅支持自然语言对话,还具备处理文件、生成 PPT、撰写分析报告、开发 Web 应用等多项能力,真正做到“一句话,让 Al帮你完成复杂任务”。

更多推荐