机器学习经验
站在前人的肩膀上可以看得更远,但请也别忘了自己该走的路。
本文整理自:原文参考
比较成熟的机器学习经验大概有:
- 一个好的交叉验证策略很重要。
- 特征工程需要时间,在数据集上添加新特性可能需要花更多时间。
- 对稀疏数据来说哈希是必要的,而且从操作性和效率方面来看比独热编码(OHE)表现更好。
- 独热编码对于分类特征来说不是最优的。从经验来看,在树足够多的情况下,树的集成将在原始的分类特征值(ids)上表现得更好。因为可以将特征向量降低到更低的维度,增加随机特性集包含更多预测特性的机会。
- 测试多种框架对学习来说是好的,但也通常导致花费大量时间转换数据和格式、阅读文档以及调整超参数。
- 阅读涉及到的主要技术(FTRL、FFM)的论文,对于调整超参数这项工作来说是必不可少的。
- 从别人分享的博客、核心程序代码以及过往案例中学习也是至关重要的。每个人也都应当有所分享。
- 平均搭配、机器学习权重、堆叠技术可以大大提高准确性,基于堆叠使用在固定折上进行超折训练可以增加可用训练集并提高整体准确性。
- 不到最后一刻,不要放弃。
- kaggle是个好地方。
此外,可以基于成熟的云服务提供商解决可能遇到的大数据和分布式困境,让你专注于机器学习事业。