险峰风景

机器学习经验

Posted on 2018-04-18 Edited on 2019-11-09 In 技术

站在前人的肩膀上可以看得更远，但请也别忘了自己该走的路。

本文整理自：原文参考

比较成熟的机器学习经验大概有：

一个好的交叉验证策略很重要。
特征工程需要时间，在数据集上添加新特性可能需要花更多时间。
对稀疏数据来说哈希是必要的，而且从操作性和效率方面来看比独热编码(OHE)表现更好。
独热编码对于分类特征来说不是最优的。从经验来看，在树足够多的情况下，树的集成将在原始的分类特征值(ids)上表现得更好。因为可以将特征向量降低到更低的维度，增加随机特性集包含更多预测特性的机会。
测试多种框架对学习来说是好的，但也通常导致花费大量时间转换数据和格式、阅读文档以及调整超参数。
阅读涉及到的主要技术(FTRL、FFM)的论文，对于调整超参数这项工作来说是必不可少的。
从别人分享的博客、核心程序代码以及过往案例中学习也是至关重要的。每个人也都应当有所分享。
平均搭配、机器学习权重、堆叠技术可以大大提高准确性，基于堆叠使用在固定折上进行超折训练可以增加可用训练集并提高整体准确性。
不到最后一刻，不要放弃。
kaggle是个好地方。

此外，可以基于成熟的云服务提供商解决可能遇到的大数据和分布式困境，让你专注于机器学习事业。

维特比算法小解

Posted on 2018-04-16 Edited on 2019-11-10 In 技术

我理解

维特比算法可以算作一种优化技术，正是这些类优化技术的应用，加上算力的提升及数据量and分析方法的更新，构成了大数据&机器学习的核心。

所以，理解这类优化技术对于技术学习应当是很有必要的。

之前，读到这个算法的时候，对它的理解是是而非。
所以觉得有必要进行一下梳理及通俗理解，以便加强理解&灵活运用。

梳理

梳理之后的总结便是：

以层为中心，去筛选线(路径)
而不是以路径为中心，去筛选线(路径)

解释

解释一下就是：以层为中心，逐层筛选(V)；
而另外一种方法就是穷举遍历法(E)。
作两张图说明一下：
Markdown
从上图寻找最优路径需要比较的次数是：

E方法：$1*2*2*3=12$
V方法：$0+1*2+2*2+2*3+3*0=12$

看起来两种方法的结果好像一样？
再看一图：
Markdown
从上图寻找最优路径需要比较的次数是：

E方法：$1*2*2*3*4*5=360$
V方法：$0+1*2+2*2+2*3+3*4+4*5+5*0=44$

“以层为中心逐层筛选”再通俗一点：每一层的每一次筛选，总能将当前的最短路径定位到该层的某一点。然后下一次计算时，将只考虑：锁定的那一点*下一层数目*下下层数目，即:1*(n+1)*(n+2)，迭代之。

总结

算法的力量一目了然。显然真正的使用场景可能远比图二所示复杂，所以算法带来的提升将是若干几何级的。

利用大数据和机器学习提升制造业良品率

Posted on 2018-04-13 Edited on 2019-11-09 In 技术 , 业务

本文整理自：原文参考

绪论

新一代的云计算/大数据技术正在给传统工业发展方式带来颠覆性、革命性的影响。传感器、工控系统、物联网等技术的广泛应用，推动工业企业实现生产流程各环节的互联互通，促进互联网与工业融合发展。

大数据+制造业

随着信息化与工业化的深度融合，工业制造企业已经积累和拥有了日益丰富的工业数据。工业大数据呈现出大体量、多源性、连续采样、价值密度低、动态性强等特点。

一般大数据分析在工业制造行业主要有两个应用领域：

利用大数据进行建模仿真：传统生产企业在测试、验证环节需要生产出实物来评测其性能等指标，成本随测试次数增加而不断提升。利用虚拟仿真技术，可以实现对原有研发设计环节过程的模拟、分析、评估、验证和优化，从而减少工程更改量，优化生产工艺，降低成本和能耗。
利用大数据提升良品率：实际工作中，对失效/残次品的个案分析往往无疾而终，有价值的信息淹没在量测误差、实验噪声或者不科学的实验设计里。而通过对于大量数据的分析，噪声信息会消失，差异点会叠加放大。生产的过程数据越多，分析就越细致，在信息充足的情况下，工程师甚至可以将异常定位到机台的某个机构，从而实验设计也能合理化，目的化，极大地加速良率提升的脚步。

但在具体大数据应用领域上，工业企业普遍面临：不知道如何把大数据和企业自身业务结合起来；大数据人才匮乏；数据采集和治理不完善，未形成闭环；工业领域有其独特的领域知识，需要行业知识结合数据分析等困难和挑战。

良率分析

利用大数据分析和机器学习来研究提升生产制造的良品率。具体包括：对生产线上数以万计的传感器进行工业数据(温度、压力、振动和噪声等)采集和存储，通过建模分析识别出生产流程作业过程中的关键缺陷因子指标；建立告警预警系统实现传感器数据流指标的实时监控，一旦偏离关键因子设定的阈值，就会触发报警信号，快速地发现错误或者瓶颈所在。通过关键因子与产品合格数据之间的联动，跟踪识别关键因子的变化趋势，从而优化提高产品良品率，达到提升生产效率、降低成本的目标。

一般如何利用数据分析逻辑来实现缺陷因子的识别？又是如何通过技术手段落地实现这样的工业数据分析处理的呢？数据存储和数据分析两大核心平台又分别提供那些核心功能呢？

以下提供了业务分析、基础平台、分析平台的一般架构参考。

业务分析

Markdown
通过业务分析，利用样本数据收集、建模仿真等手段识别出了如下的缺陷因子分析逻辑：

不同缺陷在时间上的聚集性
不同缺陷在不同因素上的分布倾向
过程异常与缺陷的相关性
不同缺陷在不同成分含量上的分布倾向

此后，算法工程师可以将分析逻辑映射为数据算法(逻辑回归、聚类、关联分析等)实现在分析平台上对基础平台中存储的数据集进行分布式计算处理，获得输出结果(关键因子集、因子阈值参数等)。

大数据基础平台：

Markdown
基于工具和基础架构，实现自动的数据收集、整理、转换和存储。充分利用 Hadoop/Spark 集群提供海量数据存储能力。

大数据分析平台：

Markdown
充分利用基础平台上存储的数据，在数据建模、模型训练上采用深度学习(Deep Learning)模式。通过数据逻辑层上针对工业制造细分领域的生产流程，提供监督学习、和非监督学习两种模式的模型训练机制的支持，进行数据清洗、数据仓库、特征工程、机器学习、图分析等应用。

总结

企业在工业生产过程中管理和应用大数据。首先是利用云平台、物联网等技术实时监测工业生产中的一系列设备，通过从设备中监控到的数据，再结合生产过程中的环境因素、产品质量、过程控制等数据，给出数据驱动的生产优化解决方案，实现提高精准制造、高端制造、敏捷制造的能力，加速智能车间、智能工厂等现代化生产体系建立，实现智能生产。

原文参考

一个jupyter插件

Posted on 2018-04-12 Edited on 2019-11-09 In 技术

分享一个jupyter小工具jupyterlab-drawio，可以用来替换原本属于viso的很多工作。
界面一览：
Markdown
使用起来感觉很方便，即不用安装viso那么大的软件，也很流畅，可以达到随心的程度。而且一些颜色设置、形状设定等操作在使用过程中还有记忆，这点感觉很好。

安装步骤：
需要先安装jupyterlab

安装运行

安装jupyter lab

1	pip install jupyterlab

安装扩展插件jupyterlab-drawio

1	jupyter labextension install jupyterlab-drawio

查看插件是否安装成功

1	jupyter labextension list

运行

1	jupyter lab

troubleshooting

‘_xsrf’ argument missing from POST

Markdown
画好图之后想将结果导出成图片，结果就报以上错误了
解决方式可以：
在jupyter_notebook_config.py中修改配置为

#c.NotebookApp.disable_check_xsrf = False
c.NotebookApp.disable_check_xsrf = True

404 : Not Found

然而导出还是报错：
Markdown
未完待续，尚待解决=====
目前为了把砖先搬掉，我是直接截图出来用的。