用于分类的机器学习库的可伸缩性,速度和准确性的简单/有限/不完整基准
所有基准都是错误的,但有些是有用的
该项目旨在为一些机器学习算法的常用实现的可伸缩性,速度和准确性提供一个最低基准。 这项研究的目标是使用数字和分类输入(具有有限的基数,即不是很稀疏)并且没有丢失的数据进行二进制分类,这可能是业务应用程序中最常见的问题(例如,信用评分,欺诈检测或客户流失预测)。 如果输入矩阵的大小为n x p ,则n的变化范围为10K,100K,1M,10M,而p为〜1K(在将分类扩展为伪变量/一次编码后)。
文中针对把最小化总流动时间作为基准(Fm|fmls,Splk,prmu|∑Cj)的流水车间序列依赖组调度问题(FSDGS),研究了一种新的粒子群优化算法(PSO)。并基于排序值(Ranked Order Value,ROV)开发了一种编码方案,这种方案能将PSO算法中粒子的连续位置值转化成作业和组排列。文中用了一种称为个体增益(IE)的邻域矩阵搜索策略来保证提高搜索的质量并在深度和广度上做出平衡。新算法的性能被拿来与当前文献中提到的已知最好的元启发式算法即蚁群算法(ACO)进行对比,基于常用测试