5分钟搞定机器学习建模,智铀科技

  • 时间:
  • 浏览:2

 AutoML的概念源自2012年学术界提出一5个新观点Programming by Optimization(PbO),字面上的意思是指以最优化程序开发,实质上可是我我要防止建模时依赖人工的问题。

      AutoML更大范围内为世人周知是不可能 谷歌Cloud  AutoML  Vision产品的发布,这款产品还越来越多再 用AI设计AI,让更多对机器学习了解有限的人,把Google级的AI技术运用到产品打磨中,从而降低了使用机器学习的门槛,这也是智铀科技正在做的事情,不同的是,谷歌AutoML目前专注于图像识别领域,智铀科技目前主要以社会形态化数据为主,致力于为企业带来全流程、自动化的建模和部署能力,帮助企业构建人工智能核心,实现AI驱动。

      目前,传统行业使用机器学习仍面临着巨大的挑战。

1、建模过程繁琐

2、AI人才欠缺

3、人力成本大

4、算法设计周期长

5、系统实施维护困难

 

      针对哪几种痛点,夏粉博士带领智铀科技团队开发了自动化机器学习产品“小智”。

      小智还越来越多再 免费试用,支持上限为 400MB 的 CSV 训练数据量、10MB的数据预测,越来越多再编写代码,学习数学,就还越来越多再 让人亲身体验机器学习的魅力。模型精度也越来越多再担心,小智还越来越多再 帮您完成简单便捷、高质高效的建模。

试用最好的方式:进入智铀科技官网,在产品页面点击免费试用即可 

      智铀科技发布的自动化机器学习产品“小智”,还越来越多再 自动构建高精度模型,为用户提供从数据预防止、社会形态工程、模型调参、模型评估、模型预测到结果分析等一站式服务,其独创的参数搜索算法防止了人工调参费时耗力的问题,独创的社会形态工程算法,令组合社会形态挖掘传输数率提升上千倍。另外,小智还支持千亿样本、千亿社会形态数据量,模型从浅层到层厚灵活支持。

      除了以独创的算法实现了自动建模,小智在产品的交互方面也贯彻着简单易用的原则,直观的web界面允许任何人和小智进行交互,不都要AI背景,用户也还越来越多再 一键完成建模,内置的可视化效果,如ROC曲线图和准确&召回曲线,越来越多再 使用户对被委托人的业务有更深刻的理解。据某银行客户介绍:“在通用场景下,普通业务人员借助小智越来越多再 达到高级建模人员水平。” 

      随着互联网+时代的到来,大数据在企业的落地应用正在快速增长,而数据安全,也成为众多企业的顾虑,这也催生了企业对于私有化部署的需求。据悉,小智将以产品的形式提供给行业,除了支持公有云、SAAS模式外,还提供私有化部署。

      AutoML仍然是一5个在摸索中的新兴领域,谁能抢占技术占领市场尤为重要。目前,智铀科技不可能 与金融、医疗、物联网等多个行业的协作者者为其提供服务,产品的功能应用含晒 点击率预估、反欺诈侦测、市场精准营销以及个性化推荐等,满足不同场景的不同需求,同时产品的有效性经过实践验证,不但越来越多再 为企业带来收入的增长为什么么让节省成本。

整体建模流程

      机器学习建模过程一般含晒 多个步骤,首先,数据科学家要对业务问题进行定义,抽象为数学问题;对获取到的数据进行分析、理解、 清洗,划分;其次进行社会形态工程,如社会形态衍生、社会形态组合、社会形态选择 等,为什么么让越来越多再 开始 英语 进行建模、训练、预测等。在小智平台,用户只需上传数据,选定目标名称,其余步骤包括数据预防止、社会形态工程、调参、训练及预测,得到分析结果,部署和监控模型均由小智完成,实现真正端到端的全程自动机器学习。这大大减少了欠缺机器学习知识用户的使用难度。

 

      机器学习工作流图(绿色圆柱块表示数据,为整个工作流的基础,深蓝色的方块为一5个简单的建模流程,有简单问题只都要走完深蓝色方块就开始 英语 了,黄色的一5个方块为模型都要上线,持续优化改善的部分) 

      机器学习工作流如上图所示,整个流程以数据为中心,循环往复。在使用小智的过程中,首先要下发建模都要的数据,不可能 是业务相关数据,可是我我可能 是从网上爬取的某些信息。亲戚朋友还越来越多再 将哪几种社会形态化数据转换为csv宽表或txt文件,放到本地、数据库或HDFS上,为什么么让上传至小智,对数据集的格式进行调整,类事 编码、分隔符、空值标识、首行是算不算为社会形态名称等。至此,用户负责的数据准备事先的步骤便完成了。

      下一步为建立模型。当用户上传数据到小智平台后,小智会检查和清理数据,为什么么让会以数据科学的层厚给出所有社会形态的数据画像。用户选择 建模目标后就还越来越多再 开始 英语 “一键式”自动化建模了。小智会依次完成从数据清洗、社会形态工程、调参、选择 最优算法、搭建模型、模型评估、模型发布的全过程,实现真正的“一键式”建模。模型评估阶段还越来越多再 监控模型的预测性能,当用户认为预测结果不理想时还越来越多再 选择 重新训练模型以达到理想的预测结果。当用户完成模型训练为什么么让选择 了大慨的模型后,就还越来越多再 部署模型了。 部署后,还越来越多再 上传CSV预测文件,对上传的数据进行批量预测,不可能 使用模型API 进行实时预测。

案例分析

      为了实际感受小智的效果,并了解它到底和人工建模相比有哪几种优势,亲戚朋友使用一5个广告点击预测案例来说明,即通过广告系统的社会形态;流量预估:设备号、手机,区域(经纬度)、访问时间;广告主专业:新型游戏等;创意社会形态;投放事先定向的社会形态;广告位;环境等社会形态来预测某条投放广告是算不算被点击。

      点击率(click-through rate)是评价在线广告效果的重要指标,对点击率进行预测建模在线广告商尤为重要。亲戚朋友还越来越多再 用历史的广告投放数据建立一5个模型,输入未来一段时间的广告投放数据进行模型验证。分别进行小智自动化建模和手动建模。

小智数据为什么做

      该建模数据集是在线广告点击率预测竞赛的数据,来自Kaggle竞赛,通过广告ID、是算不算点击、位置栏位、网站域名、网站种类、应用ID、应用领域、设备编号等属性来预测广告是算不算被点击。本案例分析中亲戚朋友只截取了其中一部分数据集,并做了必要的数据清洗,每条样本为两根广告投放为什么么让标记了是算不算被点击的数据,最后一列“click”为目标,1表示点击,0表示未点击。已预先划分好数据集,“train.csv”为训练集,“test.csv”为预测集。训练样本集共320475个,预测样本79527个,社会形态维度为23维。

      在上传数据阶段,还越来越多再 都看一5个虚线框,点击虚线框火将文件拖拽至此即可实现上传。虚线框中还有“点此下载测试数据”和“下载数据匿名化工具”一5个选项,亲戚朋友提供了某些公开的测试数据可供用户下载测试,加入用户越来越多再让被委托人的数据上传到公有云上,还越来越多再 下载数据匿名化工具对数据进行简单的加密,使得数据社会形态名称、敏感社会形态值隐藏,为什么么让越来越多再影响模型效果。

      上传数据后,还越来越多再 都看小智中的数据概览,点击“选择 并生成画像”进入到下一步,接着通过可视化操作选择 要预测的目标变量与可用的社会形态变量,保存社会形态列表后即可进行模型训练。对于分类任务,社会形态变量还越来越多再 分为类别型和数值型,小智还越来越多再 自动检测变量类型,用户也还越来越多再 根据需求自定义修改类型,这又会节省可是我精力。

 

小智的上传数据界面

  

原始训练数据样本集概览

  

经过匿名化防止的训练数据样本集概览 

      选择 目标变量无误后,小智会根据目标变量自动分析模型类型,以及分析社会形态变量,并给出自动质量修复方案。

 

数据画像示例

小智建模为什么做

      防止完数据后就还越来越多再 开始 英语 建模了,小智全自动建模不都要用户做任何操作,假若等待歌曲模型训练完成即可。目前只支持二分类和回归,主要采用常用的LR和GBDT算法,兼顾了性能与可解释性。事先小智会进行自动建模、调参,用户还越来越多再 选择 模型中结果较好的一5个。

      模型训练事先还越来越多再 查看训练足迹、模型评估、以及模型描述。

      其中模型评估含晒 ROC曲线、Lift提升度、KS曲线、精确&召回曲线等指标,AUC等指标采用交叉验证的计算值,Lift、KS等采用的是验证集上计算出的指标。模型评估是亲戚朋友评价模型好坏的标准,在预测数据集上算不算同样的一5个评估模块。在模型描述中亲戚朋友有社会形态重要性查看和归因解释,亲戚朋友还越来越多再 都看在模型中排列在前面的某些社会形态,比如亲戚朋友还越来越多再 选择 top K进行重新建模,在事先下发数据时有点硬注重哪几种社会形态的完整性性和正确性等。是是因为解释还越来越多再 查看预测正确的样本的哪几种属性占主要正向是是因为,哪几种属性占主要的负向是是因为。还还越来越多再 查看真实值和预测值相差最大的top K个样本,查看是算不算不算异常数据样本。

 

模型描述中的社会形态重要度

 

模型描述中的是是因为解释

小智部署为什么用

      最后的部署就比较简单了,选择 最大慨的训练模型,为什么么让选择 发布即可下载模型部署不可能 调用API,配合SDK使用进行预测就行了。一般小智还越来越多再 通过数据源或 API 进行模型部署,其中数据源采用本地 CSV 文件。

与一般工程师人工建模效果对比

      如下图所示,通过运用小智建立的广告点击预测模型,在预测集上的AUC 可达到 0.7294,越来越多再 较准确地识别出广告流量是算不算被点击,为广告投放提供了重要支持;分析团队在下发到相关数据后,利用小智平台越来越多再 在 1 小时内太快构建出模型并完成预测;整个过程仅都要一名普通水平的数据分析师即可完成整个建模预测工作,不都要任何内控 顾问,从而节约了一定量成本。

      在实际应用中,小智不仅在广告推荐领域,还有包括金融、能源、医疗、新零售、物流、制造、游戏等众多领域的中算不算很好的表现

小智在预测集上的AUC 达到 0.7294

      一般的算法工程师,借助开源算法库sklearn中的GBDT、RF、LR、Adaboost,以及Xgboost四种 生活算法模型进行建模分析。都看建模效果最好的模型是GBDT,AUC还越来越多再 了0. 7108,小于小智自动建模的AUC 0.7294。

对比银行某产品推荐的人工建模效果

建模场景:预测目标客户在一5个月内购买产品(5种产品)的不可能 性;

建模规模:约3700万户;

建模数据:根据客户前一5个月的表现,对5类产品的持有和未持有分开建立10个模型,每个数据集大小为400MB—8G;

建模效果:与行内建模团队模型效果基本相符。建模传输数率提升了近10倍,在协作者银行中2被委托人工模型上线一般都要2月左右,小智只都要还越来越多再 了一周就能完成建模,且能和银行内已有应用系统无缝融合。

      对同一模型评价指标的分值,评估级别计算最好的方式为: (小智分值-行内基线)/行内基线

 

最终效果对比表