微软的AzureMLStudio提供了一条快速的学习曲线
机器学习正迅速成为数据科学家和开发人员的预测范式。 在许多可用于挖掘神经网络的工具中,微软的AzureMLStudio提供了一条快速的学习曲线,它不需要深入的数据或编码来启动和运行。
微软AzureMachineLearningStudio是一个用于执行价值预测(回归)、异常检测、结构发现(聚类)和类别预测(分类)的云服务。 虽然我以前的TensorFlow教程揭示了谷歌的开源机器学习和深度神经网络库如何要求您在挖掘之前卷起袖子,AzureMLStudio的图形化模块化方法将使您快速测试机器学习模型,如下所示。
我们开始吧。
Azure ML Studio采用模块化、拖放的方法进行机器学习。
使用MachineLearningStudio可以比编程一个库(如GoogleTensorFlow或MicrosoftCognitiveToolkit)更容易,这要归功于它为设计和运行训练和预测实验提供的拖放图形UI,如上面的截图所示.. 工作室还提供上下文帮助,但您并不完全免除开发责任:您需要以具有编程意义的方式将模块串在一起,有时还需要编写R或Python片段来补充所提供的模块。
你还需要提前了解一些关于机器学习的知识,以避免被淹没。 我在前面的教程中介绍了其中的大部分内容,所以您可以参考“TensorFlow入门”来介绍机器学习、神经网络和深度学习。 注意这篇文章的“先决条件”和“快速介绍”部分;没有必要为了手头的目的而讨论TensorFlow,除非你很好奇。 另一个简单的入门资源是微软的数据科学初学者视频系列。
要开始,您需要创建AzureMLStudio工作区。 做这件事有两条主要途径。 从studio.azureml.net开始,如下所示:
Azure ML Studio提供三层工作区供您使用。
上面的第一个选项(Guest Workspace)甚至不需要微软帐户,但它不会让你在机器学习的道路上走得很远。 第二个(Free Workspace)也是免费的,但需要一个登录;它可以让您同时尝试和设置有限存储和单个节点的Web服务。 第三个选项(标准工作区)需要Azure订阅;它提供更多的功率和SLA,每月花费$10英镑。
创建AzureMLStudio工作区的第二条主要路由需要Azure订阅,它从Azure门户开始,如下所示;各种选项用于不同级别的预测Web服务,并且都包括一个工作区。 DEVTEST选项是免费的,但仅限于每月1,000笔交易;S1至S3选项的范围从每月100000笔交易的约97$到每月5000万笔交易的约9700$不等。
为了本教程的目的,您应该创建一个免费的AzureML工作区,如果您有Azure订阅,则创建一个免费的DEVTEST标准工作区。
Azure为机器学习提供了四层工作空间。
对于那些跳过我上面提到的参考资料的人(或者对那些阅读这些参考资料的人来说),下面是TL;使用AzureML Studio的DR大纲:
在AzureML中线性回归流的一个例子。
微软为AzureMLStudio提供了一套很好的入门教程。 第一个(见上图)涉及回归问题(汽车价格)的步骤1至10,并提到步骤11。 第二个步骤涵盖步骤12和13。
完成您的模型,将其转换为预测实验,并将其作为Web服务发布。
如果你也想尝试一个分类问题,另一个入门教程将引导你通过信用风险评估模型。
Cortana Intelligence Gallery提供了一些实验、教程、自定义模块和解决方案。
现在你已经熟悉了如何通过AzureML,是时候探索一些模型了。 如果您导航到Cortana智能画廊,您可以找到大量的实验、教程、自定义模块和解决方案。 为了本教程的目的,让我们选择关于2016年总统竞选资金数据挖掘的实验。 (使用链接,因为当你看画廊的时候,这个实验不太可能再被展示了。)
一个AzureML样本机器学习实验,使用来自联邦选举委员会的竞选资金数据集。
本实验使用来自联邦选举委员会的竞选融资数据集,特别是个人贡献数据、候选人名单、委员会名单和候选人-委员会链接文件。 如果您右键单击“在Studio中打开”按钮,您可以在新选项卡中的自己的MLStudio实例中介绍此实验。
模型进行数据挖掘,2016年总统竞选融资数据..
这个实验花了大约20分钟在Azure云中运行,第一次运行它,第二次运行大约25分钟;在上面的图像中,我进入这个过程大约4分钟。 继续运行它,并阅读微软的讨论,然后在它继续运行的时候,在下面的写-你可以切换到另一个选项卡或程序,但不要在它运行时关闭Studio选项卡。 当它完成运行时,保存它。 完全有可能在下一次打开之前会发生更新,需要重新运行模型,但无论如何都要保存它。
正如你在AzureML团队的文章中读到的那样,这个实验:
2016年竞选资金密度图。
关于这个模型的一个有趣的问题是它是如何开发的。 我还没有问微软这一步是如何发展的,但当我在数据分析方面工作时,我一次采取一步,并迭代,直到这一步足够好,可以继续下一步。 首先,找到你需要的数据集;然后清理它们,加入它们,选择变量,并根据需要对数据进行转换。
经过20分钟的处理,我们得到了一个干净的分类数据集,其中一半是克林顿的捐款,一半是特朗普的捐款,这相当于我在上面关于如何使用AzureML的总结中的步骤1到5。 现在,我们需要选择至少一个分类模型来训练,根据数据集中的其他因素来预测克林顿和特朗普捐助者,并进行下一步:分割数据,训练数据,对其进行评分,并对模型进行评估。 我相信你会在家里玩。
机器学习算法作弊板是一个很好的地方开始选择一个模型。 看看这篇文章,了解如何最好地使用备忘单。
由于我们正在研究一个具有相对较少参数的二进制分类问题,我将从两类Logistic回归开始我的研究-一种尝试和真实的算法,可以快速训练-并使用默认参数。 从这个模型开始并不排除使用其他模型:找到最好模型的唯一方法是全部尝试。
AzureML Studio中的两类Logistic回归模型。
现在我需要分割数据。 对于第一节,我将使用80%的数据进行训练,20%的数据进行评分。
分割数据用于AzureML工作室的培训。
接下来,我需要对模型进行训练、评分和评估。 我需要选择附属专栏(克林顿或特朗普),就像预测的那样。
在AzureML中选择一个附属栏进行培训、评分和评估竞选资金模型。
评估模型的新模块流程如下:
用于评估AzureML中模型的模块流。
运行新模块是选择所有模块并按Run/Run选择的问题。
最后,我可以看看评价:
在AzureML中对竞选融资模型样本的评价结果。
这个简单的模型使我们的精度达到85.1%,精度达到84.9%,AUC(接收器操作曲线下的面积)达到93.1%。 我敢打赌你只要稍微努力就能做得更好。
Azure Machine Learning Studio很好地帮助您设计具有图形用户界面的机器学习培训和预测管道,正如我们所看到的。 如果你需要超越基本的机器学习和简单的神经网络到深度学习/深度神经网络,微软认知工具包是微软提供的免费开源产品(尽管仍然是测试版),以与谷歌TensorFlow竞争。 与MLStudio不同,它只允许您用R或Python编写模块,CognitiveToolkit需要您做一些编码才能有效地使用它,无论是在Python中还是在Microsoft的Brain脚本神经网络配置语言中。
如果你想尝试不同的模型,如决策森林,决策丛林,增强决策树和神经网络,并将它们与我从Logistic回归中得到的结果进行比较,这个来自Cortana画廊的实验向你展示了如何。 基本上,您将添加新模型以及培训、评分和评估模块;将它们连接回Split Data模块;然后运行图表的新部分。 您可以使用评估模型模块上的两个输入端口来并排比较两个模型的分数。
当您找到了您最好的模型时,您可以使用它来设置预测Web服务。