Skip to article frontmatterSkip to article content
Site not loading correctly?

This may be due to an incorrect BASE_URL configuration. See the MyST Documentation for reference.

7.4 sklearn和keras

了解当前机器学习算法和工具的现状的一个很好的方式是观察Kaggle上的机器学习竞赛。由于其高度竞争的环境(一些比赛有数千名参赛者和百万美元的奖金)以及涵盖的各种机器学习问题。2019年初,Kaggle进行了一项调查,询问了自2017年以来任何一项比赛中进入前五名的团队使用的主要软件工具。结果显示,顶尖团队倾向于使用深度学习方法(最常见的是通过Keras库)或梯度提升树(最常见的是通过LightGBM或XGBoost库)。

图 Kaggle竞赛中使用的软件工具

1. 机器学习社区

链接:kaggle.com

Kaggle是全球最大的数据科学社区,提供了数据科学相关的竞赛和数据集。很多著名企业,例如,在Kaggle平台上发布企业的数据和商业需求,并附带奖金。众多数据科学爱好者在网站上提交自己的解决方案,已赢取排名和奖金。此外,个人用户也可以上传和公开自己的数据集,开放给其他用户使用。这种竞争、开放和分享的氛围,让Kaggle在数据科学领域具有良好的口碑。

2. scikit-learn

链接:scikit-learn.org

sklearn 提供基于 Python 语言的包含监督学习、无监督学习相关的机器学习模型,以及数据预处理方法等。

练习:

使用之前学过的pip安装第三方库的方法,来安装scikit-learn,安装方法也可以参考scikit-learn的官网。

3. keras

链接:keras.io

Keras 提供基于 Python 语言的的深度神经网络API,使构建和训练神经网络相对简单。Keras 在研究、学术界和工业界广泛应用于图像识别、自然语言处理等任务。

练习:

使用之前学过的pip安装第三方库的方法,来安装keras,安装方法也可以参考keras的官网。