机器学习实战-复习版（问题汇总）

浏览 2387 扫码分享 2018-04-10 06:50:50

第1章机器学习实战-复习版（问题汇总）

第1章机器学习实战-复习版（问题汇总）

1.VSCode的安装使用

参考文档：http://cwiki.apachecn.org/pages/viewpage.action?pageId=7373315

2.GitHub的使用说明

参考文档：https://github.com/apachecn/kaggle/blob/master/docs/github-quickstart.md

注意： https://github.com/apachecn/MachineLearning （这是本项目的地址，记得修改链接。。）

3.问题汇总

1.样本数据的来源：

1. 日志文件
2. 数据库
3. HDFS
4. 数据流

2.样本数据按照一定比例来划分：训练数据集 + 测试数据集

1. 根据业务场景来分析，得到对应的比例
2. 一般设置是按照  训练数据集:测试数据集 = 8:2

3.训练数据集包括：特征(也就是数据的纬度 or 属性) + 目标变量(分类结果 or 回归值)

4.测试数据用来干嘛？

如下图：用于评估模型的效果。（测试样本的预测类别和测试样本的实际类别的diff，就是我们的错误率）

5.监督学习和无监督学习的区别：是否有目标变量（也就是：是否存在分类结果）

6.电子书的下载位置：

下载书籍： https://github.com/apachecn/MachineLearning/tree/python-2.7/books

7.性能不好是什么意思？

就是对比其他语言来说：资源的使用效率受限、处理速度慢。

8.学习原理后，如果成为调包侠？调包侠是否很丑？

学习原理后，就看看 sklearn中文文档: http://sklearn.apachecn.org, 转型做调包侠
调包侠一点都不丑，为什么呢？
- 便于分析业务，快速发现问题
- 开发速度快，便于优化和维护

9.python讲解的版本 2.7.X

2.7.X版本测试比较稳定，没有Bug
3.X 的朋友刚好可以上手去熟悉 API 并锻炼自我解决问题的能力，算是自我学习的一个方式吧
对于使用 3.X的朋友，可以提交 Pull Requests 到 3.X 分支，成为开源的贡献者，方便更多的人学习你的代码

4.复习的时间和资料

形式：直播+讨论组
周期：周一～周五
时间：20:30 ～ 21:30
学习文档：https://github.com/apachecn/MachineLearning
下载书籍： https://github.com/apachecn/MachineLearning/tree/python-2.7/books
活动日期：2017-11-20 ～ 2017-12-08（共15天，1章1天）
活动详情：http://www.apachecn.org/machinelearning/279.html

5.直播方式

QQ：在讨论组共享屏幕（实时）
- 视频会在讨论组中进行分享
B站的直播地址（延迟）
- 直播地址: http://live.bilibili.com/5427054

6.机器学习QQ群

ApacheCN - 学习机器学习群【629470233】

装逼不装逼，我们还是老地方见！ | ApacheCN

本文档使用 BookStack 构建

展开/收起文章目录