本书实验使用Jupyter Notebook编辑运行,读者可以在Alink开源网站下载Python源代码,所用数据集都可以通过Web下载。
Python源代码的地址:参见链接1-5。
该代码在MacBook Pro(Intel Core i7-4770HQ CPU @ 2.20 GHz四核八线程, 16GB 1600MHz DDR3)计算机上运行通过,本书记录的实验运行时间也是在该计算机上的运行时间。
本书所使用的数据集都是可以通过Web获取的免费数据集。这些免费的数据集在书中都有相应的介绍,并提供了数据来源。其大部分可以直接点击下载;不过,若要下载来自Kaggle的数据集,则需要注册Kaggle账户,但下载是免费的。
每个章节的示例代码都在使用不同的数据,建议用户将数据下载到本地使用,并在本地建立一个数据存放的总文件夹。作者在本地的数据总文件夹为“/Users/yangxu/alink/data/”。随后,在数据总文件夹下建立不同的子文件夹,用于存放不同的数据集。子文件夹的命名可以参考示例代码中的命名。这样示例的代码下载到本地后,只需修改一处数据总文件夹路径变量的设置,便可直接运行了。
数据总文件夹的路径变量设置在utils.py中,在此定义了根路径变量ROOT_DIR:
ROOT_DIR = "/Users/yangxu/alink/data/"
在各个章节的代码中,所用的数据路径如下:
DATA_DIR = ROOT_DIR + "temp" + os.sep
该路径由ROOT_DIR和当前章节所用的子文件夹名称拼接而成,注意代码最后使用的os.sep,是跨平台的文件路径分隔符。