本书的全部实验都提供了Java源代码,所用数据集均可以通过Web下载。
Java源代码的地址:参见链接1-5。
该代码在MacBook Pro(Intel Core i7-4770HQ CPU @ 2.20 GHz四核八线程, 16GB 1600MHz DDR3)计算机上运行通过,本书记录的实验运行时间也是在该计算机上的运行时间。
本书所使用的数据集都是可以通过Web获取的免费数据集。这些免费的数据集在书中都有相应的介绍,并提供了数据来源。其大部分可以直接点击下载;不过,若要下载来自Kaggle的数据集,则需要注册Kaggle账户,但下载是免费的。
每个章节的示例代码都在使用不同的数据,建议用户将数据下载到本地使用,并在本地建立一个数据存放的总文件夹。作者在本地的数据总文件夹为“/Users/yangxu/alink/data/”。随后,在数据总文件夹下建立不同的子文件夹,用于存放不同的数据集。子文件夹的命名可以参考示例代码中的命名。这样示例的代码下载到本地后,只需修改一处数据总文件夹路径变量的设置,便可直接运行了。
数据总文件夹的路径变量设置在Utils中,为静态变量ROOT_DIR:
public static final String ROOT_DIR = "/Users/yangxu/alink/data/";
在各个章节的代码中,所用的数据路径如下:
static final String DATA_DIR = Chap01.ROOT_DIR + "iris" + File.separator;
该路径由ROOT_DIR和当前章节所用的子文件夹名称拼接而成。注意:代码最后使用的File.separator是为跨平台而设的。