推荐使用Linux,Mac下用于设置周期性被执行的指令crontab,通过crontab来设置定时执行Alink任务。
crontab的命令格式为:
crontab [-u user] file crontab [-u user] [ -e | -l | -r ]
各命令参数的解释如下:
-u user:用来设定某个用户的crontab服务 file:file是命令文件的名字,表示将file做为crontab的任务列表文件并载入crontab。如果在命令行中没有指定这个文件,crontab命令将接受标准输入(键盘)上键入的命令,并将它们载入crontab。
-e:编辑某个用户的crontab文件内容。如果不指定用户,则表示编辑当前用户的crontab文件。
-l:显示某个用户的crontab文件内容,如果不指定用户,则表示显示当前用户的crontab文件内容。
-r:从/var/spool/cron目录中删除某个用户的crontab文件,如果不指定用户,则默认删除当前用户的crontab文件。
我们通过一个简单的示例来演示。
输入如下命令,编辑crontab文件内容,会自动打开一个文本编辑器,通常是vim。
crontab -e
编辑内容,键入:
*/1 * * * * /bin/date >> /Users/yangxu/time.txt
其中,关于任务时间和间隔的设置说明可以参考:
https://linuxtools-rst.readthedocs.io/zh_CN/latest/tool/crontab.html#id10
然后,保存并退出编辑状态,此时,crontab已经开始执行。
过几分钟,我们检查一下文件/Users/yangxu/time.txt的内容,显示截图如下:
可以看到定时执行已经起作用了。
进一步,使用命令:
crontab -l
可以看到当前的定时任务列表,显示内容如下:
*/1 * * * * /bin/date >> /Users/yangxu/time.txt
如果想要清除所有的定时设置,可以使用命令:
crontab -r
crontab可以定时运行各种命令。对于Alink来说,crontab既可以启动Alink的Java任务,也可以运行包含有PyAilnk的Python脚本(Notebook不能用),这些命令还可以包含在Bash脚本里。
下面以Python脚本为例进行说明,假设我们有以下的PyAlink代码:
from pyalink.alink import * from datetime import datetime timestamp = datetime.timestamp(datetime.now()) timestamp_str = datetime.fromtimestamp(timestamp).strftime('%Y-%m-%d %H:%M:%S') useLocalEnv(2) source = CsvSourceBatchOp() \ .setSchemaStr("sepal_length double, sepal_width double, petal_length double, petal_width double, category string") \ .setFilePath("http://alink-dataset.cn-hangzhou.oss.aliyun-inc.com/csv/iris.csv") sink = CsvSinkBatchOp() \ .setFilePath("/Users/fanhong/Code/alink-jupyter/" + timestamp_str + ".csv") sink.linkFrom(source) BatchOperator.execute()
这个脚本会在正确运行后,在固定的目录下生成一个以当前时间戳命名的csv文件。因为crontab在执行任务时,并不在当前目录,所以这里的目录路径不能使用相对路径,请根据情况修改。
将上面的代码,复制到文本编辑器中,修改目录路径,然后保存到任一目录下,文件名为“crontab-example.py”。
之后,我们在当前目录测试这个脚本,使用 python3 crontab-example.py 运行。运行结束后,如果在前面指定的目录下生成了以当前时间戳命名的csv文件,就说明脚本没有问题。
然后,我们通过crontab来添加定时作业,如前面简单示例所示,运行命令
crontab -e
编辑如下内容,然后保存退出:
* * * * * /usr/local/bin/python3 /Users/fanhong/Code/alink-jupyter/crontab-example.py >/tmp/crontab-stdout.log 2>/tmp/crontab-stderr.log
注意到,这里python和py脚本的路径,我们都使用了绝对路径。同时我们将脚本运行的标准输出和错误输出分别重定向到文件中,方便在运行失败时查看信息。这几个路径都可以根据机器环境进行修改,其中python路径一般可以通过which python3查看到。
上面所添加的定时作业表示每分钟将执行一次后面的脚本,如果作业正常运行,可以在之前Python脚本中CsvSinkBatchOp所用的绝对路径下看到每分钟所生成的csv文件。
如果没有生成文件,通常问题是2个: