Alink教程(Java版)
Alink教程(Python版)
该文档涉及的组件

在Linux,Mac下定时执行Alink任务

推荐使用Linux,Mac下用于设置周期性被执行的指令crontab,通过crontab来设置定时执行Alink任务。

crontab简介

crontab的命令格式为:

crontab [-u user] file
crontab [-u user] [ -e | -l | -r ]


各命令参数的解释如下:

-u user:用来设定某个用户的crontab服务 file:file是命令文件的名字,表示将file做为crontab的任务列表文件并载入crontab。如果在命令行中没有指定这个文件,crontab命令将接受标准输入(键盘)上键入的命令,并将它们载入crontab。

-e:编辑某个用户的crontab文件内容。如果不指定用户,则表示编辑当前用户的crontab文件。

-l:显示某个用户的crontab文件内容,如果不指定用户,则表示显示当前用户的crontab文件内容。

-r:从/var/spool/cron目录中删除某个用户的crontab文件,如果不指定用户,则默认删除当前用户的crontab文件。

我们通过一个简单的示例来演示。

输入如下命令,编辑crontab文件内容,会自动打开一个文本编辑器,通常是vim。

crontab -e


编辑内容,键入:

*/1 * * * * /bin/date >> /Users/yangxu/time.txt


其中,关于任务时间和间隔的设置说明可以参考:

https://linuxtools-rst.readthedocs.io/zh_CN/latest/tool/crontab.html#id10


然后,保存并退出编辑状态,此时,crontab已经开始执行。

过几分钟,我们检查一下文件/Users/yangxu/time.txt的内容,显示截图如下:

image

可以看到定时执行已经起作用了。


进一步,使用命令:

crontab -l


可以看到当前的定时任务列表,显示内容如下:

*/1 * * * * /bin/date >> /Users/yangxu/time.txt

如果想要清除所有的定时设置,可以使用命令:

crontab -r



Alink定时调度例子

crontab可以定时运行各种命令。对于Alink来说,crontab既可以启动Alink的Java任务,也可以运行包含有PyAilnk的Python脚本(Notebook不能用),这些命令还可以包含在Bash脚本里。

下面以Python脚本为例进行说明,假设我们有以下的PyAlink代码:

from pyalink.alink import *
from datetime import datetime
timestamp = datetime.timestamp(datetime.now())
timestamp_str = datetime.fromtimestamp(timestamp).strftime('%Y-%m-%d %H:%M:%S')
useLocalEnv(2)
source = CsvSourceBatchOp() \
 .setSchemaStr("sepal_length double, sepal_width double, petal_length double, petal_width double, category string") \
 .setFilePath("http://alink-dataset.cn-hangzhou.oss.aliyun-inc.com/csv/iris.csv")
sink = CsvSinkBatchOp() \
 .setFilePath("/Users/fanhong/Code/alink-jupyter/" + timestamp_str + ".csv")
sink.linkFrom(source)
BatchOperator.execute()


这个脚本会在正确运行后,在固定的目录下生成一个以当前时间戳命名的csv文件。因为crontab在执行任务时,并不在当前目录,所以这里的目录路径不能使用相对路径,请根据情况修改。

将上面的代码,复制到文本编辑器中,修改目录路径,然后保存到任一目录下,文件名为“crontab-example.py”。

之后,我们在当前目录测试这个脚本,使用 python3 crontab-example.py 运行。运行结束后,如果在前面指定的目录下生成了以当前时间戳命名的csv文件,就说明脚本没有问题。


然后,我们通过crontab来添加定时作业,如前面简单示例所示,运行命令

crontab -e


编辑如下内容,然后保存退出:

* * * * *  /usr/local/bin/python3 /Users/fanhong/Code/alink-jupyter/crontab-example.py >/tmp/crontab-stdout.log 2>/tmp/crontab-stderr.log


注意到,这里python和py脚本的路径,我们都使用了绝对路径。同时我们将脚本运行的标准输出和错误输出分别重定向到文件中,方便在运行失败时查看信息。这几个路径都可以根据机器环境进行修改,其中python路径一般可以通过which python3查看到。

上面所添加的定时作业表示每分钟将执行一次后面的脚本,如果作业正常运行,可以在之前Python脚本中CsvSinkBatchOp所用的绝对路径下看到每分钟所生成的csv文件。

如果没有生成文件,通常问题是2个:

  • crontab的系统服务没有启动。需要参考各个系统的服务启动方式来启用crontab。在MacOS下,一般使用sudo touch /etc/crontab之后就能正常运行。
  • 脚本运行错误。比如上面的命令运行失败,可以通过文件/tmp/crontab-stderr.log查看报错信息。由于我们之前已经成功运行过脚本,所以这里通常是Python环境的问题。