Alink教程(Java版)
Alink教程(Python版)
该文档涉及的组件

PAI-DSW 动手实验室

PAI-DSW 动手实验室,只要注册天池账户便可免费使用。每次登录限时使用8个小时,重新登录后,也会重新开始计时。可以满足大家学习的需求。


一、准备 PAI DSW 环境

  1. 访问网址:https://tianchi.aliyun.com/specials/promotion/dsw-hol,点击页面中间“PAI DSW(Data Science Workshop)”。
  2. 在页面右边点击“CPU”,打开配置边栏;在边栏中选择“GPU”,然后点击“切换/Switch”;等待一小会后,切换完成。
  3. 切换后默认显示的页面是 Jupyter Lab 的 Launcher 页面,在页面中间找到“Other”区域,点击下面的“Terminal”按钮打开一个终端。
  4. 由于默认的镜像安装了低版本的 PyAlink,所以需要输入以下命令安装最新版本的 pyalink:
pip3 uninstall apache-flink apache-flink-libraries
pip3 install -U pyalink
  1. 等待命令执行完成后,输入命令 pip3 show pyalink 查看安装新版本是否成功。

  1. (可选)如果需要使用 Alink 的 TF 训练功能,那么需要卸载掉默认安装的 TensorFlow 版本,否则会有冲突:
pip3 uninstall tensorflow-estimator tensorflow-gpu tensorflow-io
  1. 将打开的“Terminal x”关闭,回到 Launcher 页面。


二、运行 PyAilnk 脚本

  1. 在 Launcher 中点击 “Notebook”下的“Python 3” 图标,创建一个 Notebook。
  2. 在打开的 Notebook 的第一个 Cell 中,粘贴以下的示例代码:
from pyalink.alink import *
useLocalEnv(2)

source = CsvSourceBatchOp() \
    .setSchemaStr(
    "sepal_length double, sepal_width double, petal_length double, petal_width double, category string") \
    .setFilePath("https://alink-test-data.oss-cn-hangzhou.aliyuncs.com/iris.csv")
sample = source.firstN(50)
df = sample.collectToDataframe()

df
  1. 然后按 Shift + Enter 运行 Cell。正常结束时如下图所示:


这样就成功运行了一个 PyAlink 脚本!

注意事项

  1. DSW 里运行 PyAlink 使用的是本地运行(useLocalEnv),计算能力受 DSW 实例的规格限制。
  2. 免费版的 DSW 还有一些其他限制,可以参考这个文档:https://help.aliyun.com/document_detail/194831.html#section-wt2-4ik-ru4