Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
內容目錄
開始 Lab 以前,需要先確認自己的專案 {project-number}-compute@developer.gserviceaccount.com
是否有編輯者 (Editor) 的權限。
確認後,建立 Cloud Storage 貯體。
開啟 Cloud Shell,檢查 Python 版本。
python3 --version # 檢查 pip 版本 pip3 --version # 更新 pip 至最新版本 sudo pip3 install -U pip # 安裝虛擬環境套件 sudo pip3 install --upgrade virtualenv # 建立 pip 虛擬環境 Virtual Environment virtualenv -p python3.7 env # 啟用虛擬環境 source env/bin/activate
進入虛擬環境後,Shell 前面會多一個 (env)
標示。接著安裝 Apache Beam for Python。
pip install apache-beam[gcp]
接著執行 wordcount.py
程式。將 OUTPUT_FILE
變更為想要輸出的檔案名稱。
python -m apache_beam.examples.wordcount --output OUTPUT_FILE
執行完畢後便可以看到路徑中產生 OUTPUT_FILE
的檔案。用 cat
檢查檔案內容
# 確認完整檔案名稱 ls cat 檔案名稱
首先,先定義 Cloud Storage 貯體。
BUCKET=gs://<bucket name provided earlier>
接著執行以下指令,在遠端執行 wordcount.py
。
python -m apache_beam.examples.wordcount --project $DEVSHELL_PROJECT_ID \ --runner DataflowRunner \ --staging_location $BUCKET/staging \ --temp_location $BUCKET/temp \ --output $BUCKET/results/output \ --region us-central1
點選導覽選單 > [Dataflow] > [Jobs],檢查執行狀況。等到執行完成時,會回傳 Succeeded
。
接著到 Cloud Storage 貯體中的 results
路徑檢視執行結果。
example-cluster
的 Dataproc 叢集。gcloud config set dataproc/region us-central1 gcloud dataproc clusters create example-cluster --worker-boot-disk-size 500 gcloud dataproc jobs submit spark --cluster example-cluster \ --class org.apache.spark.examples.SparkPi \ --jars file:///usr/lib/spark/examples/jars/spark-examples.jar -- 1000
利用 --num-workers
可以調整背景工作數量。
gcloud dataproc clusters update example-cluster --num-workers 4