Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
Dataprep 是一款無伺服器的雲端運算服務,可以適用於不同規模的專案中。
這次的主要目標是要匯入資料集、修正比對錯誤的資料、轉換資料 (transform data) 與連結資料 (join)。
在開始 Lab 後,先建立 Cloud Storage 貯體。
內容目錄
FEC-2016
,內容敘述則輸入「United States Federal Elections Commission 2016」(非必要,但實際執行專案時還是建議要寫說明)。gs://spls/gsp105
,點擊 [Go]。us-fec
後,點擊路徑內檔案 cn-2016.txt
左方的 + 記號,將資料集新增至右側面板。接著於右側面板將資料集名稱重新命名為 Candidate Master 2016
。itcont-2016.txt
至右側面板,並重新命名為 Campaign Contributions 2016
。因為練習使用的資料集跟 Lab 教材的資料集不一樣 (可能新版系統整理過了),所以這邊就參考他的內容就好。
點擊第二列的圖表,右側面板會顯示建議如何處理相關資料。尤其是欄位中出現比對不符的情況時,適合用這種方式清除無效的資料。
Join datasets
,選取資料集 Candidate Master 2016
後,點擊 [Accept]。在 [Join keys] 處,Dataprep 會提供比對鍵值的建議,選擇想要比對的欄位後,點擊 [Save and Continue],點擊 [Next] 並勾選全部欄位。replacepatterns col: * with: '' on: `{start}"|"{end}` global: true
pivot value:sum(column16),average(column16),countif(column16 > 0) group: column2,column24,column8
rename type: manual mapping: [column24,'Candidate_Name'], [column2,'Candidate_ID'],[column8,'Party_Affiliation'], [sum_column16,'Total_Contribution_Sum'], [average_column16,'Average_Contribution_Sum'], [countif,'Number_of_Contributions']