ck_fm0211のブログ

書きたいことを書く。

Professional Data Engineerに合格した

まえがき

GCPの認定資格であるProfessional Data Engineer(PDE)に合格したのでそのレポートを書く。
8月くらいにProfessional Cloud Architect(PCA)に合格してちょっと自信がついたのと、業務でBigDataを扱っているので、PDEもいけるんじゃね?と勢いで受験した。
受けてみて思ったのは、普段の業務とは異なる領域の問題が多く、結構つまづいたということ。
どなたかの参考になれば。

筆者のプロフィール

  • データ分析基盤の開発・運用(4年くらい)
    • Redshift / BigQueryがメイン
  • 運用業務(マート作成ジョブの維持管理とか)がメインのお仕事
  • たまにパイプライン周りの開発したりする

試験の概要

勉強内容

大まかに以下の流れで勉強した。

  1. とりあえず公式の模擬試験を受ける
  2. Qwiklabs / Coursera / 本 / 公式ドキュメントで座学&実践
  3. 公式の模擬試験でそこそこ取れるようになったらUdemyの試験問題集をやってみる
  4. Udemyでつまずいたところを公式ドキュメントで確認

詳細を書いていく。

公式の模擬試験

GCPの認定資格試験はたぶんだいたい公式の模擬試験がある。なのでこれをまずはやってみる。
PCAのときは全然自信がなかったので本を読むところから始めたけど、今回はBigData周りの業務経験そこそこあるしイケるやろ、の精神で最初にやってみた。
結果は確か6割くらい。まあまあだったと思う。
ここで特に確認したかったのは試験範囲の確認。思ったよりも機械学習系の問題が出ていて、業務でそのあたりはほとんど触らないのでわからないことだらけだった。
あとはHadoop周りとか。BigDataはRedshiftから触り始めたので、Hadoopとかよく知らない。このあたりも弱いなと感じた。

Qwiklabs / Coursera / 本 / 公式ドキュメントで座学&実践

とりあえず触ったことないサービスが色々あるので、Qwiklabsでハンズオンをやった。

Qwiklabsは一通りの操作を学べるので取っ掛かりとしてはとても便利。

Courseraもやった。こっちはハンズオンも少しはあるけど、基本はオンライン講義という感じ。
基本英語なのでスクリプトをDeepL等々で機械翻訳しながら動画を見る感じ。
集中しないとおいていかれるので結構疲れるけど、文字だけだと頭に入りにくい自分としてはかなり役に立ったと思う。

本については以下が特に役に立ったと思う。PDE向けの勉強をしているときに出版されて渡りに船って感じだった。
業務ではリアルタイム連携とかはやってないので、そのへんの知識をこの本で補完できたのが大きい。ウィンドウの考え方とか。

ck-fm0211.hatenablog.com

試験では「XXXをやりたい。A/B/C/Dどの選択をすべきか?」みたいな問題が出る。
分析ならBigQueryだよね、みたいなみたいな脊髄反射で答えられる一方で、じゃあなんでBigQueryはそんなにいいんだっけ?みたいな疑問に答えてくれる本だと思う。
試験対策としてはさらっと読むくらいでいいけど、きちんと理解する上ではかなり有用だった。

公式ドキュメントは言わずもがなだけど、各サービスのベストプラクティスとか制約事項、BigTableとFirestoreってどう使い分けるんだっけ?みたいなこととかはここで学習・確認した。

Udemy

一通り勉強して、模擬試験でもそこそこ取れるなって状態になったらUdemyで模擬試験を探して受けてみた。
問題数に慣れるっていうことと、いろんなユースケースを見せてくれるので便利。
これも英語がメインなので、Chromeの自動翻訳で日本語に変換して受けた。

機械翻訳なので問題の意味がよくわからなかったり、そもそも回答あってるかこれ??みたいなものもあるけど、自分の知識・理解が及んでいない部分が明らかになっていくので、理解度チェックの意味で役立った。

上記以外

模擬試験・Udemyを通して機械学習周りの知識が圧倒的に足りてないなと実感した。
せめて各用語はちゃんと理解したほうがいいなということで書籍でも読もうかなと思ったけど、これに気がついたのが試験2日前とかだったので、ひたすらわからない言葉をググり倒して用語集的なものをぱぱっと作る程度しかできなかった。
それでも、例えば「機械学習モデルがテストデータではいい感じだったのに検証データではイマイチな結果を出した。どうする?」みたいな問題に対して「これは過学習!進oゼミでやったやつだ!」みたいなノリが通せるくらいには詰め込んだ。

試験当日

テストセンターで受けた。
リモート試験もやってみたいんだけど、PCだけがある小部屋を用意しなきゃいけない?と聞いていて、結構ハードル高いなと思ってやってない。

試験自体は2時間で50問。1時間で一通り回答して、見直しして1.5hくらいで回答を提出。
その場で合否が分かる感じ。結構自信がなかったけど、なんとか合格した。
Googleから後日ちゃんとした合格通知が来るんだけど、それまでは半信半疑でちょっとビビってた。その様子がTwitterから見て取れる。

実際の試験の難易度は 公式模擬試験 < 本番 < Udemy という感じ。Udemyでそこそこ取れてればなんとかなりそう。
とはいえUdemyの問題はどこぞの人が作ったニセモノなので、公式ドキュメント等での知識の補完だったりは必要な感じだった。やっといてよかった。

まとめ

一発合格できてよかった。
というか本当に、タイムリーに参考書が出てくれたのがありがたかった。日本語の本も増えてきているので、今後資格は取りやすくなるかもしれない。
資格の有効期限は2年とかなので、維持するためにはまた2年後に受けなきゃいけない。やる気があれば受けよう。

GCPの資格をこれで2つ手に入れたので、次はAWSとかAzureに手を出すのもありかな。
Azureは触ったこともないので苦労しそうだけど、色んな人に話を聞くと使ってる案件は多そうなんだよなあ。データ分析界隈だとあまり聞かないけど。