ACTIVITY活動報告

  • HOME
  • 活動報告
  • JAMSTECインターンシップ終了報告 (海洋システム工学専攻 樋口)

JAMSTECインターンシップ終了報告
(海洋システム工学専攻 樋口)

2021.12.16

9月から10月までの1ヶ月間、海洋研究開発機構が主催するインターンシップに参加させていただきました。

higuchi jamstec1.jpg

インターンシップ期間中は海洋研究開発機構の横浜研究所に毎週通っていました。

インターンシップでは、台風へと成長し得る雲が、台風発生の何時間前のものであるかを予測する、画像分類モデルの開発に取り組みました。台風発生の予測は災害の対策を考える上で非常に重要です。今まで台風の発生予測は数理モデルをもとに行われていましたが、過去に蓄積されたシミュレーションデータや観測データから台風の発生を予測するデータ・ドリブンな手法を取ることにより、数理モデルベースの予測の欠点を補うことが可能となりました。私はその研究の第一人者である指導担当の先生のもと、インターンシップ生として研究を手伝わせていただきました。

業務では主にモデルのチューニングとデータの前処理に取り組みました。膨大な量の気象データや気象についてのシミュレーションデータを学習データとして使用しているため、それらを高速に処理するために機構が所有するスーパーコンピュータである地球シミュレータ第4世代を開発に使用しました。普段使用しているPCとは異なり、システム構成も私にとって馴染みのないものだったため、取り扱いを学ぶのに時間を要しました。GUIによる操作ができないこともあり、コマンドのみで行う操作やviの扱いが難しかったです。

地球シミュレータの扱いに慣れてからはデータの処理を高速に行えるようになりました。
本研究はモデルへ入力された気象データが、台風発生何時間前の雲かを予測する深層学習タスクとして言い換えることもできます。(学習に使用するデータが何時間前の雲であるかはラベルとして区別されているため、実際には分類問題です。)学習に使用するデータの数も、ラベルごとに大きな偏りがあるため、不均衡データの学習を成功させることが本インターンシップにおける私の課題となりました。

higuchi jamstec2.png

地球シミュレータのほかに、高性能のワークステーションも使わせていただきました(写真の一部をぼかしています。)

不均衡データを使用した学習を成功させるための手法の一つに、データオーギュメンテーションと呼ばれる手法があります。この手法では、学習データの偏りを取り除くため、データの個数が少ないラベルのデータに対してノイズを加えたり、回転させたデータを水増しすることによって学習データの偏りを解消させます。今回は画像に近い2次元データを取り扱っていたため、個数の少ないラベルのデータに対してノイズを乗せる、回転させる、反転させる、この3つの操作を組み合わせてデータの水増しを行うプログラムを実装しました。簡単な画像処理を行い、学習に使用するデータの数を増やすまではよかったのですが、そのデータを用いて学習を行っても良い結果が出なかったため、データの前処理だけでなくモデルの実装にも力を入れていました。しかし、モデルの実装に取り組んでいる最中にインターンシップ最終日を迎えたため、不均衡データの学習を成功させる事は叶いませんでした。

最終日は指導担当の先生に「不均衡なデータから精度よく学習を行うためにどのような手法を使用したか」といった内容のプレゼンを行い、そのフィードバックをいただきました。最もデータの個数の多いラベルは1万数千個、少ないラベルでは100個前後のデータしかなかったため、1万個以上も差があるデータを水増しによって揃えるには、更なる工夫が必要だったようです。

今回のインターンシップではJAMSTECで行われている研究を手伝わせていただきました。与えられた課題が不慣れなタスクだったことに加え、課題を解決することが研究の進展にそのまま結びつくこともあり、インターンシップ実習日は当初は週3日での取り組みを予定していましたが、振り返ってみると週4, 5日は取り組んでいたように思います。実習へ取り組んだ時間を増やしたにもかかわらず、最終日までに課題を解決することは叶いませんでしたが、指導担当の先生からは研究活動の取り組み方について多くのことを学ばせていただきました。私自身、学会発表や論文の投稿を経験したことがなかったため、研究機関でのインターンシップを通して自分自身の研究への取り組み方も見直すことが出来ました。最後になりましたが、指導担当の先生にはこの1か月間大変お世話になりました。ありがとうございました。

海洋システム工学専攻2年 樋口