😁記事を読むと以下の内容がわかります😁
- OpenVaccine: COVID-19 mRNA Vaccine Degradationコンペの概要がわかる
- kaggleの上位の人はなにをやっているのか、なんとなくわかる✌️
- 筆者はCOVID-19でメダルを取り逃したことがわかる😭
コンペの概要
OpenVaccine: COVID-19 mRNA Vaccine Degradation
https://www.kaggle.com/c/stanford-covid-vaccine/overview
OpenVaccine: COVID-19 mRNA Vaccine Degradationの概要を説明します。
COVID-19のワクチンとしてmRNAワクチンが有効とされている。
しかし、mRNAワクチンは、崩壊しやすく、世界に配布するには、超低温で保存しないと行けないため現段階では配布が困難になってしまっている。
RNA分子は、構造によって分解しやすい、しづらいがある。
そこで、今回のコンペではRNA分子の各塩基における分解率の予測を行う
このコンペは、DNA、RNAなど高校レベルの生物学の知識があると戦いやすかったです。
戦う前に生物学の動画を30分ほど見るだけでも、細胞学についてある程度、知識をつけることができました。
筆者の悩み
今回のコンペもあと6位上の成績をとっていたら、銅メダルを取ることができていた。
最近のkaggleに関する悩みは、半年前、ソロ銀メダルを取ることができたが、その後、5つほどのコンペで立て続けにメダルをのがしていることだ。
つまり、メダルゲットの再現性が無いことだ。
金メダルを取る人は、どのような思考なのか、winningソリューションをみて研究してみた。
コンペで優勝したJiayang Gaoさんがやった考えたかは?
コンペで優勝したJiayang Gaoさんがやったこと、どのような考えだったのかまとめてみた。
- データ側と機能のエンジニアリング
- たくさんのカーネルを読み取る。筆者と違う点は、カーネルの意図をしっかり汲み取っていること。
- 少なくとも、7つほどのカーネル、ディスカッションを参考にしている。
- データを加工して、機械学習アルゴリズムに判定しやすくしてあげる。
- データを増やす(拡張データ)
- さらにデータを増やし方も、ディスカッションやカーネルで公開されていたので参考にしていた
- ということは、勝つためのヒントはカーネルやディスカッションに必ずあると考えること。
- 立ち止まったら、試合は終了
- 特徴量分析は大事だ。というか、やらないでどうやって勝つの⁉️
- Pseudo Labeling(疑似ラベル) を試す
- SN_filterからエラー値( 1.5以下、10以上の値)に該当する5つの目的変数全てにNanとしてラベルを付ける。その結果、データの損失を軽減できる。
筆者の場合、いろんなアルゴリズムで解析して平均をとったり、アンサンブルをかけていたがやはり元のデータの質が左右するんだなと思った。
スコアが上がらなくなったら、ひたすらデータを見比べて、特徴を出すこと、これが重要ですね。
コンペ2位の小野寺さん
小野寺さんは、kaggleのグランドマスターで知らない人は少ないのでは⁉️
pseudo labelを作ったり、GNN,GRU,LSTMなどいろいろなモデルを組み合わせていた。
winningソリューションの内容を見たが、文章が極端に少ない。
だが、図と箇条書きでポイントをしっかり伝えているのだ。
特にCVとLBをグラフ化するという考えは良いと思いました。
個人的には、小野寺さんってたしかDeNAに居た人だったよね?
所属がRistになっていたから、転職したのかな?と思いました。
Kaggleコンペティション「OpenVaccine」でGrandmaster小野寺が準優勝、Master三舩、Master蛸井が銀メダル獲得
以上、コンペまとめでした。
やはり、特徴量の分析、データの拡張などにもっと時間を割くべきでした。