Summary
以前公開していたニュース分類システムの概念はそのままに、これまでのWord2VecからBERTを用いて精度の向上に成功しました。
クローラーが自動収集したネットニュース記事の解析システムです。そのニュースに独自設定したカテゴリとカテゴリごとのレベル情報を付与します。
また、文書解析によってニュース記事がどの地域に対してのものなのかも解析します。
カテゴリとレベルの判定にはBERTを使って学習させた評価モデルを使用しています。
カテゴリとレベルの設定は独自設定が可能です。
Technology
ニュース記事の学習と推論
BERTを用いて記事のトークナイズ処理から学習までを行います。
以前のWord2Vecのバージョンと比較してBERTを用いる利点は
- 学習データの数が少い状態での精度が比較すると高い
- より学習データの文脈を学習することができる
と言う点が挙げられます。
特に学習データの量に関しては明確に違いが出ており、これまでは正答率が9割を超えるためにも膨大な数のデータが必要でしたが、そのハードルを大幅に下げることができています。
24時間365日、迅速に情報を整理して配信する現場にも導入されており、オペレーターの方々をサポートするツールとして喜ばれています。
API化
一連の機能は一般的なWEB APIとして提供が可能です。
SwaggerでREST APIとして構築したシステムを、Dockerを使用してコンテナ化し、Google CloudのCloud RunやGoogle App Engineにデプロイすることで、サーバーレスアーキテクチャ上でスケーラブルにシステムを実行できるようになっています。