Summary
本システムは現在、BERT版が最新版となっております。
ディープラーニングを用いたネット上の記事の自動分類システムです。
人間が手動で行い数百のカテゴリへの分類と独自のタグ付けを行っていた業務を省力化・システム化するために開発されました。
いわゆるif文による分岐(XXXというキーワードが含まれていたらAAAというカテゴリにする、という形のシステム)ではなく、AIはその業務を行っていた人が今までの業務で実際にカテゴリや独自タグを付与済みのデータを教師データ(AIの判断基準となる正解データ)として扱うことで、より実際の業務を行っている人の判断に近いカテゴリとタグ付けを行うことが可能です。
Technology
本システムは複数技術の組み合わせにより実現しております。どのような技術を組み合わせているかを簡単にご紹介いたします。
形態素解析
形態素解析ライブラリのMeCabとシステム辞書のNeologdを用い、最新の単語に対応した形態素解析を行います。
Neologdの他、MeCabで独自の辞書を追加と品詞のカスタマイズをすることで、地域やニュースでよく使用される用語をより抽出しやすくしています。
ニュース記事のベクトル表現
本システムでは単語ごとの意味をベクトル化して表現するWord2Vecという手法を採用しました。
既存のニュースコンテンツを学習し、ニュース記事のベクトル表現を取得し学習につなげています。
ニュース記事の学習
Kerasでニューラルネットを構築し、ディープラーニングを行っています。
直近の事例では、教師データには、ニュース記事のカテゴリとレベルを手作業でラベリングした6万件ほどのデータを使用しました。
扱う件数が膨大であるため、独自のラベリングツールを使用しています。
API化
一連の機能は一般的なWEB APIとして提供が可能です。
SwaggerでREST APIとして構築したシステムを、Dockerを使用してコンテナ化し、GCPのCloud Runにデプロイすることでサーバーレスアーキテクチャ上でシステムを実行できるようになっています。