Works

業務効率アプリ

ニュース自動分類システム

Summary

クローラーが自動収集したネットニュース記事の解析システムです。そのニュースに独自設定したカテゴリとカテゴリごとのレベル情報を付与します。

また、文書解析によってニュース記事がどの地域に対してのものなのかも解析します。

カテゴリとレベルの判定にはディープラーニングを使って学習させた評価モデルを使用しています。

カテゴリとレベルの設定は独自設定が可能です。

Technology

形態素解析

形態素解析ライブラリのMeCabとシステム辞書のNeologdを用い、最新の単語に対応した形態素解析を行います。

Neologdの他、MeCabで独自の辞書を追加と品詞のカスタマイズをすることで、地域やニュースでよく使用される用語をより抽出しやすくしています。

 

ニュース記事のベクトル表現

本システムでは単語ごとの意味をベクトル化して表現するWord2Vecという手法を採用しました。

既存のニュースコンテンツを学習し、ニュース記事のベクトル表現を取得し学習につなげています。

 

ニュース記事の学習

Kerasでニューラルネットを構築し、ディープラーニングを行っています。

直近の事例では、教師データには、ニュース記事のカテゴリとレベルを手作業でラベリングした6万件ほどのデータを使用しました。

扱う件数が膨大であるため、独自のラベリングツールを使用しています。

 

API化

一連の機能は一般的なWEB APIとして提供が可能です。

SwaggerでREST APIとして構築したシステムを、Dockerを使用してコンテナ化し、GCPのCloud Runにデプロイすることでサーバーレスアーキテクチャ上でシステムを実行できるようになっています。

Team
  • 清水俊之介

  • 齊藤真那