機械学習を業務に生かす試みは過去沢山行われてきましたが、その多くがデータアナリストといったデータ分析のスペシャリスト向けのツールの提供でした。
crossnoteのML機能は、一般のユーザーがもっと手軽に機械学習を利用できることを目標に設計されていて、専門的な知識を必要とせず機械学習を利用することができます。
一定量の文章、WordやPDFと、機械に学習させるための教師データさえあれば、すぐに使い始めることができます。
crossnoteでは人によって分類された教師データをもとに分類方法を学習し、未知のデータを自動で分類する機械学習による文章分類機能を提供します。
検査機関や公的機関からの問い合わせに、以前とは違う回答をしてしまうことはありませんか。以前に似たような問い合わせがなかったか、それについてどう回答したかを一つ一つファイルを開いて探すのは大変です。機械学習であらかじめ内容に沿って分類しておくことで同様事例を簡単に検索できるようになります。
ユーザーからの質問やコメントを手動で分類するのは労力が必要です。一定数を手動で振り分けたら、それを教師データとすることで、残りは自動振り分けることができます。振り分けられた質問をまとめていくことで質の良いQA集を作ることができます。
単語の検索でHITしない文章も、事前に内容に応じて分類しておけば効率的に検索できるようになります。機械学習は、分類に用いる特徴を自動で学習するため、分類方法を人が考える必要がありません。
crossnoteは、交差検定という手法を用いて、機械がどの程度の正確性で分類可能かわかりやすく表示します。分類成績を見ながらデータや処理をチューニングして分類成績を高めていくことができます。
明治の文豪たちの作品をMLに学習させ、文体だけで作者別に分類できるか試してみました。
文章に現れる個性を機械は判別できるのでしょうか?
結果は予想以上に好成績で、精度よく分類することができました。
神奈川県で募集した高校入試制度についてのパブリックコメントをMLを用いて分類してみました。
パブリックコメントは自由記載のため、同じ内容でも人によって書き方が違います。また1項目当たりのデータ数が少ないうえ、似た内容を分類するため、難易度の高い課題です。
はたしてうまく分類できるのでしょうか?
Wikipediaにある哺乳類の項目から「分布」、「生体」、「形態」について記述されている箇所を抜き出して、正しく分類できるかを試してみました。
どの程度の精度で分類できるのでしょうか?
crossnote MLの仕組みを説明したスライドです。
概念的な仕組みや自然言語処理を対象とした機械学習関連の用語などを説明しています。