Project OxfordもといMicrosoft Cognitive Serviceが面白そうなので使い方を簡単にまとめます。
初めに
Cognitive Serviceは、複数言語のSDKがありますが、基本的にC#を扱っていきます。
とりあえず今回はサンプルを動かすところまでです。
Vision APIについて
Vision APIは、画像を解析してその画像が何の画像なのかなどを返してくれるAPIになります。
例えば、水着の写真を渡すとこれが水着の写真でポルノ画像なのか違うのかなどを返してくれます。
OCEとかにも使えます。
早速使ってみる
認証キーを取得する
Vision APIを使用するためには、初めに認証キーを取得する必要があるのでここから取得しましょう。
画面下のLet’s goボタンから画面の指示に従ってキーを取得します。
進むと下記のようなものがいっぱい出てくる画面になるはずです。
今回は、Computer Visionを使用します。
画面にも記載がありますが、Computer Visionは、一か月5000トランザクションで1分間に20トランザクションまでの制限があります。
サンプルの取得
ここから取得できます。
GitHubのCogniteive Service関連のSDKとサンプルのリポジトリです。
リポジトリの中にVisionAPI-WPF-Samplesというソリューションがあるのでそちらがサンプルになります。
使ってみる
恐らく何も考えずにビルドして実行すれば立ち上がるはずです。
下記のようなアプリです。
下記の画面のPaste your ~ のテキストボックスに先ほど取得した認証キーを入れます。
アプリの左側がメニューになっています。
その中で使いたい機能を選択します。
とりあえずAnalyze Image(画像分析)を試してみます。
画像を分析してみる
画像を分析してみます。
ちなみに先ほどの画面で認証キーを入れないで実行すると例外が吐き出されるので注意してください。
左メニューのAnalyze Imageを選択すると画像分析の画面になります。
その画面のAnalyzeボタンを押すとデフォルトの画像を分析して結果を返してくれます。
画面下部に結果が表示されます。
この画像だと人が泳いでいる画像であるとの結果が返ってきています。
OCR
次にOCRを実行してみます。
これも画面左のRecognize Text(OCR)から下記のような画面に飛びます。
Recognize Textを押すとデフォルト画像を読んでくれます。
結果を見るとそこそこの精度っぽいことがわかります。
一応日本語もLanguage to Detectのリストに含まれていたので下記のような感じで日本語を読ませてみます。
結果を見るとTextが空なので読めてないっぽいです。
日本語の精度はお察しということでみんなでいっぱい使ってデータを増やしていきましょう。
まとめ
他にもいろいろとVision APIにはあるので、いろいろ使ってみましょう。
次からは、今回触った部分の実装がどうなっているかをまとめていきます。