引用元:https://patentimages.storage.googleapis.com/4d/61/f3/1c882b60041f85/US5675819.pdf
目次
本特許を理解する上で、覚えておきたい単語
- コーパス
大量のテキストデータや音声データの集まりのこと - 多次元空間上のベクトル
ただの数字のリストではなく、それぞれの数字が特定の情報や特性を表す。多くの情報を含む次元でのベクトル。
【例】
お客さん一人一人を多次元ベクトルとして表現すると、そのベクトルには「年齢・居住地・購入履歴・好み・収入」など様々な情報が含まれる - シーソラスベクトル(単語ベクトル)
特定の単語の意味的特徴を数値的にしたベクトルのこと。テキストデータの中で単語がどのように共起するかを分析し、その結果を元にして各単語に対して多次元空間上のベクトルを当てはめる
本特許の役割
特定のクエリに基づいて、関連する文書にアクセスする技術の特許。
文書内で単語がどのように共起するかを分析し、これらのパターンから単語ベクトルを保存する。
この特許により、文書とクエリで異なる単語を使用していても、内容の類似性に基づいて関連性の高い
文書を見つけられるようになった。
本特許の利用プロセス
単語ベクトル(シーソラスベクトル)の生成
大量のデータの集まりの中の、各単語に基づいて、その共起パターンを表すシーソラスベクトル(単語ベクトル)を形成する
文書ベクトルの生成
シーソラスベクトル(単語ベクトル)の組み合わせから、文書ベクトルを形成し、この二つを多次元空間ベクトルで表現する。
次元の削除
特異値分解を使用して、文書ベクトルの次元を削除する。
まず文書内の単語や文書の共起パターンから巨大な行列(単語-文書行列や単語共起行列)を生成します。
この行列を特異値分解することで、行列を「単語ベクトル」、「特異値(重要度)」、「文書ベクトル」に分解し、
それぞれのベクトルを利用して文書間の関連性を評価します。
この分解により、元の複雑なデータから、よりシンプルで分析しやすい形のデータを得ることができます。
クエリベクトルの生成と文書の比較
クエリに含まれる単語の単語ベクトルの組み合わせから、クエリベクトルを生成し、これを文書ベクトルと比較して
関連する文書を決定する。
コメント