- HOME
- 研究
- サイエンス&テクノロジー
- 信頼できるブログを求めて—関連語からブロガーの熟知度を判定する—
信頼できるブログを求めて—関連語からブロガーの熟知度を判定する—
コンピュータ理工学部 ネットワークメディア学科 中島 伸介准教授
関連語からブロガーの熟知度を判定する
近年、web上の新しい情報源として注目されているブログですが、個人で手軽に作れるブログはまさに玉石混合。本当に信頼できるブログを見つけ出すのは、そう簡単なことではありません。そこで頼りになるのがブログランキングです。しかし、そのランキングも本当に信用できるのでしょうか?より精度が高いブログランキングを創出し、ブログの世界の発展を目指す中島伸介先生に、新たに生まれた様々なサービスとその仕組み、更に今後の展望についてお話を伺いました。
ブログ熟知度ランキング
昨今のブログブームで、現在巷(ちまた)には数多くのブログが溢れています。この中から信頼できる情報を探すにはどうしたらいいのでしょうか?
一つには、ブログのランキングを見るという手があります。しかし、次々と新しい記事が書かれていくブログにおいて、その情報の信頼度を適切に反映したランキングを作るのは困難です。
そこで私たちが考案した新しいブログランキングシステムが、ブログ熟知度ランキングです。このブログ熟知度ランキングは特定の分野に詳しいブログを高い精度で判定し、ランキング表示します。
その背後にある仕組みについて、お話ししましょう。
まず、ブログでよく言及されるトピックをまとめます。これらは熟知領域と呼ばれ、例えば「怒り」や「悲しい」といった感情や「音楽」、「健康」といった抽象的なもの、更にその下位ジャンルにあたる「オペラ」や「ダイエット」といった具体的なものが含まれています。これらのカテゴリは全部で60,000ほどありますが、その中から不適切なものを除いたりして、実際には12,000程度のカテゴリを使用しています。この熟知グループは次々とブログ上に登場する新たなトピックに対応するため、1週間間隔で更新されています。
更にこの熟知グループに対して、共起語辞書と呼ばれる、関連語をまとめた辞書を作ります。これは、熟知グループとの共起度(一緒に現れる度合い)が高い単語を集めた辞書です。ダイエットという熟知グループに対して共起語辞書をつくるには、ダイエットというキーワードが出てくる周辺の文章中で、どの単語がどれくらい出てくるのかを一つ一つ計算していきます。
しかし、この作業はそれほど単純ではありません。キーワードとしてダイエットをとったときにだけ共起度が高くなるような単語を拾っていかなければいけないのです。そのため、ダイエット以外の様々なキーワードに対しても共起度が高くなるような一般的な単語は、重みを低くします。こうして、ダイエットという熟知グループに対して固有の「健康」や「ジョギング」といった単語を集めた共起度辞書が作られます。さらにその中でも、共起度の高さに応じて重みをつけておきます。この辞書も、熟知グループ同様に一週間間隔で更新しています。
ここからようやく、あるキーワードに対するブロガーの熟知度を判定する段階に移ります。基本的な考え方としては、ある熟知グループを選んだとき、それに関連したトピックを含む記事が多いブログほど熟知度は高いと計算するのです。ここで、あるブログ記事が熟知グループにどれだけ関連しているのかを判断するのに、共起度辞書が使われます。ある熟知グループの共起語全てを検索にかけて、ブログ記事内に存在した共起語の重みと共起度をかけたものを全て足していきます。こうして、一つ一つのエントリの関連度を判定したのちに、ブログ全体で総和をとれば、ブロガーの熟知度が判定できるというわけです。もちろんここのプロセスも、対象期間や共起語の網羅率などで更に細かく条件をつけ、精度を上げています。
ブログ熟知度ランキングは2008年9月から共同研究先の「株式会社きざしカンパニー」の運営により一般公開して、既に相当なデータが溜まりました。これは成功した例だと思います。
blogram熟知度判定技術を応用した自己ブログ診断
ブログ熟知度ランキングで用いられた熟知度判定技術を基に、更に発展させたサービスがあります。それがblogramです。熟知度に基づくブログランキングにはないblogramの大きな特徴は、自分のブログを解析できるという点です。blogramに登録すると、あるキーワードで検索したときに自分のブログが何位なのかがわかります。
それだけではなく、登録したブロガーが何を考えているのか、どんな思いを抱いているのかといった「自分自身」を解析してくれるのです。これを使えば、あなたと近い有名人などもわかります。「星野仙一ランキングではあなたは何位です」といった検索ができるのです。
さらに、自分が書いたエントリと同じような話題を扱うブログを自動的に表示してくれます。通常、他のブログや広告などを表示する推薦システムは、事前に興味のある分野をチェックして登録しておくものですが、blogramではその必要はありません。自動的に興味関心を分析してくれるからです。
このblogramによって、ブログの業界が更に盛り上がればいいなと思っています。(このblogramも、「株式会社きざしカンパニー」により運営されています。)
社会に役立つ技術への応用
今、私たちが新しく考えているのは、ニッチなトレンドの検索システムです。例えば昆虫採集のプロたちの間で何が流行っているのかなどを知りたいとき、通常の検索システムではなかなか上手くいきません。
この大まかな仕組みは、熟知度判定と同じです。流行っているというのは良く書かれているということなので、特定のキーワードの出現回数に注目します。あるグループの中だけで頻出するキーワードを取り上げ、一般の人の記事にも書いてあるようなキーワードは重みを下げていく。こうして、あるグループの中でだけ流行っているものが何なのかがわかるわけです。
この検索は様々な利用価値があります。たとえば、世間ではバナナダイエットが流行っているが次に何が流行るのか知りたいというときに、ダイエットグループ内でのトレンドを検索する。こうしてモロヘイヤダイエットが流行っているという結果が得られれば、次は世間でもモロヘイヤが流行るだろうという予測が立つわけです。
ここまでは検索を中心に取り上げてきましたが、熟知度判定技術の応用範囲は検索のみに留まりません。応用分野として考えられるのは、アンケートシステムです。現在、一般的に行われているアンケートでは、対象となる人の属性を性別や年齢、居住区などで分類しています。しかし、この熟知度判定を用いれば、あるキーワードに対する詳しさや好みなどを用いて分類することができます。熟知度判定で得られたデータは、自己申告よりは遥かに客観的で信頼できるので、マーケティングなどにも十分な利用価値があると思います。
また、自動応答チャットシステムを作ることで、その会話の中で何に詳しいか、何に興味があるかを解析することも検討しています。これを作れば、ブログを書かない人でも、暇な時間に機械とチャットをするだけで自動推薦のサービスを利用できます。このサービスをネットショップに提供することで、新たな社会貢献ができるかもしれません。このようにさまざまな分野で新しいサービスを創り出せると期待を持って取り組んでいます。
スパムブログの検出
ブログの検索において障害となるのは、スパムブログの存在です。スパムブログは、アフィリエイトによる広告収入や、アダルトサイトへの誘導などを目的とした有害なブログです。こういったブログは熟知度を調べるためには邪魔になるので検索の際に取り除いておかなければなりません。そこで、スパムブログかどうかを次の二つの方法で判定しています。
まず一つ目は、長時間に渡って大量のエントリを投稿しているブログを抽出する方法です。このようなブログはスパムブログの可能性が高い。こうして抽出されたブログは最終的に人間が一つ一つチェックして、スパムブログかどうか判定しています。
二つ目は、投稿の間隔に時間的な規則性があるブログを抽出する方法です。スパムブログは自動でエントリを投稿することが多く、そこで時間の規則性が生まれます。これも、抽出したブログを人間がチェックして最終判定を行ないます。
さらに、人間が判定したスパムブログを学習データにすることで、全自動のスパムフィルターも作られています。スパムブログと判定されたブログは、ランキングにはもちろん反映されません。こうして、安心度の高いランキングが作られるのです。
アドバイス
もし私が今からフランスにいってフランスパンの修業をし、パン屋を開きたいといっても、不可能ではないにせよ、年齢や家族のことを考えると現実的ではありません。しかし皆さんなら十分可能です。ほとんどあらゆる可能性を持っているのです。そんな今だからこそ、スポーツでも仕事でも、遊びではない何かに対してやりたいという強い思いを持ち、そのやりたいことをやってください。きっかけは、モテたいからでも何でも構いません。「どんな自分になりたいのか」を強くイメージすることが大切です。どんなに挫折してもチャンスは必ずくるので、諦めずに「自分がなりたい自分」を目指して頑張ってください。
コンピュータ理工学部 ネットワークメディア学科 中島 伸介准教授
- プロフィール
-
博士(情報学)。専門はwebマイニングおよび情報推薦。浪人や(クラブ活動に没頭しすぎて)留年、更に卒業研究提出直前に阪神大震災で実験装置が木っ端微塵になるなどの数々の挫折を味わいながらも博士課程まで進んだが中退。その後環境コンサルタント会社で働いていたが、博士を取りたいという思いから京都大学大学院の博士課程に進み、それまでの専門とは全く異なる情報学を学ぶ。この経験から「どんなに挫折してもチャンスは必ずくる」を信条とする。大阪府立池田高校OB。