<元の文章>

ウェブ上のコンテンツをそのまま自サイトに掲載すれば無断転載。当然やってはいけません。他のサイトに書かれていることは参考するにとどめて自分で文章を書きましょう。またリライト(書き換えた)つもりだったのに実は気がつかないうちにコピーしていた・・・なんてこともあります。

<リライトしたつもりの文章>

ウェブ上にあるコンテンツというものをそのままの状態で自サイトに掲載するような行為を無断転載といいます。当然こんなことはやってはなりません。他人のサイトの内容は参考程度に考えて自分の力で文章というものは書くべきものです。またリライトというか内容は書き換えたはずなのに、実際には気づかないあいだにコピーしていたという信じられないこともあるそうです。

2番目の文章は1番目の文章の単語のあいだに適当に単語をいれただけです。そのため冗長な文章になっています。3gramを使った判定ではコピペ率は32%なのですが、別のコピペチェックサイトを使うと、もっと厳しい数字がでてきます。

文章類似度算出(速攻ハック版)

ここでの判定結果は63.18%でした。やっぱり適当にリライトしただけあって厳しい結果になりました。

文章類似度算出(速攻ハック版)の説明によるとsimilar_text()に投げる前に、kakasiで簡単に形態素解析しているそうです。形態素解析は当サイトでもやりました。

ところで

① ウェブ上のコンテンツをそのまま自サイトに掲載するのは無断転載です。

② ウェブ上にあるコンテンツというものをそのままの状態で自サイトに掲載するような行為を無断転載といいます。

①の文は普通ですが、②の文は余計な言葉をつけたして文章の水増しをしています。

形態素解析で重要度の高い単語のみを抽出することで、上記の2文が同じ意味の文である(コピペ文)であることを見抜くことはできるのでしょうか?

まず①を形態素解析するとこうなります。

ウェブ(名詞)
上(接尾辞)
の(助詞
コンテンツ(名詞)
を(助詞)
そのまま(副詞)
自(名詞)
サイト(名詞)
に(助詞)
掲載(名詞)
する(助動詞)
の(助詞)
は(助詞)
無断(名詞)
転載(名詞)
です(助動詞)

②は以下のようになります。

ウェブ(名詞)
上(接尾辞)
に(助詞)
ある(動詞)
コンテンツ(名詞)
と(助詞)
いう(動詞)
もの(名詞)
を(助詞)
そのまま(名詞)
の(助詞)
状態(名詞)
で(助詞)
自(名詞)
サイト(名詞)
に(助詞)
掲載(名詞)
する(助動詞)
よう(助詞)
な(助動詞)
行為(名詞)
を(助詞)
無断(名詞)
転載(名詞)
と(助詞)
いい(動詞)
ます(助動詞)

①にはなく②にあるのは以下のような単語です。

いう(動詞)
そのまま(名詞)
状態(名詞)
行為(名詞)

あまり文の意味とは関係のない単語です。「無断転載」がどのようなものなのかについて説明するなら、もっと使うべき単語があるはずです。①に対して②は文字数が多いだけです。②は無意味に長いだけの駄文なのです。

ではこのような小手先のコピペ文章を見破るにはどうすればいいのでしょうか?

今回は形態素解析を使います。元の文と新しく作成された文に対して形態素解析をして、どのような単語が使われているのかを調べます。また単語は「原型」で評価します。

まずはテキストを形態素解析します。そして結果が返ってきたらWordInfoクラスに単語、原型、品詞名を格納してリストを作ります。

リストを作成したら新しく作成した文章のなかには存在するけど元の文書のなかには存在しない単語(リライトによって新しく追加された単語)の数を調べます。これと新しく作成した文章内の総単語数を比較すればコピペ率がわかります。

<元の文章>

ウェブ上のコンテンツをそのまま自サイトに掲載すれば無断転載。当然やってはいけません。他のサイトに書かれていることは参考するにとどめて自分で文章を書きましょう。またリライト(書き換えた)つもりだったのに実は気がつかないうちにコピーしていた・・・なんてこともあります。

<リライトしたつもりの文章>

ウェブ上にあるコンテンツというものをそのままの状態で自サイトに掲載するような行為を無断転載といいます。当然こんなことはやってはなりません。他人のサイトの内容は参考程度に考えて自分の力で文章というものは書くべきものです。またリライトというか内容は書き換えたはずなのに、実際には気づかないあいだにコピーしていたという信じられないこともあるそうです。

3gramを使った判定ではコピペ率は32%ですが、今回作成したコピペチェックアプリでは65%になりました。やっぱり小手先はダメですね。文章は自分で考えましょう。