Sponsored Link

自作自演用辞書作成方法

自作自演において一人二役ということは2人分の投稿を一人でこなさねばならないということなのでかなり忙しい作業となります。
議論やバトルでは相応に考えながら相手に反論や指摘を行うわけですが、時間は一人分しかありませんから、投稿間隔がどうしても一人の時よりも長くなります、これを最小限にするためキータイプの時間短縮と、自作自演でなりすますキャラクターの発言の雰囲気や文体を真似る目的で使用されます。
対象の真似たい文体の抽出を行い、専用の辞書ファイルとを作成し語尾や漢字の癖から自作自演本体の特性を見抜かれないようにしておくのです。
自作自演が疑がわれる場面においては、人は発言者の漢字や単語の所在に目を付け、本物、偽者、微妙といった判定をしています。
自分ではなかなか気が付かない部分なので発覚のリスクを避けるため、日本語入力の場面で専用の辞書を使用しています。以下例を示します。

抽出方法は簡単です、これは最新のATOK2005を使用します。
まず真似たい対象の掲示板発言をできるだけ多く集めてテキストファイルにします。
掲示板の発言をそのまま抜き出してテキストファイル保存します。

今回は、変換精度と高機能ツールで定評があるJustsystemの日本語入力システムATOKを例に取ります。

まず、普段使っている辞書セットとは別に辞書セットを作成します。

・メニューより「辞書メンテナンス」「辞書・学習設定」に進みます。

・辞書セット5を選択します。辞書セット5~0はユーザーが自由に組み合わせて使用するようにあらかじめ中身の設定は空のまま登録されている辞書セットです。辞書セット5の内容は何も登録されいない状態なので、新しい辞書をセットするために「辞書の追加・削除」をクリックします。

・右欄から使用する辞書を選択します。通常の変換には必要なのは「標準辞書」です。
追加可能な辞書の一覧(右欄)から選択して「追加(A)」ボタンで辞書セット5の内容(左欄)に登録されます。その他必要にあわせ、フェイスマーク辞書やトレンド辞書などを登録してもいいでしょう。登録が終わったら「OK」を押して「辞書・学習設定」に戻ります。

登録前

登録後


・辞書セット5に標準辞書がセットできました。

・右クリックで「名前の変更を」選択しセット内容を「匿名A」と名前変更しておきます。

・設定した「匿名A」辞書セットを使用するために「基本辞書セット(B)」を押し、基本辞書セットとして指定します。「OK」をし「辞書・学習設定」を終了します。

次に、今設定した「匿名A」に用意したターゲットの文例を読み込ませ変換に利用できるようにします。

・辞書に用意したテキストファイル中の辞書にない単語を登録させるために、メニューより「辞書メンテナンス」「AI辞書トレーナー」に進みます。

AI辞書トレーナーとは

>文書から単語や用例を抜き出して学習する-AI辞書トレーナー-
>指定文書から、辞書に登録されていない単語を自動的に抽出して辞書に登録します。
>対象となるのはカタカナ・アルファベットの単語や、複合語(接頭語・接尾語が付いた単
>語)です。
>また、辞書中の固有人名に相当する単語を抽出したときは、変換候補の先頭にくるように
>順序を並べ替えたり、名字と名前をAI用例として登録したりします。
>入力する機会が多い言葉(単語)が含まれた専門分野の文書や、会社の社員名簿・個人の
>アドレス帳から単語を抽出することにより、使用目的に合った情報が辞書に学習されるの
>で、変換効率がよくなります。
※ATOK2005ヘルプより

・ATOK辞書セットには先ほど設定した辞書セット「匿名A」が指定されていることを確認し、
「文書の設定」タブの中で読み込ませたいテキストファイルを指定し「実行」を押します。

・読み込みが終わると以下のようになります。「閉じる」「終了」でメニューを閉じます。

・メニューより「辞書メンテナンス」「辞書・ユーティリティ」に進みます。
先ほど「AI辞書トレーナー」にて読み込ませた新しい用例が表示されています。
これが読み込ませた文例の中で、文例の主の癖といえる独自の用語群です。
人によっては変わった漢字造語や、カタカナの使用頻度が高かったりと、文章を眺めるだけではわからなかった「癖」の一部が把握できます。

・以上までで、文例の主の特徴的な単語の組み込みは終わりましたが、誰にでもよく使う特徴的なフレーズというものがあります。一つ一つ手で登録していく方法もありますが、ATOK2005には文書の中から、句読点などの位置情報を元にある程度の文例の抜き出しを行ってくれます。この登録を行ってみます。

・「ツール」、「ファイルから登録・削除」に進みます。


・用意したテキストファイルを指定し、「登録(A)」ボタンを押します。

・文章を集めただけのテキストファイルですから、「単語ファイルにヘッダが見つかりません」と注意がでますがこのまま「はい(Y)」を押して進みます。

・読み込みが終わると終了画面になります。「閉じる」を押して画面を終了します。

・読み込みが終わり、単語と用例が読み込まれました。

以上で、ATOKの機能を利用した抽出と辞書登録が終了しましたが、この手法で検出できなかった特殊な「癖」は更に手動で組み込む必要があります。

・メニューより「単語登録」に進み、読みと単語を登録します。

e-mail 投稿者:misawa 2005年09月05日 05:45