◆コラム 初心者管理人に捧げる「オフ会」ワンポイント注意点

サイト来訪者が増え、設けた掲示板に5人も常連化した人が出来ますと、お約束のオフ会話題が出ます。
通常のケースですと、サイト管理人が幹事となり、3-5000円前後の予算で交通便のよいところで開催というケースでしょう。ネット人口の分布からか関東では東京、関西では大阪が会場となることが多いようです。
サイトで知り合った同士が声を掛け合って歓談の一時・・・・。
しかし、このオフ会が荒らしの攻撃の口実、または荒らしを産んでしまう場合があります。

オフ会となるとネット上とは違い物理的な距離の問題があります。東京で開かれるオフ会に北海道、九州の人間が参加することは難しい場合が殆どでしょう。
必然的に、ネット人口の分布から大都市圏の人が参加者の殆どとなります。
サイト内の掲示板には、

「お会いするのが楽しみです」

という会話と

「東京か、参加したいけど遠いから無理です、残念」

こういった会話がやりとりされます。

場には参加できる人と、参加したいけど参加できない人とにカラーがはっきり分かれます。

仕方のないこととはいえ、これが後々の伏線となるのです

オフが開催され、解散すると、早ければ当日の夜からオフに関する書き込みが見られます。


「只今、帰宅しました、***さんお会いできて楽しかったです」

「私も帰宅しました、****の意外でした、掲示板の書き込みとは印象が違いすぎです(笑)」

「お店で出た*****おいしかったですね」

「あれは嵌りそうです」

「***です。***さんおみやげありがとうございます」

「管理人(幹事)です。皆さん無事に帰宅できたでしょうか」

「2次会組はまだ飲んでるのでしょうか」

以上のような書き込みの交換がされるでしょう。

この書き込みは、オフに参加したくても出来なかった人には疎外感、オフそのものに興味のなかった人には雑音にしかなりません。オフ参加者という限定された一部の人間の雑談に過ぎないわけです。
しかし通常の雑談と違うのは参加者以外は会話に加われないオフ会の話題ですから、ただの雑談ではなく、閉鎖的な私信のやりとりのようなものです。これが長く続くと間違いなく。

「オフの話題は参加者同士メールにしたらどうか」

「オフに行ってない人には意味がわからない話をここに垂れ流されても」

こういったクレームが出始めたらもう手遅れと言っていいでしょう。管理人自身がそんな会話に混ざっていると間違いなく、一種のクローズドな派閥が存在していると受け取られます。
これは高じると、”管理人と仲がよい一部のグループ”という認識が、管理人とその一部のグループ意外に形成されます。
こうなると、その掲示板には、管理人と仲がよいオフ会グループと「それ以外」という派閥構造が生まれてしまい、これが場のマグマとなり噴出の機会を伺うことになります。

・オフ会の話題は目立たないところに。
この事態を避けるために、オフ会の話題は発生した段階で、即座に別掲示板を設け、一般掲示板やブログのコメント欄から隔離しなければなりません。
これが最低行わなければ処置です。参加してない、参加できなかった常連や住人が人格者であったとしても「一部の馴れ合い」であり、参加者しか共有できない情報のやりとりであることには代わりがなく、オープン掲示板の公開性には馴染まないものです。

e-mail投稿者:misawa 09:47

中立者の自作自演が最も重要

自作自演、自身で自身の作ったストーリーを演じることであるが、掲示板バトルにおいては、他人に成りすました自分が自身を弁護することと解釈されている。
基本的に数の論理なのである。
相手が一人であれば、自分と自作自演の自分をもう一人賛成者、同意者につければ2:1で議論やバトルの流れは自分に傾いてくる。

しかし匿名のインターネット上では今日2:1の数的有利さはあまりメリットがない。
相手も同様な自作自演の同意者を繰り出してくることが可能だからだ。
こうした場合やはり質が問題となってくる。

議論のテーマに沿っている限り、互いの主張に開きがあり、且つその正当性が7:3程度以上開いていた場合に議論となることは少ない。

従軍慰安婦問題のように、互いに一級資料が持ち寄られ、拮抗している場合に事は起こる
南京事件での死傷者は争われても、日本人の民間人死傷者やアメリカ人の民間死傷者が争われないのはその為である。

こうした場合、バトルの流れを左右するのは全体の流れであり、そのキーとなるのは裁判官のような存在の第三者である。この第三者が中道的である限り、争っている当事者二人よりも周囲に与える議論的優性イメージは大きい。

自作自演の同意者一人よりも、中立の第三者を自作自演した方が効果は大きいのである。
先に、バトルとなる優性度の差が7:3以下であると書いたが、この中立者としてのジャッジも両者の差異に7:3以上の差をつけてはならない。

中立者は当事者とは違って争っている問題に関して7:3以上の傾倒を見せないから中立者として存在しうるのである。

この中立者のもたらす優位度イメージは7;3で負けている議論を逆の4:6程度に逆転引き戻す効果すらある。
他人のサイト破壊等、長期的なプランで行うバトルや荒らしなどの場合、攻撃者はこの中立者を攻撃部隊の前に潜入させてくるものだ。

潜入した自作自演者は、中立イメージの確立に全力を傾け、しばしば他の小紛争を管理者に変わって解決したりするのだ。手慣れた攻撃者の場合、一月ほどでそのサイトの管理者に準じた発言権を持つまでに成長させる。
まるでスパイごっこのようではあるが、現実のスパイは身分証明書の偽造やら、容姿の変装など大変な壁があるが、匿名空間では身時表現での態度を変化させるだけである。
壁は格段に低いのだ。

この成長した中立者の効果はサイト管理者にとって殆どの場合、致命傷となる。
人身は惑わされやすく、サイト管理者が攻撃の当事者となった場合、発言権はこの中立者に取って代わられる。

もし、サイト管理者が気を許して、些細であってもサイトに集まる人々へ隠された裏切り行為などを漏らしていようものなら、何倍もの裏切り行為に増幅させてしまう。

一例として、あるサイトの崩壊に際しては、この中立者の存在が管理者に代わり大きなものになった。

ある趣味系のサイトでは小規模なオフ会を何回か行うほど、その趣味系サイト群の中では大きな存在となっていたが、サイトのサーバー容量の増大や、オフ会出席など管理人がサイト運営のコスト負担が
月に数万円にも昇ることを理由に、市場の拡大しつつあったクリック保証型バナーを管理人が導入した。
現在では珍しいことはないが、ネットワークのユーザー層には清貧のアマチュアリズムがあり、
内容がどうであろうとバナー広告など、他人が管理者のサイトであっても、そこが自分のお気に入りであれば、広告などやめろと声高に叫ぶ人たちが意外に多く存在する。
中には、多少の費用負担を自分がしてもいいという志の高い方もいるが、大半はこの清貧のアマチュアリズムを金科玉条に主張するだけである。
バナー広告の収入など当時月に数万規模まで稼ぎ出すサイトは少数であったが、その場所をお気に入りにしているユーザーは実力以上に過大評価する傾向がある。

そのサイトもそういった少数意見が出始め、小紛争となっていくが、この中立者が一転、オフ会時の
会費の残金を何回か分精算してなかった事を漏らしたことから、管理人には人格的な意味で「小金に執着する守銭奴」というレッテルが貼られ、サイトは荒れていった。

1月も紛争が続いた頃、会話ができる状態ではないので、この紛争問題以外は別の場所に非難しましょうという流れでこの中立者が別にサイトを作り、一時のはずがそのままその避難サイトが元のサイトに取って代わることとなった。筆者はその後、消息を追って見たところ、何度かのドメイン引っ越しを
行い、現在ではアフィリエイトもバナーも存在するサイトになっている。
絶妙なタイミングと、計ったかのような流れでこのサイトは期せずして他人の手に渡ったのである。

続きを読む "中立者の自作自演が最も重要"

e-mail投稿者:misawa 03:28

偽スパム

前項までにスパムトラックバック、コメントスパムについて、そのクローラーに関しても少々詳しく解説したが、これはこの項で述べる偽スパムを見分けるためである。
スパマーというのは、不特定多数のサイトに対して広告宣伝、或いはカモを釣るために巡るものであるが、このスパマーに扮してのサイト攻撃というものがある。

防御編で述べるが、一度IPアドレスを捕まれた犯人、或いは非常に近い関係の常連などが、密かに攻撃して来る場合などは当然ながら身元の隠蔽と動機の隠蔽をしてくる。上記のような英語文面の攻撃であるならば犯人の国籍さえ誤認してしまいがちだが、大事なことは攻撃に会った場合にどのような攻撃であるのか、どのような犯人であるのかを管理人として正確に把握、洞察することである。

上記の例で言えば、コメントスパムとして大量にポストを受けたとしても、アクセスログを詳細に見れば、ポストされた記事のページに同じIPアドレスでhtmlだけでなくgifファイルやcssファイルにもアクセスの痕跡があった、などの相違点があればそれはロボットによるクローラーではなく人間の手によるものである。
投稿された文面を検索してみれば、過去に投稿された文面であるのがわかったりする。
こういった偽スパムを攻撃手段として使う荒らしは、あなたの身近におり、動機の根が深い事が多い。
通常の荒らしであれば、日本語の意味のない文章などを連続爆撃していけばよいだけだが、そうではなく無言電話のように全く身元不明がわからないように荒らしをやらなければならないほどの理由があるのである。

e-mail投稿者:misawa 11:36

匿名プロキシサーバーか確認する

プロキシーサーバーへの接続には成功しましたが、接続したプロキシーサーバーが匿名かどうかをチェクしなければなりません。
プロキシーサーバーは中継を行いますが、"ど"のような中継を行うかは設置した管理者の設定次第なので、利用しているユーザーのIPアドレスを接続先に通知するものがあります。匿名としては役に立ちませんが本来はこういった設定で使われるものです。

では、匿名プロキシーサーバーではないプロキシーサーバーの例を診断君で見てみましょう。

先ほどとなにかが違いますね。「判定」欄には「漏れ判定:1 箇所に漏れている疑いがあります。」と表示されています。よく見ると

        HTTP_X_FORWARDED_FOR . 210.179.17.239

なんと、あなたがプロバイダから割り当てられたIPアドレスが表示されてます。


これは俗に「漏れプロキシー」と呼ばれるプロキシーサーバーで、匿名プロキシーサーバーではありません。
診断くんの判定でも「総合評価:D」自己主張の強い proxy です。キャッシュとしての能力に期待しましょう。」と匿名ではない事が指摘されています。

最初のプロキシーサーバーの判定が「総合評価:?(A 以上 or 生 IP。下記参照)疑惑 0%:proxy の兆候は全く見られません。」とは大違いです。

このように、ユーザーのIPアドレスを隠し、自身もプロキシーサーバーである兆候が全くないものを「完全匿名串(プロキシー)」と呼んでいます。英語圏では「Anonymous proxy」などと呼ばれます。

e-mail投稿者:misawa 02:53

コメントスパム攻撃

現在最も流行しているスパム攻撃で対象となるのはブログサイトである。
上記のようなクローラーとブログ掲示板への投稿機能が合体したスクリプトで、クローラーがブログサイトと判断すると、全てのページに誘導コメント、或いはトラックバックを書き込んでいく。

サイト管理人であるあなたは、翌日大量のコメントとトラックバックに爆撃された自分のブログを見てため息をつくことになるのである。

例:ブログ掲示板に残されたコメント例


Take your time to take a look at some relevant information dedicated to bonus code party poker bonus code party poker http://www.consultanthub.com/ http://www.consultanthub.com/ party poker downloads party poker downloads http://www.consultanthub.com/ http://www.consultanthub.com/ Party Poker Cheat Programs sites Party Poker Cheat Programs sites http://www.jobruler.com/ http://www.jobruler.com/ pacific poker cheats pacific poker cheats http://www.erealtystore.com/ http://www.erealtystore.com/ how to cheat party poker messageboard how to cheat party poker messageboard http://www.erealtystore.com/ http://www.erealtystore.com/ - Tons of interesdting stuff!!!

このコメントスパムの主であるロボットはなかなか優秀で、IPアドレス、ユーザーエージェントを変化させながらリファラ攻撃とコメントスパム攻撃、トラックバック攻撃をマルチで行う。通常はリファラを残しながらリンクをたどり、次々とページをクロールし、コメントが書けるブログを見つけるとコメントスパムを残していくという動作をする賢い奴である。

自分のブログがやられているのを確認したら、自身のブログからリンクしている他のサイトを見に行ってみよう。
同じようにやられているはずである。もしまだ攻撃されていなくともクローラーが他のところを回っているだけで、やられるのは時間の問題である。


この防御方法は現在、トラックバック元に受けた側のURLが含まれていない場合トラックバックを受け付けないという手法となっておりますが(biglobe WEBリブログ等、モバブルタイプplug-in)コメントスパムはキーワード登録等のいたちごっこ策しかないのが現状です。

e-mail投稿者:misawa 11:25

はじめに


2000年以降最も増えたインターネットツールってなんでしょう。

掲示板です。

個人がWEBサイト作るサービスは2004年から2005年にかけてその種類、数共に爆発的に増えました。ブログ、mixi、色々な呼び名はありますが、その機能の中心は掲示板です。
ネットでのコミュニケーションツールとして掲示板の地位はますます上がり、もはや掲示板のないWEBサイトは考えられません。一人に一つ掲示板の時代です。

以前なら素通りしていったWEBサイトの前にペンと紙が用意されている。

現実世界で、家の前に掲示板を立て、通りすがりの人になにか書いていってくださいね。などという人はいないでしょう。
何か意見を貰うにしても、それが投げ込まれるのは郵便受けです。通りすがりの誰かが書いていった内容を他の通りすがりの人が眺められるなんて事はありません。

しかしそんな事を始めてしまったのが、本書を手にしている皆さんです。

もしかしたら、無免許の中学生に「夜露死苦」「愛羅武憂」と毎夜、頭の悪い落書きをされて、しぶしぶ引っ越しを余儀なくされた後かも知れません。

私がネットの管理者をやり始めた頃、こういった運営面でのサイト防衛と攻撃に関する書籍も情報も存在していませんでした。
こんなにブログが流行り、サイト管理人が増えているのに来訪者との運営マネジメントをどうしているのか語る人は多くありません。
最新ツールに飛びつく方でもなければWEBサイト構築ツールの使い方は出来合のマニュアルを読めばわかります。サイトをクラックされないようにセキュリティを・・・、そんな技術者でも難しいこと、正直、サイトのトップページをクラッカーさんに書き換えられても、それだけの事です。翌日には元に戻せます。
Cgiを暴走させて自宅サーバーが落としたり、ホスティング屋さんに怒られてもみんな一過性の問題です。大体、クラッカーさんは徹底的に姿を隠しますし、メールで絡んできたり、掲示板で暴れたりしませんから普通のサイト管理人としては怖くないんです。

本書では、長年プロバイダや企業の掲示板サービスやコミュニティの運営を現場で行ってきた筆者が、自身の個人サイトも作ったり潰したりとその中でやりくりしてきたノウハウを詰め込みました。
現役人気サイトの管理人さんが書かない(書けない)内容が多数盛り込まれています。

e-mail投稿者:misawa 12:51

過去の発言との矛盾を引き出す

人間誰しも匿名のネット空間では、少し自分を装ってしまうものであるが、それを探し出して指摘するやり方である。
これは非常に注意深く過去ログなどを読む能力が求められるが、小さな矛盾でも相手自身の発言であるために、掲示板でホラ話を書いている人間である、信用できない虚言が含まれる書き込みをしているタイプであるという印象を植え付けやすい。
~事例~


ターゲット「****ですから、今のように30歳後半にもなると、健康にも留意しなければならないと言っているのです」

A    「30歳後半?ですか、以前の発言********では30歳になったばかりと書いてますが?」

e-mail投稿者:misawa 07:56

「フレーミング煽り」と「サイレンと煽り」

2ちゃんねるによく見られる「クソスレ終了」「逝ってよし」に見られる罵倒語による煽りである。
対象が決まっている場合、決まっていない場合があるが、決まっている場合はその対象個人に直接ぶつけ、対象が決まっていない場合、なるべく具体的な属性を指して煽るのである。
対象が決まっている場合。


「****さんも、相変わらずろくな事かかないね」

「546番の書き込みは夏に発生する知能障害かな」

「*****、あんたつまらん。」

「****さんも、雑誌に書いてある程度のことしか書けないんですね。見飽きてます」


対象が決まっていない場合(属性を煽る)

・巨人ファンの誰かを煽る場合
「巨人も相変わらず清原使うのか、ファンも馬鹿だからしょうがないね」

・民主党員の誰かを煽る場合
「民主党の支持者ってちょっとおかしい人ばかりでしょ」

・掲示板の常連を煽る場合
「こんなサイトの掲示板で日曜日に書き込みしてる人って引き籠もりですかやっぱり」

「ここの常連ってレベル低い人ばかりだね。****を見た方が勉強になるよ」


この効果は、直接間接に罵倒、中傷することにより、対象者の書き込みや反論を誘発、掲示板の発言を短時間に増加させる。
対象者の知識を罵倒中傷の対象とすれば、向けられた相手は知識があるところを証明したくなるものである。
乗ってきた段階で、更に細かく煽っていけば、あるテーマに関する情報の多くを掲示板に書き込ませることができる。
必要な程度書き込ませたら、対象者を別に移し次々と繰り返していけばよい。
これを攻撃として使った場合、毎日これをやられれば、攻撃側の労力に比較して対象者は大変に疲労することになるのである。
「サイレント煽り」

効用は同じであるが、フレーミング煽りがカンフル剤のように急激にきく反面、対象者の疲労が大きいのにくらべ、同じように急激にはきかないが、対象者は僅かな不快感を感じ、反論の書き込みや自身の優位を示すための書き込みがジワジワと増えてくる。
また、フレーミング煽りに比較して攻撃する側も少々手間がかかるが、掲示板が荒れることはないので対象者をサイトの常連化させたい場合などに効果的だ。

この煽り手法も対象が決まっている場合と決まっていない場合で選ぶ文言が異なってくる。
~事例~

対象が決まっている場合。

「****さん、他人には説明が少しわかりずらいかもしれませんね。もう少しかみ砕いた方がいいのでは」

「546番の書き込みは、勉強になったけど、後半の意味がわからない」

「***さん、掲示板常連にはわかるけどちょっと***節が強すぎかもね」

「546番の書き込みは、先週の週間***に書いてあったなぁ」


~事例~


対象が決まっていない場合(属性を煽る)

・巨人ファンの誰かを煽る場合

「昨夜の巨人も大敗でしたが、以下(http://xxxxx.ne.jp/xxxxxx~)で清原さんのバッシングすごいですね。」

・民主党員の誰かを煽る場合

「民主党の***議員がセクハラだそうです(http://xxxxx.ne.jp/xxxxxx~)」

・特定掲示板の常連を煽る場合
「あれ、最近、書き込みが少ないですね。このテーマも終演かな」

e-mail投稿者:misawa 07:25

◆コラム 自宅サーバーにおける堕ちない廉価ルーター

ダイナミックDNSの普及に伴い、ドメインを契約して直ぐに自宅サーバーが開設できるようになりました。

プロバイダ契約さえあれば、普段インターネットやメールを見ている環境で簡単にWEBサーバーやメールサーバーが構築できます。
自宅サーバーであれば、ハードディスク容量がそのままホームページ容量として使用でき市中のホスティングサービスのように百メガ程度の容量で苦労することもありません。
実際の構築においては詳しいホームページや書籍が出ておりますのでそちらにお任せしますが、実際にこの個人サーバーというのは便利な反面、開設する人はごく少数です。
殆どの方はある理由で「やっぱり自宅ではだめだ」という状況になりホスティングサービスで我慢をするのです。

ポイントはインターネットの情報を家庭内で分配する機能を受け持つルーターにあります。簡易ファイアウォールとして、またサーバーと普段使うパソコンからもインターネットを使うためと、個人サーバーの構築にルーターは欠かせません。
しかし、このルーターが最大のネックになってしまうのです。
価格からいって仕方のないことですが一般市販のルータは頻繁に落ちてしまうのです。
ふと気がつくとルーターが止まり、インターネット接続のすべてが止まっているといったことが頻繁に起こるのです。

皆さんにインターネット接続を提供しているプロバイダも多くのルーターを使用し、何万人~何百万人というユーザーからの接続を内部で処理しています。

このプロバイダなどで使用されているルーターは、皆さんが市中で買える数千円~数万円の品とは桁が一つも二つも違う製品です。

やっている仕事は基本的に同じなのですが、商用サービスで運用する場合に求められるルーターの仕事はまず「安定性」です。一度電源を入れたら入れっぱなしで数年間稼働するような性能が求められるのです。
こうした信頼性というのは個々の部品に品質のよいものをアッセンブリーし十分な安定性が確認されたものだけが出荷されています。

膨大なトラフィックを黙々と処理分配し24時間、365日、黙っていても稼働していることが求められるのです、一週間に一度再起動などという安定性では話にならないのです。

筆者もルーターには自宅サーバーで悩んだ経験があり、このルーターの重要性を再認識しました。

実際に自宅サーバーを運用してみると、インターネットで何が起こっているのかよくわかります。

自宅サーバーでサイトを公開し始めた当初、検索エンジンや各種リンクサイトなどに自分の登録をしにいきます。
見に来てくれる人は最初は日に数人、思うように増えません。
しかしある日サーバーログを見ると、1000回も2000回もアクセスがあります。ログを見ると登録した検索エンジンのロボットや、スパムを蒔こうとしているスパムクローラー、ウイルス感染したパソコンからのアクセス、不正アクセスの為のアタック・・・・・・
なんと、実際の人間のアクセスの数十倍のアクセスがインターネットを飛び回っています。

当初、ルーターが止まっているのは一週間に一度程度でしたが、こういったアクセスは日に5000~一万アクセスにもなり、ルーターは毎日止まってしまうようになりました。
毎日、いつ止まるかわからないのに自宅サーバーでWEBサイト、ましてやコミュニティなどできるわけがありません。

人にはみてもらいたい、しかし宣伝をすれば、人はわずかしか増えないのに、こういったアクセスだけは飛躍的に増えていきます。

原因が市販ルーターの安定性にあることがわかり、業務用のルーターを調べたところ目が飛び出るほど高いことを知り挫折しましたが、ほんの僅かながら個人が購入できる安価な中にも、この安定性高いものがあることがわかりました。
以下に筆者が実際に購入し安定性を確認したルーターを紹介しおきます。
決して最新機種ではありませんが、使っている方は密かにほくそ笑んでいるルーターたちです。

現行機種

BRL-04FMX:プラネックスコミュニケーションズ \9,505(税込 \9,980)
http://www.planex.co.jp/product/broadlanner/brl04fmx.shtml

NetGenesis SuperOPT100E (オープンプライス )
http://www.mrl.co.jp/catalog/nw/mr-opt100e.htm
販売終了(中古品として流通あり)

NetGenesis SuperOPT50・70・90・Air・100
http://www.mrl.co.jp/catalog/ct-index.htm

Broadband Access Router : BA8000 Pro
http://www.ntt-me.co.jp/bar/ba8kp_index.html


Aterm WB7000 WR7600

e-mail投稿者:misawa 05:47

自作自演用辞書作成方法

自作自演において一人二役ということは2人分の投稿を一人でこなさねばならないということなのでかなり忙しい作業となります。
議論やバトルでは相応に考えながら相手に反論や指摘を行うわけですが、時間は一人分しかありませんから、投稿間隔がどうしても一人の時よりも長くなります、これを最小限にするためキータイプの時間短縮と、自作自演でなりすますキャラクターの発言の雰囲気や文体を真似る目的で使用されます。
対象の真似たい文体の抽出を行い、専用の辞書ファイルとを作成し語尾や漢字の癖から自作自演本体の特性を見抜かれないようにしておくのです。
自作自演が疑がわれる場面においては、人は発言者の漢字や単語の所在に目を付け、本物、偽者、微妙といった判定をしています。
自分ではなかなか気が付かない部分なので発覚のリスクを避けるため、日本語入力の場面で専用の辞書を使用しています。以下例を示します。

抽出方法は簡単です、これは最新のATOK2005を使用します。
まず真似たい対象の掲示板発言をできるだけ多く集めてテキストファイルにします。
掲示板の発言をそのまま抜き出してテキストファイル保存します。

今回は、変換精度と高機能ツールで定評があるJustsystemの日本語入力システムATOKを例に取ります。

まず、普段使っている辞書セットとは別に辞書セットを作成します。

・メニューより「辞書メンテナンス」「辞書・学習設定」に進みます。

・辞書セット5を選択します。辞書セット5~0はユーザーが自由に組み合わせて使用するようにあらかじめ中身の設定は空のまま登録されている辞書セットです。辞書セット5の内容は何も登録されいない状態なので、新しい辞書をセットするために「辞書の追加・削除」をクリックします。

・右欄から使用する辞書を選択します。通常の変換には必要なのは「標準辞書」です。
追加可能な辞書の一覧(右欄)から選択して「追加(A)」ボタンで辞書セット5の内容(左欄)に登録されます。その他必要にあわせ、フェイスマーク辞書やトレンド辞書などを登録してもいいでしょう。登録が終わったら「OK」を押して「辞書・学習設定」に戻ります。

登録前

登録後


・辞書セット5に標準辞書がセットできました。

・右クリックで「名前の変更を」選択しセット内容を「匿名A」と名前変更しておきます。

・設定した「匿名A」辞書セットを使用するために「基本辞書セット(B)」を押し、基本辞書セットとして指定します。「OK」をし「辞書・学習設定」を終了します。

次に、今設定した「匿名A」に用意したターゲットの文例を読み込ませ変換に利用できるようにします。

・辞書に用意したテキストファイル中の辞書にない単語を登録させるために、メニューより「辞書メンテナンス」「AI辞書トレーナー」に進みます。

AI辞書トレーナーとは

>文書から単語や用例を抜き出して学習する-AI辞書トレーナー-
>指定文書から、辞書に登録されていない単語を自動的に抽出して辞書に登録します。
>対象となるのはカタカナ・アルファベットの単語や、複合語(接頭語・接尾語が付いた単
>語)です。
>また、辞書中の固有人名に相当する単語を抽出したときは、変換候補の先頭にくるように
>順序を並べ替えたり、名字と名前をAI用例として登録したりします。
>入力する機会が多い言葉(単語)が含まれた専門分野の文書や、会社の社員名簿・個人の
>アドレス帳から単語を抽出することにより、使用目的に合った情報が辞書に学習されるの
>で、変換効率がよくなります。
※ATOK2005ヘルプより

・ATOK辞書セットには先ほど設定した辞書セット「匿名A」が指定されていることを確認し、
「文書の設定」タブの中で読み込ませたいテキストファイルを指定し「実行」を押します。

・読み込みが終わると以下のようになります。「閉じる」「終了」でメニューを閉じます。

・メニューより「辞書メンテナンス」「辞書・ユーティリティ」に進みます。
先ほど「AI辞書トレーナー」にて読み込ませた新しい用例が表示されています。
これが読み込ませた文例の中で、文例の主の癖といえる独自の用語群です。
人によっては変わった漢字造語や、カタカナの使用頻度が高かったりと、文章を眺めるだけではわからなかった「癖」の一部が把握できます。

・以上までで、文例の主の特徴的な単語の組み込みは終わりましたが、誰にでもよく使う特徴的なフレーズというものがあります。一つ一つ手で登録していく方法もありますが、ATOK2005には文書の中から、句読点などの位置情報を元にある程度の文例の抜き出しを行ってくれます。この登録を行ってみます。

・「ツール」、「ファイルから登録・削除」に進みます。


・用意したテキストファイルを指定し、「登録(A)」ボタンを押します。

・文章を集めただけのテキストファイルですから、「単語ファイルにヘッダが見つかりません」と注意がでますがこのまま「はい(Y)」を押して進みます。

・読み込みが終わると終了画面になります。「閉じる」を押して画面を終了します。

・読み込みが終わり、単語と用例が読み込まれました。

以上で、ATOKの機能を利用した抽出と辞書登録が終了しましたが、この手法で検出できなかった特殊な「癖」は更に手動で組み込む必要があります。

・メニューより「単語登録」に進み、読みと単語を登録します。

e-mail投稿者:misawa 05:45

最近のエントリー
2006年06月
        1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30