« 2005年10月 | トップページ | 2005年12月 »

2005年11月

「眞鍋かをりのココだけの話」の表示問題、一部解決す。

先日の記事で書いた「眞鍋かをりのココだけの話」の表示問題だが、HTMLの表示は正常に修正された模様。感謝。ただし、RSSの不具合はまだ未修正の模様。

で、 トラックバック先の記事を見て思ったこと。眞鍋かをりはライオンキングに出演したいのだろうか?いや別にいいんだけど。

追記:解決したと思ったが、古い記事はいまだ正常に表示されず。デザインの再適用をさせていないのでは?

| | コメント (0) | トラックバック (0)

「眞鍋かをりのココだけの話」に見る技術的な不具合。

以下は「眞鍋かをりのココだけの話」の運用担当者に読んでほしい話。

「眞鍋かをりのココだけの話」にある個別の記事をMozilla Firefox 1.07で見ると、デザインが崩れてしまっている(トップページでは問題無いが、個別の記事では症状がでる)。また、記事の下の表示されるトラックバックの一覧を見ることができない。以前のデザインでは問題なく見れていたのとは雲泥の差だ。CSSの書き方の問題のなのか確認していないが、デザイナーはFirefoxでの表示確認ぐらいはすべきだと思う。

同様の問題はRSSの出力にも見られる。同ブログのRSSは眞鍋かをりのココだけの話 powered by ココログ - by Rssadに転送されるようになっているが、「channel rdf:about」の部分でURLが指定されているにもかかわらず、Firefox用のRSSリーダーであるSageで読み込むとURLがローカルに飛ぶ形になっており、channel rdf:aboutの指定が正常に機能しなくなっている。xslによるスタイルシート指定をとっている関係もあるのかもしれないが、同様の手法を取っているbk1のRSS配信サービスでは問題が起きていない事を考えると、指定の仕方がおかしいだけとしか思えない。

ココログ フリーの写真にも見られるように、「眞鍋かをりのココだけの話」はココログの顔とも言える存在になっているのだから、こういう細かい部分にも気を配ってほしい。


なお、直接の関連は無いかもしれないが、眞鍋氏のブログだけだと担当者に読んでもらえるかどうか不安が残るので、古河社長のブログココログスタッフのブログにもトラックバックを打たせていただく。あしからずご了承ください。

追記:「相手先のトラックバックURL を入力」からいつまでたってもトラックバックが消えないので(ココログのサーバが重いのか?)何回もやりなおしたら、真鍋氏のブログにトラックバックが沢山送られてしまった。どうもすいませんm(_ _)m。

| | コメント (0) | トラックバック (1)

何度目のバック・トゥ・ザ・フューチャー?

何度見ても面白い映画というのは、やはり何度見ても面白いものである。

昨日テレビ東京系列でバック・トゥ・ザ・フューチャー3が放映されていたのだが、このシリーズは確か1を映画館に見に行った記憶がある。子供の頃だからかなり前の話になるのだけれど(上映されてから20年以上経っている!)、映画館でとてもワクワクしたのをよく覚えている。マイケル・J・フォックス演じるマーティとクリストファー・ロイド演じるエメット・ブラウン博士という、歳の大きく離れた二人がとてもいいコンビだったのが子供心に余計に印象に残ったのかもしれない。

バック・トゥ・ザ・フューチャーはその後予定通りシリーズ化されて3まで上映されたが、それぞれビデオやTVで何度も見ている。でも、何度見ても、やはり面白いのだ。胸を突く痛快さは今でもワクワクさせられる。こういう映画は手元にメディアを持っておきたいという気持ちにさせられる。大衆映画ではあるけれど、面白いものは長い人気を得るというのがよくわかる映画である。

参考:
バック・トゥ・ザ・フューチャー - Wikipedia
マイケル・J・フォックス - Wikipedia
クリストファー・ロイド - Wikipedia

そんなわけでバック・トゥ・ザ・フューチャーのDVDって今いくらぐらいなんだろうと思い、Amazonをのぞいて見たのだが、近々20周年記念のDVDボックスが出るらしい。もしかして昨日の放送は「DVDボックスを買いなさい」という話だったのかとも思った。が、そんな意図は関係無くとも面白い映画なので手元に置いておきたくなるわけで、さあどうしたものか。買ったら買ったでいろいろありそうな気もするけれど。


バック・トゥ・ザ・フューチャー 20th アニバーサリーBOX
ユニバーサル・ピクチャーズ・ジャパン (2005/11/25)
売り上げランキング: 154
おすすめ度の平均: 3.64
4 ちょっとこれは・・・
2 迷っています。
4 前回買い逃した人には…


バック・トゥ・ザ・フューチャー
ユニバーサル・ピクチャーズ・ジャパン (2005/04/08)
売り上げランキング: 331
おすすめ度の平均: 4.33
5 マイケル=J=フォックスの復帰を祈る。
2 んんん
5 素晴しい映画


バック・トゥ・ザ・フューチャー PART2
ユニバーサル・ピクチャーズ・ジャパン (2005/04/08)
売り上げランキング: 617
おすすめ度の平均: 4.5
5 タイムマシンが不可能な理由を証明している一面も?
3 空飛ぶデロリアン!
5 Back to the future 第2部


バック・トゥ・ザ・フューチャー PART3
ユニバーサル・ピクチャーズ・ジャパン (2005/04/08)
売り上げランキング: 797
おすすめ度の平均: 4.5
4 88マイル突破ラストバックトゥザヒューチャー!!
5 Back to the future 第3部
5 トリロジーボックス


バック・トゥ・ザ・フューチャー トリロジー・ボックスセット
ユニバーサル・ピクチャーズ・ジャパン (2003/11/28)
売り上げランキング: 78
おすすめ度の平均: 4.74
5 ようやく
5 やっと入手しました(苦笑
5 映画史上最高の作品と断言します。

| | コメント (0) | トラックバック (1)

Shuriken Pro4/R.2、試用版が出たので試してみた。

この前の記事でも紹介したShuriken Pro4/R.2だが、30日間の試用版が公開されていたので早速試してみる事にした。

起動自体は軽い。早速受信してみたが、フィルタの動作そのものは結構軽い感じ。

迷惑メールと通常メールをそれぞれ5通ほど受信した後、迷惑メールを再学習させた。その後に残りのメールを一気に受信させてみた。とりあえずメールサーバに残してあったメールを取り込んだだけなので、再学習の効果が現れるのはこれからだが、結果は下記の通り。

  • 通常メールと判定された通常メール:9通
  • 通常メールと判定された迷惑メール:72通
  • 迷惑メールと判定された迷惑メール:98通
  • 迷惑メールと誤判定された通常メール:0通

果たしてどこまで賢くなるか?

なお、RSS検索エンジンで既に試している人の評価を調べてみると、高評価が多い

以下は高評価な方々の記事。

| | コメント (0) | トラックバック (1)

@niftyの迷惑メールフォルダーは日本語迷惑メールのすり抜け率が多すぎる。ベイジアンフィルタの日本語実装を見直すべき。

以前にも記事で触れているが、@niftyがハッキリと認識すべき問題だと思うのであえて書かせていただく。迷惑メールフォルダーの学習フィルタは日本語メールへの対応度を改善すべきだ。MOOCS LAUNCH PARTYは楽しそうだが(※サービス開始おめでとうございます!)、できればそちらにばかり力を入れていないでこちらも改善してほしい。

以下はその理由。

11月現在、スパムメールブロックを解除した状態で迷惑メールフォルダーを利用した場合、日本語の迷惑メールに関しては相変わらずのすり抜け状態が続いている。

11月1日から11月10日の間、スパムメールブロックを解除した状態で迷惑メールフォルダーを利用してみた。なお、学習フィルタの学習内容を一度リセットしてから、迷惑メールフォルダーに溜まっていた1800通ほど迷惑メールを再学習させてある(再学習させた迷惑メールにはスパムメールブロックを使って弾いていたものも含めてある)。

  • 迷惑メールフォルダー内にある、11/1-11/10に来た迷惑メールの内訳(午後七時時点)
    • 日本語の迷惑メール:125通
    • 日本語以外の迷惑メール:633通
  • 11/1-11/10に来た、すり抜けてきた迷惑メールの内訳(午後七時時点)
    • 日本語の迷惑メール:22通
    • 日本語以外の迷惑メール:6通

※日本語の迷惑メールは全てinfo@系(関連記事)。
※日本語以外の迷惑メールは全て中国語のもの。半数以上は基本フィルタでの対応?
※すり抜けた迷惑メールに関してはその都度再学習を行っている。
※@niftyの迷惑メールフォルダーではSymantec提供の基本フィルタも動いている。


迷惑メールフォルダーに溜まっている迷惑メールが全て学習フィルタ(@niftyの場合はベイジアンフィルタを採用)によりフィルタされたものと仮定しても(実際はSymantec提供の基本フィルタによって振り分けられる迷惑メールの方が多い)、ベイジアンフィルタを通った日本語の迷惑メールのうち20%近くはすり抜けてきている事になる。すり抜けてくる率を考えても、日本語の迷惑メールに対しベイジアンフィルタが有効に動作しているとはいえないだろう。すり抜けてきた迷惑メールを再学習させても、数日後に同じ文面の迷惑メールがまたすり抜けてくるのだから性質が悪い。

迷惑メールフォルダーのメール受信状況 (2005/08/13~2005/11/10)
迷惑メールフォルダーのメール受信状況 (2005/08/13~2005/11/10)
※基本フィルタで検出した迷惑メールが途中から激増し、間で激減している部分があるが、これはスパムメールブロックによるフィルタ(内容については関連記事を参照)を10月半ばに一旦解除しているため。


一般的な話になるが、英語の迷惑メールの場合、ベイジアンフィルタを使わなくても90%程度のスパムを弾くことができ、ベイジアンフィルタをすると98%程度までブロックできるらしい。であれば、日本語迷惑メールであっても、日本語に対する実装がきちんとしていればそれに近い数値になるはずだ。

ではなぜそうならないのか?これには日本語特有の問題が関係してくる。


ベイジアンフィルタではデータを最小単位の単語に分解してから統計処理をするのだが、スペースで単語を区切る英語とは異なり、日本語では単語を区切るための印がない。そのため、そのままベイジアンフィルタにかけても適切な統計処理を行うことができない。

この問題を解決するためには日本語の文章を適切な形に分解してからベイジアンフィルタに流し込む必要がある。日本語を適切な形にする方法としては下記のいずれかの方法がある。

  1. 形態素解析(内容については形態素解析 - Wikipediaを参照のこと。)
  2. bigram(日本語部分を 2 文字づつ切り出す)
  3. block(漢字、平仮名、片仮名のブロックごとに切り出す)

POPFile: JP FrequentlyAskedQuestions/LearningDifferenceによると、1はPOPFileで、2はscbayesで、3はMozillaで使われている方法だそうだ。

このように適切な形に分解する処理を入れることで、日本語の迷惑メールであってもベイジアンフィルタ上で適切にフィルタされるようになるわけだ。


個人的な感想だが、この中でフィルタ精度が一番高くなるのは形態素解析を利用する場合ではないだろうか。実際、形態素解析にKAKASIを採用するPOPFileでは98%程度の振分け精度を確保している。日本語と英語の違いを考慮したとしても優秀な数値と言える。

※POPFileにはこの他にもBase64エンコードの日本語メールも処理可能な様になっている(詳細は関連記事を参照)など、様々な工夫がなされている。振分け精度の高さはその辺りも影響しているので注意。


@niftyでどの方法を取っているかはわからないが、以前から英語の迷惑メールはかなりの高確率でブロックしているにも関わらず、日本語迷惑メールは相変わらずすり抜けてくる。すり抜けてくるメールの割合を考えると、日本語周りの実装が適切になされていないとしか言い様がないだろう。


ところで@niftyの迷惑メールフォルダーにおいて、学習フィルタ(ベイジアンフィルタ)はどのような位置付けなのだろうか?

@niftyの迷惑メールフォルダーではSymantec製の基本フィルタとベイジアンフィルタを組み合わせる形でサービスを提供している。迷惑メールの情報がSymantecのデータベースに追加されると基本フィルタでブロックされるようになる。が、ユーザーからSymantecに迷惑メールのデータが提供されてもデータに反映されるまでのタイムラグがあるのだろう。11月に入ってからも、2~3日程度の間に全く同じ文面の迷惑メールが複数すり抜けてきた。

普通に考えると、ユーザーから提供されるデータが基本フィルタに反映されるまでの間は代わりにブロックするのが学習フィルタの役割のはずだ。それなのにベイジアンフィルタが日本語迷惑メールを処理できないため、ユーザーにいらぬ負担を強いる事になっている。

データバックアップメモ - extended -: 「info@~」で始まる迷惑メールへの対処法 in @niftyで方法を紹介しているように、スパムメールブロックを使う事でブロックできる場合もあるが、それとて初心者ユーザーには設定すらできない場合があることを考えれば、とてもまともな解決策とはいえない。実際、ココログに投稿されているユーザーの意見をみても、迷惑メールフォルダーをすり抜けてくる迷惑メールに腹を立てている人が非常に多い。

基本フィルタがあるから大丈夫、スパムメールブロックがあるから大丈夫、ではないのだ。

@niftyは早急にベイジアンフィルタの日本語周りの実装を見直してほしい。


2005年11月11日追記
  • 関連記事へのリンクが上手く張れていなかったので修正。トラックバックも打ち直し。

| | コメント (0) | トラックバック (1)

学習型迷惑メールフィルター搭載のメールソフトShuriken Pro4/R.2

ジャストシステムから学習型迷惑メールフィルター搭載のメールソフトShuriken Pro4/R.2が発売される。新バージョンで採用された学習型迷惑メールフィルターにはジャストシステムによる日本語形態素解析エンジンが組み込まれており、日本語の迷惑メールも学習対象になる。ジャストシステムの日本語解析技術は定評があるので、学習フィルタの性能も期待できるのではないだろうか。

日本語の迷惑メールに困っている人にとっては朗報といえるかもしれない。

なお、Shuriken Pro4の既存ユーザーにはShuriken Pro4 /R.2への無償アップグレードが用意されるとのこと。既にAmazonでは予約受付されている。

Shuriken Pro4 /R.2 for Windows CD-ROM
ジャストシステム (2005/11/11)

| | コメント (0) | トラックバック (2)

スパム対策の記事からトラックバックスパム?

「迷惑メール(スパムメール)対策の記事からトラックバックもらったけど、記事内に該当記事のURLが載ってなくてトラックバックスパムになってるよ」と指摘したら、リンクURLとトラックバックで指摘したらなぜかこちらからのトラックバックを消されてしまったので、それってまずいのでは?と言ってみる、という話(ながっ!)。

前回の記事のコメント欄を御覧になった方はお判りかと思うが、どうやらこちらからのトラックバックは削除されたようだ。まあこちらのおせっかいといえばおせっかいなわけだが、どうもトラックバックスパムの定義自体を理解されていないように感じた。あのままでは他所でいずれまた指摘されるだろうと思っていたら、案の定同じような指摘を受けているようだ。

一般的に、トラックバック元の記事にトラックバック先の記事へのリンクがないものはトラックバックスパムとみなされる。ユーザーの流れが一方的になり、相手側からトラフィックを稼ごうとしているとみなされるからだ。

一般的に認知されているトラックバックスパムがどんなものなのかについては、トラックバックスパムとは?(悪いトラックバックスパムの例)や、ただのにっき(2005-06-28):言及リンクのないTrackBackの何がいけないのかなどの解説がわかりやすいだろう。

もちろんSo-net blog:t2o's log:コミュニケーションとマナー。で見られるような意見もある。また、L'eclat des jours(2005-11-04):形式主義vs実質主義でいわれているような「実質主義=(1)営利目的(2)無差別(3)大量配信」に当たらないのだから問題無い、という考えなのかもしれない。が、それでは「形式主義=言及リンクが存在しない」という考えに基づいてトラックバックスパムのブロックシステムが作られたら(つまりトラックバックに対して機械的に対処されたら)、どうしようもないことになる。

実際、「該当記事のURLが記事内に存在しない場合にはトラックバックを自動的に弾く」ためのプラグイン」を既に導入しているブログもある。例えばModern Syntaxとか。この手のプラグインに関しては、Movable TypeやASP型ブログシステムのTypePad(ココログはこれを使用)で有名なSix Apartでも積極的に対応しているようだ。

こういった仕組みはSix Apart以外でも遅かれ早かれ導入されるだろう。トラックバックスパムは機械的に打たれているだけのものなので、こういった対応は当然のものといえる。

であれば、今からそこにわざわざ突っ込んでいくような態度を取らなくてもと思うのだが、どうもその辺りまでまだ気が付いておられないようだ。せっかくの良い記事なのに、まったくもったいない話である。

※まあそれ以前の問題として、スパムメール対策について記事を書いている人がトラックバックスパムやってどうすんだ、と思ったりしたわけだが、その辺はあまりえらそうな事をいえる身分でもないので(リンクし忘れた経験あり(^^;;)、とりあえず置いておく。

| | コメント (4) | トラックバック (0)

学習型迷惑メール対策ソフトのPOPFile、Ver.0.22.3 登場。

当ブログの記事でもたびたび登場しているが、ベイズ理論による学習フィルタ機能を持つ迷惑メール対策ソフトとして有名なPOPFileがVer.0.22.3にバージョンアップされた。約一年ぶりの新バージョンとなる。0.22.3 の新機能は以下の通り(POPFile: JP FrequentlyAskedQuestions/NewVersionより引用)。

0.22.3 の新機能
  1. 1. Windows 版のインストーラが大きく変更され、SSL モジュールのダウンロードもインストーラに含まれました(これまでは別になっていました)。(Windows 版のみ)
  2. データベースのアップグレードの際に「PRIMARY KEY」エラーが起こる問題を修正しました。
  3. (UI で)タブの文字以外のところをクリックしてもタブが切り替えられるようになりました。
  4. POPFile を SSL 接続で使用した場合(:ssl オプションが使用された場合)には、ポート番号のデフォルトが 995 (110 ではなく)になりました。
  5. カタロニア語の翻訳ファイルが追加されました。
  6. Base64 でエンコードされた日本語メールに対応しました。Kakasi や Windows 版の排他処理におけるパフォーマンスが向上しました。UI の履歴タブで件名の一部が文字化けする問題を修正(euc-jp として不正な文字は削除して表示するように)しました。
  7. UI についての細かいバグを修正し、バケツタブのインタフェースをよりわかりやすく修正しました。
  8. Windows 版のインストーラは英語版のマニュアルをインストールしないようになりました。
0.22.3 における日本語化に関する変更点
  1. Base64 でエンコードされた日本語メールへの対応
    • Base64 でエンコードされたメールを正しく処理できるようになりました。
  2. Kakasi のパフォーマンス向上
    • Kakasi での処理(分かち書き)におけるパフォーマンスが向上しました。これまではメールの 1 行を処理するたびに辞書の開閉を行っていましたが、これをメール 1 通ごとに修正しました。また、アルファベット等日本語の文字以外しか存在しない行については分かち書きを行わないように修正しました。
  3. Windows 版でのパフォーマンス向上 (Windows 版のみ)
    • (Text-Kakasi モジュールがスレッドセーフでないために Windows 版のみで行っている)排他処理におけるパフォーマンスが向上しました。この修正は、Windows 版で「POP3 同時接続の許可」を「はい」に設定していた場合にのみ影響します。
  4. UI の履歴タブで件名のリンクが無効になる不具合の修正
    • 履歴タブに表示される件名が文字化けし、件名に設定される(シングルメッセージビューを表示するための)リンクが無効になってしまうことがある不具合を修正しました(euc-jp として不正な文字は削除してから表示するように修正しました)。

目に付くところとしてはやはりBase64 でエンコードされた日本語メールへの対応、Kakasi のパフォーマンス向上、などであろうか。SSL モジュールのダウンロードもインストーラに含まれるようになったことも人によってはポイントになるかもしれない。

早速アップデートしてみたが、動作速度の向上がが体感できるレベルになっている。今まで動作が遅いことで使用を躊躇していた人は再度試してみる価値があるかもしれない。

設定などについてはPOPFile: JP POPFileDocumentationProjectにある一般ユーザー向けの情報(FAQ 初心者・初学者向けのQ&A集HOWTOs(ハウツー)トラブルシューティング)を参照しておくとよいだろう。主要なメールソフトでの設定方法の他、ウィルス対策ソフトやファイアウォールソフトと一緒に使用するための方法についても書かれている。

なお、バージョンアップの際には既存のPOPFileのバックアップを取っておくこと。

| | コメント (0) | トラックバック (1)

トラックバックを打つなら該当記事へのリンクは忘れずに。

無料ソフトレビューさんから迷惑メール対策に関する記事からトラックバックをいただけたのはありがたいのだが、記事中に相手先の記事へのリンクを入れていないのはどうかと思う。でないと、アクセス数を稼ぎたいだけの単なるトラックバックスパムと同じだと見なされかねない。

せっかくの記事なので、そのあたりに少しでも気を配っていただけたらと思った。

| | コメント (1) | トラックバック (1)

« 2005年10月 | トップページ | 2005年12月 »