2008/12/18

セマンティックWebダイアリーの引越し  

セマンティックWebダイアリーはAOLのブログだったのですが,AOLがブログを1月31日までで終了.GMOティーカップ・コミュニケーションに引き継ぐとのことで,ここへ引越ました.ところが,このGMOティーカップ・コミュニケーションのブログが気に入らない.そこでさらにここからlivedoorブログに引越しすることにしました.

AOLは昔外国に行ったときにダイアルアップで通信するために入ったのですが,そもそも自宅ではかってlivedoorがやっていたマンション光なので(今も・・・.

皆様には申し訳ありませんが,過去のブログは引き続き,こちらですが新しいブログは今後こちらのアドレスでアクセスをお願いいたします.
0

2008/12/16

読みました,「日本語が亡びるとき」  

水村美苗氏の書かれた「日本語が亡びるとき」を読みました.セマンティックウェブにかかわることを取り上げてきたこのブログと一見関係ないかのように見えるかも知れませんが,そうではありません.本書の第6章は「インターネット時代の英語と<国語>」というタイトルです.水村氏は日本語が国語として成立し,日本文学が世界の中の「主要な文学」として成立しえたのは,全く歴史上の必然と偶然であったということを,明らかにします.そして「普遍語」,「国語」,「現地語」という概念を紹介し,かってのギリシャ語,ラテン語,フランス語,英語と変遷してきた「普遍語」は,もうこれ以上変化しない.インターネットの出現によって,未来永劫?英語が「普遍語」のままであり続けると主張します.そして今こそ近代日本文学を読み続けることができるように,国語教育の転換と充実を主張します.

前回のブログでお知らせしたように,一方で「RDF意味論」を和訳し,片や「普遍語」である英語で論文を書くことにいつも汲々としている身には,色々と感ずるとことが多い内容でした.グーグル・ブックサーチ・ライブラリー・プロジェクトやニューヨーク・タイムズに記載された「universal library」に見られる,英語圏の学者知識人の英語中心の無邪気さや鈍感さにも触れられています.「マリに住む学生,カザフスタンに住む科学者,ペルーに住む老人」がインターネット経由で読むものははたして何語なのかと.

このブログでもこれとかこれで,関連の内容をとりあげてきました.

インターネットの普及によって,萩原朔太郎の詩が分からなくなるようなことは,あってはならないことです.かっての「英語公用語論」はもう消滅したようですが,一方今東大をはじめとする大学では,もっと勝ち組となるべく,もっと英語による授業を増やしていこうとしています.実はNIIでも,学生に一人でも外国人がいたら授業は英語ということになっていて,ほとんどの授業は英語で行われています.この傾向はもう止められないでしょう.世界に伍していくためには.だからといって日本語や日本文学が弱く衰退していくようでは,とても悲しい.日本語の発展につながるようなインターネットであってほしいが,さてその方策は?

これからも考えて行きたいと思っています.

0

2008/11/29

RDF意味論を和訳しました  

RDF(Resource Description Framework)というのは,セマンティックウェブにおけるオントロジーを記述するのにRDFSやOWLのベースとなる,一番基本的な部分の仕様なのですが,RDFに関するW3Cの六つの文書 (入門, 概念, 統語論, 意味論, 語彙, テストケース) のうち,ある意味一番大事な文書と言っていいのにもかかわらず,これまでその日本語訳がありませんでした.

その理由は明白です.難しいから.

かく言う私も以前の会社でセマンティックWebに取り組みだしたとき,これを読むのに大変苦労しました.仕事しながら半年かけて読みましたが,それでも分からない.NIIに行こうと思ったのも,こういうことが分かるようになりたい,というのが大きな動機のひとつでした.それで入学してからしばらくたって,改めて読み直したら,今度はよく分かったのです.もちろん,細かいところでは至らないところもありますが,以前と比べて雲泥の差でよくわかる.それで,これを日本語訳したらと思い立ち,1年以上前にやりだしたのですが,まあ学業に忙しくて,訳までなかなか手が回らなくてずるずると来てしまっていたのです.

本当は私がしなくてもだれかがやればいいと思っていたのですが,なかなか出てこないし,ネットでは和訳がないという声が前から出ていたりして,遅ればせながらですが,和訳を完了させてNIIの私のホームページにアップしました.皆様には是非読んでいただいて,役立てていただきたいし,間違いも指摘してほしいと思います.

英語でも難しいのですが,日本語にしてもおそらく論理や意味論,内包とか外延などの考えにあまり親しくないひとにはやっぱり難しいだろうと思います.そこで,これを機会に

「RDF意味論」を読むために

と題してRDF意味論を読むための連載ブログをこのブログとは別に書くことにしました.不定期ですのでそのところはご容赦願うとして,乞うご期待,でお願いいたします.
0

2008/11/22

SUMOオントロジーとVampire  オントロジー

 1年以上前にKIFの推論系であるVampireとSigmaブラウザについて報告しましたが,Sigmaブラウザが更新されていることが分かりました.特に大きく変わったところはなさそうですが,更新のしかた,新規インストールのしかたをWindows版について以下に報告しておきます.なおTOMCATの知識はあるものとします.

【更新のかたへ】
 旧版をすべて削除しておいてください.リポジトリの書換えはありませんから,関連フォルダをすべて削除しておけばよい.sigmaというフォルダを検索してもいいかも.もしSIGMA_HOMEという環境変数が定義してあったら,削除しておいてください.

【新規インストールのかたへ】
 TOMCATとFirefoxを使います.あらかじめ,インストールしておいてください.TOMCATはポート8080を使います.すでにポート80で使っていらっしゃるかたは,ご自分でインストールしてください.結構苦労するかも・・・

1.旧版と同じくここからsigma-2-02をダウンロードします.
2.ダウンロードしたsigma-2-02.zipを解凍します.
3.解凍したsigma-2-02フォルダを推論システムを置いておきたい場所に移動させます.私の場合はCの直下としました.
4.CATALINA_HOMEは定義済み,SIGMA_HOMEは未定義のままとします.絶対確実にインストールするにはこれが一番安全なようです.
5.sigma-2-02フォルダの下のInstallSigma.batをダブルクリックで起動します.するとCATALINA_HOMEの直下にKBsフォルダがインストールされwebappsの下にwarファイルが置かれます.TOMCATが稼働中であれば,展開されてwebappsの下にsigmaフォルダができます.KBsフォルダの中にあるconfig.xmlを見れば,現状と合致した情報が書かれているはずです.
6.TOMCATを停止させ,sigma-2-02\doc\SigmaUserManual-2-02.pdfマニュアルにしたがって,TOMCATコンフィギュレーションを書換えます.すなわち,Javaシート上でInitial memory poolを500以上,Maximum memory poolを1000以上にします.
7.TOMCATを稼動させ,Firefoxでhttp://localhost:8080/sigma/KBs.jspにアクセスします.時間がかかって重そうだったらOKです.
8.Log in画面でUser name「admin」,Password「admin」としてログインします.
9.こんな画面がでれば,一応成功ですね.
クリックすると元のサイズで表示します

KBsの中にWordNetもインストールされています.

BrowsでSUMOのTermやWordNetのWordをブラウズしたり,GraphでTerm間の関係を見たりすることができます.DiagnosticとConsistentCheckはやらないほうが無難かと・・・.特にConsistentCheckは終わらない.

これの目玉はやはりAsk/Tellですね.第1階述語論理であるVampireを動かして,KIF表現のSUMOを使って推論することができます.KIFに興味があるかた,SUMOオントロジーに興味があるかたにはこのSigmaブラウザはお勧めです.

で,So What?
立派なオントロジーがあって,立派なFOLがあって,それで?
ということを動かしてからやっぱり思ってしまいますね.これだけで閉じられていて,機械システムから利用する方法がない.APIがない.連携のしくみがない.TOMCATはあってもそれはユーザインタフェースに使っているだけ.もう一つ,ConsistencyCheckが終わらなかったり,Diagnoseに時間がかかったり,やはり実用に使えるところまでいっていない.

というわけで,これはSemantic Webの成功には何が必要かということの反面教師のようですね.簡単に思いつくままに書けば

1.常にそこそこの時間で反応すること
2.人のためではなく,機械のための連携のしくみがあること
3.何十億,何百億というトリプルがハンドリングできること

特にこの3番目の要求は,世界中のRDFトリプルを互いに連携させようとするLinked Dataの考え方では非常に重要な点ですね.昔だったら「そんなこと無理に決まっている」と頭ごなしにやられたものが,今はGoogleがありますからね,もうみんなやればできることと思っている.資源とかお金は別にしてね.さあ,そこで誰が,どこがそれをやって成功するのだろうかとか,成功モデルは何か,ということです.たとえば,Googleは一私企業ですよね.それが今大いなる支配力をWebの世界で発揮している.では,将来世界中のRDFデータが連携されるとして,それは1企業が支配するものになるのだろうか,それとも複数の組織体がゆるやかに結びつくものなのか,それとも・・・?
0

2008/11/18

ubuntu その他  

 いいですね,ubuntu.

 家で家族用として使っていたFMV-DESKPOWER C8/150Lがあまりにも遅くなったので,新しくF/B70Tに換えたのですが,その直後 C8/150Lのハードディスクが壊れてしまって,しばらく放っておいたのを最近やっとハードディスクを入れ替えて,試しにubuntuを新しいディスクにインストールしたのです.

 難なくフォーマットとパーティションが切れて,スムーズにインストールできました.LAN設定まで含めて何にもしませんでしたよ.

 そこで今日はプリンタのインストールをやってみました.我が家ではこれまでBrotherのFAX複合機MyMio MFC410CNをLAN接続で結構重宝して使っているのですが,Linux用のドライバなんかないだろうと思ったらそれがちゃんとあるのですね.ただし,LPR用だけでなくCUPS Wrapper用ドライバもインストールするというところでちょっとつまずきましたが,ぐぐってこれとかこれを参考にCUPS Wrapper用ドライバもインストールして無事動きました.それでも,もう一つ,プリンタの変更というのが必要だったのですが,http://localhost:631/printers/でプリンタのページを開いたとき,ここに書いてあるLPD/LPRやPPDではなく,そこではメニューに見えていたBrother MFC-410CNを選んだのですが,それでも大丈夫でした.情報を与えてくださった皆さんやBrotherさんにも感謝.

 これで,Windows4台,MacPowerPC1台,ubuntu1台という環境になったわけで,JavaやEclipseなどで共通の開発環境をそろえようかとか,Semantic Web Serviceによる連携を進めようかとか,思っている次第です.
0

2008/10/25

CLOSにおけるinterface的プログラミング  プログラミング

 Luceneの開発者であるDoug Cuttingさんの論文はほとんどCLOSのプログラムなのですが,これを読んでいてCLOSではじめてJavaのinterface的なプログラム例を見ました.
(defclass tokenizer ( ) ...)
(defmethod next-token ((token-stream tokenizer)) ...)
(defclass normalizer ( ) ( ))
(defmethod next-token ((token-stream normalizer)) ...)
(defclass stop-llist ( ) ...)
(defmethod next-token ((token-stream stop-list)) ...)

最初このコードの意味が分からなかった.親のないクラスを定義してどうするんじゃ?!だってメソッドの起動順序がこれでは決まらない(と思ってしまった).
 CLOSの作法では,メソッドの起動順序はクラス優先リスト(あるクラスのすべての親クラスに定義してある親クラスをトポロジカルソートしたもの)で決まります.だから,
(defclass simple-analysis-pipeline (stop-list normalizer tokenizer) ( ))

とあったら,メソッド起動はstop-list, normalizer, tokenizerの順です.でもstop-listとnormalizerのnext-tokenの中ではすぐに(call-next-method)してますからね.実効的にはtokenizerでトークンの切り出しを行って,normalizerでそのトークンを大文字から小文字に変換して,stop-listでストップワードを捨てて,という仕事をしています.
 確かにメソッドの起動順序はそれを使う側で決めたいという場合には,これは有効かもしれないけれど,それでもプログラマーはstop-list, normalizerはすぐに(call-next-method)してるということを知らないと,ちゃんとしたコードは書けないですよね.たとえばstop-listには大文字の登録はないとか,stop-listはnormalizerの結果をもらわなくてはいけないとか知っていないと駄目だし・・・.ウーン,いまいちありがたみが薄いような気がしますが,Javaのinterfaceではこの辺どうなっているんでしょうか.つまり,interfaceの実装の情報は本当に何も知らなくてもインターフェースだけでプログラムできるのか.
 それにしても,Doug Cuttingさんは1990年ごろJavaの出現以前にこういうコードを書いていたんですよね.何かすごくないですか.Luceneのコードは厳密にではないけれど,概ね同じです.これはちょっと驚き.
0

2008/10/20

Montezuma, Common Lisp の Lucene エンジン  検索

 Luceneというのは有名な検索エンジン(Javaベース)ですが,MontezumaというのはLuceneのCommon Lisp版らしいです.LuceneはJava版から派生して色々な言語にポーティングされているのですが(.NET版が残念ながら商用),Ferretという名前のRuby版があって,それを John Wiseman さんが Common Lisp にポーティングしたもの.Montezuma のホームページに行くと,性能比較のグラフがあって,Luceneと変わらない性能です.
 いいですね.これまで会社では Lucene を使ったエンタープライズ・サーチプラットフォームの保守をしてきているのですが,Lisp使いの自分としては中身に手が出ず,フラストレーションがあったのです.Montezuma を使えばかゆいところに手が届くように,何でもできる(はず).Luceneの性能は実証済みですからね.これに日本語の形態素解析を組み込んで(もちろんCLベース),日本語の辞書を用意して(もちろんCLから使えるようにする),SWCLOSと結合して,オントロジーが理解できるようにして,(日本語のオントロジーも必要ですね).複合語の処理が色々とカギになりますよ.自然言語の意味解析はDMAPですね.
 なんて・・・やりたいことはいっぱいあって,材料はすべてあるのですが,これだけのことをするとなると,さて形ができてくるのはいつのことやら.
0

2008/9/25

10年目のグーグル,二つの週刊誌記事  ビジネス

 二つの経済誌が期せずしてGoogleを取り上げました.週刊東洋経済の「グーグル10年目の大変身」と週刊ダイアモンドの「儲かる会社のグーグル化大革命」です.ついつい2誌を買って読んでみました.前者は10年目を迎えて,現状のグーグルとこれからどうなっていくのかという内容で,こう言っては失礼ですが,経済誌にしてはしっかりとした充実した内容でした.米国グーグルのみならず欧州,中国,日本までキーパーソンへの取材と顔写真入り記事で,資料的価値も十分な内容です.結論的には広告のみに依存するビジネスモデルの脆弱性を指摘して(グーグル自身もそれはわかっていて),これからどうその脆弱性を克服できるかというような記事です.ヴィントン・サーフがグーグルの副社長をしているとは知らなかった.

 後者はGoogle Appsを中心に置いた記事で,SaaSとかクラウドコンピューティングなどは大企業よりも中小企業向けのツールであり,これをどう活用できるかが中小企業の生き残りのカギであるという内容です.前者に比べると記事の内容とボリュームには欠けますが,日本における現場的な現状を知るには参考になります.

 このブログでもグーグルの「無邪気な傲慢さ」や「期待値としては下り坂」という話を書いてきましたが,前者の記事では似たような話が出てきて,それが今や一般的な見方であるということが分かります.人工知能学会誌か何かで東大の松尾氏が今や米国の本当に優秀な若者はグーグルには行かないのにと,日本の現状を憂いていましたが,創業当時の多くの人たちが大企業になったグーグルをやめて自分たちで企業を立ち上げているということも,この記事で知ることができました.ウーン,やっぱりそうか,という感じですね.卓球やビリヤードに興じているグーグル従業員の写真を見ると,何とも複雑な気持ちにどうしてもなってしまいます.

 グーグルと名のつくあるいは大いに関係する本を書棚から抜いて見たら,何と8冊もありました.いつの間にこんなに・・・.その8冊は以下のとおりです.
・ザ・サーチ グーグルが世界を変えた ジョン・バッテル 日経BP
・Google誕生 デビッド・ヴァイス イースト・プレス
・検索エンジン戦争 ジェフ・ルート アスペクト
・グーグル革命の衝撃 NHK取材班 NHK出版
・グーグルとの闘い ジャン・ノエル・ジャンヌネー 岩波書店
・Googleを支える技術 西田圭介 技術評論社
・グーグル・アマゾン化する社会 森健 光文社新書
・グーグルとウィイキペディアとYouTubeに未来はあるのか アンドリュー・キーン サンガ

 たった10年でここまで来たというのは,やはりすごいですね.最近になってますますGoogleのパワーの源はその圧倒的なコンピューティングパワーとその実現技術にあることをひしひしと感じています.Gメールは8GBが無料だとは知らなかった(1GBと思っていた).Google Appsも含めて,もう少しグーグルを調べる必要がありますね.会社ではセキュリティの問題からデスクトップ検索やGoogle Analyticsの使用に反対していますが,個人用には問題ないですからね.このあたりの問題についてはまた機会を見て報告したいと思います.
0

2008/8/23

気になるエンタープライズ2.0  ビジネス

 以前から「エンタープライズ2.0」というキーワードが気になっていて,一度きちんと勉強したいと思っていたのですが,たまたま神保町の明倫館書店で吉田健一氏の「エンタープライズ2.0」というタイトルの本を見つけて,さっそく購入して見ました.丁度1年前の出版だったらしいのですが,これが今の私にはとってもぴったりの本でした.

 会社ではエンタープライズサーチシステムの面倒を見ていて,国立情報学研究所ではセマンティックWebの研究をしている私ですが,Web2.0的技術は企業にも役立つはずで,でもそのままではロングテールのモデルとエンタープライズの性格の違いからうまくいかないはずでもあり,ではどうしたらよいのか,というのが問題意識だったのですが,この本はそんなところをしっかりと押さえたうえで,Web2.0がどう企業に役立つのかが書かれています.いやー,吉田さんという方はたいしたものだなと思いつつ,ググッて見ると,ITProにも連載されている方なのですね.でも私から見ても,技術的な面での記述も私の感覚に合致して納得いくもので,ジャーナリスト出身の方よりもコンサルティングで苦労されていらっしゃるのか,目の確からしさを感じました.

 最近,SaaSとかクラウドコンピューティングとか,Webサービスがらみのバズワードがうるさいのですが,昨年ぐらいからサービスを提供するという話が盛り上がってきているのですね.パブリックなWeb2.0の次はエンタープライズ2.0というのが一つの流れとして立ち上がってきていて,この分野のITベンダーとしてはセールスフォースが有名なのですが,GoogleもMicrosoftもIBMもオラクルもエンタープライズ2.0に力を入れてきているらしい.これがどのように広がっていくのか興味深々です.日本企業としては富士通にも頑張ってもらいたいところですが,どうなんでしょうか.

 Webサービスの技術的潜在力については,前のプロジェクトを遂行中に認識させられたところで,インターネットの普及とWebサービスの潜在力から,将来は必ずエンタープライズ2.0やSaaSが普及すると個人的には確信しているのですが,日本での普及を考えると,やはり日本語の問題と日本の会社の風土が問題となるのではと誰でもが思うことです.少し話がずれますが,同じ問題意識でビジネスSNSであるLinkedInがはたして日本でも成功するのかどうか,とても興味が持てますね.

 昨年度のガートナーのハイプ・サイクルではWebプラットフォームがあったのですが,これが本年度では消えてクラウドコンピューティングに変わりましたね.主流の採用までの時間がWeb2.0では2年未満だったのが変わらず,セマンティックWebは10年以上だったのが,何と消えてしまいました.まあエンタープライズ2.0の普及の次にそのセマンティック化が必要になると私も考えていますから,そうなのかも知れません.でも10年以上もたったら,私はいないかも・・・
0

2008/8/12

情報大航海追加情報  検索

情報大航海プロジェクトに関する追加情報です.まず最初にH20年度予算は41.1億円ですね.昨年度が45.7億円でしたから,約9割でまずまずのように思えますが,以下のようなトリックがあります.

 昨年同様にH20年度も第1次公募(6/17〆)と第2次公募(8/19〆)がありました.第1次公募の内容は実質的に昨年度の延長上ですが,第2次公募の内容には共通技術の改良または新たな共通技術の開発として,昨年度には出ていなかった新しい技術課題がかかげられています.それは (i) e空間分野と (ii) ユニークID分野です.これがどこから来たのかが気になるところで,調べてみると,e空間分野については平成20年度6月11日付け「IT政策ロードマップ」(IT戦略本部)の資料の中に,既存産業の変革・新事業領域の創出,世界最高水準の情報通信基盤の戦略的活用に向けた重点施策の策定・推進として「ITを活用した新たな商業空間(e空間)の創出」というのが挙げられています.一方,ユニークIDという言葉ははっきりとは出てきていませんが,「電子タグの高度利活用及び普及に向けた環境の整備」とか「セキュリティレベルに配慮しつつ利便性の高いID・パスワード方式の普及拡大」などが関係するのでしょうか.

 つまり,情報大航海といいつつも,第2次公募の内容は新しい要素が入ってきていて,その分予算も増えればよいのですが,そういうことはなく,昨年度の情報大航海の分が割りを食ったということなのです.まあ,大きな目で見れば,それほど責められることではないようにも思えますが,プロジェクトの担当者にとっては大問題なわけです.第1次に落ちたからと言って第2次に出してもほとんど駄目ですよね.第2次の目的はユニークIDとe空間分野にあるわけですから.ミューチップか何かに関係したものに有利な内容ですね.きっとミューチップ企業と流通関係企業による実証実験みたいなものが通ることになるでしょう.

 ちなみに,第1次の結果では,昨年度と同じ企業はNTTドコモ,沖電気,JALで,新しく角川マーケティング,キューデンインフォコムが通っています.そして,昨年度のNTTデータ,データクラフト,チームラボ,モバイルジャッジ,国際医学情報センター,ブログウォッチャー,東急電鉄が落ちたという結果ですね.懸命に開発をしてきて,落とされた企業には本当に同情しますが,こういうやり方は得てして国のプロジェクトでありがちなことですね.残念なことですが.官僚は本当に体裁だけは作りますが,結果についてはあまり考えてはいないということでしょうか.ものはいいようで,彼らに言わせれば,新しい状況と必要性にあわせて改善したということですね.

 ところで,昨年度では日立コンサルティングが全面的に前面に出て,統括していましたが,今年は見えないですね.影にはいるのでしょうか.それとも完全に干されたのでしょうか.確かに国のプロジェクトなのに,一民間企業が仕切るというのはあまりよろしくないとは思っていましたが.何せ納品の種類とかも日立コンサルティングから指定されて,納入先も日立コンサルティングというのは異常なことでした.
0



teacup.ブログ “AutoPage”
AutoPage最新お知らせ