日本語学とインターネットの使い方 岡島昭浩2005年10月22日 23:07

日本語学とインターネットの使い方 岡島昭浩


 「日本語学とインターネットの使い方」ということであるが、インターネットによって見ることが出来るサイトはますます多くなり、またブロードバンド時代と言われるように短い時間で大量の情報を取得できるようになったことで、音声や画像のデータも多量に存在するようになった。
 このテーマの指す範囲は、「日本語学と図書館の使い方」というテーマの範囲以上に、広そうに思える。インターネットというのは、図書館のように集書方針があるわけでもなく、個々の人々が中身を増やして行けるものである。インターネットはレファレンス係のいない図書館でもあり、誰かが勝手にレファレンス(部分的だが)をやっていることもある図書館でもある。この文章でも、全体を見渡すことは不可能だが、少しだけでも見て行こう。
 言語学関連のwebページについては、
     国内言語学関連研究機関WWWページリスト
     http://www.sal.tohoku.ac.jp/~gothit/kanren.html
があり、これを見ていただければ、特に付け加えることはない、と言ってよい。とはいえ、そのリストは膨大なものでもあるし、それで済ますわけには行くまい。
 なお、私は歴史的なことに関心が強く、なかでも、語彙史、言語生活史、学史に関心が強い。そのような私が、日頃送っているネット生活の一部を書くことにならざるを得ない。

   ○
 さて、日本語研究でインターネットを用いると言えば、まず思いつくのが、サーチエンジンであろう。
     google(グーグル)
     http://www.google.co.jp/
がよく使われていて、googleを使ってネット上の情報を収集して調べることが、「ググる」という動詞にされているほどである(「ググってみた」など)。
 あまり目にしない語の用法を調べるときには、このようなサーチエンジンは便利であるが、多くの用例を集めてそれを数えようとしたりするときには気をつけなければならない。多種多様の人々によって書かれているはずのwebページが、時として、少数の人の手によるものが、数多く書かれてしまうことがあるからである。たとえば、宣伝目的で、あちらこちらの掲示板に同内容のメッセージを貼り付けて行き、その結果、ある語の特異な用法がサーチエンジンで山のようにヒットすることになる、というものがある。
 googleのような、webページ全体を対照とするサーチエンジンだけでなく、ある特定のページを検索するサーチエンジンもある。例えば、
      青空文庫
      http://www.aozora.gr.jp/
に収録されている作品内を検索してくれる
      青空鯰
      http://palm.nishinari.or.jp/namazu.cgi
がある。青空文庫の収録作品は、著作権の切れたもの、即ち著者の死後五〇年を経過したものなので、古めの言葉を検索したい場合には、このサーチエンジンが役に立つ。googleなどでも、青空文庫にあるものに限定して検索することも出来るのだが(サイト指定)、この青空鯰では、正規表現を用いた検索などさまざまな検索が出来るのが、この青空鯰の便利なところである。
 なお、namazuというのは日本語全文検索システムで、webページでの検索に使えるほかに、ローカルで使う(手許のハードディスクなどにあるデータを検索する)ことも出来て、grepなどよりも高速で検索することが出来る。あらかじめインデックスファイルを作っておくことが必要であるなど、grepの手軽さにはかなわないが、膨れ上がったデータを検索するのに重宝である。データ量が大きければ大きいほど、早さが実感されるであろう。
       http://www.namazu.org/
で配布されていて、インストールの方法などを書いてあるページにもリンクしている。
 ローカルで使うことの出来るテキストデータを手に入れることが出来るのもインターネットの魅力である。ボランティアによる入力で著作権の切れた作品を無料公開している青空文庫(前掲)は着実に登録作品数を伸ばしており、現在は四五〇〇点弱というところである。まとめてダウンロードできるようにした、
       青空文庫アーカイブ
       http://text.cool.ne.jp/
もある。他にも、テキストデータを配布しているところは、有料・無料、玉石さまざまであるが、ここでは示さない。欲しい作品名を、サーチエンジンで検索してみると見つかることも多いであろうし、その手のリンク集もあちらこちらにある。なお、有料の電子データは、さまざまなフォーマットが出てきて、テキストデータそのものやテキストデータに変換しやすいものは少なくなってきた。また、コーパスと銘打ったものでは、
       韓日並列corpus検索
       http://www.trankj.pe.kr/
などがある。
 漢籍などの電子情報については、
       漢字文献情報処理研究会
       http://www.jaet.gr.jp/
から探して行くとよいであろう。日本における古典の電子化よりも進んでいると感じられる。日本の古典といえば、
       国文学研究資料館
       http://www.nijl.ac.jp/
では、岩波書店旧版『日本古典文学大系』による日本古典文学本文データベースの試験公開(要利用者登録)が継続されていて、今後も継続ないしは正式公開、拡張を望む。『国書総目録』(岩波書店)の所在情報を除いた、著作に関する全項目が収録されている「国書基本データベース」は一般公開となり、著者や作品名で引けるほか、たとえば、分類で「文法」「音韻」「国語」「辞書」などと入れると、その分類に属する書目が列挙され、書籍版では引くことの出来なかった検索が可能になっている。
 論文検索には、国立国語研究所の、一九五四年から一九九〇年までの「国語学研究文献総索引データ」をもとにした検索、
      http://www.kokken.go.jp/public/bunken/bunken1.html
の他、国文学研究資料館の、
      国文学論文目録データベース
      http://www.nijl.ac.jp/bunseki/
と、国立国会図書館NDL-OPAC
      http://opac.ndl.go.jp/
の論文検索を併用すれば、見逃すものが少なくなるであろう。国文学研究資料館のものは、大正時代など古い論文もあるのがありがたいが、戦前の雑誌(特に国文学系の論文がなく語学系のみのもの)などは、まだデータに入っていないものも多いようである。また、
      日本語学会
      http://www.jpling.gr.jp/
の「機関誌『国語学』「展望」記事データベース」「機関誌『国語学』全文データベース」は、とても使い甲斐のあるデータベースである。参考文献を探すのに使えるのはもちろんだが、特に後者は術語の使い方を比較するのにも使えるし、他にもさまざまな使い方が出来そうである。
 ネット上で辞書が引けるところは、サーチエンジンと併設しているところなど多くあるが、これも「オンライン辞書」などのキーワードで検索すれば多く見つかるであろう。ここでは、辞書そのものではないが、
      日国NET
      http://www.nikkoku.net/
について記す。ここでは、『日本国語大辞典 第2版』で用例が載せられなかった語の用例や、載せられたものよりも古い用例などが報告されている。集められた用例が多くなった(一五〇〇〇件を越えた)ため、現状のインターフェースでは、辞書として引くには、目指す語にたどり着くのが面倒なのが難点である。たとえば、「し」で始まる語が一五〇〇件を越えているのだが、二〇件ずつページをめくって行くしかなく、「しん……」にたどりつくのは大変である。ページをめくったところで示されるURL(に含まれる数字)を見れば、少しずつページをめくらなくてもよい方法を思いつく人もいるであろうが、改善されることを望みたい。

  ○
 初めに書いたように、インターネットはブロードバンドの時代に入っているが、ブロードバンドは学術的なデータの流通にも役立っている。たとえば、国会図書館の、
       近代デジタルライブラリ
       http://kindai.ndl.go.jp/
などは、大変有益なものである。これは、国立国会図書館所蔵の明治期刊行図書のうち、著作権が切れたものを中心に、画像データで公開しているものである。二〇〇五年二月二〇日現在、「約五五〇〇〇冊を収録」とうたっていて、その内訳は、

0.総記 (414件)
1.哲学 (5345件)
2.歴史.地誌 (3971件)
3.社会科学 (9852件)
4.自然科学 (2568件)
5.工学.工業 (1145件)
6.産業 (3140件)
7.芸術.体育 (2048件)
8.語学 (1861件)
9.文学 (5122件)
     計 35466件

となっている。これは冊数ではなく点数なのでこの数字なのだが、これはかなりの量である。このうち、語学のところを見てみると、

80.言語学 (51件)
81.日本語 (1080件)
82.中国語.東洋語 (81件)
83.英語 (570件)
84.ドイツ語 (38件)
85.フランス語 (21件)
86.南欧諸語.エスペラント語 (7件)
88.ロシア語 (12件)
89.その他諸国語 (1件)

となっており、「日本語」は、

810.日本語 (76件)
811.音韻.文字 (160件)
813.語彙.辞書 (193件)
815.文法 (202件)
816.作文 (223件)
816.6.書簡文 (108件)
816.7.儀式文.式辞 (12件)
817.読本.解釈.会話 (91件)
818.方言 (15件)

という状況である。この中から、「語彙・辞書」を見ると、『言海』『漢英対照いろは辞典』『ことばのはやし』『ことばのその』『ことばの泉』『日本大辞林』などが並び、さらに著作権は残っているものの「著作権者許諾」という金沢庄三郎の『辞林』もある。『俚言集覧』『和訓栞』といった、江戸期辞書の明治刊本をみることも出来、たとえば『和訓栞』は、流布している前編・中篇の再編増補本だけでなく、成美堂刊の前中後篇の再編本をも見ることが出来る。文法のところを見ても、多くの書を見ることが出来るし、英語の辞書のところには、『和英語林集成』もあり、しかも複製本も高値である第2版を見ることが出来るのもありがたい。右記のようなものは、よく知られた本であるが、他にもあまり知られていないのではないかと思われる本もたくさん公開されている。書物による複製ではコストが掛かりすぎるものが、ネット上ではこのように公開できるのである。国会図書館に出かけて閲覧するのには時間の制約等もあるが、自宅でゆっくりと見ることが出来るというのは以前からすれば、考えられなかったことであり、大変ありがたい。国会図書館にあるのが善本であるとは限らないし、同種の本が多数収録されていても、それが全体のごく一部でしかないことを忘れてはならないが、一部でも手軽に見られることで、全体的な調査への手がかりをつかみやすいものとなっている。
 「語学」以外では、「総記」のところに『古事類苑』が全巻入っているなど、途方もない量であると感じるが、これでも、著者の没年が不明で著作権の有無が確認できないため公開できていない資料も多い。没年を調べたり、著作権継承者を捜したり、文化庁の裁定を仰いだりなどして、公開できる作品を増やそうとしているが、江戸時代以前に遡ってくれないか、とも思ったりする。明治期のものにくらべて需要は少ないだろうが、いつか実現することを期待する。明治期のものと言っても、江戸時代の刊で明治に摺られたものも入っているようなので、そのような板本類が、また、さらには写本類が多く公開されることを望むものである。
 国会図書館以外で、そのような試みをしているところもあって、江戸時代以前のものを出しているところもあるが、ここでは、少し毛色の違ったものを紹介しよう。大阪府立大学の、
       長尾文庫
       http://www.sw.osakafu-u.ac.jp/~swlib/nagao.html
は、大正末期から昭和初期ごろの、社会運動・労働運動関係の資料を集めたものだが、手書きやガリ版刷りの一枚物が多く、語学的な関心で言えば略字等が興味深いものである。他に、
       国立情報学研究所
       http://www.nii.ac.jp/
では、研究紀要等が閲覧できるし、登録すれば、有料にはなるが学会誌なども閲覧出来るサービスが受けられる。また私も、微力ながら、日本語学の著書・論文や辞書などで著作権の切れたものを公開しようとしている。
       http://www.let.osaka-u.ac.jp/~okajima/ronbun.htm
 画像の他には音声もブロードバンドによって増えたが、例えば、
        琉球方言音声データベース
        http://ryukyu-lang.lib.u-ryukyu.ac.jp/
などがある。

  ○
 早いもので、私がwebページを作ってから足かけ十年になる。プロバイダにおいてある方は、増設はしたものの、古いURLからもアクセス出来るようになっているが、以前いた大学で開いていたページのURLは、いま繋ごうとしても接続先が見つからない(DNSエラー)、という状況になっている。私のページに限らず、どこかのページからリンクされていたり、書物などで紹介されているにも関わらず、そのページに繋がらない、ということは往々にしてある。別のプロバイダなどに移動している場合もあるので、ページの名前や作者の名前などをサーチエンジンで検索してみると、新しいページが見つかることがある。しかし、新しいページを作ることなく、消えてしまったコンテンツもある。しかし、そこで諦めずに、
        waybackmachine
        http://www.archive.org/
を使って過去のページを探してみるとよい。ここは、インターネットの保存庫とでもいうようなもので、消えてしまったページを見たり、現在あるページでもその古い状態を見たりすることが出来るものである。一九九六年七月から収集しているようだが、試しに、私の前任校時代のURLを入力してみると、一九九六年一二月から二〇〇二年八月までの状態を見ることが出来る。
 保存されていないページもあるし、保存されていたものでも要望によって削除されるページもあるが、情報が消えてしまった、と諦める前に試すべきサイトである。

 ○
 最近のインターネットでは、ブログ(blog)でページを作ることが流行っている。blogというのはweblogから作られた言葉であるということである。web日記であるとか、掲示板であるとか、そうしたものとさして変わりのないもののように思っていたが、トラックバックという仕組みは大変面白く、使いようによっては面白いものになると思っている。トラックバックというのは、いわばリンクの逆のようなもので、こちらのページに相手ページのURLを記すのがリンクであるのに対して、相手のページにこちらのページのURLを記してしまおうというのがトラックバックである。掲示板であれば、相手の土俵に出かけていったり、相手がこちらの土俵にやってきたりして対話するわけだが、トラックバックを利用したblogの場合には、それぞれの場所にいて文章を書く。従来の掲示板(BBS)に比べて、じっくりと文章を書いている人が多いようである。そして、誰かのblogの文章を引用したり、触発された文章を自分のblogに書いたりした場合、リンクを張るだけでなく、トラックバックを送る。そうすることによって、引用された方でも、引用したblogの存在を知ることになるのである。
 たとえば論文を書いた場合に、引用したり言及したりした人へは、その論文の抜刷などを送るという礼儀があるが、きちんと送るのはなかなか面倒なことで、失礼してしまうこともよくある。blogの場合には、トラックバックを送る(打つ)ことで言及を知らせることになり、手間としては楽である。宣伝のために無関係なトラックバックを送る行為をする人もおり、見知らぬ人にはトラックバックを送る際には、そうした悪質なトラックバックと誤認されないようにせねばならないが、これがうまく機能してくると、リンクによるハイパーテキストが、より便利になるものと思われる。
 たとえば、青空文庫では、個々の作品に付されている「作品カード」をトラックバック対応にする構想があるようである(http://www.siesta.co.jp/aozora/archives/001505.html)。そうなると、誰かがどこかのblogで、その作品に関する文章を書いたり資料を作った際に、作品カードへトラックバックを送れるようになり、それが集積されると、その作品カードがその作品への言及リンク集になる。同様に、国語資料や国語学論文などが、資料ごと論文ごとにカードがあって、それらが互いに参照できたら、さぞ便利であろうと思う。国立情報学研究所の、
      論文情報ナビゲータ
      http://ci.nii.ac.jp/
で、引用情報の整理も行っているが、これが古いところまで広がってくれたら、と願う気持ちに通じる。
 トラックバックは、他の人との関連づけだけでなく、自分自身の覚え書きにも使える仕組みである。たとえばAという資料が出てきて、これは、Bという資料、Cという資料とも関連する、という場合、資料Aに「資料B・資料C参照」と書くほかに、資料Bと資料Cに「資料A参照」と書いておく必要があり、これは面倒なことであるが、トラックバックを使えば、資料Bと資料Cをわざわざ開かなくても書き込めるわけである(資料のありかを指定する必要はあるが)。このようにトラックバックを使ったblogは、連関するカードシステムとして使えるものである。トラックバック対応ページにリンクを張れば自動的にトラックバックする、という仕組みを持っているblogもあり、これはリンクとトラックバックの二度手間がない分、ページ作りが楽である。私は、blogで
      「日本語史資料の連関」
      http://blog.goo.ne.jp/kokugogaku/
を始めたが、これは以前からやりたかったことが、トラックバックというシステムを知ったことにより、始める気になったというところである。


一言語学徒のページ
http://ling.exblog.jp/

  ○
 さて、いくらインターネットのコンテンツが増えたからといって、長い間蓄積されてきた書籍の情報には到底かなうものではない。それは当然のことであるが、インターネットは書籍に関する情報を得やすい場所でもある。前掲の国会図書館NDL-OPACでは、明治以降の書物はもちろん、「和古書・漢籍」も(全点が入力されているわけではないようだが)検索できる。また、
      国立公文書館
      (http://www.archives.go.jp/
では、内閣文庫の検索が可能である。
      webcat(http://webcat.nii.ac.jp/
      webcatplus(http://webcatplus.nii.ac.jp/
の存在もありがたい。大学図書館の蔵書が中心であるが、全体を蔵書検索できるので便利であるし、一タイトルごとに固定リンクとなっているのが嬉しい。たとえば、本誌は、http://webcat.nii.ac.jp/cgi-bin/shsproc?id=AN00007073 で表示できる。公立図書館を横断検索できるのは、
      図書館と本の情報サイト
      (http://www.jcross.com/
にある。また、私がよく利用するのは、
      大阪府Web-OPAC横断検索
      (http://www.library.pref.osaka.jp/cgi-bin/book.cgi
であるが、これは大阪府立図書館と府内の市立図書館などを一度に検索出来るものであり、同様のものに、
      東京都の図書館横断検索
       (http://metro.tokyo.opac.jp/
がある。他地域でも同様のものがあり、前掲「図書館と本の情報サイト」のリンク集などで探せるであろう。

 「図書館と本の情報サイト」には、「古本屋横断検索」もある。ネット上の古本屋の存在も、特に地方在住の人間にとっては、書物に対する心構えを大きく換えたもののように思える。ある本が必要になり、それが手許にない場合、そして新刊本では手に入らない場合、従来であれば、品揃えのよい古書店の目録などによって購入するのがもっとも手早い方法であったかと思われるが、品揃えのよい古書店は当然相応の値段を付けており、後日、別の古書店で安く売られているのを見て悲しくなるのであった。それが今では、必要な本が出てくると、まずネット上の古本屋で検索する。その中から安いものを選んで買うことが出来るのであるから、これは大変ありがたい。また、どうしても欲しい本を、どこかの古書店に頼んでおく、というようなことは、私には勇気がなくて出来なかったのだが、ネット上の古書店には、そういうシステムを持っているところがあり、現実の古書店に依頼するよりも、やや敷居が低い感がある。横断検索などをしてみても見つからない場合に依頼すると、すぐに、目録に載せていない在庫を示してくれることがある。また、キーワードを登録しておいて、それを含む書籍が出た場合にメールで知らせてくるシステムもあり、これは気長に探す書籍の場合に向いている。
      本の栞
      (http://www.crypto.ne.jp/shiori/
などから、さまざまなネット上の古書店へ行くことが出来るので試してみられるとよい。
 言語学書や洋学資料、翻訳されたものの原本を購入するのに、外国の古書店を使うこともある。国内の古書店で買うよりも在庫が多いし、送料を考えても安い場合も多い。中野善夫氏による、
      世界の書店
      (http://nakano.no-ip.org/lege/Links-w.html
に情報がある。

   ○
 さて、いしかわまりこ他『リーガル・リサーチ』(日本評論社 二〇〇三年)は、法律について調べるためのガイドブックで、ネットと書籍の両方に目配りをしたものであるが、日本語学関係でもこのような本(webページも)が出来ないものかと思う。
 「教えて!goo」(http://oshiete.goo.ne.jp/)や、「はてな」(http://www.hatena.ne.jp/)といった質問サイト、また有志で作る百科事典「Wikipedia」(http://ja.wikipedia.org/)に、日本語関係の記述が載ることも多いが、いい加減な記述のものも見られ、不安を感じることがある。
 web上の情報は怪しげなものが多い、と言われるが、新聞・雑誌・テレビなどの情報にもいい加減なものは多い。メディア・リテラシーというが、媒体がなんであれ、大量の情報の中から信頼に足る情報を見つけだして行く力を養成することが、ますます重要な教育上の課題となってゆくだろう。
 とはいえ、web上に日本語そのものや日本語学についてのちゃんとした情報が蓄積されていかないといけない。マスコミ関係の人々もネット上で材料収集することが多い現在であるし、今後もその傾向は強まるであろう。質問サイトでの質問にいちいち答えてゆく必要はないが、質問に答える人が情報を探したときに、ちゃんとした情報に行き着けるような環境作りが必要だと思っている。また日本語学の重要性を伝えて行くこともネット上で行えるだろう。
 「日本語学とインターネット」というと、インターネットを使った日本語研究、ということがまず思い浮かぶであろうが、インターネットを使って日本語研究を広げて行く、という要素もある、ということを書いて、この稿を閉じたい。


(日本語学 2005年4月号)

コメント

_ 伊藤祥司(いとうしょうじ(べんぞう)) ― 2006年10月24日 00:57

ブログと関係なくて恐縮ですが、
貴頁
http://www.let.osaka-u.ac.jp/~okajima/ingaku/jion.htm
の末尾にリンクをつけて頂いたままサイトを喪失して
十年前後たちました。最近復活のURLは、
http://www.geocities.jp/benzo15824/
です。
増えたコンテントはダウンロードページくらゐで、
旧態依然たるものですが、宜しければ御高批下さい。
また、
jion.htm のリンクを上記にリエディットして頂けると
とても嬉しいです。どうか宜しくお願いします。
改めてブログを今拜見して大変有益に思い、
リストアップ内容を、後ほどリンクに
加えさせて頂きたく思いました。

草々。

コメントをどうぞ

※メールアドレスとURLの入力は必須ではありません。 入力されたメールアドレスは記事に反映されず、ブログの管理者のみが参照できます。

※なお、送られたコメントはブログの管理者が確認するまで公開されません。

名前:
メールアドレス:
URL:
コメント:

トラックバック

このエントリのトラックバックURL: http://kokugogaku.asablo.jp/blog/2005/10/22/116778/tb

※なお、送られたトラックバックはブログの管理者が確認するまで公開されません。

_ 日本語の用例あつめ - 2005年10月25日 19:59

日国友の会・リスト