[掲示板へもどる]
一括表示

  [No.444] 外部変数ファイルの利用 投稿者:kina  投稿日:2009/08/02(Sun) 18:41:44

新聞記事の分析を試みております。よろしくお願い致します。

データ全体を対象とした抽出語の様子が少し分かってきたので、次に、年ごとの頻出語の変化を追ってみたいと思います。

この際、外部変数ファイルにとっている記事の年・月日のデータを使おうとしました。しかし、読み込みが記事ごとであるせいか、年ごとにまとめるのはうまくいきません。

初歩的なことで恐縮ですが、良いやり方がありましたらご教示くださいませ。


  [No.445] Re: 外部変数ファイルの利用 投稿者:HIGUCHI Koichi  投稿日:2009/08/02(Sun) 19:16:53

こんにちは、樋口です。書き込みありがとうございます。

読み込みが記事ごとであっても問題はございません。例えば、
「1999」「2000」のような年号が値として入力されている変数を
読み込んでいただければ大丈夫です。そうした変数があれば、
「こころ」のチュートリアルで上・中・下の特徴を見たのとほぼ
同じ方法で、それぞれの年ごとの特徴を見ることができます。

仮にその外部変数の名前が「掲載年」であれば、「関連語探索」
では「<>掲載年-->2000」と入力して検索することで、2000年の
記事の特徴を見ることができます。対応分析では、「抽出語x
外部変数」を選び、さらに変数として「掲載年」を選べばOKの
はずです。


上記のような変数を準備することが難しい、または労力がかか
る場合には、外部変数を使わない方法も考えられます。「ここ
ろ」のデータ同様に、データ中に見出しを入れていただくのも
一手です。

「こころ」では、
> <h1>上_先生と私</h1>
> <h1>中_両親と私</h1>
> <h1>下_先生と遺書</h1>
というような見出しを入れることで、データを3つの部分に区
切り、それぞれの部分の特徴を見ていました。それと同様に、
> <h1>1999</h1>
> <h1>2000</h1>
といった見出しをいれていただければ、その部分ごとの特徴
を見ることができます。必ずしも1年ごとである必要はあり
ませんので、「1990-1999」といった見出しもあり得ます。


以上、どのように上手く行っていないのかが分かりませんで
したので、的外れな回答になっていた場合はご容赦下さい。

どうぞよろしくお願いいたします。


  [No.446] Re: 外部変数ファイルの利用 投稿者:kina  投稿日:2009/08/02(Sun) 22:43:20

早速のお返事をありがとうございました。

> 「1999」「2000」のような年号が値として入力されている変数を
> 読み込んでいただければ大丈夫です。

年号の数字をデータ内容とする外部変数ファイルを、kh coderに読み込んでおります。せっかくなので、それを利用してみたいのですが、



お伺い:(1)
> 「関連語探索」
> では「<>掲載年-->2000」と入力して検索することで、2000年の
> 記事の特徴を見ることができます。

この「<>掲載年-->2000」と入力する場所は、直接入力:andなどのボタンの右の空欄では集計されないようですが、別の場所でしょうか。

お伺い:(2)
対応分析では、「抽出語x
> 外部変数」を選び、さらに変数として「掲載年」を選べばOKの
> はずです。

これを実行したところ、記事別にデータが扱われたのか図が真っ赤になって読めませんでした。

上記2つの質問が出るのは、どうも外部変数ファイルが適切でないことが原因のように思われます。その外部変数ファイルの中身は、記事ごとの掲載年月日・面名などを次のように収録しています。


1985,09月13日,夕刊 2外 005
1986,05月17日,朝刊 1総 001

問題箇所をご指摘いただければ幸いです。

−−−−−−−−−−−
これ以下は長くなるので、別の質問として投稿いたしましょうか。
まずは、続けて書かせていただきました。
−−−−−−−−−−−


あるいは、
> 外部変数を使わない方法も考えられます。「ここ
> ろ」のデータ同様に、データ中に見出しを入れていただくのも
> 一手です。

お伺い:(3)
この場合は、元のデータを分析対象ファイルへと整理する途中の、年号の入った状態で<h1>1999</h1>や「1990-1999」といった見出しを入れて、再度、分析対象になるファイルを作る必要があると思うのですが、そうでしょうか。

お伺い:(4)
仮にこのように分析対象ファイルを作り直した場合、そのファイルを読み込むのだから、新規のプロジェクトになる(する)ということでしょうか。それとも、同じファイル名でさえあれば、プロジェクトを開く時に自動的に新しいファイル内容が反映されるものなのでしょうか。

お伺い:(5)
なお、現時点での分析対象ファイルには既に年号の情報がない(外部変数ファイルに移動している)ため、年号の見出しをつけることは難しいようですが、いかがでしょうか。

基本のところだと思いますが、何卒よろしくお願い致します。


  [No.447] Re: 外部変数ファイルの利用 投稿者:HIGUCHI Koichi  投稿日:2009/08/02(Sun) 23:02:05

Re: 外部変数ファイルの利用 (画像サイズ: 516×306 13kB)

こんにちは、樋口です。書き込みありがとうございます。

> > 「1999」「2000」のような年号が値として入力されている変数を
> > 読み込んでいただければ大丈夫です。
>
> 年号の数字をデータ内容とする外部変数ファイルを、kh coderに
> 読み込んでおります。せっかくなので、それを利用してみたいの
> ですが、

年号の数字がファイルに含まれているというだけでは不十分でして、
年号だけが、1つの変数になっている必要があります。

> お伺い:(1)
> > 「関連語探索」
> > では「<>掲載年-->2000」と入力して検索することで、2000年の
> > 記事の特徴を見ることができます。
>
> この「<>掲載年-->2000」と入力する場所は、直接入力:andなど
> のボタンの右の空欄では集計されないようですが、別の場所で
> しょうか。

いえ、その部分に入力すれば集計されるはずです。あと、実際には
「掲載年」ではなくて、お手元の外部変数の名前(年?)をお使い
下さい。

> お伺い:(2)
> 対応分析では、「抽出語x
> > 外部変数」を選び、さらに変数として「掲載年」を選べばOKの
> > はずです。
>
> これを実行したところ、記事別にデータが扱われたのか図が真っ赤
> になって読めませんでした。

おそらく、年号だけでなく、余分なものまで変数の値に入ってし
まっていることが考えられます。

メニューの「ツール」「外部変数」「変数リスト・値ラベル」で、
年号の入った変数をダブルクリックしてみて下さい。「1999」の
ような年号だけが入っていればそれでよいのですが、「1986,05月…」
のように余分なものが付いていれば、外部変数の読み込みをやり
直す必要があります。(添付画像のようになっていれば「正解」
です)

> 上記2つの質問が出るのは、どうも外部変数ファイルが適切で
> ないことが原因のように思われます。その外部変数ファイルの
> 中身は、記事ごとの掲載年月日・面名などを次のように収録し
> ています。
>
> 年
> 1985,09月13日,夕刊 2外 005
> 1986,05月17日,朝刊 1総 001

ファイルの一番上の行は、正確に示していただいていますで
しょうか? 現状では「年」だけですが、「年,月日,紙面」
のようにしていただく必要があります。さらに、「タブ区切
り」ではなく、「CSVファイル」として読み込んでいただか
なくてはなりません。

以上、お試しいただけましたら幸いです。


  [No.448] Re: 見出しの付け方について 投稿者:HIGUCHI Koichi  投稿日:2009/08/02(Sun) 23:25:46

外部変数を読み込んでいただけば、年ごとの分析は容易に行えます。

ただ、90年〜94年までを一区切りにして、95年〜99年までと比べる
といったように、何年かをまとめて集計する場合には、外部変数を
使うのと見出しを使うのとどちらが良いか難しいところです。

外部変数を使う場合、「1990」ではなく「90-94」といった値をもつ
変数を新たに作成する必要があります。見出しの場合だと、
> <h1>1990-1994</h1>
のような見出しをいくつか入れるだけで済みます。

そんなわけで、見出しの方についても、念のため書かせていただき
ます。

> お伺い:(3)
> この場合は、元のデータを分析対象ファイルへと整理する途中の、
> 年号の入った状態で<h1>1999</h1>や「1990-1999」といった見出し
> を入れて、再度、分析対象になるファイルを作る必要があると思う
> のですが、そうでしょうか。

現在お使いの分析対象ファイルに見出しを挿入していただけば、
それで大丈夫です。

> お伺い:(4)
> 仮にこのように分析対象ファイルを作り直した場合、そのファイル
> を読み込むのだから、新規のプロジェクトになる(する)という
> ことでしょうか。それとも、同じファイル名でさえあれば、プロ
> ジェクトを開く時に自動的に新しいファイル内容が反映されるも
> のなのでしょうか。

プロジェクトを開くだけでは駄目ですが、再度「前処理」を行って
いただくことで、新しいファイル内容が反映されます。

> お伺い:(5)
> なお、現時点での分析対象ファイルには既に年号の情報がない
> (外部変数ファイルに移動している)ため、年号の見出しをつける
> ことは難しいようですが、いかがでしょうか。

外部変数ファイルをKH Coderに読み込んでいただきましたら、
「どれが2000年の最初の記事か」といったことを容易に調べて
いただけます。かならずしもKH Coderを使わなくても、元ファ
イルにあたっていただいても、同じことを調べられると思います。

その結果を使えば、見出しを挿入することができるかと思います。


  [No.449] Re: 見出しの付け方について 投稿者:kina  投稿日:2009/08/03(Mon) 07:00:03

重ねての詳しいご説明を、ありがとうございました。

私の場合、外部変数を使うのかタグを追加する方が後々やり易いのか、まだ判断できておりませんが、とにかく教えていただいたことを順次トライしたいと思います。やってみて改めて、ご報告申し上げます。取り急ぎ、お礼まで。


  [No.450] Re: 見出しの付け方について 投稿者:kina  投稿日:2009/08/03(Mon) 09:39:42

7:00(no.449)の続きです。画面上の順序が逆に表示されるかもしれませんが、こちらの記事に返信した方が分かり易いかと思い、ここに書きます。

外部変数ファイルの手直しがさっとできないため、分析対象ファイルにタグを追加する方法を行いたいと思います。

> 外部変数ファイルをKH Coderに読み込んでいただきましたら、
> 「どれが2000年の最初の記事か」といったことを容易に調べて
> いただけます。

この場合も、外部変数ファイルはcsvとして読み込まなければならないのでしょうか。「タブ区切り」でなら読み込んでおります。csvファイルとして読み込もうとすると「エラー、kh coderを終了します」となりました。テキストファイルとして保存しているのが原因かと思います。

「タブ区切り」でOKとして、(外部変数ファイルと分析対象ファイルを並べて調べるというようなやり方ではない)簡単に調べる方法を探しましたが見つかりません。もしよろしければ、その手順をお教えいただけませんでしょうか。


  [No.451] Re: まずは外部変数を 投稿者:HIGUCHI Koichi  投稿日:2009/08/03(Mon) 15:23:20

こんにちは、樋口です。書き込みありがとうございます。
解説があまり十分ではなかったようで、すみません。

まずは正しく外部変数を読み込むのが先決のようです。残念ながら「タ
ブ区切り」だと、OKでは無いと思います。

> おそらく、年号だけでなく、余分なものまで変数の値に入ってし
> まっていることが考えられます。
>
> メニューの「ツール」「外部変数」「変数リスト・値ラベル」で、
> 年号の入った変数をダブルクリックしてみて下さい。「1999」の
> ような年号だけが入っていればそれでよいのですが、「1986,05月…」
> のように余分なものが付いていれば、外部変数の読み込みをやり
> 直す必要があります。(添付画像のようになっていれば「正解」
> です)

先にこのように書きましたが、おそらく、「余分なもの」がついている
状態ではないかと想像します。そうだとすると、「タブ区切り」では上
手くいきません。

> > 年
> > 1985,09月13日,夕刊 2外 005
> > 1986,05月17日,朝刊 1総 001
>
> ファイルの一番上の行は、正確に示していただいていますで
> しょうか? 現状では「年」だけですが、「年,月日,紙面」
> のようにしていただく必要があります。さらに、「タブ区切
> り」ではなく、「CSVファイル」として読み込んでいただか
> なくてはなりません。

この操作を行っていただく必要があります。

もしファイルを修正した上で行ってもエラーになるようでしたら、その
エラーメッセージをもう少し詳しく教えていただけると、原因が分かる
かもしれません。

なおCSVというのは、コンマ区切り(Comma Separated Values)の略で
して、まさに上記のようなデータ形状を指す言葉です。


外部変数を読み込めれば、年ごとの分析を容易に行えますし、見出しの
挿入も格段に楽になると思います。


  [No.452] 成分1・成分2について 投稿者:kina  投稿日:2009/08/03(Mon) 19:38:24

いつもお返事をありがとうございます。

早速、先生のご説明をトライして外部変数の読み込みに成功し、そのことは変数リスト、値ラベルで確認できました。変数名はカンマで区切られている数だけ(私の場合は3項目)入れなければならないらしいことが分かりました。

引き続き、抽出語→対応分析を行いました。そこで出てくる成分1とか成分2というものの意味がはっきり把握できません。教えていただければ幸いです。

また、このメニュー以外の図でも、成分1や2、またそれぞれのパーセンテージが示されることがあり、語の出現回数と文書数の場合もあるようですが、どの場合にも当てはまる意味がありますでしょうか。

よろしくお願い致します。


  [No.453] Re: 対応分析の結果について 投稿者:HIGUCHI Koichi  投稿日:2009/08/04(Tue) 00:05:20

こんにちは、樋口です。書き込みありがとうございます。

> 変数名はカンマで区切られている数だけ(私の場合は3項目)入れ
>なければならないらしいことが分かりました。

この点についてはNo. 447および451で下記のように書かせていただい
たのですが、上手く伝わらず、試行錯誤されましたでしょうか。もし
そうだとすると、なかなか上手く説明できず、恐縮です。
> 現状では「年」だけですが、「年,月日,紙面」
> のようにしていただく必要があります。

ともあれ、この場合に限らず、読み込ませたい変数の数と同じ数だけ
変数名も必要です。


さて、対応分析の結果についてのご質問ですが、以下とあわせて、
チュートリアルの3.1.2節およびコラムをお読みいただければ、ご
く大まかな結果の見方については掴んでいただけますでしょうか。

1. 特徴のない平均的な語が中心(原点)に集まっていますので、
端の方から見るようにして下さい。その際に原点から見て「1999」
の方向(の端の方)にある語は、1999年の記事に特徴的だったと
読み取れます。この見方によって、それぞれの年にどんな語が特徴
的だったかを見ることができます。

2. 「1999」「2000」といった年がどんなふうに布置されているかを
見ることで、「どの年とどの年の内容が似通っていたのか」といった
ことを読み取れます。


「成分とは何か」といった、さらなる対応分析の詳細については、
統計のテキスト等をご覧下さい。対応分析(数量化III類)という
のは、何もKH Coderに独自のものではなく、ポピュラーな統計手法
です。

Web上ですとテキスト・マイニング研究会(代表:大隅昇先生)の
サイトに、かなりまとまった解説があります。
http://wordminer.comquest.co.jp/wmtips/analysis.html
「対応分析法・数量化法III類の考え方.pdf」など


  [No.454] Re: 対応分析の結果について 投稿者:kina  投稿日:2009/08/04(Tue) 10:23:27

お返事ありがとうございます。
統計についても何をどう勉強すればよいかの情報までいただき、大変助かりました。

>1. 特徴のない平均的な語が中心(原点)に集まっていますので、端の方から見るようにして下さい。
原点付近には、あちこちによく出てくる語が布置されていると理解しました。

>その際に原点から見て「1999」の方向(の端の方)にある語は、1999年の記事に特徴的だったと読み取れます。
>2. 「1999」「2000」といった年がどんなふうに布置されているかを見ることで、「どの年とどの年の内容が似通っていたのか」といったことを読み取れます。

この2つの見方で自分なりに面白いと思える結果があり、喜んでいます。
何度にもわたるご丁寧なご指導、ありがとうございました。