CH135

◆第135回 人文科学とコンピュータ研究発表会

主査: 橋本雄太(国立歴史民俗博物館)
幹事: 耒代誠仁(桜美林大学)、小川潤(ROIS-CODH)、鈴木親彦(群馬県立女子大学)、吉賀夏子(大阪大学)

情報処理学会人文科学とコンピュータ研究会(IPSJ SIG Computers and the Humanities)では、下記の通り第135回研究会発表会の開催を予定しております。歴史、地理、芸術、民俗、文学、言語、社会などなど、様々な人文科学の諸領域での情報資源の記録、蓄積、分析、提供や応用に関わる研究発表をお考えの方はぜひ奮ってご応募ください。

********************
 日時 2024年5月18日(土)
 会場 京都大学人文科学研究所(本館)
 共催 京都大学人文科学研究所附属人文情報学創新センター
 発表申込締切 2024年4月17日(水)※4/10から1週間延長しました
 原稿提出締切 2024年4月23日(火)
********************
参加申込受付開始は開催10日前を予定しています。

参加費

研究会登録会員無料
学会正会員2750円
学会会員学生1100円
学会非会員学生1650円
非会員3850円

参加費詳細はこちら

遠方からの発表学生への金銭的補助について

プログラム

2024年5月18日(土) 10:40~16:55

 10:40-11:00 

開会挨拶

 11:00-12:00 

セッション1

 11:00-12:00

(1) 日本語Twitter空間における戦争認識の多角的探索 :ウクライナ-ロシア戦争への反応と洞察

○井下敬翔(滋賀大学大学院データサイエンス研究科)

 ソーシャルメディアは現代社会において個人が情報共有や社会的議論に参加する主要な手段となっており,Twitter上のツイートを分析することで世論を深く理解し,その知見を様々な政策に反映できる可能性がある.しかしながら,近年のウクライナ・ロシア戦争に関連した日本語ツイートの分析研究は,適切なデータセットの不在やAPIコストの高さから進んでいない.平和主義が強い日本において,この戦争に対するユーザーの独自の認識を探ることは,将来の安全保障政策立案に重要な示唆を与えられると考えられる.そこで本研究では,まずKaggleの戦争に関連した大規模複数言語ツイートデータから綿密な前処理を経て日本語ツイートデータセットを構築した.次に複数のNLP手法を適用し,時系列変化,潜在トピック,共起関係などの情報を抽出するとともに,ニュース情報との組み合わせにより日本語ユーザーの戦争認識を多角的に解明した.さらにはTwitter上の潜在的リスクの探索も試みた.その結果,日本語ユーザーが戦争に強い関心を寄せ,特に原発攻撃や中国の動向に警戒心を持つことが明らかになった.また,領土問題への懸念やウクライナ支援の意思から,自国防衛の重視と対ロシア包囲網への関与可能性が示された.こうした知見は安全保障政策立案に重要な視点を提供する.一方で,デマ対策強化,地政学リスクの注視,有事への心構えの必要性も指摘した.本研究は,データ駆動型のアプローチにより,戦争に対する日本語ユーザーの認識を明らかにした数少ない研究例である.今後は,より広範なデータと高度な分析手法の適用が求められ,ソーシャルメディア上のユーザー関心動向から国家安全保障上の動向を捉え,適切な政策につなげていくことが重要課題となろう.

 11:20-11:40

(2) 日本語歌詞におけるアーティスト別意味と感情の時代別傾向分析

○竹中要一(関西大学総合情報学部)
  ・石橋龍人(立命館大学院理工学研究科)
  ・孟林(立命館大学院理工学研究科)

 音楽は感情や思考の表現としてだけでなく、文化や社会との相互作用においても重要な役割を果たしている。アーティストは自らの歌詞を通じて個々の感情や思索を表現し、これが聴衆との感情的な共感を生み出す。この音楽の影響力に関する分析は音楽理解の鍵となる。本研究ではレコード・CDの販売が主流であった時代とストリーミングが主流となった時代に二分し、歌詞の意味及び歌詞に含まれる感情をアーティスト単位で分析した。その結果、歌詞の意味は時代によって異なる傾向を有するが、感情は時代ごとの差は認められなかった。本論文では、顕著な傾向がみられた個別アーティストについても報告する。

 11:35-12:00

(3) 題詠表現に着目した中世歌合の構造化と提示手法に関する試み―建仁元年『石清水社歌合』を事例として―

○幾浦裕之(国文学研究資料館)
  ・崎山顕矢(関西大学総合情報学部)
  ・木村奏子(関西大学総合情報学部)

 日本古典籍は、文学的に優れた書物である同時に、当時の政治や暮らしを記した歴史的価値を有する文化財である。古典籍は、くずし字と呼ばれる、現代では解読困難な形態の文字で書き表されているため、光学文字認識(OCR)を用いた解析が盛んである。しかし、長い年月を経て、文字の劣化が生じており、可読性を損なわせるとともに、文化財である古典籍の部分的な消失を引き起こしている。本研究では、深層学習の画像生成モデルである、敵対的生成ネットーク(GANs)の一種のCycleGANを用いた劣化修復の一環として、条件付きCycleGANによる劣化修復を試みる。その結果、3種類の分類器において、合わせて1.97%の劣化文字の正解率向上を達成した。

 11:40-12:00

(4) 人文学系研究データの共有に向けてのツール開発

○喜多千草(京都大学)
  ・大向一輝(東京大学)
  ・橋本雄太(国立歴史民俗博物館)
  ・田中章喜(株式会社BTree)
  ・木村久美子(株式会社BTree)

 音研究公正の観点から、文理を問わず研究データの保存の必要性が広く認識され始めている。しかし単なる研究データの保存に留まらず、研究者間での共有や再利用、あるいは公開可能な部分について成果としての一般公開なども視野にいれる必要がある。そこで著者らは、人文学の研究過程で生成されるデータを共有・再利用するための問題点を検討し、表型のデータ蓄積と機械可読性、カード型情報整理術との親和性などを課題として、それを解決するためのツール、Carbleの開発に着手した。本発表では、その要件の検討の過程とCarbleの基本機能について報告する。

 12:00-13:30

休憩

 13:30-15:30 

学生ポスターセッション

(13:30-14:00 ショートプレゼンテーション)  

(5) 計量テキスト分析によるルソー『学問芸術論』再読

○木野恵吾(新潟大学現代社会文化研究科)

本稿はルソー『学問芸術論』を分析する過程に,計量的な分析を取り入れるための一試論である.本論はデジタルテキストの構築とその分析,考察から構成される.デジタルテキストの構築においては,今後他の作品を分析する際に用いるデジタルテキストをより精度の高いものにするため,特にフランス語に固有の文字の処理に着目して,方法と問題点の整理を行った.計量分析にはKHCoderを用い,使用された語や共起ネットワーク図から作品構造を読み取ることに加え,作品の精読を伴うコーディングルールの作成からテクストの特徴を検討した.

(6) 霞ケ浦保全における茨城県政の政策焦点と住民参画との関係性―令和5年茨城県議会議事録のテキスト分析から

○石井康平(千葉大学大学院)

 本研究は、霞ヶ浦の保全政策における政策の焦点と住民参画との関連性を明らかにするものである。本研究では、令和5年の茨城県議会の会議議事録から「霞ヶ浦」および「保全」の語彙を含む言説を抽出し、テキスト分析を行う。具体的には、共起ネットワーク分析を用いて、言説に含まれる語彙間の関係性を分析した。結果として、「霞ヶ浦」と「保全」の用語が含まれるネットワーク構造には、「霞ヶ浦」や「保全」のほかに、「水質」、「浄化」、「流域」、「生活」、「県民」などの語彙が含まれていた。特に、「流域」は、「霞ヶ浦」や「保全」という単語が含まれる語彙群と「生活」や「県民」が含まれる語彙群を橋渡しする唯一の語彙であることが分かった。したがって、本研究から茨城県政の霞ヶ浦保全政策において、住民参画を促す施策を検討する上では、流域という概念に注目する必然性が示唆される。

(7) 古記録による夏季気温復元の手法検討

○吉田史織(お茶の水女子大学大学院)

 気象観測データが存在する以前の気候変動を復元する試みとして、古記録に記された天候記錄の中の晴天日数や降水日数に基づいた気温変動の復元を目指す研究が過去になされている. 一方、樹木年輪に含まれるセルロースの酸素同位体比の時系列データは、樹木の成長する季節である夏季の降水量と良い相関を持つことが示されている. 本時系列は、1年単位での年代決定が可能である時間分解能の細かいデータが、先史・古代を含む長期間のスケールにおいて連続して高い精度で得られるという特徴があり、気候復元に適している.本研究では、古記録から復元された気温変動の信頼性の評価方法として、年輪セルロース酸素同位体比データを利用可能であるかを調査する. 衛星観測データおよび再解析データが利用できる1979年から2005年の期間において、総観規模および惑星規模の大気現象が年輪セルロースの時系列をどのように決定するかについて議論する. 次に、古記録の天候記録からの気温復元の手法について、時系列データの特徴量を保持することが可能であるモデルを検討し、その有用性を年輪セルロース酸素同位体比を用いて検証する. 具体的には、古記録から復元された気温変動が、年輪セルロース酸素同位体比の時系列から復元された大規模大気現象の様子と、整合的に説明されるかどうかを明らかにする。

(8) グラフ構造を有する資料群を対象とした静的デジタルアーカイブの構築――「大江健三郎文庫自筆原稿デジタルアーカイブ」を事例として

○阿達藍留(東京大学)
  ・菊間晴子(東京大学)
  ・阿部賢一(東京大学)
  ・大向一輝(東京大学)

本発表では、「大江健三郎文庫自筆原稿デジタルアーカイブ」の構築において、静的Webサイト技術を活用しつつ、資料群が持つグラフ構造に着目することで、低コストで持続可能でありながら資料間の複雑な関係性を探索できるシステムを実現した取り組みについて報告する。自筆資料、作品、書籍の3種類のエンティティ間の関係性を有向グラフとしてモデル化し、Pythonのデータ分析ライブラリpandasとネットワーク分析ライブラリNetworkXによるデータ処理、静的サイトジェネレータEleventyによる静的サイト生成、IIIFに準拠した画像配信などの技術を組み合わせ、長期的な運用に耐えうるデジタルアーカイブを構築した。今後は、静的なシステムを目指すことによる機能面でのトレードオフについて検討を重ねていく。

(9) パプアニューギニア各地の民話に登場する動物の地域的分布 -テキストマイニングを用いた計量的分析-

○笹本美和(千葉大学)
  ・菊間晴子(東京大学)
  ・小風尚樹(千葉大学)
  ・小谷真吾(千葉大学)

パプアニューギニア各地の民間伝承を対象としたテキストマイニングによって、“動物に関する単語”を抽出し、各地域の民話にどのような動物種が登場するのかという地域的特徴を把握する。民話に登場する動物種の地理的分布を把握することで、それぞれの地域の人々と重要な関わりをもってきた動物種にあたりをつけ、今後現地で行う聞き取り調査に活かしたいと考えている。これまでの景観人類学の先行研究では、「オセアニアの諸社会において、人々のアイデンティティを支える神話・歴史や社会関係が、単に抽象的な知識や観念としてあるだけでなく、多くの場合、日常的な景観と結び付けられ、それによって具現化されている」ことが示されてきた。そのため、現地の日常的な景観形成に関わっていると考えられる民話を分析対象とすることで、これまでパプアニューギニアに暮らしてきた人々と動物との関わりの特徴を浮かび上がらせることが可能になるのではないかと考える。

(10) アイヌ語テキストに対するルールベース処理の限界

○于拙(大阪大学)

アイヌ語は、極めて深刻な消滅の危機にある言語として指定されているが、先人の努力によって少数言語の中でも多くのテキスト資料が残されており、近年ではそれらの資料の整理・電子化が行われ、文化や言語の伝承・復興運動も活発になってきている。また、デジタル・ヒューマニティーズの分野では、アイヌ語コーパスの作成や機械翻訳・品詞タグ付け・形態素解析・言語モデルの開発などが行われるようになっているが、その際に如何にテキストを収集・整理し、高精度のデータセットを構築できるのかが急務である。本報告では、アイヌ語の表記・文法の複雑性、テキスト資料の特徴やアクセスの困難さ及び専門家・研究者・熟練話者の希少性を背景に、ルールベースのアプローチによるデータに対する変換・検証・誤り訂正などの自動・半自動前処理の実現できる限界への挑戦について述べる。

(11) 助動詞の意味を表す文法用語から見た戦後国語教科書のクラスター分析

○小木曽智信(国立国語研究所/総合研究大学院大学)   ・久保柾子(総合研究大学院大学)

 現在用いられている検定教科書において、「推量」「意志」「完了」といった助動詞の意味を表す文法用語はひとつに定まっておらず、教科書や文法書ごとに様々な用語が混在して使用されている、また、教科書の変化の過程には、定着しないまま使用されなくなった用語も存在する。本発表では、高校の古典の教科書の文法解説部分や活用表から抽出した文法用語の表を作成したうえで、助動詞ごとの文法用語がどのように用いられているかをデータベース化し、それをもとに各教科書の文法用語使用状況の分析を行う。具体的には、各教科書で用いられている文法用語をone-hotエンコーディングで表現し、クラスター分析によって各教科書がどのような関係にあるかを示す。そこから、表の目視ではわからない通時的な変化や、教科書会社・編者による偏りを明らかにする。

(12) 19世紀エディンバラ・アカデミーの学籍簿を用いたデータ構造化の検討:TEIマークアップに基づくRDFの作成

○若林芽依(千葉大学大学院)
  ・小川潤(国立情報学研究所)
  ・小風尚樹(千葉大学)
  ・小風綾乃(国立歴史民俗博物館)
  ・崎山直樹(千葉大学)

 本研究では、生徒の社会的出自という側面からの学校像分析を可能にするようなデータ構造化手法を検討し、提案する。史料は1824年に設立したエディンバラ・アカデミーの学籍簿であり、そこには、一人の教員が一定期間に受け持った生徒の情報がアルファベット順に記載されている。生徒によって情報量は異なるが、生徒の氏名や生没年月日、入学・卒業年、クラス、住所、父親の氏名や職業、卒業後の進路などを確認することができる。具体的には、学校設立から1836年までの生徒情報全体をTEIでマークアップしたサンプルデータを作成し、それをRDFに変換するまでのプロセスを示す。TEIによる学籍簿史料のマークアップとそのRDF変換の実践は、原文の参照可能性とデータとしての接続性の双方を実現するという点で、歴史学・人文情報学のいずれにおいても意義があるものとなる。

(13) エージェントベースシミュレーション機能を持つ歴史的事象を分析するためのGISの開発

○春日佑吏子(中央大学理工学部情報工学科)
  ・春日勇人(無所属)

 本研究では、歴史的事象の分析に適したエージェントベースシミュレーション(ABS)と地理情報システム(GIS)の双方の機能を持つソフトウェアを開発した。このソフトウェアは、文献学、考古学、人類学からの多様な歴史データと、地理的環境を統合して表示することが可能であり、各国・各時代に対応する汎用性を有する。今後は更なる機能の充実を図る。

 15:30-15:40

休憩

 15:40-16:25

セッション2

 15:40-16:05

(14) 文埋め込みに基づく朝日歌壇短歌の分析

○加藤真大(東京大学 / みずほ第一フィナンシャルテクノロジー)
  ・持橋大地(統計数理研究所)
  ・浦川通(朝日新聞社メディア研究開発センター)
  ・新妻巧朗(朝日新聞社メディア研究開発センター)
  ・田口雄哉(朝日新聞社メディア研究開発センター)
  ・田森秀明(朝日新聞社メディア研究開発センター)

 本稿では,朝日新聞の歌壇に掲載された短歌について,文埋め込みを用いる分析を行い,掲載されている短歌の特徴や傾向を調査する.近年,テキストデータを数値的に扱うために,テキストを適切なベクトルに変換する文埋め込みの手法が注目を集めている.本研究の目的は,短歌を文埋め込みを用いてベクトルに変換し,定量的な分析を行うことを可能にすることで,短歌の特徴や掲載に至る評価基準などへの理解を深めることにある.また,その目的を達成するために,独立主成分分析とFisherの線形判別分析を用いる.分析の結果として,選者ごとに掲載される短歌には扱っているトピックや文体に異なる特徴があることを発見する.

 16:05-16:25

(15) Common Lisp を用いた CHISE の再実装の試み

○守岡知彦(国文学研究資料館)

CHISE (CHaracter Information Service Environment) は漢字を中心とする大規模文字オントロジーを実現し、HNG/HDIC や古典中国語コーパスをはじめとする漢字に関連するデータを繋ぐためのハブ的な Web サービスの一つとなっているが、そのシステムの基盤はおよそ20年前に開発した XEmacs CHISE であり、本格的な Web サービスを実現する上でさまざまな問題を抱えている。これまで文字オントロジーの中身を RDF や IPFS などの別形式で書き出し JavaScript などから利用する試みを行ってきたが、define-char (S式) 形式のソースファイルを直接利用することができず XEmacs CHISE 依存性を除去することができなかった。そこで、今回は機械語にコンパイル可能な Common Lisp (SBCL) を用いて CHISE のバックエンドの再実装を試みた。

 16:25-16:55閉会

お問い合わせ先

ch-madoguchi■jinmoncom.jp(@を■に変更しています)


トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS