CH138

◆第138回 人文科学とコンピュータ研究発表会

主査: 堤智昭(筑波大学)
幹事: 橋本雄太(国立歴史民俗博物館)、小川潤(東京大学)、高田智和(国立国語研究所)李媛(京都大学)

情報処理学会人文科学とコンピュータ研究会(IPSJ SIG Computers and the Humanities)では、下記の通り第138回研究会発表会の開催を予定しております。歴史、地理、芸術、民俗、文学、言語、社会などなど、様々な人文科学の諸領域での情報資源の記録、蓄積、分析、提供や応用に関わる研究発表をお考えの方はぜひ奮ってご応募ください。

********************
 日時: 2025年5月17日(土) 9:30~17:20
 会場: 慶應義塾大学 三田キャンパス 現地開催のみ
 共催: 科研費特別推進研究「デジタル研究基盤としての令和大蔵経の編纂―次世代人文学の研究基盤構築モデルの提示」(25H00001)、慶應義塾大学文学部図書館・情報学専攻
 ※国際イベントが開催される時期ですので、遠方から参加される方は、早めの宿泊予約をお勧めいたします。
 発表申込締切: 2025年4月8日(火)4/1から延長しました
 原稿提出締切: 2025年4月22日(火)
********************
※参加申込みは、情報処理学会のマイページ(リンク)のメニュー「イベント一覧・申込」からお願いします。

参加費

参加費詳細はこちら

募集内容・発表要領

※全ての発表いずれも2~8pの予稿の提出が必要となります(この範囲であれば枚数は自由です)。
予稿のフォーマットは情報処理学会のページをご参照ください。

遠方からの発表学生への金銭的補助について

プログラム

2025年5月17日(土) 9:30~17:20  

 9:30-9:35

開会挨拶

 9:35-10:40

セッション1

 9:35-9:55

(1) 音声学とウェブデザイナー:ビジネスに向けて(アントレナーシップ)

○近藤恵理(北九州市立大学)

 音声とは、音声学的な側面から観察すると母音と子音というアルファベットによって構築されている。家が木材や石等で地震に揺るがないように設計建築されているようには精密に音は発声されたり聞き取れたりはしていないであろう。つまり、音はまだ、未来と繋がる危険な状況設定に追い付いていないというところが現実であろう。文字は、音とは分類されうるが、文字情報という知覚から意味情報を認識する場面に多く接する場合、文字知覚に頼る面が見受けられるが、未だ仮説の段階である。音声から情報を取り入れる場合に多く接すると、読む速度スピードが落ちるということも聞く耳を持つか持たないかという点において、未だセルフアセスメントの段階と言える。そこで、融合システム学科に博士の学生として在籍することで、理系的な側面から音と認知ということを知覚学習効果も取り入れながらウェブをデザインしよう(アドビを活用)というところが研究目的(プロポーズ)である。一度設定してしまうと、一見便利そうに思えるが、特許申請をするまでには数年かかるとも想定している。海外の教科書はすでにオンライン化され、録音も可能となっている。そういった情報システムを学習の場に持ち込み、ビジネス化し、校長にセールスするというところが北九州市コンパスで行われている企業と研究の融合化に向けての指導(学習支援システム)である。ひとりSEを1000万で雇うという銀行融資にかけることも考えられる。

 9:55-10:20

(2) 信頼性判断をサポートする検索インターフェースの提案 - 情報探索行動の変化を中心に -

○出井直人(筑波大学 情報学群 知識情報・図書館学類)
  ・金宣経(筑波大学 図書館情報メディア系)
  ・アンチャンレイ(筑波大学 人間総合科学研究科)
  ・松田壮一郎(筑波大学 人間系)

 インターネット上では偽情報や誤情報といった信頼性の低い情報が拡散し, 混乱や健康被害といった形で人々に悪影響を及ぼしている. そこで, ユーザがサイトの信頼性を正確に判断できるよう, 検索結果画面に表示するマークとホバーのインターフェースを提案する. サイトの信頼性を7つの指標で判定し, 信頼性の高いサイトには緑色のチェックマークを, 信頼性の判断が難しいサイトには赤色のストップマークを付与した. また、マークにカーソルを合わせることで, 判定結果が表示されるインターフェースも取り入れた. 実験では被験者をインターフェースを利用しないグループと利用するグループに分け, 健康に関する2つのトピックを検索した際のアイトラッキングデータおよびアンケートを収集した. 分析の結果, インターフェースを利用したグループはサイト内の様々な要素(参考文献や著者など)を注視していたことが判明した. またアンケートの結果から, インターフェースは使いやすさの点では優れていたことが判明した.

 10:20-10:40

(3) 大規模言語モデルを利用した古文書資料の現代語訳の品質評価

○橋本雄太(国立歴史民俗博物館)
  ・太田那優(株式会社NXワンビシアーカイブズ)

 この数年の間に、AI文字認識やクラウドソーシング翻刻の進展により、大量の日本語の古文書資料がデジタルテキスト化された。一方で、江戸時代以前の文献資料に利用されている語句や語法は現代人にとって分かりにくく、多くの人々にとって理解の妨げになっている。そこで大規模言語モデルを利用した現代語訳の自動生成の可能性が模索されているが、その品質についてこれまで定量的な評価がなされてこなかった。本研究では、ChatGPT4o、Gemini 1.5、Claude 3.5 Sonnet、DeepSeek R1を利用して中世・近世の古文書史料数十点を現代語訳し、その品質を定量的に比較するとともに、もっとも高い性能を示したClaudeを対象に誤訳やハルシネーションの傾向を調べた。

 10:40-10:50

休憩

 10:50-12:00

セッション2

 10:50-11:15

(4) ウポポイ園内マップによる12種のUniversal Dependencies

○安岡孝一(京都大学)
  ・安岡素子(京都外国語大学)

 ウポポイ園内マップは,日本語・英語・繁體中文・簡体中文・韓国語・タイ語・ロシア語の7種類が配布されている.これら7種類のマップにはアイヌ語が付記されており,それぞれカタカナ・ローマ字・ローマ字・ローマ字・ハングル・タイ文字・キリル文字で書かれている.すなわち,ウポポイ園内マップには,12種類の書写言語が並行して記述されているとみなしてよい.では,これら12種類の書写言語を,係り受けを含むパラレル・コーパスとして記述することは可能なのか.アイヌ語Universal Dependenciesの拡張も含め,本発表で報告する.

 11:15-11:35

(5) デジタル文化資源の活用・共同的構築のためのリテラシー学習プログラム設計:「デジタル・コモンズ・プロジェクト」の実践

○本間友(慶應義塾ミュージアム・コモンズ)
  ・大島志拓 (慶應義塾ミュージアム・コモンズ)
  ・宮北剛己(慶應義塾ミュージアム・コモンズ))

 ミュージアムをはじめとする文化機関が進めるコレクションデジタル化の取り組みによって、近年、社会において活用可能なデジタル文化資源は増加している。その一方でその作成と活用の主体は一部のコミュニティの成員に限定されている。「デジタル・コモンズ・プロジェクト」は、この課題を出発点として、社会の多様な成員とともに共同的にデジタル文化資源を構築・活用する手法を模索している。本発表では、プロジェクトの実践から、デジタル文化資源の活用に関わるスキルセットの定義、リテラシー学習プログラムの設計、ワークショップの試行について報告する。特に、ZINE制作を主軸とした多世代参加型のワークショップの分析を通じて、協働的な制作活動が、世代間のデジタル・リテラシーの差を補完し合う場を生み出し、文化資源との新たな関係性の構築に寄与する可能性について考察する。

 11:35-12:00

(6) 歴史資料のTEIマークアップ:『延喜式』の校異注記述と固有名詞の一括処理

○渡邉美紗子(国立歴史民俗博物館)
  ・戸村美月(国立歴史民俗博物館)
  ・三輪仁美(国立歴史民俗博物館)
  ・後藤真(国立歴史民俗博物館)
  ・三上喜孝(国立歴史民俗博物館)
  ・永崎研宣(一般財団法人人文情報学研究所/慶應義塾大学)

 本報告は、『延喜式』を対象としたTEIマークアップとその手法を紹介するものである。近年、国内外で古典籍のテキストデータのTEI/XML化が推進されているが、日本古代の史料のテキストデータは流通・共有が一部にとどまっている。そこで『延喜式』の国際的流通と研究での高度活用を目指し、校異注と固有名詞のTEIマークアップを試みた。校異注をTEI/XMLで記述すると、文字の異同の情報は本単位で取り出しやすくなり、視認性が向上する一方、内容が多岐にわたるため画一的なマークアップは困難である。そのため、どのような意図で校訂したか、『延喜式』をどのように解釈したかなどの詳細情報は、校訂者による記録を再現できるよう記述方法を検討した。また固有名詞は、対象テキストが固定される点を活かしたPythonによる一括マークアップが効率およびコストの面で有用であった。さらにマークアップ情報を relation タグにまとめることで、データの汎用性を高める一助とした。その結果、テキストデータに史料が有する特性を反映しつつ、研究に必要十分な情報を書き込むことが可能となった。

 12:00-13:30 

休憩

 13:30-14:00 

共催セッション

 14:00-14:10 

休憩

 14:10-15:40 

学生ポスターセッション

(14:10-14:30 ショートプレゼンテーション)

(7) 回覧板と井戸端会議に着想を得たマルチエージェント確率的推論フレームワークの検証

○上野孝斗(滋賀大学大学院データサイエンス研究科)
  ・井下敬翔(滋賀大学データサイエンス・AIイノベーション研究推進センター/ 関西大学大学院商学研究科)

 日本の回覧板文化と井戸端会議は、地域の伝統的な伝達様式として住民間の微妙なニュアンスを含んだ対話を促し、社会的バランスの形成に寄与してきた。本研究は、こうした情報交換プロセスに着想を得て、複数の大規模言語モデル(LLM)を統合することで感情分析のバイアス軽減、説明可能性向上、確率的予測を実現するマルチエージェント推論フレームワーク(KCRS+IBC)を提案する。本手法は順次的な予測結果の共有に加え、中盤に雑談セッションにおいて形式的推論と個人的視点の融合を図るとともに、感情の確率的予測を導入する。実験では、各データセットでKCRSが単一LLMに匹敵する精度を示す一方、KCRS+IBCは感情の確率的予測において、中盤以降のエントロピー減少・分散の緩やかな増加が確認され、「予測の集約性と多様性の両立」が示唆された。今後は、これらの特性がバイアス補正に与える定量的効果を評価し、より高度な感情分析システムの実現を目指す。

(8) BERTと新聞記事コーパスによる過去のジェンダー規範定量の試み

○三好玲人(東京大学大学院理学系研究科生物科学専攻)
  ・井原泰雄(東京大学大学院理学系研究科生物科学専攻)

 世論調査等のデータは社会規範の時代変化を分析する上で有用である。しかし、存在するデータは古くても数十年前までのものが多く、また調査された項目の数にも限りがある。一方で自然言語処理の領域では、単語埋め込みや言語モデルが、訓練に用いたコーパスに含まれる社会的バイアスを学習してしまうことが指摘されている。本研究では米国の過去の新聞記事を集めたコーパスを用いてBERTの学習を行い、コーパスに含まれる当時の社会規範、特にジェンダー規範を定量することを目的とする。BERTを用いることで単なるステレオタイプにとどまらない規範を捉えられるのではないかと期待する。これにより、世論調査データの存在しない年代のジェンダー規範や調査対象外の様々なジェンダー規範の通時的挙動の解明を可能にすることを目指す。

(9) アーカイブ資料におけるLLM活用の可能性

○板垣光樹(筑波大学人間総合科学学術院人間総合科学研究群情報学学位プログラム)
  ・堤智昭(筑波大学人文社会系)
  ・宇陀則彦(筑波大学図書館情報メディア系)

 アーカイブズには今後に活かすことのできる貴重なアーカイブ資料が数多く眠っているが、アーカイブズの利用は一般的にはそれほど普及しておらず、アーカイブ資料の活用も積極的には行われていない。アーカイブ資料は一つの資料に記載されていない情報が関連する別の資料に記載されていたり、複数の資料からプロセスが読み取れたりと資料同士に内容の補完性や結びつきがあるため、アーキビストでなければその結びつきを発見し活用していくことが困難であることが一因として挙げられる。その解決手法としてLLMに着目した。LLMを用いた対話型システムでは、人とシステムが対話を繰り返し行うことによってアーカイブ資料同士の結び付きを発見できる可能性がある。本研究では、LLMを用いた対話型システムの構築を行い、資料同士の結び付きを発見し複数の資料を組み合わせた知識発見が可能かどうか検証を行った。

(10) トルクメニスタンのメディアにおける新型コロナウイルス感染症関連報道のテキスト分析 ―国営、民間、独立系メディア各ニュースサイトの感染症報道にみられる特徴の比較―

○鈴木朝香(東京大学大学院学際情報学府)
  ・塚越柚季(東京大学大学院人文社会系研究科)
  ・大向一輝(東京大学大学院人文社会系研究科)

 本発表は、中央アジアのトルクメニスタンに関する報道をする、3つのオンラインニュースサイトにおいて、2020年1月から2023年5月までに発表された、新型コロナウイルスの語を含むロシア語記事計2560件の本文テキストを共起語分析とトピック分析にかけた結果を報告する。国営メディアでは、新型コロナウイルスの語と感染対策や経済危機対応に関する語の共起が多く、政府公認の民間メディアでは、これに海外の感染状況や外国政府のコロナ政策に関するニュースが加わるが、反体制的な独立系メディアでは、国内の感染状況への言及が多くみられた。本発表では、中央アジア地域研究における研究蓄積に基づいて、権威主義体制の持続性に関する3つの観点から、結果の解釈を試みる。

(11) TEIを用いた行政会議議事録マークアップによる政策文書策定プロセスの精査

○石井康平(千葉大学大学院人文公共学府)
  ・亀田尭宙(人間文化研究機構)
  ・小風尚樹(千葉大学大学院人文科学研究院)  

 本研究では、政策文書と会議議事録の間テクスト性に着目し、TEIを用いた行政会議議事録のマークアップとその活用を提案するものである。具体的には、TEI P5ガイドラインに準拠した行政会議議事録のマークアップスキーマであるParla-CLARINを参考に、特に発言者の詳細に注力して議事録を構造化した。その上で、当該議事録の発言の中で政策文書の改善を示唆する言及について、発言箇所とその政策文書中の対応箇所を紐づけるようアノテーションをおこなった。なお、これらの構造化およびアノテーションは、日本の環境基本計画の策定について討議される環境省中央環境審議会総合政策部会の会議議事録を対象とした。この一連の取り組みを通じて、特定の発言ないしその発言における内部文字列と政策文書間の対応が明示され、その発言の発言者を特定することも可能となった。この双方向な関連付けにより、発言者ごとに政策文書のどの箇所に貢献しているのかを詳細に分析することが可能となった。このようなTEIを用いた行政会議議事録のマークアップとその活用は、環境省の議論にとどまらず、ひろく政策過程を分析する新たな研究手法として有用である。

(12) SNS 上のブログ記事からみたデジタル・スピリチュアリティ ――KHCoder を使ったハイブリッド・エスノグラフィーの試み――

○鈴木万葉(千葉大学人文公共学府)

 コロナ禍以降、SNS上で占星術やスピリチュアル系のインフルエンサーが目立つようになり、メディアはますます占いコンテンツへの関心の高まりを強調するようになった。その結果、昨今では占星術やスピリチュアルなインフルエンサーを中心としたゆるやかなコミュニティが形成されるようになっている。本発表では、質的・量的な手法のハイブリッドなアプローチを用いて、これらの現象を描写する。スピリチュアルなインフルエンサーのイベントを主催している運営主体を中心としたスピリチュアル・ネットワークのケーススタディに焦点を当てる。1,000を超える、インフルエンサーのファンの書いたブログ記事がこの運営主体によってSNSプラットフォームに集められている。これを分析することで、5年間にわたるネットワークの変遷をたどり、運営主体のメンバー、インフルエンサー、フォロワーによって、オンラインとオフラインのさまざまな形態のコンテンツがどのように伝達されているかを検証する。この分析を通じて、オンライン・ネットワークの流動的な性質に関する洞察を提供する定量的アプローチが、デジタル・スピリチュアリティを研究するための貴重なツールとなりうること、そして非組織的宗教に関する今後の研究の基盤となりうることを実証する。

(13) 『資料横断的な漢字音・漢語音データベース』を用いた漢語声調の定量的検討:中低形の回避と原音声調非対応例を中心に

○小幡幸輝(東京大学)

 本発表では、『資料横断的な漢字音・漢語音データベース』(DHSJR)に格納されているデータを対象に、日本語における漢語の各字音系統(呉音・漢音)とその声調との対応関係を自動的に分析し、各字音系統の声調と一致しない声点についての定量的検討を行うことを目的とする。具体的には、字音声調の組み合わせにより/LHLH/などの音調が生じた際に、後部の音調を変化させ、/LHLL/や/LHHH/といった音調にする「中低形の回避」と呼ばれる現象、ならびにこの「中低形の回避」では説明できない原音声調との非対応例を主な検討対象とする。具体的な分析手法としては、Pythonのpandasライブラリを使用して、DHSJRの「仮名注」データと発表者が整理した「呉音・漢音音形リスト」のデータを照合することにより、各字の字音系統(呉音・漢音)を判別する。さらに、発表者が整理した「呉音・漢音声調リスト」とDHSJRの「声点」データを突き合わせることで、各字音系統の声調との一致・不一致を自動的に判定するプログラムを作成し、その実態の把握を試みた。 この結果、「中低形の回避」については、先行研究に指摘されている通り、漢音では/LHLL/型、呉音では/LHHH/型などの音調に変化させる傾向にあることが確認された。また、原音声調非対応例については、用例数としては多くはないものの、無視できない程度に存することが明らかとなった。

(14) TEIガイドラインによる日本近代文学原稿・草稿の汎用的な構造化の検討ー徳田秋声原稿「厭離」を事例としてー

○塩井祥子(慶應義塾大学大学院文学研究科)
  ・永崎研宣(慶應義塾大学/人文情報学研究所)  

 筆者らは,日本近代文学草稿のデジタル学術編集版(Digital scholarly edition)構築の基礎的作業を企図し,「二銭銅貨」草稿で試みたTEIガイドラインによる構造化を日本近代文学の他作家の資料に適用することでその汎用性を検討する.事例として国立国会図書館デジタルコレクションで公開されている徳田秋声の「厭離」の原稿を扱う, 検討の結果,構造化は他の作家においても有効であることが確認された.しかし,原稿用紙の使用や組版指示など執筆慣習の違いによる課題も発見された. 

(15) テキストマイニングによる『御遺告』成立年代の推定

○三輪玲以佳(同志社大学)

 本研究では、『御遺告』をはじめとした遺告類,空海僧都伝について,その成立年代を定量的に推定する.『御遺告』は空海が遺したテクストとして重んじられ,空海伝の基礎となった.しかし,今日までに複数の研究者が後代に空海に仮託されたテクストであると断じ,その成立は10世紀ごろと考えている.そこで,文字列と文体に着目した2つのテキストマイニングのアプローチを試みる.まず,「変動式N-gram」により文字列を抽出し,主成分分析を行った.結果,遺告類は10世紀の僧によるテクストと同様の特徴を示した.さらに,和習の定量的分析を行った呉・小木曽(2025)を参考とし,テクストの形態素解析による文体的特徴の抽出を試み,その頻度について主成分分析を行った.結果,仏教漢籍の成立年代が下るにつれ変体漢文に近い性質を示すことが確認され,10世紀頃に成立した仏典と同様に遺告類は正格漢文と変体漢文の中間的性質を示した.従って,これら2つの方法によって得られた情報は仏教典籍の時代性に関する有益な指標となると考えられる.

 15:40-15:50 

休憩

 15:50-16:55

セッション3

 15:50-16:10

(16) マルチモーダル大規模言語モデルを活用したOCRシステムの構築

○岩田直也(名古屋大学)
  ・田中一孝(桜美林大学)
  ・小川潤(東京大学)

 近年、マルチモーダル大規模言語モデル(LLM)は、画像とテキストを複合的に理解・処理する能力をもち、OCR(光学文字認識)用途にも高い有効性を発揮することが報告されている。とりわけGoogleが提供する最新のLLM(gemini 2.0 flash)は、高度な画像認識精度を備え、研究用途としても利用可能な価格帯で提供されるようになったが、実際の運用に際しては、プログラミングに関する知識やAPI操作の経験が必要になるという課題が存在する。 本研究では、このような最新の商用マルチモーダルLLMをバックエンドで利用しつつ、自然言語による簡便な指示(プロンプト入力)で柔軟に出力内容を調整可能なOCRシステムを開発した。本システムでは、特に学術研究分野で求められる複雑なレイアウトや注釈要素の除去に特化したユーザーインターフェースと、抽出テキストの自動校正フローを設計し、ノーコードで高精度なOCR処理を実現できる。 本発表では、システムの設計思想とワークフロー、さらに古典文献を題材にした具体的な精度検証の結果を報告し、人文情報学分野におけるマルチモーダルLLMを活用したOCRシステムの可能性と課題を論じる。

 16:10-16:35

(17) 黄表紙の新たな読解環境に向けて ―TEIガイドラインに準拠した構造化の可能性―

○高須賀萌(慶應義塾大学)   ・本間淳(フェリックス・スタイル)
  ・永崎研宣(慶應義塾大学文学部/一般財団法人人文情報学研究所)
  ・木越俊介(国文学研究資料館)

 発表者らは以前の発表において、近世絵入り小説に見られるような絵と文章が複雑に画面上に配置された作品に対し、TEI(Text Encoding Initiative)ガイドラインに準拠した構造化を行い、その基本的なモデルをある程度確立した。しかし、テキストと図像をどのように提示するかについては、今なお多くの検討課題が残されている。 本発表では、黄表紙ビューワの利用者層および想定されるユースケースを設定し、それぞれに適した機能を提案する。これにより、可読性の向上だけでなく、学術的研究にとどまらず、一般利用者にとっても利用価値の高い視覚化の道が開かれると考える。

 16:35-16:55

(18) 行単位の校合に基づく初期印刷本の印刷方法の推定手法

○安形麻理(慶應義塾大学文学部)
  ・安形輝(亜細亜大学経営学部)  

 西洋初期印刷本に使われている紙・羊皮紙は、表面に大小さまざまなうねりがあることが珍しくないため、光学式校合機でもデジタル画像の重ね合わせによる校合でも、1ページ全体を一度に調査することは難しい。本発表では、西洋初期印刷本の現存諸本の画像を対象に、段組、複数行のブロック、行に分割してから、射影変換等により画像を重ね合わせることによる校合方法を提案する。ただし、西洋初期印刷本は行間が狭く、複数行にまたがる装飾頭文字などもあり、行識別が難しいため、工夫が必要となる。行単位に分割することで、表面のうねりや撮影条件による差の影響を受けにくい校合が可能になる。また、組版が通常の活字なのか、近代のステレオタイプのように2行単位によるものなのか論争がある版についての検討も可能になる。

 17:00-17:20閉会

懇親会

申し込みフォームはこちらから

お問い合わせ先

ch-madoguchi■jinmoncom.jp(@を■に変更しています)


トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS