CH137

◆第137回 人文科学とコンピュータ研究発表会

主査: 橋本雄太(国立歴史民俗博物館)
幹事: 耒代誠仁(桜美林大学)、小川潤(ROIS-CODH)、鈴木親彦(群馬県立女子大学)、吉賀夏子(大阪大学)

情報処理学会人文科学とコンピュータ研究会(IPSJ SIG Computers and the Humanities)では、下記の通り第134回研究会発表会の開催を予定しております。歴史、地理、芸術、民俗、文学、言語、社会などなど、様々な人文科学の諸領域での情報資源の記録、蓄積、分析、提供や応用に関わる研究発表をお考えの方はぜひ奮ってご応募ください。

********************
 日時 2025年2月8日(土)
 会場 会場 オンライン開催(オンラインのみ)
 発表申込締切 2025年1月10日(金)
 原稿提出締切 2025年1月17日(金)
********************
※参加申込みは、情報処理学会のマイページ(リンク)のメニュー「イベント一覧・申込」からお願いします。

募集内容

※ロング/ショートいずれも2~8pの予稿の提出が必要となります(この範囲であれば枚数は自由です)。
※予稿のフォーマットは情報処理学会のページをご参照ください。
※今回は一般口頭発表のみの募集と致します。

申込方法

参加費詳細はこちら
参加申込みはこちら
【補足】 研究会への参加申し込みは、通常研究会開催10日前から研究会当日まで情報処理学会の「マイページ」で受け付けています。各自でご登録よろしくおねがいします。

プログラム

2024年7月26日(金) 9:00~12:00

 10:15-10:30 開会挨拶
 10:30-12:00 セッション1
 10:30-10:55

 (1) 近世絵入り小説のデジタル研究基盤構築に向けてーTEIに準拠した黄表紙の構造化を通じてー

 ○高須賀萌(なし)
 ・永崎研宣(慶應義塾大学文学部/一般財団法人人文情報学研究所)
 ・木越俊介(国文学研究資料館)
 ・本間淳(フェリックス・スタイル)

 黄表紙とは、江戸時代に出板された草双紙と呼ばれる絵入小説の一種であり、特に安永4年(1775)から文化年間(1804~1818)にかけて出板されたものを指す。基本的に全丁絵入で、その余白に本文や台詞を書き入れる形式で書かれている。また作中には、演劇や昔話、教訓、和歌、風俗、仏教など様々な分野の趣向が利用されることが多く、最大15丁という短い小説に対して多様なコンテンツを含んでいる。本発表では、近世絵入り小説のデジタル研究基盤構築を目指す一環として、まず黄表紙を対象として、TEIに準拠した構造化を試みる。まず絵と文章の書き入れで構成された作品を構造化するためのモデルを整えるとともに、黄表紙同士の横断検索を目標として、基礎的な作業及び研究テーマに対する情報の収集・探索の効率化を目指す。

 10:55-11:15

 (2) 墨跡の濃淡情報にもとづく文書筆記過程の時間経過分析の試み

 ○中尾泰士(北九州市立大学)
 ・ゴーチュイリン(北九州市立大学)

 墨によって書かれた文書について,墨の濃淡情報を用いて,その文書が作成された筆記過程を分析する試みを行なった。墨の濃淡情報を時系列データとして分析し,墨が徐々に薄くなって,再び濃くなった部分を墨が筆に含めなおされた点とし,そのパターンについて分析した。このパターンを文書作成者の特徴と見なすことで,文書が作成された時の時間経過を再現できる可能性について議論した。

 11:15-11:40

 (3) 助字の頻度からみた日本漢文の和習分析 ―古記録と『日本書紀』を例として―  ○呉子凡(総合研究大学院大学)
 ・小木曽智信(国立国語研究所/総合研究大学院大学)

 本稿は、助字の使用頻度に基づき、相関係数とクラスター分析、コレスポンデンス分析を用いて平安・鎌倉期の古記録資料と『日本書紀』の巻二・巻十五・巻十六・巻二十二・巻三十を「正格漢文としての性格が強いグループ」と「日本語的特徴が顕著なグループ」に分類することができた。また、『日本書紀』の正格漢文としての性格を再検討した。

 11:40-12:00

 (4) RDFに基づいた漢詩の構造化と統合管理モデルの構築ーー漢詩集『懐風藻』と『日本詩記』を事例として  ○黄衍傑(中山大学日本語学科)
 ・林傑軒(中山大学日本語学科)

 本研究では、中国の古典詩に由来する日本漢詩のデジタルアーカイブに焦点を当て、詩集に収録される漢詩の異なるバージョンの統合を問題視し、RDF に基づく構造化モデルを提案した。本モデルは、BIBFRAMEモデルを参考にし、作品概念である Work と実体 Instance を中心に置き、詩集と詩単体をそれぞれ本体としてモデリングし、両者を分離管理する仕組みを構築した。このアプローチにより、同一詩が複数の詩集に重複収録される問題や、異なる版間の差異を関連付けて記録する難題を効果的に解決することを目指す。本研究は日本の漢詩集『日本詩紀』と『懐風藻』を事例として、提案したモデルに基づいて詩集と漢詩の構造化を実現したうえ、SPARQL を用いてセマンティックな関係における構造的な表現および効率的な検索能力を検証した。この研究を通じて、古典籍の構造化及び管理に新たな視点を提供することを試みた。

 12:00-13:30 休憩
 13:30-14:50 セッション2
 13:30-13:50

 (5)『古典籍テキストデータTEI/XMLマークアップ方針作成のための指針』の作成

 ○菊池信彦(国文学研究資料館)
 ・木越俊介(国文学研究資料館)
 ・松田訓典(国文学研究資料館)
 ・山本嘉孝(国文学研究資料館)
 ・松永瑠成(国文学研究資料館)
 ・幾浦裕之(文部科学省)
 ・海野圭介(早稲田大学)

 報告者ら国文学研究資料館教員(旧所属者を含む)は、2023年初頭に古典籍TEIデータ作成勉強会を立ち上げ、「古典籍テキストデータを活用したデータ駆動型人文学のための研究資源構築プロジェクト」(2023-2024年度)を進めてきた。この研究プロジェクトにおいて、報告者らは、それぞれの関心に基づき、古典籍テキストおよび書誌情報のTEI/XMLマークアップの実践を行った。本報告では、その実践を基に作成した『古典籍テキストデータTEI/XMLマークアップ方針作成のための指針』について、その作成に至る検討過程とその内容、そして文書作成の意義について報告を行うものである。

 13:50-14:10

 (6) 物語コンテンツ制作のための世界観およびキャラクタの設定支援システムの開発

 ○五木宏(公立はこだて未来大学)
 ・松原仁(京都橘大学)
 ・村井源(公立はこだて未来大学)

 物語コンテンツの生産性向上を目的として,クリエイタの世界観とキャラクタ設定作業を支援するプロトタイプシステムを開発し,評価実験を行った。システムは,クリエイタが選択したジャンル,および,それぞれ3段階で選択可能なダークネス度・ファンタジー度・ホラー度の設定内容に従い,それらに典型的な単語を提示する。提示する単語データは関連研究・参考図書・ウェブなどから,手作業により抽出した。設定作業後には,世界観については設定表を,また,キャラクタについては身上書の出力が可能である。芸術系大学のアニメーション学科の学生6名を対象にシステムの評価実験を実施した。デモンストレーションとハンズオン後のアンケートでは,単語の提示による支援の有効性,および,使いやすさについての5つの質問での5段階評価平均は4.32,また,システム利用により想定される時間短縮率は41.6%であった。

 14:10-14:30

 (7) デーヴァナーガリー写本OCRの開発―展望と課題

 ○加藤隆宏(東京大学)
 ・友成有紀(東京大学)
 ・渡邊眞儀(東京大学)
 ・天野恭子(京都大学)
 ・岩﨑陽一(名古屋大学)
 ・栗原洸太(株式会社モルフォAIソリューションズ)
 ・YalcinAkin(株式会社モルフォAIソリューションズ)
 ・藤巻聡(TOPPAN株式会社)
 ・大澤留次郎(TOPPAN株式会社)

 現代の文献学研究では,検索可能なテキストデータの活用が欠かせない手法となっている。特にサンスクリット文献学における写本校訂研究では,テクスト批評の一環として,本文以外の関連文書の文体や文法,用例などを検討することの意義が早くから認識されており,検索可能なテキストデータベースの利用によって批評手法が大幅に向上している。しかし,既存のデータベースは研究者による手入力に依存しているため,量的な限界が存在するのが現状である。こうした問題を解決するため,2020年度から21年度にかけて「デーヴァナーガリー文字OCRの開発とサンスクリット文献データベースの構築」プロジェクト(以下,活版OCRプロジェクト)を推進した。この研究では,サンスクリット文献学の専門知識を持つ研究者とOCR技術の開発者が協力し,AI-OCRを開発してテキストデータ収集の自動化を進め,OCRの精度向上にも取り組んだ。今回の発表は,上記プロジェクトの成果を踏まえ,2023年度より実施中のプロジェクト「デーヴァナーガリー文字OCRの実用化と文献データベースの利活用にむけた応用研究」(以下,手書OCRプロジェクトと省略)における成果の一部を公表するものである。

 14:30-14:50

 (8) バウッダAI: 生成AIを活かした仏教研究支援用RAGの開発

 ○永崎研宣(慶應義塾大学/一般財団法人人文情報学研究所)

 生成AIに一定の利便性があることは広く周知されつつある.しかし,しばしば問題視されるハルシネーションの問題は十分には解決されておらず,生成AIが返答可能な知識は原理的には限定的なままである.これを解決するための手段の一つとして開発されてきたRAGは,コンテキストウインドウのサイズが100万トークンを超える生成AIが登場したことで状況が大きく変化することになった.本発表では,この生成AIをターゲットとして筆者が開発した仏教研究支援のためのRAGについて報告する.

 14:50-15:00 休憩
 15:00-16:10 セッション3
 15:00-15:25

 (9) 東アジアテキスト研究のためのデータモデル構築に向けて

 ○永崎研宣(慶應義塾大学/一般財団法人人文情報学研究所)
 ・岡田一祐(慶應義塾大学文学部)
 ・本間友(慶應義塾ミュージアム・コモンズ)
 ・池谷のぞみ(慶應義塾大学文学部)

 2024年度より、文部科学省の委託事業である人文学・社会科学のDX化に向けた研究開発推進事業(データ基盤の開発に向けたデジタル・ヒューマニティーズ・コンソーシアムの運営)が開始され、この事業の一環として、前近代・近代以降問わず、多様な東アジアテキストのあり方を検討し、具体的に複数の資料を対象としたTEIテキストの提供と、その研究ユースケースの創出が行われることになった。本発表では、この事業を委託した筆者らが、これまでの経緯と今後の見通しについて報告する。

 15:25-15:50

 (10) 青空文庫ModernBERTモデルによる国語研長単位係り受け解析

 ○安岡孝一(京都大学)

 2024年12月に発表されたModernBERTは、入出力幅8192トークンを、1.5億パラメータのモデルで実現している。これまでBERTやDeBERTaの1.5億パラメータ・モデルは、入出力幅が512トークン程度だったことに較べれば、格段の進歩である。係り受け解析での隣接確率行列を考えると、8192トークンもあれば90次元の正方行列がそのままモデルに乗ってしまう。三角行列に圧縮できれば、126次元までは乗りそうである。つまり、隣接確率行列をモデルに乗せてしまった形での解析アルゴリズムを、開発可能だということである。では、そのようなアルゴリズムを乗せた日本語ModernBERTは、本当に実現可能なのか。本発表では、その可能性を探る。

 15:50-16:10

 (11) 地域理解のための食材とその食材の歴史に着目した郷土料理オントロジーの設計

 ○河村 郁江(名古屋産業大学)

 本研究では,食を通じた地域の文化・環境の理解支援や,郷土料理データの活用を目指して,Webマップ「もちマップ」を作成している。以前、地域理解のための素材に着目した郷土料理オントロジーの設計を行ったが、今回は素材の使われ方の歴史にも着目したオントロジーの設計と活用の仕方を検討する。

 16:10-16:20 閉会

お問い合わせ先

ch-madoguchi■jinmoncom.jp(@を■に変更しています)


トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS