主査: 堤智昭(筑波大学)
幹事: 橋本雄太(国立歴史民俗博物館)、小川潤(東京大学)、高田智和(国立国語研究所)李媛(京都大学)
情報処理学会人文科学とコンピュータ研究会(IPSJ SIG Computers and the Humanities)では、下記の通り第140回研究会発表会の開催を予定しております。歴史、地理、芸術、民俗、文学、言語、社会などなど、様々な人文科学の諸領域での情報資源の記録、蓄積、分析、提供や応用に関わる研究発表をお考えの方はぜひ奮ってご応募ください。
********************
日時 2026年 2月1日(日)
会場 アートホテル石垣島(沖縄県石垣市大川559)現地開催のみ
発表申込締切 2025年12月16日(火)
原稿提出締切 2026年1月6日(火)
※参加申込は1月中旬に開始する予定です。
※会場付近のお食事処の情報はこちらのマップから
********************
※参加申込みは、情報処理学会のマイページ(リンク)のメニュー「イベント一覧・申込」からお願いします。
参加費詳細はこちら
※全ての発表いずれも2~8pの予稿の提出が必要となります(この範囲であれば枚数は自由です)。
※予稿のフォーマットは情報処理学会のページをご参照ください。
9:00-10:20 セッション1 A会場
9:00-9:20
(1) 仏教学・インド学におけるテキストデータベース導入の影響:中国仏教文献における初期ヴァイシェーシカ資料探索の事例を題材として
○渡邉眞儀(東京大学)
仏教学・インド学の分野ではここ20年のデジタル化の進展,特にテキストデータベース構築の進展によって,単に研究上の利便性が向上したというだけでなく,研究手法自体にも大きな変化が生じつつある.本発表ではその一例として,SAT(大正新脩大藏経テキストデータベース)を用いた仏典内のヴァイシェーシカ学派関連資料の探索の事例を紹介する. 本発表で扱うヴァイシェーシカ学派は所謂六派哲学と呼ばれる,バラモン教系の思想体系のひとつである.この学派は仏教滅亡前のインドにおいて仏教と対立しており,仏教側の論者と活発な論争を行っていた.そのため近代以前の東アジアの仏教界においてもこの学派に対する関心は高く,同学派の論書のひとつ『勝宗十句義論』は仏教外の文献にも関わらず大蔵経の中に収録されている.一方で,インドにおいては初期ヴァイシェーシカ学派の残存資料が少なく,学派の成立過程についてはいまだ不明瞭である.このため,漢訳仏典や中国撰述の仏教論書の中に散在している,同学派への言及や同学派の文献からの引用を探索する試みが古くから先学によって為されてきた. 初期のこのような試みは当然電子化されたものではなく,目録やメモ,調査カードなどを駆使した,研究者個人の資料集積・整理・探査の能力に依存したものであった.さて,20世紀後半の情報通信技術の進展によって,仏教学・インド学の分野においても研究にコンピューターを活用しようとする機運が訪れる.この段階で行われたのは基礎資料や調査カードなどのデジタルテキスト化によって,主に研究者個人にとっての利便性の向上を図ることであった.一方でその後のSATを始めとする大規模なテキストデータベースの出現は,より明確に研究の質的な転換をもたらした.第一は,資料探索における属人的能力への依存の減少である.第二は,ある単語の用例が特定の資料に存在することを示すだけでなく,ある資料範囲においてその用例が存在しないことを,網羅的な検索により明確に示せるようになったことである.本発表ではヴァイシェーシカ学派関連資料の探索という事例を検討することで,この質的転換を具体的に論じる.更に今後予定されるAI-OCRを活用したSATの拡充に伴う研究への影響についても予測を試みたい.
9:20-9:40
(2) 日本漢文Universal Dependenciesの開発
○安岡孝一(京都大学)
京都大学人文科学研究所共同研究班「古典中国語コーパスの応用研究」では,古典中国語(漢文)の周辺言語に対し,Universal Dependencies (UD)の適用に挑戦している.対象言語の一つが日本漢文であり,『日本書紀』を手始めに『日本靈異記』『御成敗式目』『日本樂府』『狄島夜話記』のUDコーパスを開発中である.しかしながら,これらのUDコーパスを古典中国語UDに押し込めるのは無理があり,コードスイッチングを含めた様々な手法を追加する必要が生じている.本発表では,日本漢文UDが古典中国語UDからどうハミ出てしまうのか,どのような解決法が適切なのか,模索する.
9:40-10:00
(3) 複数LLMによる日本漢文の自動TEIマークアップと精度評価 ―『日本書紀』における固有表現・発話・引用アノテーション―
○呉子凡(総合研究大学院大学/国立国語研究所)
・小木曽智信(国立国語研究所/総合研究大学院大学)
日本漢文資料に対して大規模言語モデル(LLM)を用い,TEI準拠のマークアップを自動で行う手法を検討する.対象として『日本書紀』を取り上げ,複数のLLMを用いて,固有表現(人名・地名),発話箇所,引用箇所の抽出およびマークアップを実施する.独自の評価基準を整備し,抽出範囲の一致度や属性付与の妥当性等の観点から各LLMを評価し比較を行う.誤りの類型化と比較分析を通じて,日本漢文の構造化データ作成の効率化,ひいては個人による人文データ構築におけるLLM活用の可能性と現状の問題点について論じる.
10:00-10:20
(4) マルチモーダルLLMを活用した学術文献のテキスト抽出と構造化データの補正: ギザのピラミッド文献を事例に
○生駒流季(名古屋大学 デジタル人文社会科学研究推進センター)
・岩田直也(名古屋大学 デジタル人文社会科学研究推進センター/国立情報学研究所 コンテンツ科学研究系)
・河江肖剰(名古屋大学 デジタル人文社会科学研究推進センター
既存の学術文献のデジタルデータは、OCRの読み取り精度やGROBID等のツールによるテキストの構造化などの精度の低さが課題となってに改善の余地を残している。本研究稿では、マルチモーダルLLMを活用して高精度なテキスト抽出を行うとともに、その情報と元画像を文書構造化ツールGROBIDの出力した構造化データと照合させることで、構造化データの不備誤りを自動補正する手法を試行した提案する。ギザのピラミッドに関する文献を対象に本手法を適用し、生成されたデータの品質を一部手動で確認・評価した。本稿では、従来の手法では解決が困難であった構造化の課題に対し、マルチモーダルなアプローチがどこまで有効に機能したか、またどのような問題が依然として残されているかを報告する。
9:00-10:20 セッション1 B会場
9:00-9:20
(5) ゲームアーカイブにおけるパッケージ画像の視覚セマンティック検索手法の構築と評価
○福田一史(立命館大学 映像学部)
本研究は、ゲームアーカイブにおける探索的アクセスを改善するため、マルチモーダルAIモデルを用いたゲームパッケージ画像の視覚セマンティック検索手法を構築し、その有効性を評価した。研究素材として、立命館大学ゲーム研究センターが公開する14,470点のパッケージ画像および関連資料を用いた。まず、CLIP(clip-vit-large-patch14)を用いて全画像をベクトル化し、Qdrantによる近似近傍探索を組み合わせて自然言語クエリに応答する検索システムを実装した。次に、探索的クエリを中心にPrecision@10およびMRRによる定量的評価を行い、モデルの言語バイアスにより日本語クエリよりも英語クエリの性能が高いこと、オブジェクトやシリーズ名では高い適合性が得られる一方、抽象概念ではばらつきが大きいことが確認された。さらに、UMAPを用いたベクトル空間の可視化により、アートスタイルや構図に起因するクラスタが形成されることを明らかにした。本研究は、メタデータのみでは捉えられない視覚的特徴を検索可能にすることで、ゲームアーカイブにおける新たな探索手法の可能性を示すものである。
9:20-9:40
(6) Triangulating Circles: Introducing Sangaku to New Audiences
○Karaisl Antonia(Waseda Institute for Advanced Study (WIAS))
The Sangaku Archive Project aims to document all extant sangaku, votive tablets with mathematical problems dedicated in temples and shrines throughout Japan from the Edo period onwards, in an open-access digital archive (sangaku-archive.org). Sangaku and wasan, Japan's own mathematics, are little known outside specialist circles to date. The project thus strives to introduce this phenomenon to new audiences inter- and nationally. The data collection relies on collaboration with various stakeholders, including a countrywide network of private researchers who dedicate time and effort to documenting sangaku. Given the idiosyncratic nature of this network, the prior knowledge and shared interests of the contributors at the source do not necessarily align with those of potential new audiences - and questions arise about a mode of presentation that can mediate between the two. Proposed contribution will report on the status quo of the project in the light of this challenge.
9:40-10:00
(7) 大学アーカイブズの資料提供を支える請求記号階層モデルと自動申請書作成の検討
○片倉峻平(東北大学史料館)
・半澤智絵(東北大学附属図書館)
・柳原幸子(東北大学附属図書館)
・加藤諭(東北大学史料館)
・岡安儀之(東北大学史料館)
本発表は、大学デジタルアーカイブでの資料検索と大学アーカイブズにおける閲覧・複写等の利用申請手続きとを、一連のプロセスとして扱えるようにするための設計検討を報告する。対象は、東北大学史料館が管理するアーカイブズ資料であり、部局・年度・冊次等を一つの文字列に織り込んだ独自の請求記号体系のもとで整理・運用されてきた。国際的な標準にもとづく階層記述が普及する一方で、史料館で運用されてきた請求記号は物理単位と論理単位が混在し、標準的な階層モデルにそのまま当てはめにくい。また、大学デジタルアーカイブ上の目録で資料を見つけても、申請手続きが別経路に分かれていることが利用者にとっての負担となってきた。 そこで本研究では、請求記号を構成要素に分解し、探索のための属性と資料群内部の階層要素とを切り分けてモデル化することで、既存の整理体系を保ったまま、画面上での理解と検索のしやすさを両立させる方針を検討した。あわせて、検索・詳細画面で選択した複数資料の情報を申請書テンプレートに反映し、必要な資料情報があらかじめ整った申請書を少ない操作で作成できるワークフローを設計した。これにより、利用者の記入負担を減らし、機関側の確認・訂正作業の発生も抑えることを目指す。現在は実装に向けた要件定義と設計の段階にあり、本発表ではその設計方針と整理の考え方を共有する。
10:00-10:20
(8) セマンティックWeb技術を活用した民俗資料館のためのWeb管理システムとデジタルアーカイブの構築
○朱成敏(山梨県立大学)
・上松大輝(国立情報学研究所)
・南山泰之(東京大学)
・村松圭子(韮崎市民俗資料館)
・閏間俊明(韮崎市民俗資料館)
・武田英明(国立情報学研究所)
地域の民俗資料館は、地域に関わる多様な資料を収集・展示しており、地域社会の文化的・歴史的背景およびその意義を理解するための重要な拠点となっている。近年、地域文化の保存・継承を目的として、関連情報のデジタル化やデジタルアーカイブの整備が推奨されている。しかし、多くの民俗資料館では台帳を中心とした独自の管理体制により資料管理が行われてきたため、所蔵資料の体系的なデジタル化やデジタルアーカイブ化が困難であるという課題がある。本研究では、これらの課題に対する解決手法として、セマンティックWeb技術を用いて所蔵資料を対象とした知識グラフを構築し、資料の分類および関連情報の定義を行う。さらに、これにより所蔵資料管理のデジタル化を実現するとともに、外部の情報体系との連携を視野に入れたメタデータのオープンデータ化を行う。
10:20-10:30 休憩
10:30-11:50 セッション2 A会場
10:30-10:50
(9) 中央アジア地域研究におけるロシア語形態素解析器の適性評価 ―トルクメニスタンのメディアを用いた比較―
○鈴木朝香(東京大学大学院学際情報学府)
・塚越柚季(東京大学大学院人文社会系研究科)
・小川潤(東京大学大学院人文社会系研究科)
・大向一輝(東京大学大学院人文社会系研究科)
ロシア語は旧ソ連地域の共通語として現在も広く用いられているが、中央アジア地域で使われるロシア語には現地民族語のキリル文字表記が多数混在する。そこで本発表では中央アジアのロシア語メディアを分析対象とする際に適した形態素解析器を検討するため、特にトルクメニスタンのメディアを使用して、それらのレマ化の精度を比較する。
10:50-11:10
(10) ヒッタイト語粘土板文書の翻字データに対する検索システムの試作
○山内健二(理化学研究所)
・川浪拓也ティモスィー(東京大学)
・山本孟(筑波大学)
・塚越柚季(東京大学)
ヒッタイト語は後期青銅器時代のアナトリア半島で使用されていた言語であり、楔形文字を用いて記録された粘土板文書として主に現存する。ヒッタイト語の楔形文字粘土板文書の大多数はラテン文字に翻字され、マインツ科学文学研究所ヒッタイト学アーカイブが提供するオンラインポータルサイトHethitologie Portal Mainzにて公開されている。本発表では、マインツ科学文学研究所ヒッタイト学アーカイブより提供されたxml形式の翻字データを対象とした試作的な検索システムの開発について報告する。
11:10-11:30
(11) 複製史料の来歴情報から見る史料収集活動:東京大学史料編纂所における明治期と現在の比較
○大月希望(東京大学 史料編纂所)
・井上聡(東京大学 史料編纂所)
・寺尾美保(立教大学 文学部/東京大学 史料編纂所)
・中村覚(東京大学 史料編纂所)
・小川潤(東京大学 大学院人文社会系研究科)
・大向一輝(東京大学 大学院人文社会系研究科)
・山田太造(東京大学 史料編纂所)
東京大学史料編纂所は、およそ150年にわたって史料を収集し調査研究や複製を行っている。本研究では、複製史料の来歴情報の分析を通じて、明治期と現在における史料収集から複写、保存に至る過程を比較検討する。分析対象として、明治期については影写本・謄写本に関する『往復』(史料貸借に関する往来信の綴り)、目録、記録類を、現在については史料画像デジタル化進捗管理システムによって付与される来歴情報を用い、両時期の史料収集活動の特徴を明らかにし比較分析を行う。
11:30-11:50
(12) ソフトウェア開発とデジタルコンテンツ共同制作 における協働構造の比較分析
○錦織晃太郎(総合研究大学院大学/国立情報学研究所)
・武田英明(国立情報学研究所/総合研究大学院大学)
ソフトウェア開発分野においてオープンソース(OSS)モデルは多大な成功を収めたが、デジタルコンテンツ制作の分野では同様の成功例は未だ限定的である。機能的整合性を追求するソフトウェアと、文脈的多様性を重視する物語コンテンツとでは、その根本的な構造が異なるためである。本研究では、両者の協働プロセスを「指向性(収束・拡散)」「品質管理(事前阻止・事後淘汰)」など4つの軸を用いて比較分析する。Vtuber切り抜き文化などの事例分析を通じ、OSSが「収束」を志向するのに対し、コンテンツ共創は「拡散」とコミュニティによる「事後淘汰」を志向することを明らかにする。こうした構造的差異を踏まえると、次世代の共創環境には、単なる技術的統合を超えた、多様性と曖昧さを「資源」として活用する社会的な仕組みが求められ、OSS的な統合管理ツールの単なる適用ではなく、矛盾や分岐を許容し、自然淘汰のメカニズムを機能させる独自のエコシステム設計が不可欠であることが示唆される。
10:30-11:50 セッション2 B会場
10:30-10:50
(13) 造字原則に基づいた片仮名の系統分類の試み
○河合翼(法政大学)
・白鳥詩織(中央大学)
平安時代の略体仮名の進化を,略体仮名は字母となる漢字の初画もしくは終画からとるという造字原則への違反を系統的シグナルと見なして計量的に分析した.461点の訓点本を対象に系統ネットワークを作成した結果,星状系統樹となり,明確な分岐構造は見られなかった.この結果に基づき,略体仮名の体系は中核となる造字原則と供給源の万葉仮名,および少数の固定化された字種からなるとする仮説を提唱する.ただし,使用した形質行列が疎であったことから分析に失敗した可能性も否定できず,今後,すべての字種によって形質行列を作成してこの仮説を検証する必要があると考えられる.
10:50-11:10
(14) 借用耐性のある形質を用いた系統ネットワーク―愛媛県の言語はいくつあったか?―
○白鳥詩織(中央大学)
愛媛県の諸言語は,日琉祖語の再建において重要な情報を保存する可能性があるにも拘らず,記述の乏しさや複雑な言語接触・不完全系統仕分けの影響により,基礎語彙表を使用する従来の系統言語学的手法の適用が困難であった.本研究では,既存の「俚言」の記録から,借用耐性のある171の語彙形質と144の文法形質(計318形質)を抽出し,NeighborNet法および多重対応分析を使用して系統ネットワークを構築・分析した.その結果,愛媛県の諸言語は単一の方言連続体ではなく,網状構造を示しつつも,少なくとも「瀬戸内海島嶼」「高縄半島西部」「大洲」「渭南+宇和」と称すべき4つの異なる局所集団を包含する可能性が明らかになった.本報告は,方言区画論を系統論的な観点から再評価するとともに,資料の乏しい言語変種に対する新たな仮説探索の手法を提案するものである.
11:10-11:30
(15) ヲコト点図の計量的比較に向けた類似度アルゴリズムの提案
○兪翕侖(筑波大学)
・堤智昭(筑波大学)
・田島孝治(岐阜工業高等専門学校)
・高田智和(国立国語研究所)
・小助川貞次(富山大学)
本研究は、漢籍・仏典の訓読のために発達した「ヲコト点」を図示化したもの、「ヲコト点図」を対象とする。訓点研究において、ヲコト点図は異なる流派や研究者の解釈によって構成が異なりうるため、それらの差異を比較することは極めて重要である。しかし、現状では統一的な計量指標が確立されておらず、比較や分類は依然として研究者の質的な検討に大きく依存している。 そこで本研究では、点図間の差異を客観的かつ計量的に比較可能な「類似度アルゴリズム」を提案する。提案手法では、点図の電子化データを用い、各ヲコト点について読み・形状・位置の三要素を比較し、一致/不一致の組合せから8種類の差異イベントを定義し、各イベントに0から1の重みを与えて類似度を算出した。さらに、ランダムサーチによって各イベントの重みの最適化を図った。 その結果、本類似度アルゴリズムによって、訓点研究者によって既に明らかにされていた点図間の関係を類似度として計量的に再現できることを確認した。
11:30-11:50
(16) TEI Lex-0に基づく南琉球八重山鳩間方言辞典のXML化
○王一凡(人文情報学研究所/国立国語研究所)
・中川奈津子(九州大学)
本発表では、南琉球八重山鳩間方言を記述した『鳩間方言辞典』を TEI Lex-0 形式で構造化した取り組みを報告する。『鳩間方言辞典』は単に方言語彙のみならず人名、地名などの固有名詞、貴重な文化的事項の解説、特に歌謡を豊富に記録している大部の著作である。TEI Lex-0 は人文学における構造化テキストの標準である TEI 形式を辞書用に拡張したスキーマである。本辞典のデータを構造化するにあたっては、内容に含まれる文化的な価値ある情報をできるだけ明示的に表現できるようにすることを目的とし、歌などの内容を構造化できる辞書項目の構成手法を提案する。さらに、その過程における原著からの暗黙的な構造の抽出や、データの正規化、標準との整合性への考慮、標準に不足する要素の処理についても解説する。
11:50-13:00 休憩
13:00-14:20 セッション3 A会場
13:00-13:20
(17) IIIFとAIを用いた蔵書印ツールコレクションの開発―蔵書印DB移転とAI篆字認識開発を契機として―
○永崎研宣(一般財団法人人文情報学研究所/慶應義塾大学)
・本間淳(フェリックス・スタイル)
本稿は,蔵書印をめぐる研究支援環境として,蔵書印データベース(蔵書印DB)を中核にAI篆字認識と篆字部首検索を統合した「蔵書印ツールコレクション」の成立と展開を整理する.2008年の構想,2012年の一般公開,2015年以降の科研費による高次利用を経て,2023年の研究事業中断後も,DBの公開継承と利用許諾の再取得,IIIF対応の協働切り出しによる篆字データセット整備を進めた.篆字データセットを用いた深層学習の結果から,ラベル基準統一等の課題を示すとともに,AIは最終同定の自動化ではなく候補提示による読解支援として位置づける.
13:20-13:40
(18) LLMを用いた近代教科書画像データのXML文書化 ーGemini 3によるTEI自動アノテーションの評価と分析ー
○金賢眞(総合研究大学院大学(学生)/大阪大学)
・小木曽智信(国立国語研究所)
近年のマルチモーダルLLMの進化は、OCR処理だけでなく、新規コーパス構築のためのXML文書化に要する労力を大幅に軽減し得る。本発表では、明治期教科書の画像データを対象に、Gemini 3を用いて画像からTEI準拠のXMLを直接生成する自動構築手法を検証した。検証の結果、本文テキストの抽出と、段落・見出し等の基本的構造推定においては概ね良好な精度が確認された。一方で、ルビ付与の精度や、生成結果の忠実性に関しては、歴史的資料特有の課題も明らかとなった。そこで本発表では、これらの誤りを種類別に分類・分析し、LLMによる近代教科書のXML化における現時点の到達点と限界を整理する。
13:40-14:00
(19) 印刷資料における漢文OCR精度向上に向けた返点付き漢文OCRデータセットの構築
○久保旭(京都大学人文科学研究所)
本研究では,印刷資料における漢文OCRの精度改善を目的として,返点付き漢文OCRデータセットの構築を行う.既存の漢文を含むOCRデータセットは古典籍を中心に構成されており,新たに印刷資料に特化したデータセットを構築するためにはテキストと画像の対応付けが必要になるが,この作業コストは大きい.そこで,本研究では返点付き漢文を多く含む"古事類苑"の全文テキストをレンダリングして得られる擬似紙面画像とテキストのペアを初期のファインチューニングに用い,段階的にデータセットを構築する.加えて,構築したデータセットを用いてOCRモデルをファインチューニングし,認識精度を報告する.
14:00-14:20
(20) 海外邦字新聞のテキストデータ化に向けたマルチモーダルLLM活用の予備的検討
○ヤマモト・ビクトル・エイイチ(総合研究大学院大学)
・武田英明(総合研究大学院大学)
海外邦字新聞は移民史研究の重要資料であるが、複雑な段組みや経年劣化等のため、既存OCR技術のみでのテキスト化は困難であった。本研究では、サンパウロ発行の「伯剌西爾時報」を対象に、自動文字起こしに向けた予備的検討を行う。具体的には、マルチモーダルLLMと従来型OCRの手法を比較・統合し、その有効性を検証した。本稿では、初期実験の結果に基づき、各手法の認識精度と技術的課題について報告する。
13:00-14:20 セッション3 B会場
13:00-13:20
(21) 伊藤漱平訳『紅楼夢』の改訳変遷に関する計算文学研究
○王子睿(北京語言大学/総合研究大学院大学)
・呉珺(北京語言大学)
・山田奨治(国際日本文化研究センター/総合研究大学院大学)
中国古典文学の最高峰とも言われる『紅楼夢』の日本における受容史において、伊藤漱平(1925-2009)が40年にわたり実施した改訳作業は特筆すべき業績である。本研究は、先行研究で指摘される伊藤漱平による2回にわたる改訳について、その規模と文体的傾向を体系的に解明することを目的とする。そのため本研究では、計量的手法と精読を組み合わせたアプローチを採用した。まず、パラレルコーパスに編集距離および最長共通部分列(LCS)アルゴリズムを適用し、改訳規模を客観的に測定した。次に、LCSにより抽出された各改訳パターンに該当する用例を精読し、その傾向を質的に分析した。その結果、第一次改訳は語りの視点や敬語の格上げするなどに重点を置いているのに対し、第二次改訳は女性の呼び方や登場人物の情感などをより精密に再現することに重点を置いていたことが明らかになった。
13:20-13:40
(22) 物語文の自動評価における多次元項目反応理論を用いた評価モデル統合手法の検討
○有馬士央(早稲田大学大学院人間科学研究科)
・菊池英明(早稲田大学)
本研究は,日本語の物語文に対する複数の自動評価指標を項目反応理論(IRT)で統合し,人間評価に近い一貫した単一尺度(θ)を構築することを目的とする。外部基準には既存の物語文評価モデルであるStoryERの人手評価を採用し,BERTScore,MoverScore,METEORなどのスコアを対象とする。各指標は表記正規化ののち分位に基づく段階化(1-5)を行い,多段階部分点モデル(GPCM)に投入して文書ごとの潜在品質θを推定する。妥当性は,人手評点との比較によって評価する。また,項目特性曲線(ICC)と項目情報量を用いて,各指標が低から高品質のどの帯で情報的かを可視化し,指標間の役割分担を明らかにする。
13:40-14:00
(23) TopiCLEAR:適応的次元削減を用いた埋め込み表現のクラスタリングによるトピック抽出
○藤田葵(東京大学大学院新領域創成科学研究科)
・山本泰智(東京大学大学院新領域創成科学研究科)
・中山悠理(東京大学大学院新領域創成科学研究科)
・小林亮太(東京大学大学院新領域創成科学研究科/東京大学 数理・情報教育研究センター)
X(旧 Twitter),Facebook,Reddit などのソーシャルメディア基盤の急速な拡大により,社会問題,政治,自然災害,消費者感情といった多様な話題に関する世論を大規模に分析できるようになった。トピックモデリングは,テキストデータに潜むテーマを抽出するための代表的手法であり,通常は教師なし学習に基づくトピック抽出問題として定式化される。しかし,従来手法は,もともと長く形式的な文書を想定して設計されているため,短いソーシャルメディア投稿に対しては,共起統計の乏しさ,意味の断片化,つづりの不統一,口語的でくだけた表現などの理由から性能が低下しやすい。これらの課題に対処するため,本研究では TopiCLEAR(Topic extraction by CLustering Embeddings with Adaptive dimensional Reduction)という新手法を提案する。具体的には,各テキストを Sentence BERT(SBERT)で埋め込み表現に変換し,Gaussian Mixture Model(GMM)により暫定的にクラスタリングする。続いて,線形判別分析に基づく教師あり射影により適応的に次元削減を行い,GMM によるクラスタリングを収束まで反復しクラスタを逐次精緻化する。特筆すべき点として,本手法は前処理なしのテキストを直接扱い,ストップワード除去などの前処理を不要とする。評価では,人手でトピックラベルが付与された 4 つの多様なデータセット(20News,AgNewsTitle,Reddit,TweetTopic)を用いた。近年の SBERT ベース手法やゼロショットの生成 AI 手法を含む 7 つのベースラインと比較した結果,本手法は人手注釈トピックとの類似度が最も高く,ソーシャルメディア投稿とオンラインニュース記事の双方で有意な改善を示した。さらに定性的分析により,本手法はより解釈しやすいトピックを生成できることが確認され,ソーシャルメディアデータおよびウェブコンテンツ分析への応用可能性が示された。
14:00-14:20
(24) BERTによる影響分析: 文学テクストの単語埋め込みを考える
○橋本健広(中央大学)
本研究では、BERTによる単語埋め込みを使用した文学テクストの影響分析を行い、類似度と文学研究における影響分析の関係を考える。文学批評の観点から、単語埋め込みベクトルの可能性を検討する。対象とするテクストはサミュエル・テイラー・コールリッジ『オソーリオ』(1797)およびウイリアム・ワーズワス『辺境者たち』(1797-99)の二つである。分析の結果、殺人者の逡巡を表す場面の類似度が高かった。同質の心理描写のペアが値が高く、これは単語埋め込みによる一定の影響関係を示すものといえる。単語埋め込みによる類似度の計算は、テクストの話題の類似を示すと考えられる。しかしながら、あるテクストが別のテクストに刺激を受けて生成されるという文学研究の影響には、これまでの文学批評における文学テクストの読みの要素が含まれていると考えられる。単語埋め込みがあらゆる影響を示すかどうか、どのように単語埋め込みを使用して影響を示すことができるかはいまだに未定であるが、批判的に考察を続ける必要はあるだろう。
14:20-14:30 休憩
14:30-16:10 セッション4 A会場
14:30-14:50
(25) 少数事例の科学技術政策に関する定量分析ケーススタディー日米の小惑星探査ミッションの比較ー
○太田由宇(北陸先端科学技術大学院大学)
・小泉周(北陸先端科学技術大学院大学)
・持橋大地(統計数理研究所)
・中分遥(北陸先端科学技術大学院大学)
本研究は,少数事例しか存在しない科学技術政策に対し,多数存在する文献データを活用する定量分析ケーススタディを試みるものである.事例として,日本の小惑星探査ミッション(はやぶさ・はやぶさ2)および米国OSIRIS-RExの3件を対象に,Scopus APIを用いて,発射前後および帰還前後の文献数と分野構成を比較した.その結果,発射前後, 帰還前後の文献数や分野構成について日米の共通点,相違点が確認できた.本結果は,宇宙科学政策のみならず,少数事例を対象とする科学技術政策において,定量的分析を導入する枠組みを提案するものである.
14:50-15:10
(26) 畳み込みニューラルネットワークを用いた縄文の分析手法の検討
○鴨下真由(東海大学 総合理工学研究科)
・牧野浩典(東海大学 大学院工学研究科)
・葛巻徹(東海大学 総合理工学研究科)
本研究では、縄文土器の縄目文様を対象とし、畳み込みニューラルネットワークを用いた文様分析を行う。縄文土器は時代や地域によって多様な特徴を有している。これらの特徴は土器の型式として整理されているが、その記述や型式判別には研究者ごとの差が存在する。土器の型式判別を行い、土器の文化圏を把握するためには、こうした多様な土器の特徴を客観的に表現できる分析手法が求められる。そこでResNet50および自作した縄文原体データを用い、縄目文様のパターン、施文方法、製作者の特徴抽出について検討を行っている。本発表では、ResNet50を用いた縄目文様の種類判別手法と、現時点で得られている分析結果について報告する。
15:10-15:30
(27) Omeka Sを用いた手描きアニメーション中間生成物のデジタル化資料とナレッジグラフの統合的デジタルアーカイブの構築
○冨田陽向(筑波大学大学院人間総合科学学術院人間総合科学研究群情報学学位プログラム)
・川喜田哲都(筑波大学情報学群情報メディア創成学類)
・三原鉄也(筑波大学人文社会系)
・永森光晴(筑波大学図書館情報メディア系)
著者らは,手描きアニメの中間成果物を対象に,動きを構成する複数の原画および動画のデジタル化画像をIIIFを用いてアニメーションとして再生する閲覧環境の構築と制作過程に即して資料間の関係を記述するナレッジグラフの構築を行ってきた.本研究では,Omeka Sを用いてこれらを統合的に提供するデジタルアーカイブシステムを構築した.本システムではOmeka Sに保存したメタデータからIIIF Manifestの出力とRDF形式のナレッジグラフの生成・トリプルストアへの保存を既存のmoduleを用いて一括して行うことを実現した.従来は別々に行うことが一般的であったIIIF manifestの生成とナレッジグラフの構築を同時に行うことが可能になり,データの管理・運用のコストを抑えつつデジタルアーカイブの高度な閲覧と検索のための機能を提供することが可能になった.
15:30-15:50
(28) 地上デジタル放送における音声と字幕データを活用した放送内容のテキスト化と要約手法の検討
○阿達藍留(東京大学大学院人文社会系研究科)
・塚越柚季(東京大学大学院人文社会系研究科)
・大向一輝(東京大学大学院人文社会系研究科)
本研究では、日本の地上デジタル放送における音声と字幕のデータを利用して放送内容をテキスト化し、大規模言語モデル(LLM)を用いてキーワード抽出および要約を行う手法を提案する。AIによる音声の書き起こしは、タイムスタンプによる映像との同期が容易である反面、人名・地名といった固有名詞や同音異義語の認識精度に課題が残る。一方、字幕データは主に専門のオペレーターによって付与されているためテキストとしての正確性は高いが、生放送においては入力作業に伴う遅延や、CM・放送時間の制約による文章の途中終了・欠落が起こり得る。 そこで本研究では、LLMを用いて両者のデータを統合・相互補完することで、テキスト化の精度向上を図る。さらに、統合されたテキストから放送内容の理解に資する重要語句の抽出と要約生成を行う。本手法により、放送内容の効率的な分析が可能となるだけでなく、デジタルアーカイブにおける映像資料のメタデータ拡充や、検索性の向上に寄与することが期待される。
15:50-16:10
(29) 人文学におけるオープンサイエンスを前提としたテキストデータ共有に向けた現状と課題
○永崎研宣(一般財団法人人文情報学研究所/慶應義塾大学)
・岡田一祐(慶應義塾大学)
・高須賀萌(慶應義塾ミュージアム・コモンズ)
近年,オープンサイエンスの理念のもとで,研究データの共有と再利用が学術研究全体において重要な課題となっている.本稿は,人文学におけるオープンサイエンスを前提としたテキストデータ共有について,論文のオープンアクセスではなく研究データに焦点を当て,学術情報流通の変化という観点からその現状と課題を整理する.人文学におけるテキストデータは,解釈や選択を伴って構築される研究成果の一部であり,単なる文字列として扱うことはできない.この特性を踏まえ,本稿では,テキストの内部構造や記述方針を明示的に記述する「構造化テキスト」の意義を示し,国際標準に基づく記述が学術情報流通において果たす役割を検討する.さらに,日本の人文学における国際標準受容の遅れや,それに対する近年の人文学DX事業を含む政策的動向にも触れ,構造化テキストを基盤としたテキストデータ共有が抱える技術的・方法論的課題を明らかにする.最後に,教育とコミュニティ形成の重要性を指摘し,人文学研究の実践を可視化しつつ持続的に共有していくための基盤について総括する.
14:30-16:10 セッション4 B会場
14:30-14:50
(30) 協働的な学びを促進する人間関係構築と環境整備―岡山県真庭市アンケート調査のテキストマイニング分析より―
○平松孝博(岡山大学)
・菊池僚(岡山大学)
・婁帥池(岡山大学)
・石田友梨(岡山大学)
本研究は,2025年岡山県真庭市で実施された「真庭市いじめ問題対策基本方針」改訂に向けた自由記述アンケート調査のテキストマイニング分析を行った.その結果,児童生徒が挙げる「夢中になる授業」には協働的な学びの要素が多く見られたことなどから,いじめのない人間関係や環境が確保され,安心して自己を表現できることが授業の充実に繋がることが示唆された.
14:50-15:10
(31) いじめに対する認識の差異-KH Coderを用いた児童生徒・教員・保護者の自由記述回答分析より-
○菊池僚(岡山大学)
・石田友梨(岡山大学)
本発表では、岡山県真庭市のアンケート調査を用いてテキストマイニング分析を行い、児童生徒・教員・保護者のそれぞれがいじめの問題に対してどのように捉えているのかを把握し、その差異を明らかにすることを目的とする。
15:10-15:30
(32) 聞き取り調査によるオーディオブック読書の特徴分析
○會澤太一(筑波大学知識情報・図書館学類)
・佐々木雪人(筑波大学情報学学位プログラム)
・宇陀則彦(筑波大学図書館情報メディア系)
近年、オーディオブックによる読書が普及しつつある。しかし、聴覚に基づくオーディオブック読書は、紙や電子媒体による視覚的な読書とは体験が異なる可能性がある。そこで本研究では、オーディオブック読書の特徴を明らかにすることを目的とし、大学生および大学院生の計20名を対象にインタビュー調査を行った。まず同一の書籍をオーディオブックと紙媒体の双方で読書する比較実験を行い、次に半構造化インタビューを実施した。インタビューでは聴取時の印象、紙媒体との差異、読書への没入感などの主観的な評価について調査した。本発表では、その結果をもとにオーディオブックに固有の特徴や、従来の読書との差異、およびそれらをもたらす要因などについて考察する。
15:30-15:50
(33) ロケーションベース型ARを用いた博物館鑑賞支援システムの構築と評価
○西脇壮海(公立はこだて未来大学大学院)
・奥野拓(公立はこだて未来大学)
本研究では、ロケーションベース型ARを用いて、展示資料と関連するデジタルアーカイブ上の資料をシームレスに提示する鑑賞支援システムを構築している。本システムは、学芸員が資料情報を登録する資料登録アプリケーションと、来館者が展示資料および関連・類似資料の情報を閲覧する資料閲覧アプリケーションから構成される。自己位置の推定には、カメラ画像と事前に作成した点群マップを照合することで位置を特定するVisual Positioning System (VPS) を採用している。また、関連資料の抽出には、深層学習モデルのSimCSEモデルを導入している。さらに、AR表示の視認性向上を目的として、ユーザとの距離に応じて情報の詳細度を段階的に切り替えるLevel-of-Detail ARの概念を適用し、各段階における解説文の生成には大規模言語モデル(LLM)を活用している。市立函館博物館にて提案システムの評価実験を行っている。
15:50-16:10
(34) 知識コモンズにおける「財」としての人的リソース:資料・ツール・コミュニティの相補的連携に着目して
○関慎太朗(理化学研究所)
本報告では文化や知識の共有に焦点を当てた「新しいコモンズ研究」の一環として,インターネット上で形成される知識コモンズを分析対象とし,公共財的性格を持つ知識資源がいかに持続的に管理・発展しうるのかを明らかにする.とりわけ著作権の切れたクラシック音楽の楽譜を機械可読な形式で収集・共有する「デジタル楽譜コモンズ」に注目し,アーカイブによる楽譜資料の収集,オープンソースの楽譜制作ツールの開発,そしてインターネット上での翻刻作業を担う協働コミュニティという三者の連携が相補的役割を果たしながら知識と人的リソースを共有することで,持続可能なコモンズとしての知識資源の形成がいかに可能となっているのかを検討する.
16:10-16:20 休憩
16:20-17:20 企画セッション
17:20-17:30 クロージング
お申し込みはこちらから
ch-madoguchi■jinmoncom.jp(@を■に変更しています)