主査: 耒代誠仁
幹事: 鹿内菜穂、中村覚、西岡千文、橋本雄太
※重要・ご注意※
第131回研究会は、新型コロナウイルスの影響に鑑み、オンラインで実施することにいたしました。
情報処理学会人文科学とコンピュータ研究会(IPSJ SIG Computers and the Humanities)では、下記の通り第131回研究会発表会の開催を予定しております。歴史、地理、芸術、民俗、文学、言語、社会などなど、様々な人文科学の諸領域での情報資源の記録、蓄積、分析、提供や応用に関わる研究発表をお考えの方はぜひ奮ってご応募ください。
********************
日時 2023年2月18日(土)
会場 オンライン開催
発表申込締切 2023年1月5日(木) 2023年1月12日(木)
原稿提出締切 2023年1月26日(木)
********************
※ロング/ショートいずれも2~8pの予稿の提出が必要となります(この範囲であれば枚数は自由です)。
※予稿のフォーマットは情報処理学会のページをご参照ください。
※今回は一般口頭発表のみの募集と致します。
2023年2月18日(土)
13:00-13:10 開会挨拶
13:10-14:10 セッション1
13:10-13:30 (1) 多様なくずし字画像に対応するアノテーションデータセット収集システムの試作 ○吉賀夏子(佐賀大学地域学歴史文化研究センター) ・橋本雄太(国立歴史民俗博物館)
近年,AI自動翻刻による古典籍の解読とテキスト化が加速している.しかしながら,「小城藩日記目録」のような江戸期の藩の公文書では概ね漢字で記載されている一方,古典籍では変体仮名が多用されるため,古典籍データを利用したAI翻刻システムを公文書のデータに対しても使用すると,文字の位置は高精度に判定できるものの正確な文字種の判定精度が低下する結果となる.したがって,多様な文書スタイルで書かれた多くのくずし字文書を最終的にテキスト化してデータ共有するにあたっては,自動翻刻の適用後に手動による正解データ作成作業も不可避であり,これを支援するシステムが求められる.本報告では,試作した正解データセットの作成を支援するシステムの概要と本システムを用いた翻刻確認作業の進捗について説明する.
13:30-13:50 (2) 歴史災害資料のマークアップシステムの試作 ○橋本雄太(国立歴史民俗博物館)
ここ数年の間に,江戸時代以前の災害史料のデジタルテキスト化が急ピッチで進行した.一方で,翻刻された歴史資料は自然言語で記述された非構造化データであり,災害研究に有用な情報を史料から抽出するには,人間がテキストを読解し,吟味する必要がある.本論文では,歴史災害史料のテキストを効率的に構造化データへと転換することを目的として開発しているマークアップシステムについて報告する.本システムは①テキスト中に登場する日時や場所表現をマークアップし,②マークアップされたテキストを外部の知識ベースで公開される地名や人物などのエンティティにリンクすることを可能にする.このプロセスを通じて,史料から時空間情報など災害研究に有用な情報を構造化データとして抽出可能にすることを目指す.
13:50-14:10 (3) 地震史料集テキストデータへの地理情報の統合 ○加納靖之(東京大学地震研究所/地震火山史料連携研究機構) ・大邑潤三(東京大学地震研究所/地震火山史料連携研究機構)
東京大学地震火山史料連携研究機構が公開した「地震史料集テキストデータベース」では,既刊の地震史料集に収集されている地震や火山噴火に関する史料を,本文や書名等で検索できるようになっている.また,地震史料集では,綱文として,各史料に書かれている地震や噴火等の発生年月日や影響を受けた地域名(旧国名など)も掲げられており,これらも検索語句として利用できる.地震や火山噴火の分析には,被害等の地域的な分布が重要であり,どの場所の史料であるのか,あるいは,史料にどの場所が書かれているのかといった地理情報が提供されていることが望ましい.「地震史料集テキストデータベース」では2系統の地理情報を表示できるように作業を進めるのがよいと考えている.ひとつは,書名に付された史料そのものや所蔵者の所在地の情報である.これは町や村に対応するものや出典が自治体史の場合は自治体名に対応する.「歴史的行政区域データセットβ版」で地名を検索し,そのIDと紐づけ,緯度経度を取得している.もうひとつは,本文中の地名の情報である.この場合,本文から地名を抽出し地理空間情報を付与する必要がある.論文やデータセットとして公表されている地理空間情報を利用する,人手によって新たに地名を分析する,自然言語処理によって地名を抽出する,などさまざまな手法を併用して地理空間情報のデータ化を進めている.
14:10-14:20 休憩
14:20-15:20 セッション2
14:20-14:40 (4) 博物館におけるデジタルアーカイブを活用した鑑賞支援システムの構築 ○浦田柊(公立はこだて未来大学) ・奥野拓(公立はこだて未来大学)
博物館は数多くの資料を所蔵しているが,展示されている資料は一部だけである.関連性があり共に展示することが望ましいにも関わらず,展示スペースの制約から展示されていない資料も存在する.また,類似性はあるが別の場所に展示されている資料があることも考えられ,それらを博物館で探すことは難しい.近年では,歴史資料をデジタルアーカイブ化する取り組みが進められ,博物館に展示されていない資料や,見えない部分の閲覧が可能になっている.そこで本研究では,博物館における鑑賞を支援するために,閲覧中の資料と類似性や関連性のある資料をスマートフォン上に表示するシステムを構築する.閲覧中の資料の特定方法としてQRコードなどを検討している.特定した資料と関連性や類似性のあるデジタルアーカイブの資料をスマートフォン上に表示する.資料間の類似性はデジタルアーカイブの資料に付与されている資料名,摘要を利用して求める.資料名と摘要に含まれる名詞を形態素解析で抽出し,TF-IDFの結果を用いてBoWでベクトル化する.ベクトル化された資料名と摘要からそれぞれのコサイン類似度を求めることによって資料間の類似度を算出する.資料間の関連性はデジタルアーカイブの資料に付与されている収集地を利用して求める.収集地が近いものほど関連性が高いと考えられるため,収集地間の距離を求め,その距離に応じた資料間の関連度を求める.
14:40-15:00 (5) 料理レシピに使用された材料時系列データのNMFによる解析 ○小山一樹(立教大学大学院人工知能科学研究科) ・大西立顕(立教大学大学院人工知能科学研究科)
日本のみならず世界中で料理レシピが投稿されているが,様々な種類のレシピが投稿されているため,それらのレシピに使われる材料も膨大な種類存在する.本研究ではクックパッドと楽天レシピのデータを使って,材料の時系列データの解析を行う.ただし計測期間内に投稿された材料ごとの総投稿件数はべき則に従っていたため,1000回以上使われた材料のみを解析する.こうして投稿されたレシピの材料データから時系列データを作成し,日々の投稿件数のみを使って非負値行列因子分解によるクラスタリングを行う.非負値行列因子分解とは行列を少ない情報量で再構成する手法である.時系列の情報のみでクラスタリングしたため,旬の材料やブームとなった材料をあらわす基底が時系列に形成されただけでなく,調味料の特徴量の強い基底なども形成された.
15:00-15:20 (6) 武相自由民権LOD - Linked Dataによる再利用可能な歴史データベース作成の試み ○小池隆(合同会社ミドリアイティ)
本研究では、武相の自由民権運動を対象に、文献に書かれた歴史をデータに分解してLinked Dataの形式でデータベース化した。さらに、様々な観点から可視化することにより、データの再利用性について検討した。
15:20-15:30 休憩
15:30-16:15 セッション3
15:30-15:55 (7) ローマ字・カタカナ・キリル文字併用アイヌ語RoBERTa・DeBERTaモデルの開発 ○安岡孝一(京都大学人文科学研究所附属東アジア人文情報学研究センター)
書写言語としてのアイヌ語は,ローマ字(ラテンアルファベット)・カタカナ・キリル文字など,多彩な文字と記法によって記述されてきた.その一方,抱合語としてのアイヌ語は,日本語や欧米諸語とは全く異なる言語構造を持つことから,これらの言語向けのRoBERTa・DeBERTaモデルは,そのままではアイヌ語に適用できない.本発表では,ローマ字・カタカナ・キリル文字で書かれたアイヌ語に対し,RoBERTa・DeBERTaモデルを開発する手法を示し,さらに形態素解析・係り受け解析への応用について考察する.
15:55-16:15 (8) 和歌のXML/TEIデータ分析のための自主学習環境の構築 ○菊池信彦(国文学研究資料館) ・永崎研宣(人文情報学研究所) ・乾善彦(関西大学) ・海野圭介(国文学研究資料館) ・小川歩美(合同会社AMANE) ・吉賀夏子(佐賀大学)
近年、デジタルヒューマニティーズ(以下、DH)の浸透とその興隆を受け、多種多様な研究データがオープンデータとして公開されるようになっている。しかし、オープン化されたとはいえ、だれもがそれらの扱いに長けているわけではない。この状況を受け、データ利活用を自ら学習できる環境やツールの整備もまた、近年急速に広まりつつある。報告者らは、構造的なテキストデータとして取り扱いやすい和歌を教材とした自主学習サイトの構築を目指すこととした。本発表ではその事例の一つとして、国文学研究資料館および関西大学との連携に基づいて作成を進めている廣瀬本万葉集TEI/XMLデータを採りあげ、その途中経過について報告する。
16:15-16:30 閉会
ch-madoguchi■jinmoncom.jp(@を■に変更しています)