CH125

◆第125回 人文科学とコンピュータ研究会発表会

主査: 鹿内菜穂
幹事: 河瀬彰宏、北﨑勇帆、後藤真、山田太造

※重要・ご注意※
第125回研究会は、新型コロナウイルスの影響に鑑み、オンラインで実施することにいたしました。発表要領・参加要領につきましては、下記をご確認ください

【参加費(聴講)】

種別金額
研究会登録会員無料
学会正会員2000円
学会会員学生500円
学会非会員学生1000円
非会員3000円

情報処理学会人文科学とコンピュータ研究会(IPSJ SIG Computers and the Humanities)では、下記の通り第125回研究会発表会の開催を予定しております。歴史、地理、芸術、民俗、文学、言語、社会などなど、様々な人文科学の諸領域での情報資源の記録、蓄積、分析、提供や応用に関わる研究発表をお考えのみなさまはぜひ奮ってご応募ください。

********************
 日時 2021年2月13日(土)
 発表申込締切 2021年1月4日(月) 2021年1月7日(木) 延長しました
 原稿提出締切 2021年1月21日(木)
********************

(1)募集内容

※ロング/ショートいずれも2p~8pの予稿の提出が必要となります(この範囲であれば枚数は自由です)。
※予稿のフォーマットは情報処理学会のページをご参照ください。
※今回は一般口頭発表のみと致します。

(2)申込方法

(3)参加方法

参加申込は2月5日に開始します。研究発表会当日(2月13日)までお申し込み頂けます。 参加者はマイページへの参加登録が必要です。手順につきましては、下記の「CH125参加要領」をご参照ください。

◎CH125参加要領

(4)発表インストラクション

発表方法については、下記の「CH125発表要領」をご参照ください。

◎CH125発表要領

プログラム

2021年2月13日(土)

11:00~11:10 開会挨拶

11:10~12:00 セッション1

11:10~11:35 (ロング)
(01)言語情報の前方誤り訂正における歴史的アプローチ
○得丸久文(著述業)

 前方誤り訂正はデジタル通信に固有の技術であるが、それを言語情報に応用するにあたり、歴史研究の手法を援用する。

11:35~12:00 (ロング)
(02)万葉集伝本研究のためのデジタル基盤構築:廣瀬本『万葉集』の構造化とビューワの開発
○永崎研宣(一般財団法人人文情報学研究所)
・乾善彦(関西大学)
・菊池信彦(関西大学)
・宮川創(関西大学)
・小川歩美(合同会社AMANE)
・堀井洋(合同会社AMANE)
・吉賀夏子(佐賀大学)

 1993年にその存在が報道された、いわゆる廣瀬本『万葉集』は、その構造において、それまでの万葉集伝本研究にいくつかの画期をもたらしたことで知られている。筆者らは、この資料を文献の形式に沿って構造化することによって、伝本研究をより促進することに取り組んでいる。本発表では、この取り組みにあたり、Text Encoding Initiative P5 Guidelinesに準拠しつつ、その形式を適切に反映させるための構造的記述手法を提示するとともに、これに対応したテキストビューワの開発を通じた構造の妥当性検証について報告する。

12:00~13:20 休憩

13:20~14:40 セッション2 

13:20~13:35 (ショート)
(03)ヒエラティックとヒエログリフの対応関係の再検討に基づくHieratische Paläographie DBの更新
○永井正勝(東京大学)
・中村覚(東京大学)
・和氣愛仁(筑波大学)
・高橋洋成(東京外国語大学)

 Hieratische Paläographie DB(https://moeller.jinsha.tsukuba.ac.jp/ja:2019年12月公開)はGeorg Möller, Hieratische Paläographie (1909-1936) 全4巻のうち、第1-3巻の「基本字」のデータのみを収録したものである。今回の改訂では、第1-3巻の「数字」と「続け字」のデータを追加するとともに、個々のヒエラティックとヒエログリフの対応関係の再検討を行い、その結果を反映させた検索システムへとアップデータさせる。本発表は、人文学的知見に基づくアノテーションと検索項目の追加と精密化に関する報告となる。

13:35~14:00 (ロング)
(04)候文における文字単位の単語分散表現モデルに基づく固有表現抽出手法
○吉賀夏子(佐賀大学地域学歴史文化研究センター)
・堀良彰(佐賀大学全学教育機構)
・永崎研宣(一般財団法人人文情報学研究所)

 江戸期において,各藩で日々の業務を記した「日記」と呼ばれる記録は,現在も全国各地に膨大に残されている.これまで著者らは多様な背景を持つ市民に広く日記内容の読み解きを容易にするため,候文で記述された記事文の低コストなLinked Data化を試みてきた.本研究では,一連の研究で得た知見から,Linked Data化システムで必須の固有表現抽出における未知語の判定をより高精度に行うため,深層学習での固有表現抽出に採用される手法のひとつである,文字単位の単語分散表現モデルを用いた手法を採用した.本手法では,従来深層学習するには少ない教師データと現代日本語の大規模コーパスで作られた分散モデルを組み合わせて学習モデルを構築できる.提案手法で構築したモデルを固有表現抽出した結果,形態素解析ツールのユーザ辞書に未登録の語彙に対し,本モデルによる学習で高精度に判定可能であることが示唆された.

14:00~14:25 (ロング)
(05)歴史上の文化人に対する人物情報の推定
○本澤拓(Linfer)
・森信介(京都大学 学術情報メディアセンター / Linfer)
・関野樹(国際日本文化研究センタ)

 人文学の資料について,情報を資料横断的に共通したデータ構造でまとめることは人文学の研究を円滑に進める上で重要である.本稿では人物の説明文を対象とし,より多くの内容を被覆するような属性と属性値の策定を行う.そして機械学習を用いて,それらの属性および属性値を抽出する自動抽出器の構築を試みる.

14:25~14:40(ショート)
(06)テキストマイニングを用いた古典漢詩イメージと語義分析―中国・朝鮮『「鸚鵡洲」詩歌』を対象として―
○林 玟君(台湾中央研究院歴史語言研究所デジタル文化センター)

 本論の分析対象は中国古典籍と韓国文集叢刊の中に、「鸚鵡洲」を主題する詩歌を集まる、データを整備する。テキストマイニング(text mining)分析にはKH Coder(樋口,2014)を使用した。最初にデータセットを形態素解析の分かち書き処理により単語に分解した。KH Coderではこの操作を前処理と呼ぶ。前処理により総抽出語数と異なり語数、そして助詞・助動詞を除いた総抽出語数と異なり語数が明らかとなる。続いて前処理を実行されたデータから頻出100語の抽出語リストを作成した。このリストで示される数値は、本研究の場合、抽出語の出現回数(term frequency:TF)と抽出語を含む文書数(document frequency:DF)を分析し、データを整理して、中国古典詩から朝鮮漢詩までの「鸚鵡洲」この地名・典故広範的使用と転換にも複数の実例があると確かめられたことで、「鸚鵡洲」のイメージと意義の爆発的な隆盛がどのようにもたらされたかについての解明が進んだ。その他、本論で使用した分析方法は、視覚的なデータ分類を可能にする対応分析(コレスポンデンス分析)、共起関係にある語彙元素を線で結ぶ共起ネットワーク、特徴的な語をリストアップするJaccard・Cosine・Euclid三つ分析結果を解析する。分析方法の詳細については樋口(KH Coder 3 リファレンス・マニュアル,2014)を参照されたい。!BR!さらに、『「鸚鵡洲」詩歌』について、中国と韓国資料の収集と調査を行ってきた筆者の経験に照らして、古典漢詩の中に、「鸚鵡洲」のイメージと意義、「詩の古跡」と典故の生成などを考察と構築して、人文学の直接調査することと情報学の立場からそれを解決するソフトウェアの重要性およびそれに伴うデジタル人文学の可能性について、具体的なテキストマイニング研究事例をもとに報告したい。

休憩 14:40~14:50

14:50~15:20 セッション3

14:50~15:20
(07)人文科学とコンピュータ研究会30周年記念事業実施までの記録
○鹿内菜穂(亜細亜大学)

 本研究会は,1989年第1回研究発表会の開催から2019年に30周年を迎えた.2015年に30周年記念事業の企画案が公募・検討された結果,パネルディスカッション「じんもんこんの過去・現在・未来」が採択され,情報処理学会全国大会またはじんもんこんシンポジウムにおけるパネル実施に向けて,準備パネルディスカッション(パネル準備会)を行ってきた.パネル準備会での検討を踏まえ,2019年度情報処理学会創立60周年記念第82回全国大会において,「Computers and the Humanities」以外の方々のシーズ発掘を目的としたイベント「はじめての人文情報学:情報処理技術で文化資料の分析に挑戦しよう!」を企画していたものの,新型コロナウイルス感染症の影響もあり中止することとなった.パネル準備会の報告等から,30周年記念事業実施に向けて数年かけて準備を行ってきた記録を本発表に代えて残したい.

15:30~17:50 企画セッション「文化解析を取り巻く最近の状況」

趣旨説明
河瀬彰宏(同志社大学)
(08)計量的分析に基づく物語自動生成の現状と課題
○村井源(はこだて未来大学)

 物語作品の計量分析は応用を向きがちであるが,同じ手法は人文学的な知見を得るためにも利用可能であると言えよう.そのため,自動生成のような応用研究で技術を磨き,人文学にフィードバックするという方針は現実的な戦略と考えられる.物語自動生成の大きな課題としては,プロットの整合性,表現の適切性,内容の創発性の三つがあり,常識的知識のデータベースや創造性のアルゴリズムなどが今後必要となるであろう.

(09)対応分析を巡る諸問題について
○矢野環(同志社大学名誉教授 / 埼玉大学名誉教授)

 対応分析・多重対応分析は、様々な変形や提案がなされている。Rには cocoresp、CAvariantsやMCAvariants なども提供されている。しかし、より利用されている FactoMineR や ca においてすら、結果の表示を変更した方が良いものも認められる。更には、以前からの西里静彦氏のTotal Information Analysis(TIA) などの指摘もきちんと検討されているとは思えない。剰え、不適切なグラフとなる biplot(corresp(dat)) まで未だに使われている。今回は、どのような問題点があるのかを指摘する。方向性として正しいとしても TIA は不都合な結果となる場合もあること、MCA の biplot をより好ましい形態にする案、さらに Cramer's V の使用法などについて発表する。

(10)中世日本密教資料「聖教」の Ngram 解析――作者の特定と思潮の流れの把握手段として――
○ラポー ガエタン(京都大学人文科学研究所)

 中世日本に密教の教義や儀礼の内容を伝える目的で書かれた「聖教」は、仏教経典だけでなく、同時代の様々なテクストと関連性が認められる。本発表では、デジタル解析によって、間テクスト性を検証する方法を紹介する。特に、近年まで主流であったN-gramによる仏教典籍の解析の成果を踏まえて、その問題点と今後の展開の可能性を考えたい。

17:50~ 閉会

お問い合わせ先

ch-madoguchi■jinmoncom.jp(@を■に変更しています )


トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS