第67号 2013.5.28発行 by 中村 公省
    二つの文章・データの異動を検証するソフト
―Word「ちゃうちゃう!」とExcel「比較セル」の活用―
<目次>へ戻る
はじめに
 二つの文章・データを比較検討し、相互の異動を検討したい場合がある。例えば、草稿と完成稿との異動をはっきりさせたいとか、生原稿と単行本になったテキストとの違いを検証したいとかいうことがあろう。アンケートをワードやエクセルのファイルでやり取りした場合、回答者が新たに追加・修正した箇所が何処で、何がどう修正されているかを一目瞭然にしたいこともあろう。また、統計データなどの数表が、年度ごとに微妙に違いがあり、その違いがミスなのか集計方法の変更による異動なのかを確かめる必要に迫られることもあるに違いない。
 コピペ(コピー・ペースト)大隆盛の風潮のなかで、ネット上の文章を拝借してことを済ますふとどき者を摘発して、グウの音も出ない証拠を突きつけたし場合にも、大いに威力を発揮するであろう。
 武器は、Wordの「ちゃうちゃう!」とExcelの「比較セル」である。どちらもフリーソフトである。
(1)「ちゃうちゃう!」による似通ったテキストの比較
Wordの「ちゃうちゃう!」は、二つのウィンドウ上のテキストを比較して、異なる部分(追加、変更、削除)を文字単位または単語単位でチェックしてくれる。論より証拠である、比較結果の実例をお見せしよう(図1)。

図1

 図1は、毛沢東の「中国共産党の民族戦争中の地位」(1938年10月の拡大6中全会における報告)の二つのテキストを比較対照したものである。右が1944年版『毛沢東選集』第5巻のテキスト、左が1955年版『毛沢東選集』第2巻のテキストである。両者には明確に異動がある。
 ① 左右画面の両テキストは 。:;?!までの文字列を比較検証している。
 ② グレーの文字列は、左右画面の両テキストで文字列が一致していることを示す。
 ③ 左画面のグリーンー+取消線の文字列は、右画面にはあるが左画面では削除されていることを表す。
 ④ 右画面のブルー+下線の文字列は、左画面と較べて右画面で追加されていることを表す。
 ⑤ 赤い文字列は、左右画面で何らかの変更があることを表す。
 ⑥ ただし、微細に見ると、比較能力に問題があることも散見される。
 比較能力の問題はともかく、このようにして指摘された執筆時期の違うよく似たテキストの違いを、各時期の歴史状況と結び付けて分析すれば、毛沢東と中国共産党の歴史の中での考え方の違いが分析できるであろう。歴史の中での毛沢東を論じるには欠かせない作業であり、これを大規模に行って完成したのが竹内実監修『毛沢東集』という書物である(蒼蒼社)。かつては、この作業は手作業で行われたものだが、同じテキスト対照の作業が、パソコン上で手軽にできるようになったというのがミソである。
 ただし、「ちゃうちゃう!」は中国語の文字コードに対応していないという問題がある。簡体字テキストで比較すると、比較後に日本漢字と字形が違う簡体字がすべて空白となってしまう。このため、簡体字を日本漢字に変換してから「ちゃうちゃう!」にかける必要がある。「ちゃうちゃう!」にかける必要がある。「ちゃうちゃう!」の作成者の有限会社サグラーシェによれば、「ちゃうちゃう!」の機能を組み込んだ中国語対応のソフトウェアを現在開発中で、それが完成すれば簡体字で比較することが可能になるとのことである。

(2)「比較セル」によるExcelシートの比較対照
 ところで、もう一方の、Excel「比較セル」は、Excelのシートを比較して、セルの文字、フォント、背景色等の差分を抽出してくれる。これも比較結果の実例を見るのが先である。

図2


図3


図4

 図2は、『中国統計年鑑』2010年版からコピーした、「2000-2009年の中国の人口」である。左から総人口、性別人口(男女)、都市・農村人口の総数並びにパーセントを表示している。図3は、同様に『中国統計年鑑』2012年版からコピーした、「2000-2011年の中国の人口」である。
 図2と図3には異動がある。中国では10年に一度、人口全数を面接調査する大規模な人口センサスが実行されており、2010年には2010年の第5回人口センサスに次いで第6回人口センサスが実行された。図2の数値は2010年人口センサス前のものであり、図3の数値は2010年人口センサス結果を反映したものである。もう少し言えば、2000年と2010年の人口はセンサスによる確定数字だが、それ以外の年度はサンプリング調査で補正した推定数字なのである。国家統計局は、『中国統計年鑑』2010年版で推計していた2001-2009年の推計数字を、2010年人口センサス結果を踏まえて補正し、『中国統計年鑑』2012年版で2005-2009年と2011年の数字を改めて推計し直したのである。
 図2と図3の異動をExcel「比較セル」を稼働させて表示したのが図4である。
 図4には、数字の色と網掛けによって、『中国統計年鑑』2012年版における修正の跡が明確に示されている。総人口及び男女人口は2009-2011年の3年間にわたって修正されている。都市・農村人口は2006-2011年の6年間で修正されている。都市・農村人口は変動が大きく、長期間のマイルドな補正をする必要があったと思われる。
統計数字においては、数値の補正は日常茶飯事で、大規模なセンサスの実施や統計調査のフレームワークに変更のたびに大修正が生じるから、こうしたアンテナを張っている必要がある。その時、強い味方になってくれるのが、このExcel「比較セル」というマクロツールなのである。

(3)Excel「比較セル」のダウンロードとその使用法
 さて、以上のような比較対照パワーを持つ、フリーソフトは、どうすれば手に入るか、またその使用に当ってのハウツーはどんなものか。
 Wordの「ちゃうちゃう!」のダウンロードとその使用法はいとも簡単である。フリーソフトのサイトである「Vector」(http://www.vector.co.jp/)や「窓の杜」(www.forest.impress.co.jp/)にアクセスして、指示に従ってダウンロードすればいい。その使用方法も単純で、左右ある画面に、各々比較する二つのテキストを貼り付けた後、最上部の「比較」ボタンをクリックするだけのことである。細かな設定をしたければ、やはり最上部の「編集」や「表示」をクリックして、指示に従えばいいだろう。
一方のExcel「比較セル」の方は、それほど簡単ではない。これはExcelのマクロ・ファイルだからである。しかし、注意深く指示された手順を踏めば、マクロのマの字を知らない人でも使いこなすことができる。

① Excel「比較セル」のダウンロード
このマクロファイルの作者は、あんどうのぶつな さんである。やはり、フリーソフトのサイトである「Vector」(http://www.vector.co.jp/)や「窓の杜」(www.forest.impress.co.jp/)にアクセスして、指示に従ってダウンロードできる。ファイルは圧縮されているから、ダブルクリックして解凍する。

図5

解凍すると、テキストの「readme」とExcelの「hikakucel_f」とが立ち現われる。「readme」は必読である。本体のExcelの「hikakucel_f」を開くと図6のような画面が現れる。(ここではExcel2010の画面を表示している。)


図6

② Excel「比較セル」の使い方
比較EXCEL Ver 1.01 free版を使うに先立って、第一にすべきは、「コンテンツの有効化」である。EXCELはマクロウイルスの感染を防ぐために、初期状態でマクロの使用ができないようにしているから、マクロが利用できるようにしなければならない。そのために、上部右にある「コンテンツの有効化」ボタンをクリックすればいい。
「コンテンツの有効化」すると、「使用上の注意」や「使用方法」が開くようになる。「使用方法」を開いた状態が図7である。ここで①から始め、⑦まで進めばOKである。


図7 使用方法

 ポイントは、比較ファイル1には変更後のファイルを選択・指定し、比較ファイル2には元のファイルを選択・指定することである。初めに示した事例では、比較ファイル1には図2の「20002009年データ」を持ってきて、比較ファイル2には図3の「20002011年データ」を持ってくる。
 そのあとで、比較内容、表示結果を設定する→比較ボタンをクリックする→Bookから比較対象のSheetを選択、と進めば比較結果が図4のごとく表示されるであろう。


このページの上へ <目次>へ戻る