【中国語リスニング】Youtubeの字幕を取り出し単語に整理する方法(英語でも可)

2021年2月23日火曜日

リスニング 学習方法

t f B! P L

Youtubeなどの中国ドラマやアニメなどで使われている音声に着目してリスニング力を鍛えようとしている人って結構いるのではないでしょうか?
その際に、「字幕を文字起こししたり単語を都度調べるのが手間だな~」って考えたことはありませんか?
この記事ではこのような方向けにYoutubeの字幕を取り出し単語に整理する方法をお伝えします。

中国語を練習する時にYoutubeのドラマを使えないか?

なんでドラマがいいのか?

僕らだって教科書みたいな日本語を使っていませんよね?中国人がテキストのスキットのような日常会話をしているわけではありません。そこで、中国や台湾のドラマや映画、バラエティなどに慣れておけば本来の日常会話ができるようになるのでは、というわけです!

キャプション付き動画を使えば字幕を活用できる。

Youtubeにキャプション(字幕)付きの動画があることはご存知でしょうか?中国には複数の発音方法があるため元々字幕が付いた動画が多いのですが、ここで説明しているキャプション付き動画とは、Youtubeの字幕機能を使った動画です。こういった動画には、字幕ボタンが配置されています。知らないという方のためにキャプチャを張っておきますね。このボタンが付いた動画がキャプション付きの動画です。

キャプション付き動画は、動画の上に設定された字幕が表示されるようになっています。この字幕をテキストデータとして取り出すことができるのです。映画のスクリプト(脚本)のようなものとしても活用できるんですね。

字幕付き動画の検索方法や字幕の取り出し方法

Youtubeから字幕を取り出すことはとても簡単にできます。

まず字幕付き動画をどう探すのか方法を教えますね。
まず、Youtubeで普通に動画を検索してみてください。
そうすると検索ワードの下、検索結果の一番上の部分に「フィルタ」というボタンがあるのがわかりますか?ここをクリックします。そうすると検索結果をフィルタするオプションが選べるようになります。このフィルタオプションで「字幕」を条件に指定すれば検索結果が字幕付き動画に絞り込まれるわけです。


ただ、「字幕付き動画」がすべてキャプション対応しているかというと、そういう訳ではないので、実際には動画に「字幕ボタン」がついているかどうかで判別する必要があります。

次に字幕の取得方法ですが、動画タイトルの右端に「…」(その他)ボタンがあるのが分かりますか?このボタンを押して「文字起こしを開く」を選択してください。


すると、動画の横に「文字起こし」という枠の中に字幕が表示されるようになります。あとは、この字幕部分を選択してメモ帳などにコピペして保存すれば字幕のテキストファイルが完成します。簡単ですね!


Scraperを使えば楽に字幕をコピーできる

先ほどの説明で字幕の取得はできるのですが、もう少し簡単なやり方を紹介しましょう。
それは、スクレイピングツールを使う方法です。
スクレイピングとはWebサイトに書かれた情報をテキスト形式やその他の形式で取り出すことでソフトウェアやクラウドサービスなど様々なやり方があります。
ここでは特に手間がなく簡単なChromeブラウザの拡張機能を使用する方法を紹介しようと思います。

まず、chromeウェブストアからScraperを検索してください。この下にリンクとchromeウェブストア画面のキャプチャを張っておきますね。

chromeウェブストアからScraperを検索



このページを開いたら、「chromeに追加」ボタンを押してください。これで拡張機能の導入は完了です。

私の画面はchromeに追加済みのため、「chromeから削除します」になっていますが、追加前であれば、「chromeに追加」というボタンになっていると思います。

Scraperを使った字幕の取り出し方を説明します。

まず、字幕付き動画を検索して動画の「文字起こし」に字幕を表示させます。ここまでは先ほど説明した方法とまったく同じ手順です。

つぎに文字起こしの字幕が表示された部分を右クリックしてみてください。コンテクストメニューの中に「Scrape similar...」というのが表示されていると思います。これがScraperを実行するメニューです。

これを選択すると下のような画面が表示されます。ここで「copy to clipbord」をクリックし、メモ帳などにペーストすることで字幕部分を簡単にコピーできます。


右側の枠の中に字幕が取り出せているのが分かると思います。ここで「copy to clipbord」をクリックすると字幕の内容がコピーできます。そしてメモ帳などにペーストすることで字幕部分を簡単にコピーできます。これをテキストファイルとして保存すれば字幕のテキストファイルが完成です!

  • 左側の「XPath」と書かれている場所には、開いているYoutubeのページ全体の中から字幕の要素がどこに記述されているかを示す情報が記述されています。
  • 「copy to clipbord」以外に「export to google docs」というボタンがあります。このボタンを使うとgoogleスプレッドシートにコピーができる機能です。ただ、試してみたところgoogle docs側のセキュリティ強化のためか現在は使えませんでした。

とここまでキャプション付き動画から字幕を取り出す方法を説明しました。

これで動画を再生することなく、字幕を確認することができるようになりましたね。
→では引き続き字幕から単語に整理する方法を説明します。

字幕から単語に整理する方法

ここからは、作成した字幕のテキストファイルから単語を抜き出して整理する方法を説明しようと思います。
字幕の取り出しよりは多少複雑な手順ですが、一度やり方を覚えておけば便利ですので、少し頑張ってみてくださいね。

単語に整理する方法(kh-coder)

使われる単語を取り出すためにkh-coderを使用します。
kh-coderはテキストマイニングツールと呼ばれるソフトウェアです。
簡単にいうと、大量の文章を単語や文節で区切り、出現頻度やどういった単語の組み合わせで利用されているのかなどテキストを分析するソフトウェアです。
今回は、そういった分析に使用するのではなく、視聴するドラマで使用される字幕を単語に分解するために使用します。

kh-coderは以下のサイトからダウンロードすることができます。ここでは、Windowsを使用しているパソコンを前提に説明をしたいと思います。

https://khcoder.net/dl3.html

ダウンロードしたファイル名は、バージョンによって異なります。

今回僕がダウンロードしたものは、以下のファイルでした。

khcoder-3b02f.exe (2021 02/08)

このファイルは圧縮されているので解凍する必要があります。
ファイルを実行すると以下キャプチャようなウィンドウが表示されます。

ここで「Unzip」ボタンをクリックするとファイルの解凍がはじまり、しばらく待つと完了メッセージが表示されます。特に解凍先を指定していなければ「c:\khcoder3」フォルダに解凍されます。これでインストールは完了です。ダウンロードした元のファイル(khcoder-3b02f.exe)はサイズも大きいので削除して構いません。

「WindowsによってPCを保護しました」という画面が表示される場合は、以下の手順を実行してみてください。
  1. 表示された「WindowsによってPCを保護しました」にある「詳細情報」と書かれた部分をクリック→「実行」ボタンが表示される。
  2. 表示された「実行」ボタンをクリック
この画面が表示される理由は、実行したファイルの提供元が不明なためです。PCを保護するために表示される画面なのですが、安全なファイルでも表示される場合があります。

では実際に字幕をkh-coderに字幕のテキストファイルを取り込んでみましょう。
インストールしたフォルダからkh_coder.exeを実行します。

kh-coderが起動したら、プロジェクトメニューから新規を選択します。


新規プロジェクトウィンドウが表示されるので、分析対象ファイルと書かれた箇所の近くにある参照ボタンを押して、字幕をテキスト化したファイルを選択します。

言語を日本語から中国語に変更することを忘れないようにしましょう。

字幕データを読み込んだら前処理を実行します。この前処理を行うと文章を単語に分解するなどして解析してくれます。操作としてはその辺は特に気にせず、キャプチャした画面の「前処理の実行」を選ぶだけで大丈夫です。


前処理が終わったらさっそく字幕で使われている単語を確認してみましょう。

kh-coder自体はいろいろな機能があり複雑な分析も可能なのですが安心してください。この記事で利用する機能は単語リストだけです。キャプチャにある「抽出語リスト」を実行すると頻度順に単語が一覧表示されます。Excelに出力しておけば、リスニング以前に知らない単語の意味や発音を調べておく際に使用することが簡単にできますね!


実際に試した出力例

実際に試した結果は以下の通りになりました。今回使用したYoutubeの動画と抽出語のリスト、Excelに出力した結果を出力例として紹介しようと思います。


今回は「[我在你心裡] - 第01集 / In Your Heart」という動画を使用しました。



「不」「要」「想」がよく使われています。「玉新」という登場人物の名前らしき固有名詞も17番目に上がっています。特別難しい単語は使われていなさそうです。

excelへの出力結果は、このような感じですね。ざっと目をとおして発音が分からない単語をチェックしておくと良いと思います。

さて、以上で、字幕ファイルから単語に整理することができました。ドラマでどのような単語が使用されるのか外観を掴むことが出来るのではないでしょうか?なお、よくみると単語の分類が少しおかしな部分もあり対処する方法もあるのですが細かな手順が入るのでここでは割愛とさせてください。

【補足】字幕と実際の音声の違いについて

記事を書き終わった後改めて音声を聞いてみたのですが、今回試してみたドラマでは、実際に話している内容と字幕とでぜんぜん違いますね。役者さんがアドリブを聞かせているというレベルではなく…。これは台語ですね…。まあ、こういうこともありますので、その点は考慮して利用してみてください。((;^_^A

3.まとめ

「Youtubeのキャプション(字幕)を取り出し単語に整理する方法」について以下の内容を説明をしました。如何でしたでしょうか?

  • キャプション付き動画は字幕を取り出すことができる。
  • kh-coderなどテキストマイニングツールを使えば単語に整理することができる。

では、拜拜ヾ(•ω•`)o

人気の投稿

Blog Archive

ついてくるサイドバー

QooQ