十一月 21

The Making of Vocaloid

東京在住のアメリカ人音楽ライターによる、Vocaloidと初音ミクの誕生物語

By Patrick St. Michel

 

東京の中心地から少し離れた会場、幕張メッセに集まった数万の人々が、巨大なオルゴールのハンドルを回す女性を見守っている。年に1度開催される、3度目のニコニコ超会議に集った観衆 —それをストリーミングを通して数万人が同時に観ていた― は、とあるコンピューター合成の声を聴くために徹夜で待っていた。ハンドルが何回か回転すると、シンバルのクラッシュと共にオルゴールの音色はエレクトロニック・ヴォイスに変化する。そしてステージ上に初音ミクのホログラムが現れると、人々は叫び声を上げ、宙に向かってグロー・スティックを振りかざした。

 

ターコイズ・ブルーの髪の初音ミクは、ユーザーがコンピューターを使用してヴォーカルを生成できる音声合成プログラムVocaloidの顔だ。そして初音ミクは、日本国外においてもこのプログラムを凌ぐ存在になっている。欧米ではニュース番組で彼女の初期コンサートの様子が報道され、ニュース・キャスターたちは面食らいながらも、ホログラムを主人公とするショーを解説しようとした。彼女は他でも愛されている。前座としてLady Gagaの北米ツアーのいくつかの公演に出演した他、Pharrellにリミックスをしてもらい、今年10月にはLAとニューヨークでHatsune Miku Expoが開催された。米国の人気テレビ番組『Late Show With David Letterman』への出演も果たしている。

 

しかし、アニメ絵のアバターを見るだけでは、Vocaloidが日本国内に与えたインパクトを計り知ることは出来ない。発売当初こそ販売数が伸びなかったVocaloidだが、2007年までには社会現象にまでなった。ビデオ共有サイトの成長に伴い、ミュージシャンやプロデューサーたちがこれを新たなジャンルにまで押し上げ、やがてインターネットを越えた一大ブームとなったのだ。コミケなどでCD-Rを手売りしていたアーティストたちは日本のチャートを揺さぶる存在となり、既存のポップ・スターたちもロボットのように歌い始め、CD屋はVocaloid音楽の特設コーナーを作り、カラオケ店はVocaloidの楽曲を大量に追加した。要するに、コンピューターによる音声合成というVocaloid技術が、日本のポップ・カルチャーに巨大な居場所を開拓したのだ。

 

 

人類は長年に渡り「言葉を話せる無生命」という存在に関心を持ってきた。古代ローマの詩人Vergilius(ウェルギリウス)、イギリスの哲学者Roger Bacon、ローマ教皇Sylvester(シルウェステル)2世は皆、質問に答えることが出来る真鍮製の人間の頭部のような装置を持っていたという。人間の声を複製する最初の試みは1779年、ロシアの学者Christian Kratzenstein(クリスティアン・クラッツェンシュタイン)が5つの母音(A、E、I、O、U)を発音する機械を開発した。続く19世紀には更に多くの科学者たちが発声装置の開発に励み、20世紀初頭には電気式の合成装置が開発され、発声の質は更に向上した。

 

しかし、機械が「歌う」までには1961年まで待たねばならなかった。その数年前から彼らが開発していたヴォコーダー技術を使用し、ニュージャージーに拠点を置くベル研究所の科学者たちが、コンピューターIBM704に「Daisy Bell」を歌わせることに成功した。そしてベル研究所の成功に倣い、多くの研究者たちがいかにそれよりも上手くコンピューターに歌わせることが出来るか、研究を重ねていった。「20世紀末の段階で最も成功したと言われていた音声合成は、Yves PotardとXavier RodetがCHANTシンセサイザーで再現したモーツァルトのオペラ『魔笛』の”夜の女王のアリア”でした」と説明するのは、バルセロナにあるポンペイ・ファブラ大学内のMusic Technology Groupの上級研究員Jordi Bonadaだ。

 

Bonadaはこうしたことに詳しい。彼は長年に渡って音声合成プログラムを研究してきた人物。彼がポンペイ・ファブラ大学に籍を置いた1997年頃、「ヤマハが音声変換に関する興味深い研究プロジェクトについてのアイディアを出してきて、それが大きくなっていきました」と、 Bonadaは振り返る。その研究プロジェクトは、カラオケ・ボックスにおける下手な歌を、上手に聴こえるようにすることを目的としていた。「プロジェクトにはElvisというコードネームがつけられ、2年間費やされました」とBonitaは続ける。「ですが、結局プロジェクトとして立ち上がるに至らなかった。その理由のひとつは、システムがスペクトラム・モーフィングをベースにしていたため、楽曲ごとにプロのシンガーが歌った素材が必要だったことです。」日本のカラオケの楽曲リスト本の分厚さを見れば分かるが、その作業は現実的ではなかった。

 

「それでもElvisがたち消えた後、私たちは個別の曲を歌手に歌ってもらうのではなく、広い声域を網羅した発声をまとめて録音し、それを使ってどんな楽曲でも歌えるようなモデルを構築する方が良いのではないかと気づいたのです」と、Bonadaは説明を続ける。「この考えを元に、私たちはヤマハと提携して、歌うシンセサイザーの開発を目的とした新しいプロジェクトに取り組むことになりました。この時に、剣持秀紀氏とも初めて対面しました。」

 

 

剣持秀紀は大の音楽好きである。静岡で育ち幼稚園時代オルガンを弾くのが好きだった彼を、母親が近所のピアノ教室に通わせた。しかし、10歳になった時にピアノはやめてしまう。「好きじゃなくなってしまったんです。」剣持は笑ってその理由を説明した。やがて16歳になった剣持は、現在でも趣味として続けているヴァイオリンを習い始める。思春期に毎週土曜日をその練習に費やしたことが、後に剣持を「Vocaloidの父」へと呼ばれる人物に育てた。

 

「子供の頃は短波放送を聴いていました」と、当時読んでいた短波放送の専門誌の写真を見せながら、剣持は話してくれた。その短波放送が、剣持にコンピューターとの出会いをもたらしたという。「友人と小規模なコンピューターの展示会に行ったんです。そこで基本的なプログラムを書こうとしたのですが、結局出来ませんでした。すると、隣にいた方が書き方を教えてくれたのです。コンピューターは高くて買えませんでしたから、日曜日や休日にコンピューター・ショップへ通い、そこで1日プログラムを書いて過ごしていました。弁当を持っていく時もありましたよ。」

 

1993年に剣持はヤマハに入社し、アクティヴ・ノイズ・コントロール(例:ノイズ・キャンセリング・ヘッドフォン)のプロジェクトに従事した。そして2000年3月、ヤマハとポンペイ・ファブラ大学のジョイント・ヴェンチャーによる、音声合成プロジェクトに携わることになった。「C++で書かれた核となるシグナル・プロセシング・ライブラリなど、研究の大半はバルセロナ側で進められ、プロダクト・デザインや開発がヤマハによって進められました」と、Bonitaは当時のワークフローを説明する。

 

バルセロナのポンペイ・ファブラ大学の研究チームは、いくつかの始点からプロジェクトに取り組んでいったが、そのひとつがElvisプロジェクトだった。「シンガーの声を録音した素材が、楽曲に合わせて自然に歌っているように、継続的な流れを作るように処理することが1つのチャレンジでしたね」と、Bonitaは説明する。「それを目的に開発されたのが新たな音声モデルEpR[1]で、これは細かなディテールを失うこと無く、自然に声質を変化させられるものでした。」

 

「音声合成がどうあるべきかについては、何度も議論を重ねました」と、剣持は言う。「ヤマハ側がシステムの基本的なフレームワークを開発しました。このジョイント・ヴェンチャーによる、Vocaloidのプロトタイプは2002年3月に生まれ、当初はDaisyというコードネームで呼んでいました。」

 

インターフェイスは最終的には使いやすいものに改良されていったが、このソフトウェアの基本的な機能は初期のヴァージョンから今も変わっていない。ユーザーが歌詞を入力し、その後ピッチの調節や各音節の長さなど、コンピューターによって生成される声の様々な側面を調整していく。現段階では、ユーザーが歌い方を選ぶことも可能だ。だが、剣持は次の問題点を認めている。「Vocaloidで再現できないものの1つが、非常にラフな歌い方です。プログラム側はユーザーが音程を追えると見なしますが、ラフな歌い方ではそれが出来ないことがありますから。この部分を改良していきたいですね。」

 

次の課題はこの商品の売り方だった。「もともとは、ヤマハがこれをソフトウェアとして発売するというアイディアがありました」と、剣持は説明する。「Vocaloidは歌うシンセサイザーですので、その歌声が非常に重要です。ヤマハだけでライブラリを構築することも可能でしたが、バラエティに欠けるだろうという判断で、サード・パーティー企業へこの技術をライセンスすることにしたのです。」

 

こうして状況が整い始めたところで、Vocaloidのプロトタイプが2003年にドイツで開催されたMusikmesseにおいて世界で初めて発表された。「最初は製品名をDaisyにしようと言っていたのですが、すぐにその考えは捨てました。」剣持は笑いながら振り返る。「登録商標として申請する必要があったのですが、Daisyでは申請が不可能だったのです。実を言うと、Vocaloidは第2候補ですらありませんでした。第2候補の名前は明かすことが出来ませんが、その製品名なら95%は確実に使えるという話になりました。ですが、ベルギーに非常に似た名前のソフトウェアがあることが分かり、その候補もやめたんです。」

 

第3候補の名称 —Vocaloid— は、幸いにもベルギーを含む世界のどこにも登録されていなかった。Vocaloid製品の第1弾が発売されたのは2004年3月3日、イギリスのZero-G社が男女それぞれの声をモデリングした「Leon」と「Lola」という製品だった。しかし、Vocaloidがヒットするまではもう少し時間が必要とした。

 

 

ある2人の女性が、レコーディング・ブースでその日最後の収録の開始を待っていた。その2人、声優の浅川悠とクリプトン・フューチャー・メディアのグローバル・マーケティング・マネージャーが、ふざけながらMarilyn MonroeがJohn F. Kennedy大統領に捧げたような歌い方で「ハッピー・バースデー」を歌い始める。隣のスタジオでは、5人の男性陣がミキシング・デスクを囲んでいた。彼らがひとしきり笑い終わると、佐々木渉がVocaloidの英語ヴァージョンの最後の収録を始めようと声をかけた。

 

「Nerd」と、浅川が巻いた舌を元に戻しながら腕を伸ばして発音した。「Neeeeerd」と、指導を受けた浅川がさっきとは違う発音でもう一度発した。その後彼女は数回異なった発音で同じ単語を発声し、クリプトンのディレクターがOKを出すと次の単語へ進んだ。こうしていくつかの単語を録ると、その日の作業が終わった。

 

「アニメやビデオゲームなどの他の現場では演技をします。情熱的だったり、悲しみを表現したり。叫ぶこともあります。」収録を終えた浅川が言う。「ですが、Vocaloidでは常に同じトーンで発音しなければならないので難しいですね。またVocaloidの収録の前日にはお酒を飲めません。喉の調子が悪くなってしまいますから。」

 

Vocaloidを開発したのはヤマハとポンペイ・ファブラかも知れないが、それを社会現象にしたのは札幌を拠点にする企業だった。クリプトン・フューチャー・メディア、彼らが「初音ミク」を生み出したのである。そして初音ミクを細部まで考案し、彼女をVocaloidの完璧なアバターに変えたのが佐々木渉だ。

 

2004年に発売されたVocaloid 1はそこまでのヒット商品ではなかった。剣持はセールスが伸びなかった原因のひとつはそのプレゼンテーションにあったと認めている。剣持が取り出したZero-Gの「Leon」と「Lola」の初回版のパッケージ写真には、人間の唇の写真とロゴが印刷されているだけだ。こうして発売されたすべてのVocaloid 1の中で、クリプトンの製品が最も大きな成功を収めた。クリプトンはMEIKOというキャラクターをデザインし、パッケージの前面にそのキャラクターを打ち出していた。

 

よりスムースな声と、使いやすいインターフェイスになったVocaloid 2が開発された時、クリプトンはアップデートに合わせて新キャラクターをデザインした。しかし、変更点はそれだけではなかった。「Vocaloid 1の声は、人間の声の解析に基づいていましたが、Vocaloid 2では実際の人間の声をサンプリングしました」と、佐々木は説明する。ここに佐々木は個人的な興味を持った。佐々木はサンプリングを多用した音楽を好んで聴いてきており、好きなアーティストにDJ Shadowの名前を挙げる。また彼のラップトップに貼られた大きなStones ThrowやSoftwareのステッカーからも、間接的に彼の音楽的趣向が伺える。10代の頃をサンプリングによる楽曲制作に費やした佐々木は、クリプトンで職を得ると、アンダーグラウンド・ミュージシャンたちのためのサンプリングCDの制作に従事していたが、その後Vocaloid 2シリーズの開発に大きく貢献することになった。

 

「僕が初音ミクの声をデザインしました。シンプルでクリアな声にしたいと思っていました」と、佐々木は言う。早い段階から起用する声優の候補を考えていた彼は、その中の1人でアニメ声優として活躍していた藤田咲を採用した。「藤田咲さんとの最初の収録は非常に上手くいきましたね。声の収録は4時間以上かかることもありますが、彼女は集中し続けてくれました。」

 

この初音ミクの収録からその後変化が加えられたところは、キャラクターの音声バンクに収録される、録音された声優の声だ。佐々木曰く、最初はクリプトン側が無意味語の羅列が書かれた台本を用意し、それをチューニングして声が伸びやかになるよう再構成していったという。

 

音声バンクを作成し、イラストレーターKEIによるキャラクター・デザインを終えると、初音ミク(初・音・未来を組み合わせた名前)発売の準備が整った。顧客はすぐにそのキャラクターに魅了され、取り扱い店舗では品切れとなり、クリプトンは生産が追いつかない状況に陥った。「発売した時、僕はちょうどカンファレンスでVocaloidの発表をするためにアントワープに行っていました」と、剣持は振り返る。「そこに佐々木さんから電話があり、『初音ミクがよく売れています。予想以上です!』と告げられた。アントワープにいる間、何度も電話がありました。彼には信じられなかったんですね。」

 

 

クリプトンが優れていたのは、創り出したキャラクターを、白紙の状態にしておいたことだった。発売時、初音ミクの特定の情報 —年齢16歳、身長158cm、体重42kg— が公表された。しかし情報はその程度に留められていた。クリプトンは、ユーザーが自由にキャラクターを設定できるようにしたのだ。そして、これが「同人」コミュニティに受けた。「同人」とは、(もともと漫画の世界で)既存のキャラクターを、そのファンが好きにアレンジしたフィクション作品のことを指すが、Vocaloidはそのマーケットに見事にはまり、音楽の枠を越えた人気を獲得した。ヴィジュアル・アーティストや、アマチュアの音楽ビデオ制作者たちも初音ミクに夢中になった。クリプトンは初音ミクというキャラクターの使用を積極的に推進し、「ピアプロ・キャラクター・ライセンス(PCL)」を定め、非営利目的であればユーザーが自由に初音ミクのイメージを扱えるようにした。

 

初音ミクが単なるブランディング・ツールから日本のお茶の間にまで浸透するようになったもう1つの理由には、単純にタイミングが良かったことも挙げられる。Vocaloid 2が発売されたのは、ニコニコ動画の人気が高まってきた頃だった。ニコニコ動画とは、コメントの悪意は少ないものの文字通りそれが飛び交うように目に入ってくるYouTubeのような動画配信サイトだ。ミュージシャンたちが自分たちの作品をアップロードし始めると、すぐにVocaloidのコミュニティが生まれた。立ち上がり当初は、後にメインストリームで成功を収めることになるsupercellやLivetuneなどが参加していた(LivetuneのプロデューサーkzはGoogle ChromeのCM曲を制作しており、彼の楽曲はPharrellがリミックスを担当している)。

 

「初音ミクはニコニコ動画で知りました」と、Vocaloidプロデューサーの八王子Pは振り返る。現在彼は日本国内で最も有名なVocaloidプロデューサーのひとりで、初音ミクのデジタルな声を使用したエレクトロ・ポップを制作しており、クラブやニコニコ動画がスポンサーを務めるイベントでプレイしている。「それ以前もクラブ・ミュージックを自分で制作していましたが、全てインストゥルメンタルでした。ヴォーカルを頼める人を知らなかったからです。」

 

八王子Pはオンライン上で他のクリエイターと連絡を取るようになり、やがてVocaloidを使用した音楽やアート限定の販売イベント「Voc@loid M@aster」などで実際に彼らと顔を合わせるようになった。また、彼は当時人気を獲得しつつあったVocaloid系のクラブ・イベントにも顔を出していたが、やがで自分もプレイするようになった。「渋谷や六本木のビッグ・クラブでプレイするようになり、人気が出ていることを実感しました。」

 

Vocaloidはさらに拡大し続けた。Tower Recordsのようなレコード店はVocaloidコーナーを設け、コンビニ・チェーンのファミリーマートはふざけた広告と共に初音ミクのキャンペーンを展開。カラオケのDAMはライブラリに大量のVocaloid用楽曲をストックし、その多くは日本国内で高い人気を誇っている。またVocaloidキャラクターやヴォイス・ライブラリを独自に作り出す人が増え、そのサブジャンルはUTAUとして定着した。尚、UTAU という名前は自作の音声バンクを使用できるフリーソフト名に由来している。

 

近年Vocaloidはハイアートへも進出を果たしており、日本にシンセサイザーを初めて導入した音楽家の1人である冨田勲は2012年に初音ミクを起用した交響曲を発表し、間もなくして彼女が出演するオペラ作品『The End』も制作された。当然ながら、彼女のホログラムを使用したライブも大人気を博した。

 

要するに、Vocaloidはビッグ・ビジネスになったのだ。

 

「最初はただの遊び場のようなものでした」と、八王子Pは言う。「みんな自分がやりたいようにやっていただけ。でも今は、ニコニコ動画で再生数を稼げばどうなるか、つまり僕たちのように有名になれるということをみんなが理解しています。だから今は以前よりコマーシャルになっていて、リスナーにどう受け止められるか考慮されています。それ以前は自分が作りたいものを作っていた。」

 

日本ではポップ・スターさえもが、Vocaloidに便乗しようとした。日本での売り上げ最多枚数を誇るAKB48のメンバーで、今年6月に開催された選抜総選挙で1位となった渡辺麻友は、2012年にエレクトロ・ポップのシングル「ヒカルものたち」をリリースしているが、この楽曲のプロデューサーには八王子Pが起用され、そのミュージック・ビデオの渡辺麻友はVocaloidのキャラクターのような格好をしていた。これらは意図的に行われ。「制作時に、『彼女の声をVocaloidのようにしてくれ』と言われました。試みましたが、全く同じようには出来なかった。彼女の声には何かしら感情的な部分が残っていたので。でも人間の声はそのくらいがちょうどいいと思いました。Vocaloidには感情がないですが、それこそがVocaloidというソフトウェアの人間にはない魅力なんです。」

 

八王子Pのこの発言からは、テクノロジーの抱える奇妙な矛盾が見えてくる 。「元々私は人工音声を最も完璧に近づけることを目的としていました。」ポンペイ・ファブラ大学の研究グループのメンバーのひとり、Dr. Serraは説明する。「でも現実は全く違いました。世の中の人々は現時点よりも更に精度の高いヴォーカルを求めてはいない。私はそう感じています。私にとっては、初音ミクがこれほど受け容れられたことは大きな驚きでした。彼女の声は人間の声とは全く違うからです。私たちには不完全に聴こえますが、世間ではあのロボットのような声質が好まれているのです。」

 

八王子Pも同意する。「僕たちがあの機械的な声に惹かれたのは、Vocaloid 2の機能が非常に限られていたからです。僕たちの仲間内で、色々な使い方を試してみましたが… 結局、機械的なスタイルに傾倒していきました。」そして日本国内の多くのリスナーも彼の好みに同調している。八王子Pは今年8月に2枚目のフル・アルバム『Twinkle World』をリリースし、日本で最も人気のフェスティバルの1つRock In Japanを含む、数多くのライブ・イベントに出演している。

 

 

では、Vocaloidの未来はどうなるのだろうか?ヤマハは利用者数は増加していると考えている。同社は2011年末にVocaloid 3を発表しているが、興味深い展開は後追いで増えてきた日本国外のユーザーに向けたVocaloidの開発だ。Zero-Gが発売した最初のVocaloidソフトウェアは英語版だったが、2013年8月の段階で、初音ミクには日本語版しかなかった。しかし、今は英語版の初音ミクに加え、中国語版、韓国語版、スペイン語版のVocaloidがある。

 

「私たちはVocaloid、そしてそのコミュニティを愛しているので、世界初のスペイン語版Vocaloidを開発したいと思っていました。残念ながらVocaloidはスペインやヨーロッパでは日本ほどの人気はありません」と、Bonitaは言う。「現時点ではMaika、Bruno、Claraの3つのスペイン語音声ソフトが開発され、Kinectを使用したシステムで、リアルタイムに彼らを操作出来るコンサートも開催しました。」

 

「理想としては、なるべくたくさんの言語でVocaloidを展開したいです。誰だって母国語で楽曲を制作したいと思っていますから。でも現時点ではそれが出来ない!これから開発に取り組まなければなりません」と、剣持は言う。「Vocaloidはネヴァーエンディング・ストーリーなのです!」

 

Special thanks to Sena Fujisawa for the translation help.

 

Title Image: Coutersy of Crypton Future Media. INC