国立国語研究所が大規模コーパスを試験公開』(@IT),

一般公開されるのは単純な全文検索だけが可能なWebページだが、学術利用や商用利用に対してはXMLでマークアップされたコーパスも有償で提供していく。
今回収録したデータは、官公庁が発行する白書のデータ約500万語、ヤフーが提供する「Yahoo!知恵袋」のデータ約500万語の合計約1000万語分。

(snip)

課題は著作権処理だ。今回、ヤフーが提供したネット掲示板の一種であるYahoo!知恵袋では、サービスの利用開始時に投稿者に投稿メッセージの非独占的利用の権利をヤフー側に認めるように確認しているため、今回のコーパスのような2次利用も可能だった。