updated at 2019-1-8


機械学習に必須のデータセットが無料でダウンロードできる国内外のサイトを用途ごとに分類しました。

提供元は大学が多い為、用途は非営利に限定されますが、検証に最適な大量のデータセットが入手できます。
ダウンロードできるデータ形式も豊富で、csv、jpg、mp4など様々な種類があります。

※データの利用規約については解る範囲でメモしていますが、規約が変わることも有る為、最新の情報はリンク先を参照してください。

  1. 動画
  2. 画像
  3. テキスト
  4. 音声
  5. 専門分野
  6. データセット総合サイト

facebookでシェア twitterでシェア google+でキープ はてなブックマークでキープ Lineで送る

facebookでシェア twitterでシェア google+でキープ はてなブックマークでキープ Lineで送る

クリエイティブコモンズのライセンス表記の見方

表示表示 営利目的営利目的 改変改変 継承継承
表示 必要 不要
CC BY Attribution
表示/継承 必要 必要
CC BY Attribution-ShareAlike
表示/改変禁止 必要 不可 不要
CC BY Attribution-NoDerivatives
表示/非営利 必要 不可 不要
CC BY Attribution-NonCommercial
表示/非営利/継承 必要 不可 必要
CC BY Attribution-NonCommercial-ShareAlike
表示/非営利/改変禁止 必要 不可 不可 不要
CC BY Attribution-NonCommercial-NoDerivatives
著作権なし 不要 不要
Public Domain

表示:著作権者の表示義務有り
営利目的(非営利):利用は非営利に限る
改変(改変禁止):一切の編集を禁じる
継承:頒布をする場合は、元のライセンスを受け継ぐ必要あり

動画のデータセット

人の行動のデータセット

Google DeepMind
Youtubeから収集した人間の行動に関するデータセット
https://deepmind.com/research/open-source/open-source-datasets/kinetics/
利用条件表示

人の行動のデータセット

University of Central Florida
サーフィン、メイク、髭剃り、などの認識用のデータセット
http://crcv.ucf.edu/data/UCF101.php
利用条件特記無し。ページ中央部に連絡先が載っています。

動きのデータセット

MIT-IBM Watson AI Lab
モーションに関するデータセット。
人間以外にも、犬、パンダ、流れる水、アニメーションも含まれて居ます。
http://moments.csail.mit.edu/
利用条件特記無し。 データセットのダウンロードには連絡先の入力が必要です。

ジェスチャーアクションのデータセット

TwentyBN
「ピースをする」「手を払う」などの人の手の動きを集めた148,092点のデータセットです。
https://www.twentybn.com/datasets/jester/v1
利用条件アカデミック用(非営利)データセット。 詳しくはフォームからお問い合わせくださいとのことです。

調理のデータセット

University of Bristol/Toronto/Catania
NOKIA提供の料理風景や食材に関する動画です。容量は1TB有ります。
https://epic-kitchens.github.io/2018
利用条件表示/非営利

車の運転のデータセット

Berkeley
1,100時間のドライビング動画です。車の種類や交通標識を物体検出・セグメンテーションも含まれています。
http://bdd-data.berkeley.edu/
利用条件ユーザー登録が必要です。

車の運転のデータセット

ApolloScape
センサーから取得したデータを含む自動運転を想定した道路情報です。
http://apolloscape.auto/
利用条件「表示」以外の特記は有りませんでしたが、 研究目的の利用を想定しているようなニュアンスです。

車の運転のデータセット

UCSD CVRR Lab
車間距離、街の中心部と高速道路の比較、運転風景(ハンドル操作)等
http://cvrr.ucsd.edu/LISA/datasets.html
利用条件アカデミック用(非営利)データセット

都市景観のデータセット

Cityscapes Team
セマンティッククラスを含む街の走行映像です。GPSの情報も含みます。
https://www.cityscapes-dataset.com/
利用条件非営利

画像のデータセット

自然のデータセット

Alex Krizhevsky
転移学習で、よくお世話になるCIFARの動物や魚のフルカラー画像です。
http://www.cs.toronto.edu/~kriz/cifar.html

画像のデータセット

ImageNet
こちらも有名なImageNet。
ImageNetは、サムネイルとネット上から収集した画像のURLを提供しているだけなので注意されたし
http://image-net.org/
利用条件個人使用のみ

画像のデータセット

Google Inc
画像とアノテーションの大量のデータセット
https://storage.googleapis.com/openimages/web/factsfigures.html
利用条件表示

画像のデータセット

Computer Vision Lab
人の顔や101,000点の調理済みの料理やお菓子の画像や動画
https://www.vision.ee.ethz.ch/en/
利用条件原則的に非営利

画像のデータセット

COCO Consortium
あらゆる種類の画像を集めた物体検出用のデータセットです。
http://mscoco.org/
利用条件個人使用のみ

画像のデータセット

Stanford University
視覚情報(画像)と概念(言葉)を繋ぐ10万を超えるデータセット
http://visualgenome.org/
利用条件CC BY Attributionの表記有りますが、画像は別っぽいです。

手書き文字のデータセット

New York University&Google Labs
機械学習と言えば、MNIST。importでダウンロードすることが多いですが、元はこちらです。
http://yann.lecun.com/exdb/mnist/

犬のデータセット

Stanford University
画像のソースはImageNet
http://vision.stanford.edu/aditya86/ImageNetDogs/
利用条件個人使用のみ

日常風景(場面)のデータセット

Ariadna Quattoni
15620点の室内写真を収めたデータセットです。
http://web.mit.edu/torralba/www/indoor.html
利用条件アカデミック用(非営利)データセット

日常風景(場面)のデータセット

LSUN Challenge
キッチン、ドア、リビングなど。ImageNet チャレンジ用のデータセット
http://lsun.cs.princeton.edu/2016/
利用条件特記無し

ファッションのデータセット

GitHub hanxiao
服、帽子、カバン、靴などファッションに関する画像のみを取り出したデータセット
https://github.com/zalandoresearch/fashion-mnist/blob/master/README.md
利用条件データセットに関する特記無し(コードはMIT)

置物の画像のデータセット

Columbia University
玩具や缶詰を色々な角度で撮影した画像。
http://www1.cs.columbia.edu/CAVE/software/softlib/coil-100.php
利用条件特記無し

テキストのデータセット

文字列のデータセット

Google Books
N-gram(文字列)処理が施された2.2TBのテキスト
https://aws.amazon.com/datasets/google-books-ngrams/
利用条件表示

日本語のデータセット

京都大学
自然言語処理で有名な京大の長尾研究室で作成された毎日新聞の記事に各種言語情報を人手で付与したテキストコーパス。
http://nlp.ist.i.kyoto-u.ac.jp
利用条件特記無し

ニュース記事のデータセット

Jason Rennie
ニュースグループごとの2万点を超えるドキュメント
http://qwone.com/~jason/20Newsgroups/
利用条件特記無し

電子メールのデータセット

William W. Cohen, MLD, CMU
エンロン社の社員150人分の電子メールのデータ
https://www.cs.cmu.edu/~./enron/
利用条件特記無し

スパムメールのデータセット

University of California
迷惑メールフィルターを作るのに役立つチェーンメール、ポルノ、詐欺などの種類の スパムメールのデータです。 https://archive.ics.uci.edu/ml/datasets/Spambase
利用条件表記についての指定があります。ページ下部のcitation policyを参照

レビューのデータセット

Stanford University
感情分析を想定した25,000 の映画のレビュー
http://ai.stanford.edu/~amaas/data/sentiment/
利用条件表記無し

レビューのデータセット

IMDb
映画レビューのデータセット。感情 (肯定/否定) のラベル付けをされています。
https://www.imdb.com/interfaces/
利用条件IMDbの規約に準ずる(ページ上部にリンク有り)

レビューのデータセット

Stanford University
トータル400万を超えるアマゾンのレビューを集めたデータセット。
商品カテゴリーごとに別れています。
https://snap.stanford.edu/data/web-Amazon.html
利用条件特記無し

レビューのデータセット

Johns Hopkins University
ミュージックや映画に関するレビュー、レビュー投稿者の感情分析を想定
http://www.cs.jhu.edu/~mdredze/datasets/sentiment/
利用条件表記無し

レビューのデータセット

Yelp Inc
5,996,996件のjspn形式のレビューです。
https://www.yelp.com/dataset
利用条件アカデミック用(非営利)データセット

ブログのデータセット

J. Schler, M. Koppel, S. Argamon, J. Pennebaker
blogger.comの利用者2万人から収集された投稿文章。年齢別に分かれています。
http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm
利用条件アカデミック用(非営利)データセット

ウィキペディアのデータセット

Google
2012年のウィキペディアから引っ張ってきたデータ。
GitHubからもダウンロードできます。
https://code.google.com/archive/p/wiki-links/
利用条件CC BY Attributionの表記有りますが、Wikiの投稿ごとのライセンスに帰属すると思います。

書籍タイトルのデータセット

Gutenberg
書籍の説明を含む電子書籍のデータ。毎年更新してくれています。
http://www.gutenberg.org/wiki/Gutenberg:Offline_Catalogs
利用条件特記無し

議事録のデータセット

University of Southern California
カナダ議会の上院と下院の議事録です。
http://www.isi.edu/natural-language/download/hansard/
利用条件データはカナダ議会に帰属します。

クイズのデータセット

r/datasets
216,930問のクイズのクエスチョンとアンサーのデータです。フォーマットはjsonとCSV
https://www.reddit.com/r/datasets/comments/1uyd0t/200000_jeopardy_questions_in_a_json_file/
利用条件特記無し

音声のデータセット

会話のデータセット

University of Pennsylvania
40人分の電話での会話が収録されたデータです。
https://catalog.ldc.upenn.edu/LDC2002T43
利用条件特記無し。ページ上部に連絡先が載っています。

スピーチのデータセット

Jakobovski@Github
8kHzで収録された3人分の録音データ
https://github.com/Jakobovski/free-spoken-digit-dataset
利用条件表示/継承

スピーチのデータセット

OpenSLR
16kHzで収録された1000時間のスピーチ
http://www.openslr.org/12/
利用条件元データはパブリックドメインのオーディオブックとのこと

スピーチのデータセット

University of Pennsylvania
1chPCM形式で録音された630人分の音声データ
https://catalog.ldc.upenn.edu/LDC93S1
利用条件アカデミック用(非営利)データセット

人のデータセット

顔のデータセット

AT&T Laboratories
1992年から1994年の2年間にラボで撮影されたモノクロ画像
https://www.cl.cam.ac.uk/research/dtg/attarchive/facedatabase.html
利用条件特記無し

顔のデータセット

University of Washington
672057人分の表情を収めた写真のデータ
http://megaface.cs.washington.edu/
利用条件特記無し

顔のデータセット

University of Hong Kong
有名人の画像のコレクション。表情に加え、「帽子を被っている」「眼鏡をかけている」等の画像が有ります。
http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html
利用条件詳しくは、お問い合わせくださいとのことですが、ソース的に個人使用限定だと思います。

顔のデータセット

University Of Cape Town
ブルーバック(スタジオ)で撮影された3755人のデータ
http://www.milbo.org/muct/
利用条件個人使用のみ

顔のデータセット

NIST
US版の経済産業省直下の「国立標準技術研究所」で、1993年~1996年までに収集された顔データ。
ダウンロードする為には、メールで申し込む必要があります。
https://www.nist.gov/itl/iad/image-group/color-feret-database
利用条件個人使用のみ

顔のデータセット

Visual Geometry Group
9000人分のデータ。ダウンロード前に登録が必要です。
https://www.robots.ox.ac.uk/~vgg/data/vgg_face2/
利用条件表示/継承

顔のデータセット

FDDB: Face Detection Data Set and Benchmark
5171人に自然な動きを捉えたデータ
http://vis-www.cs.umass.edu/fddb/
利用条件表記についての指定があります。BibTeX entryを参照

歩行者のデータセット

Computer Vision Lab
路上で歩行者を収めた640x480サイズの動画
https://data.vision.ee.ethz.ch/cvl/aess/dataset/
利用条件原則的に非営利

シルエットのデータセット

University of Amsterdam
白黒や解像度の低い動画が提供されています。
実装を想定した監視カメラの検証に適してそうです。
http://www.gavrila.net
利用条件非営利

専門分野のデータセット

健康情報のデータセット

HealthData.gov
CSV等の形式のアメリカ国民のメディカル調査情報
https://healthdata.gov/search/type/dataset
利用条件特記無し

脳のデータセット

OASIS
様々な年代のMRIのデータ。イメージ(画像)も有ります。
http://www.oasis-brains.org/#data
利用条件アカデミック用(非営利)データセット

臨床のデータセット

Data.gov
124指標で測った50万件を超える慢性疾患患者の臨床データ
https://catalog.data.gov/dataset/u-s-chronic-disease-indicators-cdi
利用条件:特記無し

癌のデータセット

NationalCancerInstitute
米国政府提供の年齢や性別で統計を取った癌に関するデータ
https://seer.cancer.gov/faststats/selections.php?series=cancer
利用条件

相場のデータセット

CoinMarketCap
2013年以降の仮想通貨の相場履歴。他のデータと併せて回帰分析をすると何か見えてくるかもしれません。
https://coinmarketcap.com/
利用条件:Termを参照

相場のデータセット

Gain Capital Group
2000年以降のFX(外国為替証拠金取引)のデータ
http://ratedata.gaincapital.com/
利用条件:特記無し

データセット総合サイト

国立情報学研究所
情報・システム研究機構(ROIS)によるサイト
Yahooや楽天から提供されたデータも公開しています。
データセットの利用には申し込みが必要です。
http://www.nii.ac.jp/dsc/idr/datalist.html

Google
YoutubeなどのGoogleのサービスで収集したデータを使うことが出来ます。
https://ai.google/research

AWS(amazon)
宇宙やゲノム(遺伝子)などのプロジェクトにも参加できます。
https://aws.amazon.com/jp/opendata/

Kaggle
説明不要の統計&データ分析の老舗サイト。
前処理済みのデータが賞金付きで用意されており、機械学習の勉強に最適です。
https://www.kaggle.com

University of California
テキストのデータセットでも掲載したカリフォルニア大学です。
他にも様々な種類のデータセットが毎月アップロードされています。
https://archive.ics.uci.edu/ml/index.php

Harvard University
物理学、社会学、環境、薬、などのデータセット用意されています。
https://dataverse.harvard.edu/

Life Science Database Archive
生命科学系データベースアーカイブ。
医学や薬に関する研究を公共財として蓄積するプロジェクト
https://dbarchive.biosciencedbc.jp/index.html

リストは随時更新中

facebookでシェア twitterでシェア google+でキープ はてなブックマークでキープ Lineで送る

facebookでシェア twitterでシェア google+でキープ はてなブックマークでキープ Lineで送る


AI(人工知能)の学習データの売買プラットフォーム

Copyright Md.lab All Rights Reserved