機械学習に必須のデータセットが無料でダウンロードできる国内外のサイトを用途ごとに分類しました。
提供元は大学が多い為、用途は非営利に限定されますが、検証に最適な大量のデータセットが入手できます。
ダウンロードできるデータ形式も豊富で、csv、jpg、mp4など様々な種類があります。
※データの利用規約については解る範囲でメモしていますが、規約が変わることも有る為、最新の情報はリンク先を参照してください。
- 動画
- 画像
- テキスト
- 音声
- 人
- 専門分野
- データセット総合サイト
クリエイティブコモンズのライセンス表記の見方
表示:著作権者の表示義務有り
営利目的(非営利):利用は非営利に限る
改変(改変禁止):一切の編集を禁じる
継承:頒布をする場合は、元のライセンスを受け継ぐ必要あり
動画のデータセット
人の行動のデータセット
Google DeepMind
Youtubeから収集した人間の行動に関するデータセット
https://deepmind.com
利用条件:表示
人の行動のデータセット
University of Central Florida
サーフィン、メイク、髭剃り、などの認識用のデータセット
http://crcv.ucf.edu/
利用条件:特記無し。ページ中央部に連絡先が載っています。
動きのデータセット
MIT-IBM Watson AI Lab
モーションに関するデータセット。
人間以外にも、犬、パンダ、流れる水、アニメーションも含まれて居ます。
http://moments.csail.mit.edu/
利用条件:特記無し。
データセットのダウンロードには連絡先の入力が必要です。
ジェスチャーアクションのデータセット
TwentyBN
「ピースをする」「手を払う」などの人の手の動きを集めた148,092点のデータセットです。
https://www.twentybn.com
利用条件:アカデミック用(非営利)データセット。
詳しくはフォームからお問い合わせくださいとのことです。
調理のデータセット
University of Bristol/Toronto/Catania
NOKIA提供の料理風景や食材に関する動画です。容量は1TB有ります。
https://epic-kitchens.github.io/2018
利用条件:表示/非営利
自動運転向けのデータセット
Berkeley
1,100時間のドライビング動画です。車の種類や交通標識を物体検出・セグメンテーションも含まれています。
http://bdd-data.berkeley.edu/
利用条件:ユーザー登録が必要です。
自動運転向けのデータセット
ApolloScape
センサーから取得したデータを含む自動運転を想定した道路情報です。
http://apolloscape.auto/
利用条件:「表示」以外の特記は有りませんでしたが、
研究目的の利用を想定しているようなニュアンスです。
自動運転向けのデータセット
UCSD CVRR Lab
車間距離、街の中心部と高速道路の比較、運転風景(ハンドル操作)等
http://cvrr.ucsd.edu
利用条件:アカデミック用(非営利)データセット
自動運転向けのデータセット
Lyft
5万件以上の3Dラベル付きフレーム、セマンティック空間マップ、複数台のカメラとセンサーから集めたデータ
https://level5.lyft.com/dataset/
利用条件:非営利
都市景観のデータセット
Cityscapes Team
セマンティッククラスを含む街の走行映像です。GPSの情報も含みます。
https://www.cityscapes-dataset.com/
利用条件:非営利
画像のデータセット
自然のデータセット
Alex Krizhevsky
転移学習でお馴染みのCIFARの動物や魚のフルカラー画像です。
http://www.cs.toronto.edu
画像のデータセット
ImageNet
こちらも有名なImageNet。
ImageNetは、サムネイルとネット上から収集した画像のURLを提供しているだけなので注意されたし
http://image-net.org/
利用条件:個人使用のみ
画像のデータセット
Google Inc
最大のボリュームを誇るOpen Images Dataset
アノテーションやセグメンテーションのデータセットが数百万単位で置かれています。
https://storage.googleapis.com/openimages/web/index.html
利用条件:表示
画像のデータセット
Computer Vision Lab
人の顔や101,000点の調理済みの料理やお菓子の画像や動画
https://www.vision.ee.ethz.ch
利用条件:原則的に非営利
画像のデータセット
COCO Consortium
あらゆる種類の画像を集めた物体検出用のデータセットです。
http://mscoco.org/
利用条件:個人使用のみ
画像のデータセット
Stanford University
視覚情報(画像)と概念(言葉)を繋ぐ10万を超えるデータセット
http://visualgenome.org/
利用条件:CC BY Attributionの表記有りますが、画像は別っぽいです。
手書き文字のデータセット
New York University&Google Labs
機械学習と言えば、MNIST。importでダウンロードすることが多いですが、元はこちらです。
米国の学生と国税調査局の職員の筆跡です。
http://yann.lecun.com
犬のデータセット
Stanford University
画像のソースはImageNet
http://vision.stanford.edu
利用条件:個人使用のみ
日常風景(場面)のデータセット
Ariadna Quattoni
15620点の室内写真を収めたデータセットです。
http://web.mit.edu
利用条件:アカデミック用(非営利)データセット
日常風景(場面)のデータセット
LSUN Challenge
キッチン、ドア、リビングなど。ImageNet チャレンジ用のデータセット
http://lsun.cs.princeton.edu
利用条件:特記無し
ファッションのデータセット
GitHub hanxiao
服、帽子、カバン、靴などファッションに関する画像のみを取り出したデータセット
https://github.com
利用条件:データセットに関する特記無し(コードはMIT)
置物の画像のデータセット
Columbia University
玩具や缶詰を色々な角度で撮影した画像。
http://www1.cs.columbia.edu
利用条件:特記無し
テキストのデータセット
文字列のデータセット
Google Books
N-gram(文字列)処理が施された2.2TBのテキスト
https://aws.amazon.com/
利用条件:表示
日本語のデータセット
京都大学
自然言語処理で有名な京大の長尾研究室で作成された毎日新聞の記事に各種言語情報を人手で付与したテキストコーパス。
http://nlp.ist.i.kyoto-u.ac.jp
利用条件:特記無し
ニュース記事のデータセット
Jason Rennie
ニュースグループごとの2万点を超えるドキュメント
http://qwone.com
利用条件:特記無し
電子メールのデータセット
William W. Cohen, MLD, CMU
エンロン社の社員150人分の電子メールのデータ
https://www.cs.cmu.edu
利用条件:特記無し
スパムメールのデータセット
University of California
迷惑メールフィルターを作るのに役立つチェーンメール、ポルノ、詐欺などの種類の スパムメールのデータです。
https://archive.ics.uci.edu
利用条件:表記についての指定があります。ページ下部のcitation policyを参照
レビューのデータセット
Stanford University
感情分析を想定した25,000 の映画のレビュー
http://ai.stanford.edu
利用条件:表記無し
レビューのデータセット
IMDb
映画レビューのデータセット。感情 (肯定/否定) のラベル付けをされています。
https://www.imdb.com
利用条件:IMDbの規約に準ずる(ページ上部にリンク有り)
レビューのデータセット
Stanford University
トータル400万を超えるアマゾンのレビューを集めたデータセット。
商品カテゴリーごとに別れています。
https://snap.stanford.edu
利用条件:特記無し
レビューのデータセット
Johns Hopkins University
ミュージックや映画に関するレビュー、レビュー投稿者の感情分析を想定
http://www.cs.jhu.edu
利用条件:表記無し
レビューのデータセット
Yelp Inc
5,996,996件のjspn形式のレビューです。
https://www.yelp.com/dataset
利用条件:アカデミック用(非営利)データセット
ブログのデータセット
J. Schler, M. Koppel, S. Argamon, J. Pennebaker
blogger.comの利用者2万人から収集された投稿文章。年齢別に分かれています。
http://u.cs.biu.ac.il
利用条件:アカデミック用(非営利)データセット
ウィキペディアのデータセット
Google
2012年のウィキペディアから引っ張ってきたデータ。
GitHubからもインポートできます。
https://code.google.com
利用条件:CC BY Attributionの表記有りますが、Wikiの投稿ごとのライセンスに帰属すると思います。
書籍タイトルのデータセット
Gutenberg
書籍の説明を含む電子書籍のデータ。毎年更新してくれています。
http://www.gutenberg.org
利用条件:特記無し
議事録のデータセット
University of Southern California
カナダ議会の上院と下院の議事録です。
http://www.isi.edu
利用条件:データはカナダ議会に帰属します。
クイズのデータセット
r/datasets
216,930問のクイズのクエスチョンとアンサーのデータです。フォーマットはjsonとCSV
https://www.reddit.com
利用条件:特記無し
音声のデータセット
会話のデータセット
University of Pennsylvania
40人分の電話での会話が収録されたデータです。
https://catalog.ldc.upenn.edu
利用条件:特記無し。ページ上部に連絡先が載っています。
スピーチのデータセット
Jakobovski@Github
8kHzで収録された3人分の録音データ
https://github.com/Jakobovski/
利用条件:表示/継承
スピーチのデータセット
OpenSLR
16kHzで収録された1000時間のスピーチ
http://www.openslr.org/12/
利用条件:元データはパブリックドメインのオーディオブックとのこと
スピーチのデータセット
University of Pennsylvania
1chPCM形式で録音された630人分の音声データ
https://catalog.ldc.upenn.edu
利用条件:アカデミック用(非営利)データセット
人のデータセット
顔のデータセット
AT&T Laboratories
1992年から1994年の2年間にラボで撮影されたモノクロ画像
https://www.cl.cam.ac.uk/
利用条件:特記無し
顔のデータセット
University of Washington
672057人分の表情を収めた写真のデータ
http://megaface.cs.washington.edu/
利用条件:特記無し
顔のデータセット
University of Hong Kong
有名人の画像のコレクション。表情に加え、「帽子を被っている」「眼鏡をかけている」等の画像が有ります。
http://mmlab.ie.cuhk.edu.hk/
利用条件:詳しくは、お問い合わせくださいとのことですが、ソース的に個人使用限定だと思います。
顔のデータセット
University Of Cape Town
ブルーバック(スタジオ)で撮影された3755人のデータ
http://www.milbo.org/muct/
利用条件:個人使用のみ
顔のデータセット
NIST
US版の経済産業省直下の「国立標準技術研究所」で、1993年~1996年までに収集された顔データ。
ダウンロードする為には、メールで申し込む必要があります。
https://www.nist.gov/
利用条件:個人使用のみ
顔のデータセット
Visual Geometry Group
9000人分のデータ。ダウンロード前に登録が必要です。
https://www.robots.ox.ac.uk
利用条件:表示/継承
顔のデータセット
FDDB: Face Detection Data Set and Benchmark
5171人に自然な動きを捉えたデータ
http://vis-www.cs.umass.edu/fddb/
利用条件:表記についての指定があります。BibTeX entryを参照
歩行者のデータセット
Computer Vision Lab
路上で歩行者を収めた640x480サイズの動画
https://data.vision.ee.ethz.ch
利用条件:原則的に非営利
シルエットのデータセット
University of Amsterdam
白黒や解像度の低い動画が提供されています。
実装を想定した監視カメラの検証に適してそうです。
http://www.gavrila.net
利用条件:非営利
専門分野のデータセット
健康情報のデータセット
HealthData.gov
CSV等の形式のアメリカ国民のメディカル調査情報
https://healthdata.gov
利用条件:特記無し
生命情報のデータセット
Integbio データベースカタログ
生命科学系データベース統合のための合同ポータルサイトです。
動物、植物、細菌のゲノム情報が入手できます。
https://integbio.jp
利用条件:表示
生命情報のデータセット
PDBj
日本蛋白質構造データバンクによる生体高分子の立体構造データベース
https://pdbj.org/
利用条件:表示
生命情報のデータセット
ChEMBL
バイオインフォマティクス研究所による医薬品及び医薬品候補化合物などの生物活性低分子のデータベース。
化合物、標的タンパク質、生物活性情報が入手できます。
https://www.ebi.ac.uk
生命情報のデータセット
AlphaFold Protein Structure Database
DNAと同様に人の構成要素であるプロテオーム(タンパク質)のデータです。
DeepMind社のアミノ酸配列からタンパク質の3D構造を予測するAIシステム「AlphaFold」のオープンリサーチの一環として公開されており、
ツールも提供されています。
https://alphafold.ebi.ac.uk
利用条件:表示
脳のデータセット
OASIS
様々な年代のMRIのデータ。イメージ(画像)も有ります。
http://www.oasis-brains.org
利用条件:アカデミック用(非営利)データセット
臨床のデータセット
Data.gov
124指標で測った50万件を超える慢性疾患患者の臨床データ
https://catalog.data.gov
利用条件:特記無し
臨床のデータセット
NDBオープンデータ
日本国内のレセプト情報や特定健診情報。
リンク先の集計表は誰でもダウンロードできます。
オリジナルデータの請求は学校や研究所のような有資格団体に属するか、識者委員会の審査を受けることで可能になります。
https://www.mhlw.go.jp
臨床のデータセット
ClinicalTrials.gov
20万件を超える臨床研究の登録リスト
https://clinicaltrials.gov
癌のデータセット
NationalCancerInstitute
米国政府提供の年齢や性別で統計を取った癌に関するデータ
https://seer.cancer.gov
利用条件:
化学分子のデータセット
Pubchem
分子単位の数百万の化合物構造をFTP経由でダウンロードできます。
https://pubchem.ncbi.nlm.nih.gov
相場のデータセット
CoinMarketCap
2013年以降の仮想通貨の相場履歴。他のデータと併せて回帰分析をすると何か見えてくるかもしれません。
https://coinmarketcap.com/
利用条件:Termを参照
相場のデータセット
Gain Capital Group
2000年以降のFX(外国為替証拠金取引)のデータ
http://ratedata.gaincapital.com
利用条件:特記無し
データセット総合サイト
scikit-learn
scikit-learn内でimport sklearn.datasetsで呼び出せるデータセット。
糖尿病、がん、ニュース記事、森、侵入検知など
ファイルサイズの大きいデータを扱う為の関数も用意されています。
https://scikit-learn.org
Keras
ロイターのニュース記事、映画レビュー感情分類、Tシャツやスニーカーなどのファッション関連のモノクロ画像7万枚
https://keras.io
Google
YoutubeなどのGoogleのサービスで収集したデータを使うことが出来ます。
https://ai.google/research
AWS(amazon)
宇宙やゲノム(遺伝子)などのプロジェクトにも参加できます。
https://aws.amazon.com
Kaggle
説明不要の統計&データ分析の老舗。
最適パラメータを賞金付きで探す機械学習の勉強サイト
https://www.kaggle.com
国立情報学研究所
情報・システム研究機構(ROIS)によるサイト
Yahooや楽天から提供されたデータも公開しています。
データセットの利用には申し込みが必要です。
http://www.nii.ac.jp
University of California
テキストのデータセットでも掲載したカリフォルニア大学です。
他にも様々な種類のデータセットが毎月アップロードされています。
https://archive.ics.uci.edu
Harvard University
物理学、社会学、環境、薬、などのデータセット用意されています。
https://dataverse.harvard.edu
Life Science Database Archive
生命科学系データベースアーカイブ。
医学や薬に関する研究を公共財として蓄積するプロジェクト
https://dbarchive.biosciencedbc.jp
リストは随時更新中