倍可親

回復: 0
列印 上一主題 下一主題

150多萬張「不可描述」照片數據集新鮮出爐,這次一定不要在辦公室打開

[複製鏈接]

1萬

主題

2萬

帖子

3萬

積分

貝殼精神領袖

Rank: 6Rank: 6

積分
35927
跳轉到指定樓層
樓主
華盛頓人 發表於 2019-2-17 11:03 | 只看該作者 回帖獎勵 |倒序瀏覽 |閱讀模式
  15  2019-02-15 12:16公司/58

  三井 發自 凹非寺

  真是青出於藍而勝於藍。

  距離上次開源20萬「不可描述」圖片數據集30天之後,又有人在GitHub上放出「大招」:

  開源了內含158.9萬張不可描述圖片的數據集。

  

  這次出手的,是一位名叫Evgeny Bazarov數據科學家,目前在一家內容優化公司Besedo工作。

  他說,自己做這個數據集,是受到了nsfw_data_scrapper(20萬數據集)的啟發。

  與先前的數據集不同,這個數據集更加「純粹」,並按照場景、外觀等因素分成了159個類別,比如:

  「appearance_clothing_dresses」、「locations_nature_beach」、「amateur_self-shots」等等。

  

  而且,在這159個類別之下,再次進行了分類。比如在「appearance_clothing_dresses」類別下,還有5個類別:

  

  至於這個數據集的用途,就仁者見仁智者見智了。

  Bazarov表示,它可以用來鑒別「NSFW」圖像。畢竟這個數據中基本上都是「不可描述」的圖像,分類又細化。

  如果你有想法,倒是可以上手試一試。

  比如,上次20萬數據集放出之後,就有人做成了鑒黃模型。

  項目地址:

  https://github.com/rockyzhengwu/nsfw

  想要下載數據集,得有足夠大的硬碟。整個數據集下載清洗后大概有500G大小。

  在GitHub上,給出的是圖片的URL。

  

  具體的下載方法,可以參考nsfw_data_scrapper中的腳本:

  找到s目錄下的「2_download_from_urls.sh」……

  但是,切記,一定不要在辦公室打開。

  傳送門

  數據集下載腳本地址:

  https://github.com/alexkimxyz/nsfw_data_scrapper

  158萬數據集地址:

  https://github.com/EBazarov/nsfw_data_source_urls

  — 完—

時代小人物. 但也有自己的思想,情感. 和道德.
您需要登錄后才可以回帖 登錄 | 註冊

本版積分規則

關於本站 | 隱私權政策 | 免責條款 | 版權聲明 | 聯絡我們

Copyright © 2001-2013 海外華人中文門戶:倍可親 (http://big5.backchina.com) All Rights Reserved.

程序系統基於 Discuz! X3.1 商業版 優化 Discuz! © 2001-2013 Comsenz Inc.

本站時間採用京港台時間 GMT+8, 2025-7-26 19:52

快速回復 返回頂部 返回列表