Huggingface 文件下载 [draft]
Huggingface AI 社区相关模型、数据集等文件下载
Beijing, China: ☀️ 🌡️+23°C 🌬️↑6km/h
🗒️ 写在前面
Huggingface AI 社区相关模型、数据集等文件下载
前期配置
# 添加代理
git config --global http.proxy http://127.0.0.1:10808
git config --global https.proxy http://127.0.0.1:10808
scoop install git-lfs
# 验证显示> Git LFS initialized.这安装成功
git lfs install
pip install -U huggingface_hub
数据下载
## dataset
from datasets import load_dataset
ds = load_dataset("logo-wizard/modern-logo-dataset")
# single file as pandas
from huggingface_hub import hf_hub_download
import pandas as pd
REPO_ID = "YOUR_REPO_ID"
FILENAME = "data.csv"
dataset = pd.read_csv(
hf_hub_download(repo_id=REPO_ID, filename=FILENAME, repo_type="dataset")
)
模型下载
# 方法1
from huggingface_hub import hf_hub_download
import joblib
REPO_ID = "YOUR_REPO_ID"
FILENAME = "sklearn_model.joblib"
model = joblib.load(
hf_hub_download(repo_id=REPO_ID, filename=FILENAME)
)
# 方法2
from huggingface_hub import snapshot_download
import os
snapshot_download(repo_id="meta-llama/Meta-Llama-3.1-8B-Instruct")
hf 镜像
环境变量
# 设置临时环境变量
$env:HF_ENDPOINT = "https://hf-mirror.com"
# powershell总设置永久环境
[System.Environment]::SetEnvironmentVariable("HF_ENDPOINT", "https://hf-mirror.com", [System.EnvironmentVariableTarget]::User)
上述命令将 VAR_NAME
设置为用户级别的环境变量,如果想设置系统级别的环境变量(对所有用户都有效),使用 System.EnvironmentVariableTarget]::Machine
,并以管理员身份运行 PowerShell。
同时,使用 setx
或 System.Environment
设置的环境变量在当前会话中不会立即生效,我们需要重新启动命令行或 PowerShell 才会生效。
文件下载
# 下载模型
huggingface-cli download --resume-download gpt2 --local-dir gpt2
# 下载数据集
huggingface-cli download --repo-type dataset --resume-download wikitext --local-dir wikitext
# **huggingface-cli: 添加`--token`参数**
huggingface-cli download --token hf_*** --resume-download meta-llama/Llama-2-7b-hf --local-dir Llama-2-7b-hf
# 创建模型路径并下载
mkdir models--openai-community--gpt2-large && huggingface-cli download --resume-download openai-community/gpt2-large --local-dir models--openai-community--gpt2-large
注:部分 Gated Repo 需登录申请许可,需先前往 Hugging Face 官网登录、申请许可,在官网这里获取 Access Token 后回镜像站用命令行下载。
📖 参考文献
💬 评论