🔄 卡若AI 同步 2026-02-16 06:02 | 变更 6 个文件 | 排除 >20MB: 4 个

2026-02-16 06:02:13 +08:00
parent 49c722c6d8
commit 4806c6971c
6 changed files with 290 additions and 0 deletions
--- a/02_卡人（水）/_团队成员/水桥/智能纪要/SKILL.md
+++ b/02_卡人（水）/_团队成员/水桥/智能纪要/SKILL.md
@@ -172,6 +172,35 @@ python3 scripts/fetch_feishu_minutes.py --file "导出.txt" --title "产研团
 - **Soul派对聊天记录**
 - **其他会议文字记录**
 ### 批量下载多场妙记 TXT（如「派对」「受」100 场）
 飞书没有「妙记列表」API，需先拿到**妙记链接列表**，再批量拉取 TXT。
 **步骤 1：得到 URL 列表文件 `urls.txt`**
 - **方式 A（推荐）**：在飞书客户端或网页打开 **视频会议 → 妙记**，在列表里用搜索框输入「派对」或「受」（或「soul 派对」），得到筛选结果后，逐条点开每条记录，复制浏览器地址栏链接（形如 `https://cunkebao.feishu.cn/minutes/xxxxx`），每行一个粘贴到 `urls.txt`。
 - **方式 B**：若列表页支持「复制链接」或导出，可一次性整理成每行一个 URL 的文本。
 **步骤 2：批量下载 TXT**
 ```bash
 cd /Users/karuo/Documents/个人/卡若AI/02_卡人（水）/_团队成员/水桥/智能纪要/scripts
 # 从 urls.txt 批量下载，TXT 保存到默认 output 目录
 python3 batch_download_minutes_txt.py --list urls.txt
 # 指定输出目录（如 soul 派对 100 场）
 python3 batch_download_minutes_txt.py --list urls.txt --output ./soul_party_100_txt
 # 已下载过的跳过，避免重复
 python3 batch_download_minutes_txt.py --list urls.txt --output ./soul_party_100_txt --skip-existing
 # 先试跑前 3 条
 python3 batch_download_minutes_txt.py --list urls.txt --limit 3
 ```
 **说明**：脚本内部调用飞书妙记 API 拉取文字记录；若某条无「妙记文字记录」权限，该条会保存为仅含标题+时长的占位 TXT，可后续在妙记页手动「导出文字记录」后替换。
 ---
 ## 📤 飞书集成配置
--- a/02_卡人（水）/_团队成员/水桥/智能纪要/references/飞书妙记批量下载TXT说明.md
+++ b/02_卡人（水）/_团队成员/水桥/智能纪要/references/飞书妙记批量下载TXT说明.md
@@ -0,0 +1,57 @@
 # 飞书妙记批量下载 TXT 说明
 > 场景：飞书妙记里已有多场带「派对」「受」等关键字的视频会议（如 soul 派对 100 场），需要把这批会议的文字记录**全部下载为 TXT**。
 ## 一、为什么不能「一键筛 100 场再导出」
 - 飞书开放平台**没有**「妙记列表」或「按标题筛选妙记」的 API，只能通过**已知的妙记链接（minute_token）**逐条拉取。
 - 因此流程是：**先拿到这批妙记的 URL 列表 → 再用脚本批量拉取 TXT**。
 ## 二、如何拿到 URL 列表（urls.txt）
 ### 方法 1：在飞书妙记列表里手动收集（推荐）
 1. 打开飞书（客户端或网页）→ **视频会议** → **妙记**。
 2. 在列表页的**搜索框**输入关键字，例如：`派对`、`受`、`soul 派对`，得到筛选后的列表。
 3. 逐条点开每条记录，在浏览器地址栏复制链接（形如 `https://xxx.feishu.cn/minutes/xxxxxxxxxx`），粘贴到文本文件，**每行一个链接**，保存为 `urls.txt`。
 4. 若使用飞书客户端，可尝试「在浏览器中打开」当前妙记，再复制地址栏。
 ### 方法 2：只写 minute_token（也可以）
 若链接形式是 `https://cunkebao.feishu.cn/minutes/obcnjnsx2mz7vj5q843172p8`，脚本也支持在 `urls.txt` 里只写后半段 token，例如一行写 `obcnjnsx2mz7vj5q843172p8` 即可。
 ## 三、批量下载命令
 在智能纪要脚本目录下执行：
 ```bash
 cd /Users/karuo/Documents/个人/卡若AI/02_卡人（水）/_团队成员/水桥/智能纪要/scripts
 # 批量下载，输出到默认 output
 python3 batch_download_minutes_txt.py --list urls.txt
 # 输出到指定目录（如 soul 派对 100 场）
 python3 batch_download_minutes_txt.py --list urls.txt --output ./soul_party_100_txt
 # 已存在同名 TXT 则跳过（断点续跑）
 python3 batch_download_minutes_txt.py --list urls.txt --output ./soul_party_100_txt --skip-existing
 # 先试跑 3 条
 python3 batch_download_minutes_txt.py --list urls.txt --limit 3
 ```
 ## 四、输出说明
 - 每条妙记会生成一个 TXT，文件名格式：`标题_日期.txt`（非法字符会替换为下划线）。
 - 若应用没有「妙记文字记录」权限，该条会保存为仅含标题+时长的占位内容；可在飞书妙记页对该条手动「…」→「导出文字记录」后，用导出的文件覆盖或合并。
 ## 五、相关脚本
 | 脚本 | 作用 |
 |:---|:---|
 | `batch_download_minutes_txt.py` | 从 urls.txt 批量拉取 TXT |
 | `fetch_feishu_minutes.py` | 单条妙记链接 → 拉取并保存 TXT（被批量脚本复用） |
 ---
 **版本**：2026-02-16 | 归属：水桥 · 智能纪要
--- a/02_卡人（水）/_团队成员/水桥/智能纪要/scripts/batch_download_minutes_txt.py
+++ b/02_卡人（水）/_团队成员/水桥/智能纪要/scripts/batch_download_minutes_txt.py
@@ -0,0 +1,169 @@
 #!/usr/bin/env python3
 """
 飞书妙记批量下载 TXT 文字记录
 从「URL 列表文件」批量拉取飞书妙记，将每场的文字记录保存为 TXT。
 适用于：派对、受 等关键字筛选后的 100 场妙记一次性下载。
 用法：
  # 从 urls.txt 批量下载（每行一个妙记链接）
  python3 batch_download_minutes_txt.py --list urls.txt
  # 指定输出目录
  python3 batch_download_minutes_txt.py --list urls.txt --output ./soul_party_txt
  # 跳过已存在的 TXT（按标题+日期判断）
  python3 batch_download_minutes_txt.py --list urls.txt --skip-existing
  # 仅试跑前 3 条
  python3 batch_download_minutes_txt.py --list urls.txt --limit 3
 如何得到 urls.txt：
  1) 在飞书妙记列表页搜索「派对」「受」或「soul 派对」，逐个打开每条记录，复制地址栏链接到文本，每行一个。
  2) 或用浏览器自动化在列表页抓取所有卡片的链接（需在已登录飞书的前提下）。
 """
 import argparse
 import re
 import sys
 from datetime import datetime
 from pathlib import Path
 SCRIPT_DIR = Path(__file__).parent
 ROOT = SCRIPT_DIR.parent
 OUTPUT_DIR = ROOT / "output"
 # 导入单条拉取逻辑
 sys.path.insert(0, str(SCRIPT_DIR))
 from fetch_feishu_minutes import (
    extract_minute_token,
    fetch_and_save,
    get_tenant_access_token,
    get_minutes_info,
    get_minutes_transcript,
    get_minutes_speakers,
    transcripts_to_text,
    save_transcript,
    format_timestamp,
    OUTPUT_DIR as DEFAULT_OUTPUT_DIR,
 )
 def load_url_list(path: Path) -> list[str]:
    """从文件读取 URL 列表，每行一个，去掉空行和重复"""
    if not path.exists():
        return []
    lines = path.read_text(encoding="utf-8", errors="ignore").strip().splitlines()
    urls = []
    seen = set()
    for line in lines:
        line = line.strip()
        if not line or line.startswith("#"):
            continue
        # 兼容只写 minute_token 的情况
        if line not in seen:
            seen.add(line)
            urls.append(line)
    return urls
 def main():
    parser = argparse.ArgumentParser(
        description="飞书妙记批量下载 TXT：从 URL 列表文件批量拉取文字记录"
    )
    parser.add_argument(
        "--list", "-l",
        type=str,
        required=True,
        help="URL 列表文件路径，每行一个妙记链接或 minute_token",
    )
    parser.add_argument(
        "--output", "-o",
        type=str,
        default=None,
        help=f"TXT 输出目录（默认: {OUTPUT_DIR}）",
    )
    parser.add_argument(
        "--skip-existing",
        action="store_true",
        help="若输出目录已存在同名 TXT 则跳过该条",
    )
    parser.add_argument(
        "--limit", "-n",
        type=int,
        default=0,
        help="仅处理前 N 条（0 表示全部）",
    )
    args = parser.parse_args()
    list_path = Path(args.list)
    if not list_path.is_absolute():
        list_path = (Path.cwd() / args.list).resolve()
    if not list_path.exists():
        print(f"❌ 列表文件不存在: {list_path}")
        sys.exit(1)
    output_dir = Path(args.output).resolve() if args.output else OUTPUT_DIR
    output_dir.mkdir(parents=True, exist_ok=True)
    print(f"📂 输出目录: {output_dir}")
    urls = load_url_list(list_path)
    if not urls:
        print("❌ 列表文件中没有有效 URL")
        sys.exit(1)
    if args.limit:
        urls = urls[: args.limit]
        print(f"⚠️ 仅处理前 {len(urls)} 条（--limit {args.limit}）")
    print(f"📋 共 {len(urls)} 条妙记待下载\n")
    ok_count = 0
    skip_count = 0
    fail_count = 0
    token = get_tenant_access_token()
    if not token:
        print("❌ 无法获取飞书访问令牌")
        sys.exit(1)
    for i, url_or_token in enumerate(urls, 1):
        minute_token = extract_minute_token(url_or_token)
        print(f"[{i}/{len(urls)}] 妙记 token: {minute_token[:20]}...")
        if args.skip_existing:
            # 用 API 先取标题再判断文件是否已存在（避免重复请求）
            info = get_minutes_info(token, minute_token)
            if info:
                title = info.get("title", "妙记")
                safe_title = re.sub(r'[\\/*?:"<>|]', "_", title)
                create_time = info.get("create_time", "")
                if create_time:
                    try:
                        # 飞书 API 可能返回秒或毫秒时间戳，>1e10 视为毫秒
                        ts = int(create_time)
                        if ts > 1e10:
                            ts = ts // 1000
                        date_str = datetime.fromtimestamp(ts).strftime("%Y%m%d")
                    except Exception:
                        date_str = datetime.now().strftime("%Y%m%d")
                else:
                    date_str = datetime.now().strftime("%Y%m%d")
                existing = output_dir / f"{safe_title}_{date_str}.txt"
                if existing.exists():
                    print(f"   ⏭️ 已存在，跳过: {existing.name}")
                    skip_count += 1
                    continue
        out = fetch_and_save(url_or_token, output_dir)
        if out and out.exists():
            ok_count += 1
        else:
            fail_count += 1
        print("")
    print("=" * 50)
    print(f"✅ 成功: {ok_count} | ⏭️ 跳过: {skip_count} | ❌ 失败: {fail_count}")
    print(f"📂 所有 TXT 保存在: {output_dir}")
 if __name__ == "__main__":
    main()
--- a/_共享模块/scripts/wiki_init_ssh.sh
+++ b/_共享模块/scripts/wiki_init_ssh.sh
@@ -0,0 +1,33 @@
 #!/bin/bash
 # 百科 SSH 初始化：在 NAS 上创建 karuo-ai.wiki.git 并推送 wiki_source 内容
 # 当 API/HTTPS 无法初始化时用此脚本。需能 SSH 到 Gitea 所在主机。
 REPO_DIR="/Users/karuo/Documents/个人/卡若AI"
 WIKI_SRC="$REPO_DIR/_共享模块/wiki_source"
 SSH_HOST="open.quwanzhi.com"
 SSH_PORT="22201"
 SSH_USER="fnvtk"
 WIKI_PATH="/volume1/git/github/fnvtk/karuo-ai.wiki.git"
 SSH_REMOTE="ssh://${SSH_USER}@${SSH_HOST}:${SSH_PORT}/${WIKI_PATH}"
 set -e
 cd "$REPO_DIR"
 # 1. SSH 创建 wiki bare 仓库（若不存在）
 echo "在 NAS 上创建 wiki 仓库..."
 ssh -o StrictHostKeyChecking=no -o ConnectTimeout=15 -p "$SSH_PORT" "${SSH_USER}@${SSH_HOST}" \
  "mkdir -p $WIKI_PATH && (test -f $WIKI_PATH/HEAD || (cd $WIKI_PATH && git init --bare))"
 # 2. 本地建临时仓库并推送
 TMP_WIKI=$(mktemp -d)
 trap "rm -rf $TMP_WIKI" EXIT
 cd "$TMP_WIKI"
 git init -q
 cp -f "$WIKI_SRC"/*.md . 2>/dev/null || true
 git add -A
 git commit -m "wiki init $(date '+%Y-%m-%d %H:%M')" --allow-empty -q
 git remote add origin "$SSH_REMOTE"
 git push -u origin master 2>/dev/null || { git branch -M main; git push -u origin main; }
 echo "百科已通过 SSH 初始化并推送完成。"
 exit 0
--- a/_共享模块/工作台/gitea_push_log.md
+++ b/_共享模块/工作台/gitea_push_log.md
@@ -10,3 +10,4 @@
 | 2026-02-15 23:34:04 | 🔄 卡若AI 同步 2026-02-15 23:34 | 变更 7 个文件 | 排除 >20MB: 4 个 |
 | 2026-02-15 23:38:04 | 🔄 卡若AI 同步 2026-02-15 23:38 | 变更 7 个文件 | 排除 >20MB: 4 个 |
 | 2026-02-15 23:38:29 | 🔄 卡若AI 同步 2026-02-15 23:38 | 变更 4 个文件 | 排除 >20MB: 4 个 |
 | 2026-02-15 23:43:11 | 🔄 卡若AI 同步 2026-02-15 23:43 | 变更 5 个文件 | 排除 >20MB: 4 个 |
--- a/_共享模块/工作台/代码管理.md
+++ b/_共享模块/工作台/代码管理.md
@@ -13,3 +13,4 @@
 | 2026-02-15 23:34:04 | 成功 | 失败(百科未初始化或网络) | 🔄 卡若AI 同步 2026-02-15 23:34 | 变更 7 个文件 | 排除 >20MB: 4 个 | [仓库](http://open.quwanzhi.com:3000/fnvtk/karuo-ai) [百科](http://open.quwanzhi.com:3000/fnvtk/karuo-ai/wiki) |
 | 2026-02-15 23:38:04 | 成功 | 失败(百科未初始化或网络) | 🔄 卡若AI 同步 2026-02-15 23:38 | 变更 7 个文件 | 排除 >20MB: 4 个 | [仓库](http://open.quwanzhi.com:3000/fnvtk/karuo-ai) [百科](http://open.quwanzhi.com:3000/fnvtk/karuo-ai/wiki) |
 | 2026-02-15 23:38:29 | 成功 | 失败(百科未初始化或网络) | 🔄 卡若AI 同步 2026-02-15 23:38 | 变更 4 个文件 | 排除 >20MB: 4 个 | [仓库](http://open.quwanzhi.com:3000/fnvtk/karuo-ai) [百科](http://open.quwanzhi.com:3000/fnvtk/karuo-ai/wiki) |
 | 2026-02-15 23:43:11 | 成功 | 失败(百科未初始化或网络) | 🔄 卡若AI 同步 2026-02-15 23:43 | 变更 5 个文件 | 排除 >20MB: 4 个 | [仓库](http://open.quwanzhi.com:3000/fnvtk/karuo-ai) [百科](http://open.quwanzhi.com:3000/fnvtk/karuo-ai/wiki) |