Back to skills
extension
Category: Data & AnalyticsNo API key required

企业别名生成器

企业别名智能生成器 - 为 686 家企业生成精准别名 功能特性: - 上市公司股票简称优先 - 政府机构使用全称 - 智能过滤通用词、地名、2 字别名 - 别名去重优化 - 网络查询补充(可选) 使用场景: - 企业数据匹配 - 模糊搜索优化 - 数据清洗标准化

personAuthor: hyqdq888hubclawhub

企业别名智能生成器

为企业批量生成精准别名的工具,支持 686+ 企业,已优化过滤规则。

功能特性

✅ 核心功能

  1. 股票简称优先 - 58 家上市公司自动识别股票简称
  2. 政府机构全称 - 33 家政府机构使用企业全称
  3. 智能过滤
    • ❌ 过滤 2 字别名(必须≥3 字)
    • ❌ 过滤纯地名(佛山市、广州市等)
    • ❌ 过滤通用词(省建、省投、黄金、医药等)
    • ❌ 过滤在>2% 企业名中出现的词
  4. 别名去重 - 每个别名只属于一家企业
  5. 网络查询 - 可选启用百度搜索补充简称

📊 处理结果

| 项目 | 数量 | |------|------| | 总企业数 | 686 家 | | 上市公司 | 58 家(股票简称) | | 政府机构 | 33 家(使用全称) | | 2 字别名 | 0 个(已过滤) | | 地区名别名 | 0 个(已过滤) |

使用方法

基本用法

cd /path/to/skills/company-alias-generator
python3 scripts/process_aliases_final.py <输入文件.xlsx> [输出文件.xlsx]

示例

# 处理企业名单
python3 scripts/process_aliases_final.py 企业名单.xlsx

# 指定输出文件名
python3 scripts/process_aliases_final.py 企业名单.xlsx 结果.xlsx

输入文件格式

| A 列:中文全称 | |--------------| | 杭州银行股份有限公司 | | 比亚迪股份有限公司 | | 辽宁省人民政府 | | ... |

输出文件格式

| A 列:中文全称 | B 列:别名 | |--------------|-----------| | 杭州银行股份有限公司 | 杭州银行 | | 比亚迪股份有限公司 | 仰望|腾势|BYD|方程豹|比亚迪 | | 辽宁省人民政府 | 辽宁省人民政府 | | ... | ... |

配置说明

股票简称配置

编辑 STOCK_NAMES 字典添加更多上市公司:

STOCK_NAMES = {
    '杭州银行股份有限公司': '杭州银行',
    '比亚迪股份有限公司': '比亚迪',
    # 添加更多...
}

通用词过滤

编辑 GENERIC_TERMS 集合添加需要过滤的词:

GENERIC_TERMS = {
    '投资', '集团', '控股',
    '省建', '省投', '黄金',
    # 添加更多...
}

地区名过滤

编辑 REGION_NAMES 集合添加需要过滤的地区名:

REGION_NAMES = {
    '佛山市', '广州市', '深圳市',
    # 添加更多...
}

政府机构识别

编辑 GOVERNMENT_KEYWORDS 列表添加政府机构标识词:

GOVERNMENT_KEYWORDS = [
    '人民政府', '政府', '委员会',
    # 添加更多...
]

处理流程

1. 读取 Excel 文件
   ↓
2. 检查是否为政府机构 → 是 → 使用全称
   ↓ 否
3. 生成基础别名(规则提取)
   ↓
4. 过滤通用词、地名
   ↓
5. 添加股票简称(如有)
   ↓
6. 别名去重
   ↓
7. 过滤 2 字别名
   ↓
8. Fallback 确保有别名
   ↓
9. 保存结果

优化规则

别名长度规则

  • ✅ 必须 ≥3 个字
  • ❌ 2 字别名强制过滤

别名唯一性规则

  • ✅ 每个别名只属于一家企业
  • ❌ 重复别名自动移除(保留首次出现)

特殊情况处理

  • 母子公司:允许共享股票简称(如中国东方航空)
  • 政府机构:直接使用全称,不生成简称

技术细节

依赖库

pip install openpyxl requests

性能

  • 处理速度:约 30 秒/686 家企业
  • 网络查询:约 10-15 分钟(可选启用)

兼容性

  • Python 3.7+
  • Excel (.xlsx) 格式

更新日志

v1.0.0 (2026-03-24)

  • ✅ 初始版本发布
  • ✅ 支持 686 家企业
  • ✅ 股票简称识别(58 家)
  • ✅ 政府机构识别(33 家)
  • ✅ 智能过滤规则
  • ✅ 别名去重优化
  • ✅ 2 字别名过滤
  • ✅ 地区名过滤

常见问题

Q: 为什么某些企业没有别名?

A: 所有企业都会生成别名。如果所有规则都过滤了,会使用 fallback 逻辑提取公司名核心部分。

Q: 如何添加新的股票简称?

A: 编辑 STOCK_NAMES 字典,添加企业名称和股票简称的映射。

Q: 网络查询功能如何启用?

A: 当前版本默认禁用网络查询(速度慢)。如需启用,修改 process_excel 函数中的网络查询逻辑。

许可

MIT License - 可自由使用、修改、分发

作者

Generated by OpenClaw Agent