Skip to content
View tianchiguaixia's full-sized avatar

Block or report tianchiguaixia

Block user

Prevent this user from interacting with your repositories and sending you notifications. Learn more about blocking users.

You must be logged in to block users.

Please don't include any personal information such as legal names or email addresses. Maximum 100 characters, markdown supported. This note will be visible to only you.
Report abuse

Contact GitHub support about this user’s behavior. Learn more about reporting abuse.

Report abuse
tianchiguaixia/README.md
  • 👋 Hi, I’m @tianchiguaixia
  • 👀 I’m interested in python,NLP
  • 🌱 I’m currently learning NLP
  • 💞️ I’m looking to collaborate on NLP
  • 📫 How to reach me:[email protected]

Pinned Loading

  1. ocr-detection ocr-detection Public

    微调阿里开源的文字检测模型,利用合合识别返回的OCR结果作为初始训练数据,对模型进行优化训练,使其更加适应1万张图片的具体场景,提高文字区域检测的精度,优化边界框质量,减少漏检和误检。

    Python 6

  2. ocr_recognition ocr_recognition Public

    微调阿里开源的文字检测模型,利用合合识别返回的OCR结果作为初始训练数据,对模型进行优化训练,使其更加适应1万张图片的具体场景,提高文字识别的精度。

    5

  3. layoutlmv3-chinese layoutlmv3-chinese Public

    该项目是为了使用layoutlmv3针对中文图片训练和推理。 其中主要解决三个问题: 1.数据标准化成可以的训练数据集格式 2.layoutlmv3-base-chinese 分词修改 2.超过512长度的文本切分和滑窗操作

    Python 37 7

  4. qwen1.5-ner qwen1.5-ner Public

    使用Qwen1.5-0.5B-Chat模型进行通用信息抽取任务的微调,旨在: 验证生成式方法相较于抽取式NER的效果; 为新手提供简易的模型微调流程,尽量减少代码量; 大模型训练的数据格式处理。

    Python 10

  5. text_classification text_classification Public

    该项目通过新闻数据集演示文本分类全流程:数据清洗,模型训练,模型部署和前端展示。使用的模型和工具:pytorch,bert,streamlit

    Python 18

  6. medical_ocr_streamlit medical_ocr_streamlit Public

    该项目主要是为了识别图片里面的表格数据,并将表格数据抽取处理,导出成csv的文件。整个项目会使用streamlit进行部署和展示。使用的技术:paddleocr,PPStructure,streamlit

    Python 34 4