HanLP招聘

NLP 工程师 工作内容 研发业内领先的语言理解与生成、知识图谱与推理、语义索引与搜索的技术体系。包括但不限于如下方向—— 核心NLU技术:分词、词性标注、命名实体识别、句法分析、语义分析; 可控NLG技术:文本摘要、文章生成、代码生成、机 […]

语法纠错的评测指标

在进行一项NLP任务前,了解评测指标至关重要。以语法纠错为例,一项评测如何定义、如何对齐黄金与预测数据、是否符合人工评测、是否支持多语种等等都值得关注。本文简要评测几个常用的评测指标,特别关注对中文的支持程度。 首先,语法纠错任务经常定义为 […]

推荐几本好用的日语词典

曾经一直在PC上用EB软件,在mac上也用的是EBMac。EB格式的日语词典资源还算挺多的,就是版本比较旧。我一般挂载这些词典: 不过iOS上的EB就挺差,免费版还有广告。在iOS上,我更喜欢用欧路词典,免费版也没有广告。虽然词典跟EB不通 […]

简单有效的位置编码

去年流行了一阵相对位置编码,各种巧夺天工的设计层出不穷,各有各的数学解释。然而谷歌这篇文章指出,相对位置并不优于绝对位置。之所以看上去更优是因为位置信息被加到了每一层注意力矩阵上,增大了矩阵的秩。其实我当时看这些论文的时候就很疑惑,这些论文 […]

#EMNLP21#抗噪自监督中文分词

很久没有关注中文分词,今年恰好开会听了这篇清华领衔的长论文,分数相当不错。而且还引用了我的第一篇论文,于是简要介绍一下。虽然仰慕已久,但我与论文作者们并无私交。本文仅代表我的个人观点,如果有任何理解或表述错误,都是我的责任,与原作者无关。图 […]

#EMNLP21#干细胞假说:神经网络也具备干细胞难成全才

近来预训练语言模型在许多任务上成果斐然,然而在多任务联合学习上则差强人意。通过剪枝,我们发现所有任务会争夺一些通用的注意力头。据此,我们提出了干细胞假说:预训练会孕育一些天才注意力头,如同干细胞,可以分化为专精一种任务的功能细胞,却难以同时 […]

M1加速深度学习:HanLP正式支持苹果芯GPU

今天我的MBP M1MAX终于寄到了,于是第一时间为HanLP提供M1的原生CPU+GPU支持。MBP用户从此享受到GPU加速的推理与训练,微调个BERT同样丝滑。本文简要介绍原生环境搭建与安装,适用于包括M1系列在内的Apple Sili […]

中文抽象意义表示简介

上周收到LDC的订阅邮件,由布兰迪斯大学和南京师范大学联合标注的中文抽象意义表示语料库2.0(CAMR 2.0)发布了。于是第一时间下单购买,做一期开箱评测。 抽象意义表示(Abstract Meaning Representation,A […]

HanLP 2.0 alpha版发布

面向生产环境的多语种自然语言处理工具包,基于 TensorFlow 2.0,目标是普及落地最前沿的NLP技术。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。目前,基于深度学习的HanLP 2.0正处于alpha测试阶 […]

欢迎参加2019 HanLP技术交流会

基于深度学习的HanLP2.0将在第二届问道崂山·人工智能与大数据高峰论坛上正式发布,HanLP2.0将有多项革命性的突破,诚邀各位开发者莅临论坛交流心得与体会。 论坛将于:2019年12月27日上午9:00,在青岛崂山区海天大剧院酒店召开 […]