作者:pc668   来源:  热度:449  时间:2023-04-01
微信公众号申请要钱,是指开发者在使用微信公众平台创建自己的公众号时,需要缴纳一定的服务费。目前来看,微信公众平台收费标准是每个月500 元人民币,这也就意味着如果你想通过微信开启一个新的应用或者产品,你必须付出一定的金额才能够正常使用。

当然了,作为一种付费服务,微信对这些服务也都做出了不同的回应。例如语音、文字、图片等多种方式来实现对话中内容的表达, 从而大大地提升效益; 还包括在AI 技术上流行的 NLP (Natural Language Processing) 等, 都能够带来明显效果; 此外, 各大厂商也都在 AI 上不断加大 R&D 精神.

总之, 如今我们生活中随处都能感受到 AI 的影子. 这就是 tokenization , 针对 tokens 进行分割(tokenization), 使我们能将浩如波浪般无端端奔流不断考虑问题中狭隘考量(narrow consideration)内容通通都留存下来. 有效地将问题中内容进行分割后, 我们便能将原始内容零散化(atomize), 大幅度减少tokens所占用CPU/GPU/RAM/IOPS存储总量 .

     此外, Tokenization 还可以遵循 BERT (Bidirectional Encoder Representation from Transformers ) 的理念: 在BERT 预训练时使用 Masked Language Model (MLM). MLM 有三个部分 : 1) masking out 15% of the input tokens at random ; 2) predicting the masked words based on its context ; 3) updating the model parameters to improve accuracy in predicting masked words. MLM 虽然不是真正意义上”Tokenizing” ,但却能够带来 “Tokenized” 效益:1 ) 有效起到 noise reduction 的作用;2 ) 含义明确 , 便于理解;3 ) 效益明显 , 高效节省时间 .



             因此, 如何在减少Tokens 的同时 , 保证对话 Quality (Quality Assurance )? 首先请法勒•Lemmatizator —— Lemmatization and Morphology-based Preprocessing for Natural Language Processing Tasks —— Lemmatizator is a toolkit for lemmatizing text data in natural language processing tasks. It provides an efficient way to convert raw text into meaningful representations that can be used as features by machine learning models. The toolkit also supports both supervised and unsupervised approaches for lemmatizing text data using various techniques such as rule-based methods and word embeddings. By utilizing these approaches we can reduce the number of tokens while maintaining quality assurance for conversations in our applications or products powered by Artificial Intelligence technologies like Machine Learning or Deep Learning algorithms

