# _*_ coding: utf-8 _*_ """ python_lda.py by xianhu """ import os import numpy import logging from collections import defaultdict # å…¨å±€å˜é‡ MAX_ITER_NUM = 10000 # æœ€å¤§è¿ä»£æ¬¡æ•° VAR_NUM = 20 # è‡ªåŠ¨è®¡ç®—è¿ä»£æ¬¡æ•°æ—¶,è®¡ç®—æ–¹å·®çš„åŒºé—´å¤§å° class BiDictionary(object): """ å®šä¹‰åŒå‘å—å…¸,é€šè¿‡keyå¯ä»¥å¾—åˆ°value,é€šè¿‡valueä¹Ÿå¯ä»¥å¾—åˆ°key """ def __init__(self): """ :key: åŒå‘å—å…¸åˆå§‹åŒ– """ self.dict = {} # æ£å‘çš„æ•°æ®å—å…¸,å…¶keyä¸ºselfçš„key self.dict_reversed = {} # åå‘çš„æ•°æ®å—å…¸,å…¶keyä¸ºselfçš„value return def __len__(self): """ :key: èŽ·å–åŒå‘å—å…¸çš„é•¿åº¦ """ return len(self.dict) def __str__(self): """ :key: å°†åŒå‘å—å…¸è½¬åŒ–ä¸ºå—ç¬¦ä¸²å¯¹è±¡ """ str_list = ["%s\t%s" % (key, self.dict[key]) for key in self.dict] return "\n".join(str_list) def clear(self): """ :key: æ¸…ç©ºåŒå‘å—å…¸å¯¹è±¡ """ self.dict.clear() self.dict_reversed.clear() return def add_key_value(self, key, value): """ :key: æ›´æ–°åŒå‘å—å…¸,å¢žåŠ ä¸€é¡¹ """ self.dict[key] = value self.dict_reversed[value] = key return def remove_key_value(self, key, value): """ :key: æ›´æ–°åŒå‘å—å…¸,åˆ é™¤ä¸€é¡¹ """ if key in self.dict: del self.dict[key] del self.dict_reversed[value] return def get_value(self, key, default=None): """ :key: é€šè¿‡keyèŽ·å–value,ä¸å˜åœ¨è¿”å›ždefault """ return self.dict.get(key, default) def get_key(self, value, default=None): """ :key: é€šè¿‡valueèŽ·å–key,ä¸å˜åœ¨è¿”å›ždefault """ return self.dict_reversed.get(value, default) def contains_key(self, key): """ :key: åˆ¤æ–æ˜¯å¦å˜åœ¨keyå€¼ """ return key in self.dict def contains_value(self, value): """ :key: åˆ¤æ–æ˜¯å¦å˜åœ¨valueå€¼ """ return value in self.dict_reversed def keys(self): """ :key: å¾—åˆ°åŒå‘å—å…¸å…¨éƒ¨çš„keys """ return self.dict.keys() def values(self): """ :key: å¾—åˆ°åŒå‘å—å…¸å…¨éƒ¨çš„values """ return self.dict_reversed.keys() def items(self): """ :key: å¾—åˆ°åŒå‘å—å…¸å…¨éƒ¨çš„items """ return self.dict.items() class CorpusSet(object): """ å®šä¹‰è¯æ–™é›†ç±»,ä½œä¸ºLdaBaseçš„åŸºç±» """ def __init__(self): """ :key: åˆå§‹åŒ–å‡½æ•° """ # å®šä¹‰å…³äºŽwordçš„å˜é‡ self.local_bi = BiDictionary() # idå’Œwordä¹‹é—´çš„æœ¬åœ°åŒå‘å—å…¸,keyä¸ºid,valueä¸ºword self.words_count = 0 # æ•°æ®é›†ä¸wordçš„æ•°é‡ï¼ˆæŽ’é‡ä¹‹å‰çš„ï¼‰ self.V = 0 # æ•°æ®é›†ä¸wordçš„æ•°é‡ï¼ˆæŽ’é‡ä¹‹åŽçš„ï¼‰ # å®šä¹‰å…³äºŽarticleçš„å˜é‡ self.artids_list = [] # å…¨éƒ¨articleçš„idçš„åˆ—è¡¨,æŒ‰ç…§æ•°æ®è¯»å–çš„é¡ºåºå˜å‚¨ self.arts_Z = [] # å…¨éƒ¨articleä¸æ‰€æœ‰è¯çš„idä¿¡æ¯,ç»´æ•°ä¸º M * art.length() self.M = 0 # æ•°æ®é›†ä¸articleçš„æ•°é‡ # å®šä¹‰æŽ¨æ–ä¸ç”¨åˆ°çš„å˜é‡ï¼ˆå¯èƒ½ä¸ºç©ºï¼‰ self.global_bi = None # idå’Œwordä¹‹é—´çš„å…¨å±€åŒå‘å—å…¸,keyä¸ºid,valueä¸ºword self.local_2_global = {} # ä¸€ä¸ªå—å…¸,localå—å…¸å’Œglobalå—å…¸ä¹‹é—´çš„å¯¹åº”å…³ç³» return def init_corpus_with_file(self, file_name): """ :key: åˆ©ç”¨æ•°æ®æ–‡ä»¶åˆå§‹åŒ–è¯æ–™é›†æ•°æ®ã€‚æ–‡ä»¶æ¯ä¸€è¡Œçš„æ•°æ®æ ¼å¼: id[tab]word1 word2 word3...... """ with open(file_name, "r", encoding="utf-8") as file_iter: self.init_corpus_with_articles(file_iter) return def init_corpus_with_articles(self, article_list): """ :key: åˆ©ç”¨articleçš„åˆ—è¡¨åˆå§‹åŒ–è¯æ–™é›†ã€‚æ¯ä¸€ç¯‡articleçš„æ ¼å¼ä¸º: id[tab]word1 word2 word3...... """ # æ¸…ç†æ•°æ®--wordæ•°æ® self.local_bi.clear() self.words_count = 0 self.V = 0 # æ¸…ç†æ•°æ®--articleæ•°æ® self.artids_list.clear() self.arts_Z.clear() self.M = 0 # æ¸…ç†æ•°æ®--æ¸…ç†localåˆ°globalçš„æ˜ å°„å…³ç³» self.local_2_global.clear() # è¯»å–articleæ•°æ® for line in article_list: frags = line.strip().split() if len(frags) < 2: continue # èŽ·å–articleçš„id art_id = frags[0].strip() # èŽ·å–wordçš„id art_wordid_list = [] for word in [w.strip() for w in frags[1:] if w.strip()]: local_id = self.local_bi.get_key(word) if self.local_bi.contains_value(word) else len(self.local_bi) # è¿™é‡Œçš„self.global_biä¸ºNoneå’Œä¸ºç©ºæ˜¯æœ‰åŒºåˆ«çš„ if self.global_bi is None: # æ›´æ–°idä¿¡æ¯ self.local_bi.add_key_value(local_id, word) art_wordid_list.append(local_id) else: if self.global_bi.contains_value(word): # æ›´æ–°idä¿¡æ¯ self.local_bi.add_key_value(local_id, word) art_wordid_list.append(local_id) # æ›´æ–°local_2_global self.local_2_global[local_id] = self.global_bi.get_key(word) # æ›´æ–°ç±»å˜é‡: å¿…é¡»articleä¸wordçš„æ•°é‡å¤§äºŽ0 if len(art_wordid_list) > 0: self.words_count += len(art_wordid_list) self.artids_list.append(art_id) self.arts_Z.append(art_wordid_list) # åšç›¸å…³åˆå§‹è®¡ç®—--wordç›¸å…³ self.V = len(self.local_bi) logging.debug("words number: " + str(self.V) + ", " + str(self.words_count)) # åšç›¸å…³åˆå§‹è®¡ç®—--articleç›¸å…³ self.M = len(self.artids_list) logging.debug("articles number: " + str(self.M)) return def save_wordmap(self, file_name): """ :key: ä¿å˜wordå—å…¸,å³self.local_biçš„æ•°æ® """ with open(file_name, "w", encoding="utf-8") as f_save: f_save.write(str(self.local_bi)) return def load_wordmap(self, file_name): """ :key: åŠ è½½wordå—å…¸,å³åŠ è½½self.local_biçš„æ•°æ® """ self.local_bi.clear() with open(file_name, "r", encoding="utf-8") as f_load: for _id, _word in [line.strip().split() for line in f_load if line.strip()]: self.local_bi.add_key_value(int(_id), _word.strip()) self.V = len(self.local_bi) return class LdaBase(CorpusSet): """ LDAæ¨¡åž‹çš„åŸºç±»,ç›¸å…³è¯´æ˜Ž: ã€‹articleçš„ä¸‹æ ‡èŒƒå›´ä¸º[0, self.M), ä¸‹æ ‡ä¸º m ã€‹wordidçš„ä¸‹æ ‡èŒƒå›´ä¸º[0, self.V), ä¸‹æ ‡ä¸º w ã€‹topicçš„ä¸‹æ ‡èŒƒå›´ä¸º[0, self.K), ä¸‹æ ‡ä¸º k æˆ– topic ã€‹articleä¸wordçš„ä¸‹æ ‡èŒƒå›´ä¸º[0, article.size()), ä¸‹æ ‡ä¸º n """ def __init__(self): """ :key: åˆå§‹åŒ–å‡½æ•° """ CorpusSet.__init__(self) # åŸºç¡€å˜é‡--1 self.dir_path = "" # æ–‡ä»¶å¤¹è·¯å¾„,ç”¨äºŽå˜æ”¾LDAè¿è¡Œçš„æ•°æ®ã€ä¸é—´ç»“æžœç‰ self.model_name = "" # LDAè®ç»ƒæˆ–æŽ¨æ–çš„æ¨¡åž‹åç§°,ä¹Ÿç”¨äºŽè¯»å–è®ç»ƒçš„ç»“æžœ self.current_iter = 0 # LDAè®ç»ƒæˆ–æŽ¨æ–çš„æ¨¡åž‹å·²ç»è¿ä»£çš„æ¬¡æ•°,ç”¨äºŽç»§ç»æ¨¡åž‹è®ç»ƒè¿‡ç¨‹ self.iters_num = 0 # LDAè®ç»ƒæˆ–æŽ¨æ–è¿‡ç¨‹ä¸GibbsæŠ½æ ·è¿ä»£çš„æ€»æ¬¡æ•°,æ•´æ•°å€¼æˆ–è€…"auto" self.topics_num = 0 # LDAè®ç»ƒæˆ–æŽ¨æ–è¿‡ç¨‹ä¸çš„topicçš„æ•°é‡,å³self.Kå€¼ self.K = 0 # LDAè®ç»ƒæˆ–æŽ¨æ–è¿‡ç¨‹ä¸çš„topicçš„æ•°é‡,å³self.topics_numå€¼ self.twords_num = 0 # LDAè®ç»ƒæˆ–æŽ¨æ–ç»“æŸåŽè¾“å‡ºä¸Žæ¯ä¸ªtopicç›¸å…³çš„wordçš„ä¸ªæ•° # åŸºç¡€å˜é‡--2 self.alpha = numpy.zeros(self.K) # è¶…å‚æ•°alpha,Kç»´çš„floatå€¼,é»˜è®¤ä¸º50/K self.beta = numpy.zeros(self.V) # è¶…å‚æ•°beta,Vç»´çš„floatå€¼,é»˜è®¤ä¸º0.01 # åŸºç¡€å˜é‡--3 self.Z = [] # æ‰€æœ‰wordçš„topicä¿¡æ¯,å³Z(m, n),ç»´æ•°ä¸º M * article.size() # ç»Ÿè®¡è®¡æ•°(å¯ç”±self.Zè®¡ç®—å¾—åˆ°) self.nd = numpy.zeros((self.M, self.K)) # nd[m, k]ç”¨äºŽä¿å˜ç¬¬mç¯‡articleä¸ç¬¬kä¸ªtopicäº§ç”Ÿçš„è¯çš„ä¸ªæ•°,å…¶ç»´æ•°ä¸º M * K self.ndsum = numpy.zeros((self.M, 1)) # ndsum[m, 0]ç”¨äºŽä¿å˜ç¬¬mç¯‡articleçš„æ€»è¯æ•°,ç»´æ•°ä¸º M * 1 self.nw = numpy.zeros((self.K, self.V)) # nw[k, w]ç”¨äºŽä¿å˜ç¬¬kä¸ªtopicäº§ç”Ÿçš„è¯ä¸ç¬¬wä¸ªè¯çš„æ•°é‡,å…¶ç»´æ•°ä¸º K * V self.nwsum = numpy.zeros((self.K, 1)) # nwsum[k, 0]ç”¨äºŽä¿å˜ç¬¬kä¸ªtopicäº§ç”Ÿçš„è¯çš„æ€»æ•°,ç»´æ•°ä¸º K * 1 # å¤šé¡¹å¼åˆ†å¸ƒå‚æ•°å˜é‡ self.theta = numpy.zeros((self.M, self.K)) # Doc-Topicå¤šé¡¹å¼åˆ†å¸ƒçš„å‚æ•°,ç»´æ•°ä¸º M * K,ç”±alphaå€¼å½±å“ self.phi = numpy.zeros((self.K, self.V)) # Topic-Wordå¤šé¡¹å¼åˆ†å¸ƒçš„å‚æ•°,ç»´æ•°ä¸º K * V,ç”±betaå€¼å½±å“ # è¾…åŠ©å˜é‡,ç›®çš„æ˜¯æé«˜ç®—æ³•æ‰§è¡Œæ•ˆçŽ‡ self.sum_alpha = 0.0 # è¶…å‚æ•°alphaçš„å’Œ self.sum_beta = 0.0 # è¶…å‚æ•°betaçš„å’Œ # å…ˆéªŒçŸ¥è¯†,æ ¼å¼ä¸º{word_id: [k1, k2, ...], ...} self.prior_word = defaultdict(list) # æŽ¨æ–æ—¶éœ€è¦çš„è®ç»ƒæ¨¡åž‹ self.train_model = None return # --------------------------------------------------è¾…åŠ©å‡½æ•°--------------------------------------------------------- def init_statistics_document(self): """ :key: åˆå§‹åŒ–å…³äºŽarticleçš„ç»Ÿè®¡è®¡æ•°ã€‚å…ˆå†³æ¡ä»¶: self.M, self.K, self.Z """ assert self.M > 0 and self.K > 0 and self.Z # ç»Ÿè®¡è®¡æ•°åˆå§‹åŒ– self.nd = numpy.zeros((self.M, self.K), dtype=numpy.int) self.ndsum = numpy.zeros((self.M, 1), dtype=numpy.int) # æ ¹æ®self.Zè¿›è¡Œæ›´æ–°,æ›´æ–°self.nd[m, k]å’Œself.ndsum[m, 0] for m in range(self.M): for k in self.Z[m]: self.nd[m, k] += 1 self.ndsum[m, 0] = len(self.Z[m]) return def init_statistics_word(self): """ :key: åˆå§‹åŒ–å…³äºŽwordçš„ç»Ÿè®¡è®¡æ•°ã€‚å…ˆå†³æ¡ä»¶: self.V, self.K, self.Z, self.arts_Z """ assert self.V > 0 and self.K > 0 and self.Z and self.arts_Z # ç»Ÿè®¡è®¡æ•°åˆå§‹åŒ– self.nw = numpy.zeros((self.K, self.V), dtype=numpy.int) self.nwsum = numpy.zeros((self.K, 1), dtype=numpy.int) # æ ¹æ®self.Zè¿›è¡Œæ›´æ–°,æ›´æ–°self.nw[k, w]å’Œself.nwsum[k, 0] for m in range(self.M): for k, w in zip(self.Z[m], self.arts_Z[m]): self.nw[k, w] += 1 self.nwsum[k, 0] += 1 return def init_statistics(self): """ :key: åˆå§‹åŒ–å…¨éƒ¨çš„ç»Ÿè®¡è®¡æ•°ã€‚ä¸Šä¸¤ä¸ªå‡½æ•°çš„ç»¼åˆå‡½æ•°ã€‚ """ self.init_statistics_document() self.init_statistics_word() return def sum_alpha_beta(self): """ :key: è®¡ç®—alphaã€betaçš„å’Œ """ self.sum_alpha = self.alpha.sum() self.sum_beta = self.beta.sum() return def calculate_theta(self): """ :key: åˆå§‹åŒ–å¹¶è®¡ç®—æ¨¡åž‹çš„thetaå€¼(M*K),ç”¨åˆ°alphaå€¼ """ assert self.sum_alpha > 0 self.theta = (self.nd + self.alpha) / (self.ndsum + self.sum_alpha) return def calculate_phi(self): """ :key: åˆå§‹åŒ–å¹¶è®¡ç®—æ¨¡åž‹çš„phiå€¼(K*V),ç”¨åˆ°betaå€¼ """ assert self.sum_beta > 0 self.phi = (self.nw + self.beta) / (self.nwsum + self.sum_beta) return # ---------------------------------------------è®¡ç®—Perplexityå€¼------------------------------------------------------ def calculate_perplexity(self): """ :key: è®¡ç®—Perplexityå€¼,å¹¶è¿”å›ž """ # è®¡ç®—thetaå’Œphiå€¼ self.calculate_theta() self.calculate_phi() # å¼€å§‹è®¡ç®— preplexity = 0.0 for m in range(self.M): for w in self.arts_Z[m]: preplexity += numpy.log(numpy.sum(self.theta[m] * self.phi[:, w])) return numpy.exp(-(preplexity / self.words_count)) # --------------------------------------------------é™æ€å‡½æ•°--------------------------------------------------------- @staticmethod def multinomial_sample(pro_list): """ :key: é™æ€å‡½æ•°,å¤šé¡¹å¼åˆ†å¸ƒæŠ½æ ·,æ¤æ—¶ä¼šæ”¹å˜pro_listçš„å€¼ :param pro_list: [0.2, 0.7, 0.4, 0.1],æ¤æ—¶è¯´æ˜Žè¿”å›žä¸‹æ ‡1çš„å¯èƒ½æ€§å¤§,ä½†ä¹Ÿä¸ç»å¯¹ """ # å°†pro_listè¿›è¡Œç´¯åŠ for k in range(1, len(pro_list)): pro_list[k] += pro_list[k-1] # ç¡®å®šéšæœºæ•° u è½åœ¨å“ªä¸ªä¸‹æ ‡å€¼,æ¤æ—¶çš„ä¸‹æ ‡å€¼å³ä¸ºæŠ½å–çš„ç±»åˆ«ï¼ˆrandom.rand()è¿”å›ž: [0, 1.0)ï¼‰ u = numpy.random.rand() * pro_list[-1] return_index = len(pro_list) - 1 for t in range(len(pro_list)): if pro_list[t] > u: return_index = t break return return_index # ----------------------------------------------GibbsæŠ½æ ·ç®—æ³•-------------------------------------------------------- def gibbs_sampling(self, is_calculate_preplexity): """ :key: LDAæ¨¡åž‹ä¸çš„GibbsæŠ½æ ·è¿‡ç¨‹ :param is_calculate_preplexity: æ˜¯å¦è®¡ç®—preplexityå€¼ """ # è®¡ç®—preplexityå€¼ç”¨åˆ°çš„å˜é‡ pp_list = [] pp_var = numpy.inf # å¼€å§‹è¿ä»£ last_iter = self.current_iter + 1 iters_num = self.iters_num if self.iters_num != "auto" else MAX_ITER_NUM for self.current_iter in range(last_iter, last_iter+iters_num): info = "......" # æ˜¯å¦è®¡ç®—preplexityå€¼ if is_calculate_preplexity: pp = self.calculate_perplexity() pp_list.append(pp) # è®¡ç®—åˆ—è¡¨æœ€æ–°VAR_NUMé¡¹çš„æ–¹å·® pp_var = numpy.var(pp_list[-VAR_NUM:]) if len(pp_list) >= VAR_NUM else numpy.inf info = (", preplexity: " + str(pp)) + ((", var: " + str(pp_var)) if len(pp_list) >= VAR_NUM else "") # è¾“å‡ºDebugä¿¡æ¯ logging.debug("\titeration " + str(self.current_iter) + info) # åˆ¤æ–æ˜¯å¦è·³å‡ºå¾ªçŽ¯ if self.iters_num == "auto" and pp_var < (VAR_NUM / 2): break # å¯¹æ¯ç¯‡articleçš„æ¯ä¸ªwordè¿›è¡Œä¸€æ¬¡æŠ½æ ·,æŠ½å–åˆé€‚çš„kå€¼ for m in range(self.M): for n in range(len(self.Z[m])): w = self.arts_Z[m][n] k = self.Z[m][n] # ç»Ÿè®¡è®¡æ•°å‡ä¸€ self.nd[m, k] -= 1 self.ndsum[m, 0] -= 1 self.nw[k, w] -= 1 self.nwsum[k, 0] -= 1 if self.prior_word and (w in self.prior_word): # å¸¦æœ‰å…ˆéªŒçŸ¥è¯†,å¦åˆ™è¿›è¡Œæ£å¸¸æŠ½æ · k = numpy.random.choice(self.prior_word[w]) else: # è®¡ç®—thetaå€¼--ä¸‹è¾¹çš„è¿‡ç¨‹ä¸ºæŠ½å–ç¬¬mç¯‡articleçš„ç¬¬nä¸ªè¯wçš„topic,å³æ–°çš„k theta_p = (self.nd[m] + self.alpha) / (self.ndsum[m, 0] + self.sum_alpha) # è®¡ç®—phiå€¼--åˆ¤æ–æ˜¯è®ç»ƒæ¨¡åž‹,è¿˜æ˜¯æŽ¨æ–æ¨¡åž‹ï¼ˆæ³¨æ„self.beta[w_g]ï¼‰ if self.local_2_global and self.train_model: w_g = self.local_2_global[w] phi_p = (self.train_model.nw[:, w_g] + self.nw[:, w] + self.beta[w_g]) / \ (self.train_model.nwsum[:, 0] + self.nwsum[:, 0] + self.sum_beta) else: phi_p = (self.nw[:, w] + self.beta[w]) / (self.nwsum[:, 0] + self.sum_beta) # multi_pä¸ºå¤šé¡¹å¼åˆ†å¸ƒçš„å‚æ•°,æ¤æ—¶æ²¡æœ‰è¿›è¡Œæ ‡å‡†åŒ– multi_p = theta_p * phi_p # æ¤æ—¶çš„topicå³ä¸ºGibbsæŠ½æ ·å¾—åˆ°çš„topic,å®ƒæœ‰è¾ƒå¤§çš„æ¦‚çŽ‡å‘½ä¸å¤šé¡¹å¼æ¦‚çŽ‡å¤§çš„topic k = LdaBase.multinomial_sample(multi_p) # ç»Ÿè®¡è®¡æ•°åŠ ä¸€ self.nd[m, k] += 1 self.ndsum[m, 0] += 1 self.nw[k, w] += 1 self.nwsum[k, 0] += 1 # æ›´æ–°Zå€¼ self.Z[m][n] = k # æŠ½æ ·å®Œæ¯• return # -----------------------------------------Modelæ•°æ®å˜å‚¨ã€è¯»å–ç›¸å…³å‡½æ•°------------------------------------------------- def save_parameter(self, file_name): """ :key: ä¿å˜æ¨¡åž‹ç›¸å…³å‚æ•°æ•°æ®,åŒ…æ‹¬: topics_num, M, V, K, words_count, alpha, beta """ with open(file_name, "w", encoding="utf-8") as f_param: for item in ["topics_num", "M", "V", "K", "words_count"]: f_param.write("%s\t%s\n" % (item, str(self.__dict__[item]))) f_param.write("alpha\t%s\n" % ",".join([str(item) for item in self.alpha])) f_param.write("beta\t%s\n" % ",".join([str(item) for item in self.beta])) return def load_parameter(self, file_name): """ :key: åŠ è½½æ¨¡åž‹ç›¸å…³å‚æ•°æ•°æ®,å’Œä¸Šä¸€ä¸ªå‡½æ•°ç›¸å¯¹åº” """ with open(file_name, "r", encoding="utf-8") as f_param: for line in f_param: key, value = line.strip().split() if key in ["topics_num", "M", "V", "K", "words_count"]: self.__dict__[key] = int(value) elif key in ["alpha", "beta"]: self.__dict__[key] = numpy.array([float(item) for item in value.split(",")]) return def save_zvalue(self, file_name): """ :key: ä¿å˜æ¨¡åž‹å…³äºŽarticleçš„å˜é‡,åŒ…æ‹¬: arts_Z, Z, artids_listç‰ """ with open(file_name, "w", encoding="utf-8") as f_zvalue: for m in range(self.M): out_line = [str(w) + ":" + str(k) for w, k in zip(self.arts_Z[m], self.Z[m])] f_zvalue.write(self.artids_list[m] + "\t" + " ".join(out_line) + "\n") return def load_zvalue(self, file_name): """ :key: è¯»å–æ¨¡åž‹çš„Zå˜é‡ã€‚å’Œä¸Šä¸€ä¸ªå‡½æ•°ç›¸å¯¹åº” """ self.arts_Z = [] self.artids_list = [] self.Z = [] with open(file_name, "r", encoding="utf-8") as f_zvalue: for line in f_zvalue: frags = line.strip().split() art_id = frags[0].strip() w_k_list = [value.split(":") for value in frags[1:]] # æ·»åŠ åˆ°ç±»ä¸ self.artids_list.append(art_id) self.arts_Z.append([int(item[0]) for item in w_k_list]) self.Z.append([int(item[1]) for item in w_k_list]) return def save_twords(self, file_name): """ :key: ä¿å˜æ¨¡åž‹çš„twordsæ•°æ®,è¦ç”¨åˆ°phiçš„æ•°æ® """ self.calculate_phi() out_num = self.V if self.twords_num > self.V else self.twords_num with open(file_name, "w", encoding="utf-8") as f_twords: for k in range(self.K): words_list = sorted([(w, self.phi[k, w]) for w in range(self.V)], key=lambda x: x[1], reverse=True) f_twords.write("Topic %dth:\n" % k) f_twords.writelines(["\t%s %f\n" % (self.local_bi.get_value(w), p) for w, p in words_list[:out_num]]) return def load_twords(self, file_name): """ :key: åŠ è½½æ¨¡åž‹çš„twordsæ•°æ®,å³å…ˆéªŒæ•°æ® """ self.prior_word.clear() topic = -1 with open(file_name, "r", encoding="utf-8") as f_twords: for line in f_twords: if line.startswith("Topic"): topic = int(line.strip()[6:-3]) else: word_id = self.local_bi.get_key(line.strip().split()[0].strip()) self.prior_word[word_id].append(topic) return def save_tag(self, file_name): """ :key: è¾“å‡ºæ¨¡åž‹æœ€ç»ˆç»™æ•°æ®æ‰“æ ‡ç¾çš„ç»“æžœ,ç”¨åˆ°thetaå€¼ """ self.calculate_theta() with open(file_name, "w", encoding="utf-8") as f_tag: for m in range(self.M): f_tag.write("%s\t%s\n" % (self.artids_list[m], " ".join([str(item) for item in self.theta[m]]))) return def save_model(self): """ :key: ä¿å˜æ¨¡åž‹æ•°æ® """ name_predix = "%s-%05d" % (self.model_name, self.current_iter) # ä¿å˜è®ç»ƒç»“æžœ self.save_parameter(os.path.join(self.dir_path, "%s.%s" % (name_predix, "param"))) self.save_wordmap(os.path.join(self.dir_path, "%s.%s" % (name_predix, "wordmap"))) self.save_zvalue(os.path.join(self.dir_path, "%s.%s" % (name_predix, "zvalue"))) #ä¿å˜é¢å¤–æ•°æ® self.save_twords(os.path.join(self.dir_path, "%s.%s" % (name_predix, "twords"))) self.save_tag(os.path.join(self.dir_path, "%s.%s" % (name_predix, "tag"))) return def load_model(self): """ :key: åŠ è½½æ¨¡åž‹æ•°æ® """ name_predix = "%s-%05d" % (self.model_name, self.current_iter) # åŠ è½½è®ç»ƒç»“æžœ self.load_parameter(os.path.join(self.dir_path, "%s.%s" % (name_predix, "param"))) self.load_wordmap(os.path.join(self.dir_path, "%s.%s" % (name_predix, "wordmap"))) self.load_zvalue(os.path.join(self.dir_path, "%s.%s" % (name_predix, "zvalue"))) return class LdaModel(LdaBase): """ LDAæ¨¡åž‹å®šä¹‰,ä¸»è¦å®žçŽ°è®ç»ƒã€ç»§ç»è®ç»ƒã€æŽ¨æ–çš„è¿‡ç¨‹ """ def init_train_model(self, dir_path, model_name, current_iter, iters_num=None, topics_num=10, twords_num=200, alpha=-1.0, beta=0.01, data_file="", prior_file=""): """ :key: åˆå§‹åŒ–è®ç»ƒæ¨¡åž‹,æ ¹æ®å‚æ•°current_iterï¼ˆæ˜¯å¦ç‰äºŽ0ï¼‰å†³å®šæ˜¯åˆå§‹åŒ–æ–°æ¨¡åž‹,è¿˜æ˜¯åŠ è½½å·²æœ‰æ¨¡åž‹ :key: å½“åˆå§‹åŒ–æ–°æ¨¡åž‹æ—¶,é™¤äº†prior_fileå…ˆéªŒæ–‡ä»¶å¤–,å…¶ä½™æ‰€æœ‰çš„å‚æ•°éƒ½éœ€è¦,ä¸”current_iterç‰äºŽ0 :key: å½“åŠ è½½å·²æœ‰æ¨¡åž‹æ—¶,åªéœ€è¦dir_path, model_name, current_iterï¼ˆä¸ç‰äºŽ0ï¼‰, iters_num, twords_numå³å¯ :param iters_num: å¯ä»¥ä¸ºæ•´æ•°å€¼æˆ–è€…â€œautoâ€ """ if current_iter == 0: logging.debug("init a new train model") # åˆå§‹åŒ–è¯æ–™é›† self.init_corpus_with_file(data_file) # åˆå§‹åŒ–éƒ¨åˆ†å˜é‡ self.dir_path = dir_path self.model_name = model_name self.current_iter = current_iter self.iters_num = iters_num self.topics_num = topics_num self.K = topics_num self.twords_num = twords_num # åˆå§‹åŒ–alphaå’Œbeta self.alpha = numpy.array([alpha if alpha > 0 else (50.0/self.K) for k in range(self.K)]) self.beta = numpy.array([beta if beta > 0 else 0.01 for w in range(self.V)]) # åˆå§‹åŒ–Zå€¼,ä»¥ä¾¿ç»Ÿè®¡è®¡æ•° self.Z = [[numpy.random.randint(self.K) for n in range(len(self.arts_Z[m]))] for m in range(self.M)] else: logging.debug("init an existed model") # åˆå§‹åŒ–éƒ¨åˆ†å˜é‡ self.dir_path = dir_path self.model_name = model_name self.current_iter = current_iter self.iters_num = iters_num self.twords_num = twords_num # åŠ è½½å·²æœ‰æ¨¡åž‹ self.load_model() # åˆå§‹åŒ–ç»Ÿè®¡è®¡æ•° self.init_statistics() # è®¡ç®—alphaå’Œbetaçš„å’Œå€¼ self.sum_alpha_beta() # åˆå§‹åŒ–å…ˆéªŒçŸ¥è¯† if prior_file: self.load_twords(prior_file) # è¿”å›žè¯¥æ¨¡åž‹ return self def begin_gibbs_sampling_train(self, is_calculate_preplexity=True): """ :key: è®ç»ƒæ¨¡åž‹,å¯¹è¯æ–™é›†ä¸çš„æ‰€æœ‰æ•°æ®è¿›è¡ŒGibbsæŠ½æ ·,å¹¶ä¿å˜æœ€åŽçš„æŠ½æ ·ç»“æžœ """ # GibbsæŠ½æ · logging.debug("sample iteration start, iters_num: " + str(self.iters_num)) self.gibbs_sampling(is_calculate_preplexity) logging.debug("sample iteration finish") # ä¿å˜æ¨¡åž‹ logging.debug("save model") self.save_model() return def init_inference_model(self, train_model): """ :key: åˆå§‹åŒ–æŽ¨æ–æ¨¡åž‹ """ self.train_model = train_model # åˆå§‹åŒ–å˜é‡: ä¸»è¦ç”¨åˆ°self.topics_num, self.K self.topics_num = train_model.topics_num self.K = train_model.K # åˆå§‹åŒ–å˜é‡self.alpha, self.beta,ç›´æŽ¥æ²¿ç”¨train_modelçš„å€¼ self.alpha = train_model.alpha # Kç»´çš„floatå€¼,è®ç»ƒå’ŒæŽ¨æ–æ¨¡åž‹ä¸çš„Kç›¸åŒ,æ•…å¯ä»¥æ²¿ç”¨ self.beta = train_model.beta # Vç»´çš„floatå€¼,æŽ¨æ–æ¨¡åž‹ä¸ç”¨äºŽè®¡ç®—phiçš„Vå€¼åº”è¯¥æ˜¯å…¨å±€çš„wordçš„æ•°é‡,æ•…å¯ä»¥æ²¿ç”¨ self.sum_alpha_beta() # è®¡ç®—alphaå’Œbetaçš„å’Œ # åˆå§‹åŒ–æ•°æ®é›†çš„self.global_bi self.global_bi = train_model.local_bi return def inference_data(self, article_list, iters_num=100, repeat_num=3): """ :key: åˆ©ç”¨çŽ°æœ‰æ¨¡åž‹æŽ¨æ–æ•°æ® :param article_list: æ¯ä¸€è¡Œçš„æ•°æ®æ ¼å¼ä¸º: id[tab]word1 word2 word3...... :param iters_num: æ¯ä¸€æ¬¡è¿ä»£çš„æ¬¡æ•° :param repeat_num: é‡å¤è¿ä»£çš„æ¬¡æ•° """ # åˆå§‹åŒ–è¯æ–™é›† self.init_corpus_with_articles(article_list) # åˆå§‹åŒ–è¿”å›žå˜é‡ return_theta = numpy.zeros((self.M, self.K)) # é‡å¤æŠ½æ · for i in range(repeat_num): logging.debug("inference repeat_num: " + str(i+1)) # åˆå§‹åŒ–å˜é‡ self.current_iter = 0 self.iters_num = iters_num # åˆå§‹åŒ–Zå€¼,ä»¥ä¾¿ç»Ÿè®¡è®¡æ•° self.Z = [[numpy.random.randint(self.K) for n in range(len(self.arts_Z[m]))] for m in range(self.M)] # åˆå§‹åŒ–ç»Ÿè®¡è®¡æ•° self.init_statistics() # å¼€å§‹æŽ¨æ– self.gibbs_sampling(is_calculate_preplexity=False) # è®¡ç®—theta self.calculate_theta() return_theta += self.theta # è®¡ç®—ç»“æžœ,å¹¶è¿”å›ž return return_theta / repeat_num if __name__ == "__main__": """ æµ‹è¯•ä»£ç """ logging.basicConfig(level=logging.DEBUG, format="%(asctime)s\t%(levelname)s\t%(message)s") # trainæˆ–è€…inference test_type = "train" # test_type = "inference" # æµ‹è¯•æ–°æ¨¡åž‹ if test_type == "train": model = LdaModel() # ç”±prior_fileå†³å®šæ˜¯å¦å¸¦æœ‰å…ˆéªŒçŸ¥è¯† model.init_train_model("data/", "model", current_iter=0, iters_num="auto", topics_num=10, data_file="corpus.txt") # model.init_train_model("data/", "model", current_iter=0, iters_num="auto", topics_num=10, data_file="corpus.txt", prior_file="prior.twords") model.begin_gibbs_sampling_train() elif test_type == "inference": model = LdaModel() model.init_inference_model(LdaModel().init_train_model("data/", "model", current_iter=134)) data = [ "cn å’ªå’• æ¼«ç”» å’ªå’• æ¼«ç”» æ¼«ç”» æ›´å å’ªå’• æ¼«ç”» èµ„æº å·æ˜Ÿ å›½æ¼« å…¨å½© æ—¥æ¼« å®žæ—¶ åœ¨çº¿çœ‹ éšå¿ƒæ‰€æ¬² ç™»é™† æ¼«ç”» èµ„æº é»‘ç™½ å…¨å½© èˆªæµ·çŽ‹", "co aircloud aircloud ç¡¬ä»¶ è®¾å¤‡ wifi æ™ºèƒ½ æ‰‹è¦ å¹³æ¿ç”µè„‘ ç”µè„‘ å˜å‚¨ aircloud æ–‡ä»¶ è¿œç¨‹ åž‹å· aircloud ç¡¬ä»¶ è®¾å¤‡ wifi" ] result = model.inference_data(data) # é€€å‡ºç¨‹åº exit()