add tagging func

AlchemistZoro · AlchemistZoro · commit dab8bd75596b · 2023-01-28T16:28:14.000+08:00
diff --git a/.gitignore b/.gitignore
@@ -144,3 +144,7 @@ log_useful/
 # GreaseLM running generate
 filtered_concept.txt
 matcher_res.json
+
+# Test code  
+*.ipynb
+
diff --git a/preprocess.py b/preprocess.py
@@ -5,7 +5,7 @@
 from preprocess_utils.conceptnet import extract_english, construct_graph
 from preprocess_utils.grounding import create_matcher_patterns, ground
 from preprocess_utils.graph import generate_adj_data_from_grounded_concepts__use_LM
-
+from preprocess_utils.tagging import tag
 input_paths = {
     'csqa': {
         'train': './data/csqa/train_rand_split.jsonl',
@@ -46,6 +46,11 @@
             'adj-dev': './data/csqa/graph/dev.graph.adj.pk',
             'adj-test': './data/csqa/graph/test.graph.adj.pk',
         },
+        'tagged':{
+            'train': './data/csqa/tagged/train.tagged.jsonl',
+            'dev': './data/csqa/tagged/dev.tagged.jsonl',
+            'test': './data/csqa/tagged/test.tagged.jsonl',
+        },
     },
     'obqa': {
         'statement': {
@@ -61,6 +66,11 @@
             'dev': './data/obqa/grounded/dev.grounded.jsonl',
             'test': './data/obqa/grounded/test.grounded.jsonl',
         },
+        'tagged':{
+            'train': './data/obqa/tagged/train.tagged.jsonl',
+            'dev': './data/obqa/tagged/dev.tagged.jsonl',
+            'test': './data/obqa/tagged/test.tagged.jsonl',
+        },
         'graph': {
             'adj-train': './data/obqa/graph/train.graph.adj.pk',
             'adj-dev': './data/obqa/graph/dev.graph.adj.pk',
@@ -81,42 +91,54 @@ def main():
         raise NotImplementedError()
 
     routines = {
-        'common': [
-            {'func': extract_english, 'args': (input_paths['cpnet']['csv'], output_paths['cpnet']['csv'], output_paths['cpnet']['vocab'])},
-            {'func': construct_graph, 'args': (output_paths['cpnet']['csv'], output_paths['cpnet']['vocab'],
-                                               output_paths['cpnet']['unpruned-graph'], False)},
-            {'func': construct_graph, 'args': (output_paths['cpnet']['csv'], output_paths['cpnet']['vocab'],
-                                               output_paths['cpnet']['pruned-graph'], True)},
-            {'func': create_matcher_patterns, 'args': (output_paths['cpnet']['vocab'], output_paths['cpnet']['patterns'])},
-        ],
+        # 'common': [
+        #     {'func': extract_english, 'args': (input_paths['cpnet']['csv'], output_paths['cpnet']['csv'], output_paths['cpnet']['vocab'])},
+        #     {'func': construct_graph, 'args': (output_paths['cpnet']['csv'], output_paths['cpnet']['vocab'],
+        #                                        output_paths['cpnet']['unpruned-graph'], False)},
+        #     {'func': construct_graph, 'args': (output_paths['cpnet']['csv'], output_paths['cpnet']['vocab'],
+        #                                        output_paths['cpnet']['pruned-graph'], True)},
+        #     {'func': create_matcher_patterns, 'args': (output_paths['cpnet']['vocab'], output_paths['cpnet']['patterns'])},
+        # ],
         'csqa': [
-            {'func': convert_to_entailment, 'args': (input_paths['csqa']['train'], output_paths['csqa']['statement']['train'])},
-            {'func': convert_to_entailment, 'args': (input_paths['csqa']['dev'], output_paths['csqa']['statement']['dev'])},
-            {'func': convert_to_entailment, 'args': (input_paths['csqa']['test'], output_paths['csqa']['statement']['test'])},
-            {'func': ground, 'args': (output_paths['csqa']['statement']['train'], output_paths['cpnet']['vocab'],
-                                      output_paths['cpnet']['patterns'], output_paths['csqa']['grounded']['train'], args.nprocs)},
-            {'func': ground, 'args': (output_paths['csqa']['statement']['dev'], output_paths['cpnet']['vocab'],
-                                      output_paths['cpnet']['patterns'], output_paths['csqa']['grounded']['dev'], args.nprocs)},
-            {'func': ground, 'args': (output_paths['csqa']['statement']['test'], output_paths['cpnet']['vocab'],
-                                      output_paths['cpnet']['patterns'], output_paths['csqa']['grounded']['test'], args.nprocs)},
-            {'func': generate_adj_data_from_grounded_concepts__use_LM, 'args': (output_paths['csqa']['grounded']['train'], output_paths['cpnet']['pruned-graph'], output_paths['cpnet']['vocab'], output_paths['csqa']['graph']['adj-train'], args.nprocs)},
-            {'func': generate_adj_data_from_grounded_concepts__use_LM, 'args': (output_paths['csqa']['grounded']['dev'], output_paths['cpnet']['pruned-graph'], output_paths['cpnet']['vocab'], output_paths['csqa']['graph']['adj-dev'], args.nprocs)},
-            {'func': generate_adj_data_from_grounded_concepts__use_LM, 'args': (output_paths['csqa']['grounded']['test'], output_paths['cpnet']['pruned-graph'], output_paths['cpnet']['vocab'], output_paths['csqa']['graph']['adj-test'], args.nprocs)},
+        #     {'func': convert_to_entailment, 'args': (input_paths['csqa']['train'], output_paths['csqa']['statement']['train'])},
+        #     {'func': convert_to_entailment, 'args': (input_paths['csqa']['dev'], output_paths['csqa']['statement']['dev'])},
+        #     {'func': convert_to_entailment, 'args': (input_paths['csqa']['test'], output_paths['csqa']['statement']['test'])},
+        #     {'func': ground, 'args': (output_paths['csqa']['statement']['train'], output_paths['cpnet']['vocab'],
+        #                               output_paths['cpnet']['patterns'], output_paths['csqa']['grounded']['train'], args.nprocs)},
+        #     {'func': ground, 'args': (output_paths['csqa']['statement']['dev'], output_paths['cpnet']['vocab'],
+        #                               output_paths['cpnet']['patterns'], output_paths['csqa']['grounded']['dev'], args.nprocs)},
+        #     {'func': ground, 'args': (output_paths['csqa']['statement']['test'], output_paths['cpnet']['vocab'],
+        #                               output_paths['cpnet']['patterns'], output_paths['csqa']['grounded']['test'], args.nprocs)},
+        {'func': tag, 'args': (output_paths['csqa']['statement']['train'], output_paths['cpnet']['vocab'],
+                                    output_paths['cpnet']['patterns'], output_paths['csqa']['tagged']['train'], args.nprocs)},
+        {'func': tag, 'args': (output_paths['csqa']['statement']['dev'], output_paths['cpnet']['vocab'],
+                                    output_paths['cpnet']['patterns'], output_paths['csqa']['tagged']['dev'], args.nprocs)},
+        {'func': tag, 'args': (output_paths['csqa']['statement']['test'], output_paths['cpnet']['vocab'],
+                                    output_paths['cpnet']['patterns'], output_paths['csqa']['tagged']['test'], args.nprocs)},
+        #     {'func': generate_adj_data_from_grounded_concepts__use_LM, 'args': (output_paths['csqa']['grounded']['train'], output_paths['cpnet']['pruned-graph'], output_paths['cpnet']['vocab'], output_paths['csqa']['graph']['adj-train'], args.nprocs)},
+        #     {'func': generate_adj_data_from_grounded_concepts__use_LM, 'args': (output_paths['csqa']['grounded']['dev'], output_paths['cpnet']['pruned-graph'], output_paths['cpnet']['vocab'], output_paths['csqa']['graph']['adj-dev'], args.nprocs)},
+        #     {'func': generate_adj_data_from_grounded_concepts__use_LM, 'args': (output_paths['csqa']['grounded']['test'], output_paths['cpnet']['pruned-graph'], output_paths['cpnet']['vocab'], output_paths['csqa']['graph']['adj-test'], args.nprocs)},
         ],
 
         'obqa': [
-            {'func': convert_to_obqa_statement, 'args': (input_paths['obqa']['train'], output_paths['obqa']['statement']['train'], output_paths['obqa']['statement']['train-fairseq'])},
-            {'func': convert_to_obqa_statement, 'args': (input_paths['obqa']['dev'], output_paths['obqa']['statement']['dev'], output_paths['obqa']['statement']['dev-fairseq'])},
-            {'func': convert_to_obqa_statement, 'args': (input_paths['obqa']['test'], output_paths['obqa']['statement']['test'], output_paths['obqa']['statement']['test-fairseq'])},
-            {'func': ground, 'args': (output_paths['obqa']['statement']['train'], output_paths['cpnet']['vocab'],
-                                      output_paths['cpnet']['patterns'], output_paths['obqa']['grounded']['train'], args.nprocs)},
-            {'func': ground, 'args': (output_paths['obqa']['statement']['dev'], output_paths['cpnet']['vocab'],
-                                      output_paths['cpnet']['patterns'], output_paths['obqa']['grounded']['dev'], args.nprocs)},
-            {'func': ground, 'args': (output_paths['obqa']['statement']['test'], output_paths['cpnet']['vocab'],
-                                      output_paths['cpnet']['patterns'], output_paths['obqa']['grounded']['test'], args.nprocs)},
-            {'func': generate_adj_data_from_grounded_concepts__use_LM, 'args': (output_paths['obqa']['grounded']['train'], output_paths['cpnet']['pruned-graph'], output_paths['cpnet']['vocab'], output_paths['obqa']['graph']['adj-train'], args.nprocs)},
-            {'func': generate_adj_data_from_grounded_concepts__use_LM, 'args': (output_paths['obqa']['grounded']['dev'], output_paths['cpnet']['pruned-graph'], output_paths['cpnet']['vocab'], output_paths['obqa']['graph']['adj-dev'], args.nprocs)},
-            {'func': generate_adj_data_from_grounded_concepts__use_LM, 'args': (output_paths['obqa']['grounded']['test'], output_paths['cpnet']['pruned-graph'], output_paths['cpnet']['vocab'], output_paths['obqa']['graph']['adj-test'], args.nprocs)},
+            # {'func': convert_to_obqa_statement, 'args': (input_paths['obqa']['train'], output_paths['obqa']['statement']['train'], output_paths['obqa']['statement']['train-fairseq'])},
+            # {'func': convert_to_obqa_statement, 'args': (input_paths['obqa']['dev'], output_paths['obqa']['statement']['dev'], output_paths['obqa']['statement']['dev-fairseq'])},
+            # {'func': convert_to_obqa_statement, 'args': (input_paths['obqa']['test'], output_paths['obqa']['statement']['test'], output_paths['obqa']['statement']['test-fairseq'])},
+            # {'func': ground, 'args': (output_paths['obqa']['statement']['train'], output_paths['cpnet']['vocab'],
+            #                           output_paths['cpnet']['patterns'], output_paths['obqa']['grounded']['train'], args.nprocs)},
+            # {'func': ground, 'args': (output_paths['obqa']['statement']['dev'], output_paths['cpnet']['vocab'],
+            #                           output_paths['cpnet']['patterns'], output_paths['obqa']['grounded']['dev'], args.nprocs)},
+            # {'func': ground, 'args': (output_paths['obqa']['statement']['test'], output_paths['cpnet']['vocab'],
+            #                           output_paths['cpnet']['patterns'], output_paths['obqa']['grounded']['test'], args.nprocs)},
+            {'func': tag, 'args': (output_paths['obqa']['statement']['train'], output_paths['cpnet']['vocab'],
+                                      output_paths['cpnet']['patterns'], output_paths['obqa']['tagged']['train'], args.nprocs)},
+            {'func': tag, 'args': (output_paths['obqa']['statement']['dev'], output_paths['cpnet']['vocab'],
+                                      output_paths['cpnet']['patterns'], output_paths['obqa']['tagged']['dev'], args.nprocs)},
+            {'func': tag, 'args': (output_paths['obqa']['statement']['test'], output_paths['cpnet']['vocab'],
+                                      output_paths['cpnet']['patterns'], output_paths['obqa']['tagged']['test'], args.nprocs)},
+            # {'func': generate_adj_data_from_grounded_concepts__use_LM, 'args': (output_paths['obqa']['grounded']['train'], output_paths['cpnet']['pruned-graph'], output_paths['cpnet']['vocab'], output_paths['obqa']['graph']['adj-train'], args.nprocs)},
+            # {'func': generate_adj_data_from_grounded_concepts__use_LM, 'args': (output_paths['obqa']['grounded']['dev'], output_paths['cpnet']['pruned-graph'], output_paths['cpnet']['vocab'], output_paths['obqa']['graph']['adj-dev'], args.nprocs)},
+            # {'func': generate_adj_data_from_grounded_concepts__use_LM, 'args': (output_paths['obqa']['grounded']['test'], output_paths['cpnet']['pruned-graph'], output_paths['cpnet']['vocab'], output_paths['obqa']['graph']['adj-test'], args.nprocs)},
         ],
     }
 
diff --git a/preprocess_utils/tagging.py b/preprocess_utils/tagging.py
@@ -0,0 +1,191 @@
+from multiprocessing import Pool
+import spacy
+from spacy.matcher import Matcher
+from tqdm import tqdm
+import nltk
+import json
+import string
+import re
+__all__ = ['create_matcher_patterns', 'ground']
+
+
+# the lemma of it/them/mine/.. is -PRON-
+
+blacklist = set(["-PRON-", "actually", "likely", "possibly", "want",
+                 "make", "my", "someone", "sometimes_people", "sometimes", "would", "want_to",
+                 "one", "something", "sometimes", "everybody", "somebody", "could", "could_be"
+                 ])
+
+
+nltk.download('stopwords', quiet=True)
+nltk_stopwords = nltk.corpus.stopwords.words('english')
+
+# CHUNK_SIZE = 1
+
+CPNET_VOCAB = None
+PATTERN_PATH = None
+nlp = None
+matcher = None
+
+
+def load_cpnet_vocab(cpnet_vocab_path):
+    with open(cpnet_vocab_path, "r", encoding="utf8") as fin:
+        cpnet_vocab = [l.strip() for l in fin]
+    cpnet_vocab = [c.replace("_", " ") for c in cpnet_vocab]
+    return cpnet_vocab
+
+def lemmatize(nlp, concept):
+
+    doc = nlp(concept.replace("_", " "))
+    lcs = set()
+    lcs.add("_".join([token.lemma_ for token in doc]))  # all lemma
+    return lcs
+
+def load_matcher(nlp, pattern_path):
+    with open(pattern_path, "r", encoding="utf8") as fin:
+        all_patterns = json.load(fin)
+    matcher = Matcher(nlp.vocab)
+    # print('get the matcher')
+    for concept, pattern in tqdm(all_patterns.items()):
+        matcher.add(concept, [pattern])
+    return matcher
+
+def get_concept_position(sents, answers,stems,num_processes):
+    res = []
+    with Pool(num_processes) as p:
+        res = list(tqdm(p.imap(tag_qa_pair, zip(sents, answers,stems)), total=len(sents)))
+    return res   
+
+def tag_qa_pair(qa_pair):
+
+    # global nlp, matcher
+    
+    sents,answers,stem = qa_pair
+    sent_pair,stem_pair,ans_pair = [],[],[]
+    for s in sents:
+        pos_pair = tag_concepts_pos(s,nlp,matcher)
+        sent_pair.append(pos_pair)
+    for a in answers:
+        pos_pair = tag_concepts_pos(a,nlp,matcher)
+        ans_pair.append(pos_pair)
+    stem_pair = tag_concepts_pos(stem,nlp,matcher)
+    res = {
+        'statements':sent_pair,
+        'answers':ans_pair,
+        'stem':stem_pair
+    }
+    return res
+    
+    
+    
+# def tag_concepts_pos(s,nlp,matcher):
+#     s = s.lower()
+#     doc = nlp(s)
+#     matches = matcher(doc)
+#     pair = set()
+#     split_pair = set()
+#     for match_id, start, end in matches: 
+#         span = doc[start:end].text
+#         pair.add((start,end,span))
+#         if end-start>1:
+#             word_list = re.split(' |_',span)
+#             if len(word_list) != end-start: 
+#                 print(start,end,span,word_list)
+#                 return []
+#             for i in range(end-start):
+#                 split_pair.add((start+i,start+i+1,word_list[i]))
+#     # print(len(pair),len(split_pair))
+#     pair= pair-split_pair
+#     # print(pair)
+#     return list(pair)
+
+def prune(size,word_list):
+    if len(word_list) != size: return False
+    for i in range(size):
+        if word_list[i] in nltk_stopwords:
+            return False
+    return True
+
+
+def tag_concepts_pos(s,nlp,matcher):
+    s = s.lower()
+    doc = nlp(s)
+    matches = matcher(doc)
+    pair = set()
+    split_pair = set()
+    for match_id, start, end in matches: 
+        span = doc[start:end].text
+        word_list = span.split()
+        size = end- start
+        if prune(size,word_list):
+            pair.add((start,end,span))
+            if size >1 :
+                for i in range(end-start):
+                    split_pair.add((start+i,start+i+1,word_list[i]))
+    pair= pair-split_pair
+    return list(pair)
+
+
+def tag(statement_path, cpnet_vocab_path, pattern_path, output_path, num_processes=1, debug=False):
+    global PATTERN_PATH, CPNET_VOCAB
+    if PATTERN_PATH is None:
+        PATTERN_PATH = pattern_path
+        CPNET_VOCAB = load_cpnet_vocab(cpnet_vocab_path)
+        
+    global nlp, matcher
+    if nlp is None or matcher is None:
+        nlp = spacy.load('en_core_web_sm', disable=['ner', 'parser', 'textcat'])
+        nlp.add_pipe('sentencizer')
+        matcher = load_matcher(nlp, PATTERN_PATH)
+        
+    sents = []
+    answers = []
+    stems = []
+    with open(statement_path, 'r') as fin:
+        lines = [line for line in fin]
+
+    if debug:
+        lines = lines[0:3]
+        print(len(lines))
+    for line in lines:
+        sent_line = []
+        ans_line = []
+        if line == "":
+            continue
+        j = json.loads(line)
+        for statement in j["statements"]:
+            sent_line.append(statement["statement"])
+
+        for answer in j["question"]["choices"]:
+            ans = answer['text']
+            # ans = " ".join(answer['text'].split("_"))
+            try:
+                assert all([i != "_" for i in ans])
+            except Exception:
+                print(ans)
+            ans_line.append(ans)
+        sents.append(sent_line)
+        answers.append(ans_line)
+        stems.append(j['question']['stem'])
+
+    res = get_concept_position(sents, answers,stems,num_processes)
+    
+
+    # check_path(output_path)
+    with open(output_path, 'w') as fout:
+        for dic in res:
+            fout.write(json.dumps(dic) + '\n')
+
+    print(f'grounded concepts saved to {output_path}')
+    print()
+
+if __name__ == "__main__":
+    # create_matcher_patterns("../data/cpnet/concept.txt", "./matcher_res.txt", True)
+    # ground("../data/statement/dev.statement.jsonl", "../data/cpnet/concept.txt", "../data/cpnet/matcher_patterns.json", "./ground_res.jsonl", 10, True)
+    statement_path = '../data/csqa/statement/test.statement.jsonl'
+    cpnet_vocab_path = '../data/cpnet/concept.txt'
+    pattern_path = '../data/cpnet/matcher_patterns.json'
+    output_path = '../data/obqa/tagged/test.tagged.jsonl'
+    num_processes = 1
+    debug=True
+    tag(statement_path, cpnet_vocab_path, pattern_path, output_path, num_processes, debug)