當前位置: 首頁 > 市場

        支持開票 | Python實證指標構建與文本分析

        日期:2022-12-28 11:53:33 來源:

        付費課程 |支持開票|購前咨詢 微信372335839概覽為何要學Python?

        在科學研究中,數據的獲取及分析是最重要的也是最棘手的兩個環節!

        在前大數據時代,一般使用實驗法、調查問卷、訪談或者二手數據等方式,將數據整理為結構化的表格數據,之后再使用各種計量分析方法,對這些表格數據進行分析。但大數據時代,網絡數據成為各方學者亟待挖掘的潛在寶藏,大量商業信息、社會信息以文本等非結構化、異構型數據格式存儲于海量的網頁中。那么對于經管為代表的人文社科類專業科研工作者而言,通過Python可以幫助學者解決使用Web數據進行科研面臨的兩個問題:


        (資料圖)

        網絡爬蟲技術解決 如何從網絡世界中高效地采集數據?文本分析技術解決 如何從雜亂的文本數據中 抽取文本指標(變量)?一、Python語法入門

        Python跟英語一樣是一門語言

        數據類型之字符串

        數據類型之列表元組集合

        數據類型之字典

        數據類型之布爾值、None

        邏輯語句(if&for&tryexcept)

        列表推導式

        理解函數

        常用的內置函數

        內置庫文件路徑pathlib庫

        內置庫csv文件庫

        內置庫正則表達式re庫

        初學python常出錯誤匯總

        二、數據采集

        網絡爬蟲原理

        網絡訪問requests庫

        網頁解析pyquery庫

        案例豆瓣讀書

        案例Boss直聘

        如何解析json數據

        案例豆瓣電影

        案例京東商城

        案例用爬蟲下載文檔及多媒體文件

        案例上市公司定期報告pdf批量下載

        案例上交所招股說明pdf批量下載

        案例深交所招股說明pdf批量下載

        爬蟲知識點總結

        三、初識文本分析

        從編碼/解碼視角重新理解文本

        讀取不同格式文件中的數據

        如何將多個txt文件整理到一個excel中

        案例中文分詞及數據清洗

        案例詞頻統計&詞云圖

        案例共現法擴展情感詞典(領域詞典)

        案例詞向量word2vec擴展領域詞典

        案例中文情感分析(詞典法)

        cntext庫 情感分析代碼操作

        案例對excel中的文本進行情感分析 91

        案例 語言具體性與心理距離 | 以JCR2021論文為例

        案例 使用MD&A數據測量企業數字化| 以管理世界2021、財經研究2022論文為例

        四、機器學習與文本分析

        了解機器學習ML

        使用機器學習做文本分析的流程

        scikit-learn機器學習庫簡介

        文本特征抽取(特征工程)

        案例在線評論文本分類

        使用標注工具對數據進行標注

        案例計算文本情感分析(有權重)

        案例 文本相似性計算

        案例 使用文本相似性識別變化(政策連續性)

        案例 Kmeans聚類算法

        案例 LDA話題模型

        使用機器學習從圖片中提取文本信息

        五、詞嵌入與認知

        詞嵌入原理及應用概述

        案例 豆瓣影評-訓練詞向量&使用詞向量

        案例 使用詞向量做話題建模

        案例 認知指標(態度、偏見等)的測量

        總結-文本分析在社科(經管)領域中的應用

        相關文獻

        在這里我把技術細分為詞頻、詞袋、w2v建詞典、w2v認知變遷四個維度,整理了經管7篇論文。大家可以閱讀這7篇論文,掌握文本分析的應用場景。

        [1]沈艷,陳赟,&黃卓.(2019).文本大數據分析在經濟學和金融學中的應用:一個文獻綜述.經濟學(季刊),18(4),1153-1186.[2]王偉,陳偉,祝效國,王洪偉.眾籌融資成功率與語言風格的說服性-基于Kickstarter的實證研究.*管理世界*.2016;5:81-98.[3]胡楠,薛付婧,王昊楠.管理者短視主義影響企業長期投資嗎?——基于文本分析和機器學習[J].管理世界,2021,37(05):139-156+11+19-21.[4]KaiLi,FengMai,RuiShen,XinyanYan,MeasuringCorporateCultureUsingMachineLearning,*TheReviewofFinancialStudies*,2020[5]LoughranT,McDonaldB.Textualanalysisinaccountingandfinance:Asurvey[J].*JournalofAccountingResearch*,2016,54(4):1187-1230.AuthorlinksopenoverlaypanelComputationalsocioeconomics[6]Berger,Jonah,AshleeHumphreys,StephanLudwig,WendyW.Moe,OdedNetzer,andDavidA.Schweidel."Unitingthetribes:Usingtextformarketinginsight."*JournalofMarketing*84,no.1(2020):1-25.[7]Cohen,Lauren,ChristopherMalloy,andQuocNguyen."Lazyprices."*TheJournalofFinance*75,no.3(2020):1371-1415.[8]孟慶斌,楊俊華,魯冰.管理層討論與分析披露的信息含量與股價崩盤風險——基于文本向量化方法的研究[J].*中國工業經濟*,2017(12):132-150.[9]Wang,Quan,BeibeiLi,andParamVirSingh."Copycatsvs.OriginalMobileApps:AMachineLearningCopycat-DetectionMethodandEmpiricalAnalysis."*InformationSystemsResearch*29.2(2018):273-291.[10]Packard,Grant,andJonahBerger.“Howconcretelanguageshapescustomersatisfaction.”_JournalofConsumerResearch_47,no.5(2021):787-806.[11]冉雅璇,李志強,劉佳妮,張逸石.大數據時代下社會科學研究方法的拓展——基于詞嵌入技術的文本分析的應用[J].南開管理評論:1-27.[12]曾慶生,周波,張程,陳信元.年報語調與內部人交易:“表里如一”還是“口是心非”?[J].管理世界,2018,34(09):143-160.[13]彭紅楓,&林川.(2018).言之有物:網絡借貸中語言有用嗎?——來自人人貸借款描述的經驗證據[J].金融研究,461(11),133-153.[14]吳非,胡慧芷,林慧妍,and任曉怡.“企業數字化轉型與資本市場表現——來自股票流動性的經驗證據[J].”管理世界(2021).

        免費公開資料-社會科學文本挖掘資料匯總

        公眾號和博客積累了大量社會科學文本挖掘資料,涵蓋文本分析概念、技術、代碼、數據等。全部理清楚感興趣的可以關注收藏。

        https://hidadeng.github.io/blog/the_text_analysis_list_about_ms/

        文獻類

        讀完本文你就了解什么是文本分析

        轉載 | 金融學文本大數據挖掘方法與研究進展

        視頻 | Python文本分析與會計

        視頻 |文本分析在經管研究中的應用

        視頻| Python文本挖掘與金融科技

        資料 | 量化歷史學與經濟學研究

        近年《管理世界》《管理科學學報》使用文本分析論文

        管理世界 | 使用中文LM金融詞典做管理層語調分析

        管理世界 | 使用文本分析&機器學習測量短視主義

        管理世界 | 使用 經營討論與分析 測量 企業數字化指標

        文本分析在市場營銷研究中的應用

        營銷研究中文本分析應用概述(含案例及代碼)

        計算文本的語言具體性 | 以JCR2021論文為例

        文本分析方法在2021管理世界中的應用

        轉載 | 大數據時代下社會科學研究方法的拓展——基于詞嵌入技術的文本分析的應用

        文本可讀性研究及應用清單

        詞嵌入測量不同群體對某概念的態度(偏見)

        PNAS | 文本網絡分析&文化橋梁Python代碼實現

        PNAS | 歷史語言記錄揭示了近幾十年來認知扭曲的激增

        PNAS | 情侶分手3個月前就有預兆!聊天記錄還能反映分手后遺癥

        PNAS|詞匯熟悉度對線上參與和資金籌集的預測性效用

        MS | 使用網絡算法識別創新的顛覆性與否

        文本可讀性研究及應用清單

        代碼類

        Python語法入門 | 含視頻代碼

        30天Python編程學習挑戰

        中文金融情感詞典

        在會計研究中使用Python進行文本分析

        Python與文化分析入門

        免費社科類Python編程課程列表

        tomotopy庫 | 速度最快的LDA主題模型

        cntext庫 | 中文情感分析包

        認知的測量 | 向量距離vs語義投影

        BERTopic主題建模庫

        doccano|為機器學習建模做數據標注

        PyPlutchik庫 | 可視化文本的情緒輪(情緒指紋)

        WordBias庫 | 發現偏見(刻板印象)的交互式工具

        whatlies庫 | 可視化詞向量

        KeyBERT | 關鍵詞發現庫

        FinBERT | 金融文本BERT模型,可情感分析、識別ESG和FLS類型

        Top2Vec | 主題建模和語義搜索庫

        tfidf有權重的情感分析

        Shifterator庫 | 詞移圖分辨兩文本用詞風格差異

        使用Pandas處理文本數據

        Label-Studio|多媒體數據標注工具

        工具分享 | 正則表達式解析

        EmoBank | 中文維度情感詞典

        Maigret庫 | 查詢某用戶名在各平臺網站的使用情況

        百度指數 | 使用qdata采集百度指數

        Asent庫 | 英文文本數據情感分析

        安裝python包出現報錯:Microsoft Visual 14.0 or greater is required. 怎么辦?

        Python | 詞移距離(Word Mover"s Distance)

        豆瓣影評| 探索詞向量妙處

        karateclub庫 | 計算社交網絡中節點的向量

        causalinference庫 | 使用Python做因果推斷

        機器學習實戰 | 信用卡欺詐檢測

        實戰 | 構建基于客戶細分的 K-Means 聚類算法!

        nlp-roadmap | 文本分析知識點思維腦圖

        R語言 | ggplot2簡明繪圖之散點圖

        R語言 | 使用posterdown包制作學術會議海報

        R語言 | 使用ggsci包繪制sci風格圖表

        R語言 | ggpubr包讓數據可視化更加優雅

        R語言 | 讓統計更easy的easystats集合包

        R語言 | 使用shiny的reactive表達式寫應用程序

        R語言 | 使用stargazer包輸出格式化回歸結果

        R語言 | 使用word2vec詞向量模型

        Latex | 為Rmarkdown配置tinytex環境

        LovelyPlots庫 | 格式化科學論文、論文和演示文稿的可視化圖形

        數據集

        YelpDaset | 酒店管理類數據集10+G

        70G上交所年報數據集

        14G數據集 | 2007-2021年A股上市公司年度報告(txt文件)

        17G資源 | 深交所企業社會責任報告

        27G數據集 | 使用Python對27G招股說明書進行文本分析

        1850萬條 | 世界地圖POI興趣點數據集

        1.5G數據集 | 200萬條Indiegogo眾籌項目信息

        12G數據集 | 23w條Kickstarter項目信息

        中文語義常用詞典 | ChineseSemanticKB

        中文詞向量資源匯總 & 使用方法

        NLP資源 | 汽車、金融等9大領域預訓練詞向量模型下載資源

        Google Books Ngram Viewer顯示英文詞匯歷史使用趨勢

        標簽:

        熱門推薦

        猜你喜歡

        市場