投稿者「scientist」のアーカイブ

Anaconda3へのSeleniumのインストール

Seleniumとは

人間の手でウェブサイトにアクセスする代わりに、Pythonのプログラムによってウェブサイトにアクセスすると、必要な情報を自動的に取得することも可能になるので、便利です。Pytyonプログラム内からウェブブラウザーを開いて、ウェブサイトを閲覧するための便利なモジュールとしてSeleniumというものがあります。すでに自分のPCにはAnaconda3がインストールされていますが、

Seleniumのインストール

Seleniumをまだ入れていなかったので入れることにしました。Anaconda　Navigatorのコントロールパネルで、Environmentsを選び、プルダウンメニューでAllかNot installedを指定して、検索窓にSeleniumと入れてやると、Seleniumが表示されました。そのままApplyボタンを押してイントール。この操作でうまくSeleniumuがインストールできたPCもありましたが、別の機会に別のPCで同じことをやろうとしたときに、Multiple errors encounteredというエラーが出てしまい、うまくいきませんでした。そこで、base(rood)という文字の横の三角形（矢頭）をクリックするとOpen terminalが選ぶのでそれを選んで、ターミナルウインドウを起動します。そして、ウェブ記事https://anaconda.org/conda-forge/seleniumを参考に、

conda install -c conda-forge selenium

としてやると、セレニウムのモジュールがちゃんとアナコンダにインストールされました。めでたし、めでたし。

ウェブブラウザに合ったドライバーの必要性

Seleniumuを使うときはブラウザと連動させる必要がありますが、自分の場合グーグルクロームを普段使うブラウザにしていますので、https://chromedriver.chromium.org/downloads のウェブサイトで現在使っているブラウザのバージョンに合わせたドライバーをダウンロードしてきました（バージョンが違うとドライバーは動きませんでした）。また、拾ってきたchromedriverは、正しいPathに置く必要があります。実行したいjupyterノートブックのファイルがあるフォルダにおいてやると、うまく動きました。

Seleniumの実行

環境が整ったところでJupyterのノートブックで例えば下のサンプルコードを実行すると、ウェブブラウザが新たに立ち上がり、入力しておいたURLのウェブページが自動的に開きます。

from selenium import webdriver
browser = webdriver.Chrome()
browser.get(‘http://scienceandtechnology.jp/archives/33913’)

PythonとSelenium ～ PC上のルーチンワークはPCにやらせよう

パソコン内の業務を自動化する取り組みのことをRPA（Robotic Process Automation）というそうです。自分は仕事でもPC、仕事以外の時間でもPCに向かっていることが多いので、いっそ、PCで行うことの全てをPCに自動的にやらせてしまえば、自分は仕事からも今の人生からも解放されるのではないかと思うことがあります。

セレニウムに関する書籍

セレニウムは、Pythonのモジュールの一つで、人間がウェブブラウザを開いてインターネットを閲覧したり、アイコンやリンクをクリックしたり、何かを入力したり実行ボタンを押したりするのと同じことを、機械的にやってくれます。使えればとっても便利なことは明らかなのですが、使い方を解説した本はまだ少ないようです。

エキスパートが教えるSelenium最前線 (CodeZine BOOKS. SHOEISHA DIGITAL FIRST) 戸田広, 島根義和, 高橋陽太郎, 沖田邦夫, 松尾和昭, 宮田淳平著. 翔泳社, 2018.5
Selenium実践入門 : 自動化による継続的なブラウザテスト (WEB+DB PRESS plusシリーズ) 伊藤望, 戸田広, 沖田邦夫, 宮田淳平, 長谷川淳, 清水直樹, Vishal Banthia 著. 技術評論社, 2016.3
Seleniumデザインパターン&ベストプラクティス　 Dima Kovalenko 著, 太田健一郎, 玉川紘子監訳, 笹井崇司訳. オライリー・ジャパン, 2015.9
実践Selenium WebDriver　 Satya Avasarala 著, 玉川竜司訳. オライリー・ジャパン, 2014.9

研究者の場合、データベースにアクセスしてデータを収集することもあるかと思いますが、人間がウェブ操作するのと同じことをPythonのプログラムで実行できるので、Seleniumを使うと、煩雑なルーチンワークから解放されそうです。PubMedの検索を自動化して、結果をメールで返してもらったりとかできるかも。

参考

【学習ロードマップ付き】実例で理解するPythonで自動化できること５選！ 吉池昌貴 2019年8月6日

PythonプログラミングでCSVファイルを開くときの文字コードエラーへの対処方法　UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0x89 in position 0: invalid start byte

【問題】PythonのJupyther Notebookでスクリプトを使ってエクセルファイルやCSVファイルを読もうとしたら、UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0x89 in position 0: invalid start byteというエラーが出ました。

【解決】エクセルファイルとCSVファイルでは文字コードが異なっていたようです。

if file.endswith(‘.xls’) | file.endswith(‘.xlsx’):
data = pd.read_excel(file, encoding = “shift-jis”)
elif file.endswith(‘.csv’) :
data = pd.read_csv(file, encoding = “cp932”)

とファイルの拡張子によって指定する文字コードも変えてやったら、問題なく読んでくれました。

pyothonでpandasのシリーズ(Series)の特定の要素のインデックスを取得する方法

シリーズの中のある要素が何番目かを知る方法。

#シリーズの中の特定の要素のインデックスを取得する方法

from pandas import Series

my_list = ['cell','gene','molecule','DNA','RNA']#リストの作成
my_series = Series(my_list)#リストからシリーズを作成
my_series[my_series=='DNA'].index[0]#特定の要素のインデックスを取得

上のコードを実行すると出力される結果は、３になります。DNAという文字列からなる要素が3番目（0から数え始めて）にあるので、3というわけです。

pythonのpandasのDataFrameで新しい列のデータを加える方法

pandasのDataFrameが以下のようになっていたとします。

import pandas as pd

dic ={ '名前' : ['太郎','花子','奈津子','夏子','なつみ'],
'数学' : [200,195,30,160,70],
'英語' : [120,180,90,161,111]}

df = pd.DataFrame(dic)

dfは、

	名前	数学	英語
0	太郎	200	120
1	花子	195	180
2	奈津子	30	90
3	夏子	160	161
4	なつみ	70	111

ここに、列を挿入するには、

df.insert(1,'理科',[80,100,50,43,21])

とすれば、0列目の右側の1列目の位置に新しい列データを挿入できます。その結果、新しいデータフレームdfの内容は、

	名前	理科	数学	英語
0	太郎	80	200	120
1	花子	100	195	180
2	奈津子	50	30	90
3	夏子	43	160	161
4	なつみ	21	70	111

となりました。

リストの要素の文字列が特定の文字で始まるときにその特定の文字を除去する方法

pythonで語句のリストがあったとき、特定の文字で始まる語句に関してその特定の文字を除去したいことがありあす。例えば、一部の語句はTheで始まるpythonのリスト　[‘The pen’,’desk’, ‘The ink’]の場合に、どうやってこの中のTheを除去すればよいでしょうか。

以下のコードで実現できました。

# リストの要素の文字列がTheで始まる場合はそれを除去する

list = ['The pen','desk', 'The ink']
new_list = []

for element in list:
if element.startswith('The '):
sub0,sub1 = i.split('The ',1)
new_list = new_list+[sub1]
else:
new_list = new_list+[i]

print(list)
print(new_list)
動作の説明ですが、新しいリストを準備しておきます。

new_list = []

forループでリスト内の要素を一つずつチェック。’The ‘で始まる場合とそうでない場合で処理を分けます。’The ‘で始まる文字列に関しては、’The ‘の前後に分割。前は何もないのでカラの文字列になります(sub0）。後ろが自分が欲しい文字列(sub1）。sub1はストリングのデータタイプはストリングなので[]でリストにしてから、+という演算子でリスト同士を合わせます。上のコードを実行した結果は、

['The pen', 'desk', 'The ink']
['ink', 'The ink', 'ink']

で、うまく期待した動作をしてくれました。

註：このブログの記事内では、インデントがなくなってしまっています。forループの中身にはインデントが必要。さらにその中のif文およびelse文の中身もインデントが必要です。

TypeError: read_excel() got an unexpected keyword argument ‘encoding’　というエラーが出るようになってしまった

以前は動いていたコードなのに、今回実行したらなぜか

TypeError: read_excel() got an unexpected keyword argument ‘encoding’

というエラーが出てしまいます。pandasのバージョンがいつのまにかアップグレードされていて、使えなくなったということなのでしょうか。ネットを調べたら、やはり、以前のバージョンではOKだったみたいです。

I know that Providing encoding as a keyword argument is unnecessary and only “worked” before so what is the alternative of encoding in pandas 1.2.3 that i can use.　https://stackoverflow.com/questions/69015459/read-excel-not-accepting-encoding-on-pandas-1-2-3

とりあえず、その部分を削除したら問題なく動作しました。

【解決】ValueError: Max value is 14　pythonでエクセルを開こうとして出たエラー

pythonのpandasの機能をつかって、

pd.ExcelFile

というコマンドでエクセルを開こうとしてしたらValueError: Max value is 14　というエラーが、ある時期から出るようになって困ってしまいました。

解決：ネットを見ていたら、余計なフォーマットを除去したらいいみたいだったので、

I had to remove all formatting in a sheet I was working with.　

https://stackoverflow.com/questions/50236928/openpyxl-valueerror-max-value-is-14-when-using-load-workbook

問題のエクセルファイルを一度ＣＳＶ形式で保存して、再び開き、エクセル形式で保存しなおしました。すると　ValueError: Max value is 14　が出なくなりました。エラーを引き起こしていた余計なものがなんだったのかはわかりませんが、問題が解決したのでこれ以上気にしないことにします。

PermissionError: [Errno 13] 　ウインドウズ上でPythonエラー

Pythonでファイルを読もうとしたら、PermissionError: [Errno 13] というエラーを食らいました。理由はいろいろあるでしょうが、今回の自分の場合は、単純にそのファイル（エクセルファイル）を、エクセルで開いている最中なのを忘れていたものです。

データフレーム特定の列が特定の値の行を取得する方法

教員名簿がエクセルであったとして、それをデータフレームとして読み込み、役職が教授の行の氏名の列の情報だけを取得する方法。df.loc[行][列]という形で中に条件を埋め込んで書けます。

xls= pd.ExcelFile(file)
df= pd.read_excel(xls)

#教授だけを表示
print (df.loc[(df['役職名（職種名）'] =='教授')]['氏名'])

Thinking in Python with AI

自分の忘備録としてのpython勉強ノート