数据科学家提高效率的 40 个 python 技巧 -尊龙凯时首页
在本文中,云朵君将和大家一起学习 40 个可以帮助你加快数据处理效率的的方法和技巧,希望对你有所帮助。
01 列表推导式 02 枚举函数 03 通过函数返回多个值 04 像在数学中一样比较多个数字 05 将字符串转换为字符串列表 06 for-else 方法 07 从列表中找到n个最大/小的元素 08 函数参数以列表值传递 09 重复整个字符串 10 从列表中找到元素的索引 11 在同一行中打印多个元素 12 分隔大数字以易于阅读 13 反转列表的切片 14 "is" 和 "==" 的区别 15 在一行代码中合并 2 个字典 16 识别字符串是否以特定字母开头 17 获取字符的unicode 18 获取字典的键值对 19 在数学运算中使用布尔值 20 在列表的特定位置添加值 21 过滤器filter()函数 22 创建没有参数边界的函数 23 一次迭代两个或多个列表 24 改变句子中字母的大小写 25 检查对象使用的内存大小 26 map() 函数 27 反转整个字符串 28 代码块的执行时间 29 删除字符串的左侧或右侧字符 30 在元组或列表中查找元素的索引 31 清空列表或集合中元素 32 连接两个集合 33 根据频率对列表的值排序 34 从列表中删除重复值 35 列表中元素连接为句子 36 一次从函数返回多个值 37 找出两个列表之间的差异 38 将两个列表合并为一个字典 39 执行字符串表示的代码 40 字符串格式化01 列表推导式
numbers = [1, 2, 3, 4, 5, 6, 7, 8] even_numbers = [number for number in numbers if number % 2 == 0] print(even_numbers)输出
dictionary = {'first_num': 1, 'second_num': 2,'third_num': 3, 'fourth_num': 4} oddvalues = {key: value for (key, value) in dictionary.items() if value % 2 != 0} print(oddvalues)output: {'first_num': 1, 'third_num': 3}02 枚举函数
enumerate (枚举) 是一个很有用的函数,用于迭代对象,如列表、字典或文件。该函数生成一个元组,其中包括通过对象迭代获得的值以及循环计数器(从 0 的起始位置)。当希望根据索引编写代码时,循环计数器就派上用场了。
sentence = 'just do it' length = len(sentence) for index, element in enumerate(sentence):print('{}: {}'.format(index, element))if index == 0:print('the first element!')elif index == length - 1:print('the last element!')输出
0: j the first element! 1: u 2: s 3: t 4: 5: d 6: o 7: 8: i 9: t the last element!也可以使用 enumerate 函数枚举文件。在下面的示例中,在跳出循环之前打印 csv 文件的前 10 行。并且可以在任何文件上使用该函数。
with open('heart.csv') as f:for i, line in enumerate(f):if i == 10:breakprint(line)03 通过函数返回多个值
下面的代码部分是一个示例函数,它根据学生的 id 号将学生的名字和姓氏作为元组返回。
# 返回元组 def get_student(id_num):if id_num == 0:return '君', '云朵'elif id_num == 1:return '猴子', '小'else:raise exception('没有学生的id是: {}'.format(id_num))当我们使用数字 0 调用函数时,我们注意到它返回一个具有两个值的元组:'taha' 和 'nate' 。
student = get_student(0) print('名字: {}, 姓氏: {}'.format(student[0], student[1]))输出
# 返回字典 def get_data(id_num):if id_num == 0:return {'first_name': '君', 'last_name': '云朵', 'title': '数据studio', 'department': 'a', 'date_joined': '20201001'}elif id_num == 1:return {'first_name': '猴子', 'last_name': '小', 'title': '机器学习研习院','department': 'b', 'date_joined': '20201019'}else:raise exception('没有员工的id是: {}'.format(id_num))当结果是字典时,通过键引用特定值会更容易。我们正在调用 id_num = 0 的函数。
employee = get_data(0) print('first_name: {}, nlast_name: {}, ntitle: {}, ndepartment: {}, ndate_joined: {}'.format(employee['first_name'], employee['last_name'], employee['title'], employee['department'], employee['date_joined']))输出
first_name: 君, last_name: 云朵, title: 数据studio, department: a, date_joined: 2020100104 像在数学中一样比较多个数字
如果有一个值并希望将其与其他两个值进行比较,可以使用以下基本数学表达式: 1
这就是我们在小学学到的代数表达式。同样的语句也可以在 python 中使用。你应该用过如下的比较方式:
在 python 中实现上述比较方式的另一种比较方法是:1
05 将字符串转换为字符串列表
输入 = [[1, 2, 3], [4, 5, 6]]其实无需处理复杂的正则表达式,只需导入模块'ast'并调用其函数literal_eval:
import ast def string_to_list(string):return ast.literal_eval(string) string = "[[1, 2, 3],[4, 5, 6]]" my_list = string_to_list(string) print(my_list)输出
[[1, 2, 3], [4, 5, 6]]06 for-else 方法
此方法用于在列表上应用循环。通常,当你想遍历你应用的列表时,可以使用 for 循环。但是在这种方法中,你可以在循环中传递一个 else 条件,这种情况极为罕见。其他编程语言不支持这种方法。
number_list = [1, 3, 7, 9,8]for number in number_list:if number % 2 == 0:print(number)breakelse:print("no even numbers!!")输出
8如果找到偶数,则将打印该数字,并且 else 部分将不会执行,因为我们传递了一个 break 语句。如果 break 语句从不执行,则 else 块将执行。
07 从列表中找到n个最大/小的元素
通过使用'heapq'模块,你可以从列表中找到 n-largest 或 n-smallest 元素。
import heapq numbers = [80, 25, 68, 77, 95, 88, 30, 55, 40, 50] print(heapq.nlargest(5, numbers)) print(heapq.nsmallest(5, numbers))输出
[95, 88, 80, 77, 68] [25, 30, 40, 50, 55]08 函数参数以列表值传递
def summation(*arg):sum = 0for i in arg:sum = ireturn sum result = summation(*[8,5,10,7]) print(result)输出
3009 重复整个字符串
value = "数据studio" print(value * 3) print("-" *31)输出
数据studio数据studio数据studio ----------------------------10 从列表中找到元素的索引
cities= ['vienna', 'amsterdam', 'paris', 'berlin'] print(cities.index('berlin'))输出
311 在同一行中打印多个元素
print("数据", end="") print("studio") print("数据", end=" ") print("studio") print('data', 'science', 'machine', 'learning', sep=', ')输出
数据studio 数据 studio data, science, machine, learning12 分隔大数字以易于阅读
print(5_000_000_000_000) print(7_543_291_635)输出
5000000000000 754329163513 反转列表的切片
sentence = "数据studio 云朵君" print(sentence[21:0:-1]) # 向前走两步 print(sentence[21:0:-2])输出
君朵云 oiduts据 君云odt据14 "is" 和 "==" 的区别
list1 = [7, 9, 4] list2 = [7, 9, 4] print(list1 == list2) print(list1 is list2) list3 = list1 print(list3 is list1)输出
true false true第一个语句是 true,因为 list1 和 list2 都持有相同的值,所以它们是相等的。第二个语句为 false,因为值指向内存中的不同变量,第三个语句为 true,因为 list1 和 list3 都指向内存中的公共对象。
15 在一行代码中合并 2 个字典
first_dct = {"london": 1, "paris": 2} second_dct = {"tokyo": 3, "seol": 4} merged = {**first_dct, **second_dct} print(merged)输出
{‘london’: 1, ‘paris’: 2, ‘tokyo’: 3, ‘seol’: 4}16 识别字符串是否以特定字母开头
如果你需要知道字符串是否以特定字母开头,那么你可以使用常见的索引方法。但是你也可以使用一个名为 'startswith' 的函数,它会告诉你一个字符串是否以特定的单词开头。
sentence = "data studio" print(sentence.startswith("d")) print(sentence.startswith("o"))输出
false true17 获取字符的unicode
如果你需要知道一个字符的 unicode,那么你需要使用一个名为'ord'的函数,并在函数中传递你想知道其 unicode 的字符。
print(ord("t")) print(ord("a")) print(ord("h")) print(ord("a"))输出
84 65 104 9718 获取字典的键值对
cities = {'london': 1, 'paris': 2, 'tokyo': 3, 'seol': 4} for key, value in cities.items():print(f"key: {key} and value: {value}")输出
key: london and value: 1 key: paris and value: 2 key: tokyo and value: 3 key: seol and value: 419 在数学运算中使用布尔值
false被视为 0,true被视为 1
x = 9 y = 3 outcome = (x - false)/(y * true) print(outcome)输出
3.020 在列表的特定位置添加值
如果你想使用'append' 功能向列表添加值,但它会在列表的最后位置添加一个值。如果你想在列表的特定位置添加值怎么办?你可以使用名为 'insert' 的函数在列表的特定位置插入值。
list_name.insert(position, value)
cities = ["london", "vienna", "rome"] cities.append("seoul") print("after append:", cities) cities.insert(0, "berlin") print("after insert:", cities)输出
after append: ['london', 'vienna', 'rome', 'seoul'] after insert: ['berlin', 'london', 'vienna', 'rome', 'seoul']21 过滤器 filter() 函数
filter(function, iterator)
mixed_number = [8, 15, 25, 30,34,67,90,5,12] filtered_value = filter(lambda x: x > 20, mixed_number) print(f"before filter: {mixed_number}") print(f"after filter: {list(filtered_value)}")输出
before filter:[8, 15, 25, 30, 34, 67, 90, 5, 12] after filter:[25, 30, 34, 67, 90]22 创建没有参数边界的函数
def multiplication(*arguments):mul = 1for i in arguments:mul = mul * ireturn mul print(multiplication(3, 4, 5)) print(multiplication(5, 8, 10, 3)) print(multiplication(8, 6, 15, 20, 5))输出
60 1200 7200023 一次迭代两个或多个列表
你可以使用 enumerate 函数迭代单个列表,但是当你有两个或多个列表时,你也可以使用'zip()'函数迭代它们。
capital = ['vienna', 'paris', 'seoul',"rome"] countries = ['澳大利亚', '法国', '韩国',"意大利"] for cap, country in zip(capital, countries):print(f"{cap} 是 {country} 的首都")输出
vienna 是 澳大利亚 的首都 paris 是 法国 的首都 seoul 是 韩国 的首都 amsterdam 是 意大利 的首都24 改变句子中字母的大小写
sentence = "data studio" changed_sen = sentence.swapcase() print(changed_sen)输出
data studio25 检查对象使用的内存大小
要检查对象使用的内存,首先导入 'sys' 库,然后使用该库中名为 'getsizeof' 的方法。它将返回对象使用的内存大小。
import sys mul = 5*6 print(sys.getsizeof(mul))输出
2826 map() 函数
'map()' 函数用于特定的功能应用到一个给定的迭代器。
map(function, iterator)
values_list = [8, 10, 6, 50] quotient = map(lambda x: x/2, values_list) print(f"before division: {values_list}") print(f"after division: {list(quotient)}")输出
before division:[8, 10, 6, 50] after division:[4.0, 5.0, 3.0, 25.0]27 反转整个字符串
value = "oiduts atad" print("reverse is:", value[::-1])输出
reverse is: data studio28 代码块的执行时间
%%time sentence = " data studio." changed_sen = sentence.swapcase() print(changed_sen)输出
data studio. cpu times: user 145 µs, sys: 578 µs, total: 723 µs wall time: 1.04 ms29 删除字符串的左侧或右侧字符
有两个函数称为 'rstrip()' 和 'lstrip()','rstrip()' 用于从字符串右侧删除某个字符,而 'lstrip()' 用于从字符串左侧删除某个字符。两个函数的默认值都是空格。但是你可以传递你的特定字符以将它们从字符串中删除。
sentence1 = "data studio " print(f"after removing the right space: {sentence1.rstrip()}") sentence2 = " data studio" print(f"after removing the left space: {sentence2.lstrip()}") sentence3 = "data studio .,bbblllg" print("after applying rstrip:", sentence3.rstrip(".,blg"))输出
after removing the right space: data studio after removing the left space: data studio after applying rstrip: data studio你可以通过在其中运行 for 循环来计算元素在列表中出现的次数。但是你可以更轻松地做到这一点,只需调用名为'count'的列表中的方法即可。
cities= ["amsterdam", "berlin", "new york", "seoul", "tokyo", "paris", "paris","vienna","paris"] print("paris appears", cities.count("paris"), "times in the list")输出
paris appears 3 times in the list30 在元组或列表中查找元素的索引
cities_tuple = ("berlin", "paris", 5, "vienna", 10) print(cities_tuple.index("paris")) cities_list = ['vienna', 'paris', 'seoul',"amsterdam"] print(cities_list.index("amsterdam"))输出
1 331 清空列表或集合中元素
cities_list = ['vienna', 'paris', 'seoul',"amsterdam"] print(f"before removing from the list: {cities_list}") cities_list.clear() print(f"after removing from the list: {cities_list}") cities_set = {'vienna', 'paris', 'seoul',"amsterdam"} print(f"before removing from the set: {cities_set}") cities_set.clear() print(f"after removing from the set: {cities_set}")输出
before removing from the list: ['vienna', 'paris', 'seoul', 'amsterdam'] after removing from the list: [] before removing from the set: {'seoul', 'amsterdam', 'paris', 'vienna'} after removing from the set: set()32 连接两个集合
set1 = {'vienna', 'paris', 'seoul'} set2 = {"tokyo", "rome",'amsterdam'} print(set1.union(set2))输出
{'seoul', 'rome', 'paris', 'amsterdam', 'tokyo', 'vienna'}33 根据频率对列表的值排序
首先,使用名为 collections 的模块中的'counter'来测量每个值的频率,然后对计数器的结果应用名为'most_common'的方法,根据频率对列表中的值进行排序。
from collections import counter count = counter([7, 6, 5, 6, 8, 6, 6, 6]) print(count) print("根据频率对值进行排序:", count.most_common())输出:
counter({6: 5, 7: 1, 5: 1, 8: 1}) 根据频率对值进行排序:[(6, 5), (7, 1), (5, 1), (8, 1)]34 从列表中删除重复值
cities_list = ['vienna', 'paris', 'seoul',"amsterdam","paris","amsterdam", "paris"] cities_list = set(cities_list) print("从列表中删除重复值后:", list(cities_list))输出
从列表中删除重复值后:['vienna', 'amsterdam', 'seoul', 'paris']35 列表中元素连接为句子
words_list = ["数据", "studio", "云朵君"] print(" ".join(words_list))输出
数据studio云朵君36 一次从函数返回多个值
可以在 python 中做到一次从一个函数返回多个值。
def calculation(number):mul = number*2div = number/2summation = number 2subtract = number-2return mul, div, summation, subtract mul, div, summation, subtract = calculation(10) print("乘法:", mul) print("除法:", div) print("加法:", summation) print("减法:", subtract)输出
乘法: 20 除法: 5.0 加法: 12 减法: 837 找出两个列表之间的差异
cities_list1 = ['vienna', 'paris', 'seoul',"amsterdam", "berlin", "london"] cities_list2 = ['vienna', 'paris', 'seoul',"amsterdam"] cities_set1 = set(cities_list1) cities_set2 = set(cities_list2) difference = list(cities_set1.symmetric_difference(cities_set2)) print(difference)输出
['berlin', 'london']38 将两个列表合并为一个字典
首先,在这两个列表上应用 zip 函数,然后将 zip 函数的输出转换为字典。你的工作已完成,将两个列表转换为一个字典就是这么容易。
number = [1, 2, 3] cities = ['维也纳', '巴黎', '首尔'] result = dict(zip(number, cities)) print(result)输出
{1:'维也纳', 2:'巴黎', 3:'首尔'}39 执行字符串表示的代码
s = "print('helloworld')" r = compile(s,"输出
helloworld40 字符串格式化
格式化输出字符串,format(value, format_spec)实质上是调用了value的format(format_spec)方法。
print("i am {0},age{1}".format("tom",18))输出
i am tom,age183.1415926{:.2f}3.14保留小数点后两位
3.1415926 | {: .2f} | 3.14 | 带符号保留小数点后两位 |
-1 | {: .2f} | -1 | 带符号保留小数点后两位 |
2.71828 | {:.0f} | 3 | 不带小数 |
5 | {:0>2d} | 5 | 数字补零 (填充左边, 宽度为2) |
5 | {:x<4d} | 5xxx | 数字补x (填充右边, 宽度为4) |
10 | {:x<4d} | 10xx | 数字补x (填充右边, 宽度为4) |
1000000 | {:,} | 1,000,000 | 以逗号分隔的数字格式 |
0.25 | {:.2%} | 25.00% | 百分比格式 |
1000000000 | {:.2e} | 1.00e 09 | 指数记法 |
18 | {:>10d} | ' 18' | 右对齐 (默认, 宽度为10) |
18 | {:<10d} | '18 ' | 左对齐 (宽度为10) |
18 | {:^10d} | ' 18 ' | 中间对齐 (宽度为10) |
以上是尊龙凯时首页为你收集整理的数据科学家提高效率的 40 个 python 技巧的全部内容,希望文章能够帮你解决所遇到的问题。
- 上一篇:
- 下一篇: